Текст
                    МАТЕМАТИЧЕСКАЯ
ТЕОРИЯ
ПЛАНИРОВАНИЯ
ЭКСПЕРИМЕНТА

СПРАВОЧНАЯ МАТЕМАТИЧЕСКАЯ БИБЛИОТЕКА МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА Под редакцией С. М. ЕРМАКОВА МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИ1Ю-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 1983
22.18 М 33 УДК 519.6 КОЛЛЕКТИВ АВТОРОВ? ЕРМАКОВ С. М., БРОДСКИЙ В. 3., ЖИГЛЯВСКИЙ А. А., КОЗЛОВ В. П., МАЛЮТОВ М. Б., МЕЛАС В. Б., СЕДУНОВ Е. В., ФЕДОРОВ В. В. Математическая теория планирования эксперимента./Под редакцией С. М. Ермакова.— М.: Наука. Главная редакция физико-математической ли- тературы, 1983.— 392 с. Книга содержит систематическое изложение методов планирования эксперимента, применяющихся при решении широкого класса прикладных задач. Опа представляет собой справочное руководство, посвященное кругу вопросов, связанных с математическими методами планирования экспери- ментов. Справочник предназначается для математиков, развивающих тео- рию оптимального планирования экспериментов, инженеров и научных ра- ботников из других областей науки и техники, применяющих методы этой теории в практических задачах. Рис. 2. Табл. 3. Библ. 196 назв. м 170207Q000—166 65 83 053 (02)-83 Издательство «Наука». Главная редакция физико-математической литературы, 1983
ОГЛАВЛЕНИЕ Предисловие 6 Введение ............................... 9 Глава 1. Сведения из статистической теории оценивания • . « 18 § 1. Параметрические задачи статистического оценивания . . . 18 § 2. Линейная регрессионная модель....................... . 23 § 3. Линейный регрессионный анализ при наличии априорной ин- формации о параметрах . . ' . . . . • . » • • 34 § 4. Нелинейная регрессионная модель ._ . . ‘. . . . . 40 Глава 2. Теория эквивалентности к двойственности в задачах пла- нирования регрессионных экспериментов , . . . . . . 50 §' 1 . Основные понятия . . . , . . ’ . . .. . . 50 § 2. Свойства информацинной матрицы ........ 53 § 3. Необходимые и достаточные условия оптимальности для вы- пуклых критериев оптимальности . ....................54 § 4. Критерий D-оптимальности и теорема Кифера — Вольфовица 57 § 5. Линейные критерии оптимальности . . . . . 59 § 6. Критерии минимаксного типа...............................61 § 7. Теория двойственности * ....................63 § 8. Общая теорема эквивалентности............................65 . § 9. Теория двойственности для D- и Е-критериев, ..... 67 Глава 3. Аналитическая теория оптимальных непрерывных планов 69 § 1. D- и G-оптимальные планы в одномерном случае » 69 § 2» D- и G-оптимальные планы в многомерном случае ... 71 § 3. Оптимальные планы для оценки одного параметра . . . 80 § 4. Линейно оптимальные планы.............................; 84 § 5. Асимптотически оптимальйые планы . ................87- Г л а в зг 4. Численные методы оптимизации и построения оптималь- ных планов ............................................... , 95 § 1. Построение непрерывных оптимальных планов .... 95 . § 2. Дискретные точные плайы . . . ..................... 99 § 3. Методы поиска локального экстремума ...................101 § 4. Поиск глобального экстремума........................ . ПО § 5. Оптимальные решения многокритериальных задач . . . 125 Глава 5. Последовательное планирование экспериментов « . .131 § 1. Основные, понятия последовательного планирования . . . 131 § 2. Нижние границы для квадратичного риска оценивания с из- вестной регулярной плотностью . . ? ~ 134 § 3. Нижние границы для квадратичного риска последовательной стратегии оценивания параметров регрессии s t. . 136 '3
§ 4. Асимптотически оптимальные последовательные планы для оценивания параметров регрессии..............................138 § 5. Последовательное планирование эксперимента пр’и проверке гипотез...................*. . . . ....... 140 § 6. Байесовские и минимаксные оптимальные планы для оцени- вания параметров нелинейной регрессии........................143 Глава 6. Учет неадекватности в задачах планирования регрессион- ных и имитационных экспериментов..................'. . . . 148 § 1. Критерии оптимальности и планы, связанные с неадекватно- стью модели . .....................................148 § 2. Рандомизованные процедуры планирования и анализа регрес- к сионпого эксперимента . . ..........................155 § 3. Оптимальное несмещенное планирование при условии, что функция регрессии принадлежит конечномерным прострапст- 5 вам функций .......................*. '. •. *. -. * 161 § 4. Имитационные модели и планирование эксперимента . . 181 Глава 7. Задачи планирования эксперимента с областью действия в функциональном пространстве . . . ..................18В § 1. Модель регрессии, область планирования и план в функцио- нальном пространстве . . . ................189 § 2. Врсстановление, функционалов плана . . . , , . . 192 § 3. Регрессионный эксперимент в Пространстве обобщенных мер . 197 § 4. Примеры оптимальных планов для оценивания параметров распределений . ...............202 § 5. Планы для оценивания одного из параметров регрессии, связь с теорией наилучших приближений 205 Глава 8. Некоторые задачи планирования экспериментов для слу- чайных процессов и полей........................................209 § 1. Планирование регрессионного эксперимента с коррелирован- ными наблюдениями . . . . ’........................209 § 2. Оптимальная интерполяция случайных полей второго порядка 214 Глава 9. Планирование экспериментов, связанных с обратными за- дачами математической физики . . . . . . . . . . 216 § 1. Общая постановка обратной задачи, связанной с регрессион- ным экспериментом............................................216 § 2. Планирование экспериментов для некоторых классов обрат- ных задач , . ......................233 Глава 10. Факторные модели f ....................................246 § 1. Основные определения и вспомогательные результаты '. . 247 § 2. Факторные модели для количественных факторов . . . 253. § 3. Факторная модель для качественных факторов «... 257 § 4. Смешанная факторная модель ......... 259 Глава И. Эффективность факторных планов..........................264 § 1. Критерии оптимальности . . . . ...... 264 § 2. Оптимальность регулярных планов . . ,...................266 § 3. Классификация регулярных планов , , 268 Глава 12. Геометрические планы t * 272 § 1. Расщепление степеней свободы в полном плане .... 272 § 2. Геометрический метод построения дробных планов . . . 275 § 3. Обратная задача построения геометрических планов . . . 279 § 4. Частные методы построения ,4. « 283 4
Глава 13. Негеометрические планы 5 , 287 § 1. Симметричные регулярные планы ... . 287 § 2. Несимметричные регулярные планы........................291 § 3. Нерегулярные планы............................ . . . 298 Глава 14. Планирование экстремальных экспериментов ♦ . . . 306 § 1. Сходимость и скорость сходимости итеративных алгоритмов 306 § 2. Сходимость итеративных алгоритмов в задачах условной оп- . типизации............................................... 316 § 3. Оптимальность итеративных алгоритмов...................322 § 4. Некоторые алгоритмы планирования экстремальных экспери- ментов .......................................... > . , 329 Глава 15. Планирование отсеивающих экспериментов . » . , 348 § 1. Основные понятия..................................... 348 § 2. Слабо разделяющие планы . ... . , . . . . . 352 § 3. Сильно разделяющие планы . . . . , .... 358 Глава 16. Дискриминирующие эксперименты . ..... 366 § 1. Постановка задачи . . •..............................366 § 2. Свойства Т-оптимальных планов . . . . 4 . . . 368 § 3. Построение Т-оптимальных планов........................373 Литература . ................................................. 378 Предметный указатель « 386
ПРЕДИСЛОВИЕ Значительное число математических работ, имеющих целью решение задач, связанных с оптимизацией условий протекания эксперимента, обусловили издание настоящей книги в серии «Справочная математическая библиотека». Можно добавить так- же, что многие из упомянутых работ содержат глубокие и кра- сивые математические результаты и что с точки зрения принятой классификаций разделов математики результаты, связанные с планированием эксперимента, часто принадлежат различным разделам. Последнее обстоятельство делает особенно актуальным издание справочного руководства, охватывающего основные фак- ты, относящиеся к математической теорий планирования экспе- римента. Авторы сознательно имели дело с математическими моделями эксперимента и не затрагивали вопросы, связанные с какими- либо* экспериментальными устройствами. Книга также сравни- тельно бедна примерами конкретных планов, ибо ее предметом является методика построения планов. . Основное содержание современной теории планирования экс- перимента составляет теория конструирования критериев опти- мальности и решения получаемых экстремальных задач постоль- ку, поскольку последние обладают определенным своеобразием. Наличие случайной ошибки в экспериментальных данных обу- словливает первостепенную роль математической статистики при конструировании критериев оптимальности. Очевидно также, что при изучении регрессионного эксперимента важную роль играют методы теории аппроксимации. Перечисленные вопросы и со- ставляют основное содержание книги. . ' Естественным в теории планирования эксперимента оказы- вается также многокритериальных подход. По-видимому, впервые с точки зрения этогсь подхода удается трактовать с единых по- зиций ряд разнородных задач планирования эксперимента, и ав- торы использовали это обстоятельство при написании данной книги. В соответствии с традицией изложение начато с классическо- го регрессионого анализа и планирования регрессионного экспе- римента при отсутствии систематической погрешности, но мате- риал, относящийся к учету априорной информации о коэффици- 6 -
ептах регрессии и планировании регрессионного экспермента с учетом систематической ошибки, уже имеет непосредственную связь с многокритериальным подходом. Методы оптимизации (в том числе векторной!) являются не- обходимым разделом теории планирования эксперимента. При этом они, "с одной стороны, являются средством минимизации построенных критериев, а с другой, имеют самостоятельное зна- . чение при решении ’ задач теории оптимального ’ эксперимента. Эти две стороны взаимосвязаны при изложении. Авторский коллектив уделял большое внимание вопросам планирования эксперимента при изучении свойств операторов, когда в качестве множеств их определений и значений фигури* руют множества функций,— может быть, даже в ущерб некото- рым задачам, связанным с классической регрессионной моделью. Ограниченный объем книги не позволил в равной мере охва- тить все разделы математической теории планирования экспери- мента, а на отборе материала не могли не сказаться научные интересы авторов, которые сформировались под несомненным вли- янием классической теории статистического эксперимента с одной стороны и новых подходов к решению широкого круга прикладных задач, развиваемых академиком Г. И, Марчуком, с другой. Основное внимание в книге уделено регрессионному экспери- менту и его обобщениям. Вопросы, связанные с факторными моделями (особенно последние результаты в этой области) нашли меньшее отражение: они затронуты лишь в той мере, в какой имеется тесная связь между этими двумя типами эксперимента.. Вероятно, математические методы построения факторных планов и приложения этих планов заслуживают отдельного справочного руководства. Книга является коллективным трудом. Тем не менее за со- держание разных глав ответственность несут разные лица: пре- дисловие,, введение — С. М. Ермаков; гл. 1 — С. М. Ермаков (§§ 1—3>, А.* А. Жиглявский (§§ 1, 2, 4), М. Б. Малютов (§ 4), .В. Б. Мелас (§ 3), Е. В. Седунов (§ 2); гл. 2 — В. В. Федоров (§§ 1—6), В. Б. Мелас (§§ 7—9); гл. 3 — Е. В. Седунов (§§ 1— 4), С. М. Ермаков, А. А. Жиглявский, В. П. Козлов (§ 5); гл. 4— В. В. Федоров (§§ 1, 2), А. А. Жиглявский (§§ 3—5); гл. 5 — М. Б. Малютов (§§ 1—5), В. В. Федоров, В. Б. Мелас (§ 6); гл. 6 — С. М. Ермаков (§§ 1, 2, 4), Е. В. Седунов (§ 3); гл. 7— 9 — В. П. Козлов; гл. 10—13 — В. 3. Бродский; гл. 14 — А. А. Жи- глявский; гд. 15 — М. Б. Малютов; гл. 16 — В. В. Федоров. Следует отметить, что при систематизации достаточно обшир- ного материала, составившего содержание книги, удалось уста- новить новые связи между известными результатами, что рав- носильно в ряде случаев получению новых результатов. Удалось -также наметить новые подходы и постановки задач. Сказанное относится, главным образом, к §§ 4.4, 5.1—5.5, гл. 9, и частично к введению, §§ 3.5, 6.1, 6.2, 6.4, 14.4, гл. 7 и 15. 7
Относительно применяемой нумерации следует заметить, что при ссылке на параграфы, формулы, теоремы и алгоритмы из других глав первое число обозначает номер главы; при ссылке на пункт его номер записывается в одной из трех форм: а. б. в, б. в или в, где а — номер главы (опускается, если ссылка на пункт внутри главы), б —номер параграфа (опускается при ссылках внутри параграфа), в — номер пункта. Литература дана общим списком. Ссылки, как правило, при- ведены в конце каждого параграфа. Литература по планированию эксперимента* чрезвычайно обширна, и авторы не пытались ее полностью охватить. Работы, в которых можно найти обзоры по отдельным разделам теории планирования эксперимента, отме- чены звездочкой. Авторы благодарны Л. И. Бродскому, М. С. Ермакову, А. В. Иванову, А. П. Коростелеву, М. В. Терентьевой, приняв- шим участие в написании отдельных пунктов, В. В. Налимову и В. В. Пененко, в немалой степени способствовавшим написа- нию книги* Ct М, Ермаков
ВВЕДЕНИЕ 1. Обычно под экспериментом понимают создание некоторого комплекса условий Я, в результате которых могут наступать или пе наступать события из некоторого, заданного множества S3, и поэтому предметом теории эксперимента служит изучение ото- бражения множества Я элементов, именуемого комплексом уело* вий, на множество событий результатов эксперимента S3. Если результат эксперимента зависит от случая, то экспери* мент называют статистическим. При описании такого экспери* мента без каких-либо оговорок мы будем пользоваться средства* ми и терминами теории вероятностей и математической стати- стики. Можно сразу же заметить, что понятие случайной функции у(х, со), где я —параметр из заданного множества X, а о —элементарное событие из й при заданной а-алгебре ® и вероятностной мере Р, является достаточно общим для наших целей, а эксперимент, результатом которого являются реализа- ции этой функции при фиксированных значениях параметра х, достаточной общей моделью эксперимента. Переходя от реальных экспериментальных устройств к мате- матическому описанию, мы по понятным причинам неизбежно говорим о математической модели эксперимента. С появлением ЭВМ возникло понятие имитационного экспе- римента, который направлен не на изучение, природы, а на изу- чение достаточно сложной (имитационной) модели, Такая модель часто также требует имитации случайности и, несмотря на прин* ципиальное различие между экспериментом, имеющим дело о природой, и имитационным экспериментом, широкий .класс по- следних также укладывается в схему получения реализаций случайной функции у(х, о) при заданных значениях х. Ясно тем не менее, что не всякий эксперимент следует относить к числу статистических. Прежде всего следует выделить класс экспериментов, где влияние случая пренебрежимо. И хотя фор- мально результаты, получерные для статистических моделей, справедливы и для детерминированных, постановки задач и ме- тоды исследования здесь другие. Можно выделить тадже экспе- риментальные ситуации, в которых об ошибке, измерений извест- но, что она не превосходит заданной величины, но невозможно 9
получить сведения о ее распределении. Здесь методы исследо- вания также могут быть не связаны с теорией вероятностей. Наконец, можно упомянуть о нечетком задании условий экспе- римента; Было бы неразумным претендовать на какую-либо полную классификацию экспериментов, но важно отметить их разнооб- разие. Для нас далее будут представлять интерес эксперименты, которые можно планировать. Возможность планирования эксперимента обусловлена тем обстоятельством, что во многих случаях' экспериментатор может получить интересующий его результат при различном, вообще говоря, комплексе условий 31. Обозначим множество таких 81 че- рез 91(g), где g^E, Е —некоторое множество условий, и g может быть дополнительно выбрано экспериментатором. Если множество Е не пусто и стоимость эксперимента $ (ма- териальные затраты) зависит от параметра'g^ = то такой эксперимент называют активным. Здесь уместно заметить, что материальные затраты на эксперимент зависят, как" правило, от величин, определяемых в процессе эксперимента, и априори не могут быть* подсчитаны. По этой причине априорные сведения о данных эксперимента используются для конструирования с использованием сведений о 5(g) критерия качества эксперимента Ф(£), зависящего уже только от g. Естественно предполагать ограниченность O(gl) снизу на множестве Е и требовать такого его определения^ при котором в Е существует g0, обладающее свойством Лб = arg inf Ф (£). . (1) gss Параметр g называют планом эксперимента, а его значение g0, удовлетворяющее соотношению (1), оптимальным планом по от- ношению к критерию Ф. * Многие экспериментальные ситуации таковы, что нельзя (по крайней мере без дополнительных экспериментов) задать один критерий оптимальности, но можно указать множество критери- ев {®a(g)}, каждый из которых желательно минимизировать выбором g. При этих условиях задача планирования многокри- териальна. С помощью векторного критерия {®«(g)} планы мо- гут быть частично упорядочены. Вводимое отношение порядка будем называть доминируемостъю по отношению к критерию {Ф«(£)>. - Для g и g' из Е будем говорить, что g доминирует g' в Е по •отношению к {Фа}, если Oa(g) Oa(g') для всех а и хотя бы для одного a = а» Фа<; (£) < Ф«в (£') • Множество Ео тех g, для которых в Е нет доминирующих по отношению {Фа), называется множеством Парето критерия {Фа1. Оптимальным по Парето называется всякий план g из мно- жества Ео. ю
Если % является точкой n-мерного евклидова пространства, teR’1, и а принимает конечное число s значений а«1, 2, t#.s, каждый критерий Фа(£) — выпуклая функция £, то множество Парето-критерия {Фа(£Л является, вообще говоря, ($—D-мер- ным многообразием и определяется как множество решений еле* дующей задачи; ArgmaxS ХаФа (£), (2) £ а где Ха >0 — вещественные параметры (один из них может быть фиксирован). Если выпуклость всех Фа(£) не имеет места, то точки пара- метрического множества (2) принадлежат множеству Парето, по множество Парето в этом случае может содержать точки, не яв- ляющиеся решением задачи (2) ни при каких значениях пара- метров Ха. Очевидно, выделение множества Парето позволяет отбросить заведомо «плохие» по отношению к ^критерию {фа} планы — те, для которых в 3 существуют планы их доминирую- щие. Формулировка задачи нахождения плана эксперимента в многокритериальной постановке часто является важным этапом при построении единого критерия оптимальности. Если требо- вания различных критериев Фа к оптимальному плану отлича- ются незначительно, то в сущности безразлично какой из Фа мы выберем в качестве единого критерия, .Если же требования су- щественно различны, то проведение дополнительных экспери- ментов обычно позволяет понять, насколько улучшение: плана в смысле одного из критериев ухудшает другие критерии, и оста- новиться на некотором «компромиссном» критерии. Для выпук- " лых Фа компромиссный критерий обычно выбирается в виде их линейной комбинации. Другим типом компромиссного критерия является критерий sup Фа (£). • а Можно утверждать, что специфической задачей теории пла- нирования эксперимента является" конструирование критерия его оптимальности. Второй задачей является'экстремальная (мо- жет быть очень сложная) задача. Можно выделять некоторые классы экстремальных задач теории планирования эксперимента, допускающих специальные методы исследования, но роль общей теории решения экстремальных задач приуменьшить нельзя. В соответствии с этой точкой зрения во Введении (как и во всей книге) основное внимание уделяется критериям оптимальности, их конструированию и их свойствам. . 2. Как уже. отмечалось, при конструировании критерия важ- ную роль играет * априорная информация, находящая своё отра-’ женись в высказываемой экспериментатором гипотезе модели изу- чаемого явления. Понятия «модель» и «априорная информация» играют зна- чительную роль в планировании эксперимента и неоднократно встречаются в книге. Под априорной информацией обычно по* 11
нимают все, что известно экспериментатору до проведения экс- перимента об изучаемом в процессе эксперимента явлении. Это обычно физические представления (если эксперимент физиче- ский) и анализ данных предшествующих экспериментов или близких по характеру экспериментов. Для применения матема- тической теории требуется формализация этой информации — ее учет при построении критерия оптимальности эксперимента и модели. Здесь уместно более конкретно обсудить высказанные сооб- ражения, конкретизировав характер эксперимента. Рассмотрим более подробно уже упоминавшийся случай, когда результатом эксперимента является реализация (числовой) слу- чайной функции у = у(х, со), х е X cz R\ Если получение при фиксированных х^ из X (/ = 1, ..., АГ) значений yj — ykxj, со,) имеет целью восстановление в X функ- ции Еу(х, со) —ц(ж)^ то такой эксперимент относят к числу так называемых регрессионных. Известно, что без дополнительной информации о гладкости функции ц(#) задача ее. восстановления по наблюдаемым с ошиб- ками значениям не имеет смысла. Следовательно, задача для своей корректной постановки требует «априорной информации» — указа- ния множества S функций, которому априори принадлежит ц(як Наиболее простым случаем является случай параметрического задания — ц(х) == Цо(^, 0). Здесь ц0 — известная функция", а па- раметр 0 из заданного параметрического множества 0 определя- ется по значениям у,. Как правило, считают 0 cz Rm, функцию TjoGr, 6) часто называют регрессионной,, мод елью. Для подбора параметра 0 необходимы также сведения о рас- пределении ошибки е, = 1/(я„ со,)--цСт,). Если совместное распре- деление е, (/ = 1, ».*, N) известно также с точностью до пара- метра х, то задача определения (х,.0) является параметрической задачей математической статистики. Параметр 0 оценивается с помощью статистики 0 (хь xN\ yl9 ..., yN), и — с помощью к(хц . xN; yi9 • »», yN). При этом, как правило, оказывается, что погрешность 0ИСТ — 0 определения истинного значения параметра 0ИСт зависит от выбора точек xl9 *.х^, в кото- рых измеряется (вычисляется)/функция у. Это дает возмож- ность построить критерий качества эксперимента (обычно неко- торую норму ошибки параметра 0) и планировать эксперимент, если экспериментатор может распоряжаться выбором точек xi9 . . Х„. ' Более сложным оказывается случай, когда ЗГ задается свойст- вами гладкости функции ц. В этом случае для восстановления ц нужно использовать либо непараметрические оценки, свойства оптимальности которых при малых W изучены плохо, либр пы- таться подобрать удобный параметрический класс (например, многочленов или сплайн-функций). И в том, и в другом случае мы будем иметь дело с ошибками двух сортов: систематической 12 .
ошибкой (ошибкой модели) и случайной ошибкой (ошибкой оп- ределения параметров модели). Пусть выбрана параметрическая модель и т фиксировано» Имеем следующее разложение погрешности т|(я) — ц0(лг, 0): ц(я) — Т|о(#, 0) ==• (rj(^) — rjo(^, 0ИСТ)] + [т)0(х, 0ист) — Т]о(лтт 0)]< <’ Причем 0ист в данном случае обозначает такое значение пара- метра 0f при котором 0ИСТ) наилучшим образом в выбран- ной. метрике приближает ц(х). Вводя метрику р на множестве функций,, к которому принадлежат т](х) и ц0(х, 0), 0е0, имеем р(цСг) — t]oGr, 0)) С р(цU) — Ц0(я, 0ИСТ» 4- p(l]o(z, 0ист) — 'По(^, 6)). (3) Каждое из слагаемых в правой части этого неравенства можно выбрать в качестве критерия оптимальности эксперимента. Со вторым слагаемым в (3) снова связана параметрическая задача математической статистики, что же касается первого, то оно со- держит неизвестные нам. функции, которые и надлежит восста- новить в процессе эксперимента. Заметим, что 0ИСТ зависит от ц(я) и, может быть, точек, в которых производятся измерения» Подстановка в первое слагаемое вместо ц(^) каждой конкретной функции из множества ЗГ приводит нас к некоторому критерию, зависящему теперь уже только от выбора точек .#*, xN. Так, априорное предположение о том, что ST содержит конечное число п функций, сделает нашу задачу (n+ 1)-критериальной, так что т](я) играет роль индекса а в общей постановке многокритери- альной задачи. В соответствии со сказанным с первым слагаемым связывают один компромиссный минимаксный критерий sup р (ц (х) — Т]о вист)) (4) либо, если на множестве Sf" можно определить меру р, отражаю- щую дополнительные сведения о функции ц, критерий* . f р(п —Па)н(^). (5) называемый байесовским критерием (аналог линейной комбина- ции критериев). После этого остается два критерия, которые определяют оптимальность плана эксперимента. Они могут быть объединены в один (компромиссный), если известно, в какой пропорции они должны быть смешаны, т. е. определена мера на множестве этих двух критериев. Другая возможность состоит в минимизации их максимума. Изложенное может служить примером того, как понятия «модель» и «априорная информация» используются при констру- ировании критерия оптимальности эксперимента. "Как мы увидим далее, критерий, связанный со случайной по- грешностью, также может зависеть от параметров, для которых 13
известно . априори лишь множество, к которому они принадле- жат, т. е. второе слагаемое в (3) также может представлять в нашей трактовке некоторое множество, критериев, для которых нужно разумным образом определить компромиссный. Структура критериев оптимальности в случае измерения зна- чений случайной функции типична для задач планирования эксперимента. Проведенный здесь общий анализ этой структуры позволяет трактовать с общей точки зрения ряд частных случаев. С другой стороны, возможны обобщения, связанные с рассмот- рением параметрических множеств У, X и ST сложной природы (Умножество значений функции у). Полезно заметить, что при отсутствии случайной ошибки пог нятие планирования эксперимента не теряет своего смысла. Остается критерий, отражающий погрешность модели, и стано- вится очевидным, что задача выбора оптимальных узлов интер- поляции, например, укладывается в описанную схему. С этой точки, зрения ясно? что при имитационном эксперименте, в кото- ром исследуется сложная детерминированная модель и па ее основе, строится более простая, понятие планирования экспери- мента может играть важную роль, хотя случайная погрешность при имитации может отсутствовать. Противоположный случай отсутствия систематической ошибки (погрешности модели) срав- нительно хорошо исследован, и именно его часто считают пред- метом планирования эксперимента. Специальные задачи возникают в связи с изучением асимпто- тического поведения критериев оптимальности при увеличении числа экспериментов. Для простоты остановимся на примере по- становки такого рода задачи для упомянутого случая двух кри- териев, характеризующих соответственно систематическую и случайную ошибку.. При возрастании числа экспериментов пара- метрическая модель Цо(#, вист) обладает следующими очевидными свойствами: 4 ’ а) Выражение р(ц —ц0) (а тем более (4) и (5)) не стремится к пулю при фиксированном тп. Стремление систематической по- грешности к нулю возможно лишь при возрастании т с ростом N (т = mW)). " б) Повторение эксперимента в одних и тех же точках не вли- яет на р(ц — Цо), но уменьшает (кроме,, может быть, специальных патологических, случаев) величину случайной составляющей по- грешности. : ’ Кроме выбора при каждом фиксированном N точек наблюде- ния, интерес представляет выбор функции т(Л0, обеспечиваю- щей оптимальный порядок стремления к нулю суммарной погреш- ности. Для компромиссного критерия может быть поставлена и задача об обеспечении оптимального убывания суммарной по- грешности (не только с точностью до порядка). При таком подходе естественным образом может быть исполь- зован аппарат непараметрического оценивания функции ре- грессии. . 14
Перечисленные постановки задач планирования допускают многочисленные обобщения, из которых в первую очередь нужно отметить практически важные случаи, когда X и У являются множествами функций и предметом эксперимента является вос- становление неизвестного оператора. Часто элементы X и Y в этих задачах подчинены ограничениям, типа интегро-дифферен- циальных равенств и это создает специфические особенности при конструировании критерия. Здесь необходимо определять меру на множествах функций, подчиненных сложным ограничениям или находить верхнюю грань функционалов на таких множест- вах, Уместно заметить, что при столь общей трактовке в зада- чах, связанных с изучением динамических систем, теория пла- нирования эксперимента оказывается разделом теории опти- мального управления и должна использовать развитые в теории оптимального управления средства и методы. 3. Результаты в области планирования эксперимента имеют очевидное прикладное значение. Дорогостоящие эксперименты, а также эксперименты, которые невозможно воспроизвести по- вторно, требуют предварительного квалифицированного планиро- вания. С развитием ЭВМ практически любые затраты на числен- ное построение планов могут оказаться оправданными. Раз- личные разделы теории планирования эксперимента в^ на- стоящее время развиты существенно в разной степени, но прак- тические потребности требуют активной разработки всех раз- делов. По-видимому, в ближайшее время следует ожидать появления также новых разделов, при разработке которых су- щественную роль могут играть разделы, ставшие ныне классиче- скими. .Ниже дается_перечень основных разделов теории планирова- ния эксперимента, затронутых в книге, с краткой их характери- стикой. В п. J2 был кратко охарактеризован регрессионный экс- перимент — теория его планирования наиболее развита. Здесь • можно выделить разделы, характеризующиеся следующими ти- пами моделей и критериев (табл. 1). В таблицу не вошли разде- лы, по которым результаты практически отсутствуют. Так, по планированию' эксперимента при наличии систематической по- грешности и нелинейной по параметрам модели регрессии ре- зультаты авторам неизвестны. Следующий по обилию'результатов раздел составляет плани- рование факторного эксперимента, отличающегося от регресси- онного допущением, что независимые переменные могут прини- мать не только количественные, но и качественные значения. Оптимальное планирование здесь приводит к экстремальным задачам на перестановках и других структурах комбинаторного типа. Хотя формально регрессионные задачи можно рассматри- вать с позиции факторных моделей и наоборот, методика иссле- дования в каждом случае индивидуальна. В связи с планированием принято также выделять следующие типы эксперимента. 15
о Ke п/п Вид модели Зависимость от параметров Ошибки наблюдений 1 Параметриче- ская ..Линейная Некоррелированы 2 » » Зависимы с заданной ко- вариационной функ- цией 3 » Другие модели 4 » Нелинейная Различные модели из пп. 1—-3 5 » Линейная Имеют конечйую диспер- сию 6 » .» , То же 7 Линейная и нелинейная Пренебрежимо малы 8 Непараметри- ческа^ То же У Различные модели
Таблица 1 Систематическая ошибка Область изменения кон- тролируемой переменной X Степень изученности проблемы Отсутствует Подмножество Rfe Имеется обширная лите- ратура • » » То же » » • Имеются отдельные ре- зультаты »' » То же Присутствует » Изучены отдельные ча- стные случаи Отсутствует Подмножество функцио- нального пространства Получен ряд результатов, аналогичных результа- там п. 1 Присутствует Подмножество векторно- го метрического прост- ранства Изучается теорией ап- проксимации /наиболь- шее число результатов для случая т = 1 Отсутствует Подмножество функцио- нального пространства Намечены отдельные подходы
Экстремальный эксперимент, задача которого состо- ит в определении экстремальных значений функции регрессии (или комбинации факторов, при которых функция отклика при- нимает экстремальные значения). Методы его планировайия тесно связаны с методами планирования регрессионного и фак- торного экспериментов, с одной стороны, и методами стохастиче- ского программирования, с другой. В этой области имеется об- ширная литература. Эксперимент по проверке конкретной стати- стической гипотезы (дискриминирующий эксперимент). Это сравнительно изученный раздел, который также связан с планированием в регрессионных и факторных моделях. Отсеивающий эксперимент, задача которого состоит в выделении значимых факторов. Теория его планирования ак- тивно развивается в последнем десятилетии. Имитационный эксперимент, который, как правило, связан с имитацией изучаемого явления на ЭВМ или другом устройстве, позволяющем воспроизводить это явление с приемле- мой точностью. Ряд результатов по его планированию получен в связи с использованием метода Монте-Карло, а также иссле- дованием сложных систем (типа моделей ядерного реактора). Перечисленные типы не исчерпывают всего многообразия экс- , периментальных ситуаций, но для них имеются математические модели и методы. Развитие методов анализа этих моделей позво- ляет, как правило, формулировать и исследовать задачи плани- рования эксперимента в более сложных ситуациях. Следует отметить также, что многие из модификаций, анало- . гичных отмеченным в регрессионном эксперименте, свойственны и другим типам эксперимента.
ГЛАВА .1 СВЕДЕНИЯ ИЗ СТАТИСТИЧЕСКОЙ ТЕОРИИ ОЦЕНИВАНИЯ § 1. Параметрические задачи статистического оценивания Задачи планирования эксперимента тесно связаны с задача- ми математической статистики и обычно рассматриваются как ее составная часть. Это обусловлено наличием случайной ошибки эксперимента. С несколько более общей точкой зрения, выска- занной во Введении, статистическая теория дает возможность конструировать критерий качества эксперимента. Подавляющее число содержательных результатов в, теории планирования экс- перимента получено в связи с задачами математической ста- тистики и, более того, в связи с параметрическими ее зада- чами. . Далее кратко излагаются некоторые сведения, связанные с параметрической моделью случайной погрешности, изучаемой статистической теорией. Параметрическая задача оценивания предполагает заданной модель — семейство распределений. Рв с неизвестным параметром 6 из некоторого заданного множества 0. Модель выбирается ста- тистиком, исходя из априорной информации, из свойств, которым должно удовлетворять распределение наблюдаемых случайных величин.. Параметрическая задача оценивания обычно заключается в том, чтобы по совокупности выборочных значений случайной ве- личины оценить значение нужной статистику функции ^(0). Пусть d — оценка для ^(0). Для нахождения погрешности от выбора оценки d значения ^(0) вводится функция потерь q)W, 7(0)). Функция потерь показывает, какой проигрыш будет иметь место, если по выборке S = {х^ ».хп} (xt е X) будет принята оценка d = d(H) при истинном значении параметра 0. Критерием качества оценки является функция риска /?(0, d) = E&(p(d, у(0)). Статистик ищет оценку d, которая удовлетворяет его требова- ниям, т. е. принадлежит определенному классу оценок, и функ- ция риска которой в нужном ему смысле оптимальна или близка к оптимальной. * Обычно функция потерь, критерий оптималь- ности, требования, предъявляемые к оценке, как и сама модель в целом, выбираются из стандартных, широко применяемых в 18
статистике. Так, в качестве функции потерь чаще всего фигури- рует квадратичная (d — у(0))2. Ниже приведены определения и сведения, связанные с наи- более распространенными оценками. ~ 1) Оценка d называется допустимой в классе оценок?®, если нет такой оценкй di е ®, что. 7?(0, dj Ж0, ~d) для всех 0^6 и| Д(0, d,) =5^ 7?(0, d) для некоторого 0^0. Таким образом, если; оценка допустима, то в классе ® не найдется оценки db которая была бы не хуже, чем d для всех 0 и лучше для некоторого 0.: Допустимых оценок обычно существует очень много. 2) Оценка d = arg min max R (0, dA называетсяминимаксной eee в классе оценок ®. При минимаксном подходе статистик исхо- дит из того, что для минимаксной оценки риск в худшем случае оказывается минимальным. 3) Оценка d « arg min [ R (0, dx) л (0) d0 называется байесов- 0 ской для априорной плотности л(0Х в классе оценок Байесовский подход к оцениванию заключается в том, что считается известной априорная информация об истинном значе- нии параметра 0, и эта априорная информация дана в виде не-’ которого априорного распределения на множестве 0. Статистик 1 пытается минимизировать ожидаемые потери, найдя оценку, ми-f нимизирующую математическое ожидание * риска по априорному распределению. 4) Оценка d называется несмещенной, если £'ed = y(0) для всех 0 0. Требование, чтобы, математическое' ожидание оценки давало истинное значение ^(0), представляется довольно ёстест* венным. Величина E$d— у(0) называется смещением оценки. 5) Пусть cp(d, у(0)) = (d — у(0))2. Оценка d называется несме- щенной оценкой с минимальной дисперсией, если для всех 0 е 0 var (d, у (0)) == Eq (d — у (0))2 = min EtQ (dx — у (0))a в классе ®i всех несмещенных оценок. . Для квадратичной функции потерь в классе несмещенных оценок существует граница снизу для функции риска. Ниже сформулирован соответствующий результат для задачи оценива- ния векторного параметра. Теорема 1 (неравенство Крамера —Рао). Пусть {/(В, 0), 0^RW) — семейство плотностей распределения на Хп (относительно некоторой меры v(dB)), б?(0) = (gi(0), •.., gft(0))T — некоторая вектор-функция, САВА — несмещенная оценка G(0), для всех 0 0 существует матрица ®(0) = [dg{(0)/d0j] (i = 1, . Д A, j — 1, ..., тп) частных производных функции GK0),. конец-> ная непрерывная информационная матрица Фишера г/Ач Г p/(S,0)^(S,0) v(dS)l™ W J d0, <?0- /(S,6) • ’ 19 ' 2*
и выполнено условие регулярности в) из [35, с. 931. Тогда, если 7(0) > 0, то E9(G&) - G(0))(G(8) - G(0))r > D(e)Z-1(&)Z)T(0). (1) Два обобщения неравенства (1) содержатся в гл. 5. Отметим, что для случая, когда^элементы xlt хп выборки S независимы, / (S, 9) V (dS) = П ре (dXi) = П Р (*ь 9) И (<&ч) 5=1 5=1 {\ddx) — некоторая мера на X), m д'р(х, 0) др (.г, 0) р (dx) I (0) = п J Ж р (х, 0) X г 3 1,5=1 Оценка G, для которой в С1) достигается знак равенства, на-» зывается эффективной в классе несмещенных оценок, В одномерном случае (m — k — i) (1) означает E(G(х) - G(0)<)2 > [Z)(0)]2/Z(0), a Z(0) называется информационным количеством Фишера. 6) Важным методом улучшения качества оценок является метод перехода к оценкам, зависящим только от достаточных статистик. Статистика Т называется достаточной, если сущест- вуют такие мера v(d8) и измеримая функция что P0(d3) == = geCHSDvWS), где Р0(dB) — распределение выборки 8. Достаточная статистика обладает тем свойством, что она не- сет всю информацию о неизвестном параметре. Математически точный смысл этим словам -придает следующее утверждение. у(0)) = w{d — у(0)), где w — выпуклая функция по- терь, то для всех 0 е 0 и произвольной оценки d имеет место неравенство Ewtd^-^Q)) ^Ew(d где dST)^EQ(d\T). Указанными выше критериями 1)—6) обычно руководствуют- ся для конечных объемов выборок. В такой ситуации очень важ- ную роль играет априорная информация о модели, вид функции потерь, характер требований, предъявляемых к поведению функ- ции риска, несмещенность оценки, выбор класёа оценок, слож- ность вычислений оценки. • Для того чтобы проводить сравнение оценок для больших объемов выборок, предполагается, что существует целая после- довательность оценок dn = dn(xt, хп) (л = 1, 2, .♦.), постро- енных по одному и тому же методу (например, выборочные средние), и изучаются статистические свойства уже последова- тельностей оценок dn. 20
Последовательность оценок dn называется: la) состоятельной или слабо состоятельной, если для всех 9 е 0 оценки dn сходятся по Ре-вероятности к 0,, т. е. для любого а > О lim PQ (| dn — 01 > а) = О п->оо (здесь и в дальнейшем предполагается, что у(0)=0, 0ciRw); 2а) сильно состоятельной, если для всех 0е 0 с Р0-вероят- ностью 1, юценки dn сходятся к 0, т. е. Ре (lim dn = 0\ — 1; Л п J За) состоятельной в среднеквадратичном, если для всех lim Ее (dn — 0)2 = 0; П-*оо 4а) )/п-состоятельной, если для всех 0^0 и для любого >0 найдется такое А >0, что Pe(Vn|dn —01 >Л) <6‘для всех и; 5а) асимптотически нормальной, если для всех 0 е 0 распре- деление случайного вектора —0) сходится при п-^оо к нормальному вектору с нулевым средним и конечной дисперси- онной матрицей 2(0); 6а) асимптотически эффективной в хочке 0О 0, если не су- ществует такой последовательности оценок Ьп, что v г Я0ф(Ьп, 0) lim lim sup -=—уз—— 7а) асимптотически эффективной в 0, если опа асимтотиче- ски эффективна для всех 0 е 0: Ясно, что из выполнения одного из свойств 2а)—4а) следует выполнение свойства 1а). Свойство асимптотической эффектов-, пости обычно является гораздо более сильным свойством, чем свойства 1а)—4а). Если свойства 1а)—4а) в реальных ситуациях- оказываются всегда выполненными, то о свойствах 5а)—7а) это- го сказать нельзя. Интересным является вопрос об оценке снизу границы рисков последовательностей.-В этом направлении для случая ,0 = R1 име- ет место следующий результат. Пусть семейство распределений Р9№Е) имеет непрерывно дифференцируемую по 0 плотность /(3, G) и непрерывное ин- формационное количество Фишера 7(0). Тогда для любых б>0, t R1, произвольной последовательности, оценок dn параметра 0 и любой выпуклой функции потерь w справедливо lim- sup E$w((nl (0))1/2 (dn — 0)) Г w (х) ехр {— | х |2/2} dx. п-хж |0—ti<6 V 2л J (2) 21
Всякая асимптотически эффективная последовательность оце- нок dn после нормирования (wZ-RO))172^ — 0) имеет предельным нормальное распределение Л*(0, 1), ’и для любых двух асимпто- тически эффективных последовательностей оценок Тп^ Тп% по вероятности Уп(Тп^ — Тп^ стремится к.О при п -> °°. Для квадратичной функции потерь неравенство (2) принима- ет вид . ___ lim lim sup nE§ (dn — 0)2 Z”1 (0), 6-»0 П-><х 16—Н<б т. е. граница снизу совпадает с границей, полученной для не- смещенных оценок. Для случая векторного параметра из R™ при аналогичных условиях регулярности неравенство (2) также справедливо с за- меной У2л на (2л)т/2. Наиболее распространенными оценками параметра, для ко- торых при широких предположениях [35] имеет место асимпто- тическая эффективность, являются оценки максимальной вероят- ности е» - arg max Д /(xh 0) л (0), (3) 0 ;=1 , . где л(0) — априорная плотность, задаваемая статистиком. Для случая л(0) = 1 оценка максимальной вероятности называется оценкой максимального правдоподобия. Если Р$ — многомерное нормальное распределение с вектором средних а и ковариацион- ной матрицей Z), то оценками максимального правдоподобия a,D являются выборочные средние и выборочная ковариационная матрица. Если /(я, 0) непрерывно дифференцируема по 0, то оценка максимума правдоподобия есть решение уравнения п 2 dlog/(#j, 0)/d0 =0. По аналогии с оценками максимума прав- ах доподобия были введены ЛЛоценки, как оценки t, являющиеся п . < * решениями уравнений 2 8 Gj, 0 = 0, где g — некоторая функ- ция [35]. Часто оказывается, что неприемлемую из вычислитель- ных соображений или из соображений устойчивости модели оцен- ку максимального правдоподобия можно заменить ^/-оценкой, имеющей предельное нормальное > распределение с- дисперсией, близкой к дисперсии предельного нормального распределения оценки максимума правдоподобия. Отметим, что выше говорилось только о выборе оценок в рам- ках модели, однако статистик должен помнить, что в реальных з.адачах потери, которые он понесет, складываются из потерь в рамках модели и потерь из-за приближенного описания моделью реальной задачи. Литературах § 1: [35] 22
z § 2. Линейная регрессионная модель 1. Основная схема линейного регрессионного анализа. Пусть в точках Xj<aX _(/=»!, п) наблюдаются случайные величи- ны у^ представимые в виде Уз = Т)Uj, 0) + 8j = 0T/Uj) + 8;, где 8j — случайные величины, == 0, Еърт = - tf (/ = = 1, .; м n, 8jr—Символ Кронекера), ц(я, 0) —функция регрессии, зависящая от вектора неизвестных параметров 0 = (0Ь ♦.0т)г из' Rm; /(z) « (AU), , — вектор заданных линейно не- зависимых на множестве X функций; Xi^X (f==lt п). Зада- ча состоит в оценивании 0. В матричных обозначениях У~(У1, ...» Уп)Т, 8 = (8!, • 8п)Г и F == (Л(^), . рассматриваемая схема записывается в виде У = 2^0 +8, где £У = 2?0, и ковариационная матрица DY равна- o2 *Zn, где Zn — единичная матрица. Приведенная схема носит название схемы Гаусса — Маркова и обозначается 5?(F0, a2Zn). Задача оценивания параметров 0Ь л., 0т или линейных функ- ционалов tTQ (f=(^ tm)T0 в линейном регрессионном ана- лизе решается в классе линейных несмещенных оценок. Оценка т векторной параметрической функции т = TQ (где Т — произвольная матрица порядка дХттг) называется линейной, если т = ЛУ, где матрица А (порядка q X п) не зависит от ре- зультатов наблюдений yY, . <уп. Пусть 3)х — класс линейных несмещенных оценок для т. Наилучшей линейной несмещенной (НЛН) оценкой для т на- зывается оценках = Arg min Z)(0), т. е. эффективная в клас- се оценка. . Оценкой метода наименьших квадратов (МНЮ называется оценка 0 = 0П = arg min 2 °Г2 \У, — Я (*л в)К (4) 0=0 .7=1 2. НЛН-оценки. Рассмотрим задачу линейного регрессионного анализа для схемы Гаусса — Маркова ^(Г0, o2Zn) и моделей пол- ного ранга, т. е. таких моделей у которых ранг матрицы F равен числу оцениваемых параметров: rg^Z1) == ш. Теорема 2. Для схемы регрессионного анализа &KFQ, о21п} справедливо: 1) НЛН-оценки параметров 0 существуют, единственны и вы- числяются по формуле 0 = (7гг/г)“17гтУ; . 2) ковариационная матрица оценок 0 равна D(G) = o2(FTF)^; 23
z 3) несмещенной оценкой для дисперсии а2 служит s2 = R2/ /(п-m), где RI=* (Y~FQ)t(Y-Fq) — сумма квадратов остатков; 4) если 0 — любая другая линейная несмещенная оценка для О, то Z)(0)CZ>(0) (и, следовательно, D«(0) <£>«(©) ((»!, ... ...» т), |£>(0)| < |D(0)l); 5) НЛН-оценки совпадают с МНК-оценками, Tt е9 0 = Arg min (У - F0)T(F - F0). ’ (5) 0 Решение задачи (5) сводится к решению системы нормальных уравнений FTFQ ^FTY, которая для моделей полного ранга имеет единственное решение, совпадающее с НЛН-оценками. Минимизации суммы квадратов уклонений (4) можно дать и геометрическую интерпретацию: требуется найти следующее представление (оно всегда существует и единственно) вектора У: У = ^0+(У-Г0), где FQ — проекция У на 3?(F), (Y — FQ) — вектор, ортогональный 37(F), где 37(F) -—линейное подпространство, порожденное столб- цами матрицы К Далее, если разложить FQ по базису S"(F), то вектор коэффициентов этого разложения и есть 0, причем един- ственность этого разложения нарушается, если rg (F) < тп. Важно отметить, что система нормальных уравнений всегда совместна, так как FTY «= 37 (FT) == 3?(FTF), Если требуется оценить не все компоненты 0, а произвольную векторную параметрическую функцию т »» Г0, где Т — q X тп* матрица, то НЛН-оценкой для т служит т = 770 с ковариацион- ной матрицей £>(т) == o277(FrF)“1Tr. При этом, если т — любая линейная несмещенная оценка для т, то 2Хт) < DM. ' В частности, НЛН-оценкой функции регрессии цСг, 0) в про- извольной точке х является ц(я) === fT(x)Q с дисперсией d(x) « = D(x]MY=f(x)D(Q)f(x). Пусть в точках xj X/ = 1, .. „ п) проведено по г, измерений у^, • • •» Уэгу '• • -5 Упгп* Тогда НЛН-оценка 0 и ее ковариационная матрица могут быть вычислены по формулам ё-^Л^ЬтаУ, D(9) = o2W)"1,’ где R = Y = (уъ •» Уп)Т\ Уз ?з1 5 Уз?> Послед- г—1 нее свойство полезно при большом объеме эксперимен- тальных данных, так как позволяет в процессе вычислений уменьшить размерность матриц. В этом случае НЛН-оценки сов- падают с оценками (взвешенного) метода наименьших квадратов, в котором роль матрицы весов играет матрица R, Если ошибки 24 -
измерений распределены по нормальному закону ЛДО, o2Zn), то НЛН-оценки эффективны в классе, всех несмещенных оценок, совпадают с оценкам^ максимума правдоподобия и распределе- ны по нормальному закону Л2 (0, о2(717г)“1). Приведем два асимптотических свойства НЛН-оценок при п увеличении числа наблюдений N == 2 гз* j=i 1) НЛН-оценка вектора 0 состоятельна в среднеквадратичном смысле, если lim N^^F^Fn) =С( условие сильной регулярности), N-+<x> где С — невырожденная конечная матрица размера т X т, 2) НЛН-оценка вектора 0 состоятельна в среднеквадратич- ном смысле тогда и только тогда, когда минимальное собствен- ное число матрицы F^Fn стремится к + <*> при N + оо (усло- вие Эйкера). Для асимптотической нормальности НЛН-оценки недостаточ- но просто некоррелированности, а требуется независимость и одинаковая .распределенность ошибок измерений {еД. В этих предположениях: 1) НЛН-оценка асимптотически нормальна тогда и только тогда, когда max (с&^) О (N->оо), где cNfj — (Л, элемент ij матрицы CN = 1/2F^, 2) НЛН-оценка асимптотически нормальна, если последова- тельность матрицы Fn сильно регулярна и для любого i = 1, ... «* * 4г max 0, 7V-^oo, N з=1,...,N причем при выполнении одного из этих условий . 7лг(^-0)->'Л^(О, o2C), N +<*>. Кроме НЛН-оценок иногда для оценивания 0 используют греб- невые оценки (см. § 4). 3. НЛН-оценки для моделей неполного ранга. Рассмотрим за- дачу регрессионного анализа, оставаясь в рамках основной схемы Гаусса—Маркова, но в предположении rg(F) = г< т. Говорят, что векторная параметрическая функция т=70 до- пускает оценку, если существует линейная функция от У, мате- матическое ожидание которой равно 70. Справедливо следующее утверждение: 1)т = 70 допускает оценку тогда и только тогда, когда 3?(FT\ где (i == 1, ..., q) — строки матрицы 7. 2) Все векторные параметрические функции т = 70 допуска- ют оценку тогда и* только Тогда, когда rg(7) = 25
По этой причине, если rg F < тп, то нельзя оценить полный вектор параметров 0, и задача регрессионного анализа может быть сформулирована только как задача нахождения наилучших ли- нейных несмещенных оценок некоторых функций от неизвестных параметров. Теорема 3 (Гаусс, Марков). Если в схеме Гаусса — Маркова St(Fe, о21п) векторная параметрическая функция х==Т0 допускает оценку и 0 — произвольное решение системы нормаль- ных уравнений, то: 1) х = Те является НЛП-оценкой вектора х = Т0; 2) оценка х = Т0 единственна*, 3) несмещенной оценкой для дисперсии о2 служит о2 — г). Из теоремы Гаусса— Маркова следует, что для нахождения НЛН-оценки Те достаточно иметь любое решение 0 системы нор- мальных уравнений. К решению последней задачи хорошо при- способлен аппарат обобщенного обращения матриц. Обобщенная обратная матрица для произвольной матрицы S размера п X ш определяется как любая матрица S~, удовлетворя- ющая условию SS~S = S. Так определенная матрица всегда существует, по не единственна. Иногда к обобщенной обратной матрице предъявляются дополнительные требования. Например, можно определить обобщенную обратную матрицу 5+, в отличие от S~, как матрицу, для которой выполняются следующие четыре свойства: = (SS+)T^SS\ (S+S)T = S+S. Матрица S+ существует и единственна. Она называется обоб- щенной обратной в смысле Мура и Пенроуза или псевдообрат- ной. Полезной оказывается такая характеризация псевдообрат- ной матрицы: S+ = lira (SrS + б2 JmY'ST ~ lim ST (SST + б2/^"1. Обобщенные обратные матрицы позволяют записать все реше- ния совместной системы нормальных уравнений в виде 0 (FtF)-FtY + (Н - Im)z, . где Я= (FTF)~FTF, z — произвольный тп-мерный вектор. Отсюда Ее = Не + (Н — Im)z, и 0 является несмещенной оценкой 0 тогда и только тогда, когда г ==* т, а число линейно независимых реше- ний 0 равно т — т + 1. По теореме Гаусса —- Маркова вычисление единственной НЛН- оценки т для т = Те, допускающей оценку, можно осуществить по формуле х === Те == T(FTF)~FTY, где использована.одна из форм условий допустимости оценивания Z0 i-ТН == Тл 26 -
Для ковариационной матрицы вектора т имеем 1 DM ~v2T(FTF)~TTt Йе нарушая общности, можно считать параметрические функции Т1, ..Тд линейно независимыми, т. е. принять, что rg(D = q. Тогда ковариационная матрица DM певырождена. Как и в слу- чае моделей полного ранга, dm^dG), где т — любая линейная несмещенная оценка Т0. 4. Проверка гипотез и построение доверительных множеств в линейном-регрессионном анализе. Многомерные задачи провер- ки гипотез в линейном регрессионном анализе обычно решаются в предположении, что ошибки нормально распределены, т. е. Y ~ JftFQ, о21п). Это объясняется тем, что в реальных задачах часто распределение. близко к нормальному, а для распределе- ний, отличных от нормального, вычислительные процедуры име- ют крайне сложный* вид. Предлагаемые здесь критерйи проверки гипотез являются равномерно наиболее мощными критериями в некоторых естественных классах инвариантных критериев. Они построены при предположений, что параметр о неизвестен. Начнем с проверки гипотез для случая скалярной парамет- рической функции т = tTB: гипотеза Н^ т = tTQ и альтернатива Статистикой для проверки гипотезы Но будет 1 = = (т — т)/у$, где т — HJIH-оценка т = (FTF)~'FTY1 s2 = = Rl/(n — г) —оценка дисперсии о2, YT[/n — F(FrF)“"FT]y, f^^HT{FTFy t — дисперсия г. Статистика I имеет распре- деление Стыодента^ и для уровня значимости а гипотеза HQ принимается, если l^ta, и отвергается, если [П >/а. Значение ta определяется из равенства P(\l\>ta) — а. В качестве (1 —а)- , доверительного интервала для т берется интервал (т — Перейдем к случаю, когда проверяется гипотеза Но'- т = ТВ = = То, где То — заданный д-мернЫй вектор и матрица Т имеет ранг q. Тогда для проверки гипотезы Но используется статистика £ = 9-1 (т -T0)T[7’(FrF)-TT]'1 (т - <e)/(/?o (п - г)-1), имеющая распределение Фишера п — г). Для уровня значи- мости а гипотеза HQ принимается, если L < tai P(L > ta) = а. В качестве (1 — а)-доверительного эллипсоида берется эллипсоид, задаваемый неравенством ТоПЛта-ГкЧГ- то) < ta. С “подобными задачами проверки гипотез наиболее часто при- ходится иметь дело при выборе одной из двух конкурирующих 27
моделей: . , • Mi (#» 0) 01/1 (#)+••• + 0m1/mi (^), flfo 0) = 01/1(^) + • • •+0m1/m1(^) + 0m|4-l/m1+l(^)+• • •+0m2/w2(#)< когда требуется проверить, насколько существе# эффект от вве- дения в модель факторов с номерами + 1, ..., тп2. 5. Линейные ограничения на параметры. Пусть в рамках схе- мы 5?(М), (т7„) имеются ограничения типа равенств на парамет- ры: НО = 0, где Н — матрица размера q X т (0 < q < тп), rg Н = == q, и пусть общее решение системы уравнений #0 = 0 есть 0 e Q0m-g, где Q — матрица размера (m - g) X m, rg Q = т — q, HQ = 0, 0m-<7 — вектор из т — q элементов, которые принимаются за новые параметры. Заменив вектор 0 из т параметров на век- тор 0m_Q из т — q параметров, получим новую схему (редуциро- ванную модель) №(FQOm_q, о21п). Несмещенная оценка 0т-д век- тора параметров 0w_g может быть найдена в редуцированной мо- дели по методу наименьших квадратов в случае, если FQ — мат- рица полного ранга. Но ГЛ rg(FQ) = rg|#J rg поэтому FQ есть матрица полного ранга тогда и только тогда, когда | есть матрица полного ранга. Оценкой вектора 0 явля- ется 0 = (?0m-q. Аналогично пп. 2т-4 (с заменой т на т q) можно находить МНК-оцепки параметрических функций, строить ковариационную матрицу вектора МНК-оценок или оценок параметрических функ- ций, проводить проверки различных гипотез и строить довери- тельный эллипсоид. 6. Учет коррелироваиности и неравноточности наблюдений. Пусть D(Y) = o2G, G > 0. Преобразованием Z = G~V2Y этот слу- чай легко сводится к основной схеме: E(Z) = G“1/2F0-£/0, Z)(Z) = o2/n. Для перенесения результатов, справедливых для основной схе- мы из п. 2, па этот случай нужно в соотношениях п. 2 заменить У и F на (?_1/2У и G~i/2F. Так, система нормальных уравнений за- писывается следующим образом: FTG^F0 = FTG-'Y, а ее решение для моделей полного ранга 0= (F'G-'F^F'G-'Y носит название оценки (обобщенного) МНК. Если и только если 2MGF) <= 3MF), то оценки (обобщенного) МНК совпадают с оценками МНК. * : 28
Для моделей неполного^ ранга, если т = Т0 допускает оценку, НЛН-оценка для т находится по формуле x^T{FTG^F)'FTG^Y. х Изменятся и другие выражения, содержащие У и Л Очевидно, при указанных преобразованиях модели сохраняются все опти- мальные свойства НЛН-оценок, указанные для случая некорре- лированных и равноточных наблюдений. Схема 5?(F0, о2б?) сводится таким простым способом к схеме Таусса — Маркова ^?(F0, o2Zn) только в том случае, когда матри- ца G имеет полный ранг. Для случая вырожденной ковариацион- ной матрицы G приведенные выше рассуждения неприменимы. Если в указанной схеме $!(F0, о2б?) векторная параметрическая функция т=Т0 допускает оценку, то единственная НЛН-оценка для т вычисляется по формуле т = TF+[In - ((5-,/2)+G,/2)T] Y, где G1/2 = G1/2(7n —FF+). 7. Учет неадекватности принятой модели и истинной зависи- мости. Одним из методов учета неадекватности модели при ли- нейном оценивании является следующий. Пусть принятая модель и истинная функция регрессии представимы соответственно в виде я»2 W = (/ш Wfe"’+ (/!) W)re“ = /’’U) 9, где f и = ((/« ИГ ;(/«(<) = “ (/1 (х)л • • •» /nij (х) • («г), • . <, /т2 (я)), ег - ((е«)г i (е<я)г) = (е,..е«,: e.jflk., е.,), ' 0 ~ (019 • • • ’ < ^2» f В случае некоррелированных и равноточных наблюдений при- ходим к схеме 5? (X0U) + ^20(2)> где Ft — (Д (х;), . (*j), • • -i frn2 (xi))]=v которая обобщает основную схему Гаусса — Маркова на случай присутствия сме- щения (/(2)(х))т0(2). При ее исследовании будем предполагать, что rgCFJ — THi и оценка 0(,) линейна относительно результатов на- блюдений 0(1)’₽«ЛУ> . , Очевидно/ что полностью устранить смещение, т. е. для всех х^Х добиться того, чтобы = Цт2(«г), в рассматривае- мой схеме нельзя, а можно лишь ставить задачу о минимизации уклонения mi (*) ОТ (я) в смысле выбранной метрики, Да- 29-
лее в качестве меры близости Ех\т1(х) и (х) используется мет- рика пространства £2(мЛ т- е- требуется минимизировать средне- квадратичную систематическую ошибку ‘ ’ в = У <ж) ~ <*)]*»* X Имеет место следующее утверждение. • В схеме №(F$(i) + F20<2>, o7n)r 1) необходимым и достаточным условием несмещенности оце- нок 0(1)=Л У по отношению к произвольной векторной парамет- рической функции Тв (условием допустимости оценивания ТО) служит выполнение матричного равенства AF = Л При этом единственная НЛН-оценка ТО находится по формуле 0(1) _ T(FTF)-FTY, а ее ковариационная матрица равна 2) К задаче несмещенного оценивания 9(,) приходим, полагая r=(Zm, : 0), а к задаче оценивания с минимальным среднеквад- ратичным смещением В где Wn= [/(1Ш/(1)(*))ТН (<И> = f /(1) (*)' (/(г) (*))ГЦ (dx). X X Заметим, что если функции Л (я), .. ., /т2(#) ортонормирова- пы в X, то удается одновременно удовлетворить обоим требова- ниям, предъявленным в этом пункте к оценкам 0(1). 8. Многомерная (многооткликовая) ситуация. Пусть при каж- дом значении независимой переменной х^Х получается вектор ут(х') == (у1(х),£^., yq(x)), т. е. функция регрессии ц(х, 0) при- нимает векторные значения, которые в одном эксперименте час- то естественно считать коррелированными: 0) « (n‘U, 0), ..0))г, rf(x, 0) - GTf(x). Положим Ф(я) = II/1 (х), ..р(х)\\т — семейство q X тп-матриц. Линейная регрессионная g-мерная модель записывается, в виде Vi — П 0) + Bi, E&i = 0, cov (6j) = s (*i). Для семейства р X (/-матриц w(xd (i = 1, ..N) pN X g-матрица Vec w(Hl: N}) определяется так: Vec w(xll- 2V1) == (i4’r(x1), wT(xN)')T, Тогда многомерная модель эквивалентна одномерной Й([УесФ(х[1:2V])0, G) для измерений Vec у(х[1: N1), где G=diag(S(x[l:V])) — матрица с квадратными блоками 2(^1)» • • ч 2 (хп) на диагонали. 30
9. Некоторые формулы матричного анализа. При построении оценок параметров регрессионных моделей, функций -фСя, g)r гр(ц, М), q(M) из гл. 2 и во многих других случаях полезны при- веденные ниже формулы матричного анализа. В настоящем пунк- те приняты следующие обозначения: ^л1хп2— множество веще- ственных матриц порядка n4 X п2; - Л,п = ЛпУ<П9. — |4 (ЕЕ п 1 Хв 2 | 4 •= ТП] f == [А ей Лп | А = АТ, Ух ge Rw: хтАх 0} - множество неотрицательно определенных матриц; ~ Л> = {4 gee Лп I А - 4Т, V^geeR": хт Ах > 0} — множество положительно определенных матриц; матрица А е «^П1хп2 состоит из элементов (г = 1, .,ni5 j =» 1, s. ...,п2)4=[аъ1П1хпй; • • • Дп (2?)—собственные числа матрицы В Лп. К = Х»(4) (f = 1, .,n); In Лп — единичная матрица. Вместо слов «для любых» пишется символ «у», вместо «существ вует» -т- символ «3», вместо «следует» — символ «=м, вместо «име- ет место» — символ «♦*»'; п п УЛ е Лп’. tr А = У, a{i = 5 ^1» г=1, г—1 VА, В е Лп: tr (Я В) — tr А tr В, tr {АВ) — tr (ВЛ), Уд, b е Rn: tr (ЬдГ) — атЬ, • . УЛ е Лп УЬ €= Rn: tr (ЛЬЙТ) = bTAb = tr (&6ТЛ), УЛеЛ,,: й^Л = 2рЛ,{. г=1 Если Л — невырожденная матрица, то Л-1 обозначает обрат- ную к ней, если Л = то Л-1 = УЛ^^лут У В 6Н jKmxn’ (^п Ч~ АВ) 1 = Zn — Л -|- bFA)B, УЛ, В е (Л 4- В)-1 = Л-1 - А-1 (л~х + УА^Л(пУ Va. beR”: (Л + аЬГ)-1' = — Л-1 — (1 -]т дГЛ_1а)_1Л_1аЬГЛ_1, УЛ е л£у- Vb е= Rn Уа е [0, 1]: ((1 - а) Л -f- айй7’)-1 = '= (.1 — а)-1 (Л-1 — aA^bb7А~ъ/(1 — а 4-тгЬГЛ-1Ь)), det ((1 — а) Л -|- abbT) =(1 — a)n det Л (1 + а6тЛ-1&/(1 — а)),’ УЛеХп) УВе ^пХт: det (Л + BBr) = s= det Л det (Zm 4- ВГЛ~^В). 31
Если все элементы ац матрицы Ле Лп^п^—дифференцируе- мые по некоторому параметру t функции, то -^-Л обозначает матрицу || da^ldt ||П1хп2 ЛП1ХПй; УЛ е лГ= - л- il Л-‘, 4 In del Л = tr (л-> 4), dAk ____ da.. ™ ’ da.- и l—o гз где к == 1, 2, • матрица Ец^Лп имеет все элементы, равные ч нулю, за исключением элемента с индексами (г, ;), который ра- вен 1. При взятии производных по элементам матрицы все ее элементы считаются независимыми (т. е. производные берутся в множестве Лп)- , Пусть Т — гладкая функция, заданная на тогда ЭА~1 «л l Л« К „ д In det А л-1 /НгВЛ В частности, ---= А , -- Если А — [Я е где в е Л (п-ПИ л v v е (1,. — в-1с (е — ов^с)'1 (Е — DB^C)-1 Г (в — CE~lD)~l ~ [—E^D^B — CE^D)-1 (E—DB^C)-1 . Если A е Лп : А = Ат, то матрица А ной. Для а — (я(1), .. рицу [6,ja(i)]n, где бч G‘/^(П-Л1)ХП1, Е ЛП—П1 , _ Г (в - св-1в)-1 “ L-U-PB-ic)-1^-1 = BT (ВеЛп). n^t С Лn1x^n— nj)f . D G= ...,« — 1} , ТО A~l = — (в — CE^D^CE-1 называется симметрич- a(n,)rsRn символ-diag (я) обозначает мат- символ Кропекера; УЛ е Лп :А — АТ^ [(Vi е {1, ..., n} : <= R1)» (ЭС е= Л™ : СТС == In, A = Cdiag((l1, .,., Хп)т) Сг), min min Яц, max ац^. тах%{], Ki<n Ki<n Ki<n l<i<n УА<=Лп VpeR1: min ^тах!{. l<i<n \ i=l / l<i<n Если квадратная матрица Л представима в виде Л — ВТВ, то по определению В = Л‘/2; VЛ е Л^ ЭЯ 6= Лп\ В = Л1/2, 32
У/А<=Л% Vie (1, ..n}: X>0, V/le/i’ Vie{l, ...,n}: ^>0, VA e Лп • ^7 tr A^ > det A = JJ ' det A JI он, VAn • det A = XX A = diag ((<3ц) ..., ann} X i=l V /lei? Vi, /e{1, ..., n} : |ai;|</оца^ (an + ah), V A, В e Л> : max 1{ (A B) max 1{ (A) max X; (B), KiQi K.i^n ’ 1<л<п min Xt (4 + B) min Xi (Л) + min X^ (B), I<:i4n Kt^n V A, ве=ЛГ£ Va e= (0, 1): det (aA + (1 — a) B) > • ‘ . . >(detA)“(det причем равенство достигается только при А = В, VA, В е Л> : (det (А + Z?))1/n- > (det A)l/n + (det 5)1/n, VA e : A-1 e , VA e Jtn Vi e {1, ..., n} : a" > l/aH, где A — {an}, A-1 = (av), VAe Л> : max ХДА-1) — ( min ^(A))-1, ч . Ккп VA, В e Лп АВА^'Лп, VA e Лп -.A = AT=> max 1, = sup rain X{ = inf — l>i^n fteRn a a Ki^n а~Пп a*a ' У a, bGnn:((iTA-lff)(bTAb^{aTb)\ Для соотношения A В и A > B означают соот- ветственно, что A — В e и A — В e Яп. Множества и с бинарным отношением > являются частично упорядоченными, а бинарное отношение >’па этих мно- жествах-транзитивно и антисимметрично; УЛ, В, С : АСА > ВСВ => А > В, VA, В^Л^:А3>В2=^А>В, VA, В е Л> : (А > В, АВ = BA) => (ут е {1, 2, ...} : Ате>5т), VA, В е Лп • A z> В => det А > det В, VA, В е Л> : А > В^А~' < В~\ 3 п./р, с. М. Ермакова 83
VA, А>5^А-1<5-1, VA €= : A + A-1> 2/n, ' VA, В e Лп Va <= (0, 1): aA-1 4- (1 — a)S~1^(aA-|-(l—a)B)-1, причем равенство достигается только при А В. Л и т е р а т у р а к § 2: [2, 19, 81, 84, 85, 92*, 93, 114*, 183], § 3. Линейный регрессионный анализ 4 при наличии априорной информации о параметрах В настоящем параграфе приведены оптимальные линейные оценки параметров стандартной линейной регрессионной модели SlkFQ, о21п) при наличии различных видов априорных сведений относительно 0 <= Rm. 1. Основные виды априорной информации о параметрах. Пусть качество линейной оценки 0 = A Y + t параметра 0 характеризу- ется величиной 7(0) = Ф{£1(0 — ДУ — 7)(0 — ЛГ — ПЧ0]}, где Ф — такая выпуклая функция матричного аргумента, что Ф(М4) > Ф(М2), если — М2 > 0. Величина 7(0) определяет сум- марную (случайную и систематическую) ошибку предсказания 9 с помощью 0 с точностью до вторых моментов. Частным случаем 7(0) являются обобщенные квадратичные потери: Е[(0 - AY - t)TG(Q - AY - t) 10] = - tr GEl (0 -*A Y - t) (0 - A Y - t)T], где G > 0 — некоторая матрица. Байесовской оценкой называется 0 = arg min f J (0) P (d0), 0 Rm / где P(d0) — заданное априорное распределение на пространстве параметров. При минимаксном подходе предполагается априори известным, что 0 eQc где Q — заданное множество. В каче- стве, критерия оптимальности оценки естественно выбрать вели- чину sup/(0). Оценки, минимизирующие эту величину, НаЗЫВа- О^Й ются минимаксными, 2. Байесовские оценки. Обозначим . 5 = J[o-j0P(de)][o-joP(d0)p(d0), где Р — заданная вероятностная мера, для которой существуют первый и второй моменты. Справедливо утверждение: 34
Если А невырождена, то J Е [(0 - AY - 0 (0 - AY - t)T | 0] Р (d0) > В [FTFB + ст2/]"1, причем при t* — J А*Р (d0), А* = В (FTFB 4- o2l)~1FT имеет место знак равенства и байесовская линейная оценка имеет вид q = A*Y + t*. Указанная оценка является допустимой в смысле критерия f £($-0)(0-0)rP(d0) в классе всех (не только линейных) оценок в предположении, что вектор У нормально распределен. 3. Минимаксные оценки. Качество линейной оценки 0 A Y + +1 при минимаксном подходе характеризуется величиной q(A, £) = sUp Ф{£1(0 — Л У — £)(0 — Л У — £)т|0]}, еей Минимаксными линейными оценками называются оценки вида 0 = A*Y + £*, где (Л*, t*) = arg inf q(A, i), Att причем нижняя грань берется по всем матрицам А размера m X N и всем векторам t <= R,n. Наиболее общий результат, характеризующий минимаксные оценки, состоит в следующем: 1) Для произвольного множества й с inf q (A, t) = sup-Ф [ст2Вц (FTFB„, + ст2/)-1), ад цен где Вц = s ©iOfXi - f 5 ©А Л (2 , н = {0!, ..., 0S; ... г—1 \ i=l / \ / ..М — дискретная мера, приписывающая веса точкам 0, cz Q (8 \ >ОI, Н —множество всех таких мер при < m(m + 1)/2 + 1. 2) Если Q — ограниченное замкнутое множество, то верхняя грань в правой части указанного равенства достигается для неко- торой меры ц* = {0*, ..., 0*; , 1*} Н,а нижняя грань в левой части достигается приА*=Ав^ — (FTFB^ + о2/)-1/17, ^*=20Х г=1 Приведенный результат позволяет свести исходную минимакс- иую. задачу к задаче поиска максимума, для решения которой с очевидными видоизменениями могут быть использованы алго- ритмы из § 4.1. 4 3* 35
Пусдъ Ф(Л7) = ртМрь где р — фиксированный вектор из R\ Тогда g(A, t) ==sup£{[/(0-лу-т©}, , бей т. е. в качестве критерия выступает среднеквадратическая ошиб- ка оценки параметрической функции pTQ. Пусть v<(Q) — выпуклая оболочка множества Q U (-Q). Пред* положим, что v#(Q) — телесно в Rm. Тогда • inf q(A,t) = info2/ (FTF + o2A)~p, АЛ причем нийсняя грань в правой части берется по всем матрицам Л, соответствующим эллипсоидам, описанным вокруг множества Q. Нижняя грань в правой части достигается для некоторой мат- рицы Л*, соответствующей эллипсоиду с центром в Нижняя грань в левой части достигается при . ' ' t = (FTF+o2A*)-A*t*. Если v#(Q) не телесно, то некоторые линейные комбинации параметров Известны точно. В самом деле, пусть ^(й) линей- ная оболочка й. *.!?,(□) есть конечномерное евклидово простран- ство, скажем Rr причем если «^(Й) не телесно^ то г < тп. 4 Рассмотрим такое ортогональное преобразование координат 6 == £70, что 5^(Й) натянуто на 04, ..., 0Г. Пусть «-«[•к где 0 —нулевая (тп — г) X r-матрица. Любой элемент 0 ,/7(й) ?можно представить в виде 0 = СО', где 0' Q, й <= Rr и телесно в Rr. Здесь й есть множество записанное в координатах 01, ..., 0г. Задача сводится теперь к оценке параметров регрессии £{У|0'} =FC0', £){У!0Э = о2/г, где 0'Й', и применимо указан* ное выше утверждение.. В частном случае, когда й — эллипсоид: Й = {0 е Rw; (О — Bq)TD (0 — 0О) 1J, приведенное выше утверждение дает inf q(A, t) <= o2pT(FTF + о2Ь)-р, АЛ . причем нижняя грань в левой части достигается при t « (FTF + o2P)~FTF0o, Л == (FTF + o2D)-FT. Оптимальная оценка в этом случае не зависит от р. Эту оценку часто называют оценкой Кукса — Ольмана. 4. Нечеткая априорная информация. Нечеткое множество за* дается функцией принадлежности g(0): 0 g(0) 1. С формаль* , ной точки зрения функция g(0) отличается от плотности априор* Зв
пого распределения отсутствием нормировки вида] g(0) d0=l. Более .того, соответствующий интеграл может не существовать. Указанное обстоятельство способствует более адекватному пред- ставлению априорных сведений с помощью нечетких, множеств по сравнению с байесовским или минимаксным подходом, так как требует только «локальных» сведений о степени важности того или иного конкретного значения вектора параметров 0. Вместе с тем технически перенос соответствующих результатов предыду- щего пункта не представляет труда. Рассмотрим следующий критерий оптимальности оценки 0 = ЛУ-М: - ' ' q^A, t) = sup O{g(0)E[(0 - AY- t)(Q - AY f)T|0]}# 0 Оценки, минимизирующие qSA, i), назовем нечеткими мини- максными оценками. Справедлив следующий результат. Пусть Q = {0 £ R"; g(0) =/= 0). Тогда-, 1) для произвольного множества QcR"1 имеет место соотно- шение inf i (Л, t).= sup Ф № (Fr/7?w + aV)-1}, ал не#! где такое же, как в п. 3, у, = {0t, ..0S; М — дискрет-' пая мера; приписывающая веса элементам 0< е причем 2^g(0i) = l, М>0, s<m(m + l)/2.+ l; Ht — множество всех таких мер; 2) если Q — ограниченное Замкнутое множество, то верхняя грань в правой части указанного равенства достигается для неко- торой меры |л* = {01, ..0S; , Xs ] е Hlf а нижняя грань в левой части достигается при ' - Л* = АВц = (РТРВ*~+<М)~1РТ, «*=Хе*Х?. Вместо нечетких минимаксных оценок можно находить нечет- кие псевдобайесовские оценки при условии, что существуют ин- тегралы J g (0) dQ, J 0g (0) dQ, - j 00Tg (0) d0. Нечеткими псевдобайесовскими оценками называют оценки, * минимизирующие величину Jo [Е [(е -AY-t) (Q — AY - 0Г| e]U(0) dQ. Справедливо утверждение: Для любой выпуклой функции Ф такой, что Ф(М4) > Ф(Л/2) как только Mi > М2, нечеткая псевдобайесовская линейная оценка задается формулой 'Q = A*Y+t*, где t* = J 0g (0) dQ (J g (0) do)"\ Л* = B(TTFB + 87
5 = J (о - j* eg (0) do) (o - J eg (o) de)Tg (o) de/ь, & = (J 0g (0) d©)S. 5. Методы регуляризации в линейном регрессионном анализе. Если FTF — плохо обусловленная матрица» то величина V(0) = = E(Q — 0)г(0 — 0) может быть очень велика» т. е. МНК-оценка 0» несмотря на все ее оптимальные свойства, плохо оценивает век- тор 0. В этом случае часто используются смещенные оценки, являю- щиеся линейными преобразованиями МНК-оценок. Было выделе- но два однопараметрических подкласса: гребневые оценки 0[Л) = (/?Г7? + И)-^ГУ, Л>0, и сжимающие оценки 0(% = /с0, 0<Л<1, для которых существуют /с* > 0 и 0 < &** < 1 такие, что Цб(Л.)) < V (0) и V (0(cft**)) < V (0). . Для гребневых оценок не найден строго обоснованный метод определения /с*. Существует эвристический способ, заключающий- ся в нахождении такого к, что 0^ мало меняется в окрестности к; численные эксперименты показывают, что, как правило, ' (оу <’'(«• Для сжимающих оценок имеем неравенство W-V(0) W+ 7(0) где 7(0) =.Е(0 — 0)г(0 — 0). Более того, справедливо утверждение: при • т > 3, 0 < у < 2(т — 2)/(JV — т + 2) и к = к(у) = = [1 + 702/s2]-1, где s2 =YTY — eTFTFe, имеем Е [( 6&) - 0)TFTF (0?w - 0)] < Е (0 - 0)TFTF (0 - 0), причем минимум левой части по у достигается при ^ == ^* == (w-~ 2)/GV—тп +2). Таким образом, для сжимающих оценок оптимальное к может быть указано в явном виде. Сжимающие оценки при к~к^*) есть оценки Джеймса — Стейна. Другой способ определения к для сжимающих оценок основан на фиксировании смещения. Справедливо утверждение: В классе оценок вида 0 = Л0, для которых ет(А-ЖШ-/)0 = г, минимум — 0)т(0 — 0). достигается для сжимающей оценки 88
вида О = 6[ 8Т0 +(1+ 60Г0)-16(0ТО)2]0, где 6 R1 однозначно определяется по т. При этом способе остается все же неопределенность в выборе т. Указанные методы выбора к делают оценку нелинейной, так как в них к зависит от 0 (или, что- то же самое, от У). Заметим, что как гребневые, так и сжимающие оценки лучше МНК-оценки в смысле критерия Е(0 — 0)т(0 — 0), а их модифи- кации—в смысле критерия Е(0 — 0)TG(0 — 0), где G —заданная неотрицательно определенная матрица, но не в смысле матрич- ного критерия — 0)(0 — 0)т, т. е. одновременно для всех мат- риц G. Если вектор У нормально распределен, то такое улучше- ние невозможно в принципе, так как МНК-оценка при этом яв- ляется минимаксной. Заметим также, что выбор к независимо от У, улучшающий МНК-оценку, не может быть осуществлен даже для критерия ви- да £(0 — 0)tG((£ — 0) при фиксированном G и без предположения нормальности У (так как МНК-оценки минимаксны в классе всех линейных оценок). Выбор к независимо от -У, улучшающий МНК-оценку в смыс- ле указанных критериев, может быть осуществлен при наличии априорной информации относительно 0. В частности, гребневые оценки являются допустимыми (в обычном смысле) для критерия £(0 — 0)(0 — 0)г при 0 е Qi == {0; 0Т0 < Vo2}, сжимающие — при 0(=Q2=={0; 0tFtF0 Vo2}; для всех таких 0eQ1? Q2 эти оцен- ки лучще МНК-оценки. Полезно отметить, что рассмотренные выше смещенные оцен- ки, а. также некоторые другие могут быть получены в соответ- ствии со схемой регуляризации решения некоторых некоррект- ных задач. Подробно о таких задачах сказано в гл. 9. Описан- ная там схема регуляризации по Тихонову, будучи формально отнесена к конечномерным пространствам, выглядит следующим образом. Будем рассматривать умножение на 0 в формуле F0 как опе- ратор, линейный по 0 и действующий из пространства N X га- ма триц в пространство R\ а вектор У будем считать образом мат- рицы F, заданным с ошибкой. Регуляризованным решением задачи определения параметров. 0 но образу У некоторого X будем считать вектор 0(А), минимизиру- ющий функционал фк (в) = ие - y + kl 0 - е* и’m, где 0* — произвольный «центрирующий» вектор, учитывающий априорную информацию о 0;\ к — параметр; значение которого вы- бирается в зависимости от 8 так, чтобы выполнялись условия оп- ределения регуляризованного решения. 39
Используя стандартные нормы пространств R" и Rm, получаем решение 0(W = (FTF Ч- kl)~1'(FTY + *0*). При 0* == О получаем гребневую оценку. _ Зададим норму в R?n следующим образом: U0|Rm = QTFTFQ- Тогда регуляризованное решение имеет вид которое при 0* == О совпадает со сжимающей оценкой. Как известно, в случае плохо обусловленной матрицы FTF МНК-оцёнка 0 является неустойчивым решением системы нор- мальных уравцепий FTFQ = FTY. Применяя результаты, касАю-. щиеся отыскания устойчивого решения операторного уравнения (см. гл. 9), получаем следующее регуляризованное решение: ч Q™ == (FTF+ к (FTF)-1) FTY. При этом вектор 0^> минимизирует функционал ФА(0) = Um - FTY)4FTFb - FTY) +• fe0r0. Отметим, что существует такое % е (0, «>), что ^(б^)<^(0)> т. е. оценка 0™ является допустимой. Правила выбора к, удовлетворяющие условиям определения регуляризованного решения, указаны в ряде работ. Например, правило невязки подробно рассмотрено в [90]. Практический вы- бор к по этому 'правилу осуществляется из условия минимума по к величиныJIIF0(ft) — КН — е|, где е может быть взято'равным а2. Трудности возникают, если указанные оценки рассматривать с точки зрения критерия Е(0 — 0)т(0 — 0). Строго обоснованный подход с этой точки зрения к выбору к указан выше. Литература к § 3: [И*, с. 46—58, 28, 51, 62*, 115, 123, 146. 162, 183, 191]. § 4. Нелинейная регрессионная модель 1. Классическая нелинейная регрессионная модель. Число па- раметров, подлежащих оцениванию в регрессионном анализе, мо- жет быть резко сокращено, если дополнительная информация об истинном характере зависимости позволяет выбрать удачную мо- дель (малая систематическая ошибка) с нелинейным вхождением параметров. Такие модели широко распространены в практике экспериментальных исследований (в частности, в физике, химии, биологии). Широка используется модель (х, 0) == 40 ’ . ’
i m ^2 0<ехр{—Oi+m^}, возникающая в результате решения си- i=i стем линейных дифференциальных уравнений. В задачах слеже- ния за движущимися объектами часто используется модель ' ц(я, 0) « arctg [(#! — —62)] U — Uu х2)г). Другой пример представляют модели вида I । т , Л («г, 0) = 2 0i/[(^—. 0i4-m)2 + 0i+2mL ! . t"1 1 описывающие резонансные явления и используемые при обра- 1 ботке результатов спектрального анализа. Там же используются ; тп I модели ц (х, 0) = 2 0i exp {— 0i+m (# — 0i+2m)2}. ' i=l j Пусть == 0) (^eXcR* где ц— функ* | цця, заданная на X X 0 (0 cz Rm) и нелинейно зависящая хотя бы от одного параметра из набора {Oj^Li, 0 = (9f, ...» 0m)T —вектор ’ неизвестных й подлежащих оценке параметров. I Предположим, что в точках .., хп наблюдаются значения случайных величин y(xt) = 0) + е< (f=l, ..., и), где 82, ..8п —взаимно независимые случайные величины, имею- щие распределения с нулевым средним, и «дисперсиями о< =о(^). Указанная модель обозначается Жт|(Я1:п], 0\ diaga2(Hl: п]))4 Точная формулировка предположений, при которых имеет место корректность определения оценок МНК, их состоятельность и асимптотическая нормальность, будут сформулированы в п. 4 при ! анализе более общей F-модели $!{ц(Я 1: п], 0), о2(х(1: и], 0)}. | 2. Асимптотические разложения. Рассмотрим нелинейную per-* I рессионную модель 5?(ц(Я1: тг]., 0), о27п): I Vi = ni(0) + Ei, £’[ei] = 0, £'[е-]=ст2>б. (6) ( Предположим, что истинное значение неизвестного парамет- ра есть 0О е 0, где 0 — открытое выпуклое множество в Rm, 0 — i • • • ' • г замыкание 0. Положим fa (0) = (у| — т)< (О))2, Q (0) == 2 А (0). i - i=i ( Оценка МНК определяется так (см. (4)): 0П — arg min ^(0). i в I В данном пункте излагаются результаты об асимптотических 1 разложениях по п распределения w нормированного отклонения j 0п — 0о при п оо, разложение самой оценки (стохастическое раз- ложение) и ее моментов. Математическим аппаратом служат асимптотические разложения в многомерной центральной пре- дельной теореме. Введем необходимые обозначения: 7П(0) —мат- • рица с элементами ..n-iy <е> Н-(в). 1п П 2л д§, д<д.> ' г 1 41 1
матрица Лп(0) равна /п1(0). Элементы матрицы Лп(0) обозна- чим через Лп (/, I = 1, ..w). Положим, что <р(^) — плот- ность гауссовского вектора с нулевым средним и корреляционной матрицей о2Лп(0о). В асимптотических разложениях участвуют производные от функции отклика более высоких степеней, для которых удобно ввести следующее обозначение: а = (а4, ..ат) — вектор с целыми неотрицательными координатами; | а | = 4- ... • ... +ат; ... до™”. Предположим, что случайные величины е< в модели (6) оди- наково распределены и имеют конечный абсолютный момент тп-го порядка: ElsJ”1 < +°°, т>2. Тогда при выполнении опи- санных ниже условий имеет место следующее обобщение свойст- ва асимптотической нормальности оценки МНК: при п спра- ведливо равенство _ Л / w~2 \ Ре0 { /п (0п — е0) «= С] — ) <р (у) I 1 4- s Туп (У, 6о) n-v/2 dy = С - ' / = o(n-(,n-2>/2) (7) равномерно по всем выпуклым борелевским множествам С; ТVn — многочлены степени 3v, коэффициенты которых зави- сят от производных функций щ(0) и моментов случайных вели- чин ег. Если условия, при которых справедливо (7), выполнены равномерно по 0О из некоторого компактного множества К <= 0, то равенство (7) справедливо равномерно по 0ое^, а коэффициен- ты многочленов Tvn равномерно ограничены по 0О е К. Алгоритм вычисления коэффициентов многочленов Tvn является очень тру- доемким. Многочлены Tvn можно выписать в явном виде: Ли (У, 0) = -1V X1 ^ei (1 м 7, 1 д iq /л\ у, \ _i ^-1 L 1 * йо.де," (л" ~ Замечание. Разложение (7) имеет смысл и для оценок в линейной регрессии. При распределениях случайных величин et, отличных от гауссовских, приведенное разложение тесно связано с разложением Эджворта — Крамера в центральной предельной - теореме. Основные условия, .при которых справедливо равенство (7), можно описать так: п 1 1) отделимость от нуля величины П (пДв) — w(9o))2 при 0 ¥= 0О, необходимая для состоятельности оценки 0П. 42
2) Для некоторого Л > 3 функции ц/О) принадлежит С?(0) -(у = 1, 2, ...); для |<х( = к выполнено неравенство п~\2 МЛ (е) - пЛ (Оо))2 < d (а, е0) II е - 00II2, 5=1 где d(a, 0О) < +°° — постоянная, не зависящая от п. Кроме того, при lai < к n-12 hj“)(90)|ft<4-оо. . >1 3) V<x: |а| ^к в случае* если производные t]ja)(0) не равны тождественно нулю в области 0, то для любой компактной под- области К <= 0 выполнено неравенство lim inf n-12 (n)O) (0o))2 > °- П-*оо j—1 Кроме перечисленных, для справедливости (7) требуется вы- полнение некоторых технических условий на функции тр(0) и распределение 8/, необходимых для получения асимптотических разложений в центральной предельной теореме. Следующий7 результат описывает асимптотическое разложение нормированной оценки У п (0П — 0О). Обозначим еЧо)-п"1/г2пЛ(0)^ При выполнении условий 1)—3) и ряда технических требований справедливо соотношение (II — h~2 || ) Рей /п (0п - во) - 2 *vn (0О) n“V/2 > XR"(ft*-1)/2lgfc/2n - 11| v=o I) J = o(n-(m-2)/2). (8) с некоторой постоянной x ~ x(0o). В соотношении (8) к характе- ризует степень гладкости функций тр(0), т — число конечных моментов случайных величин е<, а fevn(0) — векторы, координаты которых являются однородными многочленами степени v +1 от- носительно &na) (0) (1 а | — 1, ..., v 4- 1). Для любого компактного подмножества К <= 0 соотношение (8) выполнено равномерно по 0О е К, если условия, при которых (8) справедливо, также выполнены равномерно по К. Приведем в явном виде выражения для координат первых двух векторов hvn. Координаты вектора h9n определяются выра- жением тп п • An'bn, i = 1, ..., р, где Ьп = Ьп (0) = п“1/2 2 ii=l • а==1 43
Для вектора соответствующее выражение более сложно: я V ЛН1Л12*3|/Л4/?3 — 1 У л‘«Ч . аЧ‘6 I ш 1\п I °п °п 4 ai1i2i4°ri ип h Ч»{2’*3=1 ' М»Ч=1 / ft i = 1, ..., т, i гДе ' . .¥а _ га-1/«у . - „-iVr. д8(у,--ме))а ъп —п 2л е>* ам ~п 2лЕ^. эъ эо.дв, • • - Разложение (8) стохастическое; случайный вектор Vп (0П — 0О) ' приближается комбинациями случайных величин Ь^\ Оно по- Г зволяет получать асимптотические разложения для смешанных моментов координат вектора Vn (0П— 0О). Для приложений осо- ; бенно интересны случаи моментов первого и второго порядков. . f Введем линейную форму (X, A0n) = Vn (X, EQq (0л -- 0О)) и квад- ратичную форму Qn = hEQq [(0n — 0О) (0ц — 0О)Г]. Тогда / - } 2 го (1,Д0л) = --у 2 л^2л‘3М2)(ЬМЦ + /п(м, : 4'. где Пц)(к° -•= ’ МХ)~ линейная форма, коэффи- | г k, I г циенты которой являются величинами о(п~1/2) при п -> оо, Апа- |1 логично, ; I %TQnx = (МТЛп (0О) х + п-^а^ (е0) х + хтд^2) (0О) х, где элементы матрицы Лц2) (0О) есть величины о(п~') при п -* о°. j Выражение для элементов матрицы A(nx) (0) выписывается в яв- - ном виде через Пц)(/и),, однако оно достаточно громоздко (содер- | жит 16 слагаемых). Приведенные результаты позволяют, в прин- | f цине, получать асимптотические разложения для ковариацион- S * ной матрицы нормированной оценки. f, 3. Численные методы поиска оценок МНК. Трудности в ли- ‘ нейном случае возникают, когда матрица системы нормальных 4 , уравнений плохо обусловлена или вырождена. Для нахождения j оценок МНК в этом случае приходится привлекать методы регу- 1 ляризации, основанные на учете априорной информации. Если функция регрессии нелинейна по параметрам, то систе- ма нормальных’уравнений также нелинейна. Для ее решения мо- । гут быть использованы стандартные численные процедуры. Все же обычно сводить задачу поиска оценки МНК 0 = arginf (?(0) : ее о 44 ;
в задаче решения системы нормальных уравнений невыгодно по следующим причинам: если 0 =# Rm, то в точке минимума Q(Q) условие v@(0) ==O может не выполняться; множество решений системы нормальных уравнений может быть более широким, чем множество точек локальных минимумов функции Q. Для поиска минимума функции ()(0) могут быть использованы методы поиска глобального экстремума (если нет уверенности в лом, что локальный минимум у функции Q один) и стандартные методы поиска локального экстремума (см. гл. 4). Разработаны также специальные методы локальной минимизации, учитываю- щие специфику функции (?(0). Ниже эти методы кратко рассмот- рены. Сначала рассмотрим методы, в которых используются произ- водные дц(я, 0)/d0t- (i = l, . .., т). Принцип построения этих ме- тодов тот же, что и общих методов локальной оптимизации (см. § 4.3). Большая их часть записывается в виде 0(‘+1) = 0(о - yjFT(0(o)F(0(f)) + се/А]-1Fr(0<i>)У(0<‘>), (9) где > 0, af > 0, 0(/) е 0 (t = О, 1, ...), А — неотрицательно оп- ределенная матрица, 0(о) G 0 - начальное приближение, Y (0) = (г/1 — П (хь 0), ..Уп — 1] («п, 0))Г, 6) 9=0(0’<№т 9=0(0 Если а^>0 (t = 0, 1, .'..), то (9) называется методом Марк- вардта, если at я0, я arg min (?(0U+1)) — методом Хартли, а ерли v а, = О, у* я 1 - методом Гаусса — Ньютона (иногда методом Га- усса — Ньютона называют метод (9) с -at «=0 и с другими спосо- бами выбора ft, см. § 4.3). Суть метода Гаусса — Ньютона состоит в том, что функция •ц(а:, 0) аппроксимируется функцией, линейной по параметрам в окрестности точки 0ИСт* 0) Т)(я, 0ИСТ) + (0 — 0ист)Т (#, 0ист), оценки МНК для линеаризованной модели вычисляется по фор- муле (см. §1.2)’ 0 - 0ист « (Fr(0BCT)F(0HCT))“1^r(0HCT)y(0HcT)< _ ' Поскольку 0ист неизвестно, то на f-м шаге в приведенной форму- ле 0ист заменяется на 0(/). Если матрицы Fr(0(o)F(0(o) плохо обусловлены, то метод Гаусса — Ньютона может сходиться очень медленно или даже расходиться, сходимость метода Хартли мо- жет быть также весьма медленной. В указанной ситуации' лучше работает метод Марквардта, но теоретически его скорость сходи- мости ниже (убывает при возрастании а/), чем у метода Гаусса — Ньютона (скорость сходимости этого метода близка к квад- ратичной). 45
Если вычисление (или оценивание с помощью конечных раз- ностей) производных функции 0) трудоемко, то более эконо- ’ мичными -окажутся, по-видимому, методы, це требующие . вычис- ления производных. Аналог метода Гаусса — Ньютона {.DUD-ме- тод) имеет вид - е(,+1) = е(<) + 7t(0*-0(О), где 0* = m J S xtixTti 2 xti — т] (xj, 0О))], I i—i i=i . mt = S®jt(0G)-0<,-))(OG)-0(<))r, 5=1 . На практике весовые множители (о51 (£ = 0, 1, —0, ..; ..., t)i определяющие способ учета информации, получаемой в хо- де поиска, обычно выбираются одним из следующих способов: (Ojt «{[0U) — 0(<)JТА[0(j) ~ 0U)]А — положительно опреде- ленная матрица; ©Я “ O)j(i-i)(1 ~ W"1), <О(Г-1)Г « 7П-1, (О;т/== 7Д-1, т, N «it1 ~ — п (*/0о))12, 1=1 (1)я = ттг_1, j>i —ттг—1, (ojt = 0, ]<t — m— 1. Суть DUD-метода состоит в том, что в окрестности точки 0(<> функция T)U, 0) аппроксимируется линейной по параметрам: T1U, 0) т)(*> 0(О) + <0 “ 0U))TItU), • где yt (х) = arg min 5 [n 0O)) — Л 0(n)—v(0O)— 0(/))]2. Напомним, что в методе Гаусса — Ньютона у*(^)=^т](^, 0)^0|0=е(о. Все рассмотренные методы имеют тот недостаток, что для их сходимости требуется хорошее начальное приближение 0(о). Если такого приближения нет, то его можно получить с помощью гра- диентного метода (см. § 4.3), а если функция Q{Q) многоэкстре- мальна, то с помощью одного из методов глобального поискаЧсм. § 4.4). Точные результаты о сходимости метода Гаусса — Ньютона получаются как следствие приведенных в п. 4 результатов о схо- димости более общего алгоритма. Результаты о сходимости дру- гих методов аналогичны. 4. F-модель. Большую, чем нелинейная регрессионная модель 5?(ц(#[1: /г], ОУ, diago2(x[l: /г])), гибкость в приложениях имеет ее обобщение 5?(ц(я:Г1: nJ, 0), diago2(x[r и], 0)), допускающее за- 46
висимость дисперсий измерений от неизвестных параметров 0. Это обобщение называют F-моделью, если параметр 0 однозначно оп- ределяется через набор j](z [1: п], 0) = {т](хъ 0)}|"=1. Хотя оценка МНК 0 = arg min 2 (У« — П Оч, 0))2 а-2 0) 0Gz€) i=1 не является для F-модели состоятельной, так как она сходится к arg min I 2 [°2 (xi> 9*) Q-2 (^i, 6) + (n (яь 0) — еео-Ч-i — Ц {Xi, e*))2 o~2 (Xi, 0)]| (где 0* — истинное значение параметров), тем не менее состоя- тельная оценка для 0* находится с помощью следующего непо- средственного обобщения итерационного алгоритма Гаусса — Ньютона. Поправка 0(1+1) — 0(<) (£ = 1? 2, . ’..) есть оценка МНК линеаризованной в точке 0(о модели 31 (дц (х [1: n], 0)/50|0=е(О.0, diag а2 (х[1: п], 0(о)), в которой вектором «наблюдений» является 7(0(Q), т. е. 6«+1> _ 0(О + [^(0(O)G-i(0(o)F(0(O)]~1Fr(0(o)G-i(0(O)7(0(0)', (10) где G(0) = diago2(x[l- nJ, 0). В соответствии с общепринятым термином «Iterated Reweigh- ted Gauss — Newton Algorithm», алгоритм (10) называется ИРД- ЖЙНА. ИРДЖИНА-оценка для F-модели и оценки МНК для, классической регрессионной модели обладают одинаковыми свой- ствами асимптотической оптимальности. Преимуществом F-модели перед классической регрессионной моделью является то, что к ней сводится оценивание в регрес- сионных моделях с малыми случайными ошибками в предиктор- ных переменных, полиномиальное оценивание в регрессионных моделях/ вычисление оценок максимального правдоподобия для экспоненциальных семейств распределений алгоритмом ИРДЖИ- НА и др. Ниже приведены некоторые точные формулировки. Пусть в некотором полном сепарабельном метрическом прост- ранстве X для п = 1, 2, ... задана серия планов £п = {х^ ..., хп} и семейство распределений PXt е па борелевских подмножествах R1, зависящих от х<=Х и 0 из компакта QcR™ (тп > 1). Изме- ряются серии независимых случайных величин у(п) = {у11: = ...гупУ, г/.еК1, причем для некоторого неизвестного 0* е Int 0 ' Р (yi е= В) = Рх.<в. (В) для всех борелевских В cz R1. 47
Далее используются следующие предположения: la) E^ifi = ц,(0) *=* 0), где ц— такая известная ограничен- ная функция на X X 0, что: 16) /(z, 0) —0)/д0 — непрерывное ограниченное отобра- жение из X X 0 в Rw; 1в) д/(х, Q)/dQi (i=l, .m) — непрерывные ограниченные отображения из X X 0 в R?i. 2а) Существуют дисперсии D$yi = о2(х<, 0), где о^С(ХХ0)г причем: 26) 5о2(х, 0)/^0 ~ непрерывное , ограниченное отображение из X X 0 в Г. За) Распределения £п, заданные на борелевских подмпожест- п вах А пространства X по формуле (А) = и”1 2 ^л(хг) (1л — ип- дикатор множества А), слабо сходятся при п<» к вероятност- ной мере причем: 36) матрица ( / (х, 0) о~2 (z, 0) f (ж, 0) £ (dx) = М (0) удовлет- воряет условию inf М (0) > 0; п Зв) из равенства 5 Ь(ч» 0) —nG*i, ЮР = 0 Для 0> 6 ИЗ ® _ i==1 следует, что 0 = 0. ’ 4) Абсолютные моменты порядка г распределений ^равно- мерно ограничены. Для заданной непрерывной весовой функции vkx) > 0 на X t 0® = arg min 2 (J'i — П Сч, 0))а v ее© г~1 обозначает оценку МНК для 0* в модели 5?(ц(гг[1: п\, 0), diag(o2(z[l- п]))). При выполнении условий 1а), 2а), За)—Зв) 0п состоятельно оценивает 0*, при выполнении условий 1а)—1в), 2а), 26), За) — Зв) и условия 4) с г m + е при некотором е > 0 оценка 8% при п 00 асимптотически нормальна: Уп (е: - 0*) =► (0, А^ВА-1), где . . . . . А ~ / (я, 0*) f (я, 0*) v (х) | (dx)9 х В == | / (я, 0*) v (х) о2 (х) v (х) /т (^, 0*) £ (dx)' ' х причем абсолютные моменты Е [ п |0®-0*|]и равномерно ог- раничены при и m — 2 и ,сходятся при п -> <» к моментам пре- дельного распределения. 48
Методы поиска On описаны в п. 3, 0* можно использовать как начальное, приближение в ЙРДЖИНА. Говорят, что последовательность событий й„ справедлива по вероятности (ПВ), если P(Qa) -> 1 при »-»<», где Р(й)— внут- ренняя мера события Q. Теорема 4. Пусть выполнены условия 1а)—1в), 2а), 26), За), 36). Положим ВМ = {0| 118 — 0*11 < г). Тогда 1) Определен такой, случайный вектор 0(у<п’) (ПВ), что при г„ -> 0 (п -*• оо) последовательность событий П, = sup I •<•>«(,„) ' J справедлива по вероятности. 2) Уп(0(1/<”)) — 0*) ограничено ПВ. 3) 0(у<п)) удовлетворяет уравнению, получающемуся из (10) заменой 0(,) и 0(,+1) на 0(у<п)). 4) Если 0<О) — состоятельная оценка 0*, то Vn(0(t/(n)) — 0*) => Л°(0, М-40*)). П->ОО . 5) Если Vrell0(o) — 0*11 ограничена ПВ, то для всех 1 Vn(0(,) - 0*) => ^(0, М"‘(0*)). П->оо 6) Если, кроме перечисленных условий, выполнены Зв) и 4) при г > 5 и 0(O)j= 0* для некоторой функции v(x) > 0, то два пер- вых момента 'ln{&Vi — Q*) при всех t^l ограничены и сходятся к соответствующим моментам предельного распределения. Условия, при которых ИРДЖИНА-оценки для F-модели (и, следовательно, оценки МНК для классической регрессионной модели) оптимальны (точнее, локально асимптотически мини- максны) приведены в § 5.3, Литература к § 4: [4, 38, 39, 53, 92*, 147]. 49
ГЛАВА 2 ТЕОРИЯ ЭКВИВАЛЕНТНОСТИ И ДВОЙСТВЕННОСТИ В ЗАДАЧАХ ПЛАНИРОВАНИЯ РЕГРЕССИОННЫХ ЭКСПЕРИМЕНТОВ В настоящей главе формулируется задача оптимального пла- нирования регрессионных экспериментов и ряд необходимых и достаточных условий оптимальности, соответствующих различ- ным статистическим критериям. Эти условия, с одной стороны, приводят к конструктивным аналитическим и численным мето- дам получения оптимальных планов и, с другой стороны, в ряде случаев помогают устанавливать эквивалентность различных критериев оптимальности. В связи с последним обстоятельством соответствующие теоремы традиционно называются теоремами эквивалентности (даже в тех случаях, когда эквивалентная за- дача не имеет прозрачного статистического смысла). Большин- ство таких теорем (см. §§ 3—6) получены на основе анализа выражения вариационной производной критерия по плану. Вместе с тем, более полные* результаты (особенно в случае нали- чия мешающих параметров) следуют из теории двойственности (§§ 7-9). § 1. Основные понятия 1. Исходная статистическая задача. В данной главе будет рассматриваться задача планирования экспериментов, описывае- мых моделью Уц = QTf (*i) + 8fi, i = 1, ..., n, j = 1, ..., ri5 2 r{ = JV, (1) | i=l I где Xi X — контролируемые переменные, 9 e Q — неизвестные параметры, уц s Y — наблюдения, — погрешности этих наблю- дений. Вид множеств X, Q, У, функции 0т/(я), а также характер погрешностей определяются конкретной экспериментальной ситуацией. Уравнение (1) обычно называется уравнением регрес- сии, а функция 0T/(z) — функцией регрессии. Здесь и далее Цх) — вектор-функция или матричная функция, в последнем 50 • 4 ' 1
случае уц и QTf(x) представляют собой векторы (при фиксирован- ном х). Перечислим наиболее характерные особенности задачи (1), которые существенны в данной главе: 1) Функции f(x) известны. 2) Необходимо оценить параметры 0 или некоторые линей- ные функции от них. Ниже будет предполагаться, что 0 g= Q cz Rm. 3) Погрешности аддитивны, имеют нулевые средние, сущест- вуют их вторые моменты и они некоррелированы: = О При 4) Имеется возможность контролировать х, т. е. выбрать его из множества X по усмотрению экспериментатора. Множество X часто называют областью действия, а переменные х — контроли- руемыми переменными. 2. Понятие оптимального плана. Из предыдущей главы сле- дует, что в качестве оценок параметров можно использовать НЛН-оценки. Совокупность величин $№={#1, ..., хп', где pi = rJN называется планом эксперимента. Точки t х{ назы- ваются опорными точками плана, а величины Pi — мерами этих точек (их также называют весами). В рамках сделанных выше предположений дисперсионная матрица НЛН-оценок полностью определяется планом эксперимента: D[Qn] ^N^M-1(In) =АН7Х^), где M(%N) — (нормированная) информационная матрица, jD(^v) == ’ *= М~ЧЪ>я). В силу предположения о некоррелированности по- грешностей м (Ы = % Р1уО*л), .(2) i=l где ц(я<) — прирост информационной матрицы, обусловленный поведением одного наблюдения в точке xit В случае скалярного отклика, когда /(я) = (/Дя), ..., /т(я)), матрица |л(я) имеет не более чем единичный ранг и равна а“2(#)/(#)/т(я). В. общем слу- чае она может иметь более сложную структуру. Так, уже при \ отклике размерности I верно ц(я) = /T(^)d‘“1(x)/(x),’ где d(x) == = Е[еет]—матрица размерности JXZ. В • дальнейшем будем предполагать, что способ подсчета матрицы ц(л:) задан. Так как матрица M(^N), а стало быть, и матрица D(|N) не зависят от оцениваемых параметров, то имеет смысл говорить об априорном поиске планов, минимизирующих -некоторую задан- ную функцию Ф от матрицы NM^n): ^=АгеЫФ^М(и)1/ (3) to Данная экстремальная задача будет называться задачей опти- 'мального планирования эксперимента. ,Решения этой задачи на- зываются оптимальными планами* а функция Ф — критерием 4* 51
оптимальности. Рассмотрение функций от матрицы а не от матрицы B(g^) удобнее, так как позволяет охватить случаи, когда rgM(%N) <т, но Ф[АЛ/(^)1 > О (так случается, например, при оценивании линейных комбинаций параметров 0). Планы, при которых Tg М(&А < т, называются сингулярны- ми^ а планы, для которых rg М(^) == ти, называются регу- лярными. Заметим, что, в отличие от задачи оценивания, когда удается отыскать правило оценивания, наилучшее в смысле упорядочен- ности положительно определенных матриц, вообще говоря, не существует плана удовлетворяющего неравенству где —любой другой план. Исключением являются некоторые простейшие регрессионные задачи. ' 3. О критериях оптимальности плана эксперимента. Перечис- лим ряд наиболее употребительных критериев оптимальности и укажем их математико-статистическуюинтерпретацию. ^-оптимальность: £* == Arg sup detM(g) (Arg inf det Минимизируется объем эллипсоида рассеяния НЛН-оценок па- раметров (в случае нормального распределения ошибок экспери- мента), т. е. объем множества ' \ {8| [(в - e)TZ> Ы (о - 0)] = const}. ^-оптимальность: £ == Arg sup XmIn(M(g)) (Arg inf Xmax(^“1(^)))» где Aram (Атах) — наименьшее (наибольшее) собственное число соответствующей матрицы. Критерий 5-оптимальности оптими- зирует оценку статистически наименее точно оцениваемой ли- нейной комбинации параметров. G-оптимальность: = Arg inf sup f (x) M~x (£) / (я). Мини- мизируется максимальное значение дисперсии оценки функции регрессии. 5-оптимальность: = Arg inf tr АЛ/-1(£). Минимизируется ве- личина риска при обобщенных квадратичных потерях: £[(0'—0)ГА(0 — 0)], где А — некоторая заданная матрица. ^-оптимальность: J fT (х) М"1 (|) / (х) dx. Минимизируется сред- х нее по области действия значение дисперсии оценки функции регрессии. Относительно аналогов указанных критериев для случая оцен- ки части параметров (или нескольких линейных комбинаций па- раметров) см. § 7. При наличии априорных сведений о параметрах ' в перечис- ленных критериях нужно заменить Л/(|) на М(£)+В, где В — некоторая матрица, вид и интерпретация которой даны в § 1.3. 52 -
Все перечисленные критерии являются выпуклыми (detM(^) нужно заменить па In det M(g)). и к ним может быть применена общая теория, развиваемая наследующих параграфах. 4. Непрерывные планы. Решение экстремальной задачи (3) па множестве планов gw,Л учитывающих дискретную природу мер U==l, п) оказывается весьма трудным как в вычисли- тельном, так и в аналитическом плане. Существенного упроще- ния удается достичь при замене экстремальной задачи (3) на не- сколько другую: g* = Arg inf O[AM(g)], (4) где g «g(dx) представляет собой некоторую вероятностную меру, определенную па X, 8 — множество всех таких мер, л. м (?) = f и (х) В (<Ц, н(я)=Ш (*)}Г, (5) X где функции Цар(я) — измеримые, ограниченные функции. Веро- ятностную меру § называют непрерывным планом.. Своим проис- хождением этот термин обязан тому факту, что при сосредоточе- нии меры g в конечном числе точек .., лп она описывается величинами р1ч ..., рп, которые можно истолковать точно так же, как и веса, введенные в предыдущем разделе, если забыть о дис- кретности последних. При достаточно больших N решение g* может рассматриваться как приближенное решение исходной эсктремальной задачи (3). Если имеется два плана gt и g2, опре- деляемые мерами gt(dar) и g2(^), то мера ^{dx) = (1 — a)gt(dx) + + a^dx), где O^a^l, определяет план g. Другими словами,, множество непрерывных планов выпукло. § 2. Свойства информационной матрицы Непосредственно из определения матрицы ц(я) и (5) следует, что любая матрица Mg) —- симметричная положительно опреде- ленная. Каждой матрице можно сопоставить вектор в евклидо- вом пространстве R °, где n0 = т(т + 1)/2. Множество MS) == = {Mg) I g е 8^ выпукло, так как является выпуклой оболочкой множества ц(Х) = х е X}. В силу теоремы Каратеодори любая матрица М М8) может* быть представлена в виде п п , S где n<n04-l, 2?i = 1, Pi>0 (i = 1, ..п), г=1 г-1 е X. Иными словами, всегда найдется план, содержащий не более п0 + 1 точек с информационной матрицей,' совпадающей с любой, матрицей, принадлежащей М81. Полезно иметь в виду, что компактность множества ц(Х). влечет за собой компактность множества MS). Если ЛГ* — граничная точка этого множества, то- она может быть представлена линейной комбинацией, содер- жащей на одно слагаемое меньше, чем в общем случае. 53
Наряду с (4) удобно рассматривать и экстремальную задачу Л/* = Arg inf Ф[ММ]. (6> мем(3) Если ц(Х)— компактное множество, то ЛГ* » М(£*) и, зная можно построить 7И* в соответствии с (5). Обратная процедура, т. е. отыскание по ЛГ*, обычно оказывается много сложнее и заключается в решении интегрального уравнения J |Л (х) 5 (dx) == М*, X которое'можно заменить на систему нелинейных уравнений • «о i=l 2 Pi = 1» ' i=l § 3. Необходимые и достаточные условия оптимальности для выпуклых критериев оптимальности 1. Основная экстремальная задача. Ограничимся рассмотре- нием критериев оптимальности, представимых в виде: а) Ф[#ЛЛ где y (А) — монотонно убывающая функция, а функция Т — вы- пуклая; б) W1 - а)М, + аМ2] (1 - а)Т [JfJ + аЧЧЛ/Л При этом вместо (4) и (6) можно рассматривать соответственно экстремальные задачи r==Arginf ТСЛ/Ш (7) M* = Arginf TUfl. (8) м Здесь и далее пояснения о принадлежности | к S и М к Af(S) опускаются. В (7) и (8) решения не зависят от возможного числа наблю- дений А. Этот факт полезен в приложениях. Почти для всех встречающихся на практике критериев оптимальности условие б) выполняется. Условие же а), как правило, не выполняется лишь при наличии априорной информации об оцениваемых пара- метрах. Действительно, если — дисперсионная матрица априор- ного распределения параметров 0, то Р(б) = [Z>o и приходится говорить о минимизации функций вида у[лг1Р71+ма)], для которых оптимальный план может зависеть от N. С близкой ситуацией приходится сталкиваться при построе- нии композиционных планов. Если No — число наблюдений, от- 54
веденное на фиксированную заранее часть плана, то приходится говорить о минимизации функций вида Г N у Экстремальные задачи (7) и (8) очень близки друг к другу. Вторая из них привлекательнее в теоретическом плане, так как является конечномерной экстремальной задачей. Первая — беско- нечномерная (ищется мера), но учет ограничений в ней обычно оказывается много проще, чем в (8). Поэтому в дальнейшем часть теоретических результатов будет излагаться для задачи (8), но большинство следствий из них будет формулироваться в пространстве планов, что придает им более конструктивный характер. 2. Необходимые и достаточные условия. Пусть в дополнение к б) имеет место условие в) ц(Х) — компактно. Тогда существует по крайней мере одно решение экстремаль- ной задачи (8), причем множество решений выпукло. Если Чг [Л/] ™ строго выпуклая функция, то существует единственное решение М*. Аналогичное утверждение имеет место в пространстве планов (т. е. существует по крайней мере один оптимальный план и множество планов выпукло). Но строгая выпуклость уже не вле- чет единственности и известны примеры, когда множество опти- мальных планов бесконечно. Если условие в) не выполняется, то можно гарантировать лишь, существование таких минимизирующих последовательно- стей {м;\ и о что М lira ¥ [М (Вг*)] = inf Т [>(£)]. Обозначим через A(Mt, М2) производную по направлению М2 — в точке Mi функции ЧНЛЛ: А / ЛтГ V V К1 - М1 + ^21 ~ Т № 11 А (Мь М2) = lim —---------------------- а-»о-Ь а 'Как известно, для выпуклой функции такая производная всегда существует. При выполнении условий б) и в) необходимым и достаточным условием оптимальности матрицы М* является выполнение не- равенства inf Д(М*, М)>0. ' (9) м Данное утверждение является одним из наиболее общих вариан- тов известной теоремы Кифера — Вольфовица, сформулированной 55
ими впервые для ЧЧЛ/] = —In 171/1. Как обычно, общая формули- ровка проста, но не конструктивна. Более полезные для прило- жений результаты удается получить при предъявлении дополни- тельных требований к функции ЧНЛ/] и множеству р(Х). Пусть выполнено условие г) функция ЧЧЛ/] дифференцируема в окрестности точки М* (по поводу недифферепцируемых Ф см. § 7). Тогда Л(Л/*, Л/) = (М-М*), ' ’ ' dM \м=м*' л inf Д (Л/*, М) — inf f tr I р (x) I (dx) — tr Ст? MI == м e J ' ' дМ |м=Л1* x * — mi tr — p (x) — tr —77 M = x dM |M=M* r ' ' OM |M^M* . • f 4 I 4 I = lnf tr -77 p — tr *TT? M\ цец(Х) дМ |M=Af* dM Обозначим ЛЧ^ лЧ? лч* q (М) = tr М, = 1|>(И, М) = trgp. Теорема 1 (теорема эквивалентности). Если выполняются одновременно условия б), в) и г), то необходимым и достаточным условием оптимальности М* является выполнение неравенства ф(р, М*)>$(Л/*) Урер(Х). (Ю) Аналогично, необходимым и достаточным условием оптимально- сти £* является выполнение неравенства •ф (#, В*) Q (М*) Ух^Х. (И) При выполнении условий б), в) и г) в опорных точках х* оптимального плана имеет место равенство ф(х*, V) ф(р*, ^/*) = g(J/*), где р* == р(я*). * Дополнительно к б) и в) потребуем выполнения условия в') 4^(21/) дифференцируема па любом множестве Л/(С) = {Л/|Т(Л/ХС, MeJ/(S)}. Тогда для любого плана с информационной матрицей Л/(£) е е Л/(С) имеет место неравенство - inf £) - T[Л/(|*)1, . X 3; Критерии, опирающиеся иа дисперсионную матрицу. В при- ложениях часто имеют дело с критериями оптимальности зависящими непосредственно от матрицы = 56 '
(предполагается, что оптимальные планы регулярны, т. е. |Л/(£*)1 ¥= 0). Результаты из предыдущего пункта могут быть легко перефразированы в терминах элементов матрицы D(g), если воспользоваться тем, что -пт = — М S77 М \ дМ ди Выпишем для примера аналог неравенства (10): ср (я, г (D*) У/еХ. Здесь <р (х, l) = trv, (x)D^D |о=вд), г (D) D* =Ш*)- 4. Расположение опорных точек. Результаты, изложенные в предыдущих пунктах, позволяют сделать некоторые заключения о структуре оптимальных планов. Так как функция ф(ц, М) ли- нейна по ц, то для критериев оптимальности, удовлетворяющих условиям б), в) и г), все опорные точки должны лежать на гра- нице области ц(Х). При выполнении условия а) матрица Л/* — является граничной точкой множества Af(S), а потому (см. § 2) всегда найдется оптимальный план £*, содержащий пе более чем п0 = т(т + 1 )/2 опорных точек. § 4. Критерий D-оптимальности и теорема Кифера — Вольфовица 1. D-критерий. В тех случаях, когда экспериментатора инте- < ресуют все т неизвестных параметров, разумно минимизировать объем эллипсоида рассеяния, квадрат которого пропорционален определителю дисперсионной матрицы IN~ I. Часто этот определитель называют обобщенной дисперсией. Его минимиза- ция эквивалентна также максимизации локальной мощности F — критерия проверки гипотезы 0 = 60 при нормально распределен- ных погрешностях efj в классической регрессионной задаче (см. §§ 1, 2). В том же предположении нормальности определи- тель |yV_1D(^)l определяет прирост шенноновской информации за N наблюдений. Очевидно, что функция ln|D(g)| = —1н|7И(£)| удовлетворяет условиям б)—г) из § 3. Так как д(М) = —ти, — л|э(р,, М) = tr —xpCar, %) = «trДГ“1(^)р(л:), то необходимым и достаточным условием D-оп- тимальности плаца является выполнение неравенства tr М т Урер(Х) или ( причем информационные матрицы всех D-оптимальных планов для данной регрессионной задачи совпадают между собой. ~ В дальнейшем, когда связь между какими-либо утверждения- ми в пространстве матриц ц(Х) и пространстве X прослеживает- 57
ся очевидным образом, соответствующие утверждения будут фор- мулироваться без дополнительных оговорок лишь в простран- стве X. , Основную часть приведенного выше утверждения можно сформулировать несколько иначе. Экстремальные задачи: 1) £* = Arg sup |Л/(£)1, 2) £* = Arg inf sup trM-1(g)p,(^), X 3) sup trJ/“1(g*)p,(rr) = m X эквивалентны между собой. Наконец, полезно иметь в виду, что для любого невырожден- ного плана g е S выполняется неравенство - тп>1п 1ЖВ*)1ЖШ 2. Теорема эквивалентности Кифера — Вольфовица. Для од- номерной по у классической регрессионной задачи имеем ц(а:) = Z(^)/(rr)/r(^), где V1 (я) 7-дисперсия ^наблюдения, проведенно- го при условиях х. Поэтому tr = X(z)d(tf, V. ’ Функция N~ld(x, J-) определяет дисперсии оценки отклика в точке х. Если Х(я) = const, то эквивалентными являются следующие задачи: 1) = Arg sup JMg)l, 2) = Arg inf supd(x, g), В я » 3) sup d(x, £) = m. x Данное утверждение представляет собой известную теорему эквивалентности Кифера — Вольфовица, которая не только про- ясняет структуру £)-оптимальных планов, но и указывает на связь двух разных критериев 1Ж£)1 и 4f2 = supd(;r, %). х Критерий Чт2 называется G-критерием. Подчеркнем, что экви- валентность D и G-критериев имеет место при равноточных на- блюдениях и при максимизации функции d(x, V по всей области действия X. Как только Х(а?) ¥= const при х^Х или Тг = sup d(x, £) (Z=#X) G-оптимальпые планы не совпадают с D-оптимальными. Задача отыскания G-оптимального плана в общем случае отно- сится к задачам минимаксного типа, которые рассматриваются в § 6. 3. Обобщенный D-критерий:* В тех случаях, когда экспери- ментатора интересует лишь s параметров или s линейных ком- бинаций из m исходных параметров, естественно обратиться к критерию ччм] ‘ 58
где А — матрица пол наго ранга размера sXm. Данный крите- рий называют иногда D ^критерием. Если оптимальный план певырожден, то -x|:U, £) = (pU, V = tr и задачи: 1) 1* = Arginf |АТ2И-1(^)А|,. • 2) g* = Arg inf sup <р(ж, g), I X 3) sup<p(x, £*) = s X ’ ’ оказываются эквивалентными. Подсчитывая число линейных комбинаций элементов матрицы А7(|), определяющих |АТЛ/~4(^)АI, можно найти верхнюю гра- ницу для минимального количества опорных точек /^-оптималь- ного плана. Она оказывается равной s(2m — s + 1)/2. § 5. Линейные критерии оптимальности 1. Перечень основных задач, приводящих к линейным крите- риям. Критерии вида trAAf“4(g), где А —матрица называются линейными критериями. Перечислим некоторые из задач, в которых появляются подобные критерии. Простоты ради будем иметь дело лишь с классической регрессией с одномерным .откликом. а) Предположим, что качество оценок, полученных в резуль- тате различных экспериментов, сравнивается по среднему значе- нию функции (КО —0), которая дважды дифференцируема. При достаточно большом числе наблюдений М(К0-О)1 ^QW> + N~l trAM“4(^), где А = d2Q (U) . dUdUT Поэтому минимизация E[Q(Q — 0)] сводится к минимизации функции ЧЧЛ/(£)] 8=3 tr 4Л/~4(£). В общем случае следовало бы говорить о минимизации trAM“(£), где индекс «—'» означает операцию псевдообращения. В этол! параграфе всюду предпола- гается, что оптимальные планы регулярные и существует не- которая окрестность любой матрицы М|*), содержащая лишь невырожденные матрицы и принадлежащая множеству Л/(2). Для существования такой окрестности достаточно потре- бовать непрерывность функции ц(а;) в окрестности опорных то- чек оптимального плана. - - б) При экстраполяции (интерполяции) в заданную точку х0 можно минимизировать дисперсию оценки отклика в этой точке: Положив А приходим к критерию вида trAJf”4(g). 59
в) В тех случаях, когда интересно поведение отклика в неко- торой области Z, в качестве критерия оптимальности выбирают интегральную дисперсию J d (х, £) dx, что опять приводит к критерию tr с матрицей А == j /Сг)/Т(#) dx< Иногда z оказывается полезным введение весовой функции £>(#), учиты- вающей важность тех или иных точек х. При этом А = = J о) (х) / (х) f (х) dx. Z г)„ В простейшем случае при Л =/т речь идет о минимиза- ции средней дисперсии оценок всех параметров: tr М"1 (£) = т = 2«. а=1 2. Свойства линейно-оптимальных планов. Результаты § 3 применительно к линейным критериям можно сформулировать следующим образом: а) Всегда найдется по крайней мере один липейпо-оптималь- ный план, содержащий не более чем s(2m — s + D/2 опорных точек, s == rg А. * б) Задачи: 1) == Arg inf tr I 2) £* = Arg inf (?(#, g), 3) suptpta, I*) == tr X эквивалентны между собой. Здесь <р(х, £) etrM~4!-)AJf“I(g)p,Grk в) Множество линейно-оптимальных планов выпукло и в их опорных точках имеет место равенство tr = trAAf"1(|*). ' г) Для любого регулярного плана g е Е имеет место не- равенство sup <p(rr, g) — tf ЛЛ/-1(£) tr ЛЛ/“‘(^) — tr АМ~ТЛ х д) Если 1^Л = ??г, то информационные матрицы оптимальных планов совпадают между собой. 3. Частные случаи. Для одномерной по у классической рег- рессионной задачи имеем ц(х) ===== Mx)f('x)fr(x') и функция <р(я, для конкретных критерйев оптимальности принимает весьма простой вид. Например, при экстраполяции в точку ср(ж, %) = = Х(^)[/г(лго)Л/“1(^)/(гс)]2. Функция N^fkxoiM^fkx) — это кова- риация оценок отклика в точках xQ и х; поэтому наблюдения следует размещать в точках, где оценка наиболее коррелирована с оценкой отклика в точке х0 (функция Х(х) позволяет учиты- вать точность наблюдений). Если система базисных функций ортонормировапа в области X с весовой функцией К(х), то А ~1т и, стало быть, эквивалент- 60
выми оказываются задачи отыскания плана,- минимизирующего среднюю дисперсию оценок параметров 2 Аса и интегральную а=1 дисперсию J d (я, |) dx. х 4. Сингулярные линейно-оптимальные планы. В данном раз- деле рассматриваются линейные критерии вида ЧЧЛЛ = LTM~L, где rg L — s < т, L — матрица размера т X s. Предположим, что множество планов, для которых = L, не пусто, т. е. существуют планы, позволяющие оценить линейную комбинацию LTQ. Известно, что LTM-L - sup [2LTH - НТМН], Н е R-x\ и ' Можно показать, что при MLM^ — В имеет место формула 4- Аг[(1 - а) Мк + аЛ/2] L = - inf 0т(М1, В)(М2 - Мх) С (Mlt В), са в тце С (М1? B)^=(l — МГ M^B + MTL. .Объединение этой формулы с (9) позволяет утверждать, что необходимым и достаточным условием линейной оптимальности плана является выполнение неравенства inf sup J tr Ст (M (В), В) ц (х) С (М (I), В) g (dB) < tr LrM~ (В) L. JIjih. приложений более полезным оказывается следующий результат. Пусть где — некоторый регулярный план; 1М£Р)1 ^0. План назы- вается ^-оптимальным. Оказывается, что N tr LTM-'(&)L - tr 7Ltr - LTM^)L\. Необходимым и достаточным условием у-оптимальности пла- ва является выполнение неравенства ф(л?, |т, Вр) «£ г(Вт, £р), где _ _ ' г(Вт, Bp) =tt <р(^, Br,§p)=trJ/-1(B)LLrJf-‘(B)gU), z- 1=(1-’Г)^т + 'ГВр. § 6. Критерии минимаксного типа 1. Основные свойства минимаксных планов. Пусть ЧЧТИ]-sup4W, d, u^U9 11 где множество U — компакт, функция ЧПМ, и] непрерывна по и к * 61
на этом множестве и при каждом u&U функция ТЕМ, и] удов- летворяет условиям (Ь), (с) и (d) из § 3. Планы g* ==» = Arg inf sup ЧЧМ, u] называются минимаксными. I и / Необходимым и достаточным условием минимаксности плана является выполнение неравенства supint С tr(p(x)-M(E)lg| £(<ги)>о, (12) s х ulw где £/(£)—• множество всех решений экстремальной задачи supTtMg), и]. В основе (12) лежит (9) и известная формула и Ь(М*,М) = sup ^-W[(l-a)M* + aM,u]. Неравенство (12) эквивалентно неравенству inf sup tr [М (g) - М (£*)] g I > 0. (13) Если доставляет максимум левой части (12), то (см. § 3) Ф I*, £*) > tr р (х) JU? (du), q(M*,£*) = trM^^.£*(du). . Необходимые и достаточные условия минимаксности плана можно сформулировать в форме, несколько более удобной для приложений, чем (12). А именно, необходимым и достаточным условием минимаксности плана является существование такой меры £*, что i|)U, В*, £*) > д(М*, £*). (14) 2. (?-критерий. Пусть ц(я) = K(x)f(x)f(x)9 ЧПЛЯ = sup/г(и) X где f(u)M~lf(u) — дисперсия оценки отклика в точке и. Здесь и в дальнейшем указание на то, что матрица ц(д;) име- ет вид Х(л:)/(х)/т(л:), говорит также о том, что речь идет о клас- сической одномерной по у регрессионной задаче. Так как — АГ1} (и) fT (и) АГ1, то для G-оптимальности плана необходимо и достаточно вы- полнение неравенства inf sup X (х) f J2 (Ж, £) £ (du) < d (£*), (15) е х их?) где d(X; и, l)=f(x)M-l(^)f(u), d(u, g)=fU)Af-.‘(g)/(u), U(V- 62
множество решений экстремальной задачи u* = Arg sup d(u, £)’, d(£) = d(u*, £) = Т[Ж|)]. USZ План £*, удовлетворяющий (15), как уже упоминалось ранее, будет совпадать с D-оптимадьным лишь при Z = X и Х(х) « const. § 7. Теория двойственности Результаты §§ 3—6 основаны на ^изучении величины lim У [(1 ^а)М + аМ ° ~ У [М (S1)]. а-*+о а Другой подход заключается в исследовании экстремальной за- дачи, двойственной к задаче нахождения оптимального плана. Уже в случае D-критерия и оценки всех параметров соображе- ния двойственности позволяют получить дополнительные резуль- таты (см. § 9). Особенно же полезным анализ двойственности задачи оказывается в случае оценки параметрической функции LTQ (сингулярные планы эксперимента), где L — матрица раз мера т X $ (5 < т). 1. Вспомогательные понятия. Следующие _понятия и обозна- чения необходимы в дальнейшем. Через &т (&т) обозначим мно- жество всех симметричных положительно (неотрицательно) опре- деленных т X m-матриц. Пусть L — фиксированная т X s-мат- рица ранга £ ($ ^ ти). Через U(L) обозначим множество всех матриц А е порождающих подпространство, содержащее под- пространство, порожденное матрицей L. Параметрическая функ- ция LTQ оцениваема тогда и только тогда, когда существует £тл ан £_такой, что М(%) U(L). Через. 3 обозначим функцию из в отображающую А в (27Л“£)“\ если А U(L), и в нуль — в противном случае. Справедливы следующие утверждения: 1) Функция 3 определена однозначно. . 2) Функция 3 является выпуклой и изотонной (последнее означает, что 3(A) > 3(B), если А>В и LTAL^LTBL). " 3) Матрица информации при оценивании параметрической функции LTQ суть J(Jf(g))/o2. __ Вещественную функцию у, заданную на назовем функци- оналом информации, если: ' а)'она неотрицательна на й положительна на б) она положительно однородна (т. е. у’(аЛ)=ау(4) при а>0); в) она супераддитивна (т. е. ](А + В) >j(A) + j(BY). Функционал информации является вогнутым и изотопным и удовлетворяет соотношению у (0) == 0. Условия на у являются не- сколько более строгими, чем условия на V из § 3. Вместе с тем в "теории двойственности не налагается требования дифференци- руемости. Практически все критерии оптимальности, используе- 63
мые в планировании эксперимента, могут быть представлены как информационные функционалы. Введем обозначения: jg^A) — tr AZ. Z^Zm. Z^O. jp(A) = (tr4p/s)1/p, p^O. —oo<p^l? (соответствует ФР-оптимальности по Киферу), /оСА) == (det4)1/s (соответствует P-оптимальности), /-«(4) =AminC4) (Я-опти- мальность). Пусть ЗЯ — компактное выпуклое подмножество Zm, имеющее непустое пересечение с U(L). Любой элемент ЗЯ будем называть матрицей информации. (При этом мы отвлекаемся от конкрет- ной структуры ЗВ. В частности, можно положить ЗЯ==Л/(Н), где 4 Л/(3) определено в § 2.) Задача оптимального планирования принимает вид: найти J/*==argsupj ° J(M). (16) Меэд При L—I имеем и задача (16) сводится к задаче поиска Ч'-оптимального плана, сформулированной в § 3 (соотно- шение (8)). • . Задача (16) есть задача оптимального планирования в смыс- ле критерия / (в частности, 7^,7?, jQ. ]_„) при оценивании пара- метрической функции 270. Заметим, что здесь речь идет только о нахождении информационной матрицы плана (свойства самих планов изучаются в следующем параграфе). 2. Теорема двойственности» Задаче оптимального планирова- ния (16) можно сопоставить двойственную задачу. Введем двой- ственную функцию 7° равенством f(A) = inf {tr AC/j(C)\С g= Z9}. Если А>0, то'7°(4)>0. Пусть ЗЯ0-—поляра множества ЗЯ (т. е. множество m X m-матриц В таких, что УМеЭЯ). Ввиду монотонности 7° достаточно изучить множество Считая 1/0 +°o’ определим двойственную задачу для за- дачи (16): . (,7) Задачи (16) й (17) являются двойственными в обычном смы- сле, т. е. ограничивают друг друга и имеют общее экстремаль- ное значение. Точнее, имеют место следующие теоремы. _ - Теорема 2 (теорема о взаимной ограниченно- сти). Для любой информационной матрицы Д/е2Я и любой матрицы JVeJt имеет место неравенство ] °ЦМ) <A/f(LTNL)\ причем равенство выполняется тогда и только тогда, когда 64
x и при С = J(M), D==LTNL имеем tr MN = 1, MN =• - LCLTN, j4C)j4D) - tr CD. Теорема 3 (теорема двойственности). Для того чтобы матрица была решением задачи (16), необходимо и - * достаточно существования такой матрицы N что j ° ДМ) = = \/j\LTNL). Более того, имеет место равенство 1 sup / о J (М) = min ,.т. . меэд 7 JVsgi / {LTNL) Сформулированная теорема является следствием для задачи (16) известной в выпуклом анализе теоремы двойственности Фенхеля. Полезность приведенных теорем определяется тем,' что в ряде случаев исследование двойственной задачи оказывается проще. Кроме того, получаем верхнюю границу для значения критерия. Выражения для (/р)°-и (/^)° определяются следующими ре- зультатами. 1) При р <= [—оо, 1] имеем (ь)0 = 5й’ гДе ? == l/d ~ 1/р)* Если матрица C^&s, то матрица является решением уравнения ]р^С)(]р)ЧО) == tr CD = 1 тогда и только тогда, когда D = O~7tr Ср в случае р > — «> и Kmin(C)D е conv С в случае . р = _оо. Здесь convC обозначает выпуклую оболочку всех s X 5-матриц вида zzT таких, что z есть собственный вектор С, соответствующий Xmin(C) с евклидовой нормой, равной 1. 2) (7>)°(Л) = 1/^(0“-^), если D^U(L), и (/>)°(D) = О в противном случае.. Для заданной матрицы С & матрица D е= бРт есть решение уравнения /g(C)(jg>)°(D) == tr CD = 1 то- • гда и только тогда, когда D = 3?/\х С3?> § 8. Общая теорема эквивалентности 1. Теорема эквивалентности для информационных матриц. Теорема двойственности из предыдущего параграфа позволяет получить общую теорему эквивалентности, не использующую предположений о дифференцируемости критерия. Отметим, что решение задачи (16) всегда находится в U(L) ПЗЯ. Теорема 4. Пусть MeMU(L) и С ДМ) = (LTM~LY\ Тогда М является решением задачи (16) в том и только в том случае, когда существует псевдообратная матрица G для М и матрица D со свойствами 7(C)7°(D)=trCZ)=l, tr AGTLCDCTLTGs^l УЛ е ЭД. . Теорема 4 разбивает характеризацию решения задачи (16) на две части, соответствующие функциям / и 7. Первая часть со- стоит в нахождении 5 X 5-матриц С и Р; во. многих случаях ре- <5 п./р. с. М. Ермакова 65
шепие уравнения j(C)f(D) = tr CD = 1 может быть явно найдено. Вторая часть относится к матрицам G й А. В случае 5 = 1 вместо LTQ будем писать ст0, где с — фикси- рованный вектор из Rm, а вместо £/(£)—-множество U(c). Таким образом, U(с) — множество матриц единичного ранга, порождаю- щее подпространство единичной размерности, натянутое на век- тор с. В этом случае все функционалы информации приводят к одной и той же задаче (16), а теорема 4 принимает следую- щий вид. Матрица М s SW Л С7(с) есть решение задачи (16) в том и только в том случае, когда существует такая матрица G, псевдо- обратная для М, что cTGAGTc < стМ~с VА <= Э1. Для /р-кРитеРия при Р е И, 00) теорема 4 принимает друг гой вид. Пусть М Тогда М есть решение задачи (16> в том и только в том случае, когда существует такая матрица G* псевдообратная для М, что tr LTGAGT < tr (LTM~Ly VA <= 2». При p = -- о© матрица M^^Sl есть решение .задачи (16) тогда и только тогда, когда существуют такие матрица G, псевдообрат- ная к М, и матрица Е е conv М (conv М определено в конце § 7), что uLTGAGTAE^m^(LTM~L) УЛ<=2И. . 2. Теорема эквивалентности для планов эксперимента. Пусть теперь. 2)? = М (S) = {J f (х) f (х) £ (dx), I е е}, где Е — мно- жество всех вероятностных мер, заданных на X. Для любой матрицы, А <= М(Е), принадлежащей U(L), существует такой не- прерывный план Vs сосредоточенный не более чем в $($•+ 1)/2 + s(rangА — s) точках, что а/(Л) = JUf(g)) при неко- тором вещественном а > 1. Множество М(Е)° допускает следую- щую интерпретацию: N = M(E)* f lx)Nf(x)^i tfxeX. Теорема 4 для случая Ф1 = М(В) принимает следующий вид. Пусть g Е таково, что U(L), и пусть С = Тогда М£) является решением задачи (16) в том и только в том случае, когда существуют такие матрицы G = и D <= что j(C)j°(Z))=trCD = l, fT(x)GTLCZ>CLTG/(x)<l Если | — оптимальный план, то f(x)GTLCDCLTGf{x) = 1 для всех точек спектра любого оптимального плана. Веса точек пла- на характеризует следующий результат. 66
Пусть Ж %)—решение задачи (16) при 9И = ЖЗ), матрицы С, D, G такие, как в теореме эквивалентности (п. 1) и g = «= {xi, ..., хп; рь . .рп}. Тогда вектор р = (ph . .рп)т есть решение уравнения Ар = е (в = (1, ..1)т е Rz), причем А^&п и элементы А определяются выражением - ahi^{g4xh){ETBE^g{Xi)}\ где g(x) — ETLTGf(а), Е таково, что ЕЕТ = С. Кроме того, pi if ан и max pt Xmai(CDh § 9. Теория двойственности для D - и Е-критериев 1. D -критерий. Теорема двойственности для D-критерия мо- жет быть сформулирована следующим образом. Задача нахождения D-оптимально го плана и задача поиска TV* == arg min In det/V-1 N при условии N е [А е &f (х) Af (х) m Yx е X} связаны соотношением двойственности, причем < Af* « М~Щ*\ где %* — любой D-оптималъный план. Из этого результата вытекает теорема эквивалентности Ки- фера— Вольфовица (см. § 4), а также следующая геометриче- ская интерпретация: среди матриц всех эллипсоидов с центром в начале, описанных вокруг множества /(X) cz Rn\ матрица с наи- меньшим определителем является обратной к матрице D-опти- мального плана; такая матрица определена единственным обра- зом (/(X) - {/W; ^геХ}). 2. Е-критерий. Задача нахождения Е-оптималрного плана и задача поиска 1 • Af* = arg min -—тт * N tr ЛГ при условии N [А^ & m; sup fT (x) Af (x) = 1) I x~X ' f связаны соотношением двойственности й l/trAf* = supXmln(M(B)). 1 Решение двойственной задачи, очевидно, существует, но в об- щем случае не единственно. ' Указанная теорема имеет изящную геометрическую интерпре- тацию, аналогичную интерпретации D-критерия. Среди матриц всех эллипсоидов (включая вырожденные) с центром в начале, описанных вокруг множества /(X) es Rm, матрица с максималь- 5* 67
ным следом является решением двойственной задачи, и ее след равен inf Хтах(Л/"1и))« Из этой теоремы вытекает ряд характеризаций Е-оптималь- ных планов. Необходимым условием принадлежности точки х* спектру какого-либо. ^-оптимального плана является равенство /т(я*)№*/(**) = 1/Хга1п, ГДе %min == SUp Xmln))• План является ^-оптимальным тогда и только тогда, когда существует матрица А такая, что sup /г (х) Af (х) = 1 Amin (М (£*)), ’ tr А = 1. Пусть {£а} — множество всех ^-оптимальных планов, Ра — подпространство, соответствующее Хт1п(Л7(£а)). Тогда подпрост- ранство Р = П Ра не пусто и любое решение двойственной зада- чи порождает некоторое Ра- Отметим, что подход §§ 3—6 приводит к более слабым ре- зультатам. Литература к гл. 2; к §§ 1—6: [15, 20, 30, 44, 67, 92—94, 106—112> 121, 122, 127, 132, 135—137, 140, 142, 149-151, 155, 165, 173, 187, 193—1961; к §§ 7-9: [63, 176, 186].
ГЛАВА 3 АНАЛИТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ НЕПРЕРЫВНЫХ ПЛАНОВ В настоящей главе на базе результатов гл. 2 указаны неко- торые приемы явного решения задачи оптимального непрерыв- ного планирования регрессионных экспериментов. Наиболее законченные и элегантные результаты получены в одномерном случае, где прослеживается связь между точками некоторых оптимальных планов д корнями классических ортого- нальных многочленов. В многомерном случае некоторые частные задачи решены для трех наиболее важных для практики слу- чаев: гиперкуба, гипершара и симплекса. Как и ранее, предполагается: а) функция регрессии т)(я, 0) известна с точностью до конеч- ного числа.линейно входящих параметров; б) относительно параметров не делается априори иных пред- положений, кроме 0 е Rw; в) результаты наблюдений описываются схемой Гаусса — Маркова,'ПО не предполагается равноточность; г) множество планирования X компактно в R\ В качестве критериев оптимальности планирования выступа- ют D-критерий и линейные критерии. § 1. D- и G -оптимальные планы в одномерном случае Будем рассматривать D-оптимальное непрерывное планирова- ние, имея в виду связь между D- и G-критериями, устанавливае- мую теоремой эквивалентности Кифера — Вольфовитца (см. гл. 2). 1. Одномерная полиномиальная регрессия. Пусть (г = 1, ..., тп). ~ Теорема 1. D-оптималъный план для случая полиномиаль- ной регрессии на отрезке [а, 6] сосредоточен в тп точках, если выполняется одно из следующих условий: 1) система функций {1, К(х), Мх)х, ..., k(x)x2(m~l)} является чебышевской на [а, &]; - 2) Х(гг) = Р“Чгг), где Р(х)—многочлен, положительный на [а,* 6], причем его (2т—1)-я производная Р^^Цх) не обраща- ется в нуль на открытом интервале (а, Ь); 69
3) К(х) можно равномерно аппроксимировать функциями из 2); 4} Мх) = Р~*(х), где Р(х)—многочлен степени не выше 2(т — 1), положительный на [а, Ы: Задача D-оптимального планирования для полиномиальной регрессии может рассматриваться при К(х) 1, но с соответ- ствующим преобразованием базисных функций. Для того чтобы найти D-оптимальный план в пространстве непрерывных планов, надо решить задачу максимизации на мно- / п жестве точек х, е [а, bl и весов р J j = 1? ..., п; pj > 0, 2 Pj =* \ i=i *= 11 определителя II п где п тп(тп + 1 )/2. Если п = т, то m m __ \м(Б)| = ПлПМ*») П Сч—*о2». - J=1 5=1 _ если спектр D-оптимального плана содержит m точек, то * ~ i соответствующие им веса оказываются равными Pj = rn V = 1» ...» rn), а точки спектра служат решением следующей экстремальной задачи: m {a$},”i = Arg min ДМ*.) П (*» —^)2- х^;=1,...,7П S=JL Ki<l<m В некоторых случаях можно явно указать и спектр D-опти-» мального плана. Теорема 2". Пусть в случае полиномиальной регрессии ее* совая функция совпадает с одной из следующих*. 1) №)^1, Х=[—1, И; 2) XU) == (1 -я)а+1(1 + я)р+\ X ==[-1, 1], а>-1, р>-1; 3) Х=[0, оо); 4) Х(я) = ха+1е-х, Х = [0, °°), а>—1; 5) Л (х) = е~х2, X = (— оо, оо). Тогда D-оптимальный план единствен и сосредоточен с равными весами р$ = т^1 в т точках, являющихся соответственно корнями многочленов: 1) (1 — х2) г^е Pm-i(^)— первая производная мно- гочлена Лежандра (т — 1)-й степени; 2) Р^} (х) — многочлена Якоби m-й степени с парамет- рами а, {J; 3) хЬ^г(х), где L^..i(x) — многочлен Лагерра (тп— 1)-й степени с параметром 1; 70
4) L™ (x) — многочлена Лагерра т-й степени с парамет- ром а; 5) Нт(х) — многочлена Эрмита m-й степени. 2. Одномерная тригонометрическая регрессия. Пусть ц (х, 0) — , тригонометрический многочлен степени m — 1 по системе косину- сов на отрезке X — [0, л], т. е. . . fi(x) = cos (i — 1)я, i = 1, ..., тп; к(х) == 1. Этот случай легко сводится к случаю полиномиальной регрессии на отрезке [—1, 1] с h(x) ® 1. D-оптимальная мера сосредото- чена с равными весами pj == mT1 в m точках х$ = arccoszj (J = == 1, ..., m), где zt, .... zm— нули многочлена (1 — z^)Pm-1(z), где — многочлен Лежандра (ш— 1)-й степени. Рассмотрим тригонометрическую регрессию Й-го порядка по системе косинусов и синусов в интервале X = [0/ 2л), когда {/«(*)}&> = 1, если i = О, sin 0,5 (i 4-1) если i — нечетное* cos 0,5м:, если i—четное. , Любой непрерывный план £♦, сосредоточенный с равными ве- сами Pj — п"1 (/ = 1, ..п)в любом, числе п > 2й + 1 равноот- стоящих на [0, 2л) точек * 7 ~l 1 xj 2л + у (mod 2л), ; = 1, ..., п, где у е [0, 2л) — произвольное, является D-оптимальным планом для тригонометрической регрессии й-го порядка по синусам и ко- синусам. В качестве меры g* можно выбрать и непрерывную равномер- ную меру на [0, 2л), т. е. (dx) = -^dx, которой соответствует диагональная информационная матрица с элементами иг00(£*) = 1, m«(g*) = l/2 U = l, ..., 2й). Легко убедиться, что план, D-оптимальный для тригонометри- ческой регрессии d-то порядка, является D-оптимальным и для тригонометрической регрессии порядка не более й. Литература к § 1: [21, 41, 71*, 93,-141, 144, 155]. § 2. D- и G-оптимальные планы в многомерном случае 1. Линейная регрессия на к -мерном кубе. Критериями опти- мальности планов экспериментов па протяжении этого параграфа будут критерий D-оптимальности и эквивалентный ему при К(х) ® 1 и X = Z критерий G-оптимальности. Часто бывает жела- тельно, чтобы план эксперимента имел, кроме того, и другие хоро- шие свойства, которые связаны, например, с соображениями удоб- ства использования. 71
В некоторых алгоритмах экспериментального поиска экстрему- ма как промежуточный этап встает задача локальной линейной аппроксимации исследуемой зависимости на каждом шаге продви- жения к экстремуму. В связи с этим здесь неоднократно встреча- ется задача планирования регрессионных экспериментов для ли- нейной регрессии (полиномиальной первого порядка) на ft-мерном кубе. Специфика задачи предъявляет особые требования к плану эксперимента, наиболее важными из которых являются ортого- нальность, ротатабельность и насыщенность. План § называется ортогональным, если ему соответствует диагональная информационная матрица Л/(|). Ортогональность плана облегчает вычисление оценок коэффициентов регрессии и обеспечивает их некоррелированность, что позволяет исключать из регрессионного выражения те члены, коэффициенты при кото- рых оказались статистически незначимыми, без пересчета ос-4 тальных. План £ называется ротатабельным, если d(x, £) зависит только от расстояния точки х <= X до некоторой фиксированной точки с, называемой центром эксперимента. Ротатабельный план делает равноправными все направления, в которых может происходить дальнейшее экспериментирование. План § называется насыщенным, если он содержит минималь- но возможное число точек наблюдений. Пусть ' . fe П (х, 0) = 00 + 2 0^>, г—1 т. е. ш = k + 1, ^(х) 1, fd.x) = x{i} (i = 1, ..., ft). Будем предполагать на протяжении этого параграфа, что Х(х) 1. Тогда: ’ . 1. Если X — замкнутая область ft-мерного евклидова простран- ства, то все точки D-оптимального плана лежат па границе X. 2. Если X — к-м&рнъш куб, то спектр D-оптимального плана для линейной регрессии сосредоточен в вершинах этого куба (не обязательно во всех). План g, сосредоточенный во всех 2к вершинах ft-мер- ного куба X: —‘1^я(г)=С1 (г = 1, ..., ft) и приписывающий этим вершинам равную меру pj = i/2k (/== 1, ..., 2*),. носит специаль- ное название — полный факторный эксперимент для ft факторов, меняющихся на двух уровнях (—1 и +1 в кодовых переменных). Непосредственные расчеты показывают, что Af(§)=7ft+i, т. е. £ — ортогональный план. Далее; ь d (xr I) = 1 4- 2 (я(г))21 max I) = ft + 1. Следовательно, g — ротатабельный и D-оптимальный план. По- скольку информационные матрицы всех D-оптимальных планов 72
совпадают, любой D-оптимальный план для линейной регрессии на Л'-мерном кубе также является ортогональным и ротатабельным. Несмотря на отмеченные преимущества полного факторного эксперимента, он не всегда удобен для практического использо- вания, так как при больших к содержит значительное число то- чек в спектре —2*. Поэтому представляет интерес задача по- строения D-оитимального плана с наименьшим числом точек. 13 данном случае минимально возможное число точек любого плана для оценки всех параметров равно к+ 1. Геометрическая структура D-оптимальных насыщенных пла- нов первого порядка связана с симплекс-планами, т. е. планами, сосредоточенными в вершинах правильного симплекса ^-мерного пространства с центром в начале координат. Нетрудно показать, что если ортогональный план для линейной регрессии сосредото- чен в. к+ 1 точках, то рн является симплекс-планом, и обратно, всякий симплекс-план ортогонален. Точки D-оптимального симплекс-плана для линейной регрес- сии на /с-мерном, кубе принадлежат множеству вершин этого куба. Однако не. для всех размерностей к существует правиль- ный симплекс, все вершины которого совпадают с некоторыми из вершин куба. Например, при ^ — 3 этого можно достичь, а при к = 2 пет. Указанные симплексы построены, для всех та- ких, размерностей к, что к+1»0 (mod4), от /с = 3 до к = 199, за исключением к = 187. Это связано с вопросом существования матриц Адамара. 2. Полиномиальная регрессия второго порядка на Л-мерном кубе. Пусть. X = {х = (х(1), ..., £(ft))rl—l .x{i) 1, г — 1, ..., W, /U) = (l; U(1))2, ..., (я<*>)2; х(,), ..., ..., x^xw)T - вектор размерности т = = (к + l)(Zc 4- 2)/2. План £ называется симметричным планом второго порядка, (ft \ I = 1, . . ., A, ) г=1 / выполняются следующие моментные соотношения: X (ах, ..., ah) = f (ж(1))а1Х ... X (я(А)Г'Ч\dx) = x !0, если хотя бы одно щ — нечетное, 5^ 0, если все — четные, и X(ai, ..., симметричная функция всех своих аргументов. Обозначим Х2 = Х(2, 0, ..., 0), %3 = Х(2, 2, 0, 0), Х4 = = Х(4, 0, ..., 0). Для симметричных планов второго порядка 1 RT 0 0 М(5) = R 0 G 0 0 0 0 - _0 0 0 %зА(Л-1)/2_ где RT = (Х2, ..., Х2) — строка размера IX Л, G — матрица раз- 73
мера к X к с диагональными элементами Х4 и внедиагональны- ми Xs, -1 м (?) I = (*4 - Ч)*-1 [*4 + (к - 1) х3 - ***]. ТеореМа 3. 1) D-оптимальные планы содержатся в мно- жестве симметричных планов. w 2) Носители D-оптимальных мер сосредоточены в точках мно- жества S = {х^Х\ |я(<)|«=1, О, i=l, .к}. 3) Значения X*, Х3, Х4, максимизирующие iJf(g)I, соответ- ствуют D-оптимальному плану и равны = I2*’ +34 +7 + -1) + + 12* +17)1'2]» х; =------*+3.... х 8 (к + 1) (к + 2)3 X [4А:» + 8*2 + И* - 5 + (2*2 + * + 3) (4*2 + 12* + 17)1/2]. \ . Представим множество точек с целочисленными координата- ми хв виде S == U ётч где Sr — множество точек, у которых г г=0 координат равны нулю, а & —г координат равны +1 или —1, т. е. ST — множество центров граней размерности г. Будем ис- кать D-оптимальные планы в классе планов Ео на <?Г, который определяется тем, что мера %(Sr) = рг распределена равномерно между всеми Crk-2k~r точками <Fr. Теорема 4. План £ является D-оптимальным для квадра- тичной регрессии на к-мерном кубе тогда и только тогда, когда: 1) £ — симметричный план второго порядка, определенный на множестве $f^<=.S\ 2) величины pr — Sявляются решениями следующей системы: ЗРг = 1, Рг>0, ; г=0 k ’’V’ к — г а * ~г~?г ~ Агг г=0 ' ’ k 2(к— г) (к — г — i) _ k(k — i) Pr — Ч. r~0 D-оптимальные планы, определенные на множествах So, Si,f S%, называются планами Кифера, а на множествах SQ, Si, Sk — планами Коно (табл. 1). • Планы Кифера существуют только при к 5. Планы Коно построены для размерностей К к С 9, причем для, к С 5 исполь-
зуются множества для 6 к 9 — множества <Fft, ^0, либо <F2. Для размерностей Л: = 1, 2 планы Кифера и Коно совпадают. Заметим также, что если к 2, то меньше чем тремя множествами <8? при построении Р-оптимального плана из клас- са Ео обойтись нельзя. Таблица 1 Л Планы Кифера Планы Коно То Pi Ро Pi 1 0,666(6) 0,333(3) 0 0,666(6) — 0,333(3) 2 0,5832 0,3206 v 0,0962 0,5832 0,3206 0,0962 3 0,5758 0,2274 0,1968 0,5103 0,4242 0,0655 4 0,5928 0,1228 0,2844 0,4506 0,5021 0,0473 5 0,6170 0,0250 0,3580 0,4020 0,5620 0,0360 6 — .— :— 0,3623 0,6097 0,0280 7 •— — * .— 0,3297 0,6487 0,0216 Имеет место следующий результат общего характера. Теорема 5. Если D-оптимальный план сосредоточен в точ- ках трех множеств <8Г1, Sт2, <8то п — О, г2 = 1, 2 r3 fc, когда 2 «С к 5; п = 0, г2 = 1, 2, 3 С г3 к, когда к>&. Если обозначить решение приведенной выше системы для ин- дексов 0, 1, г (г < 3 при Ji: > 6) через Р(1) (г) = (р<х) (г), р<х) (г), ..., р<х) (г), . . .), а решение этой же системы для индексов 0, 2; г (при к > 6) через Р(г) (г) = (р£2) (г), 0, р(22) (г), ..., р(2) (г), ...), то-можно утверждать, что вектор Р==(рб, Рь .pj является решением задачи тогда и только тогда, когда h Р=2 (.агР(1)(г) + ргР(2)(г)), т—2 h где а,, Рг > О, 2 (“г + Рг) — 1. г=2 - г Из табл. 2 видно, что“ число точек в плане Коно не больше числа точек плана Кифера. Легко видеть, что среди всех мно- жеств вида <^U^r2U<^3 множество имеет наи- меньшее число точек 2к + к2к~* +1. Однако при больших к и планы Коно, которые соответствуют такому выбору, имеют слиш- ком большое число точек, превосходящее .при А > 4 известную: 7&
к настоящему времени верхнюю границу минимального числа точек спектра D-оптимального плана: Н = (й + 1) (к3 + 9/с2 - 10Й +. 48)/24. Установлено, что при к = 1, 2 минимальное число точек спектра имеют планы Кифера — Коно, при к = 3 — планы Коно. В случае к = 4, 5, 6 также известны D-оптимальные планы, со- держащие наименьшее возможное число точек спектра, но опи Таблица 2 h Число парамет- ров Верхняя грани- ца Н Число точек . план Кифера ' план Коно 1 3 3 3 2 6 9 9 9 3 10 21 26 21 4 15 45 72 49 5 21 87 , ; 192 113 6 28 154 — 257 ' 7 36 254 —• 577 принадлежат более широкому классу, чем Во, и строятся с ис- пользованием дробных реплик от полных факторных экспе- риментов. 3. Полиномиальная регрессия на ^-мерном шаре. Пусть .k 1=1 вектор-строка, образованная занумерованными в некотором по- рядке всевозможными одночленами степени не выше d от ..., x(h\ т = Ck+d- Будем считать, что 1. Укажем ос- новные свойства D-оитимальной меры для рассматриваемой задачи. Теорема 6. 1) В случае полиномиальной регрессии степе- ни d на к-мерном шаре существуют величины М < < ... < <Х*<Ху+1==1» где v— наибольшее целое, меньшее или равное d/2; Xf = 0, если d — четное и X* > 0, если d — нечетное; а также /v+l \ такие положительные величины у*, , yv+i HS Yj = 11, что \j=i / план g* D-оптимален в том и только в том случае, если выпол- няются условия: a) = у*, + где So — к-мерная сфера радиуса р; ' 76
б) — ротатабельный план, т. е. d(i, g*)=d(p2, £*) зависит h только ОТ Р2 == 2 (я(г))2» г^1 2) Существуют планы, которые удовлетворяют этим условиям и сосредоточены самое большее в Ck+2d точках. 3) Величины у* и X* могут быть получены как единственное, решение следующей системы уравнений: d (г; V» М I r=kj ==m, j = 1, ..v + 1; ?Д)|г=г1. = 0; 7 = 1, ..., v, если d — нечетное; / = 2, Л.. v, если d—четное; V+1 = 0, Xv+i == 1; 2 Yj “ j=i где 7 = (^1, •••» Yv-pi)T, X = (M,. ..., Xv+i)T, d(r; 4, Z)=d(p2, £), 7 u X соответствуют плану g. Хотя для рассматриваемой задачи доказано существование Л-оптимальных планов, сосредоточенных не более чем в Сь+ы точках, пока не предложен общий алгоритм нахождения Л-опти- мальных планов с конечными спектрами аналитическими мето^- дами (значения и Kf для различных к и d можно получить численно). Интерес представляет не только аналитическое реше- ние этой задачи, но и синтез Л-оптимальных планов, сосредото- ченных в наименьшем числе точек. В настоящее время подроб- но исследованы случаи регрессии первого и второго порядков. Пусть d = 1. Как следует из теоремы 6, план £*, точки кото- рого совпадают с вершинами любого правильного вписанного в сферу 51 многогранника, а веса одинаковы и равны п“д.(п> > к + 1 — число вершин этого многогранника), будет Л-оптималь- ным, причем М(£*) =7л+ь ~ ' Пусть d = 2. Из теоремы 6 вытекает, что в данном Случае Л-оптимальный план приписывает меру £*(0) = 2/[(fc+!)(& +2)] центру шара и меру £*(£,) = 1 — g*(0) поверхности единич- ной сферы. Используя найденную Л-оптимальную меру, можно построить Л-оптимальный план, сосредоточенный в конечном числе точек. Например, Л-оптимальным при d = 2 является план, определяе- мый следующим образом На поверхности сферы St выберем точки пересечения сферы с осями координат (0, О, ±1, О, ..., 0), приписав каждой точке этого типа вес d = = (/с4~3)/[(&+ !)(& + 2)2],_а ^акже вершины вписанного гипер- куба (±1/У/с, ..., ±1/УЛ), каждую с весом р = (А + 3)А2/ /Шк + 1)(А + 2)2], и добавим к этим точкам центр шара с весом 2/[(/с + l)(fc + 2)]. Число точек построенного таким способом Л- оптимальпого плана равно 2\+2&+ 1 и при А: <10 это меньше, 77
чем С*+4 — верхняя граница для Минимального числа точек спектра D-оптимальпого плана в рассматриваемом случае. Отсю— да, конечно, не следует, что число точек не может быть умень- шено. Например, для к « 2 существует D-оптимальный план, со- средоточенный в минимально возможном числе точек п = С% = 6, равном числу оцениваемых параметров. Интересен в этой связи такой результат: если для случая полиномиальной регрессии вто- рого порядка в произвольном множестве XczR* существует D- оптимальный план, сосредоточенный в п = т точках, то все точ- ки его спектра, за исключением, быть может, одной, лежат на границе X. 4. Полиномиальная регрессия на к -мерном симплексе. При изучении, например, свойств смеси, которые определяются толь- ко концентрациями составляющих смесь веществ, множество планирования X представляет собой правильный симплекс в к- мерном пространстве с (Л + 1)-й вершиной: / 2*(0 = 1, я(г)^0, i = (),...,&, i=0 где x{i} — относительное содержание г-го компонента смеси. В химии и металлургии такие ограничения накладываются на компоненты при построении диаграмм «состав— свойство». Заме- тим, что #(t) (i = 0, ..., к) можно рассматривать как барицент- рические координаты точек fc-мерпого симплекса X относительно к.+ 1 его вершин Ао — (1, 0, ..., 0), — (0, 1, 0, ..., 0), ..., Ah = = (0, 0, ..., 1), т. е. их декартовы координаты в базисе векторов ОА0, OAh ..., OAh, где точка О — начало координат — не лежит в /с-мерном подпространстве, содержащем X. h Поскольку переменные связаны соотношением S х(г) = 1, <=о то соответствующая информационная матрица вырождена, и нель- зя оценить все (Cfc+d+i) параметры полиномиальной модели по- рядка d от к + 1 переменных. Однако, учитывая связь между пе- ременными, мы имеем дело с многочленом степени d от к пере- менных, и число неизвестных коэффициентов составляет Cfe+d. Если желательно иметь зависимость свойств от к +1 переменных, то можно перейти к так называемым приведенным моделям Шеффе. Приведенные полиномы Шеффе степени d от к + 1 пере- менных ' а(*,0)= 2 0^(i) + 2f 2 d + 2 ( 2 ,vf (^(ij))B1x ... x i где Vi +... + vt = d, получаются из обычных полиномов степени d 78 '
от к + 1 переменных с Ck+d+i коэффициентами введением соот- к ношения #(г) ~ 1 и содержат Ск+% коэффициентов. Так, на- г=0 пример, приведенные полиномиальные модели первого, второго и третьего порядков запишутся в виде л (х, е) = 2 i=0 к •п2 (х, о) = 2 0iZ(,) + 2 е»хмх(1\ 1=0 0<г<1^к к Из (х> о) = 2 о^(<) + 2 Q»xwxw + i=0 O^KUh + 2 6.иХ^^- /'*) + 2 QujxVx^. 0<i<l<k 0<i<l<j^k \ Минимальное число точек плана для определения коэффици- ентов в приведенной полиномиальной модели Шеффе составляет Ck+d. Для оценки этих коэффициентов предложены различные по конструкции планы, наиболее известные из которых — симп- лекс-решетчатые и симплекс-центроидные. Спектр насыщенного симплекс-решетчатого плана па А-мер- ном симплексе сосредоточен в узлах {A, d} — симплексной решет- ки и определяется как множество точек Xj = (х<?\ х?\ ..х^))т, /=1, n = к х^ «= {0, i/d, 2/d, 2 ХУ = Ь 7 = 1.......Cft+d. i=0 В симплекс-решетчатых планах (например, перврго и второго порядков) может оказаться, что все точки располагаются на гра- ницах. При этом отсутствуют эксперименты, в которых участву- ют все компоненты смеси. Симплекс-центроидный план содержит точки (1, 0, ..., 0), (1/2, 1/2, 0, ..., 0), ..., (1/(А+1), 1/(А+1), ..., 1AA+D), а также все точки, которые можно получить перестановкой их координат. Следовательно, в состав симплекс-центроидного пла- на входят = к + 1 вершин симплекса, С%+1 середин его/ ребер, C3h+i центров двумерных граней и т. д. и, наконец, £fe+i= 1 — центр грани размерности ' А —центроид симплекса. Таким образом, общее число точек симплекс-центроидного плана составляет 2ft+l — 1. В отличие от симплекс-решетчатых планов, где для фиксированного А существует целое семейство {A, d} решеток при d = 1, 2, ..., спектр симплекс-центроидного плана 79
единствен. Для полиномиальной модели специального вида л т) {х, е) = 2 0i + 2 Qux^x^ + i=0 4- ' 2 eiitX(t)x{l)x(t) + ,., + Qoi...hx<o)xll) x ... X Xw 0<i<l<t<k симплекс-центроидный план является насыщенным. Если всем точкам спектров планов приписать равные веса, то {Лг, 1} — симплекс-решетчатый план — D-оптимален для приве- денного полинома первого порядка; {к, 2} — симплекс-решетча- тый план — D-оптимален для приведенного полинома второго порядка, а симплекс-центроидный план D-оптимален для модели ц(я, 0) при любом А. Однако, например, если d — 3 и к = 2, то симплекс-решетча- тые и симплекс-центроидные планы уже не обладают свойствами D-оптимальности. В этом случае единственный D-оптимальный планг имеет другую геометрическую структуру: он приписывает меру 1/10 каждой из трех вершин симплекса (1, 0,. 0)^(0, 1, 0) и (0, 0, 1), центроиду симплекса (1/3, 1/3, 1/3) и шести точкам, координаты которых^ образованы из перестановок трех чисел 0, (5 —V5)/10, (5 + V5)/10. Литература к § 2: [21, 33* 71*, 74]. § 3. Оптимальные планы для оценки одного параметра Пусть исследователя интересует один из т параметров, ска- жем 01, и требуется выбрать план |*, которому соответствует ми- нимум дисперсии НЛН-оценки параметра 01 в регрессионной за- висимости: т Т1 (Я, 0) = 0,д (х) + 2 Oi/i (?)• i=2 В этом частном случае критерия Dв-oптимaльнocти, которому от- вечает s = 1,. могут быть указаны более сильные результаты, чем в общем случае оценивания s < т параметров (см. гл. 2). Задача непосредственной минимизации дисперсии где tT = (1, 0, ..., 0), Мгс) = 1, может быть заменена эквивалент- ной путем, перехода от исходного^ базиса Д(х), /2U), .. т к базису /J (х), /2 (х), (х), где f* (х) =Jf(x) — 2 Mi О), г—2 Коэффициенты hi (f = 2, ..., т) определяются единственным об- разом из условия, ортогональности относительно меры g функции /* (х) ко всем функциям fM (I = 2, ..., т): $ fi (х) fi GO = 0, Z = 2, х 80
При таком преобразовании 01 = еГ, D (0х) - D ( 0*) = N-1 [лл* (g)]-1,' где M1*1(B) = f [Л* (*)]Ч(^) - соответствующий элемент пре- х образованной информационной матрицы, а исходная задача сво- дится к задаче m T2 = Arg max les л 2 J £(<&), A’L i=2 где hi (г = 2, ..m) ойределяются условиями ортогональности. Отказ от условий ортогональности приводит к эквивалентной формулировке задачи: Г Г т I2 X L i=2 J g* = Arg max min ^зс2,..мстН для решения которой может быть применен аппарат классиче- ской теории наилучших равномерных приближений. Теорема 7. Пусть С* = (С*, • • *, Ст)— чебышевский вектор элемента наилучшего приближения функции по си- стеме функций {fa (я)}£=2 а тп (С*) — max f1 (х) — 2’ Ci7i (х) , хеХ г=2 В (С*) = = 7П (С*) Если £*(5(С*)) = 1 и m л * I /ИО-S с^Ш = X г=2 I — 2, ..., тп, то — оптимальный план для оценки параметра ;04. Рассматриваемая задача допускает и другую трактовку — в терминах задачи нахождения оптимальной стратегии в следую- щей игре двух лиц с нулевой суммой. Первый ргрок (статистик) выбирает точки плана в соответствии с. вероятностной мерой -Н Е. Множество непрерывных планов S есть пространство сме- ненных стратегий первого игрока. Второй игрок (природа) вы- бирает вектор коэффициентов С—(С2, ..., Ст)т. Пространством чистых стратегий второго игрока служит Rm-1. Роль функции выигрыша играет функция 6 п./р. С. М. Ермакова 8f
а средний выигрыш характеризуется функцией С) = X Задача игры состоит в поиске оптимальной стратегии как для ' первого игрока, который максимизирует свой выигрыш, так и * для второго игрока, который минимизирует свой проигрыш. Теорема 8. 1) Существует оптимальная стратегия (£*, £*) как для первого игрока, так и для второго, представляющая со- бой'седловую точку: С*) =С@(£*, С*) <(?(£*, С), где С е= R”»-1. 2) Если (£*, С*) — оптимальная стратегия в определенной - выше игре, то — оптимальный план для оценки параметра 0t, /7* — чебышевский вектор. 3) Если — оптимальный план, а С* — чебышевский вектор, то выполняются условия теоремы 7. 4) Существует оптимальный план £*, сосредоточенный не бо- лее чем в тп — г точках, где г — размерность множества векто- ров С*. Из приведенных результатов вытекает следующая последова- тельность действий при поиске оптимальных планов для оценки одного параметра: 1) решаем задачу Чебышева для аппроксимации функции УДх) обобщенным полиномом по системе и определяем вектор С*; 2) находим множество В(С*), соответствующее этому ре- шению; 3) полагаем Ъ*(В(С*У) = 1; 4) находим веса наблюдений Pj = (х$) в точках плана х, <= ^В(С*) из условий ортогональности, указанных теоремой 7 и условия нормировки меры £*, решая систему линейных алге- браических уравнений. При некоторых дополнительных предположениях можно га- рантировать единственность оптимального плана: если X— замк- нутый вещественный интервал, функции fi(x) (i = 2, ..., m) образуют систему Чебышева на X, и В(С*) содержит ровно m точек, то оптимальный план для оценки параметра 04 единствен. В общем случае свойство единственности оптимального пла- на не имеет места. Действительно, если X=l-1, 1], тп = 2, /Дх) = 1 + sin 10#, /2(я) 5551, то любой план g, который припи- сывает меру 1/2 каждому из множеств, где sin 10х = 1, —1, удов- летворяет условиям теоремы 7 и, следовательно, является опти- мальным. Для полиномиальной регрессии на отрезке имеет ме- сто следующая теорема. Теорема 9. Оптимальный план для оценивания пара- метра 0/ в случае m Т] (х, 0) = 2 82
на отрезке [—1, 4] состоит в следующем выборе наблюдений в точках 1) если 1= 1, то х* = 0, п = 1; 2) если I 17 m — l — четное, то \ * (/ — 1) л . ' Л Xj = — cos ~-----г, ] = 1, ..., и = m; m — 1 ’ ’ 3) если l Ф 1, тп — I — нечетное, то * (/ — 1) л . Л л Xi = — COS—-----7 = 1,..., п = ТП — 1. J ш — 2. 1 J ’ Оптимальные веса наблюдений соответственно определяются^ 1) -р* = 1; (ш \-1 . 7 = 1,...,»», «=i / где m il = (tn, = 1, 0.....0), at™-1) (j ~ e o , ? m) — коэффициенты многочлена Лагранжи степени m — 1: m il * .• —1, 7, \Г /1, ...,m ^T”1 ♦ * $ * I G I * I I > X1 ’ • • •» xj-r xj+l’ • • • ’ xm/ L vl ’ ’ ’ ’ ’ X^J J 1 1 ... 1 * * ♦ X1 x2 xm (4)m’1 ••• (4)m-1 (m—1 \ —1 2 |2’Г_2’(«()1 . 7 = 1, s-1 / и имеют место те же соотношения, что и в случае 2), но с заме- ной тп на тп — 1. Указанный оптимальный план является единственным, если />1 либо / = 1и т>3 (в случае Z = l, m==2 оптимальным яв- ляется любой симметричный относительно нуля план). Теорема 9 может быть обобщена путем замены степенных функций 1, х, я”1"1 на функции Чебышева ,/4 (я), ..., удовлетворяющие некоторым дополнительным условиям. Литература к § 3: [41, 189]. 6*
§ 4. Линейно оптимальные планы Функционал L, заданный па множестве ковариационных мат- риц и удовлетворяющий условиям L(4 + B)=LU) + L(B), L(d) = cLU), L(4)>0, где 4,5>0, с — положительная константа, будем называть ли- нейным критерием оптимальности, а соответствующие планы — Оптимальными. В данном параграфе рассмотрение ограничива- ется случаем невырожденных L-оптимальных планов (|М(£*)| ¥= 17* 0). Линейные функционалы на множестве невырожденных ин- формационных матриц являются выпуклыми, а если IAA) >0 для всех 4>0, то £[/)(£)] = ZfAMtg)] — строго выпуклый функ- ционал. Это позволяет к линейным критериям применить общие результаты теории выпуклых критериев из гл. 2 (в частности, теоремы о необходимых и достаточных условиях оптимальности плана). Для линейного функционала £[£)(£)] >0 на множестве поло- жительно полуопре деленных матриц П(£) существует такая по- ложительно полуопределенная матрица А, что . — trAD(g). Представители этого класса критериев встречались в § 5 гл. 2 и в предыдущем параграфе при^ минимизации диспер- сии оценки заданного параметра 0»: NDQi = tTD(%)t = tr47)(£), где t = (0, ..., 0, 1, 0, ..., 0)г, А = ttT. При некоторых дру- i тих способах задания матрицы А получаем частные случаи ли- нейных критериев. 1. А -оптимальные планы. Случай 4==7m соответствует кри- терию 4-оптималыюсти, согласно которому требуется минимизи- ровать след ковариационной матрицы D(£) или, что ЭКВИВалеНТ- rn по, среднюю дисперсию оценок параметров иг-1 2 Иц (£). Этот критерий привлекает своей наглядностью, ио с математической точки зрения он имеет существенный недостаток — отсутствие свойства инвариантности по отношению к линейным невырож- денным преобразованиям системы базисных функций и зависи- мость от выбора масштаба. Для аналитического построения 4-оптимальных планов пред- ставляет интерес следующий простой результат. План является одновременно Ь- и А-оптимальным, если cD(g*)==D2(£*), где — план, удовлетворяющий одному из критериев, с — кон- станта. При этом tr £)(£*) = cm. ~ С учетом результатов/ полученных для П-оптимального пла- нирования, отсюда следует, что для линейной регрессии на к- мерном кубе и тригонометрической регрессии на интервале 34
(а, а + 2л) по системе функций {Л(х)}?10 = 1, если i = О, У2 sin 0,5 (i + 1) х, если i— нечетное, У2 cos 0,5гя, если z— четное, А-оптимальные планы совпадают с D-оптимальными (см. соот- ветственно п. 2.1). , Аналитические методы построения 4-оптимальных, как и других линейно оптимальных планов, менее развиты, чем D-оп- тимальных. Обычно здесь используется следующий прием. Из ви- да функции регрессии и множества планирования X в конкрет- ной задаче, а также привлекая соображения симметрии и про- стоты конструкции плана, выделяется множество точек из X, которое принимается за спектр искомого оптимального плана. Сделанные предположения • о структуре оптимального плана позволяют, как правило, значительно сократить число перемен- ных в соответствующей экстремальной задаче и в некоторых случаях решить ее аналитически. Проверка полученного решения на оптимальность по отношению к исходной задаче осуществля- ется с помощью теоремы эквивалентности. 2. Оптимальные планы для экстраполяции в точку. Как от- мечалось в гл. 2, план I* = Arg inf d (х0, I) . 5ев называется оптимальным для экстраполяции (интерполяции) а точку х^ где наблюдения либо нереализуемы, например, по тех- ническим и организационным причинам, либо трудно осуществи* мы, например, из-за больших ошибок измерений. Свойство инвариантности этого критерия к линейному невы- рожденному преобразованию функций fi(x) (г = 1, тп) по- зволяет для насыщенных оптимальных планов получить явное выражение для весов наблюдений. Теорема 10. Если оптимальный план для экстраполя- ции в точку Хо сосредоточен в п = т точках х19 .. .,хтиз X, то . - ♦ __ I ^(*o) | 1/2 (*j ) ™ j = 1, . . ., т1 8=1 еде 3?j(x) — обобщенный интерполяционный полином Лагранжа по системе функций {/i(^)}w с узлами в точках х*, .. .,Хт. Наиболее законченные аналитические результаты к настояще- му времени получены для случая одной переменной. Теорема 11. Пусть система функций №2{x)fSx\ ... ♦.hi/2lx) fm(x) — чебышевская на отрезке [—1, И. Тогда 85
существует такой обобщенный полином m и(х) =2 аД1/2(х)Л(ж), 1=1 что: 1) 1а(х)| =С 1, [—1,И; * 2) существует ш точек — <#2 < • • • <Лт<И, в ко- торых »(**) = (— 1)*" \ / = 1, Если план сосредоточен в точках с весами р* (/ = 1, •.т), которые определены в теореме 10, то он минимизирует дисперсию оценки функции регрессии в заданной точке 1, И. Отметим, что спектр оптимального плана не зависит от хй. Как следствие из теоремы 11 получаем, что в случае полино- миальной регрессии на Х = [—1, 1] и /Л)^1 оптимальный план для экстраполяции в точку xQ (kol > 1) сосредоточен в m точках Чебышева, т. е. точках максимума модуля многочлена Чебышева первого рода: х* = — cos [(/ — 1) л/(дп —. 1)], ] = 1, ..., т. 3. Q-оптимальные планы. План, оптимальный в смысле кри- терия J м? (х) d (х, |) dx (где Z cz R\ вообще говоря, не совпадает ' z с X, w(x) >0 — весовая функция) минимизирует среднюю взве- шенную дисперсию оценки функции регрессии' по некоторому множеству Z и называется Q-оптималъным. Если функции /1(х), ..., fm(x) линейно независимы в Z, то (7-критерий строго выпуклый. Важным свойством (7-критерия, так же как Z7- и G- критериев, является инвариантность к любому линейному невы- рожденному преобразованию системы базисных функций. Для аналитического построения ^-оптимальных планов мож- но воспользоваться связью этого критерия с другими критерия- ми оптимальности. План g* является одновременно Q- и Л-оптимальным, если функции fSx\ ..., /тЫ ортонормировапы с весом иАх) па Z; Q- и 77-оптимальным, если D (£*) [J w (xj f (х) fT (х) dx\ D (£*) = cD (£*), Z где — план, удовлетворяющий одному из критериев, с — кон- , станта (при этом \w(x)d (х, £*) dx = cmY z J Литература к § 4 [51, 93,. 94, 144, 156]. 86
§ 5. Асимптотически оптимальные планы Для нахождения частных моделей регрессии конечной раз- мерности можно описать асимптотическое поведение планов с увеличением размерности, а в тех случаях, когда такое поведе- ние известно, использовать его в рамках того или иного, по су- ществу непараметрического подхода для ослабления априорных сведений о модели регрессии. Ниже рассмотрены обе указанные возможности. 1. Одномерная полиномиальная регрессия. Пусть В* есть Р- оптимальный план для оценивания коэффициентов полинома сте- пени п на отрезке [—1, +1]. Известно, что для каждой степени п этот план — единственный и планы, отвечающие ра[зным значе- ниям п, различны. Тем не менее с ростом п последовательность планов {^п, гс=1, 2, ;♦.] слабо сходится к единственному плану £о с плотностью 1/тс (1 — гс2)1/2. Это прямо следует из известных результатов об асимптотическом распределении нулей ортого- нальных полиномов. Факт указанной сходимости наводит на мысль использовать план в ситуации, когда точная степень полинома неизвестна, чтобы затем путем проведения последова- тельных наблюдений установить точную степень полинома. В этой связи возникает вопрос, как ведут себя характеристики точности предельного плана £0 при его использовании для поли- нома точной степени п. Пусть dn(x, g) —(%) Мп1 (%) Д(^)—дис- персия оценки полинома точной степени п в точке х по наблю- дениям плана £ /«(я) = (1, я, .. ч хп) — вектор базисных функ- ций, Мп (£) = j /п (х) fn (я) £ (dx) —информационная матрица для -1 1 регрессиям степени п и dn(£) ~ max dn(x, £) —максимальное значение этой дисперсии на интервале наблюдения. Используя инвариантность величины dn(x, £) относительно выбора бази- са из полиномов данной степени и перехода к ортЪнорми- рованным относительно меры полиномам Чебышева I рода: 1, У2 7\(;г), 1/2 Тп(х), 7\(cos 0) — cos кх (fc==l, ..., и), получим п s dn ?) = 1 4- 2 (#) = и 4~ тг + “2'^2n где C4(cos 0) = sin (к + 1 )0/sin 0 — полином Чебышева II рода от переменной х = cos 0. Отсюда dn (£о) = 2п + 1, что примерно вдвое -больше оптимального значения dn (£*) = п + 1; при этом макси- мум дисперсии достигается только в концевых точках ±1 ос- новного интервала и длина интервалов, примыкающих к концам, на которых dn (х, £о) > гс + 1, стремится к нулю с ростом п. 87
Определив G-эффективность пл'ана 5 как (п+ l)/dn.(B), полу- чаем для плана Во величину (п+1)/(2п+1) с предельным зна- чением 1/2. Более того, изменением меры Во в достаточно малой окрестности концевых точек ±1 можно добиться, чтобы для лю- бого е > О выполнялось условие почти G-эффективности: lim inf п + 1 мм >1 — 8. Пусть теперь Dn(£) = detMn(g); тогда Ml (М-1) Dn+1 (£о) = 2/пД где 8п — т '2k'1—1пп —2 (- *)* к (Г+чу (1 П 00 = 3 Ч(*) = 2 г*. 1=1 1=1 Так как при этом lim 6„ = б = 4 — log 2 - 3$' (— 1) ~ - 0,00464602, . то практически можно считать, что отношение определителей равно величине 211 п. Определив ^-эффективность плана Во величиной получаем lim2?n==l. Вариационные аргументы показывают, что п-*оо Во — единственная мера, абсолютно непрерывная относительно меры Лебега, с асимптотической D-эффективностью, равной 1. 2. Экстраполяция полиномов. Пусть |х0| > 1 и план Вп мини- мизирует величину dn(x0, В) среди всех планов, сосредоточенных на отрезке [—1, +11. Тогда последовательность Вп при слабо сходится к плану Во с плотностью лр0 —я| (1—аг2)1/2 на отрезке [—1, +U. Известно, что минимальная дисперсия по- линома в точке экстраполяции равна dn (х0, Bn) =- Тп (^о),. где Тп(х) — полином. Чебышева I рода. Для плана Во эта 88.
величина есть. (^о> £о) /2 л\1/2 [(*^0 ~Ь (*О 1) / ) ^п(^о) Тп(%о)Тп—1(ХО)]. Ио г) Для фиксированной точки xQ отношение dn(xQ, iJ/dn^o, |о) при оо стремится сверху к значению 1/2. < 3. Одномерная тригонометрическая регрессия и непараметри- ческое оценивание. Для тригонометрической регрессии па окруж- ности (отрезке [0, 2л1), в отличие от полиномиальной регрессии па отрезке, существует универсальный план — равномерная мера на окружности, строго оптимальный для регрессии любого конечного порядка. Мера может рассматриваться как предел эквидистантных планов при сгущении точек на окружности. Пусть в каждой из 2^+1 равноотстоящих точек xhn == 2пк/(2п + 1) (к — 0, 1, ..2п) производится одинаковое число г-наблюдепий. Соответствующий план называется эквидистантным (N, п)-планом (N = r(2n + 1)). Эквидистантность гарантирует оптимальность (N, ft)-плана для всех тригонометрических полиномов степени не выше п. Поэтому на основе таких планов с помощью тригономет- рической. интерполяции могут быть построены асимптотически оптимальные непараметрические оценки функции регрессии, ско- рость сходимости которых не улучшается по порядку величины. Пусть Ykn — средние арифметические наблюдений в точках xkni указанных выше, и n sin (к + 1/2) t = -.......7i?7/2:— есть ядро Дирихле. Определим оценку функции регрессии /(#) по наблюдениям в точках xkn (предполагая п четным): п fN,n (#) ~ f mn (*£.)» m=n/2+l ~ где 2П fmn (#) ~ I j YhnDm (# fe=0 Оценка fN,n (#) оказывается смещенной, если функция регрессии f(x) не является тригонометрическим полиномом степени п/2. Пусть &n(f) есть величина наилучшего приближения функции Цх) в метрике />«(0, 2л) тригонометрическими полиномами сте- пени и; тогда норма смещения ограничена неравенством II ^fNtn f |loo COnst (§ni2 (/). Предположим теперь, что ошибки наблюдений в точках xnk — независимые гауссовские случайные величины с одинаковой дис- персией и функция регрессии / принадлежит некоторому мно- жеству ScLro(0, 2л\ 89
Обозначим ' ^n(S) = sup<?T„(/) 1 fez. и выберем число п в эквидистантном (N, п)-плапе так, чтобы ^Х(^п/г(2))3 (a(n) X Ь(п) означает, что 0 < с{ С а(п)/Ь(п) < с2 < °°). Тогда для любой неотрицательной функции потерь ZU), х^О, удовлетворяющей при достаточно малом ц > 0 условию , - Кх) А ехр (щт2), справедливо соотношение sup sup El (yNin — /lloo/^n/2 (2)) < oo. n /ex Если S(L, p) — множество периодических функций с непре- рывными производными до порядка г, так что ll/(r)U + A)-/(r)U)IL^L|fc|a, (J = r + a, 0<a<l, то на основании известных результатов теории приближений по- лучается #„(S(L, £))ХпЛ Отсюда число точек в эквидистантном (N, п)-плапе есть п X X (Л71пА01/(2р+1) и риск ограничен сверху соотношением Т77Л17 .711 ( N \Р/(2р+1)\ sup sup El — / оо ТГлГ <°°- N { \in / } Более того, можно показать, что для любой оценки fN, построен- ной по N наблюдениям в интервале (0, 2л), справедлива оценка риска снизу: snp El h/tf-yU— JV-»oo №2(ь,р) \ \ /. / ♦ где Ci > 0 — некоторая константа. Итак, при N о© порядок скорости сходимости в норме II •!!«,; обеспечиваемой эквидистантным (W, п)-планом с указанным вы- ше числом узлов и оценкой fNt не может быть улучшен рав- номерно в классе £(£', р) ни*при каком другом плане эксперимен- та и любом способе оценивания, использующем N наблюдений. Замечание. Рассматривая четные периодические функции /(—x)=f(x) с заменой переменной z = cos х, z<=[—1, +1], и учи- тывая результаты п. 1, получаем с помощью конструкции настоя- щего пункта полиномиальную оценку непараметрической регрес- сии, асимптотически оптимальную в классе S. Легко видеть при этом, что эквидистантный (2V, п)-план оказывается дискретной аппроксимацией предельного плана £о с плотностью 1/л(1 —z2)l/* из п. 1. 90
4. Непараметрическое оценивание и асимптотически оптималь- ное планирование эксперимента. Рассмотрим схему регрессион- ного эксперимента, в которой число измерений N последовательно увеличивается (или фиксировано, но достаточно велико), а функ- ция регрессии ц характеризуется заданием свойств ее гладкости. Как и ранее, цСг, 0) будет означать оценку для ц, причем полез- но полагать ц(я, 6) = r).v(z, 0), подчеркивая зависимость оценки от числа измерений. Ограничимся случаем, когда значения у(^), полученные в результате измерений в точках Xi плана, входит в оценку 0) линейно. Пусть 0)=2?т>(х, 0). Используя разложение для — 0) (см. Введение), имеем J == Е h (х) — п (х, 0) ||г < h (х) — T1N (х, 0) ||г + + Е || TJ2V (х, 0) — TIN (х, 0) Кзг, где 9" — бесконечномерный класс функций, которому принадле- жит ц. Если ц — достаточно гладкая функция и ошибки измере- ний имеют второй момент, то легко указать такую непараметри- ческую оценку !>(#, 0), для которой оба слагаемых в правой ча- сти указанного выше неравенства стремятся к нулю с ростом N. Наиболее естественный подход к задаче оценивания ц состоит в следующем (см. Введение и п. 9.2.3): в 9" выбирается п-мерное -линейное подпространство Ln^SF, ц (х) ® 9" аппроксимируется некоторым элементом ц(х, 0)<=£п, параметры 0 которого несме- щенно оцениваются оценкой 0 по результатам экспериментов в точках выбранного плана. В качестве X далее рассматривается единичный fc-мерный ги- перкуб D(k) = (0; 1] X... X [0, 11, в качестве метода оценивайия — метод наименьших квадратов, а в качестве метрики на 9" — квад- ратичная метрика; при этом (р& — мера Лебега на X) , Е f (п (?) ~ П (*> б))2Нь ' X = f (п — П (ж> 0))2Hft <dx) + Е 5 (Т) (х, 0) — л (х, 0))2p.ft (dx), X X т. е. неравенство для J является равенством. Рассматриваемая ниже задача состоит в таком* выборе диск- ретного плапа I-х = {х^ ..., и размерности и =« n(Af) естест- венным образом выбираемого подпространства Ln определяемого ниже класса функций 9“ — Е%, чтобы скорость убывания супре- мума по всем т]^9~ погрешности (1) была наибольшей при N —> оо. Класс функций Е% состоит из всех непрерывных функций /: X~D(h} R\ имеющих период, равный 1, по каждой из к пе- ременных и таких, что С(/, т) С Xllznlh®, 91
где а > 1, К < °° — некоторая константа, тп = (т^ ..7nfe)r, С(/, т) = 11 ( h А = f ... f f(x (1),. *., х (к)) exp (— 2ru S mjx (у)I dx (1).. .dx (k) о S I есть коэффициенты Фурье функции /,. _ (1, если т = О, (тп, если тп у= О, ... .mh. В частности, при натуральных а все те Hki определяемого как множество функций, непрерывные производные вида k —р——,- 0<п = 2^<аЛ’ функции из класса имеющих в X = D(fc> 0^! 0’^"' j=l Принадлежат Е%, если эти функции заданы на R\ имеют по каждой координате период, равный единице, и указанные произ- водные непрерывны во всем R*. Пусть N— натуральное, = а№) (Л = 1, ..к) — натураль- ные взаимно простые с N числа, 1, если т = 0 (mod#), О, если т ф 0 (mod#). 6jV (тп) = Если существуют такие крнстанты [} = $(к) и С0 = С0(к\ что для некоторой бесконечной последовательности значений # вы- полняется неравенство : N-1 mk——(TV—1) («1w1 akmk) CQ In^N wi я 9 ™1 то числа ..., ак называются оптимальными коэффициентами, а число р — и< индексом. Если # — простое, то существуют оптимальные коэффициен- ты с индексом р = р(й) = к. Сетки Вя, состоящие из точек г - ([ЛИ ” U N J’ • • •’ 1 7V 1-1, где alt •.ah — оптимальные коэффициенты, называются парад- лелепипедными сетками (здесь {а} — дробная часть числа а). Конечномерное подпространство Ln^ L (#,) сг Е% определя- ется как линейная оболочка тригонометрических одночленов g 92
индексами т = (т^ ..mh)T: 11 /nil С Nt Ln = L(N1) = S 0пг exp \2ni 2 (0 ) ( L ||m||<lVx ~ I \i=l /J J D-оптимальный план по оцениванию параметров многомерной тригонометрической регрессии {fe ’I 2га 2 пгх (Of _ х i==1 ' ~N имеет единичную нормированную информационную матрицу, вто- рой член в правой части (1) для D-оптимального плана минима- лен и равен . П __ 1 N — N H^i При N > 2(М — 1) (at + ... + ак) ч любой непрерывный плащ сосредоточенный в точках = {х^ ..xN} параллелепипедаль- ной сетки с равными весами, является D-оптимальным для оце- нивания параметров регрессии цСг, 0, Л\). , Поскольку в качестве метода оценивания параметров 0 рас- сматривается метод наименьших квадратов, ц(я, 0) в правой ча- сти (1) имеет вид ц (х, 0) = (х, 0) = Жх\ (х) = [ К (х. z) ц (z) v (dz), х где v(dz) — нормированный план проведения экспериментов, К(х, z) = 0 /х(2) AW (A’M • •• /nW (frQ /nW (A. A) ••• (fn ' fn) /det М, fn — базисные функции подпространства £п, (Л, Л) = J fi W) Л- (*) V (dx), м = II (Л, Л) IIU1. х Оператор Ж = Жп с ядром К является непрерывным ограни- ченным линейным оператором из £2(я, v) в L2(x, v), облагающим следующими свойствами: = г=1, и; sup J | (х) —• / U‘) |2vn (dx) -> 0, п->оо. /eL2(x,vnjx Если информационная матрица М диагональна при всех п и базисные функции ортогональны по мере (что имеет место, в частности, для многомерной тригонометрической регрессии), то, кроме того, для любой f^L2(x, pj систематическая^ошибка (т. е. 93-
первое слагаемое в правой части (1)) монотонно не возрастает с ростом п (в рассматриваемом случае — с ростом NJ. Таким образом, поскольку для любой pfc) как случай- ная погрешность (второе слагаемое в правой части (1)), так и систематическая с ростом числа точек N не возрастают, можно, не ограничивая общности считать, что число измерений равно чис- лу точек плана. Отметим (см. п. 3), что в одномерном случае (т. е. при 1) при N 2Nt + 1 систематическая и случайная погрешности оста- ются постоянными при возрастании N, и поэтому при r(22V14-1) вместо того, чтобы проводить эксперименты по одному разу в N — = г0^ (т*о < г) точках, можно проводить по г экспериментов в JV точках, т. е. веса в плане выбирать равными rQ/N. Параллелепипедальные сетки являются хорошими сетками и с точки зрения минимизации систематической ошибки в Выбирая 2Vt «2Vl/(2a)t проводя эксперименты в точках парал- лелепипедальной сетки Sx и оценивая затем параметры много- мерной тригонометрической регрессии т](лт, 0, Л\), мы получаем способ оценивания функции регрессии 1]^^, при применении которого супремум по всем суммарной погрешности (1) убывает при возрастании N со скоростью порядка 1/(-2а) *. Л^оо, и эта скорость убывания является максимальной для любого вы- бора Ni^NtiN) и последовательности планов проведения N экс- периментов. Литература к § 5: [36, 48, 154], I
ГЛАВА 4 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ И ПОСТРОЕНИЯ ОПТИМАЛЬНЫХ ПЛАНОВ Если задача оптимального планирования экспериментов одно- критериальна, то она состоит в нахождении оптимальной вероят- ностной меры (плана), заданной на некоторой о-алгебре. Анали- тически оптимальные планы могут быть построены лишь в неко- торых частных случаях. Обычно их строят приближенно, исполь- зуя численные методы. Указанная задача оптимизации в прост- ранстве вероятностных мер может быть сведена к задаче поиска глобального экстремума функции, заданной на подмножестве ко- нечномерного евклидова пространства (в частности, оптимальные планы часто можно выбирать сосредоточенными на конечном мно- жестве точек). Методы решения конечномерных задач оптимиза- ции, встречающихся при построении оптимальных планов, рас- смотрены в §§ 3, 4. Любой оптимальный план мЬжет быть пост- роен (приближенно) с помощью одного из этих методов. Сущест- вуют и специальные методы, в которых учитывается структура задачи построения' оптимальных планов регрессионных экспери- ментов. С помощью этих методов, описанных в §§ 1, 2, произво- дится редукция размерности экстремальной задачи (исходная за- дача оптимизации сводится к последовательности задач оптимиза- ции меньшей размерности). § 1. Построение непрерывных оптимальных планов 1. Особенности исходной Экстремальной задачи. Экстре- мальные задачи (2.7) или (2.8), как ясно из п. 2.3.4, могут быть сведены к конечномерным задачам с размерностью не более чем т(ти + 1)(А + 0/2, где т — число неизвестных параметров, а к — размерность X (XczRft). Эти задачи можно решить с помощью общих методов числен- ного поиска экстремума (см. §§ 3, 4). При этом возможны два подхода. Один из них —поиск минимума ЧЧЛЛ в пространстве* элементов информационной матрицы при ограничениях JfeJf(S), где. множество М(Е) определено в § 2.2. Если ЧЧТИ] — выпуклая функция, то минимизация ЧЧМ] сводится к задаче выпуклого1 программирования, для решения которой имеется целый арсенал 95
хорошо изученных численных процедур поиска оптимального ре- шения (см. § 3). Второй подход—минимизация ЧЧЖ^)] по на* •бору аргументов 5 == Рг}\ при ограничениях Xi X, 2 Pi == 1; 1=1 эта задача не является задачей выпуклого программирования. В обоих случаях основной трудностью является большая раз- мерность экстремальной задачи. К этому следует добавить4 труд- ность описания области Jf(S) и поиска плана £♦, соответствую- щего М* (оптимальной точке из ЖЕ)), в первом случае и много- экстремальность задачи — во втором. Перечисленные трудности послужили толчком к созданию чис- ленных методов, учитывающих структуру функций ЧЧЖ^)]. 2. Методы первого порядка. Наиболее простой алгоритмиче- ски и в то же время достаточно эффективный метод, сходный с градиентным (см. § 3), состоит в следующем. Пусть имеется план ?з. Рассмотрим план* |e+i = (1 — а)£3 + 40 а 1). При доста- точно малых а и необходимой гладкости функции 4х* [7И] (см. п. 2:3.2) ЧгШ(^+1)] ^^[Ж^)]+аД(М(^8), Ж^)). ' Естественно выбрать план g таким, чтобы величина Д(7И(^), Ж£)) была минимальна. Одним из таких планов является план ^(х) с единичной мерой, приписанной точке хя = Arg inf 1ф(гг, £s). (1) х Приходим к следующей интерационной процедуре. Алгоритм!. 1) Имеется план |8. Отыскивается точка (1). 2) Строится план £8+1 == (1 — ys)£s + , Скорость сходимости алгоритма 1 в значительной степени оп- ределяется последовательностью {7J, которая может быть выбра- на по одному из способов, рассмотренных ниже в п. 3.1 (при = - Имеет место следующее утверждение о сходимости алгоритма 1. Пусть {у8} определяется по одному из способов а) — д) из п. 3.1, выполняются условия б), в) из § 2.3, существуют ограниченные производные d24J/дМ^дМ^ (а, р, у, 6 = 1, ..., тп) при .любом М^М{С). Тогда алгоритм 1 сходится, причем 1ш1ЧЧЖ^)1 =inf ЧНЖ£)]. 8->оо ' | * Если X — компакт, то из последовательности {£J всегда мож- но выделить подпоследовательность, сходящуюся к одному из оптимальных планов. Если Т {М] — строго выпуклая функция, то ИтЖ^8)=Ж^*). 8—>ОО Описанная интерационная процедура оказывается особенно удобной при малых размерностях пространства контролируемых переменных (/с<10). При больших размерностях, (к одного по- $6 •
рядка с m(m+l)/2 или более) целесообразно обратиться к ме- тодам, работающим в пространстве информационных матриц. 3. Особенности итерационной процедуры. Скорость сходимости алгоритма 1 заметно увеличивается, если в качестве допустимых включить движения по направлениям, определяемым опорными точками плана §8 с отрицательными у8. Итерационная про- цедура принимает следующий вид. Алгоритм 2. 1) Отыскивается точка = Arg шах (<, g,) - tr М , tr М~ -(xs+, £»)}М=М(М» где xt — Arg inf i|) (x, g,), x7 — Arg sup (x, %3). Xa — множество опорных точек плана g8. 2) Строится план g8+i === (1 — ^8)g8 + РД(х8), где = если xs = xt и*р8 = — minjYe, Pig/(1 — Pis)b если последова- тельность {^.J выбирается так же, как и в алгоритме 1. При использовании алгоритма 2 удается избавиться от неудач- но выбранных опорных точек начального плана. Алгоритм 1 обыч- но приводит к тому, что около опорных точек Xi образуются груп- пы (кластеры) точек. Одним из способов их объединения явля- ется следующий. При появлении новой точки ха, не совпадающей с прежними опорными точками, проверяется выполнение нера- венства || И “ Н (#з)|| в (^s-i = 1 ^8-1), где II.. Л озна- чает норму ц ц»»(т+1)/2, б > 0. При выполнении неравенства опор- ная точка Xi объединяется с точкой хл и последней присваивается мера, равная (1 — а8)р» + а«. Основанием для такого объединения служит предельное соотношение lim р (^)==р(д;*), где х* — одна 8—>00 из точек оптимального плана. 4. Частные случаи. .Алгоритм 1 становится особенно простым при р(х) ==k(x)f(x)fT(x) (см. п. 2.1.1). В этом случае отпадает необходимость обращения матрицы М(%8) на каждом шаге, так как справедлива рекуррентная формула 71Т-1 /е \ _ м _ v \-i [1 _ (ж«) 1 (^)f СМ СМ дт-1 /t \ где d(x, g)«f(xW-‘(№). При построении D-оптимальных планов удобно использовать также рекуррентную формулу - | М (МI = (1 - Y.)m Г1 4- 11 м (&,) 7 п./р, С, М. Ермакова 97
Если ув определяется способом а) из п. 3.1, то следует исполь- зовать формулу Цри построении 'линейно оптимальных планов полезно иметь в виду, что tr ==(1—тЛ”1 [tr AM~l (U - 1_7%(4^(5)’^-1»)]’ где ср (z, g) При процедура оказывается релаксационной (см. § 3). 5. Итерационная процедура второго порядка. Итерационная процедура первого порядка, как и большинство процедур гради- ентного тица, медленно сходятся в окрестности оптимального плана. Поэтому в тех случаях, когда-интерес представляют точ- ные значения координат опорных точек оптимального плана (па- ' пример, в задачах табулирования), приходится обращаться к ме- тодам второго порядка. Пусть X состоит из конечного числа точек (Х = {х^ .^v}} и функция НТ[Л/] имеет производные до третьего порядка вклю- чительно по элементам матрицы М в любом множестве М (С). Любой план можно представить в виде 5 == , #jv; ри ... • • • > pjv}( Pi^ 0» 2 Pi = 1 J» И поэтому ВвКТОр (pi, ...,Pn) пол- \ i=i / постью определяет g. . . Алгоритм 3. - 1) Имеется вектор р8, определяющий план g8. Отыскиваем век- тор где , л* ~ Arg min (лтЧгв + лтТ8л/2), л t ) I дл-дл- г яте == О, ет == (1, ..., 1), 1 >pi + 0. 2) Строим план по вектору р,+1 = р« + л»; выбор л, см. ниже. Если не обращать внимание на ограничения, то л* = ¥? {К - ¥,), 1 = e^WJe^e. Чтобы добиться выполнения ограничений, можно выбирать по- правки к весам в виде л5 = а5л8, где а8 выбирается произвольно* по так, чтобы 1 > pta + лй > 0. 98 .
Описанная процедура является одной из модификаций ньюто- новского метода. Она обладает двумя существенными недостат- ками. Во-первых, оптимальный план отыскивается на области действия с конечным числом допустимых опорных точек. Для разумной аппроксимации реальных областей действия дискрет- ным набором точек их количество должно быстро расти с размер- ностью пространства контролируемых переменных. Во-вторых, многократное обращение матриц размером NXN представ- ляет серьезную вычислительную проблему. При сформулированных предположениях алгоритм 3 сходится, ч. е. limps=p*. , Литература к § 1: [110—112, 140, 149, 187*, 195, 196]. § 2. Дйскретные точные планы 1. Некоторые свойства оптимальных дискретных планов. Непрерывные планы с точки зрения практического экспери- мента являются приближенным решением исходной задачи пла- нирования эксперимента. Приближение тем лучше, чем больше число возможных наблюдений N (меньше сказывается дискрет- ность мер Pi=>ri/N). Пусть —непрерывный оптимальный план, a In—точный оптимальный план, т. е. решение задачи (2.3). Если /г —число опорных точек плана £*, то - _ _ * (2) где функция у(ЛО определена в условии а) мз § 2.3. Данные неравенства дают весьма грубые границы для вели? чины т[м(^м)]. Так, для D-критерия из (2) следует | М (£*) |/| <(&) I < [N/(N - m)]TO. Более детальный анализ показывает, что * 1т IМ (£*) |/| М.(&) I < Nm ]J (N +'f - i). I i=l Простейшие процедуры округления плана состоят в сле- дующем. За опорные точки плана выбираются опорные точки х\ плана £*; в каждой из них располагается .по [(N — n) Pi J4" или по наблюдений. Оставшиеся наблюдения располагаются произвольно. Здесь [а] .обозначает целую часть а, [«]+ — такое ближайшее к а целое, для которого [а!+ >а. Близость получив- шегося первым способом плана к оптимальному плану опреде- ляется неравенством ¥{М (In)] - ¥ [М(&)] < - 1] ¥(М(£*)]. 7* • 99
При округлении планов полезно иметь в виду, что для D-крите- рия рг / а для линейных критериев (в случае регулярных линейно опти- мальных планов) . tr AM"1 (In) - tr AM -1 (4tr AM~' (£*) max ( Pi-7~Pi )4. Z i \ Pi / 2. Численные методы построения. Поскольку (2.3) можно рас- сматривать как экстремальную задачу (оптимального выбора то- чек xh ..., xN) в пространстве XN размерности NX к, то ее можно решать методами, описанными в § 4. Часто для численного пост- роения дискретных оптимальных планов используют и методы,, рассмотренный ниже и аналогичные процедурам из § 1. Для удобства изложение будет вестись для функционалов от дисперсионной матрицы вида (ЯР1 и в предположении, что оп- тимальные планы регулярны. Алгоритм 4. ,1) Имеется план = (3> 1 JV + 1 Отыскиваем точку х<+ =*= Arg max <р (х, ^^.тде <р (х, £) = =tru(x)D4^-£>| rv > dD |d=D(5) ' 2) Составляем план Bn+i = j jI 3) Отыскиваем x*_ = Arg inf <p (x, Cw+i), где Х4 = {х^...,хЙ>,^>Ь 4) Составляем план Vn+1) = — л + 1 Последовательность сходится, однако предел: ее не обязательно совпадает с inf Q [Z> (£)]. Лишь при совпаде- пии плана с одним из непрерывных оптимальных планов g* она заведомо приведет к оптимальному плану. Возможны различные модификации алгоритма 4. Например, на каждом его шаге можно включать и выбрасывать не по одной* а по нескольку точек. . Описываемая ниже процедура основывается на следующей" простой идее. Пусть в плане одна из опорных точек Xi замене- на на точку х. Функция £>[£>] изменится при этом на некоторую 100
величину Д(^, х) < 0. Очевидно, что при A(a?f, х) < 0 имеет смысл заменить в плане точку х{ па х. Изложим конкретную реали- зацию этой идеи для D- и линейных критериев при ц(я) =» = Mx)f(x)fT(x). ’ Алгоритм 5. 1) Имеется план твида (3). Отыскиваем пару я5) = Arg max max А (х*, х, где Mxf, х, & =k(x)d(x, £) — Mx')d(x\ |) —• — N-lk(x))dx')[d(x, |)d(zr', |)-~ d2^, £)], d(x, x', g) = d(x', x, £) = fkx'lDi&ftx). 2) Составляется плап который отличается от тем, что точка xl заменена на точку Xs. Процедура порождает монотонно убывающую последователь- ность {|^(|n)|} и сходится по критерию, но не всегда к опти- мальному плану хотя и приводит при одних и тех же началь- ных планах к лучшим результатам, чем алгоритм 4. Алгоритм 4 уместно называть процедурой нулевого порядка, алгоритм 5 — первого порядка. Легко выписать процедуры более высоких порядков, в которых производится замена двух и более точек. Для этого необходимо подсчитывать величины типа Д ^i2; #1» я2, |).Одпако эти процедуры весьма громоздки и практи- ческого применения не находят. Для линейных критериев в алгоритме 5 следует положить А(лт', х, £) =Х(х')[1 + A~1X(a:)dU, ^)Jcp(rr', g) — — Х(лт){[1 — N^k(x')d(x\ £)]cpU, |) + + 2N~iX(x')d(x\ х, |)ф(я', где ф(я', х, £) =ф(я, х', g) =/24;r)ZXg)4JD(g)/U'), ф(я, V =ф(я, х, g). Литер а*т ура к § 2: [93]. § 3. Методы поиска локального экстремума Сущность задачи построения оптимального плана — поиск гло- бального экстремума некоторой функции, однозначно связанной с выбранным критерием оптимальности, который может быть от- личен от критериев, описанных в гл. 2. Если точку, в которой до- стигается глобальный экстремум функции, удается отделить (т. е. найти такую ее окрестность, в которой функция одноэкстремаль- па )v то для решения получающейся экстремальной задачи можно 101
применять методы поиска локального экстремума. Рассмотренные в этом параграфе методы могут быть использованы и в случае, когда исследователь интересуется локальным экстремумом функ^ ции регрессии, эксперимент достаточно дешев, а влиянием слу- чайных ошибок измерений можно пренебречь. L Основные подходы к задаче поиска локального экстремума. Предположим, что (&>1), /-—измеримая ограничен- ная сверху функция, заданная на X. Точка е X называется точкой локального максимума функции /, если существует такое е>0, что /(^')^ У (я*) при всех Х|||х—Если точка локального максимума у функции f единственная, то она совпадает с х* — тачкой глобального максимума функции /, т. е. точкой, в которой /* = / (#*) = max / (х), xex z- а функция / в этом случае называется унимодальной. Если (—/) выпукла на X и X — выпуклое множество, то задача поиска х* называется задачей выпуклого программирования. В настоящем параграфе кратко рассмотрены методы поиска максимума унимодальной функции / (в предположении X«=»R*).t которые могут быть использованы (и широко использовались) при решении экстремальных задач, возникающих Ьри планиро- вании и обработке результатов экспериментов. Эти задачи обычно характеризуются многомерностью (й>1) и гладкостью функции У. Предполагается, что функция / или ее производные в любой точке х X могут быть вычислены без случайной ошибки. Зна- - чительНая часть алгоритмов обладает более высокой- скоростью сходимости, чем максимальная скорость, достигаемая при плани- ровании экстремальных экспериментов в случае, когда случайной ошибкой эксперимента пренебречь нельзя. Тей не менее многие результаты гл. 14 могут быть использованы и для исследования приведенных ниже алгоритмов. В гл. 14 содержится также ряд сведений об использовании для решения задач оптимизации при наличии ограничений операторов проектирования на вы- пуклые множества, методом штрафных функций и множителей Лагранжа. Для оценивания х* в методах локального поиска строится последовательность точек хй, xh ... U^X), при некоторых предположениях сходящаяся к я*. Выбор способа построения этой последовательности зависит от свойств функции •/, от информа- ции, которая используется на каждой итерации и от технических средств, которыми располагает исследователь для,реализации вы- числительных методов. В зависимости от используемой на каж- дой итерации информации методы оптимизации можно разделить ' j па три группы: поисковые методы используют только значения функции /, в методах первого порядка используются, кроме того, первые производные этой функции, а в методах второго поряд- ка — также и вторые производные. 102 .
Все методы, рассматриваемые в данном параграфе, можно (аналогично (14.1)) представить в виде > хп+1 = хп + Чп8п, и = 0, 1, (4) где Хо X — начальное приближение, sn — направление движения, 7П > 0 — длина шага. Методы оптимизации различаются, прежде всего, способом выбора направления движения sn, который обычно таков, что получающийся метод оказывается релаксационным, т. ,е. выпол- няется неравенство /(xn+1) > f(xn). Для этого необходимо, чтобы 8пV/(хп) >0 при всех хп (п>0). Число уп с точностью дъ множителя Н$ЛН определяет расстоя-* нпе от точки хп до xn+i. Трудоемкость вычисления величины уп должна быть согласована с трудоемкостью вычисления зп. Ниже приведены способы выбора величин уп. а) = Argmaxfn(^), где Ml) = Дхп +^sn). v>o » Точное вычисление одномерного максимума обычно нецеле- сообразно. На практике часто ограничиваются выбором уп из других условий. . б) 6п</п(Тп)</* = max/n(y), 2бп<°о. V>0 11=0 • В) (1-Хп)/п(0). + Мп</я(ъ), . 0<Х<Хп<1. Здесь Хп и бп характеризуют точность вычисления одномерного _ максимума. Простым в вычислительном отношении и обеспечивающим ре- лаксационность алгоритма (4) является следующий способ. г! Полагаем > 0, .= упу\ где 1 < 7 < i = max {/ =« = 1, 2, .. .[f(xn + Mn5n) > f(xn + если fkxrt+^nsj > ДМ, и i = — min {] = 1, 2, .. Af(xn + ysynsn) > f{x^} в противном случае. Способ г) при у « 2 называют способом удвоения. д) Априорное задание уп из условий 7 оо .00 • Уп Q 1» 2, ♦ • ♦, Уп "= оо, ОО , 71=1 71=1 Способ д) прост при реализации, но не гарантирует релакса- * ционпость алгоритма (3), что вызывает, вообще говоря, более мед- ленную его сходимость. е) Если функция / непрерывно дифференцируема, «nV / 0 (0 0), для всех х, х' е X П V/(xr) — V/(ar')ll Zb-я/ll, L<oo, ’ то в качестве уп может быть взято любое число, удовлетворяю- щее условиям * ‘ * О < Ci уп 2/(L0 + 82). Здесь е2 > 0 — параметры метода. 103$
Ряд результатов о сходимости и скорости сходимости методов поиска экстремума с выбором по способам д) и е) приведен в гл, 14. ж) Если известна величина /*, то можно положить Yn=(/* -/(^))/(«nV /(м). Здесь уп — это абсцисса точки пересечения прямой у = /* и каса- тельной к кривой у = /«(?) = /(х„ + YSn) в точке (0, /„(0)). з) ?п = max (у > 0 | /„ (у) — /(хп) > 4" VII II (М t Л П 1 Более общим является другой способ: и) ^п = шах {у >01 + где 0<q<qn^ 1/2. 2. Сходимость и скорость сходимости алгоритмов локального поиска, В настоящем пункте приводятся условия, достаточные для сходимости (4) и оценки скорости схдимости этого алгорит- ма. Введем множества; . = Х0-{а;|/(т)>/(^)}, Х£ = X* Q Хо. Множество X* называется множеством стационарных точек. .Теорема 1. Предположим, что /(х) ограничена сверху; xQ~* любая точка из X и Хо=#0; функция f непрерывно дифферен- цируема на X, а ее градиент удовлетворяет условию Липшица с константой L: И V /(#) —.V/(#')И LWx — ^'11, х, х е X = IV; для всех п — 0, 1, 2, ... 0)п = sn\7 f (хп) [ || ski’ll || V / (#n) || 1 > 0; \ для любого е > 0 найдется такое б==б(в)>0, что при всеххп^ е {ж|р(аг, Х;)>е} П Хо выполняется HV/(xn)ll >'6, выбира- ется способом в) или и). Тогда алгоритм (4) сходится, т. е. lim р (хп, X*) = 0. - П-> ОО Предположим, что в дополнение к условиям теоремы 1 функ- ция / вогнута, т. е. для всех х, х' е X, а е [0, 11 /(а# + (1 — а)х') >а/(ж) + (1 — а)/(х'). , Тогда последовательность (4) сходится к множеству точек гло- бального максимума; если выполняется в), то при всех п = 1, 2„... Vn = / (**) — 7 (М < v9 п—1 1 —1 1 4~ 1 2 I т i—0 J 104
где Vo — /(яо), если же выполняется и), то n—1 1—1 1 + р0 (Ld0)-1 S ?i®i * i=0 J 1>пОо Другое утверждение о скорости сходимости (4) сформулируем для случая, когда функция / сильно вогнута с параметром, вогну - гости р>0, т. е. для всех а^Ю, 1], х, х &Х имеет место нера- венство j(ax+ (1 — а)х') > af(x) + (1 — a)f(x') + а(1 — а)рОх — я'И2< Предположим, что в дополнение к условиям теоремы 1 функ- ция f сильно вогнута с параметром вогнутости р. Тогда точка ж*, в которой достигается максимум функции /, единственная, алго- ритм (1) сходится к этой точке; И#п — 2р~,уя; если Y» выби- рается по способу в), то {п—1 "j — р 2 и = 1, 2,; ,м i=0 J если же по способу и), то. !п-1 ) — pL""1 2 W0?}» n = 1, 2, ... i—О J 3. Методы первого и второго порядков. Большинство методов, в которых используются производные функции /, являются част- ными случаями обобщенного градиентного метода, т. е. алгоритма (4), в котором =-4nV/(#n), где Ап (n = 0, 1, симметрич- ные положительно определенные матрицы. Если (L4JI a (п — — 0,1, ...), а все собственные числа этих матриц ограничены ешь зу числом &>0, то (n = 0, 1, ...). Поэтому, для иссле- дования сходимости и скорости сходимости обобщенного градиен- тного метода можно использовать результаты, сформулированные в п. 2. Для градиентного метода Лп = /Л (тг = О, 1, ...); если, кроме того, уп выбирается по способу а), то получающийся алгоритм на- зывается методом наискорейшего подъема. Для метода Ньютона Ап = — [V2/^)]-1 U = 0, 1, Этот метод обладает квадратичной скоростью сходимости. В методах переменной метрики Ап — аппроксимация матрицы —[V2/^)]-1; для значительной их части Л , _ J АпапапАп I rnrn -Т д у уГ А __ г -™п+1 — ----J—7---г vanzlnanK wr nt zig — anAnan rnan dn — V f (#n + l) ~ ГП — ®n+l == у • у . , rnan “rA.°n Y,rвыбирается по способу а). Здесь c (0Cc<l) обозначает па- раметр, выбираемый произвольно; при с = 0 получаем метод Дэ- видона — Флетчера — Пауэлла* 105
В методах сопряженных направлений s0 ~ VfM, sn = V/Crw) — — bnsn^i (n = l, 2, ...), 7n выбирается по способу a), a bn — та- ким образом, что если решается задача поиска максимума квад- ратичной функции f(x) = — хтВх, то направления sn, sn+l1 ... Sn+k-i являются сопряженными относительно матрицы Я>0 .(т. е. SiBsj = О, i=^= [). Отметим, что методами сопряженных на- правлений эта задача решается не более чем за к шагов, а мето- дом Ньютона с — 1 — за один шаг. Скорость сходимости методов сопряженных направлений может быть оценена с помощью ре- зультатов п. 2 и следующего утверждения: если для некоторого -с>0 выполнено |6„| С (п = 1, 2, *..), то соп •Xl + c)’1. В частности, если Ьп выбирать в виде Ьп == ИV/(Л7Л)]г(Vf(xn) - V/Un_t)] и предполагать, что / — сильно вогнутая с параметром р>0 функция* то c = Другими примерами методов сопряженных направлений являются метод, получающийся при &n = -llV/(xn)H2/IIV/(^n_1)ll2, и метод Дэвидона— Флетчера — Пауэлла. - 4. Детерминированные поисковые методы. На практике часто встречается задача поиска экстремума функции /, градиент кото- рой (и тем более матрица вторых производных) с нужной точ- ностью вычисляется лишь на основе чрезмерно большого объема вычислений. В этих случаях используют поисковые методы, опи- санные в этом и следующем пунктах (см. также § 14.4). Наиболее известным из детерминированных поисковых мето- дов является метод покоординатного подъема. Во всех его вари- антах в качестве sn выбирают то из двух направлений +е, —а, в котором функция / возрастает, а если ^TV/(j:n) = 0, то полагают xn+i—xn и переходят к следующему шагу. Здесь е = {ej}j=19 ej (/ = 1, ..., к) — орт, (координатный вектор /-го направления). Весьма распространен метод циклического покоординатного подъема, в котором выбирается sn = ±e; е = е,(п)+ь где /(и)— остатокст,деления п на к (лг = О, 1, . %.). Если при этом выпол- нены условия теоремы 1 и lim Jxn — хп+11 = 0, то lim р(хп, Хо) = П->ОО П-»оо = 0. Чаще для выбора величин уп используют способ г) или этот способ модифицируют таким образом, чтобы при всех /~0, 1, ... и всех^ = 0, 1, . к — 1 выполнялось равенство = TfQ); если выполняется 2к неравенств /UM+i =Ь Y</)^+i) </(^jfc+<), ' i = 0, J - 1, то X(j+i}h=*xjk и. полагают у(/г+1) = у(/)/^(длину шага уменьша- ет в у раз); в противном случае (за предыдущие к шагов значё- 'нпе f(xn) увеличилось) полагают у(/+ 1) = 7(7). Так определен- ный метод покоординатного подъема сходится, если функция / *106 J 4 • •
непрерывно дифференцируема, а множество XQ == {х е ХЩх) > ^f(xQ)} ограничено./ Если в методе покоординатного подъема выбирать sn равным е3 или. —е31 где е5 выбирается из условия I V / (*n) | ~ inax | V / (^ti) |r г— ? , -, *«, - 1 2 ; .7 — i то (on /с и для оценки скорости сходимости такого метода мож- но воспользоваться результатами п. 2., 5. Локальный случайный поиск. Алгоритмы локального слу- чайного поиска имеют вид (4), где sn — реализация случайного вектора с ^некоторым распределением вероятностей. Ряд алгорит- мов случайного поиска приведен в п. 14.4.2, там же сформулиро- ваны условия, достаточные для их сходимости. Рассмотрим следующий класс алгоритмов. Выберем в качестве е случайный вектор единичной длины (Hell«1) и проверим, де- лая малый шаг из хп в направлении е, будет ли функция возра- стать вдоль этого направления (фактически проверяем зпак вели- чины и полагаем sn~ esign(on> где sign а = 1 1, если — 1, если a<i 0t О, если а = О» Пусть выполнены все условия теоремы 1, кроме условий для <оя и уп, и существует такое <о > 0, что ' P{|onl оI#1, ..0, п == 0, 1, . • 7Я выбирается по способу в). Тогда p(#n, по вероятности при тг -> <». Если, кроме того, функция / вогнута, то при всех п — 1, 2, ... имеет место оценка P{f(x*) f(xn) > 1 — е^-1, где Ci = .4£й0/(А-<о2р), с2 = 4/(со2р2), d0 =?= diam (Хо). Если f сильно вогнута с параметром р > 0, то P{lbn — х*II2,С 2p“1(/U*) — /Uo)) ехр {—c3n}} > 1 — с2тг~1, где с3 = рХшр/(4£). Отметим, что для метода случайного покоординатного подъ- ема (е случайно равновероятно выбирается среди множества ко- ординатных векторов) со ® р = п"1. Этот метод обладает важным свойством, которое не присуще методам детерминированного по- координатного подъема: независимость выбора направления подъема от градиента функции / и одновременно наличие апри- орных оценок скорости сходимости» Одним из наиболее распространенных методов случайного по- иска является метод случайного поиска с парной - пробой, в ко- тором вектор е представляет собой независимую реализацию равномерно распределенного на единичной сфере {х|1Ы1 == 1, 40Г
случайного вектора. Здесь в качестве со можно выбрать любое число (0 < со < 1), при этом р = #(со)/r( 1), где r(t) У ... l/"l —S Zj) » S i=l r(l) — объем единичной сферы. ' На практике часто' используют случайный поиск с обучением, па каждом шаге которого учитывается накопленный опыт по- иска на предыдущих шагах, а вероятностные свойства поиска перестраиваются так, чтобы направления, более перспективные в смысле возрастания функции /, становились более вероятными. Для некоторых из этих алгоритмов также могут быть использо- ваны приведенные оценки скорости сходимости: предположим, что при всех тг = 0, 1, 2, .,« sn = (ип + 17п)Ннп + МЛ ИМ^с<1, где п0, izi, — независимые реализации случайного вектора, рав- номерно распределенного на единичной сфере с центром в нача- ле координат, vn — обучающий вектор; тогда в качестве со можно Выбрать любое число (0<со<1), а р = р(й)) равно вероятности - того, что длина проекции равномерно распределенного на сфере St вектора.на вектор (0, 0, 0/1) больше или равна в «== е(о) = 1 — (1 — со)2(1 — с)2/8, р(ы) ===== г(е)/г(1)< Достоинствами методов случайного поиска являются простота м выбора направления движения, относительно слабая зависимость количества требуемых на каждом шаге вычислений от размерно- сти пространства, возможность поиска этими методами максиму- ма недифференцируемых и даже разрывных функций, простой учет ограничений, если множество X не совпадает с Rft (ограни- чения обычно учитываются следующим образом: после выбора направления движения sn проверяют его возможность, т. е. вы- ясняют, принадлежит ли при малом точка хп + множеству X; если не принадлежит, то выбирают новое направление). Опишем метод случайного m-градиента. Пусть н0, .., ит (1 < тп к) — независимые реализации равномерно распределен- ного на единичной сфере случайного вектора. С помощью процедуры ортогонализации построим из этого набора систему ортонормированных векторов qlt qm. Случайный тп-градиент функции / в точке х е X определяется следующим образом: ш
В случае т = к этот вектор с вероятностью 1 совпадает с гра- диентом, G = Gk = Gk(x) — V/(x), а при m = i получающийся ал- горитм оптимизации является методом случайного поиска с пар- ной пробой. При всех т == 1, ..., к имеет место Gm « cos <p(G cos ф + F sin ф), где случайный вектор F не зависит от случайного угла ф и имеет равномерное распределение на (п — 2)-мерной сфере SF, опреде- ляемой уравнениями IIFII —IIGII, FTG = 0, а плотность распределе- ния угла ф (0 < ф < л/2) равна р(ф) = 2 --2~/1 cos Ф8Ш фт 7П<&. Отсюда при т = 1 вытекает, что случайный и фиксированный векторы при больших к близки к ортогональным, но асимптотика этой ортогональности Е cos ф ~ &“1/2, к -*• оо, благоприятствует применению случайных направлений в задачах оптимизации. Если ограничиться методом, определяемым равенством (4) с sn = Gm(xn), IIYn$nll — случайной величиной с заданным законом распределения для случая линейных ? функций й измерять эффективность алгоритма средним продвижением в направлении градиента, отнесенным к числу пробных шагов и, то лучшим будет метод при т = 1, за ним идет метод при т = 2 и т. д.; при этом преимущество случайного_(т = 1) метода перед гради- ентным (т = А) пропорционально Ilk. Более важно с точки зрения выдачи практических "рекоменда- ций об относительной эффективности алгоритмов исследовать их для задачи поиска максимума отрицательно определенной квад- ратичной формы, которую, не умаляя общности, запишем в сле- дующем виде: / (ж) == — (^1^(1) + + Ife^(ft))» # = (*^(1)» • *»» ^(ft))T| 1 = Д2 ® 1ft ±= pg. В качестве исследуемых алгоритмов оптимизации возьмем Gm- методы скорейшего подъема (это означает, что уп выбирается по способу а)) и без ограничения общности будем считать, что 11(711 = ИЛ = 1. При т < к получаем (х == хп, х' = хп±^ £[/(?)//(*)] = 1-Л(/, G), где 109
Если Тп = к, то / k \ —1 / h ' - ^(/,0={2*ГМ 2М . \ 1=1 / \ 1=1 / Отметим, что при всех тп, j, G справедливо Pm(f, G)^m/(pQk), Обозначим PrnU) — minpm(/, G). |G|=1 Эта величина является важной характеристикой метода, посколь* ку при всех п = 0, 1, ... и па всяком эллипсоиде уровня имеются точки х~хп, в которых достигается равенство (такие точки называются «наихудшими» для Ст-метода). Для градиентного наискорейшего подъема Рь (f) = 4р0/(1 + РоА причем в этом случае «наихудшие» точки переходят в «наихуд- шие». Сравнивая G1- и 6*-методы па основе сформулированного под- хода, приходим к следующему качественному выводу. Если чис- ло велике (велика «овражность» формы —/(х)) и большинство из коэффициентов Х2, ..K-i не слишком велики (т. е. велика размерность «дна оврага» формы —/(л;)), то С^-метод лучше, он дает не только экономию в затратах на определение направлений подъема, но и обеспечивает в среднем лучший выбор самих на- правлений. Это преимущество имеет место уже при к «= 2 и рас- тет с ростом к и р0:*Если р0 близко к 1, то при любом разумном к С*-метод лучше; при р0 = 1 он обеспечивает достижение точки максимума за один шаг. - Литература к§3: [8, 12*, 42, 75], . § 4. Поиск глобального экстремума В настоящем параграфе кратко, описаны методы поиска гло- бального экстремума, широко используемые в задачах построения оптимальных планов. . ♦ 1. Особенности задачи и основные направления ее решения. Предположим, что X — компактное подмножество Rft (fc>l>, / — ограниченная сверху функция, заданная на X и принадлежащая некоторому классу функций Задача поиска максимума функ- ции / состоит в построении последовательности точек х^, ... ... (Xi е X, г = 0, 1, ...), сходящейся к х* = Arg.riia^ / (х). Будем хеХ НО
предполагать, что в каждой точке х^Х можно вычислить f(x) без случайной ошибки. В отличие от задач поиска локального экстремума, задачи поиска глобального для достаточно широких классов функций не могут быть решены, если множество X неограниченно. Грани- цы множества X определяют априорную информацию о положе- нии х*; чем шире границы множества X, тем больше неопреде- ленность о положении х* и тем менее эффективен поиск этой точки. Иногда множество X задается с помощью различных ограни- чений типа равенств и неравенств и имеет сложную структуру. В этих случаях обычно с помощью метода штрафных функций или других стандартных приемов, частично описанных в гл. 14, исходная задача сводится-к задаче оптимизации на множестве более простой структуры (например, па гиперпараллелепипеде). Далее будем предполагать, что 0<цЛ(Х)<«> (щ— мера Лебега) и структура множества X настолько простая, насколько это не- обходимо для построения того или иного алгоритма. Решая задачу поиска х*, на практике обычно ограничивают- ся любой точкой из множества' Ао = 4(6) = {х Xlf(x) > f* - 6} пли множества В£(х*) == В(е) = {х <= Х| Их — х*Н е)< Здесь е > 0 представляет собой допустимую погрешность при отыскании максимума по аргументу, а 6>0—-по значению функции. Сложность задачи поиска х* во многом зависит от размерно- сти множества X (одномерность экстремальной задачи, если к = 1 и многомерность,, если /с>1) и количества локальных максиму- мов функции f (унимодальность функции,, если известно, что локальный максимум один, и многоэкстремальность, если их ко- личество неизвестно или известно, но больше одного). Методы одномерного поиска изучены значительно лучше, чем многомерного. Это' стимулировало разработку способов сведения многомерных экстремальных задач к одномерным (см. [88]). Использование априорной информации о функции / играет первостепенную роль при построении эффективных алгоритмов глобальной оптимизации. Известны следующие основные типы задания априорпой информации: - а) ^сзС(Х): ч ' . а') ^сСЧХ).. а") 5Гс=С2(Х). б) Lip (X, М) = {/|И/(х) — /(х')И < М\\х — х'И для всех х, х' е X), 0 < М < оо, б') ST с Lip (X, р, M)^{f\\\f(x)-j(x')W^Mp(xK х') для всех х, х' X}, 0 < М < .оо, р — некоторая метрика на X. в) ^c{/eC1(X)|V/SLip(X, М)}. . 111
• в') ^'cz{/eC1(X)lllVfll^C<oo}. г) &" = {fix, 0), 0<=8l, 0—'множество неизвестных, пара- метров. г') #*«=« {fix, со), со е Q}, где (Q, Я, Р) — некоторое вероятност- ное пространство, т. е. SF — множество реализаций некоторого случайного процесса (поля). д) В входят только функции, имеющие ровно I локальных максимумов. д') В входят только функции, имеющие не более чем I локальных максимумов. е) — множество функций, которые могут быть достаточно хорошо аппроксимированы функциями из некоторого класса ж) Для всех функций из условия гладкости типа а) — г) выполнены в некоторой окрестности х*. з) Для любой / е ST точка х* = arg max fix) единственна и су- х^Х ществует такое е0 > 0, что при любом 8 (0 < 8 < е0) множество Ая односвязно и ц(Л8)>0, где ц— некоторая вероятностная мера па (X, Я). и) с: {/|/= /4+ /2, для Л выполняется д) с Z = l, ИДИ е), где е > 0 — заданное число; II-II — некоторая норма. к) STс {/I/==А+ Д, где Д зависит не более чем от I Иск) переменных, ИДИ =С в). л) с= {f\ цА(Ле)/цА(Х) > б), где б > 0 — заданное число. м) Для любой существуют такие числа 84 > 0, > О, Ci>0, что при всех x&Biei) выполнено Cilla? — х*Н < /♦ — fix)* м') Для любой существуют такие числа 82>0, ^2^0, с2>0, что при всех x^Bie2) выполнено /* — fix) < с2Нж — х*Н^. н) {f\x* = arg max fix) — внутренняя точка X}. Априорных предположений а) — а') недостаточно для постро- ения эффективных алгоритмов поиска х*; обычно они использу- ются вместе с предположениями типа д), д'), и), к) и часто (не- явно) считаются выполненными при применении ряда эвристиче- ских алгоритмов, значительная часть которых содержится в [5L Множество алгоритмов/некоторые из них приведены в п. 3) раз- работано в предположении б); для этого случая известны опти- мальные (в минимаксном смысле) и близкие к оптимальным ал- горитмы, но при п > 1 эти алгоритмы чрезмерно громоздки и ниже не описаны. Отметим, что константа Липшица функции 4(я, (см. § 1) иногда легко может быть оценена (папримео, для случая полиномиальной регрессии на отрезке с С1 ix)). Интенсивно разрабатываемые в последние- годы байесовы [12]* 165] и информационно-статистические [88] алгоритмы осно- ваны на предположении г'). Предположения д), д') при малых I (вместе с а) —в') или ж)) и е) благоприятствуют применению алгоритмов локального поиска (см. п. 2). Отметим, что для функции ф(я, £) (см. алго- ритм 4) предположения д') и д) часто могут быть проверены. Отметим также, что в ряде работ по планированию эксперимента 112
неоправдан© часто (т. е. при больших I) используются алгорит- мы, основанные на предположении д'). При выполнении и) могут быть построены эффективные алго- ’ ритмы (см. п. 14.4.4), основанные на поиске максимума сглажен- ной функции; поскольку градиент сглаженной функции вычис- ляется со случайной ошибкой, задача сводится к задаче плани- рования экстремальных экспериментов. Предложение к) может стать основой для создания алгорит- мов глобального поиска, включающих в себя редукцию размер-г ности путем выделения существенных переменных с помощью серии отсеивающих экспериментов (см., [98] и гл. 15). Предположения ж), з), л), н) являются типичными для мето- дов глобального случайного поиска (см. пп. 4, 5). При постро- ении алгоритмов случайного поиска, основанных на оценивании /*, кроме того, иногда используется г), а также м), м') и неко- торые предположения о функции распределения • = (5) тде P(dx) — некоторое вероятностное распределение па (X, (см. п. 5). Методы поиска глобального экстремума для случая, когда X состоит из конечного числа точек, описаны в специальной лите- ратуре.. В указанном случае могут быть использованы и некото- рые из методов, описанных ниже (в особенности в п. 4). 2. Алгоритмы локального поиска и равномерно распределен- ные последовательности в многоэкстремальных задачах. Методы поиска локального экстремума (см. § 3) используются при поиске глобального различными способами. Первый способ заключается - в уточнении местоположения точки х* и значения /* путем ло- кального подъема из точки х^ являющейся приближением к х* и полученной с помощью одного из методов глобального поиска. Это, соответствует априорному предположению о принадлежно- сти х* той окрестности х*, в которой функция / унимодальная и достаточно гладкая (см. ж), з)). Естественной представляется комбинация методов локального поиска с методами глобального случайного поиска (см. пп. 4, 5) и методами, основанными на предположениях е), и) (т. е. х* находится как точка максимума аппроксимирующей или сглаженной функции). * Второй способ, в основе которого лежат априорные предполо- жения д), д'), состоит в последовательном отыскании локальных максимумов. Даже если I невелико, обычно трудно определить, из каких начальных точек нужно производить локальный поиск, чтобы не попасть в уже найденные локальные максимумы. Ча- стичным решением служит следующий полуэвристический прием: найденные точки локальных максимумов окружаются некоторы- ми окрестностями, которые считаются запрещенными для новых начальных точек. Локальный поиск можно начинать из таких точек Xi^X (г==1, 2, ...), что последовательность Рав~ 8 п./р. С. М. Ермакова 113^
иомерно распределена в X, т. е. для всех А е справедливо lim N~lSx(A} = (Л), где 5Я(Л) — количество точек Xi с номе- N-*oo - -- рами 1 С i N, принадлежащих А. Часто в качестве начальных точек для локального поиска выбираются независимые реализации равномерно распределен- ного в X случайного вектора или ограничиваются теми, в кото- рых значение / относительно велико. При этом из разных на- чальных точек можно проводить разное количество итераций локального поиска в зависимости от перспективности этих точек. Если решение о том, сколько итераций локального подъема про- водить из той или иной начальной точки, делается независимо от аналогичных решений, принимаемых для других точек, то по- лучаемые в результате применения такого метода точки можно считать независимыми реализациями случайного вектора с неко- торым распределением P(dx) на (X, ^), и для оценивания значе- ния /♦ в этом случае могут быть использованы результаты, сфор- мулированные в п. 5. Очевидно,- что если алгоритм локального поиска релаксационный, то указанный метод сходится при тех же предположениях, при которых сходится метод простого слу- чайного бросания точек в X (см. п. 4). При априорном предположении о том, что в пределах шара некоторого радиуса р > 0 функция / меняется незначительно, .естественно на первом этапе поиска выбирать сетку с хорошими свойствами равномерной распределенности. Наилучшая из таких сеток состоит из центров сфер, наиболее плотно упакованных в X, но в многомерном случае на практике не используется вслед- ствие чрезмерной сложности построения. Количественной характеристикой равномерной распределен- ности. набора точек Ех = {х^ .. ь, xN} в предположении X = *£(ft))l0Сx{i) 1, j==l, к} является Av(Sn) — отклонение от равномерности: 7ХЛЕ») - sup \SN(B) в где супремум берется по всем множествам вида 5 = [О, &J Х...Х10, М, i-1, ..., к. Для кубических сеток (иногда их называют равномерны- ми)^ состоящих из N = Мк точек с координатами + 1/2 i2+-l/2 . + 1/2\ \ М ' М ’ • ’ • ’ м д h, ...,lk = o, 1, — JDN(Sjv0)) = 4-Arl_ft_t. Эта величина, минимальна при Л: = 1, при больших же к откло- нение от равномерности DN для кубической сетки очень велико. Так, при Л > 3 кубическая сетка хуже с точки зрения равномер- ной распределенности, чем случайная сетка 8я\ состоящая из 114 .
N независимых реализаций случайного вектора, равномерно рас- пределенпого в D(k} = X, поскольку с любой вероятностью, мень- шей единицы, Dn (eW)-o(Vn) (N ->оо). Среди известных сеток при к > 1 отклонение от равномерности асимптотически (при N ©о) минимально по порядку для параллелепипедаль- ных сеток (см. п. 3.5.4) и сеток, состоящих из первых N членов ЛПт-последЬвательностей En) и* последовательностей Холтона (см. [.86]). Для этих сеток DN(EN) = O(lnkN) (А->©о). ДПг-по- сл‘едовательности обладают следующим свойством: если А = 2г+Г (г=1, 2-, ...), то по крайней мере один элемент 8^ содержится в произвольном гиперкубе из X^DW объема 2"г. Поэтому, если алгоритм поиска х* состоит в вычислении / в точках сетки 2/?\ то часто (в зависимости от ЗП можно указать значение 2V, необ- ходимое для нахождения я* с , заданной точностью. Случайные сетки используются из соображений просто- ты построения, в случаях, когда трудности при построении в X сетки с более хорошими свойствами равномерности оказываются практически непреодолимыми, а также потому, что после вычис- ления / в точках Sjv) и применения аппарата теории вероятно- стей можно извлечь дополнительную информацию об / и х*. Сетки с хорошими свойствами равномерной распределенности особенно полезны при решении задач многокритериальной опти- мизации: на основе вычисления значений критериев в точках сетки может быть построено приближение* к множеству Парето (см. [87]). 3. Метод ломаных и его обобщения. Методы одномерного по- иска являются наиболее изученными вследствие их относитель- ной простоты и широкой применимости. Наиболее известен ме- тод ломаных, а многие другие являются его обобщениями или . модификациями. ; " Пусть =» Lip (X, L), X = [а, ЪА (—°° < а < Ъ < <»). Положим хо — ^~^> Хп+1 — Arg шах фп(л-), n = 0,1, где ’ фп (#) — Ш'п {/ (^i) + L |х — xi |}. Этим определяется ме- г— тод ломаных, который сходится со скоростью = 0{п~^ Функции <рп(я) (п = 0, 1, ....) — кусочно-линейные (<рп > фп+i > /» «==0, 1, ...), и на каждом шаге метода ломаных решается отно- сительно простая задача поиска максимума кусочно-линейной функции. Недостатком этого метода является то, что с ростом номера шага п растет объем требуемой памяти и вычислительной работы, необходимых для вычисления хп+^ От этого недостатка в значительной степени свободен следующий метод: = а 4" ^/2, хп+1 = хп h -|- (fn — / (^n))/ . п = 0, 1, ..., и0 — 2> хПй = min [b, Хп9~! + h + — / (^n0-i)]/Lj, 8* s 115
где h = 2e/L, f* = max{/(x0), f(xn)}, хп^Ъ->-Ы2. Оче- видно, что Arg/*о^ A (e). В худшем для данного метода случае, когда /(х) — неубывающая функция метод после- довательного перебора превращается в метод пассивного neper бора на равномерной сетке xQ = а + fe/2, хп+1 ^xn+ht Хп9 = min{6, х0 + (п0 — 1)Л}, и == 0, е., п0 — 1, и для нахождения х* с точностью е потребуется в этом случае М=ШЬ-а)/(2е)1 вычислений значений функции /. В лучшем для метода случае, когда / — убывающая линейная функция, по- надобится всего 2^2 = 1+ [log2L(b — a)/(2e)]+ вычислений функ- ции /. Метод ломаных, очевидно, обобщается на многомерный слу- чай. Единственное изменение в алгоритме состоит в том, что <Гп(х) = min {fixi) +LHx —xjl}, n = 0, 1, ... Конечно, искать на каждом шаге минимум многоэкстремальной вспомогательной функции <рп(х) — задача непростая, и поэтому указанный метод может быть рекомендован для использования только в тех случаях, когда трудоемкость вычисления функции / велика. ' Недостатком рассмотренных методов является то, что при их построении должна быть точно известна константа Липшица L функции /, чего на практике обычно не бывает. Поэтому L при- ходится оценивать в ходе оптимизации. В многомерном случае поступают следующим образом: пусть проведено п +1 вычисле- ний функции / в точках xft, ..., хп; тогда положим Z>n — гп max i<3 1 bi-M J’ где rn>l—числа, выбираемые из эвристических соображений. В одномерном случае процедура оценки L несколько проще: точ- ки х0, хп перенумеровываются в порядке возрастания: х0< < Xt < xn, после чего полагают Ln — Отметим, что если оценка константы Липшица оказывается за- ниженной, то исчезает достоверность результатов (точка макси- мума может быть,пропущена), а если завышена, то сильно воз- растает трудоемкость методов. Указанную процедуру оценки константы Липшица включа- ет в себя следующий алгоритм одномерного (п = 1, Х=[а, &]) глобального поиска максимума, являющийся одним из наиболее удачных примеров использования так называемого информации онно-статистического подхода. 116
Полагаем х0 — а, #i = Ь. Предположим, что есть точки х0,___ ..., перенумерованные в порядке возрастания так, что х* < < xi < ... < хп. Новая точка выбирается следующим обра- зом: xi +'xi-l Xn+1 =----2----+------2^-----’ где . . ‘mn == r max з—i) I.. i _ arg max д Kj<n X3 X3-l R (j) =- - x,-r) 4- + 2 (/ (x,) + f (X,_!)). Если /е Lip (X, L) и при достаточно больших п выполня- ется m>2L (этого можно достичь за счет выбора г), то множе- ство предельных точек для последовательности, получаемой опи- санным способом, совпадает со множеством точек глобального максимума функции /. 4. Глобальный случайный поиск. Если размерность к про- странства X достаточно велика, а класс функций широк (что обычно имеет место в экстремальных задачах планирования экспериментов), то нелегко найти удовлетворительный метод ре- шения .задачи поиска глобального экстремума. В указанных слу- чаях, по крайней мере на первом этапе поиска, часто использу- ют один из* описанных ниже алгоритмов глобального случайного поиска. Рассмотрим лишь алгоритмы случайного поиска, принадлежа- щие к классу алгоритмов «независимого глобального поиска» (в терминологии [82]), поскольку именно- они наилучшим обра- зом зарекомендовали себя в задачах оптимизации различных критериев, встречающихся при оптимальном планировании экс- периментов. Алгоритмы типа «блуждающего глобального по- иска» и «поиска с самообучением» по существу представляют - собой модификации локальных алгоритмов и при решении су- щественно многоэкстремальных задач большой размерности ча- сто оказываются практически беспомощными. Простейший из рассматриваемых алгоритмов состоит в том, что все точки х^ х^ ... представляют собой независимые реали- зации случайного вектора, имеющего некоторое распределение P^dx) на (X, ^). За приближение к х* принимается х<^} = = Arg max /(#<), где А —число полученных точек. Выбор Х£,г==0.....W-1 распределения P^dx} зависит от априорной информации о поло- жении х*. При отсутствии этой информации обычно выбирают P^dx} равномерным на X и предполагают выполнение л). Оче- видно, что если Р0С48)>0 при всех е>0, то /(#<%) сходится по вероятности к /* при N «>, Из оценок скорости этой сходимо- 117
сти следует, что 'Р е Аг\^р при ,N^N(p, е) = [(In (1 —/>))/1п (1 — Р0(Ае))]+, е >0, 0<р< 1, ч и Р {#(% е Л8] < р при N<N(p, е). Таким образом, если Р0(Ае) мало (это соответствует тому, что велика требуемая точность или априорная информация о положении х* либо мала, либо не- точна), то для того, чтобы обеспечить достаточно большую веро- ятность попадания в А9, нужно провести чрезмерно боль- шое количество вычислений функции /. Отметим, что использо- вать в качестве х0, xh ... точки последовательностей с хорошими свойствами равномерности (см/п. 2) более выгодно, чем незави- симые реализации равномерно распределенного в X случайного вектора. Эффективность приведенного алгоритма низка, поскольку в нем не используется информация, получаемая в ходе поиска. Чаще применяют алгоритмы, в которых указанная информация используется. Эти алгоритмы состоят из нескольких этапов, на каждом из которых некоторое число раз моделируются распре- деления, конструируемые на основе полученной на предыдущих этапах информации таким образом, чтобы область поиска посте- пенно сужалась вокруг точек, признанных наиболее перспектив- ными. Общая схема таких алгоритмов состоит в следующем. Алгоритм 6. 1) Выбираем распределение PQ(dx) на (X, 3S) и полагаем г = 0. 2) Моделируем раз распределение РДсйг), получаем точки ти) ' АР 3) На основе вычисления значений функции / в точках (/ =* 1, ..А/, t = 0, *.., i) определяем распределение Pi+i(dx) на (X, $). 4) Заменяем i па i + 1 и переходим к 2). Здесь Ni (г = 0, 1, «...) — заданные натуральные числа. Вы- числения прекращают либо по истечении вычислительных ресур- сов, либо при достижении заданной точности, которая может быть оценена на основе результатов п. 5. Наиболее известны варианты алгоритма 6, й которых Pikdx) G>1) имеют вид с (2.) РГЙФ (РГ1 (* — Zi)) щ {dx}, (6) где с (zt) = пределения йф (Р»1 (х — 20) На {dx}I \ ф —плотность рас- X ' J в R\ J #<р (х) (dx) — 0, Pi > 0, Zi — некоторые точки из X или случайные векторы с распределением па (X, .$). Уменьшение р» с ростом i соответствует сужению области по- иска. В алгоритмах из [82] ф-плотность нормального или равно- 118
мерного на цекотором гиперпараллелепипеде распределения, | Zi = arg max /(xj°). x(.° XJ 5=1.. t=0..i-l~‘ Сходимость алгоритма 6 может быть основана на том, что любая точка из X — точка сгущения последовательности х]1) (/==1, Af, i = 0, 1, ^Достаточным условием этого яв- ляется: оо . А) Для любого е>0 выполнено 2 NtminP{(Z)e (х)) = °о, где DR(x) = {z = R*| Их — zll е). Пусть Pi(dx) выбраны в виде (6), где supp<p = R\ Тогда, если > 0, то А) выполнено. Для некоторых видов <р А) выпол- нено при произвольных Zi&X и при Рг~*О ($-><»). В частно- сти, если распадается в произведение одномерных плотностей распределения Лапласа и > Ci/ln (с2 In г) или нормального рас- пределения и pt > Ci(ln (c2lnt))“1/2, то выполнено-А). Здесь i‘>2, с2 — любые, Ci > О, с2 > 1. ' Далее в этом пункте, будем предполагать, что для всех х е X выполнено /(х) > с5>0 й в алгоритме 6 Pi+1 (dx) = 2 Ci (*Л dx), (7) 2 f Ю где Qi(y, dx) — заданные переходные вероятности (т. е. измери- мые функции на X по первому аргументу и вероятностные ме- ры па (X, &) по второму). е Для моделирования распределения (7) нужно сначала полу- чить независимую реализацию J случайной величины т, прини- мающей значения на множестве {1, 2, AJ с вероятностями- Р{т >== 1} = /(х^) I 2 / W°)) 1 а затем получить независимую М=1 / реализацию случайного вектора с распределением dx). Рассматриваемый алгоритм является математической моделью ряда методов, используемых для решения практических задач (в том числе и для вычисления дискретных оптимальных планов). Суть этой модели — моделирование последовательности вероят- ностных распределений, сходящейся для широкого класса функ- ций к предельному распределению, сосредоточенному в х*. Отменим, что приведенные ниже результаты могут быть обоб- щены на случай, когда X — произвольное компактное метриче- , ское пространство, а функция / вычисляется со случайной ошиб- -ной [31]. Ниже приведены результаты о поведении /?(г, Nf-t9 dx)—6e;t- . условных распределений случайных векторов, независимыми реа- 119
лизациями которых являются x^ (J = 1, ..., Ni). При этом, кроме з), используются следующие предположения: Б) Существует такое е >0, что f непрерывна на ВЛ (ср. с ж)). В) р* (мера Лебега) абсолютно непрерывна относительно ц. Г/ Для всех г = 0, 1, выполнено Qi(z, dx) = q{(z, x)ii(dx), sup g<(z, x) Mi < co. Д) При любом z^X выполнено Q<(z, dx) => zz(dx) (t-^co) (=> —слабая сходимость, sz(dx) —распределение, сосредоточен- ное в точке z). Е) Для любого е>0 существуют такие S>0 и натуральное i0, что Ri(B&) > S при всех i > г0. Ж) ц абсолютно непрерывна относительно Ро. ? 3) pfc(X)>0, р, = I|iA(X)]~1p,J^, Qi(zh dx) определены по (6), срнепрерывная симметричная плотность распределения в R\ J IIII<р (ж) m(dr)<oo, pi>0 (i = 0,l,,..). В* И) Для всех z^X выполнено Qi(z, {x^Xlf(x) *^j(z)}) = 0 (i«0, Если выполнено Г), то для всех i = 0, 1, tt. при #<->«> рас- пределения R(i +1, Ni; dx) сходятся К пределу Ri+i(dx) и /?i+i {dx) = Г [ f (z) Rt (dz)l-1 J / (z) Ri {dz) Qi (z, dx), [X J X где Ro(dx) =PQ(dx). Теорема 2. Если выполнены условия Б) — Е) и 3), то Ri (dx) => 8Х* (dx:) (iоо); при выполнении Б) — Д), 3) оо) и условия Е) для распределений R(i, dx) имеет R (i, Ni-i, dx) => (dx) (i -> oo). ‘ В основе доказательства теоремы 2 лежит следующий Если выполнены условия Б), В), и 3), то (М- место факт: f (х) р, (dx) [ J f (z) р (dz) j => ex* (dx), \x I Для двух наиболее важных (определяемых в 3), И)) способов выбора Qi(z, dx) можно указать простые условия (т. е. не явля- ющиеся условиями типа Е)), достаточные для сходимости рас- сматриваемого алгоритма. Теорема 3, Пусть выполнены условия Б), з), а также ли- бо В)—Д), Ж), И), либо 3), 2₽i<oo. Тогда (*->оо), 1=0 и существует такая последовательность чисел NQ,. .., что . R(i + 1, Ni, dx) => 8«* (dx) (i -> oo). Отметим, что для моделирования случайного вектора ц с рас- пределением (при фиксированном zj Q(zi, dx), определенным по (7), нужно получить независимую реализацию £ случайного век- тора, распределенного с плотностью <р, проверить принадлежа 120
пость Zi + fj£ X (в противном случае получить новую реализа- цию $) И ПРИНЯТЬ Ц = Zi + По-видимому, результаты могут улучшаться при использова- нии квазислучайных чисел, хотя этот вопрос требует дополни- тельного исследования. 5. Оценивание экстремума в алгоритмах случайного поиска. На i-м (i — 0, 1, ...) шаге алгоритма 6 имеем выборку = = {я£г), яУ*} значений случайного вектора £f, имеющего распределение Pi(dac), В данном пункте показано, как по этой выборке может быть оценено значение fz == шах / (х) и постро- ен доверительный интервал для /и» где Z — любое множество из в котором содержится достаточно большое количество эле- ментов So Это может служить как дополнительным источником получаемой об / и на каждом шаге алгоритма 6 информаций, так и основой для построения ряда специальных вариантов алго- ритма 6, наиболее естественным (при отсутствии дополнитель- ной априорной информации об х*) из которых является сле- дующий. Алгоритм 7. 1) Полагаем i = О, Хо — X. 2) Определяем распределение Pitdx) как равномерное на мно- жестве Xi. 3) Моделируем раз распределение Pi(dx), получаем 2<. 4) Полагаем /* = max /(я?*). t-i..n5 5=0,....i - 5) Представляем X,- в виде Х£ ’== |J где к{ > 1, Zy (/=*= == 1, ♦.., kJ — измеримые односвязные подмножества (не обяза- тельно непересекающиеся), в каждое из которых попало доста- точное для проведения статистических выводов количество точек из Si. 6) В каждом из Zu (/==1, ...» kJ находим —верхнюю до- верительную границу уровня 1 — (^>0) для значения /ц = = тах/(я). x^zij . . - > 7) Полагаем Хг+1 =, (J Z*-, где 5=1 Z4, если >/*,’. 0 в противном случае. 8) Заменяем I на i + 1 и переходим к 2), . Иногда (что менее строго) вместо доверительных границ вычисляют оценки ац для а в качестве Х<+1 выбирают мно- жество Zij , где /о = arg max 121
Поскольку статистические выводы о значении fz на каждом шаге алгоритма 6 и для всех делаются однотипно, будем предполагать, что Z = Х, имеется N независимых реализаций ti, ..случайного вектора £ с распределением P(dx) на (X, и требуется сделать статистические выводы о величине /*. Положим 0 = /(£), 0< =/(£<) (j==l, ..., N). Очевидно, что /* —верхняя граница сосредоточения случайной величины D, функцией распределения которой является (5). Иногда (напри- мер, [64]) для оценки /* используется следующий подход: пред- полагают, что функция распределения (5) известна с точностью до нескольких параметров (см. г)); эти параметры, а вместе с ними и /*, оцениваются по выборке 01? ..., 0N с помощью стан- дартных методов математической статистики. Недостатки этого подхода: 1) адекватность параметрической модели априори обыч- но не очевидна (особенно при малом числе параметров); 2) за счет того, что оцениваются «лишние.» параметры, точность оцен- ки /* понижается, а количество необходимой вычислительной ра- боты увеличивается; 3) йостроение доверительного интервала для /* обычно затруднительно. Ниже приводятся результаты относительно более естествен- ного, пути оценивания /*, основанные па следующем факте тео- рии экстремальных порядковых статистик. • Предположим, что о функции распределения F(v) случайной величины 0 известно, что для некоторого /* (—©©</*< оо) вы- полняется F(j*) = i и F(v)<l при р</*. Пусть выполнено сле- дующее условие. К) Функция Vtv) — 1 — F(/* — р"1) (р > 0) правильно меня- ется па бесконечности с некоторым показателем v (0<v<oo) (т. е. lim [V(Zp)/V(p)] при всех £>0). V->oo Тогда функция распределения F(v) принадлежит области при- тяжения предельного закона максимальных значений с функцией распределения I' 1» В частности, при выполнении условия К) имеет место равенство lim FN(fz 4- (/z — ап)и) = Ov (u), 7V->oo где aN = inf {p e Rl 11 - FM 1/M. Если значение параметра v неизвестно, то набор параметров (v, /♦, aN) может, быть стандартным образом (см. гл. 1) оценен по выборке из независимых порядковых статистик выборок объ- ема N из заданного распределения. Ясно, что количество необ- ходимой для такого оценивания вычислительной работы (в том числе количество вычислений /) велико. Покажем, что во многих случаях значение параметра v может быть точно определено па основе априорных сведений о поведении / вблизи точки х\ 122.
Теорема 4. 1) Пусть pft(X)>0, пусть выполнены условия з) для р = |^; м); м'); = 02 = ₽; К); и пусть Л) существуют такие числалз^®, с4>0, £5>0, что при всех в (О < в < 63) с4<РШ(е)}/рл{О(е)}^с5. Тогда v==A/[}. 2) Если / == 2 Л?» где fi — измеримые функции с носителем Х^Х, Р(Х, П x') = О, Р(Х<) > О (г^ /, f, / - 1, ..I) и для функ- ции распределения (и) = [Р (Xi)]"*1 ] «• • f. Р (dx) выпол- /{(х)<и,хеХ| няется условие К) с параметром vit то для функции распределен ния (5) условие К) выполняется с параметром v = min {vt, ..., Vzk Сделаем ряд замечаний относительно условий * теоремы 4, В классе тех функций /, у которых точка глобального супремума х* единственна, условия з), Л) выполнены, например, если / " непрерывна в исходной окрестности х*, меры Р и эквивалент- ны и либо выполнено п), либо для любого е (0<8^е3) имеем <4 |in{P(e))/gnW(e)}. Условия м), м') характеризуют поведение / вблизи я*. Обычно априорной информации об / достаточно для того, что|)ы определить [Ji и р2. Так, если производные функции / в х* по всем допустимым направлениям существуют и не равны О, то Pi = e 1 (указанный случай возникает, в частности, при использовании алгоритма 7, когда глобальные максимумы дости- гаются на границах множества ZfJ); а если / дважды диффереп- . цируема в некоторой окрестности #*, и матрица V2/(z*) невырождена, то Р1 = р2 = 2., Отметим, что в этих двух случаях условие К) выполнено, если выполнено н). Зная пара- метр v, можно по выборке 04, ..., 0л из независимых реализаций случайной величины 0 с фуйкцией распределения FM (для ко- торой, естественно, выполнено условие К) оценивать параметр и строить для него доверительные интервалы следующим образом. Обозначим за 0(г) 0 = 1, ..., N) порядковые статистики, по- лученные из выборки 0t, ..0^ (0(4) 0(2) < ... < 0m), и пусть m > 1 — некоторое число, которое мало по сравнению с N. Оцен- ку для fz будем строить в следующем виде: ipv.m = SM(W-m+i>» - i—1 используя для построения оценки только m наибольших поряд- ковых статистик. Для состоятельности необходимо выпол- нение условия bi 4-... + bm = 1. Если это условие и условие К) выполнены, то при N 00, m/N О ш - (Л - е^-2£ (xw.™ - /г) -> тт (v) = 2 ^ubibi = ьтаь, ij=l 123
где = r(2v~'+ i)r(v~‘+/HIXy-1 +/)Г(/)1-1 (/<i), = U Л = (Mft-i, К = (1,1,.... 1/, b = (blt .... bm)T, Поэтому оптимальная в рассматриваемом классе оценка будет иметь вектор коэффициентов Ь*= arg min bTAb = (^Л-1^)"1 x b: bTi=i X Л^Л, при этом (fe*)TAfe* = (VA-’X)"1. В частном случае при v = 1 bi ” 1 + b2 — b3 == ... == bm-i = 0, bm = — * /л\ w + 1 Простой, но достаточно близкой к оптимальной, является оценка. ?]JV,rn = |1-+ 2v-l) а 2v —1 _ - т | <W)------т— 0(N-m+l) ' / Если выполнено условие К), то при всех т > 1 lim Р JV->oc' fz ~~ 6(N)“ .Отсюда следует, что (0 < а < 1) lim P|/z<e(JV) + |(1 —a1/w)-1/v —1]-1(0W —0(jv-m))] = 1 —a, iV-хю HmP {/z> 0(N)+{[1 - (1 -a/^J-^-ir^^-O^-m))} = 1—a. N-?<x Основываясь на этих соотношениях, можно построить асимпто- тические доверительные интервалы для /я. Так, асимптотиче- ский односторонний доверительный интервал уровня 1 — а для /я есть [б(Л)т 0(Ю +1(1— a1/7n)~1/V — 1} 1 (0(N) — 6(N-m)]. При больших N t С¥оо) и маленьких т сред- няя длина этого интервала приближенно равна [(1 _ av’")-1/v-l](/;-ew)[r (у-'+т+УЦт + 1) - r(vy4 1)]. Отсюда вытекает, в частности, следующий результат. Возь- мем в качестве меры точности алгоритма случайного равномер- ного бросания точек в X (см. п. 4) среднюю длину односторон- него доверительного интервала для /* уровня 1 — a (a > 0> и предположим, что выполнено К) с v = fe/p. Тогда число испы- таний А, необходимое для того, чтобы асимптотическая длина 124
этого интервала равнялась е, должно расти с ростом размерности пространства к со скоростью N ~ сос\ к -> оо, где , с = {[ф(тп + 1) — ф(тп)]/[—s In (1 — a1/w)]1/p, ф(а) « Г'(а)/Г(а) — ф-функция, с0 > 0 — некоторая константа, за- висящая от /. - § 5. Оптимальные решения многокритериальных задач Реальные постановки задач оптимального планирования экс- периментов обычно многокритериальный, а один компромиссный критерий строится на основе дополнительных соображений. Ис- следователя часто интересует не один план, а множество планов, каждый из которых нельзя улучшить равномерно по всем кри- териям. Для построения такого множества планов или для на- хождения некоторых элементов этого множества важны свойства* оптимальных решений и признаки. их оптимальности. Основные факты об этих свойствах и признаках приведены в настоящем параграфе. 1. Основные понятия. В многокритериальных задачах оптими- зации сравнение решений по предпочтению осуществляется при помощи заданных на X функций (критериев) /<: X->R\ i = l, „., тп. Векторным критерием называется вектор-функция fix) = (Л(я), • /тСг))т. Решением называется любой элемент х из множества X. Оценкой называется любой вектор у из множества Y^f(X)^{y^Rm\y^f(x), хеХ). Множество Y = /(X) называется множеством достижимых оценок. Функция <р: R* R1 называется допустимым преобразовани- ем критерия /i, если функция <р(/4) вновь оказывается критерием, измеряющим то же свойство. С каждым критерием связывают множество допустимых преобразований Ф и говорят, что этот критерий имеет шкалу типа Ф. Распространенным является случай измерения в шкале ин- тервалов: Фи = {ф: R1 -> R1 |<р(и) = аи + Ь, а > О, Ъ е R4}. Критерий называется количественным, если он имеет шкалу Ф Фй. Значения количественных критериев имеет смысл Сравнивать, указывая, насколько или во сколько раз одно значение больше другого. 125
Порядковой шкалой называется шкала ' ' " фп я= {ср: R1 -> R11 ф (и) > ср (р) Vu, v е R1, й > v}t т. е. множество монотонно возрастающих функций. Критерии, имеющие порядковую шкалу, называются качест- венными. Значения качественного критерия имеет смысл сравнивать только по отношениям «больше», «меньше», «равно». Бинарные отношения >, определяются на Rm сле- дующим образом (a* = (aXD, ..., а»(тп))т, i = 1, 2): ( «i (f) а2 (i) Vi == 1, ..m\ а^а2^а^а2^ас^а2\ aL> а2al(i)'>a2(i) Vi = 1, = n2 или al(i)>a2(i) хотя бы для одного г^{1, 2, ш}. Здесь символ «^=>» обозначает: «если, и только если». Критерий /< (i = l, пг) независим по предпочтению от критериев Д (/«1, ..., щ, /¥=t), если для любых четырех оценок из Y вида «1 = (У1, • •, Vi-1, s, у1+1, ym)T, = (Ун • • •, J/i-i, Z/i+i, • • •, «з = (ft, • • •, ft-i, • • •, • «4 = {y'l, • • •, y'i-l, t, Уг+г, ym)T из соотношения ai = a2 всегда следует a3 = n4. Задачи, в которых все критерии независимы по предпочте- нию называются многокритериальными задачами макси- мизации. . Отношения >, =, определенные на множестве У достижимых оценок, естественным образом порождают аналогич- ные по смыслу отношения х*/, ==/ в множестве ре- шений X: так, тогда и только тогда, когда ^/(л:2). Векторные критерии / и g эквивалентны по отношению если порождаемые ими отношения и совпадают (т. е. s j{x) ^/(xz), если и только если gkx} g(#')). Аналогично. определяется эквивалентность по отношениям^ С помощью приведенных ниже утверждений иногда можно ре- шать вопрос об эквивалентности векторных критериев и строить новые критерии, эквивалентные данному. 128
А. Если критерии fm)T и g=(gt, gm)T эквива- лентны по , то эквивалентны в том же смьГсле и критерии (/,, fm, 'ф)Т и gm, ф)Г, ГДв Ч : % "* ~ ПрОИЗВОЛЬПЗЯ функция. Б. Пусть /г: /,(X)-*R‘ — возрастающая функция; тогда крите- рии (/ь fm)T и (/i, /<-!, /:+1, , /т)Г ЭКВИВаЛвНТПЫ п0 ' В. Если qp: Y -> R1 — неубывающая по функция, то крите- рии </1? ..., /т)г и (Л, ..., /т))т эквивалентны пр Оценка е У яззыззется максимальной по>: (по >) относи- тельно У, если не существует такого у е У, что у>у^\у> у*}. Эффективной (оптимальной по Парето) оценкой называется оценка, максимальная по Множеством Парето называется множество Р(У) эффектив- ных оценок. * ' Слабо эффективной (оптимальной по Слейтеру) оценкой на- зывается оценка, максимальная по >. Множество слабо эффек- тивных оценок будет обозначаться через 5(У). Поскольку всякая эффективная оценка является слабо эффек- тивной, имеет место P(Y) czS(Y). Для случая, когда все критерии количественные, можно ввести еще два определения эффективности. Собственно эффективной (оптимальной по Джоффриону) оцен- кой называется эффективная оценка у* = (у* (1), (пг))т, для которой существует такое 0 > 0, что для любых у = (у(1\... ..., у(пг))т У, f= 1, ..., т, для которых yd) > у*(г), и некото- рого такого je {1, ..т}, что y(j) < y*(j), выполняется неравен- ство (j/(f) “ У^)У(у*Ф - */(/)) 0. Из этого определения следует, что если решение эффективно, по не является собственно эффективным, то можно таким обра- зом перейти к другому эффективному решению, что потери по всем тем критериям, значения которых уменьшаются, являются малыми более высокого порядка по сравнению с приращением по крайней мере по одному из критериев. Подлинно эффективной (оптимальной по Борвейну) называет- ся эффективная оценка у*, для которой •г(уо,^)пйТ = {0}, где Уо = У — R™ = (z <= Rm | z = у — г, yt=Y, reRj), .. R’P = [zeRm|z>0l Т (А, у) = Гг = 1цпМ^-у)Ъ I . Г J I 1-»оо I 127
где {О—произвольная последовательность неотрицательных чи- сел, {уд— произвольная последовательность точек из А, сходя- щаяся к у^А\ Т(А, у)—касательный конус к множеству As Rw в точке у X Множество собственно эффективных оценок будет обозначать- ся через б(У), а подлинно эффективных — через B(Y). Между различными типами эффективности существует сле- дующая взаимосвязь: Аналогично множествам эффективных оценок в X определя- ются множества эффективных решений; все утверждения о мно- жествах оценок с точностью до замены А Y на /“‘(A) спра- ведливы для множеств решений. В силу своей естественности на практике обычно используют- ся решения, оптимальные по Парето. 2. Свойства слабо эффективных оценок. Предположим, что У* = (У* (1% •. •»У* (w))T s Y, 1 = 1,...,». Оценка у* слабо эффективна тогда и только тогда, когда суще- ствует такой вектор: |ieM = U=(|x(l), MMp(?n))TeRm m ъ H(i)>o, 3 и (о = 1 i—1 J ЧТО у* = arg max [min Ц (г) у (г)]. уеУ г г Для слабо эффективной оценки у* е Y можно положить где ^еМ— вектор с компонентами в этом случае max min р* (г) y(i) = X*. ver i Достаточными условиями слабой эффективности являются сле- дующие: 1) Пусть ф‘ Y -+ R1 — возрастающая по > функция. Тогда лю- бая ее точка максимума па Y слабо эффективна. 2) Пусть ф/. У-^R1 (/==0, ..., и), ф0 — возрастающая по > функция, а ф< (i«i, ...» п)—неубывающие по > функции, th ..К — произвольные фиксированные числа, Z — {y <= У|фДу) f = l, ..., nh (8) Тогда оценка У* = arg max ф0 (у) (9) уея слабо эффективна. ,128
3. Свойства эффективных оценок. Необходимыми и достаточ- ными условиями эффективности оценки у* е Y являются сле- дующие: а) Для каждого i е {1, ..., т} справедливо равенство У* (г) = max у (г), где Zi = '{у <= Y | у (]) у* (/), /(={1, m}\{i}}, m б) max 2 z (О = °, гДе = {(У. z) е У ХВ+ | У — z = I/*}. (1М)еТ г=1 в) Существует такая вектор-функция ц- Y М, что для всех у е= Y справедливо неравенство <р (у). £/>(где <•, •> — скалярное произведение).’ На практике часто используют следующий факт. Пусть функ- ция <р: У R1 не убывает по >, У* — точка ее максимума на У. Для эффективности у* достаточно выполнения одного из следую- щих условий: ф возрастает по > на У; у*— единственная точка максимума ф па У. Например, любая точка максимума функции m 2 Ц (О У (О (и (0 > 0, 1 = 1,..., т) эффективна, г—1 Полезно также следующее достаточное условие эффективности. Пусть (/ = 0, 1, ..., п, п > 1) — неубывающие по > на У функции. Тогда для эффективности точки (9), где множество Z определено в (8), достаточно выполнения одного из двух следую- щих условий: фо возрастает по > на Z; У* — единственная точка максимума ф0 па Z. 4. Свойства собственно и подлинно эффективных оценок. Оцен- ка y*^Y собственно эффективна в том и только в том случае, если существует набор векторов ць ц2., ..., цп е М (п тп), об- ладающий следующим свойством: для каждой оценки у е У най- дется номер i е {1, 2, ..., п}, при котором выполняется неравен- ство <щ, В частности, если все, цО) > 0 U == 1, ..., тп), то'любая точка т максимума функции 2 И (9 У (0 па множестве У является собст- г=1 веппо эффективной оценкой. Если множество У замкнуто и существует такой вектор ц е М, что <ц, у> const < о© для всех у -е= У, То б?(У) = В(У). В част- ности, если У — компакт, то б(У) = В(У). 5. Условия оптимальности решений для вогнутых задач. В пп. 2—4 приведены некоторые необходимые и достаточные ус- ловия оптимальности оценок; эти условия одновременно являют- ся условиями оптимальности соответствующим оценкам решений без каких-либо предположений о структуре множества X и свой- ствах вектор-функции /. Для случая, когда X — выпуклое множе- ство, а вектор-функция / вогнута, можно сформулировать еще несколько условий оптимальности решений. 9 п./р. G. М. Ермакова 129
Пусть X выпукло, / вогнута. Для слабой эффективности точки х* е X необходимо и достаточно, чтобы существовал вектор М — ш — (р; (1), ..., ц(тп))т е R™ 2 н (0 = 1 г=1 при котором <Щ /(*♦)> = тах<ц, хех (10) Пусть X выпукло, / строго вогнута. Для эффективности точ- ки х* е X необходимо и достаточно, чтобы существовал такой вектор р М, что выполняется (10). Пусть X выпукло, / вогнута. Для собственной эффективности точки х* е X необходимо и достаточно, чтобы существовал век- тор рей, при котором имеет место (10), Если множество Y — R™ выпукло, то 5(У) = С(У) (в частно- сти, это справедливо, если X выпукло, а / вогнута). Пусть вектор-функции / и h = (feb ..., hn)T определены на выпуклом множестве D <= R* и вогнуты, X = {х е D\h^x) О', ..., hn(x) > 0), выполняется условие регулярности Слейтера (т. е. существует ‘ такая точка x^D, что h(x) > 0). Тогда для слабой эффективности (собственной эффективности) точки X необходимо и доста- точно, чтобы существовали такие векторы р е М (р е М) и что пара (х*, X*) является седловой точкой функции Лагранжа <р, /(я)> + <Л, #(#)>. 6. О численном построении множеств оптимальных решений» Для численного построения множества Парето часто использует- ся следующий подход [87]. В множестве X выбирается некоторая сетка (см. п. .4.2) с хорошими свойствами равномерной распре- деленности (например, Пт-сетка), вычисляются значения вектор- функции f в точках этой сетки, после чего за конечное число срав- нений строится множество Парето на BN, являющееся (при боль- ших N и естественных предположениях на / и X) приближением к множеству Парето относительно X. Можно использовать также различные варианты следующего эвристически понятного алгоритма: на первой итерации одну или несколько точек множества Парето получаем как точки максиму- ма некоторых компромиссных критериев (например, вида <ц, f(xY>, ц*=М); имея на n-й итерации несколько точек множе- ства Парето, строим Sn — линейную оболочку этих точек, посл^ чего детерминированпо или случайно (вид закона распределения должен зависеть от Sn) получаем еще несколько точек в X, вы- числяем значения / в этих точках, проверяем с помощью приве- денных в пп. 2—5 результатов, принадлежат ли эти точки множе- ству Парето, и переходим к следующей итерации. Приближени- ем к множеству Парето служит Sn. Литература к § 5 :[73, 87]. 130
ГЛАВА 5 ПОСЛЕДОВАТЕЛЬНОЕ ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТОВ § 1. Основные понятия последовательного планирования 1. Предпосылки применения последовательного планирования* Априорные предположения об описании объекта регрессионной- моделью, зависящей ‘от параметров 0 е Rw, редко приводят к ли- нейным моделям. В нелинейных регрессионных моделях числен- ный поиск оценок параметров обычно значительно сложнее, чем в линейных. Статистические свойства и оптимальность оценок удается установить обычно лишь асимптотически при росте объ- ема выборки (см. § 1.3). Асимптотическая матрица ковариаций оценок МНК (или ИРДЖИНА для F-модели) зависит от неиз- вестных параметров, что делает, вообще говоря, невозможным оп- тимизацию некоторого функционала от нее сразу для любого О е Rw статическим планом. Эти обстоятельства, а также итера- ционный характер вычисления типовых оценок, например МНК, подсказывают целесообразность последовательного планирования соответствующих экспериментов й рекуррентного вычисления оце- нок параметров через оценки предыдущего шага и следующее из- мерение. Они экономят память ЭВМ и объем вычислений, а в не- которых случаях и число экспериментов. Простейшее последовательное планирование заключается в вы- боре момента остановки N наблюдений в зависимости от резуль- татов измерений;. Его называют последовательным оцениванием, если целью эксперимента является оценка параметров, и последо- вательным анализом в случае проверки гипотез о выборке. Пос- леднему посвящены пионерские работы А. Вальда. В случае двух простых гипотез доказано, что вальдовский последовательный критерий отношения вероятностей минимизирует средний объем выборки одновременно при справедливости обеих гипотез. По «сравнению со статическим планом среднее число экспериментов может быть в несколько раз меньше при тех же малых вероят- ностях ошибок. Экономия экспериментов при последовательном оценивании может достигаться в байесовской постановке, где есть априорное распределение для неизвестного параметра 0 и ' 131
минимизируется j EqN da(0) (предполагается, что для рассмат- риваемой задачи EQN есть суммируемая функция 0). Если, на- пример, информационная матрица Л/(0, £) нормированного пла- на | и функционал Ф от нее таковы, что функция Ф(М(0, £)) зависит; от 0, то можно истратить малый относительно общего числа экспериментов объем выборки на предварительную (состоя- тельную) оценку 0о для 0 и выбрать количество дополнительных измерений в зависимости от Ф(М(0о, £)). Подобную стратегию можно сделать асимптотически оптимальной для общего после- довательного планирования (см. § 4). Можно показать, что на втором этапе такой стратегии последовательный план асимптоти- чески не имеет преимущества перед статическим. Отметим, что, справившись с помощью последовательного пла- на с зависимостью М(0, g) от/0, мы получили новое затруднение. Измерения теперь нельзя трактовать как независимые, и необхо- димо найти матрицу ковариаций оценок МНК параметров регрес- сионной модели, что делается асимптотически для больших выбо- рок и регулярных семейств последовательных планов в §§ 2, 3. 2. Схема последовательного планирования. Смысл последова- тельного планирования заключается в следующем. На каждом ша- ге экспериментатор может принять решение о завершении на- блюдений — в этом случае он принимает решение об изучаемом параметре распределения измерений на основе всех проведенных экспериментов. Если измерения решено продолжить, то в зави- симости от результатов предыдущих экспериментов выбирается управление для следующего измерения (точка проведения нового эксперимента). Так продолжается до конца наблюдений. Формально последовательное планирование описывается сле- дующей схемой. Пусть X, У, 0, Л — полные сепарабельные мет- рические пространства, .*.., SSa — о-алгебры борелевских под- множеств, Ре — семейство мер на пространстве У, ц — о-конеч- ная мера па У, Ре абсолютно непрерывны взаимно и относитель- но меры ц, ре — плотность Ре по мере ц. Здесь 0 е 0 — неиз- вестный параметр, х X — управление, выбираемое статистиком. Последовательная стратегия 5 есть тройка правил (2V, С7, Q) со- ответственно остановки, управления и принятия решения, опре- деляемых последовательностями измеримых функций vn, xn, dn* заданных на Уп со значениями соответственно в {0, 1}, X, Л (N «= min{nlvn(z/i, ..., уп) = 11). Последовательным планом g на- зывается пара (2V, U). Функция dn определена на {yt, ...» jyJ \N = n}. Выражение означает, что для некоторого п име- ем dn(y±, ..., уп) = X. Управление определено на множестве ..., yn\N>n}<=Yn. Следующее измерение yn+i имеет условное распределение, опре- 432
деляемое соотношением: для В •_ Р(Уп+1е=В\У1, ...,Уп) =Реп+1(В) почти наверное (п. н.) при (уь ..yj &Сп и yn+l = уп, xn+i хп в противном случае. Каждой стратегии 5 и распределению для соответствует мера на У00 XX, обозначаемая Р§. Если inf Ре (N < оо) == 1,то все эти меры взаимно абсолютно непрерыв- 0С=0 „ пы. Для некоторой измеримой функции потерь w на 0XA У? (9, $) = Eqiv (0, Q) обозначает риск стратегии s. т Например, если 6 = U 0jf)0j = 0 при Л“{1, ... г=1 ' ..., иг), w(Q, X) — индикатор события 0 е 0Х (т. е. u?(0, X) === 1 при 0 0л. и w = 0 в противном случае), то получаем задачу дис- криминации т гипотез, причем /?(0, s) есть вероятность ошибки дискриминации. Если Q = A = RW и ip(0, X) = ИО — XII2, то имеем задачу оценивания с квадратичным риском. При обобщении на рандомизованные стратегий будет предпо- лагаться, что функции vn, хП9 dn дополнительно зависят от слу- чайных величин (соответственно т«, цп, £п), которые независимы от где а-алгебра &~п порождена {Fn-i, уп, тп, цп, Через Eeffayi) обозначено f /U, y)Pe(dy). V 3. Обобщение тождества Вальда. Фундаментальная роль да- лее принадлежит обобщениям двух тождеств А. Вальда на пос- ледовательное планирование, установленным с помощью теории мартингалов. Сопоставим каждому последовательному плану £ вероятност- ‘ ную меру fte(dx) на (X, определяемую для любого А&& формулой л’е (Л) = (ад)”1 3 {Д' > п, хп е А}, П=1 Мера Ле называется нормцрованным статическим планом, отвечающим последовательному плану g, или просто нормирован- ным планом. Нормированный план показывает, как часто в сред- нем в последовательном плане используется то или иное управ- ление. Пусть функция g- XX Y -+ В* такова, что sup£e||g(x, У1)||<оо, вхх а план g удовлетворяет условию sup EqN < оо. Тогда о N г Ее 2 g (*i, Vi) = EqN J gQjtQ (dx), (1) <=i x где ge = Eeg (x, У1). 133
Наглядный смысл тождества (1) таков: среднее значение функции от последовательно спланированных (с помощью плана g) измерений можно вычислять интегрированием по нормирован- ному плану По. В задачах оценивания с квадратичным риском полезло сле- дующее тождество. Если sup Eq (gi (х, ух))2 < оо для ехх gi:XxY-+& (г = 1, 2,...), то [N х I2 N 2 (gi (*i. </i) - gi.e) = E*9 2 D [gi (х{, yi) | (2) i=l J г—1 Если, кроме того, D (х,, у$ | {_г] = D (лц) (Ре — n. n.), „ то правая часть (2) равна£'еЛг j D(x) (dx) и x N '. - N D 2 gi (Xi, Vi) = EeN J D (x) Л9 (dx) при Dse 2 g*e=O. i—1 i=l i § 2. Нижние границы для квадратичного риска оценивания с известной регулярной плотностью Известная нижняя граница Крамера ~ Рао (см. § 1.1) для квадратичного риска оценивания без изменений переносится (при. подходящих условиях регулярности) как на последовательное оценивание, так и на последовательное планирование. 1. Последовательное планирование. При известном семействе плотностей измерений у любой стратегии $ для решения Q на 0 = Л <= Rm существует плотность распределения, которую обозначим нерез д0( ) (0^0). Пусть выполнены условия: a) sup EqN < + оо; sup || Ip (0) | < оо, I* (0)>О для всех х е X, е ехх где ‘ . I* (0) = El (V In pl (У1) \7Т In pl (у J) есть матрица информации Фишера. ' б) Для некоторого г>0 имеем sup 2^||(?||2< оо, где 0ев(г) В(г) = {0е0| 110 — 0*11 < г). в) Выполнены- условия регулярности а), б), в) из [35], с. 93, для плотности меры Pq по обеспечивающие существование п непрерывность градиента V& = V&(0) смещения Ъ = b (0) =; = EIQ — 0 ((V Ъ)ц = dbildfy, ..., m). 134
Для выполнения условия в) при справедливости а) достаточно, чтобы в В(г) была непрерывно дифференцируема плотность меры Pq, а также EqN, /р(0), (последняя — в слабой топологии). Тогда для любых I R \ 0 «= В (г) справедливо Е’в [1Т «2 - О)]2 > 1Т [мт + + Vfc) (e‘qni$ (6)) 1 (Im + V&)] z, (3) где I” (0) = f I? (6) n(dx). - X Часто оказывается полезным асимптотическое упрощение не* равенства (3), заключающееся в следующем. Пусть st (t — i, 2, — семейство стратегий, удовлетворяющих при каж- дом t условиям а)—в) и "условию st fr) lim inf n<(0) = oo, где nt (0) = EqN, r>0, J (t, 0) = Z0 (0) t-»oo еев(г) . . равномерно no t непрерывны при Q^B(r), lim J(t, 0)=J(0*)>O. /->OO, 0-»0* j Тогда для любого I g= R“* lim lim/?;> lT (J (t, 0*))-1Z, (4) r->0 где Rrt^ Slip M0)£e[Zr(e-O)]2.. M 0eB(r) Сравнительная с (3) простота применения (4) связана с тем, что в правой части (4) .отсутствует V6. Асимптотически опти- мальной процедурой оценивания (в (4) достигается равенство) является, в частности, метод максимального правдоподобия, если выполнено условие, следующее за неравенством (7L 2. Нижняя граница для последовательного оценивания. Пусть плотность измерений р0(р) дифференцируема по 0 в В (г) для не - которого г > 0 и для ц — почти всех у, а 7Р(0) непрерывна и невы- рождена в В(г). Тогда для любой последовательности моментов остановки N, удовлетворяющих условию sup EeN =С п < °°, и лю- r А • 0ев<г> оого а > 0 справедливо lim lim sup nal2E^ | Q — 0 |a r->0 n->oo"6S-S(r) >-i/TWT V (2n)m [ tty Г exP 4 yTlv (0) у) dy: Rm Это неравенство представляет собой обобщение неравенства (2) из § 1.1. 135 .
§ 3. Нижние границы для квадратичного риска последовательной стратегии оценивания параметров регрессии 1. F-модель. Схема оценивания обобщенной регрессионной мо- дели F определяется условиями (см. § 1.4) №1^-1) = о), Z>e(j/i|5Ti-i)=n^ 0), i = (Pg-п. и.). (5) Далее предполагается, что выполнено условие а) функции ц(я, 0), /(я, 0) = дц(я, 0)/d0, df/dBi (? = 1, т\ V(x, 0) и VVU, 0) принадлежат С(ХХ 0), причем inf V(x, 0) >0.. ххв Семейство последовательных планов (t = 1, 2, ...) назы- вается регулярным, если выполнены условия: б) пД0)=£'е^< оо, пД0)/^ (0')->1 ПРИ 0'->0<^0 и inf Р$ (N > к) -+•1 при t -> оо для любого к > 0. 0еВ(г) s. в) Соответствующие планам нормированные планы Яд* рав- номерно по 0 е 0 слабо сходятся при J -> *> к предельным пла- нам л0, непрерывным по 0 в слабой топологии. г) Информационная матрица предельного нормированного плана м (е) = f / (т, е) F («, е)]-1 [/ (х, в)]г л0 (^) X невырождена при всех 0^0. В следующем утверждении приведена нижняя граница для квадратичного риска оценок из класса г • N S = 50 (уи ...,Ул)=в + То (ylt ,,., yN) 2 Ае (*<)Х 1 , i=i X (Уг — У] (xit 0))|, где 0 —заданное начальное приближение параметра; Л (ж.): X -> -» R™; T(yit ..yN) — матрица m X тп; A(xt) и T(yt, ..., y'N) удов- летворяют некоторым условиям регулярности. Если выполнены условия а)—г), то для всех s^S и любого lim lim sup_______ n<(0*)flg>Zr[M(0*)F1Z, (6) r-*<X> t-^OO 0бВ(г/упг(0*)) еде Е1 = Е^[1т(8в(У1,,..,уК)-е*)]2. Обозначим через X — V) класс всех распределений Р% на R1: f уРв (dy) = у) {х, 0), f (у — ц (х, 0))2 Р% (dy) < V (х, 0). Y Y 136
Пусть семейство последовательных планов регулярно и при любом Pq X выполнены условия а)—в) из § 3 для семейст- ва стратегий st и б) из § 2 для произвольного решения (Л Тогда для любого I е Rw справедливо sup lim lim sup nt (0) Eq* [Zr (Q — 0)]2 > pge Jjf r"*°° *“*°° >Zr[M(0*)]"1Z. (7) N Если sup «Г2 (0) p’ 2 g (*i) -> о для g<=C(X) при t-+oo и eeo 1—i семейство’ последовательных планов регулярно, выполнено а), равномерно ограничены 5 абсолютных моментов распределений Ре, то для первой итерации 0(1) ИРДЖИНА (см. § 1.3) при на- чальном приближении 0(О) — оценке МНК с единичной весовой матрицей, Vnz(0*)(0(1) — 0*) асимптотически нормально с парамет- рами (О, Л/“Ч0*)), и, следовательно, 0(1) обращает в равенства не- равенства (6) и (7) и процедура оценивания ИРДЖИНА асимпто- тически оптимальна. Таким образом, точность асимптотически оптимальных оценок при фиксированном нормированном йлане л характеризуется нор- мированной информационной матрицей 7И(0*) = М(л, 0*), и за- дача построения оптимального последовательного плана состоит в нахождении такого плана V, что ему соответствует л* = argmin ЧНЛЛл, 0*)], (8) я где V — некоторый выпуклый функционал, заданный на мно- жестве информационных матриц (см. гл. 2). 2. Линейная регрессионная модель. Схема оценивания для ли- нейной регрессионной модели &(QTf(x[l: А], 7(я[1: А]) задается соотношениями (5) с заменой ц(я, 0) на f\x)Q и Р(;г, 0) на 7(а:). Пусть нормированный план Ле = л и EqN = п < оо для пос- ледовательного плана £ не зависят от 0 (т. е. выбирается только порядок очередности управлений) и матрица М = | / (х) V-1(ar) х к X / (х) л (dx) невырождена. Для любой несмещенной оценки 0 для 0 из класса оценок вида 2 где функции Ai = A(xi), А(х) - i—1 измерима и f ( (*) / (*)1 + IIА (я) f v (*)) л (dx) < оо, справедливо неасимптотическое неравенство Ре0>М-1 . (9) ДЛЯ любых 0е0. Если. 2 (^г) (хг) 1 (хг) ~~ conSt (п. Н. ₽е) и 0 оценка МНК, то в (9) имеет место равенство. 137
Если план g статический, то приведенное утверждение совпа- дает с теоремой Гаусса — Маркова (см. п. 12.1). Для модели 5?(0г/(ж[1- N]), 7(д;[1? N1)) легко выписывается асимптотически оптимальная рекуррентная процедура оценива- ния 0; 0п — 071—1 Гп/ (#n) [/ (^n) Ort—1 — Р __ Р '___ ^n-lf (хп) f (fn) Гп-! п 1 + /тип)гп^/ы ’ где Го > 0 — матрица т X пг, 0О — любая точка из 0. Аналогич- ная асимптотически оптимальная рекуррентная процедура может быть выписана для оценивания параметров нелинейной регресси- онной модели, F-модели и для случая, когда имеется информация о плотности распределения измерений. § 4. Асимптотически оптимальные последовательные планы для оценивания параметров регрессии Из результатов п. 3.1 следует, что задача построения опти- мального последовательного плана для оценки параметров регрес- сии сводится к решению задачи (8). План л*, определяемый по (8), называется локально-оптимальным. Принципиальным отличи- ем локально-оптимальных планов от оптимальных планов оцени- вания параметров линейной регрессии является их зависимость от неизвестных параметров, и поэтому для построения локально- оптимальных планов . используют последовательные процедуры. Их очевидным недостатком является-зависимость последователь- ности планов от ошибок наблюдения. При большом разбросе эск- периментальных данных трудно априори составить представле- ние о сходимости процедуры. Наиболее надежным способом по- лучить уверенность в обоснованности toii или иной процедуры последовательного планирования является моделирование экспе- риментальной ситуации с помощью ЭВМ. Экспериментатор для данного вида регрессии выбирает кон- кретные значения оцениваемых параметров в области ожидаемых значений и задается конкретным распределением погрешностей наблюдений. С помощью датчика случайных чисел он получает значения погрешности и вычисляет точные значения функции регрессии (при выбранных значениях параметра). Таким образом, для заданных значений аргумента можно получить «эксперимен- тальные данные». Для такого модельного эксперимента можно проводить обработку данных, проводить последовательное плани- рование и сравнивать полученные значения параметров с задан- ными. При заметной стоимости реального эксперимента лучше провести предварительное проигрывание нескольких» вариантов планирования, прежде чем осуществлять реальный эксперимент. 138 <
' Предположим, что критерий оптимальности V удовлетворяет условиям типа а)—г) из § 2.3, у(п) -> 0 при п -> оо. Из (7) следует, что при выполнении условий а)—г) из § 2.3 для семейства стратегий st lim lim sup у"1 (nt (0)) Y [M (ль 0)] ¥ [M*], (10) r-»0 t->oo . I где M* — некоторая невырожденная информационная матрица. Нижняя граница в (10) достижима. Ниже приведены две час- то используемые асимптотически оптимальные стратегии последо- вательного планирования. Алгоритм!. 1) Строим такой статический план £0 s {#i, . ха(П)}, состоя- щий-из таких а(п) (а(п)==о(п), а(п) оо при оо), что а(п) 2 (Ч 0) — Ч 0*4, 0'))2 00 ПРИ п °°- i—1 2) Вычисляем состоятельную 0О — оценку для 0* по резуль- татам измерений у(хд (i — 1, .. .у а(п)). 3) Отыскиваем нормированный план л* = argmin4'[Л/(л, 0О)]. л 4) Оставшиеся п — а(п) наблюдений проводим в соответствии с планом л*. 5) По результатам наблюдений у (хг) — ц (яй 0О) (г = 1, ... ..., га) вычисляем 01 — оценку МНК для линейной регрессионной модели'5?(/(Hl: nl, 0)(0i — 0О)), V(#[l: п], 0О). Момент остановки N в алгоритме 1 фиксированный: N — п. В тех случаях, когда имеется возможность анализа данных в, режиме реального времени, можно использоватьхследующую процедуру. Алгоритм 2. 1) Выбираем такой план = {^х, • •что матрица Л/(gjvo, 0) невырождена при всех 0G0. Полагаем^; = 0. 2) Вычисляем оценки МНК . 0W. = Arg min 2 (у (*i) — П Сч. 0))a J es£i=i и матрицу м(Ц, (Ц) = N71 S f (*i, Ч-) fT (*i, 0W.). 3) Отыскиваем точку . = Arg inb|5 (л-, (Ц, 139
где е, Е) = /т(-. e)SU,M/(*. в), 4) Проводим наблюдение yf^Nj+i), полагаем (1 \ 1 1 — Л^ + 1 J ^Ni + ЛГ^ + 1 % (XNi+i)’ где Ni+l = Nj + 1, заменяем ; на j +• 1 и переходим к 2). Помимо асимптотической оптимальности, алгоритм 2 достав- ляет на каждом N-м шаге приближенно (а в линейном случае для ряда критериев и, в частности, для ZJ-критерия — точно) мак- симальное уточнение оценок 0^г (в смысле выбранного крите- рия Т). В практических исследованиях вместо алгоритма 2' нередко используются различные его модификации, более удобные в вы- числительном или экспериментальном аспекте. Например, на каждом шаге можно отыскивать сразу несколько опорных точек Xn+ъ повторяя 3), 4) с одними и теми же значениями оценок 02V. Можно в одной опорной точке проводить серии наблю- дений, длина которых близка к yJV/d —у8), где у8 выбирается так же, как в п. 4.1.2. Аналогично процедуре из п. 3.2 оценки 0nj+1 при использовании алгоритма 2 можно вычислять через Qnj рекуррентно. • * • Отметим, что если эксперимент многоэтапен, то результаты, полученные на предыдущих этапах, могут рассматриваться как априорные сведения для этапов последующих. Это позволяет со- четать последовательный подход с описанным в § 6 байесовским и минимаксным» * ’ § 5. Последовательное планирование эксперимента при проверке гипотез Последовательное планирование в задачах проверки гипотез часто требует меньшего числа экспериментов (при то& же рис- ке) и меньшего объема вычислений, чем статическое. Поэтому оно широко применяется, например, в задачах дискриминации моде- лей (гл. 16), при отсеивании несущественных эффектов (гл. 15) и др. В данном параграфе описан общий подход к проблеме асимптотической оптимальности последовательных стратегий. 1» Нижние границы средней длительности эксперимента. Пусть N . le,v = In [ре (у)/р* (у)], = 2 (уi) > о, <Р G= @ i=l есть функции правдоподобия для одного измерения (условные) и для всей выборки, К* (0, Ф) = Жф (^i)» FKS (0, ф) - EqLq^ 140
есть информационные уклонения Кульбака распределений от Рф соответственно в эксперименте с управлением х и финальных (в момент принятия решения). Нижняя граница длительности последовательно планируемого эксперимента определяется через границу снизу для финальной информации Кульбака. В некоторых случаях (см. примеры 1, 2) такая граница может быть получена через ограничения па риск стратегий. Ниже используются обозначения: а' 0 X 0 R1 — некоторая положительная функция; <3?0 — множество вероятностных мер па (X, ЗИх), Для кп (0, Ф) = f Кх (0, ф) л (dx), R* (0, ф) = Кл (0, ф)/а (0, ф), Sa = {51FKS (0, ф) > а (0, ф) у0, ф е Фе £ 0, 0^ф) ость класс стратегий; 2? (0) = sup inf Рл(0, ф). Если для всех 0 е 9 выполнено inf R (0) > 0, sup R (0) < Ф=Ф(),0е0 , о <оо, то для всех 0 0, 5 50 имеем EqN^ HR (0), supE^A^ о sup inf 7?л(0, ф). е^фео*=0х0 Пример 1. Пусть 0 = А конечно; А — множество стратегий с фиксированными вероятностями а0(ф)^Рп ((?г=ф), 0, ife е02 = 0Х0, причем все распределения аД ) эквивалентны; (0> Ф) = S «е (t) In [а0 (4>)/аф (ф)]. М><=е Тогда ЕвК > Г sup inf Кп (0, <p)/FK0 (0, ф)1-1. ре^офЕ0\{О} 1 Это неравенство является обобщением известного неравенства Хёфдинга, установленного для последовательного анализа. Пример 2. Пусть Л={0, 1); н?(0, Л) = 1 при 0^0 и w(Q, X) — 0 при 0€=0\0i (здесь 0i = 0\0o); %(w9, пл) —класс таких стратегий s, что 7?(0, s) ^Wi на 0<; max{rp0, Wi} 1/2. Тог- да для всех 0 е 0< EeW> ю (ipi? w^)IK* (0), (И) где со(а, Ь) = a In [а/(1 — b)] + (1 — a) In [(1 — а)/Ыг К* (0) = sup inf Кл(0, ф). ' Нижние границы в примерах 1, 2 асимптотически точны, ес- ли все4 вероятности ошибок стремятся к нулю. 141
2. Асимптотически оптимальные процедуры. Асимптотически оптимальными являются некоторые аналоги алгоритмов 1, 2 иэ § 4. Ниже приведена процедура, аналогичная алгоритму 1 в си* туации примера 2 при 0-цонечном множестве и min К* (0, ср) > О, <р=а(0),0ев где а(0) = 0t-i при 0 0{. Алгоритм 3. 1) Построим при-с — max (wo, ^1)0 стратегию из S(iz?0, w\)r для которой EqN эквивалентно правой части (11). 2) Проводим t(c) (t(c) -> со, t(c) = о(—In с) при с 0) изме- рений с произвольным планом, обеспечивающим состоятельную оценку наибольшего правдоподобия 0/(с), 3) Выбираем нормированный план л* = arg max min Кп (0, ф), я~^оФ=в(0) — 4) Остальные измерения проводятся вф соответствии с планом л* до момента АГ, в который минимальное по ф'^а(0ЛЭ йз соот- ношений правдоподобия при 0 = 0^^ не превзойдет llnd. ’ Статистическое моделирование показало, что алгоритм 3 не всегда предпочтительнее алгоритма (аналогичного алгоритму 2)г в ближайшем измерении которого максимизируется прирост ин- формации. Один из путей для более тонкого сравнения свойств асимптотически оптимальных процедур — изучение следующих членов асимптотики. В качестве примера далее рассмотрена проверка однородндсти п выборок. Пусть & — класс абсолютно непрерывных взаимно и относительно о-конечпой меры ц на У распределений; ... ..., §1П — генеральные совокупности случайных элементов, имею- щих соответственно распределения Pi, ..., Рп из 0О — п-набор совпадающих распределений из а 01 - n-набор распределений Pi, ..., Рп из максимальное расстояние по вариации. между которыми не меньше А > 0, 0 = 0О U 0Р _ Для принятия решения d = 0 или d = 1 о справедливости 0О или 0! последовательно выбираются элементы совокупностей St4, ..., Яп и сравниваются с помощью некоторого теста. Таким образом, здесь X = {1, ..., п), Л = {0, 1). Для этого примера А* (0) > — -i- [In (14-Д) 4- In (1 — Д)[ при 0 е 0О. 4- [(14- Л) 1» (14-д) 4- (1 — A)ln (1 — А)1 ПРИ 6 е Для реального применения при 0 < а Го/п b < оо, г0 0, удобна следующая двухступенчатая процедура. На первом этапе 142
длительностью a(r0) -> оо? a(rQ) = о(—lnr0), r0 -> О, тратится одинаковое число измерений па каждую из совокупно- стей Яп. Затем для каждой пары совокупностей с номера- ми (г, у) с помощью критерия Колмогорова — Смирнова, проверя- ется гипотеза совпадения распределений Р» и Pj. В результате для каждой пары распределений будет получен вывод об их совпаде- нии или отличии по вариации не менее чем на Д с вероятностями ошибок, стремящимися к нулю при г0 -* 0. Далее выбирается па- ра распределений с номерами G*, у*), для которой статистика Колмогорова — Смирнова приняла максимальное значение и ос- тавшиеся измерения проводятся парами: из совокупностей Slj* выбираются значения до тех пор, пока статистика Колмого- рова — Смирнова не пересечен верхний или нижний критический уровень, выбираемые из .того условия, чтобы вероятности ошибок при 0о и 0i были меньше соответственно г0 и Литература к §§ 1-5: [9, 54, 92*, 127, 187*]. § 6. Байесовские и минимаксные оптимальные планы для оценивания параметров нелинейной регрессии При каждом фиксированном значении 0е 9 функция V [М(0, £)] может рассматриваться в качестве критерия оптималь- ности. Ситуация, при которой ищется оптимальный план, соответ- * ствующий 0 = 0*, рассматривалась в §§ 1—4. Если известно, что 0 принадлежит некоторому множеству Q, то задача оптимального планирования может рассматриваться как многокритериальная (см. п. 2 Введения), и может быть определено множество опти- мальных по Парето планов, а также компромиссные критерии. В частности, если имеется априорная информация о параметрах, можно рассматривать байесовские й минимаксные оптимальные планы, которые выбираются в классе статических планов, по- скольку для них критерии оптимальности не зависят от 0. 1. Основные свойства байесовских планов. Предположим, что экспериментатор обладает априорной информацией, которая опи- сывается распределением 5Пй0). План £ в называется байесов- ским оптимальным планом, если ^B = Arginf£{T[M(0,g)]}. (12) Здесь и в остальной части этого параграфа подразумевается, что (d0)< Из результатов гл. 2 следует, что если Q * ^функция Ч7 удовлетворяет требованиям (a) —(d) из § 2.1, то: 1) Существует по'крайней мере одно решение экстремальной .задачи (12). ' 2) Множество байесовских оптимальных планов выпукло. < 143
ЗУ Необходимым и достаточным условием оптимального плана является выполнение следующего неравенства для всех х^Х: т [ ^М]м=м(ел*) где фв(я, |) >£[ф(х, 0, £)], а функция ф(х, 0, D определе- на в § 4. 4) Для любого плана g имеет место неравенство £[trA/S?l - inf В)>^в(ё)-Чв(1*в), где ЧМ1) ~£{Ч'[Л/(0ЛШ- 5) Если J (dx) > 0, то найдется такая точка х е Х\ где X' функция £в) достигает своей нижней границы, указан- ной в 3). В отличие от линейного случая, использование этих результа- тов для аналитического построения оптимальных планов, за ис- ключением тривиальных случаев, весьма? проблематично, так как подсчет соответствующих интегралов (существование которых подразумевается) в явном виде чаще всего невозможен. В приведенных утверждениях отсутствует пункт о количестве опорных точек в оптимальных планах. Дело в том, что 4rB(D не- возможно представить как функцию, зависящую лишь от элемен- тов информационной матрицы, как это было в линейном случае. Но именно последнее лежит в основе доказательства существова- ния оптимального плана, имеющего не более чем- т(т+ 1)/2 опорных точек. Если известна матрица вторых моментов априорного рас- пределения, то естественно использовать критерии оптимально- сти, зависящие от суммарной информационной матрицы 9)1(0, |) — == М (0, где N — предполагаемое число наблюдений в планируемом эксперименте. При этом полагается, что " N ' 0 = Arg inf 2 {уг — n (*>, 0))2 + (0 — 0о)Г£>о'1 (0 — 0о) . вей L i—1 где 0о — априорное среднее. Экстремальная задача (12) лишь одна из возможных при бай- есовском подходе. С практической точки зрения может оказаться целесообразным решение несколько иных задач. Например, для /)-критерия операция усреднения может вводиться на различных этапах: Е[1п\М-1(В, g)|], £W-‘(0, ^)|], Ш1М(0, DID-1, IMM“‘(0, dil Вообще говоря, все четыре соответствующие экстремальные зада- чи могут приводить к различным решениям. 2. Численное построение байесовских оптимальных планов. Так же как и в линейном случае, нетрудно указать итерационную 144
процедуру численного построения байесовских оптимальных пла- нов, аналогичную процедуре из § 4.1 (с очевидной заменой ifU, V на фв(я, £))• С практической точки зрения такая процеду- ра бесполезна, если не удается отыскать экономного способа под- счета интегралов, встречавшихся в предыдущем пункте. В то же время экстремальная задача (12) может быть истолкована как за- дача планирования экстремальных экспериментов. Численные ме- тоды экстремального планирования развиты в основном для ко- нечномерных пространств. В (12) оптимальную точку приходится искать среди вероятностных мер, определенных на компакте X. Одним из возможных путей упрощения исходной задачи является переход к мерам, определенным лишь на дискретном наборе то- чек Xi (j=l, ..п), достаточно представительно описывающем область действия X, и заменой (12) на конечномерную экстремаль- ную задачу = Arg inf (U v n где рт = (Pli ..., Pn), 2 Pi = 1, Pi >0, Zn = {рь При до- ‘ i=l статочно большом n и подходящем расположении опорных точек? Xi план £п может рассматриваться как приближенное решение (12). Один из возможных методов отыскания плана £п заключает- ся в следующем (индекс «п» в дальнейшем опускается). Имеется план |в, определяемый вектором р8. С помощью датчика случай- ных чисел в соответствии с распределением выбирается 0S. Подсчитывается новый вектор рв+1 = л[р8 - а878ф(08, g8)], где л(р) означает проекцию вектора р на множество допустимых? значений, фт(08, g8) = (ф(х1? 08, |8), ..., ф(яЛ, 08, g8)). Функция ip(#, 0, £) определена в § 4. Процедура сходится в среднеквадратичном к плану £*, если наряду с требованиями п. 1 выполняются следующие условия: а) начальный план £0 невырожден при у0 е й; б) существует такое С < «>, что Е {[Т, (^, 0) - Е (V (Un 0))J2/£o, „ ., Ui} < С С Тз > 0, ТаЦа < Const; оо в) S ccs = оо, limas = 0, cts>0. S—О S-*oo Данное утверждение является следствием результатов п. 14.3.5. 3. Минимаксные планы. Пусть априори, известно, что истин- ные значения параметров принадлежат множеству й. ^Задачу ми- нимаксного планирования для данного й и 441/(0, £)] назовем' нетривиальной, если существует непустое множество So планов что для каждого § So sup Т [Л/(0, ограничен. План %м 10 n./p. С. М. Ермакова 14S
называется минимаксным, если ^ = Arg inf sup Y [М (0, £)]'. • 6 eeQ Данная экстремальная задача близка к задачам, рассмотрен- ным в § 2.6, с той лишь разницей, что от дополнительного аргу- мента (в § 2.6 это — и) теперь зависят и базисные функции /(х, 0). Если функция Ч'СЛ/ХО, £)] при каждом 0е Q удовлетворяет требо- ваниям (б), (в) и (г) из § 2.3 и Q —компакт, то необходимым и достаточным условием оптимальности плана является выпол- нение неравенства sup inf I £ х ( * \ (А 9» £*) ““ tr М дМ м=м(мм) С(</0)>О, где 0(|) — множество всех решений экстремальной задачи supT[M(0, |)1. еей 4. Минимаксные и локально D-оптимальные планы для экс- поненциальной регрессии. Ниже рассмотрен пример построения оптимальных планов для регрессии специального вида, Пусть h П 0) = S 5 0j+Si^ exp {— 0i+t4, г—1 j~0 . где Si = 0, $2 = 1 + ^, ..., Si = (I — 1) + ti + ... + ti-i, ..., ti — за- данные целые числа (Z = 1, ..., й); t — sk+i; хе [0, «>),.0^ О (; == 1, ..., Z), 0i+f > 0 (i = l, 2, ..., к). Обозначим Л=(ХЪ ... ..., Хь)т (Xi = 0f+f). Локально D-, G-, Е-, А-, Ф-оптимальпый план зависит только от Л. Поэтому при минимаксном подходе нужна информация только относительно Л. Будем считать, что Xi, ... ,.. Xft перенумерованы в порядке убывания: Xi > Х2 > ... >ХЛ. Если Xi = Xi+1 при некотором /, то определитель информационной матрицы равен пулю тождественно и задача планирования триви- альна. Поэтому будем рассматривать множество Q вида Q = {Л; XjCd, Xt+1 - Xi-i > рг, Z = 1, 2, ..., &-1), (13) тДе d — заданные положительные числа. D-минимаксный щлан для множества Q указанного вида существует и является одно- временно локально D-оптимальным при Л. — ld, d — рг, ..., d —• fe-i Vt — 5* Pi) и наоборот. г=1 / Утверждение сохраняет силу, если D-минимаксный и соответ- ствующий локально D-оптимальный план ищутся не в множестве всех непрерывных планов, а в множестве дискретных планов с фиксированным числом узлов. Под насыщенными локально D-оптимальньши планами будем понимать дискретные планы с-минимальным, числом узлов (т. е. 146
N => к + t), максимизирующие определитель информационной мат- рицы в классе всех таких планов при фиксированном Л. Эти пла- ны имеют вид -г* (Л) = {х* (Л), , x*+t (Л)}. Пусть Л принадлежит множеству Q вида (13) при любых фик- сированных d. Справедливы утверждения: 1) вектор-функция Де Q -> т*(Л) определена и притом един- ственным образом; 2) %* (Л) = 0, х* (Л) (/ — 2, .аналитические, моно- тонно (строго) убывающие по каждому (г = 1, ..к\ функции; 3) т*(Л) Ге при ЛЛ8, где Л = (е, . >е)т, е — любое положительное число, = {0, у2, ..., Yi+i = '2у|/е (е= 1* •.., к + t — 1), совокупность нулей многочлена Лагер- pa В случае Zc = l, 2 (непрерывный) локально D-оптимальныи план можно получить, приписав равные веса узлам насыщенного локально D-оптимального,плана. Литература к § 6: [26, 92*, 114*, 127, 161, 166].
ГЛАВА 6 УЧЕТ НЕАДЕКВАТНОСТИ МОДЕЛИ В ЗАДАЧАХ ПЛАНИРОВАНИЯ РЕГРЕССИОННЫХ И ИМИТАЦИОННЫХ ЭКСПЕРИМЕНТОВ § 1. Критерии оптимальности и планы, связанны с неадекватностью модели 1. Постановка задачи. Теория планирования эксперимента, из- ложенная в гл. 2, 3, по праву считается классической. Она имеет большое количество приложений в научных исследованиях и тех- нике. Следует, однако, помнить об условиях ее применимости, главные из которых состоят в том, что вид функции регрессии известен с точностью до параметров и аппроксимирующая модель отыскивается в адекватном виде. Если одно из этих условий на- рушено, то оптимальное планирование может привести к неже- лательным и даже ошибочным результатам. Пусть, например, истинная функция регрессии цСг) есть мно- гочлен 2-й степени на [а, Ы, а исследователь выбрал линейную модель T]i(^) = 0i + 02я. .D-оптимальный план по отношению к ли- нейной модели при этом сосредоточен на концах промежутка. Ясно, что восстановление многочлена 2-й степени по его значени- ям в двух точках может привести к сколь угодно большой ошибке. В этом примере-главную роль может играть системати- ческая погрешность, и выбор указанного плана только усугубляет положение. Таким образом, необходимо особо рассмотреть случаи, когда параметрический вид функции регрессии точно не известен, ио имеется иная информация относительно ц(#), например: а) Известно, что т)(^) = ц2(^, 0), 0 02, но исследователь по каким-либо причинам выбирает параметрическую модель ц/я, 0), 6e0t, ©j cz 02. Допустим известно, что Т|(;г) есть многочлен степени не выше d2, но экспериментатор может осуществить ог- раниченное число измерений, достаточное лишь для восстановле- ния многочлена степени (dt < d2) с допустимо малой погреш- ностью, либо из соображения упрощения модели, особенно в ими- тационном эксперименте, стремится выбрать меньшее число па- раметров» 148 .
б) Имеется информация относительно функции регрессии ти- па, описанного в § 1.2. в) Имеется информация о гладкости т](гг): ц(я) принадлежит некоторому классу дифференцируемых функций. Как и во Введении, будем считать, что в конечном счете вы- брана параметрическая модель с т параметрами ц/я, 0) (иг фик- сировано), и рассмотрим следующее разложение погрешности ц(х) — ц 1 (х, 6), где 0 — оценка векторного параметра 0: ц(я) —T)iU, 0) = [ц(я) — T]iU, 0*)] + [ipte, 0*) — Ц1Сг, 0)], где 0* — такое значение, векторного параметра 0, при котором цЛя, 0) наилучшим образом приближает ц(х) в выбранной мет- рике. Очевидно, если цСя) принадлежит тому же параметрическо- му семейству, что и цД#, 0) (ц(х) = цДх, 0) при некотором фик- сированном 0 = 0(1)), то при всякой разумно выбранной метрике 0* == 0(1)? и первое слагаемое в указанном разложении равно нулю. Критерии оптимальности, связанные только со вторым слагае- мым, изучались в гл. 2, 3, а критерии, связанные только с пер- вым слагаемым, служат объектом исследования теории аппрокси- мации. В общем же случае задача многокритериальна, и необ- ходимо либо строить планы, оптимальные в смысле векторного критерия (см. Введение!, либо конструировать компромиссный критерий. Нужно иметь в виду, что в такой общей постановке возникает задача одновременного выбора оптимальной оценки па- раметров и оптимального плана эксперимента. Если ЗГ — линейное метрическое' пространство с метрикой р, т](я) и щ(х, 0) принадлежат ЗГ при каждом 0 из 0, то р(т)(я)— — тцСг, 0)) можно рассматривать как функцию риска, зависящую также от плана эксперимента, и решать задачу одновременной оценки параметра и выбора плана. Очевидно, р(ц(а:) — цДя, 0)) р(ц(<г) — Ц1(гс, 0*)) + р(т|1(аг, 0*) — цДя, 0)), и каждое из слагаемых правой части этого неравенства может быть выбрано в качестве независимого критерия оптимальности плана и оценки. Когда вид оценки 0 определен, и ищется оптимальный план, то план, минимизирующий одно из слагаемых правой части этого не- равенства, не является единственным, и рассматриваются следую- щие задачи: а) Среди планов эксперимента g, минимизирующих Ф1(£) = р(ц(х) — ц1(гг, 0*)), / найти план (планы), минимизирующий Ф2(£) = р(т]1 (х, 0*) — цДя, 0)). б) Среди планов минимизирующих Ф2(£), найти план (пла- ны), минимизирующий Ф1(£). 149
в) Задача минимизации линейной комбинации ФД^) и Ф2(|). При этом определение коэффициентов указанной линейной ком- бинации может служить предметом специального предваритель- ного эксперимента. 2. Рандомизованные планы. Оптимальное несмещенное плани- рование эксперимента. Если план эксперимента трактуется как вероятностная мера, то естественно рассматривать также средние по этой мере критерии оптимальности. Пусть {^2/, v) — вероятностное пространство, где 5$ — о-ал- гебра подмножеств v — вероятностная мера. Через у(х, и) обозначим измеримую случайную функцию, где х —параметр из некоторого множества параметров на котором также определе- на o-алгебра и о —конечная мера ц. Обозначим Q (х1? ... P = uN)T^<UN, где 3BN, <2/x - декартовы произведения 2V экземпляров ЗВ, °U соответственно; &N — o-алгебры, порожденные подмножествами, являющимися декарто- выми произведениями множеств из ЗВ и °U\ vN — вероятностная мера на (°UN, 3HN)h. vN(dP) =* v(dut) X ... X v(duN)t Пусть, далее, Уз — реализации случайной функции у при х = Уз = у(яь .., N) и у(х, и) =» ц(;г) + е(я, и),'где ц(я) — математическое ожидание у(х, и) при фиксированном х. Пусть эксперимент состоит в однократном измерении значений Уз в точках Xj (] = 1, ..., N). Рандомизованным' планом эксперимента назовем реализацию случайного вектора Q—(xi, ..., xN). Если %(dQ) — вероятностная мера, задающая распределение Q, то эквивалентным определе- нием рандомизованного плана может быть определение его, как b>(dQ) (h(Q), если ft —плотность совместного распределения Xi, ..., xN по отношению кзаданной мере). «Рандомизованный план может быть реализован с помощью таблиц (датчиков) случайных чисел с’ использованием стандарт- ных методов моделирования- распределений. При этом связанные с планированием эксперимента условия оптимальности будут вы- полняться в среднем. Рандомизованное планирование удобно, когда эксперименты ио измерению у в N точках повторяются многократно независи- мыми сериями. Это имеет место, например, при имитационном эксперименте. . ‘ . Зададим способ s (метод оценивания) построения функции цСг, у) по значениям результатов наблюдений у при выбранном плане %. Функция ц(я, у) связана ^методом оценивания s и пла- ном эксперимента £, т. е. ц(#, у) = цСх, у, £, $). Ставится задача выбора такой пары (§, $), что ц/я, у, s) приближает функцию ц(я) наилучшим в заданной метрике спо- собом. Считаем, что Ех\(х, yt £, s)e<%cz5r? где 31— подпростран- ство нормированного пространства среди элементов которого выбирается приближение к функции ц из . Через Ф(я, g, s) обозначим критерий оптимальности плана. Пару (%, з) назовем 150 '
процедурой анализа и планирования эксперимента или просто процедурой. Пусть S ~ множество вероятностных мер на ЗВN, aS — задан- ное множество методов оценивания. Пару (£*, 5*) назовем несме- щенной процедурой в метрике пространства £F, если (£*,«*)•= Arg inf |т)(«) — Ёх\(х, У, 5, s)L- leases при jiio6oii функции ц <= и Ф(я, £*, з*) < оо для всех х^ЗВ. В том случае, когда указанные условия выполняются лишь для некоторой конкретной функции ц из то процедура (£*, $*) на- зывается локально несмещенной процедурой в метрике Пусть (S', S') — класс всех несмещенных процедур' (£, $). (£♦, $*) называют Ф-рптималъной несмещенной в метрике ^F, если (5*, 5*) = Arg inf ЕФ (х, £, 5), • passes' где либо х е ЗВ — произвольное фиксированное, либо Ф(я, g, s) ® s Ф(£, s). Как и ранее (см., например, Введение), зависимости от х и ц можно избежать, либо вводя соответствующий критерий ми- нимаксного или байесовского типа и используя дополнительную информацию об ц, либо рассматривая векторный критерий, опи- рающийся на понятие доминируемости процедур оценивания и планирования (g, s). ~ ~ Говорят, что процедура (£, $) доминирует (£, з) в заданном классе несмещенных в метрике ST процедур по отношению к Ф, если . ‘ ЕФ(|, Г) ^ЕФ(£, $) для любой функции ц е причем по крайней мере для одной ц из ST имеет место строгое неравенство. Назовем (£, з) допустимой в классе (S, S), если в (S, S) нет процедуры ее доминирующей. Если аппроксимирующая модель отыскивается в виде Пт (*, У, 5, «) = S 0i (У, В, S) /« (х), f i (х) €= г=1 то условия несмещенности могут^быть записаны в виде •Е0г(у, 5, s) = Oi (n)> iel, для любой функции ц(ж) e^F? где 0* (ц) коэффициенты, обобщен- ного полинома т|гп (#» ц) наилучшего в смысле метрики ST приближения функции ц(х). 3. Учет априорной информации о гладкости функции регрес- сии. Полиномиальная модель. Если приближение т|(я) «= 0г/(а:) к функции регрессии ц(я) отыскивается в пространстве алгебра- ических многочленов степени d от к переменных, а ЗВ — область в 151
Rft, то учет дополнительной информации о гладкости ц(а:) осуще- ствляется путем конструирования критерия оптимальности, ис- пользующего интегральное представление остатка ряда Тейлора функции ц(а:). Так, при А —1, ЗВ = [а, Ы, если ц(я) имеет производную по- рядка то х П Ю = П («) + п' (а) (^ — «) 4- • • • + JП<4) (0 dt’ а ИЛИ ’ х = Л-! (Z) + L<‘> (t) (-^=^ dt, J l/J a где Ps-dx) — многочлен степени s-1 на [а, Ы. Предположим, что степень d многочлена ц(а:) не менее 5 — 1 и параметры 9 находятся по методу наименьших квадратов, так N что ц (х) — 0Г/ (х) = 2 h (х) Ул где lj(x) — многочлены степени 5=i Под планом эксперимента | будем понимать множество точек xN (не обязательно различных) из [а, М, в которых произ- водятся измерения у(х,) s Тогда естественным критерием качества плана служит мате- матическое ожидание среднеквадратичной погрешности; ь f Ню — п Ю]2<& = а KN 12 Ь N Т] (х) — 2 b (Хэ) дх, + °2 ) 2 (Х) .5=1 J . а 5=1 для модели равноточных независимых погрешностей измерений с дисперсией о2 (этот случай рассматривается здесь для простоты). Первое слагаемое соответствует систематической погрешности, второе — случайной. Из сделанных предположений следует ь Г N г Г N I2 Р12 « J Т) (*) — S Ь И П (*j) = a L 5—1 a L Ъ Ъ а а / (1 _ о _ g h «х X I — 0] 2 ИЛИ Яь f T](s) (<) ЛЩ, f ЛЩ 152
где через К(х, t, |) обозначена квадратная скобка из предыдуще-? го выражения, а /(*) = 1, О, Р,5, z>0, х < 0, х = 0. Обозначим также ь к р2 = О2 J 2 U) a Итак, р2 = Pi + Ра» причем р2 зависит только от плана экспе- римента, a pi — также и от самой функции r]U), которая вос- станавливается в процессе эксперимента (точнее, от ее s-й произ- водной). Дальнейшее зависит от дополнительных „ предположений от- носительно п(8)(£). Если считать, что она интегрируема с квадра- том,— очень общее, но естественное в выбранной нами метрике ь предположение,—и J [ц(8) (0]2^ А/2, то а , • - Р2< sup pl + p2. #п<<=м. п существует такая функция ц(8), что верхняя грань в последнем неравенстве достигается. Используя неравенство Бупякоьского, имеем ъ ь , ъ р2 < Ml J [ К2 (х, t, g) dx dt + a2 J L2 (z, g) dx, a a a N где L2(x, l) = ^l](x). j=l Если Ms и о или, по крайней мере, отношение у = c/Ms извест- ны априори, то оптимальный план эксперимента определяется как план, минимизирующий точную верхнюю границу для р2. Реаль- но, "однако, величина 7 известна редко. Если о2, как правило, ин- тересует экспериментатора, то определение М5, особенно при больших в,— задача трудная и, по-видимому, ненужная для иных целей, кроме конструирования данного критерия. По этой причи- не задачу выбора плана полезно рассматривать как двухкритери- ъ ь ъ альную, считая, что критерии J j К2 (х, t, 1) dx dt и j L2 (x, I) dx независимы, либо конструируя компромиссный критерий г ь ъ ь ' (?) = Arg thin j J j К2 (z, t, g) dx dt 4- у J L2 (z, £) dx L 5 la a a J . 153
Аналитическое решение этой задачи, по-видимому, невозможно даже в простейших случаях. Однако численный подход оказыва- ется плодотворным во многих случаях, представляющих практи- ческий интерес. (Для s = 1, d = 1, 2 результаты численного ре- шения приведены в [25].) Существенно более сложным оказывается случай к> 1. В этом случае можно указать также различные представления т)(^) в виде Л (я) - Pd (Ч + 2 J а PCRfe где Va(.) — оператор частного дифференцирования, который оп- ределяется конкретным видом представления. Подобного . вида представление может быть, получено, в частности, путем разло- жения т)(я) в ряд Тейлора. Как уже отмечалось, информацию о наличии у функции рег- рессии производных высокого порядка по различным причинам трудно использовать. Для придания же плану эксперимента свой- ства устойчивости (робастности) по отношению к систематической ошибке часто достаточно учесть факт существования смешанной производной по каждому из аргументов. Это можно сделать, ис- пользуя представление «01) !>'(*) = ^..0 ' (<2) ...дх^ ’ X т%е х и х изменяются в прямоугольной области {(ц < x(i) < Ь J (Г’С ii < ... < i8 С к, s к), TiV""is~- вектор, получаемый из вектора х заменой компоненты х^ на (7 —1, ..., s). С данным представлением связан следующий полезный факт: ка- ковы бы ни были функции ...is), интегрируемые по переменным £ при существует такая функция т)(я), что при фиксированном х почти всюду .о дх^ ... дх^ § ,4лЛ. Таким -образом, информация о наличии смешанных производ- ных s-го порядка по каждому набору из 5 различных переменных позволяет установить связь между этими производными и функ- цией ц в указанном выше виде, причем входящие в это представ- ление 2* — 1 производные независимы в смысле сформулирован- ного утверждения. 154 -
N Если JS = 1? то рассуждения, аналогичные случаю к «= 1, дают для среднего квадрата погрешности р2 выражение *12 X Кч....[тч.....it, х, g) dt(il} ... dt{is} J dx. Здесь p2 формально имеет тот же вид, что и в случае к — 1. Если Отсутствует информация о соотношении величины о2 и производных, входящих в выражение для р2, то оптимальность плана g следовало бы понимать в смысле. всех 2К независимых критериев, определяемых этим выражением. Могут быть рассмотрены и другие представления для ц(х) с независимыми производными VaT|. Поскольку вопрос об опти- мальном планировании в такого рода задачах недостаточно изу- чен, мы не будем на нем останавливаться. Отметим только, что интерес представляют разложения для ц(я), введенные С. Л. Со- болевым. Для них производные уже не будут независимы- ми, и систематическая ошибка будет связана всего с одним кри- терием. К сожалению, вычисление этого критерия оказывается слишком сложной задачей для существующих ЭВМ. Литература к.§ 1: [24,25,60]. § 2. Рандомизованные’ процедуры планирования и анализа регрессионного эксперимента г Конкретные результаты относительно рандомизованных про- цедур планирования и анализа регрессионных экспериментов, оп- ределенных в § 1, получены в следующих предположениях: 5 — класс линейных процедур оценивания, /?($?, ц), где ц— вероятностная мера на (<Я?, Кроме того, в данном пара- графе принято: — фиксированная система ц-ортонорми- рованных функций, 5? — линейная оболочка этой системы. Как и ранее, аппроксимирующая модель отыскивается в виде Пт {х, у, h, s) = 2 Oi/i (*)» i=l Q == (xo ..., *#n), h{Q) — йлотность по отношению к произведению мер iiN(dQ) = pXdxi) ® определяющая рандомизован- ный план эксперимента, и символ математического ожидания EuEh = Е означает осреднение по случайным ‘Погрешностям изме- рений и случайным планам 155
Рандомизованную процедуру (Л*, $*) анализа и планирования, Эксперимента называют несмещенной в L2(&, р,), если (й*, 5*) = Arg min [ [т| (х) — Ец (х, у, h, s)]2p (dx}. Эквивалентным условию несмещенности является условие EQi = f fi (ОЯ СО ц ОМ» i = 1, ..т, Я? т. е. Е0, должно быть равно f-му коэффициенту Фурье функции т](я) по системе {/i(#)}2=i. Рандомизованный несмещенный в Е2(<й?, ц) план называет- ся оптимальным (при фиксированном s) по отношению к задан- ному критерию Ф (Ф-оптимальным), если = Arginf Ф(£, 5). При рандомизованном планировании критерий Ф представляет собой среднее по планам с заданной плотностью распределения h некоторой функции Ф'; ф<м)~ f а условия несмещенности EQj (я) - f EuQi (я)h «?) W) = f fi (О Я (О I1 (<М. i = 1, ..., zn, линейны no h и ц. Задача построения Ф-оптимальных несмещенных в Е2(<^, ц) планов, таким образом, есть задача бесконечномерного линейного программирования. В терминах теории линейного программиро- вания h называют планом, а если h удовлетворяет ограничениям задачи (в данном случае их роль играют условия несмещенности), то его называют допустимым планом. Следует отличать понятия плана и допустимости плана в терминах линейного программиро- вания от соответствующих понятий в многокритериальных зада-* чах оптимизации эксперимента. Теорема 1. Процедура (h^sC), включающая в себя 1) в качестве функции плотности распределения рандомизо- ванного плана функцию ht(Q), определяемую равенством К «?) = (ЛУ det {1/1. /Л, • •. l/m. /И}Г=1» где < N I/b fhl = fi (^j) fk WIJ a=i 156
yljj $i) — 2) в качестве линейного метода оценивания — метод наи~ меньших квадратов*, N 6i (У, ^1, Si) = 2 Агз (*1> »1) Уз, * = 1, . . ., т, где det {[/р . „ [Л-r ЛЬ Л (*,), [Л+г Л].[/та. Л]}£1 аеЧ[/уЛЬ ...,(7т, Q распределены по закону ht(Q), является несмещенной процеду- рой рандомизованного планирования и анализа регрессионных экспериментов, какова бы нц была система р-ортонормированных функций {/Jill. При этом Dedy,^, SjX Г Г 1а г • <) — 2 (П> ft)ft(x) р (dx) х+ | а2 (х) ц (dx) — 'й?L , t=i J 'gg Г Г — 2 I J Р (я, *') ft (я) ft (х') р(dx) р(dx')t t = l,...,zn# cov (0|, 0j) = 0, Z, где (ц, /i) ~ J AW1! (^) M-^), pU, x') ’—корреляционная функ- % ция y(x). Остановимся ^кратко ♦) на интерпретации результатов, сфор- мулированных в виде теоремы 1. В простейшем случае, когда мера ц сосредоточена с равными весами в N (m<N) точках, результаты теоремы 1 допускают следующую интерпретацию. Пусть xiv ,. ,,xin (п^пг) есть п точек, в которых произве- дены измерения функции у, — определитель соответ- ствующей системы нормальных уравнений для оценивания пара- метров 0. Оценку 0 по выбранным точкам обозначим 0j В соответствий с теоремой Бинэ — Коши Л1...N = .2 ....in> Если положить — то в соответствии с теоремой 1 ♦) Основные результаты этой теории подробно изложены в монографии: С. М. Ермаков. Метод Монте-Карло и смежные вопросы.— М.; Наука, 1975, 157
Таким образом, если требуется осуществить случайный выбор п точек из N при проведении эксперимента, то нужно выбрать их с вероятностью Это приводит к дополнительной ком- поненте в выражении для дисперсии, которую также легко ин- терпретировать. ' - Такая интерпретация особенно проста при п — т. Если несмещенный план эксперимента должен обеспечить малость систематической погрешности, то критерий качества дол- жен быть связан со вторыми моментами оценок 0<. Малость DQt обеспечивает также малость систематической ошибки. Имеется ряд результатов относительно допустимости планов h по отноше- нию к векторному критерию {DQi(yi h, Для их формули- ровки необходимы следующие определения и факты. Система функций {/$ (а?)}й=г называется регулярной на й?, если она линейно независима на любом подмножестве 36, р-мера которого отлична от нуля. В противном случае она называется нерегулярной» К числу регулярных систем относятся, в частности, чебышев- ские системы. Многочлены и тригонометрические функции обра- зуют регулярные системы. Кусочно-постоянные функции (в част- ности, функции Хаара), а также сплайны могут служить приме- рами функций, образующих нерегулярные- системы. Для дискрет- ной меры все системы функций нерегулярны. При N^m (насыщенное планирование) в неравенстве для DGi из теоремы 1 имеет место знак равенства, если система {/i(x)}£Li регулярна. Анализ выражения для 7)0< в случае N — т и регулярной -системы функций {Д (#)}fLi показывает, что дисперсия содержит два слагаемых, причем первое есть квадрат расстояния ц(я) от линейной оболочки {/$ (r)}£Li, а второе полностью определяется случайной ошибкой. В случае независимых равноточных наблю- дений с дисперсией а2 —это просто о2. Если эксперимент допус- кает повторные наблюдения в одних и тех же точках, то полу- ченное выражение для DQi может служить основой для методегв разделения систематической и случайной составляющей диспер- сии 0, (т. е. процедур типа дисперсионного анализа). В частном случае m = N приходим к процедуре (й0, $о), где функция распределения h0(Q) определяется равенством М<2) = -^Д2(0, а Л = det {/А (xj), ..fm метод оценивания — метод ин- терполяций. Пусть функция плотности распределения USQ) определяется равенством . = 11 + 5 & 2 (*Р) | * L I—1 v«i J - 158 '
где (Z = 1,..., i) — линейно независимые функции, ограни- ченные почти всюду (mod ц) в «й? и ортогональные к всевозмож- ным произведениям fi(x)fjtx) и fdx) (Z, j = 1,..т), (Z = 1,... —положительные константы, удовлетворяющие при почти всех (mod pN) Q е условию l , i S Pl 2 (^p) (^q) !• I—1 &<q Тогда USQ) удовлетворяет условиям несмещенности в метрике р). Если Фр = {DQiiy, h, SJ; i = m; L2(SB, p)} — критерий оптимальности, то: 1. Процедура {h^s^ недопустима по отношению к Фр, если- . {fi (х)}ь=1 регулярна в St? по отношению к ц. 2. Если {fi(x)}i^=i—система функций Хаара, то (hQ,s0) допу- стима по отношению к Фв. 3. Если регулярна и существуют ^(х) с указанны- ми выше свойствами, то st) доминирует (hhst) по отношению к Фд. Здесь, как и ранее, $4 обозначает процедуру оценивания па методу наименьших квадратов. Ряд допустимых процедур (fe, $4) построен, в связи с изучением: случайных квадратурных формул, в особенности так называемых случайных квадратурных формул с одним свободным узлом. Ряд результатов для скалярных критериев оптимальности об- щего вида связан с теоремой двойственности для рассмотренной выше задачи рандомизованного несмещенного в.метрике /?($?, планирования. Теорема 2. Лусть носитель St? меры ц есть компакт, Ф'{s., Q) — -непрерывная функция на 3BN. Двойственной к исходной задаче является задача определения функции л*(х): тп, л* (х) = Arg sup 2 /j (x) f я W h (*) И (dx) n 3=1 ' • при ограничении 2 /j (^) 0j (n, 5i)< (?) (mod\). Если также и fj(x) непрерывны на SB (j = 1,..., m), то суще- ствуют решения h* прямой и двойственной задач линейного про- граммирования. При этом m ) Ф' (х, Q) h* (Q) (dQ) = 2 fi (x) J л* (x) f} (x) p (dx). Теория несмещенного планирования для конкретного вида функций /<(гг) и мер ц приводит к ряду содержательных резуль- татов. Некоторые из результатов, приведенных выше, переносятся 15а
также на случай, когда т|(гг) принадлежит пространству функций, отличному от р) или конечномерному подпространству Ш, р). Пусть и 31 с: ЗГ — конечномерные подпространства L2 (Я?, р), {/i {fi (a?)}i=i—ортонормированные базисы З2" и 32, При использовании для оценивания параметров метода наи- меньших квадратов по теореме 1 найдется по крайней мере один план обеспечивающий выполнение условий несмещенности. Теорема двойственности, сформулированная выше, позволяет определить структуру и итерационный метод нахождения Ф-опти- мальных несмещенных планов эксперимента в классе планов вида О С h(Q) chSQ), где с > 1 — некоторая константа. Для простоты изложения ограничимся случаем 2V —Положим Ф1 (<2) = сМ<?)> Ф.+i (0 = 2 Л (*) ^mx+iA (<?). * = т2 — ти где Ац — Ai^hi, sj, h^Q) определены в теореме 1, <pr+1 (Q) = — сФ'(х, Q)ht(Q), r = 7n2 — mi + i. Тогда Ф-оптимальный несмещенный (в указанном классе) план существует и имеет вид где Л* (0 = 11 ' О в противном случае при некоторых <= R1 (i = 1, г). Заметим, что этот ре- зультат может быть получен и из обобщенной леммы Неймана — Пирсона, одного из основных результатов теории проверки ста- тистических гипотез. Введём обозначения: t = , tmiy, V = (уи ..., vmi)T, t, ve=Rmi, (Q) — i, 2<Мф<(0-1)Сфг+1(0, i=l О в противном случае, v {t' v} = 1 [- 2 to* w -!)]<<?) и1"1 m. ^ml L i=l J P (0 = V {t, t). Положим 40) = 0 (i — 1, . каждом шаге k = 0, 1, ... ПОЛОЖИМ «?+1) (a) = - a f [<р4 (0 - 1] S(ft) (0 (dQ), ^ml ICO
где a? = Arg min p (a)). Последовательность имеет точ- aG(O>U ку сгущения t* и л* (Q) (Q) = л** (Q) ht (Q) есть Ф-оптималь- ный несмещенный план эксперимента. ’ Литература к § 2: [16, 23, 60]. § 3. Оптимальное несмещенное планирование при условии, что функция регрессии принадлежит конечномерным пространствам функций 1. Постановка задачи. Свойство несмещенности, определенное в § 2 для рандомизованных планов, вводится также и для детер- минированных (непрерывных) ^планов, когда функция регрессии принадлежит конечномерному подпространству L2(<3?, р). Пусть ST и 91^ ST—конечномерные подпространства р) p-инте- грируемых с квадратом на ЗВ функций соответственно с базисами {/г(х)}гА» {/<(*) }<=ь причем тп, < тп2. Считаем и при каждом Xj из ЗВ. возможно измерение у(х,)» т]Сгь 0) + е(х,)> где Ee(xj) = 0, j&e(^)e(xr) о,г, S == {tyj — невырожденная матрица» Пусть g — непрерывный план эксцеримента: g = {«lf ...,хп; pi, ...,рп}, ^Pi = i, Pi>0, ' i=1 где Xj — различные точки наблюдений, pj — веса наблюдений в них, $ — линейный относительно результатов наблюдений метод получения оценок 0< С = 1, ..., т4) в модели у]Ш1 (х, у, g, s): 0(1>-4Г, где 0(1) = (0П ..Om^r А = (4U, ..., An)^ — матрица коэф* фициентов, не зависящих от результатов наблюдений, Y =» «{у\, . .ц уп)г — вектор результатов наблюдений в точках плана. Несмещенная в метрике LZ(3B, р) процедура определяется ра- венством B*L =5 f h (х, 0) — Ёх\т (ж, у, £♦, s*)]2p, (dx) = inf , '%> - Ses,«eS m2 где Т|(а:> 9) = S Oi/tW = oW), i=l 0T = (0Ъ .... 0m2), f(x) = (fL (X), (X))T.- Часто полагают также yXdx) = uAx^dx. Весовую функцию вво- дят при необходимости придать ошибкам приближения в некото- рых точках х ЗВ больший вес. Для несмещенных в метрике L2 процедур задача выбора Ф- оптимальной процедуры для критериев, являющихся фупкциона- 11 п./р. С. М. Ермакова 161
лами от матрицы ковариаций, формулируется следующим обра- зом (см. § 1): (£*, $*) = Arg inf Ф [jD(1) (g, 5)], fces'.ses' где D{°(g, s) = ND(B(°) — нормированная ковариационная матри- ца оценок параметров, N —^общее число наблюдений (2V > п). Поставленную задачу имеет смысл рассматривать при так на- зываемом условии сверхнасыщенности: п < тп2, ибо в противном случае она легко сводится к задаче усеченного планирования в классической постановке и теряет самостоятельное значение. Кроме того, ограничение на число точек плана хорошо согласу- ется с природой систематической ошибки в подобных задачах. 2. Основные результаты для регрессии общего вида. 2.1. Необходимые и достаточные условия несмещенности в метрике L2. Обобщение основной схемы Гаусса — Маркова па случай присутствия систематической ошибки и коррелированных наблюдений было приведено в § 1.2. Из этих результатов непосредственно следует. 1) Для несмещенности в метрику Л2(^,ц) процедуры (£, $) необходимо и достаточно» чтобы выполнялось любое из следую- щих эквивалентных условий: а) Параметрическая вектор-функция ТВ допускает оценку, т. е. ЕВ{1) = ТВ, где т = Жи= [/(1)^)(/(1)(х))ги(^), к 7 % и'иЧ /" «(/"’«>>(*), /'Ы(тГй)'). • & (х) = (А (^), • • •» Аих (^))Г? (#) = (/^4+1 (#)» • • •» /т2 (^)) . б) AF == Т, где F= (Д (^), ..., /т2 (^))”=г в) = Т, где Л/(£) — информационная матрица. 2) Наилучшие линейные несмещенные оценки 0(1) в процеду- ре (|, s) вычисляются по формуле • go) = T{FTD-^Y)FyFTD^(Y)Y, где D(Y) == p-^2^p-i/2 — матрица ковариаций ошибок наблюдений в точках плана с учетом их весов, 2= Р = {рДг};,г==1— диагональная матрица весов наблюдений. 3) Нормированная ковариационная матрица НЛН-оценок 0(1> равна Z)(i)(|) = T(FtD-4Y)F)~Tt. 4) Минимальное значение систематической ошибки равно b*l2 = (е(2) jT [w22 - w^Wn'Wnl е<2\ 162
где 0(2)=(6mi+b • • • > 0m2)T, W22 = [ /(2) (x) (/(2> (x))Tg (dx), И ДОСТИ- se гается для любого плана эксперимента, при котором параметри- ческая вектор-функция Т0 допускает оценку. Заметим, что в силу жесткого ограничения на число точек несмещенного плана (п < т2) информационная матрица Af(§) = = РТО~*(У)Р вырождена, и любой несмещенный в метрике L2 план будет сингулярным. В дальнейшем будем считать, что матрица F имеет полный строчный ранг, причем | Рпп 1= det {fL (xjj, >.. ..-,/n 0. Важно отметить, что условия несмещенности в метрике L2 не ограничивают выбор весов наблюдений в процедуре (£, 5) и условие в) может быть записано как TF-p = Т. Приведенные результаты позволяют выбрать и зафиксировать ме- тод оценивания и рассмотреть задачу выбора Ф-оптимального плана £* = Arg inf Ф[7’М+(£)7’т], £ез' где Н' — множество непрерывных планов, допускающих оценку ' 70, спектры которых сосредоточены в конечном числе п < т2 точек, а веса наблюдений произвольны, Л/+(§)—псевдообратная матрица. К функционалу Ф будем предъявлять следующие тре- бования: а) выпуклость на Множестве информационных матриц; б) существование непрерывных и ограниченных частных про- изводных дФ/dDft по элементам матрицы 7)(1>(|); в) если Случай сингулярных оптимальных планов (rg Л/(|*) < mz) существенно сложнее регулярного (rg = т2)» так как операция обобщен- ного обращения, вообще говоря, не является непрерывной, а сле- •* • довательно, дифференцируемой. Пусть g(a) = (1 — a)£* + agb (Ka<l. Если план допускает оценку 70, то этим же свойством обла- дает и план Можно показать, что если ранг М(g, a) = М(а) постоянен на [0, 1), то М+(а)е^ на [0, 1), в противном случае операция псевдообращения не является непрерывной на [0, 1). Кроме того, если Л/(а) еС1 и Af+(a) еС1, то М+ (a) М (a) M (а) М+ (а) = — (а)-^^М+ (а). В сингулярном случае постоянство ранга, вообще говоря, не га* ’ рантируется, а значит, может не существовать производная <?М+(a)/<?a |а==о+. Но из известного представления ТМ+ТТ - sup 12ТН ~ нтмт • н 11* 163
и свойства функции максимума следует, что элементы матрицы ТМ+Т дифференцируемы при а = 0 по любому направлению где Отсюда ^можно получить выражения для производной тм+ (а) Тг]/да |а==о+, а также аналоги необходи- мых и достаточных условий оптимальности плана в сингуляр- ном случае. Основное отличие этих условий от регулярного слу- чая заключается в необходимости их проверки на всем множестве непрерывных планов Е, тогда как в регулярном случае достаточно было ограничиться множеством одноточечных планов. Это обстоя- тельство, а также необходимость учета требования п < ш2 на точки плана значительно затрудняют такой путь построения оп- тимальных сингулярных планов для неадекватных моделей. Подход, упрощающий решение задачи, состоит в разбиении ее на этапы. Сначала решается задача о выборе метода оценива- ния, а затем находятся точки плана из условий несмещенности^ причем остается свобода в выборе весов наблюдений. При таком подходе важную роль играет следующая теорема. Теорема 3. Достаточным условием несмещенности в мет- рике L2 плана эксперимента служит совпадение его спектра с узлами кубатурной формулы С кч J . n<m2, & точной для произведений функции fi(x)fi(x) (£==!,..., Z =» == 1, ..., т2). При'этом матрица А в линейном методе оценивания может быть также вычислена по формуле A^W^FlC, где Fr = (Д (#j), ..., /тх (*^j))j=X5 С = (CjSjr)j,r=i* Этот результат указывает на связь задачи несмещенного в метрике L2 планирования с теорией итерполяционно кубатурпых формул. Известные результаты этой теории позволяют в. отдель- ных случаях аналитически получить решение задачи оптималь- ного несмещенного планирования. Во многих задачах предпочтения заслуживают кубатурные формулы, содержащие наименьшее число узлов. Искомый спектр обладает следующим свойством: точки несмещенного в метрике L2 плана суть общие нули обобщенных полиномцв вида (0n_j_r (х) = jn+r (х) — ^THj+i /wj+1 (х) • • Mi fn (^)? где г = 1,..., m2 — n, Мп+г) — произвольные константы, f <,(х) — р-ортонормированные в SS функции. 2.2. Оптимальные несмещенные процедуры. Итак, пусть спектр несмещенного в метрике L2 плана найден с использова- нием приведенных выше результатов и зафиксирован, а веса 164
наблюдений требуется выбрать из решения следующей экстре-* мальпой задачи: р* = Arg inf Фр)(1) (£(/>))],- рей где р = (Pi, . .. -iPnf, Й = {р<= Rn|pj>0, 2 Pi = 1{, функци- I 3=1 I. опал Ф[2?(1)(£(р))] удовлетворяет следующим условиям: а) Ф(р) — выпуклый функционал на Q: ф[(1 - а)р(1) + ар(2)] С (1 - а)Ф(р(,)) + аФ(р(2)), 0 < а < 1; б) существуют непрерывные и ограниченные частные произ- водные дФ{р)/др на Q; • в) Ф(р(1))^Ф(р<2)), если n(1)(B(p(1)))^Z)U)(g(p(2))). Теорема 4. 1) Существует р*, доставляющее в Q инфимум ф[2)(|)(£(р))]. При строгой выпуклости Ф(р) оно единственно. 2) Необходимым и достаточным условием оптимального выбо* ра весов наблюдений р*р* в точках несмещенного плана служит выполнение для всех xr (r= 1, п) равенства Pj <Pjr 5=i где 4>зг (I) = °jrPj 3/2 А Агрг 3/2, £* — (#i, ...» хп; pt, ..., р*); А$ (j = 1, .»., п) — столбцы матри~ цы А, х} — точки спектра несмещенного плана. Учет коррелированности наблюдений может привести к потере выпуклости функционала Ф[£>(1)(р)]. Так, например, для выпук- лости линейного критерия trZ?D(1)(p) на Q необходимо и достаточ- но выполнение неравенств о^А^ВА^О (j, г = 1, ,.и). Усло- вия теоремы 4 и для невыпуклых функционалов остаются необ- ходимыми. Следствие 1. Для случая некоррелированных наблюдений условия теоремы 4 принимают вид фДВ*) = 1гР(1)-^- , / = Л, d(1)=b(D(£*) - где <Рз (В) = V1 (^) р^Ат} А}, % (Xj) = При фиксированном спектре плана можно гарантировать су- ществование' производной dJf+(£)/dot, где. £ = (1 — а)£* + а£и так как rgJf(£) — rgJf(£*). Поэтому следствие 1 легко может быть переформулировано в терминах псевдообратных матриц: необхо- 165
димым и достаточным условием оптимальпдго выбора весов р*,. .. , р* в точках спектра несмещенного плана для случая не- коррелированных наблюдений служит выполнение для всех / = «= 1, ..п равенства <P;(|*) = trM + М> [m + (I) Гт] дМ+ м+а*>’ где 1 Т 4-' дФ I _1_ ф; (|) = X-1 (^) f (^) М+ ф (|) / (*,). Следствие 2. Для случая некоррелированных наблюдений и линейных критериев оптимальности вида \xBD^(p) оптималь- ные веса наблюдений вычисляются по формуле , р* = [A^BAj’K (^)]1/2Й [ATrBAr/K (zr)]1/2, . 7 = 1, ...»п. Можно также показать, что в случае коррелированных наблю- дений оптимальные по критерию tvBD{i}{p) веса pi, .. на- ходятся при „условии (л^гЛ^ВАг О (у, г = 1,..., п) методом про- стой итерации: /-+СЮ где PJ-> = [tr (?-'’)[- S ^ЛТВЛг/(У^-«р<<-к). j = 1, ..п. Если к выбору весов наблюдений предъявляется требование дис- кретности, т. е. pj = rj/N, где ^- — положительные целые числа, N — общее число наблюдений, то справедливо следующее утверж- дение. - Теорема 5. При rj целых положительных и некоррелиро- ванных наблюдениях справедливо следующее. 1) Решение задачи поиска Ф-оптимальных весов наблюдений 2 Pj = 1, Pj > 0, p}N j=l существует, но не обязательно единственно. р* в Qn = == гз — целые числа 2) Необходимым условием оптимального выбора чисел наблю- денийг*,...,г*в точках дискретного несмещенного плана = = (^i,..xn; rJN,..rn/N) служит выполнение для всех ' пар (xh Xi) G, I = 1,..n, i ¥= Z, n > 1) неравенств > 0, 166
где A Rn ri(ri-1) если O[D(1)(BN)] = tr5P(1)(U), Ндндп-д&] ri(ri~l) г1<г1 + *) ri(ri~i)rdri если Ф[Р<1)(^)] = |/)<1) (Ь)|; Ri.i = °нМГА Л, / ♦ ♦ \ £* I rl rn | SN I #1, • . • 1 %пч ~~n~j • • •» ;V / 2.3. Минимаксные критерии. Случай критериев минимаксного типа требует специального исследования. Рассмотрим задачу вы- бора весов наблюдений при некоррелированных наблюдениях. Пусть требуется найти план £* = Arg inf sup Ф [Z)(1) (р), у], pgq ver где Г — компакт, Ф[£>(,)(р), у] — функционал, удовлетворяющий при любом v е Г тем же требованиям, что и выше. Необходимым условием оптимального выбора весов Pi, ..., рп в точках х1ч..., zn несмещенного плана служит выполнение для всех j =?= 1,..., п неравенства sup tr ver* дФ [Д(1) (Р), у! dDw d(D=d(i)(p*) Dw (/>*) — Ч*Ж)2 где ..... ... Г* = {у*|у* = ArgsupO[D(,)(p*), у]}, ver Аналогично, необходимым и достаточным условием оптималь- ности вектора р* в рассматриваемой задаче служит выполнение для любого реQ неравенства <?ФЬР(1) (д), у] sup tr ver* р(1)=р(1)(р*) п D{1) (р*) — 2 Pi j=i --Li— >0 Это условие необходимо проверять на всем множестве Q, а не только в одной точке, что существенно снижает его практическое значение. Привлечение известных численных методов поиска ми- нимакса приводит в таких задачах к довольно сложным и зача- стую медленно сходящимся процедурам. В то же время в кон- кретных случаях вычисления можно значительно упростить, а решение найти за конечное число шагов. В частности, значи- тельные упрощения возможны для дискретных минимаксных за- 167
дач, т. е. когда Г — дискретное множество, и если р принадлежит границе области Я, то можно найти такое у Г, что ФЬО(1)(р), 7] Наиболее употребительными критериями минимаксного типа в задаче поиска оптимальных весов наблюдений при фиксирован- ном спектре несмещенного плана и некоррелированных наблюде- ниях являются следующие. Будем называть выбор весов р* Е-оптимальным, если p* = Argmin max а< (p)J, где рей а»[£>(1)(р)] — собственные значения ковариационной матрицы />(1)(р); MV-оптимальным если p*=Argmin max MV (р) J где рей г=1,...,тА D™ (р) — диагональные элементы ковариационной матрицы £>(1)(р); G-оптимальным, если р* = Arg min max (/(1) (х))т Z)(1) (р) х рей xez Х/(1)(лг). Последний критерий путем введения сетки на Z можно при- ближенно заменить на критерий дискретного минимакса, и в та- кой постановке- задача G-оптимального выбора весов не будет, но существу, отличаться от случая ТИУ-критерия. Обозначим через г кратность максимального собственного числа матрицы £>(1)(р*) (р*) да max щ (р*) » max vTD(1) (р*) vt где V =з RW1( || р|| = 1}. Через г будем также обозначать крат- ность максимального диагонального элемента матрицы О(1)(р*): MV (р*) == max MV (р*) = max (р*) Zit где £=»{Zi<=Rmi, J =1, ...,т^/Г-(0, tO, V Теорема 6. При сделанных выше предположениях справед- ливо. 1) Решения задач Е- и MV-оптимального выбора весов наблю- дений существуют в Я. 2) . Если г»1, то необходимым и достаточным условием того, что р* — Е-оптимальный вектор весов, служит равенство [АТН/[(р*)2Ь to)] = “i (?*)♦ / = где V* —собственный вектор, соответствующий р*, причем р* = (I/2 vv®to)b*Ah Цг*|| = 1, 7=1 Ь* = Arg max Ьт 21/2^Г^ 2}1/2&» ьеВ B^{b = (bu = к = 1,...,п}. ' > 168
3) Если г=1, то необходимым и достаточным условием того*_ что р* — MV-оптимальный вектор весов* служит равенство где Z* = Arg max причем p* = //ч\ где ₽= {i | pM = (p[l\ ,.., p^)T = Arg m.in ZfD(1) (p) li, p(,) e Ql u 4 «=« pea *= Arg max D(ii(p(tr). Если г>1, то указанные в пп. 2) и 3) условия являются только достаточными. Следствие. Пусть система функций {Л(^)}1Д ортонорми- рована в 38, 1, а несмещенный в метрике L2 план сосредо- точен в узлах кубатурной формулы из теоремы 3, причем коэф- фициенты этой формулы положительны: С\>0 (/ = 1, .п) и Х(^;) == о"2 “ const. Тогда Е- и MV-оптимальные 'веса сов- падают: р* = Cj, / = 1, •.., п. 2.4. Численные методы.' Если множество 38 не имеет стан* дартного вида (например, гиперкуб, гипершар или гиперсйм- плекс), то готовыми кубатурцыми формулами не удается не- посредственно воспользоваться для синтеза несмещенного плана. В этих случаях естественно обратиться к численным методам поиска спектра несмещенного плана. Отправной точкой для^численной процедуры может служить, например^ следующее неравенство: wi1>trf?Arr^0, причем равенство в левой части имеет место тогда и только тог- < да, когда точки спектра несмещенного плана £ (п<тп2). Оно является простым следствием необходимых и достаточных ' условий несмещенности плана | тВД. = т, записанным по отношению к ц-ортонормированной системе функ- ций{f^, для которой r=(/m1!0)X=(71(Xj), ,..,7т2(х,))"=1, Р\Рп— проектор из R 2 на подпространство, натянутое на век- торы причем' сужение F^Fn на R 1 есть еди- ничный оператор тогда и только тогда, когда £ — несмещенный план. Использование этого неравенства позволяет заменить исход- ную задачу поиска спектров несмещенных планов из условий несмещенности • на задачу максимизации функции XxTF^FnTT в 38п «= 38 X 38 X ... X 38 (п раз). 169
Пусть supp£(,)— носитель плана g(,) — образуется из supp ..., .», Хп -1>) заменой точки па некоторую точку х<1> из &?. Тогда приращение целевой функции может быть вычислено по формуле = [ГЦ, (?°)]Т7’Ф (х(/W (xw) ф (>) - - [7* «-’)№ (< W н-1) * (//-’), причем в случае, когда— [/гп^1)]+/гп-~11))/(^)):= 0» соот- ветствующая дробь считается равной нулю, где обозначено Г 1 1 п-1 _ ' _ * п » 2 п J Г >(t-D 1 п-1 Приведенное выше соотношение лежит в основе следующего алгоритма численного поиска- спектра несмещенного в метрике L2 плана. Процедура 1. 1) Полагается п = 2) Выбирается с помощью некоторого случайного механизма ' supp £(0>= {40), Если m1_tr7’pf)]+F<0)F<v,rflev- заданпая точность, то £(“’ — несмещенный план. Иначе переходят к п. 3. 3) Находится при t = 1 supp £(<) s — 1Х1 » • # * » ХП I - 1^1 » • • • > ? ‘b+l , • • ч *п Ь где x(t}) = Arg max A x\ . (хР-Чх)еЛ-! jt-1 = e supp 5a“1), x e SB | A (хУ~х\ x) > v > 0}. 4) Если J7-Л — непустое множество, то проверяется на £-ом шаге условие п. 2. При его выполнении процесс останавливается, в противном случае пп. 3, 4 повторяются при t = t+i. 5) Если Л-i — пустое множество, то полагается n = m1+l и процесс возвращается к п. 2. 6) Пункты 2—5 повторяются пока п < тп2. Следует подчеркнуть, что лежащий в основе описанного ал- горитма метод замены на каждом шаге одной точки не гаран- тирует сходимости к спектру несмещенного плана,, даже если последний существует, и обычно применяемый в таких случаях 170
прием состоит в многократном повторении итерационной проце- дуры из различных начальных планов. На связь теории несмещенного планирования с теорией двой- ственности (см. гл. 2) указывает следующий результат: при лю- бом фиксированном х е SB при условии (f(1* (x))tTF£ Fnz^Z ^( /<Х> (^))Г/(1> (^) max (/(1) (x))TTz равен (f(1)(x))T/(1)(x), при- zeR™2 чем максимум достигается при zT = ((f(1)Cr))T:O), а равенство в указанном условии достигается тогда и только тогда, когда {х$=1— точки спектра несмещенного плана. Наличие соотношений двойственности также указывает на воз- можность рекуррентного построения несмещенного плана. Пусть, далее, спектр несмещенного плана найден и зафикси- рован. Как следует из предыдущих результатов данного парагра- фа, аналитическое решение, задачи выбора оптимального вектора весов удается получить лишь для некоторых частных случаев. В общем же случае приходится обращаться к численным мето- дам решения этой задачи, в основу которых могут быть положены теоремы 4, 5 в сочетании с итерационными методами из гл. 4. Процедура 2. Непрерывное планирование при коррелиро- ванных наблюдениях для критериев общего вида. 1) Разыгрывается с помощью некоторого случайного механизма начальный непрерывный план В(о) = , хп\ , р(„0)}, п где 2 Р;о) = 1, Pj0) >0 (/ = 1, . .., n), xj — точки спектра несме- щенного плана. 2) Составляется при ^==1 план где £ W — план, приписывающий точке х меру 1, п Xg = Arg max У, ,.,п S—l = Arg min 2 Xj J=l, .. . ,n s=l at = 2~h • 0,9pr<-1>, <p xr,l) = Ar, fc = min[0, 1, 2, ... |Ф[£>(1)(^‘))]<Ф[^(1)(^"1))]). 3) Пункт 2) повторяется при t:=t + l. 4) Процесс останавливается, если на t-м шаге Г°) - trD(1>-^-| <v, 171
где v — заданная точность, и для выпуклых функционалов при- нимается —оптимальный план. 5) Для невыпуклых функционалов пп. 1)—4) повторяются из различных начальных непрерывных планов заданное число раз, и из полученных планов выбирается найлучший но критерию Ф. Процедура 3. Дискретное планирование при некоррели- рованных наблюдениях для D-критерия и линейных критериев оптимальности. 1) Разыгрывается с помощью некоторого случайного меха- низма начальный дискретный план / г(°) г<°>\ . ЙР-...Л , 2 , / j=i где —целые положительные числа, я, —точки спектра не- смещенного плана. 2) Составляется при £=1 план где fef=ArgminO[D(1)(£(0)], Н = [h = 1, 2, ... h^H (5, q) == Arg max | \t-x (xh xt) |, Л-i U, I = 1, 4nlAf-ito, 2j)<0, r(/~1)> lh A/^j вычисляется на (£—1)-м шаге по формуле из теоремы 5. 3) Если Jt-i — непустое множество, то п. 2) повторяется при t :=t + 1, в противном случае процесс останавливается. 4) Пункты 1)—3) повторяются из различных начальных диск- ретных планов заданное число "раз и из полученных планов вы- бирается наилучший по критерию Ф. Заметим, что, в отличие от соответствующей процедуры по- строения оптимальных непрерывных планов, последовательность Un} может сходиться в. некоторых случаях к плану, отличному от оптимального, так как перераспределение наблюдений между двумя точками плана может оказаться недостаточной операцией для выхода процедуры из локального экстремума. Для повыше- ния вероятности достижения глобального экстремума в процедуре 3, как и в процедуре 2 при коррелированных наблюдениях, ис- пользуется один и тот же прием: многократное повторение ите- . раций из различных начальных планов. Для построения дискретных оптимальных несмещенных пла- нов можно воспользоваться и процедурой 2. В случае, если N велико, целесообразно построить непрерывный оптимальный план, а затем его округлить до дискретного. Если же N мало, то можно положить а = UN в процедуре 2, повторяя ее несколько раз с различными начальными дискретными планами 172
Для критериев типа дискретного минимакса теорема 6 позво- ляет предложить следующие алгоритмы. Процедура 4. Непрерывное Я-оптимальное планирование при некоррелированных наблюдениях. 1) Находится вектор 6* как решение задачи . Ь* = Arg max ЪТ^АТА^Ь, ьев например, конечным перебором по элементам множества В=* = {b sRn| |6J == lt j = lt .. м п) за 2П шагов. 2) Вычисляется "вектор v*: • -р*=(1//^7^)) 2 К-^(х})Ь*А}, h*||=l, 7=1 причем «1(р*) играет роль константы нормировки и находится попутно. 3) Вычисляются по формуле 4 / п р* = (I ATjV* | Л~1/2 (ж,))7 2 I | ^-1/2 (xth 7 = 1,...,», / 8=1 элементы вектора р*. п 4) Вычисляется матрица Z>(1) (р*) = 5 (^j) Р;]. 7=1 5) Если вектор v*, вычисленный в п. 2), является собствен- ным вектором Z)(1)(p*), соответствующим максимальному собствен- ному числу, то найденный вектор р* дает решение задачи Z?-on- тимального несмещенного планирования. В противном случае алгоритм не приводит к решению. Процедура 5. Непрерывное MV-оптимальное планирование при некоррелированных наблюдениях. 1) Строится множество индексов J из теоремы 6, учитывая простое правило: J тогда и только тогда, когда Лр$=/=0 (/ =? ‘ = 1, ..., и). • 2) По формуле 7 = 1,...,»,' / 8=1 вычисляются веса наблюдений. 3) Вычисляются дисперсии РлДр(г)): Вы (p(i)) = S (Ajlh)2/(h (xj) к = 1, ...., mlt iE J. 7=1 4) Если существует индекс ц е J, для которого (p(h)) > Dhk С/1*)), к = 1, ..-., ~то pQi)— решение задачи Л/7-оптимального несмещенного плани- рования. В противном случае алгоритм не приводит к решению. * . 173
Аналогичная процедура может быть реализована для критерия G-оптимальности, если предварительно дискретизировать задачу введением сетки по непрерывному параметру х. 3. Частные виды регрессий. 3.1. Полиномиальная регрессия. Пусть /Дя) (г = 1, ..тп2) —• алгебраические многочлены, ортонормированные с весом w(x) в Л-мерной области евклидова пространства. Обозначим через ji(.x) (i«l, т2) одночлены (#(1))аЦя(2))а2Х ... X где а» — неотрицательные целые числа, занумеровав их так, что одночлены меньшей степени имеют меньший но!мер, а одночлены одной и той же стейени нумеруются в любом порядке*. В частно- сти, /Дх)»!. При такой нумерации среди /,•(#) (г==1, ..., ти2, т2 «в (d + Zc)!/(d!A:!) = M(d, к)) содержатся все одночлены степени не выше d от к переменных. Тогда ортонормированные много-, члены If могут быть получены из рдночленов {Л(^)}г=1 процессом ортогонализации и нормирования Шмидта относитель- но скалярного произведения (р, д) = f w(x) р (х) q (х) dx. Я? Будем считать, что истинная функция регрессии ц(я, 0) явля- ется многочленом степени d2, а аппроксимирующая модель У, s)—многочлен степени d4 < d2, причем m^Mtdi, к) (i=l,2). Теорема 7. Для случая полиномиальной регрессии при n^M(d2 — 1,А) условия теоремы 1 являются не только достаточными. но и необ- ходимыми для несмещенности в метрике L2 процедуры (|, $)., Следствие 1. Пусть п*— наименьшее число точек несме- щенного в метрике L2 плана для случая полиномиальной регрес- сии, п — наименьшее число узлов соответствующей кубатурной формулы из теоремы 3. Тогда + d2)/2], k) n* = и, если n M(d2 ~ 1, k), M(d2—1, k) < n* ^n, если n>M(d2—l,k). где [*] —целая часть. Следствие 2. Точной нижней границей для числа точек несмещенного в метрике L2 плана в случае полиномиальной ре- грессии служит M([(d4 + d2)/2], k). Следствие 3. Если*к>1, d2 — d^ 1, то для случая поли- номиальной регрессии несмещенный в метрике L2 план с числом точек, равным точной нижней границе + d2)/2], k) = = M(d2 — l,k). существует тогда и только тогда, когда существу- ет гауссова кубатурная формула алгебраической степени точности 2d2 —1с числом узлов M(d2 — 1, k). ' 9 • Следствие 4. Оптимальный по числу точек несмещенный в метрике L2 план эксперимента для полиномиальной регрессии 174
на отрезке [а, &] сосредоточен с произвольной мерой в и* — [(dt + 4- d2 + 2)/2] точках х, (/ = !,...,«*), являющихся нулями мно- гочлена / ч I /п*+1 (#) — v7n* (#), dL + d2 — четное, <®П*+1 \Х) == \ l/n*+i (#)» + d2 — нечетное, где v — произвольная константа. Заметим, что если di + d2 — нечетное, то точки плана Xj ® с=[а, &] (/«1, ..., п*) по свойству нулей ортогональных много- членов, а в случае, когда dt + d2 четно, можно добиться того же, если v выбрать в пределах /п*+1 (a)//n* (a)^.v ^.fn^+1(b)/fn^ (&)/ Свобода в выборе параметра v может быть использована для, придания плану дополнительных оптимальных свойств. . Теорема 7 и ее следствия позволяют построить многочис- ленные примеры оптимальных несмещенных в метрике L2 планов для полиномиальной регрессии, используя результаты теории ин- терполяционных кубатурпых формул с наименьшим числом узлов для нахождения спектра плана, а описанные выше численные методы — для оптимального выбора весов наблюдений. 3.2. Тригонометрическая регрессия. Пусть /<(х) (i = l,... ..., тп2) — тригонометрические многочлены на отрезке 1а, а + 2л)г образующие исходный базис. Рассмотрим задачу построения не- смещенной в метрике Lz процедуры для случая, когда функция регрессии ц (х, 0) = 2 0г (л) /г — произвольный тригонометри- г=1 ческий многочлен степени d2 (по синусам и косинусам) — при- ближается тригонометрическим многочленом 1)тх (#, У, 5, $) — ~ 2 0г Об L $) fi (я) степени di<d2, где г=1 fi (*) = 1, v ' £ = 1, sin 0,5ta, i — четное, cos 0,5 (i — 1) x, i — нечетное. Имеет место следующий результат. 1) Для случая одномерной тригонометрической регрессии не- обходимыми и достаточными условиями несмещенности в метрике L2 служат условия теоремы 3. 2) Оптимальный по числу точек несмещенный в метрике Lz план эксперимента для тригонометрической регрессии в интерва- ле [_а, а + 2л) сосредоточен с произвольной мерой в п* = di + di + + 1 точках Xj (/=«1, ..., п*) этого интервала, являющихся пулями тригонометрического многочлена '<Po,5(d1+d2+i) dl+dg+i == И sin[0,5 (х —-яДЬ ортогонального в td, а,+ 2л) по весу w(x) 175
ко всякому тригонометрическому многочлену целой или полуце- лой степени 0,5<rfi + — 1). Отсюда, в частности, следует, что точки несмещенного в мет- рике Ьг плана для одномерной тригонометрической регрессии определяются с точностью до одного непрерывного параметра, так как тригонометрический многочлен корнями кото- _ рого являются точки плана, задается условиями ортогональности с точностью до старшей гармоники. Последняя содержит два произвольных коэффициента. Один из них путем умножения на постоянный множитель может быть приведен к единице. Произвольным останется только второй из коэффициен- тов? и ему можно придавать любые значения. Как и в случае одномерной полиномиальной регрессии (параметр v в следствии 4 из теоремы 7), здесь может быть поставлена соответствующая задача оптимизации. 4. О несмещенных в метрике С т L процедурах. В этом пунк- те будут рассмотрены две частные постановки общей задачи не- смещенного планирования регрессионных экспериментов. Первая из. них относится к случаю, когда 9Г и 5?ко- нечномерные подпространства f(e, непрерывных на отрезке Зв = [а, Ы функций, образованные системами линейно независимых функций Чебышева и (х)}^ (mi < нз С[а,ъЪ Требуется выбрать непрерывный план эксперимента £ и линейный метод оценивания 5, при которых обеспечивается наилучшее в метрике С приближение произвольной функции т|(я, 0) из ЗГ ап- проксимирующим ПОЛИНОМОМ s) из 52, т. е. В*с* К sup и(х)|ц(х, 0)— Ец™ (x,z/, £**,$**)!== inf, • где uix} — положительная непрерывная весовая функция. Вторая рассматриваемая здесь постановка будет отличаться от первой лишь тем, что требуется минимизировать расстояние между ц(лг, 0) и Ех\т^(х, у, g, s) не в метрике пространства С[а>ьь а в метрике пространства Lp», ы интегрируемых на ®= [а, функций: ь Bl** = j* р (£) [ ц (х, 0) — Ех\т^ (х, у, £*♦*, $*** | dx = inf, а где v(x) — положительная непрерывная весовая функция. На классе несмещенных процедур рассмотрим задачу оптимизации для некоторых критериев вида Ф[£)о)(^)],’ используя остающуюся свободу в выборе весов наблюдений. При этом, поскольку спектр плана фиксирован, полностью сохраняют силу результаты п. 2.2 данного параграфа. Пусть /Пг — ти!®® !, что с учетом условия сверхнасыщенности: п < тп2 — означает п = 176
Теорема 8. Если т2 — т\~ 1, и функция П (я, 0) С[а,ь] представима в виде разложения Wlj+l а К 0) = 2S 0»7i («) 1=1 по ортонормированной с весом w(x) на [а, Ы системе функций , причем /Ш1+1(^) наименее уклоняется от нуля в мет- рике Си (х} среди всех обобщенных полиномов вида «171 (*) + «2/2 (*)+••• + ^т17т1 (х) + / т1+1 (^), то несмещенная в метрике - процедура оказывается несме- щенной и в метрике Си{х}, и наоборот. Следствие 1. Несмещенный в метрике Си(х) план при т2 — — mi « 1, и(х) ss const сосредоточен в mi точках xs (j = 1,..mA с произвольной мерой, причем: а) для полиномиальной регрессии в отрезке [—1,1] -по систе- ме функций {fi(x)}^1 [х^1]^1 jr; = ~cos^^--, / = есть нули полинома Чебышева Tmi(x) первого рода\ б) для тригонометрической регрессии в отрезке [0, л] по си- стеме функции = {cos(i — 1)я}{==1 есть нули функции cos в) для тригонометрической регрессии в интервале (0, л) по системе функции {д W}i=i = {sinia:}^ /л • л Ха = - , 7 = 1, 7П1? J mL + Г J ’ 17 есть нули функции sin (mi + 1)х.* Коэффициенты Ai} (i, 7 = 1, тп4) в линейном методе оцени- вания вычисляются по формуле . Л^^ДУД, i, 7 = 1,..7ПЬ где Ау — алгебраическое дополнение элемента fiixj определителя А = det {/1 (х$), /2 (•£;)» • • ♦» Следствие 2. Для рассматриваемых в следствии 1 случаев выбор весов наблюдений р! = 1/^! в-точках, несмещенного в метрике С плана является при К(х) 1 оптимальным по критериям D и G. . 12 п./р. С. М. Ермакова 177
Аналогичные результаты могут быть сформулированы и для несмещенных в метрике L процедур. Теорема 9. Если m2 —wii = l и функция 0) е C[ai &] представима в виде разложения п(я» о) = S г-1 по ортонормированной с весом w(x) на [а, Ь] системе функций {/г пРичем наименее уклоняется от нуля в мет- рике Lv{x} среди всех обобщенных полиномов вида 9h/i (х) + ^2/2 (х) * • * + (#) + то несмещенная в метрике L^x) процедура оказывается несме- щенной и в метрике Lv(x}, и наоборот. Следствие 1. Несмещенный в метрике Lv(x} план при т2^ ^ = 1, v(x) const сосредоточен в точках Xj. (/ = 1, • тп4) с произвольной мерой, причем: а) для полиномиальной регрессии в интервале (—1, 1) по си- стеме функций {/г(#))г=1 = есть нули полинома Чебышева второго рода QmJjfy б) для тригонометрической регрессии в интервале (0, л) по системе функций {ft = {cos (i — 1) x}^=\+1 есть нули функции cos m^x} в) для тригонометрической регрессии в интервале (0, л) по . it / чЪт1+1 t • . системе функции {Ли)л-1 ~ {sin 07^1 / Л . . = " -т h ] = 1, . . ., nh, } + Г J 1 есть нули функции sin (тп4 +1)#. Коэффициенты Ац G, / = 1,mt) в линейном методе оце- нивания вычисляются, как и в теореме 8. Следствие 2. Для рассматриваемых в следствии 1 случаев оптимальной в смысле D~, G- и Q-критериев выбор весов наблю- дений в точках несмещенного в метрике L плана при Х(х) s 1 состоит в следующем: а) для полиномиальной регрессии • Л • 7 Л / • Л7Пг . р. ш = sin тп-гтт sin —r/sin—----; = 1, ..., тп,; 2(^ + 1) + + Л п 178
б) для тригонометрической регрессии {по системе синусов и косинусов раздельно) p*(D’ в) = = 7 = 1, . • м mlt Характерным свойством рассмотренного только что случая т2 — ^1 = 1 является независимость условии несмещенности в метриках пространств С и L от неизвестных параметров функции регрессии ц(я, 0). При тп2 —^>2 это свойство, вообще говоря, не сохраняется. Как уже отмечалось в § 1, в таких ситуациях можно рассматривать локально несмещенные процедуры, когда условия несмещенности выполняются для некоторой функции ц(х, где 0 — априори фиксированный вектор значений параметров. Для решения задачи построения локально несмещенной в метрике С процедуры воспользуемся известным в классической теории наилучших равномерных приближений методе чебышев- ских интерполяций, который дает возможность, зная точки чебы- шевского альтернанса/функции ц (#)=.£' <^2 < • • • < Ят1+1 < О и значения ц(я) в них, построить обобщенный полипом наилуч- шего равномерного приближения порядка не выше mit Теорема 10. Процедура планирования и анализа экспери- ментов (£**, $**), является локально несмещенной в метрике С по отношению к функции т|(х, 0), если*. 1) в качестве плана эксперимента используется любой, непрерывный план, сосредоточенный с произвольной мерой в точ- ках чебышевского альтернанса функции ц(а:, 0); 2) в качестве метода оценивания $** применяется статисти- ческий аналог метода чебышевских интерполяций где Д** — (Л^ )i=i A” = (- l)j+1 - m1+i &l/u (x**) Mr — алгебраическое дополнение элемента fi{xr) определи- теля Аь Предложенная в теореме 10 процедура (£**, $**) обладает двумя основными недостатками. 1) Для получения точек плана |** требуется найти точки чебышевского альтернанса функции т|(я, 0), что само по себе может представлять достаточно сложную вычислительную задачу. 12* . 179
2) При m2 — 2 точки чебышевского альтернанса зависят от неизвестных параметров функции цСг, 0), с чем и связан ло- кальный характер процедуры (£**, 5**). Правда, в задаче наилучшей равномерной аппроксимации непрерывной функции 0)^^ обобщенными полиномами из cz точки чебышевского альтернанса не зависят от коэффй- циентов 0Ь ..., 0ти и поэтому спектр локально несмещенного в метрике плана зависит лишь от отношений 0ПЦ+1/ 0 т» 0т,+г/0т ♦ • • * » 0т — 1/0т • А £ X £ А А Таким образом,.практическое применение локально несмещенных в метрике С процедур (£**, $**) ограничивается теми случаями, когда точки чебышевского альтернанса слабо зависят от приве- денных выше отношений в той области 0, которой заведомо или с большой вероятностью принадлежат по априорному предполо- жению истинные значения параметров 0m • • •» 0m2. Переходя к задаче локально несмещенного в метрике L пла- нирования, сделаем предположение, что базисная система функ- ций {fi (#)}i=i является системой Маркова, т. е. что при любом k^m2 функции fi(x), ..., fh(x) образуют систему Чебышева от- носительно интервала (а, Ь). В теории наилучших интегральных приближений непрерыв- ной функции в конечном отрезк’е [а, разработан метод* кото- рый позволяет, зная определенную для 1](х)еС систему точек . <^тх <р и значения тря) в них, построить ме- тодом интерполяции обобщенный полином r|mi (х, iq) наилучше- го интегрального приближения порядка не выше к функции цСг). В качестве системы точек могут быть взяты ну- ли обобщенного полинома, наименее уклоняющегося от нуля в метрике L с весом vkx) среди всех полиномов вида «1Л (®) 4- . . . + (х) + /т'+1 (х), если только все эти нули — точки перемейы знака функции j] (х) — r|m** (я) на (а, 6). Имеет место аналог теоремы 10. Теорема 11. Процедура планирования и анализа экспери- ментов (£***, $***) является локально несмещенной в метрике L по отношению к функции ц(;г, 0), если*. 1) в качестве плана эксперимента §*** используется любой непрерывный план, сосредоточенный с произвольной мерой в точ- ках соответствующих функции ц(;г, 0); 2) в качестве метода оценивания $*** применяется статисти- ческий аналог метода интерполяций . 0(1>=А***У 180
где = i,/ = 1, S_ det [/,(»;••)..././«глд. 6tJ — алгебраическое дополнение элемента fi (я***) определи- теля б. • Для! процедуры (§***, $***) характерны те же самые недо-; статки, что и указанные выше по отношению к процедуре (£**, 5’**). Можно также утверждать, что спектр плана £*** не зави- сит от коэффициентов 0х, ..., 0тг Предложенные в теоремах 10, 11 локально несмещенные про- цедуры оставляют свободу в выборе весов наблюдений, которая .может быть использована с тем, чтобы уменьшить случайную ошибку приближения истинной функции регрессии постулиру- емой моделью, как это описано в п. 2.2. . Литературак§3: [И* 24, 27, 29, 32, 62*, 85* 119, 120, 129, 160]. § 4. Имитационные модели и планирование эксперимента Значительный прикладной интерес представляет следующая задача. Имеется сложная математическая модель реального устройства (системы, явления). Требуется с помощью ЭВМ по- строить более простую модель, описываемую небольшим числом параметров. Если модель вероятностная, например описываемая некоторым случайным процессом, то этот процесс может быть воспроизведен на ЭВМ с помощью метода Монте-Карло, и могут быть оценены его характеристики, представляющие собой мате- матические ожидания некоторой случайной величины. Общие методы планирования эксперимента, описанные ранее, полностью применимы к данному случаю. Так, если характеристики модеди зависят от параметра х, нас интересует некоторая характеристи- ка цСя) как функция х, и ЭВМ может вычислять значения ц при некоторых фиксированных х точно- или со случайной ошиб- кой (при1 статистическом моделировании), то исследователь, оче- видным образом, находится в условиях регрессионного экспери- мента. . Особенность, которая здесь имеет место, заключается в том, что систематическая ошибка, как правило,-присутствует. Существуют, тем не менее, специальные методы Планирова- ния имитационного эксперимента. Примером таких методов мо- гут служить методы, связанные с возможностью распоряжаться ''выбором распределений при использовании метода Монте-Карло и с применением теории возмущений при изучении сложных моделей. Этими двумя наиболее развитыми подходами к задачам планирования имитационных экспериментов и будет ограничено изложение. 1. Моделирование распределений и задачи планирования. Простейшая задача планирования эксперимента при оценивании 181
математического ожидания состоит в выборе распределения, ко- торое необходимо моделировать. Если Z — случайная величина, распределенная по закону F(dx), и требуется оценить Ef(& = J, где / — заданная функция, N то оценку осуществляют с помощью среднего J = -у- /(?/;), где ^.— независимые реализации случайной величины, распреде- ленной по закону F(dx). При моделировании оценивание можно производить также с помощью любого среднего арифметического = 2 / ^y(z5)> где ~~ вероятностная мера, абсолютно 5=1 непрерывная по отношению к F. Здесь необходимо моделировать случайную величину с распределением S(dx).^B качестве кри- терия у оптимальности обычно выбирается достигающий своего минимального значения при ^(^) = 1/(^1 £77^1-; (dx) можно рассматривать как непрерывный оптимальный план эксперимента при оценивании £/(£). Если требуется оценивать одновременно несколько матема- тических описаний (i —1, ..., m) и критерием оптималь- ти ч N ности является Ф(^) = где (zj) " . i==1 5=1 • и EJ$ = Eji (Qh то оптимальный план эксперимента дается равенством J ’ (m \ 1/2 2 4/?W F(dx?), г=1 J где С = 1/2 F (dx) — константа нормировки. Ис- пользование в эксперименте распределения, близкого, к опти- мальному, часто называют методом существенной выборки или выборкой по важности. Оптимальное распределение очевидным образом использовано быть не может, ибо требует знания Е](^), Другими наиболее употребительными методами при планиро- вании имитационного эксперимента являются метод расслоенной выборки и антисимметричной выборки. Метод расслоенной выборки состоит в том, что носитель Зв меры F(dx) разбивается на тп непересекающихся подмножеств 38), так что U 38 j — 38, F (38 j) > 0, и полагают 5=1 182
т Показано, что Ef = 2 Ej^ и для оценивания £*/ строится оценка г=1 1 Л VDfd где Ун (i = i, ..., rij)— независимые в совокупности случайные величины, имеющие распределение Fj(dx) ~F(dx)/F(&j\ сосре- доточенное на Итак, в каждом из й?/ вычисляется (измеря- ется) rij значений f, -так что совокупность целых чисел (п1э . п т) является в данном случае планом эксперимента. Если ввести, как обычно, непрерывный план ..., рт так, что « PiN, где N — общее число измерений, то оптимальный в смысле дисперсии непрерывный план определяется равенством т __\ —1 i=l / Если область планирования имеет центр симметрии, то мож- но применить метод антисимметричной выборки, состоящий в том, что эксперименты производятся попарно в двух точках сим- метричных относительного этого центра. Пусть, в частности, а*0, а(2°» »• • — независимые в совокупности реализации рав- номерно распределенной на [0,1] случайной величины, получа- емые с помощью датчика случайных (псевдослучайных) чисел и используемые для получения результата i-го имитационного эксперимента i = 1, 2, .. * Если £>г = £ (а1°» • ••, есть резуль- тат такого эксперимента, то при использовании метода антисим- метричной выборки для (г + 1)-го эксперимента вместо •• • в*., (при каждом нечетном i) выбирается!—^0, 1 — —а2г\ 1 — приЛ'^^+хи!— а^0, м ,, 1 — а^°, а^ь ••• • • •, пРи Исследование этого метода име- ется в специальной литературе по методу Монте-Карло. Его обобщения связаны с рассмотрением квадратурных формул со случайными узлами. Если изучаемая модель зависит от параметров, то важную роль играет метод зависимых испытаний, который состоит в том, что при различных значениях параметров имитационный экспе- римент проводится по одной и той же последовательности слу- чайных чисел. Если изучаемые характеристики модели гладко зависят от параметров, то метод зависимых испытаний приводит к значи- тельному выигрышу, который особенно существен при оценива- нии производных характеристик модели по параметрам и, следо- вательно, при проведении экстремальных имитационных экспе- риментов. 183
Результаты, связанные с существенной выборкой, важны, в частности, в тех случаях, когда исходная модель описывается цепью Маркова. Пусть цепь определена начальным распределе- нием /№) и переходной плотностью р(х, х') (х, х'&Ю, при- - , чем [ р (х, х') dx' *= Г— g (х) (0<g(«) <1). Тогда математи- ‘ ческое ожидание J функционала на траекториях цепи Маркова, сужение которого на траекторию длины к: xt -* хг xh есть Zh~h{xk)/g(.xh), может также оцениваться на траекториях j другой («фиктивной») цепи arj-►^8“*'определяемой начальным распределением р?(я) и переходной плотностью Р1(ж, х') с помощью оценки tj» __ (*Эр04’ *s)x - • • (4-у *1)h (4) k = i 2 К Pi (4)Л (4’ xz)X — Xp (xk-v xh) 8 (хкУ - Здесь pl, pi должны быть выбраны так, чтобы оценка была определена для всех наборон xt, ..., xh, при которых отлично от нуля произведение p4xi)p(xt, хг)... p[xh-t, xk)h(.xk), h — заданная функция (Л(х) > 0). Если в качестве критерия оптимальности плана эксперимента (пары Pi, Pi) выбрана величина дисперсии оценки -то опти- мальный план будет определяться соотношениями Pi («) = у- Р° (*) Р* (*)> Pi > где р*(х) является решением интегрального уравнения р*(я) = [ p(xf, x)p*(x')dx' + h(x). ' i Функцию р*(х) называют также функцией ценности (см. п. 2) по отношению к оцениваемому функционалу. Другие результаты такого рода относительно выбора опти- мальных планов эксперимента можно найти в обширной лите- ратуре по методу Монте-Карло, где рассматриваются также оценки, отличные от оценки Эти результаты специфичны для имитационных экспериментов. Они содержательны, посколь- ку при имитационном эксперименте экспериментатор сам выби- рает распределения. 2. Линейная теория возмущений и планирования эксперимен- та. Как в имитационном эксперименте, так и в эксперименте физическом, успешно используется линейная теория возмущений, получившая развитие в этой области благодаря работам Г. И. Марчука [591 —[61]. Полученные им в этой области ре- зультаты сыграли также важную роль при разработке методов оптимизации имитационного эксперимента, описанных в п. К Предположим далее, что интересующая нас зависимость ф(яг) 184 -
измеряется в некотором эксперименте или вычисляется путем решения на ЭВМ некоторой системы уравнений. Более точно, будем предполагать, что фСг) — вещественная функция, где х е й?, Зв — множество с определенной на задан- ной о-алгебре его подмножеств о-конечной мерой р. При изуче- нии сложных физических, биологических и других процессов априорная информация о функции <р(я) часто может состоять в том, что ф(х) удовлетворяет уравнению Ь<р = ?, где L — линейный оператор. Линейность L — это физически сравнительно просто проверяемое свойство. Относительно опера- тора L не предполагается, что он известен, но часто можно ука- зать (возможно, с точностью до набора неизвестных параметров) близкий к нему оператор Lo (модель). Наложим лишь следующее достаточно слабое ограничение: будем считать, что q, ф<=£^, как Д’.так и Lo являются операторами из в где Если эксперимент состоит в измерении величины (ф) = «==(р, ф) = J Ф (#) р (я) ц (dx), то наряду с оператором L полезно ввести в рассмотрение оператор £*, сопряженный к L, и рассмот- реть сопряженное уравнение Ь*фр==р. Будем предполагать, что р О, £ 0, ф О, ф* О(mod р). Поскольку (р, ф) = (ф*, ?), то функция ф* очевидным образом описывает «отклик» функционала /Р(ф) на изменения функции q — правой части основного операторного уравнения. Легко видеть, что изменение (mod р) функции q на множе- стве х, где фр мало, внесет малый вклад в JP сравнительно с вкла- дом., который даст аналогичное изменение q, но на множестве х, рдя которых фр велико. Это объясняет термин для фр — «функ- ция ценности» по отношению к функционалу введенный в связи с изучением процессов переноса излучения. Функция цен- ности играет важную роль и при изучении других процессов (по крайней мере в тех случаях, когда q неотрицательно (modp) и оператор L положительно определен). Чтобы уточнить сказан- ное, следует ввести формальное понятие функции «плотности измерений», и описать процесс измерений. Для простоты будем считать р мерой Лебега в области 8в конечномерного евклидова пространства. Предположим измеряющее устройство таким, что в результате измерения получается значение функционала = =Лр» ф) с некоторой погрешностью (р — заданная функция). Сам^ процесс измерения физически может осуществляться различными\ способами. Будем считать, что в действительности измеряющее 185 ’
устройство вычисляет сумму т 4 nh s = 2тгтез 2 />Сг<л)ф (*<*)» 1 А=1 к ift=l приближенно равную сумме т nk S' = 2 mes 2 Фр (xik) ч (Ч)- к=1 k ik=l Здесь предполагается, что область Зв разбита на сумму непе- (* ш \ Зв = U Зв h 1, в каждой из ввк / выбирается пк точек xih и составляется сумма. Точки считают- ся равномерно распределенными в Звк. Равномерность здесь до- нимается в том смысле, что доля точек в любом подмножестве равна примерно ц(Д)/ц(й/\). При имитации измерений с помощью метода Монте-Карло это означает, что xih распреде- лены по закону p(dr)/p(<?£\).B других случаях понятию равно- мерности можно придать точный смысл, устремляя каждое из пк к бесконечности (равномерность в теоретико-числовом смысле). . т Положим 7V= 5 nk, gm(x) = nk!N при x <= Звк (к = 1, ,»;, m). • h—1 Относительно построенной таким образом ступенчатой функции будем предполагать, что когда N -> °о, оо таким образом, что диаметр каждого 3?к стремится к нулю, она сходится к некоторой измеримой функции g(z), которую будем называть плотностью измерений. Заметим, что при таком переходе к пределу lim S = = lim S' — Jp функция плотности измерений по отношению к произвольной конечной мере ц строится очевидным обобщением описанной процедуры. Функцию gtx) можно трактовать также как план (непрерывный) эксперимента. Чтобы решить задачу об оптимальном его выборе, заметим, что при нашей трактовке процесса измерения оптимальный план, минимизирующий систе- матическую ошибку будет совпадать с сфр (х) q (х), где с — кон- станта нормировки, равная i/JP. Это легко проверяется, если рассмотреть квадрат разности (JP — S)2 и трактовать g(x) как плотность распределения точек наблюдения.. Для широкого клас- са задач, где q(x) есть мало меняющаяся функция, нормирован- ная функция (х) является планом эксперимента, близким к оптимальному в смысле минимума систематической погрешности. С другой стороны, если q(x) задано с ошибкой, то при стан- дартных предположениях относительно этой случайной ошибки Фр будет также оптимальным ненормированным планом экспери- мента. 4 Действительно, предположим, что вместо q(x) в измерении участвует £(я) == q(x) + e(z),. где е(я) — случайная ошибка с ну- 186
левым средним. Случайная составляющая погрешности 65', со- ответствующая сумме S\ равна тп nk 6S' = 2 Т7 2 Фр(^л) mes k—1 1 Для случая, когда Z)e(a:) = 02 не зависит от х, а Ег^х^^х^ = = 0 при Xi xh ле^ко получить, что плотность измерений, при которой минимальна £)(65'), равна с точностью до константы функции Фр (#). Это известный в математическрй статистике ре- зультат относительно оптимального расслоения выборки. Следу- ет отметить, что в общем случае, когда &(xi) и е(хр зависимы при различных Xi и Xj, оптимальная плотность измерений не бу- дет, вообще говоря, пропорциональной фр. Перейдем к случаю, когда наряду с исходным оператором L рассматривается возмущенный оператор L, причем L = L 4- 6£, где &L — малое (в смысле введенной метрики) возмущение. За- мена L па L влечет изменение решения £ф = (L + 6£)ф = Q. Используя сопряженную функцию невозмущенного оператора, соответствующую легко получить для возмущения 6/р =» *= /р(ф) — /Р(ф) выражение 6/р = — (фр, 6£ф) или двойственное к нему = —(ф, 6Лф), если использовать возмущенное сопряженное уравнение (L* 4- 8L*) <р* = р и невозмущенное основное. Формулы для возмущения находят разнообразные примене- ния при построении математической модели и вычислении зна- чений входящих в эту модейь параметров. Особое значение эти формулы имеют при построении моделей, сохраняющих некото- рые средние характеристики изучаемого явления. Предположим, что нас интересует некоторый набор функционаловJPi = (ф, (i = 1, г), и необходимо построить модель — оператор Д. > Естественные требования, предъявляемые к £0, состоят в том, чтобы оператор LQ был достаточно близок к £ и был существен- но проще L. Если в первую очередь нас интересуют функциона- лы Jp., то близость Lq к £, естественно, должна быть определена тан, чтобы значения /р.(ф°, pi) были близки к Лч (ф* РО для i = 1, 2, ..г или совпадали с ними. Последнее означает, 187
что должны точно или приближенно выполняться равенства == 0 или, с учетом формулы для возмущения, равенства (ф₽Р ^оф) = (фрр £ф), « = 1, которые часто используются наряду с другими априорными све- дениями при конструировании упрощенных моделей. Легко привести примеры упрощения моделей с использова- _ нием этих равенств. Часто априори известно, что изучаемая си- стема описывается уравнением вида L<f = g, где оператор L' за- висит от очень большого числа параметров, подлежащих опреде- лению. Для наших целей нужно построить оператор LQ, который зависит от небольшого числ£ параметров, но дает удовлетвори- тельные значения для функционалов JPi (i= 1, В этом случае наряду с другими соображениями (о сходстве структуры операторов L и Zo и т. п.) очень важную роль играет требование точного или приближенного выполнения приведен- ных выше равенств. Практически эти соображения используют- ся, например, при создании упрощенных моделей ядерных реак- торов, а также в различных задачах при приближенной замене переменных коэффициентов . дифференциального оператора по- стоянными, упрощении граничных условий и др, Они играют важную роль при решении «обратных» задач математической физики, решении проблемы оптимизации размещения предпри- ятий в задачах охраны окружающей среды. Все сказанное, разумеется, относится к случаю, когда, извест- ны функции фр., определение которых может быть также слож- ной задачей. Но при проведении эксперимента и конструирова- нии упрощенной модели можно использовать приближенные зна- чения этих функций, полученные на основе упрощенной модели для. двойственной задачи. Двойственность играет важную роль при планировании эксперимента. Экспериментальные исследова- ния благодаря использованию двойственности могут быть есте- ственным образом разбиты последовательно на этапы, в каждом из которых происходит уточнение модели и плана эксперимента. Имеются многочисленные обобщения рассмотренной задачи. Наиболее важными из них являются обобщения на случай не- линейного оператора, а также — на модели описываемые случай- ными процессами более общего вида, чем в п. 1. Литература к § 4: [23, 28, 58—61, 72].
ГЛАВА 7 ЗАДАЧИ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА С ОБЛАСТЬЮ ДЕЙСТВИЯ В ФУНКЦИОНАЛЬНОМ ПРОСТРАНСТВЕ § 1. Модель регрессии, область планирования и план в функциональном пространстве 1. Предварительные замечания. Классическая теория плани- рования регрессионного эксперимента (см. гл. 2—5) развита в рамках следующей схемы регрессии: Еу(х) = Y](x, 0), хбЯ?/ (1) где я —аргумент функции регрессии т)(х, 0), «нумерующий» на- блюдения (случайные величины) у(х), выбирается из некоторой области Зв пространства планирования, 0 = (04, ..0П) — набор конечного числа неизвестных параметров. Формально простран- ство планирования Зв не обязано быть конечномерным, однако большинство конкретных результатов классической теории (вклю- чая численные методы построения планов и практические при- ложения) относятся к конечномерному пространству планиро- вания. Для широкого круга задач планирования, связанных с поста- новкой физических экспериментов, типичной является ситуация, когда единичное наблюдение реализуется с помощью функциона- ла X: {$} -*• К1, сопоставляющего состоянию наблюдаемого объ- екта значение некоторой вещественной переменной, т. е. отобра- жающего множество состояний {qj в стандартное множество от- ветов — вещественную прямую. В тех случаях, когда состояние объекта наблюдения описывается некоторой функцией <p(r, t, it.) пространственных, временных и т. д. координат, и функция $ принадлежит определенному функциональному классу Ф, ука- занное отображение задает соответствующий функционал над Ф. Следовательно, в описанной ситуации пространство планирова- ния Ф реализуется в виде некоторого множества функционалов на функциональном классе Ф. Метрика пространства планирования естественным образом индуцируется метрикой исходного функционального класса, со- гласованной с физической природой задачи. В частности, если 189
Ф есть полное нормированное пространство (банахово или 5-про- странство), то, ограничиваясь линейными функционалами, полу- чаем в качестве пространства планирования сопряженное 5-про- странство Ф*^ (пространство ограниченных (непрерывных) ли- нейных функционалов). 2. Постановка задачи планирования с областью действия в функциональном пространстве. Областью определения функции регрессии в модели (1) является подмножество ЗВ некоторого сопряженного 5-пространства Ф*, тогда как параметризацию задачи, связанную с состоянием наблюдаемого объекта, есте- ственно относить к элементам основного пространства Ф. Форму- лировка теории планирования эксперимента на языке пары со- пряженных функциональных пространств (Ф, Ф*) дает наиболее прямой подход для изучения бесконечномерных задач планиро- вания эксперимента средствами функционального анализа. Далее, именно на этом языке (см. гл. 9) естественным образом форму- лируются задачи планирования эксперимента, связанные с так называемыми обратными «задачами Математической физики. В терминах сопряженных функциональных пространств (Ф, Ф*) задача планирования регрессионного эксперимента, со- ответствующая классической схеме линейпой по параметрам регрессии, формулируется следующим образом. Пусть Ф — пол- ное нормированное пространство и L с Ф его n-мерное линейное подпространство. Выбирая в L базис — набор линейно независи- мых элементов (еь ..., еп), каждый элемент ф^£ можно пред- ставить в виде линейпой комбинации <р = 3 (2) 2 1 Эксперимент для оценивания параметров 0Ь ..., 0П состоит в на- блюдении значений случайных величин ..., yN- ^ = ХДф) + еь ' 7 = 1, ...,7V, (3) где Xj(-) —линейные ограниченные функционалы па Ф, т. е. эле- менты сопряженного 5-пространства Ф*, а случайные ошибки е,, как обычно, центрированы, пекоррелированы и имеют конечные дисперсии. С точки зрения оценивания параметров 0Ь ..., 0П за- дача (2), (3) эквивалентна обычной (конечномерной) линейной регрессии < п У, = S 0iM(*i) + е>, j = l, i=l с МНК-оценками в качестве наилучших линейных несмещенных оценок параметров. Планом g эксперимента (2), (3) назовем набор t — (Xt, ..., Xjyj Xi, ..., А^) функционалов {ХД и положительных весов {Xj): 190
Областью (множеством) планирования будем называть под- множество 38 Ф*, которому по условию принадлежат функци- оналы плана План эксперимента можно рассматривать как некоторую меру, сосредоточенную в конечном множестве точек и, вообще говоря, для эксперимента (2), (3) нет необходимости рассматривать какие-либо другие меры па множестве 38 (более общая ситуация обсуждается в гл. 9). Информационной матрицей плана £ является матрица Л/(|) с элементами = S i, k = l,,. „п. - (4) Если область^ планирования 38 ограничена и замкнута в норме сопряженного пространства Ф*, то семейство матриц Л/(£) об- разует выпуклое компактное множество и справедливы осталь- ные утверждения гл. 2 относительно информационных матриц, в частности, для любого плана £ матрица М(^) может быть пред- ставлена в форме (4) с N С п(.п + 1 )/2 + 1. Оптимизация плана может проводиться как на основе точ-г постных характеристик НЛН-оценок для параметров 0П, определяющих элемент (состояние объекта измерения), так и с точки зрения точности оценивания функционалов из не- которого множества {X} ф* (указанное множество пе обяза- но, вообще говоря, совпадать с 38). В соответствии с этим полу- чаем следующие аналоги основных определений (ср. гл. 2). Опре- деление D-оптимального плана буквально совпадает с обычным — план D-оптимален, если det J/(|*) = supdetJ/(£). Для любого функционала X ge Ф* числовая функция = (5) определяет дисперсию НЛН-оцепки функционала X по резуль- татам эксперимента (3). План называется G-оптимальным от- носительно множества функционалов 384с:ф* (или G$g^-опти- мальным), если sup d(X, g*) = inf sup d(X, I). Аналогичным образом переформулируются и другие критерии оптимальности планов, указанные в гл. 2. В определенном смысле описанная формулировка задачи пла- нирования экспериментов шире классической, так как для полу- чения последней требуется в качестве пространства Ф выбрать пространство Сх функций <p(z), непрерывных па некотором ком- пакте X, а в качестве «функциональной» области планирования 191
3? czCx — множество функционалов вида Хх(<р) =“ <р(я) (х о еХ), где X — «обычная» область планирования (например, огра- ниченное множество в пространстве Rm). В различных приложениях оказывается естественным раз- личный выбор пары сопряженных пространств (Ф, Ф*). Так, при описании спектрофотометрических экспериментов основное про- странство Ф — это пространство, содержащее все непрерывные положительные распределения энергии в пределах освещенной поверхности S, и его естественно отождествить с пространством LitS) (подробнее см. § 3). В этом случае сопряженным оказыва- ется пространство ограниченных функций £«>(5), содержащее множество положительных функций, ограниченных в совокупно- сти константой,— естественную область планирования для спек- трофотометрического эксперимента, отвечающую физической природе детекторов радиации. В задачах синтеза тестирующих сигналов естественными, ока- зываются квадратичные ограничения типа нормы в простран- стве L2 — в этом случае основное и сопряженное пространство совпадают с одной из реализаций гильбертова пространства функций, определенных на подходящем носителе. , § 2. Восстановление функционалов плана С точки зрения оценивания конечного набора параметров в модели (2) «расширение» области планирования 35 до подмно- жества сопряженного функционального пространства не дает ни- чего нового — каждая «точка» — функционал X <==$?, • «представ- лен» в модели наблюдений и в информационной матрице плана jtf(g) только своими значениями на элементах базисаЛ^, ..., еп). В определенном смысле задача планирования также эквивалент- на конечномерной. Фиксируем базис подпространства L cz Ф в разложении (2) и рассмотрим отображение сопряженного пространства Ф* в n-мерное евклидово пространство Rw: ф*^И«: X-^z = (zi, ..., zn\ i==l, ...» и. (6) Отображение (6) сопоставляет каждому функционалу ХеФ* вектор z(X), составленный из значений этого функционала на элементах базиса (еь ..., еп). Отображение . (6) непрерывной переводит каждое ограниченное множество в компактное, в част- ности, область планирования 35 отображается в компакт Z = = z(3?). • Информационные матрицы £)- и G% ^оптимальных планов для области планирования ^с:ф* и множества Й?1<=Ф* в функ- циональном пространстве совпадают с информационными матри- цами соответствующих планов линейной регрессии вида Еу (z) = 2 OiZj, ге IT, i=l 192
для области планирования Z = z(<^) и множества Z^zC^J, лежащих в конечномерном пространстве Rn и получающихся с помощью отображения (6). Планы эксперимента называют М-эквивалентными, если сов- падают соответствующие им информационные матрицы. На ос- новании классической теоремы Кифера — Вольфовица, верной для задачи планирования в компактной области Z cz Rw, форму- лируются следующие утверждения относительно «функциональ- ной» области cz Ф*. Если область (множество) планирования S3, принадлежащая сопряженному В-пространству Ф*, замкнута и ограничена по норме пространства Ф*, то эквивалентны следующие утвержден ния относительно плана £♦: 1) план D-оптимален, 2) план G% -оптимален, 3) supd(X, £*) = п. Крсгме того', для любого функционала Х^, входящего в план с ненулевым весом, d(X*, £*) = п. За исключением простейших случаев, отображение (6) не ре- шает полностью задачу планирования. Действительно, с помощью указанного отображения бесконечномерная задача планирования «сводится» к конечномерной в том смысле, что решение послед- ней позволяет найти сразу информационную матрицу оптималь- ного «бесконечномерного» плана. Однако в конкретных, задачах этого мало. Обычно нужно реализовать оптимальный план с по- мощью функционалов X, как элементов функционального про- странства Ф*. Оказывается, это также можно сделать с помощью решения конечномерной задачи. Пусть в результате решения конечномерной задачи для обла- сти Z = z(^?)czRn получен оптимальный план Bz. Как известно (см. гл. 2), этот, план всегда можно считать сосредоточенным па конечном множестве точек, „ число которых не превышает п(п 4-1)/2. Пусть 2*^Z — одна из таких точек с весом Х*>0; тогда для восстановления соответствующего «функционального» плана необходимо найти функционал, удовлетворяющий системе уравнений 1 = 1,„,,п, (7) и принадлежащий исходной области SB cz ф*. Приписав такому функционалу X* вес X* и повторив эту операцию для каждой точки, входящей в план Bz с ненулевым весом, получаем функ- циональный план с той же информационной матрицей, т. е. оп- тимальный в смысле того же критерия, что и план Bz. Всегда существует решение уравнений (7), принадлежащее области SB с: Ф*. В общем случае такое решение не единствен- но— оно определено с точностью до L-эквивалептности, т. е. если Хд и Х2 — два решения уравнения (7) для одной и той же точ- 13 п,/р. С. М. Ермакова ' 193
ки z*, то функционал Х^ — X* обращается в нуль на всех эле- ментах из подпространства L. Если имеется несколько решений уравнения (7) для одной и той же точки z* й все они принадле- жат множеству планирования ЗВ. то при восстановлении плана вес %* этой точки может быть распределен между всеми функ-’ ционалами произвольно. Ниже будет указан способ фактического построения функционала X* по заданной точке supp Bz в том случае, когда план lz — D-оптимален. Без ограничения общности область планирования ЗВ в сопря- женном D-пространстве можно считать выпуклой, поскольку D-оптимальные планы, соответствующие некоторому множеству планирования ЗВ и его выпуклому замыканию 38. М-эквивалент- ны. Поэтому D-оптимальный план можно считать сосредоточен- ным в крайних (экстремальных) точках выпуклой области пла- нирования. Пусть Мф) — опорный функционал множества ЗВ <= Ф*: Л(ф) = sup Х(ф), среФ. х&% Функционал fe(<p) для любого множества ЗВ <= Ф* — выпуклый функционал на пространстве Ф: Маф) = аЛ(ф), а>0, Ыф1 + ф2)'^ Мф1) + Мф2). < . Собственно, функционал Л(ф), определенный выше, представля- ет только «часть» полного опорного функционала множества '38 как множества в сопряженном Я-пространстве Ф*. Этот полный опорный функционал Н определен на элементах второго сопря- женного пространства ф**: Я(ф') = sun ф'(Х), ф'еф**, х^$? и совпадает с функционалом h на элементах вида ФФ(Х) = X (ф) (феФ). Полный опорный функционал — выпуклый на про- странстве Ф**. Различать функционалы Л и Я необходимо только в том случае, когда исходное пространство Ф не рефлексивно,' т. е. пространство Ф** не исчерпывается элементами указан- ного выше вида, однозначно определяемыми элементами исход- ного пространства Ф/ Именно такова ситуация в практически важном случае Ф = £! (см. § 3). Критерий принадлежности элемента Хо выпуклому замкнуто- му множеству 38 <= Ф* в сопряженном банаховом пространстве может быть сформулирован в терминах полного опорного функ- ционала Я, а именно, Хо е ЗВ тогда и только тогда, когда усло- вие ф'(Х0) Я(ф') выполнено для всех элементов ф' из второго сопряженного пространства Ф**. Способ восстановления функционала X, удовлетворяющего условиям (7), связан с решением некоторых экстремальных за- дач. Пусть 38 с: ф* — выпуклое замкнутое множество в сопря- 194
жеппом банаховом пространстве и Л(ф) — опорный функционал множества Тогда для любого элемента ф0 е ф существует такой линейный функционал X* Ф*, что Х*(ф0) = Мф0), и этот функционал принадлежит границе множества Это вытекает из теоремы Хана — Банаха о продолжении линейных функциона- лов. Утверждение верно без предположения о рефлексивности пространства Ф, хотя в формулировку входит только функци- онал Л(-) (а не полный опорный функционал Я(-)). Пусть z* — граничная точка множества Z = z(35) с: Rw — образа выпуклого замкнутого множества. cz Ф* при отображении (6). Тогда: 1) существует линейный функционал Х*е$?т удовлетворя- ющий условиям (7); 2) этот функционал принадлежит границе множества-<8?. Основное утверждение, устанавливающее структуру функци- ' оналов X*, на которых сосредоточен D-оптимальный план и указывающее способ их построения, состоит в следующем. Пусть точка z*^Z = z(33} принадлежит спектру D-оптималь- но$о для области Z плана Sz. Тогда существует такой линейный функционал X* е 35, что: 1) X* удовлетворяет условиям (7), 2) X* есть граничная точка множества 35. Этот функционал X* может быть найден из решения экстремаль- ной задачи . ' Х*(ф*) = sup Х(ф*) = Ыф*) = п, (8) хе % где элемент ф* L однозначно определяется точкой z*: <Р* = 2 ег S [Л/-1 - , (9) i=l k=l и Мф) —опорный функционал множества 35. ' Утверждение полностью решает задачу продолжения. «конеч- номерного» D-оптимального плана lz для области ZczRn до* «функционального» D-оптимального плана для множества планирования 35, лежащего в сопряженном В-пространстве. Для такого продолжения достаточно восстановить все функционалы Xj, отвечающие точкам, входящим в спектр конечномерного пла- на и приписать этим функционалам соответствующие веса из конечномерного плана £z- Таким образом, решение задачи D-оцтимального планирова- ния линейного регрессионного , эксперимента для бесконечномер- ной области действий, лежащей в сопряженном банаховом про- странстве, может быть найдено в результате: 1) решения задачи D-оптимального планирования для конеч- номерной области Z=z( <2?); ~*2) продолжения конечномерного D-оптимального плана ука- занным выше способом на бесконечномерную область действия. 13* 195
Основную трудность при этом представляет решение конеч* номерной задачи, так как явный вид* области Z = z(<8/) опреде- ляется базисом (е1э ..еп) подпространства L и может оказаться достаточно сложным. Следует отметить, что D-оптимальный план не зависит от базиса подпространства Л, а определяется самим этим подпространством. Иногда этим можно воспользо- ваться для упрощения вида конечномерной области. Решение экстремальной задачи (8) часто вообще не представляет затруд- нений, если только множество планирования в сопряженном пространстве имеет достаточно простую структуру. В ряде слу- чаев может оказаться целесообразным прямой численный поиск крайних точек множества Зв в пространстве функционалов, мак- симизирующих det Л/(£), но и в этом случае существенно помо- гает тот факт, что искомый функционал должен быть решением экстремальной задачи (8). Пример 1. Пусть Ф == L2(T) — гильбертово пространство функций, интегрируемых с квадратом относительно меры Л на компакте Т; ||«р112 = ||ф(О|МХ(о. т Тогда по теореме Рисса Ф* есть тоже пространство L2(T)i т т Возьмем в качестве области планирования в сопряженном про* странстве Ф* «== L2(T) единичный шар Зв = {X: 11X11 =» 1J. Считая базис модели (2) ортонормированиям в ДСТ): == т получаем в качестве канонической конечномерной области. Z = {z — (zx, »»., zn): Zx -j- «*« nF zn 1} единичный шар пространства Rn. Как известно, оптимальный план линейной регрессии на шаре сосредоточен с равными веса- ми в п +1 точках, лежащих на поверхности шара в вершинах произвольно ориентированного правильного симплекса. Пусть z* == (z*, ..., z*) — одна из таких точек. Так как информацион- ная матрица Л/Qz) оптимального плана в этом случае кратна единичной, в качестве элемента <р* в (9) можно взять функцию п <р*(0 = 3 Тогда, как. следует из неравенства Шварца, решением экстремальной задачи (8) будет функционал X*, опре- деляемый функцией (1, i = 10, 196
Построив таким образом лг 4~ 1 функций эг* (t), соответствующих всем вершинам правильного симплекса и приписав им равные веса (n-Fl)"-1, получим D-оптимальиый план для модели (2) в пространстве L2(T\ § 3. Регрессионный эксперимент в пространстве обобщенных мер В этом параграфе общая теория § 2 применяется к простран- ству обобщенных мер. Обобщенная мера (называемая далее для краткости просто мерой) — это счетно-аддитивная функция мно* жеств с множеством значений (—<=*>, °°). Задачи оценивания параметров тех или иных мер возникают в различных областях математики и физики. Это могут быть меры, порожденные случайными величинами и процессами рас- пределения аддитивных физических величин в разнообразных координатных пространствах, спектральные меры случайных процессов и т. д. Имея в виду главным образом фиаические при- ложения, будем рассматривать пространства мер, заданных на компактных йодмножествах конечномерного пространства Rm. 1. Пространство мер*. Пусть Т RM — компакт в тп-мерном евклидовом пространстве и X - мера Лебега на Rm. Рассмотрим пространство Мт мер на компакте Т, абсолютно непрерывных от- носительно меры А, с нормой || <Р || = J | d<jp | = JI 1 dh. Про- т " I странство с этой нормой изометрично Л(Л=ф У1/(ОИХ<оо) у I т J — полному нормированному пространству. Линейный функционал на задается формулой Цф) = Ja(i)d<p, (10) где a(t) — весовая функция функционала Z. Вводя норму функ- ционала ~ || 11| = sup 11 (<р) |.= sup ess | a (i) |, IMI=i /ет приходим к полному нормированному пространству М* — (Т) ограниченных почти всюду на компакте измеримых функций. Обозначим через ЛгсМг множество линейных функционалов, весовые функции* которых а(Л) почти всюду ограничены констан- той и почти всюду неотрицательны на Т: Лт = {/: 0<aU)=^l (modX)}. Множество Ат выпукло и замкнуто в пространстве Mj» 197-
Задача оптимального планирования эксперимента для моде- ли (2), выделяющей n-мерное подпространство L пространства мер, с областью планирования Ат имеет важное значение для ряда физических приложений, D-оптимальный (он же GAt- опти- мальный) план эксперимента определяется в этом случае со- гласно процедуре, описанной в § 2. 2. Структура функционалов D-оптимального плана. Пусть функционал 1*^АТ принадлежит спектру D-оптимального пла- на £*. Тогда существует такая мера что весовая функ- ция a*(D функционала Z* есть индикатор множества положи- тельности меры ф*. Множеством положительности меры ф назы- вается наибольшее множество Т+ cz Т такое, что. для любого из- меримого подмножества Т'^Т+ справедливо неравенство фСТ7') > >0. Очевидно, ср(Т+) = sup ф(Т"), где верхняя грань берется по всем измеримым подмножествам основного компакта Т (носите- -ля ф). Вводя плотность /*(О меры ф* относительно меры Лебега X, можно записать (1, /*(0>0» а* ~ (о, /*(о<о. 3. Градиентный и экстремальный функционал, градиентный и экстремальный план. Пусть I — произвольней функционал, ле- жащий внутри множества Ат. Фиксируем некоторый невырож- денный план эксперимента g (detJ/(g)>0) и рассмотрим пове- дение дисперсии d(Z, £) как функции от I на множестве Ат. Вы- берем произвольную точку 1°?=АТ и рассмотрим семейство функ- ционалов Zz(pr) («отрезок» [Z, Z0]): Z'(p) = pZ° + (l-p)Z, OCpCl. Производная от функции d(Z, £) по направлению I9 определяется формулой d (Г (₽) Л) |р=о = 2 [Z® (Фг) - d (I, р], где ф1 — направляющая мера функционала I относительно пла- на Фг = Set 2 [М-1 (£)]„№>. . г-1 k=l Справедливо очевидное тождество Кцн) = d(Z, £)• Градиентным функционалом цля. I относительно плана £ на- зывается функционал 1+^Ат, определяющий направление наи- скорейшего возрастания функции d(Z, g), т. е. Z+(<pz) = sup Z® (<рг) = [ х£(ОйФг» 1°<=АТ Т где %? (0—индикатор множества положительности фг. Функци- онал 1+ является крайней точкой множества 4Г. 198
Функционал 1^АТ называется экстремальным относительно плана %, если он совпадает со своим градиентным функциона- лом. Экстремальный функционал I есть точка локального мак- симума функции d(Z, £). Рассмотрим теперь поведение определителя detAf(|), когда все функционалы»плана смещаются внутри множества Ат без изменения нагрузок. Пусть g = (Zf, ..., Xi, ..XjJ—невырож- денный /V-точечный план и (Z?, ..Ztv) — произвольная система А линейных функционалов, выбранных из множества Ат по одно- му ца каждый функционал исходного плана. Рассмотрим план Г (Р) =(4, 4; Xn), получаемый смещением исходных функционалов вдоль отрезков [Zj, Zj] без изменения весов; = 0<р<1, 7^1,...,АГ. Производная определителя выражается формулой л k=i где ф(5) — направляющая мера функционала Zj е supp £ относи- тельно плана она зависит только от исходного плана. Если все Xj > 0, то набор функционалов (it. • • - . In),' где if есть градиент- ный функционал для Zj, определяет направление наискорейшего возрастания detJ/(V)« План — (Zf, ..., In, Xn ..., Х^), по- лучаемый заменой всех функционалов некоторого невырожден- ного плана на соответствующие градиентные функционалы, на- зывается градиентным планом для плана g. План £ называется экстремальным, если он совпадает со своим градиентным пла- ном, т. е. сосредоточен на экстремальных функционалах. Оче- видно, экстремальный план не может быть улучшен непрерыв- ным изменением своих функционалов. 4. Алгоритм поиска D -оптимального плана в пространстве мер. Укажем сначала итерационный процесс, переводящий лю- бой невырожденный (detJf(g°) > 0) план £° = (/?, ..., Z?v; h/, ..., Xjv) в некоторый экстремальный план без изменения па- грузок. На каждом шаге процесса следует пересчитывать функ- ционалы плана (т. е. фактически их весовые функции) по фор- мулам li+1 = !V?++ (1 - Ра) / = 1,.„.,2V, (11) где Л+— градиентный функционал для функционала Zj плана полученного на предыдущем k-м шаге процесса, а параметр 0 < Р* < 1 выбирается на каждом шаге из условия максимизации отношения определителей 199
На каждом шаге итерационного процесса (И) определитель ин- формационной матрицы det М(£к) строго возрастает и план при к оо сходится к некоторому экстремальному плану. Про- цесс (11) может сходиться к некоторому экстремальному плану и при ином выборе параметра, если только > 1 и по- следовательность не слишком быстро стремится к нулю. Описанный итерационный процесс не изменяет числа проб- ных функционалов и их веса, поэтому он должен быть дополнен некоторой процедурой пересмотра и тех, и других. В принципе такая процедура может- быть основана на идее переноса части нагрузки в точку максимума функции d(l, g) (/еЛг) (см. гл. 4)< Однако применение этой идеи непосредственно к области Ат и. даже к ее конечномерному образу Z = z(AT) затруднительно, так как область Ат cz Мт бесконечномерна, а ее конечномерный об- раз задается отображением (6) неконструктивно. Тем не менее поиск максимума функции rf(Z, £) на множестве функционалов Ат может быть сведен к задаче максимизации некоторой число- вой функции на поверхности единичной сферы в n-мерном про- странстве. Фиксируем план эксперимента | и рассмотрим множество Si <= L элементов вида п фа О “ it»» Яп), ' п , где коэффициенты ..., ап удовлетворяют условию у* • M(|)ift=l. Функция eZ(Z, £) для линейного функционала 1&АТ допускает представление tZ(Z, В) = Гт ах Z(<p)]\- Рассмотрим теперь опорный функционал множества Ли ' ' Д(ф)з= sup i (ф), Ф е Цт. Функционал Z*, являющийся решением экстремальной задачи /*(ф) тЛ(ф),' имеет своей весовой функцией индикатор множе- ства — множества положительности меры ф, а значение опор- ного функционала выражается в виде = [/(*)]+<&, т где [/(Z)]+ = max{0, /(£)},/(£) —плотность меры ф по мере Лебе- га X. Вычисляя значения опорного функционала на элементах фв^Sl9 получаем числовую функцию переменных (alf ..., ап) =* = а F(a) == й(фа), фа ^>51, a^Si, я — (ап »• >) яп): 2 (£)$&== 1L J 200
Проблема отыскания максимума функции d(Z, £) па множе- стве Ат может быть теперь решена следующим образом; сйра- ведливо представление sup d\l, %) = [max /’(zz)l2, (12) и экстремальный функционал Z*, на котором реализуется верх- няя граць в левой части (12), имеет своей весовой функцией ин- дикатор положительности меры где а* ==? Arg max F (а). Не всякое решение последней конечномерной задачи годится для восстановления функционала Z*: нужно, чтобы получающийся функционал оказался экстремальным относительно плана Эк- вивалентным условием является пропорциональность коэффици- ентов ’ ; П /» а* = с J dlk, ft=i л где Тф» — множество положительности <р* = <ра*. Использование представления (12) позволяет полностью про- вести* численную процедуру, описанную в гл, 4, для определения информационной матрицы .D-оптимального плана и получения некоторой реализации самого Оптимального плана £♦. Как из- . вестно, неприятной особенностью этой процедуры является со- хранение в спектре плана точек, полученных на начальных ста- диях итерационного процесса, что особенно осложняет задачу их последующего группирования в рассматриваемой ^функциональ- ной» ситуации. Поэтому можно рекомендовать начинать поиск с применения процесса (И) к насыщенному плану GV=*^, = тг~1). В процессе (И) веса не изменяются. После того как воз- .. можности улучшения насыщенного плана с помощью процесса (11) будут исчерпаны, следует с помощью представления (12) проверить выполнение условия оптимальности sup d(Z, £) = п. 1^АТ и если оно не выполняется, применить перенос нагрузки в точку максимума функции d(Z, g). В дальнейшем рекомендуется чере- довать этапы процедуры перераспределения нагрузки и процесса (И). В ходе вычислений можно контролировать близость плана к оптимальному с помощью известного неравенства Кифера • ew“d(z*^)<detM(g)/detM(g*), которое очевидным образом сохраняет силу в рассматриваемом ^случае. 204
§ 4. Примеры оптимальных планов для оценивания параметров распределений 1. Полиномиальная плотность на отрезке. Пусть базисные ме- ры в модели (2) имеют полиномиальные плотности относитель- но меры Лебега: de, /л(0 =-gr = Ph-i(O» где Ph(t) — полином степени к переменной t па отрезке [—1, -HL Как следует из результатов § 3, функционалам оптимального плана соответствуют индикаторы некоторых измеримых подмно- жеств основного отрезка [—1, +1]. Пбэтому весовое функции a(t) оптимального плана представляют граничные точки момент- ного пространства, порожденного ограниченными мерами, т. е. пространства фп = = (с1т ..., сп): ck = J fk (t) a (t) dk (/), к — 1, ..., где a(t) пробегает множество Ф всех борелевских измеримых функций, подчиненных условию О С a(t) < 1, [—1, +1]. Пусть а е Ф — функция, принимающая значение 1 на конеч- ном числе интервалов и 0 в остальных точках. Точки, в которых функция a(t) изменяет свое значение (т. е. концы интервалов постоянства), называются узлами функции a(t). Индексом функ- ции a(t) называется число отдельных невырожденных интерва- лов, на которых a(f) = 1, при условии, что интервал, замыкание которого содержит концевую точку основного интервала, счита- ется за 1/2. Индекс 7(c) произвольной точки сефп определяется как минимальное значение индекса, соответствующее тем * функ- циям а(£), которые принимают значения 0 и 1 и представляют точку с. Известна следующая характеризация границы моментного пространства Фп и соответствующих функций а(£), т. е. факти- чески весовых функций оптимального плана, для чебышевского базиса {Д(Ш: необходимым и достаточным условием для того, чтобы точка с = (ci, ..., сп) принадлежала границе пространства Фп, является условие 7(c) С (п — 1)/2. Более того, каждая гра- ничная точка соответствует единственной функции а^Ф (с точ- ностью до эквивалентности относительно меры Лебега). Указанная характеризация сводит задачу планирования к конечномерной задаче максимизации в пространстве размерно- сти 27(c) X п = n(n — 1), считая за параметры свободные концы интервалов. Пример 2. Линейная плотность на отрезке. Выберем ба- зисные плотности на отрезке [—1, +1] в виде fi(t) = t. Граничные точки моментного пространства характеризуются ус- ловием 7(c) С 1/2, т. е. весовая функция граничного функционала 202
может быть либо индикатором простого интервала, примыкающе- го к концу основного отрезка, либо индикатором всего отрезка [—1, +U (по соглашению в этом случае индекс принимается за пуль). Фактически необходимо рассмотреть два семейства весо- вых функций: (1, — 1^ /С. a*iW = |o, {1, О, - Оба семейства содержат индикатор отрезйа [—1, +1L Применяя; отображение (6) к функционалам с указанными весовыми функ* циями, в силу приведенной выше характеризации получим гра- ницы области Z == г(Лт) cz R2. Эта область в координатах (z0, zj ограничена ветвями двух симметричных относительно оси z0 парабол: / Я? \ zx = ± I ~2--Zq I, 0 z0 2., • Из соображений симметрии оптимальный план & может со- стоять только из следующих трех точек: точки z° : zJJ = 2, z? «== О с весом Хо; и двух точек z± : z^ = z, zf = ± (z — z2/2) с весом = (1 — Xo)/2 каждая. Максимизируя определитель detJf(g) относительно параметров z и Хо, получаем, что координата z должна быть положительным корнем уравнения z2 + 2z — 4 = О, т. е. z = V5 — 1 = 1,236067, при этом • Ло == (2 - z2)/(4 - z2) = (V5 - 2)/( V5 - 1) - 0,190983, Х± = 0,404508. Переходя от точек области Z к функционалам, получаем, что точке z° соответствует весовая функция aQ(t) « 1 (t & [~!, +U); точке z+ — весовая функция (0 с z — 1 >= 0,23607, точке z“ — функция «х2 (0 с х2 = 1 — z == —0,23607. 2. Линейная плотность на круге. Рассмотрим в качестве но- сителя распределения Т круг радиуса 1: + ^2 1» а модель (2) для неизвестной плотности распределения запишем в виде /(/) = 0о + 61/1 + 02/2. Поскольку функционал оптимального плана должен иметь в ка- честве весовой функции индикатор множества положительности некоторой меры с линейной плотностью, ясно, что указанное множество должно иметь вид кругового сегмента. Каноническая 203
область планирования ZczR3 в силу симметрии задачи имеет форму тела вращения с осью z0 и образующей, описываемой кри- вой в параметрическом представлении: = у -т Arcsin р — р /1 — z0 е [0, nJ, — 1 <2 р 1, при этом координата z0 равна площади кругового сегмента, пред- ставляющего граничную точку множества Z, а параметр р опре- . деляет высоту сегмента: h — 1 — р'. Вся масса оптимального пла-. на должна быть симметрично распределена на окружности, по- лучаемой в результате сечения указанного тела вращения пло- скостью, перпендикулярной к оси z0 на расстоянии z0 > п/2 от начала. Более точдо, параметр р* для соответствующего сегмента должен быть корнем уравнения _ 1 5 <р*\ ’ ' Р 2 z0(p*)' что дает р* = —0,167686, а площадь «оптимального» сегмента по 4 отношению к площади круга составляет величину z*/n= = 0,60625. D-оптимальный план с минимальным числом точек состоит из трех функционалов указанного вида, сегменты кото- рых повернуты под углом 120° друг относительно друга, и веса указанных функционалов все равны 1/3. 3. Оптимальные планы взвешивания. Пусть распределения в модели (2) определены на некотором компакте Т. Фиксируем разбиение этого компакта на непересекающиеся множества {Tk}k==i Я рассмотрим базис из ступенчатых функций: de г 4 ч 1Г = fh (0 = K(Tk) где % Jf) — индикатор множества Tkt X —мера Лебега. D-опти- мальный план для указанной модели состоит из функционалов, весовые функции которых являются индикаторами множества положительности некоторых линейных комбинаций базисных функций, т. е. фактически индикаторами некоторых объединений подмножеств исходного разбиения. - Ограничиваясь функциона- лами указанного вида, получаем, что задача оценивания пара- метров модели (2) эквивалентна задаче взвешивания п предме- тов с весами (0Ь ..., 0J на одночашечных весах. Каноническая область представляет собой куб Z « {z = (zi, ..., zn): 0 Zi < 1, i==l,..., п), где Zi — «доля» i-ro предмета, взятая для взвешивания. Так как куб является выпуклой оболочкой своих вершин, оптимальный план & можно считать сосредоточенным в вершинах куба. Из- 204
вестно, что оптимальный план взвешивания имеет информаци- онную матрицу вида (/„ + Е„), п = 2v - lt = п”+2 ' ‘ где 1п — единичная матрица порядка п, Еп — матрица п X п, со- стоящая из одних единиц, v—целое число. Точками оптималь- ного плана могут служить вершины куба, координаты которых содержат Z* единиц и п ~ I* нулей, где • п 4- 2. п п —£— или у, п = 2v, причем нагрузка должна быть равномерно распределена между всеми указанными точками. Если существует матрица Адамара порядка п + 1, то может быть построен оптимальный план взве- шивания п предметов, включающий ровно п наблюдений. Пусть Яп+1— матрица * Адамара порядка п + 1 в стандартной форме (1-й столбец и 1-я строка содержат только +1), определим мат- рицу А =—у Hn+i + у ^п+Х* Матрица А в первой строке и первом столбце. содержит одни пули, остальные элементы могут иметь значения 0 и 1. Нижний правый блок п X n-матрицы А является матрицей Р-оптимально- то плана взвешивания, причем строки соответствуют наблюдени- ям (Aji = 1 — t-й предмет кладется на весы при у-м взвешивании). Нагрузки всех наблюдений одинаковы. Возвращаясь к функци- оналам Д-оптимального плана £*, получаем, что весовая функция у-го функционала есть (0 «= 2 (0> 7 1» е « »» Я» г=1 § 5. Планы для оценивания одного из параметров регрессии, связь с теорией наилучших приближений 1. Постановка задачи планирования эксперимента. Пусть в модели (2) выделен один параметр - ’ * <р — во^о + 2 0i^t» (13) i=i где во, .., еп — линейно независимые элементы полного нор- мированного пространства Ф. Пусть 3? Ф* —- область планиро- вания в сопряженном пространстве. Требуется найти план экспе- . 205
римента из условия минимальности дисперсии НЛН-оценки для параметра 0О. Пусть Z cz Rn+1 — множество векторов, получаемое аналогично (6): , Z = {z == (zOi z{, ..zn): Zi = Х(в»), i = 0, 1, ..n, X & 3?}. Если множество планирования 31? ограничено по норме простран- ства Ф* и замкнуто, то множество Z компактно. Информацион- ная матрица любого плана g может быть получена как информа- ционная матрица некоторого плана на области Z: М (|) = а= J zzT£z (dz). Условие минимальности дисперсии оценки пара- Z метра 0о эквивалентно следующей задаче минимакса для обла- сти Z: infl)(0o)= sup mini 6 НИ п 2 Т —1 z0 — 2 Cizi lz (dz) i=l J 2. Эквивалентность задаче аппроксимации. Рассмотрим задачу о наилучшем приближении элемента е0 в модели (13) линейными комбинациями остальных п элементов (е1? ..., еп).: п I п sup X (е0) — 2 с*Х («О — min sup X (е0) — 2 сг% . Хей? 1=1 I с Хе^ г=1 Положим Ый? = SUP |Х(ф)|, ФеФ- хе а? Условие наилучшего приближения может быть записано теперь в стандартном виде п II п II е0-5 =min е0 —2 (14) 1=1 ||Я? С 1=1 \\Я7 Пусть с* = (с*,..., — вектор коэффициентов в задаче наи- лучшего приближения (14) и В = {X*} <= Я? — множество функ- ционалов, на которых достигается максимальное уклонение для элемента 'наилучшего приближения, т. е. функционалов вида X*: (п «о — 5 i=l Тогда существует точечная мера В* = (X*, ..., X*; Х1? ..., Хг), сосредоточенная на множестве В, удовлетворяющая условиям ортогональности 2 [^*(^)-2Л*(ео1х*(^)Л; = 0, к = (15) 6=i L 1=1 J Мера с указанными свойствами и дает оптимальный план для оценивания параметра 6© в модели (13). 206
Таким образом, задача планирования эксперимента для оце- нивания одного параметра регрессии полностью сводится к за- даче наилучшей аппроксимации в специальной метрике, согла- сованной с областью планирования ЗВ в сопряженном функцио- нальном пространстве Ф*. Дальнейшие результаты связаны с конкретным выбором пространств (Ф, Ф*). При этом в зависи- мости от природы этих пространств оптимальный эксперимент может включать различное число наблюдений, в частности мо- жет позволять или не позволять оценивать остальные п пара- метров регрессии. 3. Пространство Сх— чебышевская аппроксимация. В класси- ческой теории планирования эксперимента, как уже отмечалось в § 1, в качестве основного пространства Ф выбирается прост- ранство Сх непрерывных функций па компакте X. Множество планирования ЗВ. cz Сх в сопряженном пространстве состоит из функционалов вида Хж(ф) = ф(я), х^Х. В этом случае задача (14)— классическая задача чебышевского приближения в равномерной метрике (норма пространства Сх) hila? = тах|ф(х)|. • хех Если компакт X представляет отрезок числовой оси [а, Ы и при этом базис подпространства (ei, ..еп) в модели (13) —чебы- шевский на отрезке [а, Ы, то оптимальный план включает ровно п + 1 точек чебышевского альтерпанса и позволяет в принципе оценить все параметры модели. Веса плана должны быть вы- браны из условия ортогональности (15), что вместе с условием нормировки как раз составляет п + 1 условий для определения п + 1 нагрузок. 4. Пространство Z/2* Выбирая в качестве основного простран- ства Ф пространство L^T) функций на компакте Т, интегрируе- мых с квадратом относительно некоторой положительной меры!, получаем Ф* = £2(Л. Рассмотрим в качестве множества плани- рования единичный шар сопряженного пространства, т. Q. мно- жество функционалов вида ЗВ = IX : X (ф) — [ х (t) ф (/) dK (t) = (х. ф), J | х (t) |2 dk 1L I т т } В этом случае норма [1-Ц^ совпадает с нормой основного прост- ранства Z/2(T), а решение задачи наилучшего приближения (14) дается ортогональной проекцией элемента е0 на подпространство <2?(ei, ..., еп). Вектор коэффициентов наилучшего приближения получается из системы линейных уравнений п 3 С* (eb ek) = (е0, ек), к = 1, i=l 207
Оптимальный план сосредоточен па единственном функционале I Х*(.) = (х*, -), I л*(')-«•<')-<') Условия ортогональности (15) выполняются при этом автомата-* f1 чески. Наблюдение функционала X* позволяет оценить только f параметр 0О, остальные параметры не оцениваются. | j 5. Пространство Llr Рассмотрим ситуацию, описанную в § 3> Ф = Li(T), 3S ^L^T)' — множество положительных ограничен- > ных функционалов Ат. Норма, порождаемая множеством Ат, не совпадает с нормой пространства АДГ), но топологически ей эк- вивалентна. Пусть теперь /*(£)— «полипом» наименьшего укло- нения в аппроксимационной задаче (14) с метрикой На?2 /*(<) =/о(0-2 t\ i=l где /о, Л, ..., fn — плотности базисных распределений относи- f тельно меры Лебега. Тогда в качестве множества В фупкциопа- '• лов плана можно взять множество, состоящее максимум из двух f 1 функционалов Х+ и Х~, весовые функции которых суть индика- торы множеств положительности и отрицательности долинома /*(*): (/) = .[ (О/(W*), ! т . • (Г /*(0>0> _ . хЛ <0 = |о,/*(«)<о, Х/*(Э = 1-Х/*(О. Для любого 0 р 1 введем числовую функцию ’ । {рх, х О, (р-1)х, х^О и рассмотрим семейство аппроксимационных задач вида (14) в ? I несимметричной метрике ||/[|р = f 1/(0 |pdX (t). Тогда: т. т 4; 1) Задача аппроксимации (14) с нормой ||-||лг эквивалентна ? задаче аппроксимации в норме ПРИ некотором 0^р*^1; ;; при этом, если 0<р*<1, то выполняется условие Х+(/*) == 4. « — Х~(/*), где /♦ — полином наименьшего уклонения: । 2) оптимальный план для оценивания параметра 0О сосредо- 4 точен на функционалах Х± с весами р* и 1 — р*: 11 £* = (Х+, Х-; р*, 1-р*), при этом не исключаются случаи р* = 0 и р* = 1. Условия орто- гональности (15) выполняются автоматически, и наблюдения не содержат информацию о мешающих параметрах. j Литература к гл. 7: [6*, 41, 45, 55, 62*, 92*] < 208 .
ГЛАВА 8 НЕКОТОРЫЕ ЗАДАЧИ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТОВ ДЛЯ СЛУЧАЙНЫХ ПРОЦЕССОВ И ПОЛЕЙ Известно много задач наблюдения и анализа случайных про- цессов и полей, так или иначе связанных с выбором числа и расположения отсчетных точек, в которых регистрируются зна- чения поля (процесса). Типичным примером могут служить наблюдения метеорологических полей (температуры, давления и т. д.),- проводимых в отдельных точках земной поверхности. Фик- сируя некоторый критерий информативности таких наблюдений, приходим к задачам оптимизации, запоминающим задачи плани- рования эксперимента, однако по существу эти задачи носят ап- проксимационный характер. Несмотря на сравнительно большое число публикаций, известные результаты, по-видимому, не явля- ются окончательными. Ниже приводятся в основном постановки задач планирования, связанных с изучением случайных процес- сов и полей, иллюстрируемые некоторыми типичными резуль- татами. < § 1. Планирование регрессионного эксперимента с коррелированными наблюдениями 1. Оценивание единственного параметра регрессии в коррели- рованном шуме. Простейшей задачей оптимального выбора от- счетных точек для наблюдения случайного процесса является следующая. Пусть на отрезке Т = [0, 1] задан случайный про- цесс .. zZ(/)=0/(/) + 8(z), t<=T, ,> • (d где /(i) — известная функция, 0 — неизвестный параметр, sU) — случайный процесс второго порядка с пулевым средним и кова- риационной функцией K(s, t) ~Ee(s)e(t) Предположим, что ядро K(s, t) образует несингулярную матрицу при4 сужении на любое конечное множество точек из Т, и что процесс е(О непрерывен в среднем на Т. Пусть далее Ти = {^, < £2< ... < in < 1). Вектор наблюдений Yn образуется отсчетами процесса y(t) в точках множества Тп: Yn = (y(ti), ..., i/Un))T, п./р. С. М. Ермакова 209
аналогично /„ = (/(^), ...» и Кп = (K(tb ^))?Л==1. НЛН- оценка параметра 0 по наблюдениям Yn есть 0 = стУп, где с' =,K^n/UnKn'fn), и дисперсия этой оценки равна D(Q) = == fnK~xU При добавлении новых отсчетных точек дисперсия наилучшей оценки не возрастает. Наша ближайшая цель состоит в том, чтобы придать смысл оптимальному выбору множества отсчетных точек Тп. Пусть функция f(t) в модели (1) непрерывна на Т, обозначим |/r = sup/^7n, (2) где верхняя грань берется по всем конечным наборам Тп. Класс функций ^F == {/I 11/11 < оо} является гильбертовым пространством с нормой (2), порожденной ядром К. Это гильбертово простран- ство называется гильбертовым пространством с воспроизводящим ядром К (ГПВЯ) (см. гл. 9). Если (•, -)к — скалярное произве- дение, ассоциированное с нормой (2), то: 1) при любом t е Т функция К( -, t) 2) для любой функции /е<?“ и любого t^T имеем (/, АХ-, £))к ==/(£)—воспроизводящее свойство. Пространство & представляет собой класс функций регрес- сии, для которых всем конечным наборам наблюдений соответ- ствует минимальная дисперсия линейной оценки параметра 0, отделенная от нуля. Точнее, пусть zn — c^Yn — НЛН-оценка па- раметра 0 в модели (1) по наблюдениям на Тп\ тогда существует такая случайная величина z, что £0z-0, Z?0(z — 0)2 = ll/lh2, Если функция регрессии /^^F, то дисперсию паилучшей оценки следует считать нулем. Таким образом, пространство ST есть пространство регулярных сдвигов процесса е(£) (см/гл. 9). Если процесс е(£) непрерывен в среднем, то K(s, s) + K(t, t) - 2X(s, t) = IIK( •, 5) - K( •, t)H2 0, t s, откуда в силу воспроизводящего свойства следует, что простран- ство ST состоит из непрерывных функций и является сепара- бельным гильбертовым пространством. Пространство изоморф- но подпространству в L2(T), натянутому на «реализации» слу- чайного процесса e(f), т. е. порождается всевозможными линей- ными комбинациями (5t, 0 Рассмотрим теперь проблему оптимального выбора конечного набора Тп. Пусть Sn = {TJ — множество всех конечных наборов, содержащих ровно п различных точек. Оптимальный п-точечный план для модели (1) определяется как набор = Arg sup ||/||Tn, Тп^п где норма ||-||гп» соответствующая набору (плану) 7П, порожда- 210
ется квадратичной формой с матрицей Кп\ Если обозначить через гильбертово пространство с нормой I|-||n= SUP 11‘1|тя> т0 If/К = ||^тп/1„, где Ртп — проектор в прост- rneSn ранстве на подпространство, натянутое на {К(-, t), t<^Tn}. Из-за непрерывности процесса Р ,f-*~P ,,f при Т'п-+Тп Тп Тп I — 1, т. е. ||—непрерывная.функция на множе- стве га-точечных наборов Sn. Так как замыкание Sn — (J Sr г^п содержит планы с меньшим числом точек, то существование оп- тимального строго n-точечного плана Тп фактически представ- ляет некоторое, вообще говоря, трудно проверяемое условие на процесс е(£). Конструктивные результаты в этом направлении отсутствуют, за исключением важного частного случая, когда при некотором п < <» выполнено Н/НЛ = И/II. План Тп с наименьшим п, для которого 11/Нп = Н/Il, называется глобально-оптимальным планом. Необходимым и достаточным ус- ловием существования глобально-оптимального плана при неко- тором п является представление / (0 ~ г==1 причем набор (th .tn\ фигурирующий в написанном представ- лении, и. есть соответствующий глобально-оптимальный план. Заметим, что понятие глобально-оптимального плана очевидным образом переносится на случай произвольного компакта Т. При отсутствии глобально-оптимального плана для поиска точного n-точечного плана Тп можно (при сравнительно неболь- шом числе точек) применять прямые численные методы поиска максимума величины || / \\тп как функции отсчетных точек. 2. Асимптотическая оптимальность. Так как всегда || /|| = == lim||/||n, то представляется естественным ослабить требование П->ОО точной оптимальности плана при каждом п до асимптотической оптимальности последовательности планов {Тп, п <»}. Пусть в модели (1) /(£)-—непрерывная функция, допускающая представ- ление 1 / (i) = J К (s, t) <р (s) ds, (3) О где функция <p(s) также предполагается непрерывной на Т = = [0, 1], так что в частности /е^*. Последовательность планов 14* 211
{Тп, называется асимптотически оптимальной, если г ^~\ртп^ . 11Ш — -*----ц-- == 1, П-»00 | / |Г ~/^дп j PTnf f Типичный результат относительно структуры асимптотически оптимальной последовательности планов формулируется следую- щим образом. Пусть ядро Kis, t) непрерывно на квадрате Т%Т и имеет непрерывные производные до второго порядка включительно во всех точках квадрата вне главной диагонали is=£t). На диаго- нали s = t функция имеет все правые и левые производные до второго порядка включительно и ненулевой скачок первой про* изводной: = *)>0, Sit °s stt °S ' при этом функция a(£)— строго положительна и непрерывна на Т. Пусть d2Ki-, t)/dt2^3F при любом t^T и нормы функций этого семейства ограничены в совокупности; тогда 1 ’ \ ч Пг>00 1п^^П q . Асимптотически оптимальная последовательность {Г*} опреде- ляется через плотность hit) = [а(£)<р2(£)11/3 следующим образом: J h (t) dt = " j h it) dt, i = 1, , t», nf о о где t* — наименьшее число, удовлетворяющее написанному ус- ловию. Замечание 1. Условия на ядро связаны с разрешимостью интегрального уравнения (3) относительно функции <p(s) в клас- се непрерывных функций. Примеры ядер, удовлетворяющих ука- занным условиям, доставляют семейства U-sr1 K(s, t)= J —s|}p(X)dX, 0 ~ где p(X) — вероятностная плотность на (0, °р) с условиями lim Х3р (X) = с < О, Х->ОО ’ ( [Хр' (X) + 3p(X)]2X6dX< оо, о 212
или оо K(s, О где Р(Х) — функция распределения с конечным третьим мо- ментом. Замечание 2. Результат об асимптотически оптимальной последовательности может быть распространен на функции /(£), представимые в виде г N / (0 = и (s> ф (®)ds + s акк (Sft, t), О ' откуда следует, что требование непрерывности решения интег- рального уравнения (3) является излишним? 3. Оценивание нескольких параметров регрессии в коррели- рованном шуме. Обобщение модели (1) на случай нескольких неизвестных параметров 04, .Qh имеет вид k !/W=S Oi/iCO + eG), »er = [O,lL (4) i—l где /1С0, ...» /ft(О — известные функции, а процесс еО) опреде- лен, как в (1). Каждому набору отсчетных точек Тп соответству- ет система наилучших линейных несмещенных оценок парамет- ров Oj, ..., 0ft с ковариационной матрицей Ат„> где матрица АТп порядка к имеет элементы [^Tn]rs “ .2 /г (^i) r9 s == 1/ < * • fk. Поскольку ’ множество . положительно определенных матриц только частично.^ упорядочено, нельзя гарантировать существова- ние наименьшей (в смысле соответствующего порядка) матрицы А^* для некоторого Tn&Sn. Поэтому для целей оптимизации необходимо использовать какие-либо «одномерные» критерии типа-дисперсии линейной формы от параметров, максимальной дисперсии линейной формы из некоторого компактного множе- ства таких форм или обобщенной дисперсии оценок параметров det А?*. Для того чтобы соответствующие критерии качества имели смысл, необходимо, как и в одномерном случае, чтобы функция f(t)=Ey(t) принадлежала ГПВЯ — пространству регу- лярных сдвигов процесса еО), т. е. необходимо, чтобы 1, ..., п). Относительно точных оптимальных планов поряд- ка п в этом случае также ничего не известно, за исключением ситуации, когда существует глобально-оптимальный план, т. е. все А представимы в виде конечных линейных комбинаций 213
Асимптотически оптимальные последовательности планов оп- ределяются как в одномерном случае, только вместо функциона- лов типа ||/||ти используется какой-то критерий от мат-» рицы АТп. Для построения таких последовательностей также используется представление через квантили некоторой плотности h(t), определяемой по ядру K(s, t), совокупности решений фг($). интегральных уравнений (3) для всех /< и критерию ф. Однако соответствующие конкретные результаты трудно обозримы и, ви-< димо, не являются окончательными, так как используют, вообще говоря, мало естественные предположения относительно базис- ных функций {/J. Литература к § 1: [46, 184, 185]. § 2. Оптимальная интерполяция случайных полей второго порядка Проблема оптимальной интерполяции случайного поля по за- данным значениям в конечном числе точек также является по существу проблемой аппроксимации. Пусть g(t) (t^T) — не- прерывная функция на компакте Т и Tn = {t±, U,—как и раньше, конечный набор точек (называемый планом наблюде- ний). Предположим, что g(t) является реализацией гауссовского процесса (поля) с нулевым средним EgU) 0 и заданной строго положительно определенной ковариационной функцией K(s, t) == = Eg(s)g(t) (5, t&T). Байесовская (регрессионная) оценка gn(t) для поля g(t) по данным g(ii), ..., g(tn) есть gn (0 = E{g(t)\g (tj, ...,g (tn)} = kTTn (0 Kr*gTn, где векторы kTn (t) и gTn определены следующим образом: а матрица сужение ядра K(s, t) на сетку Тп; Оценка gJJ) является наилучшей линейной оценкой поля « точке t: min Е а п |2 g(0-S =E\g(t)-gn(t)\\ 1=1 I В случае гауссовского поля оценка gn(t) оказывается наилучшей в классе всех (не обязательно линейных) оценок. Определим ме- ру качества оценки gn(t\ т. е. плана Тп, в виде средней диспер- сии ошибки прогноза по области Г: J (Тп) = Е,§ (g (t) — gn(t))*dt. т Справедлива формула J (Тп) = [ {tf (t, t) - ктТп (i) Кт'кТп («)} dt. т 214
Нижняя граница для J(Tn). при заданном п может быть ука- зана в терминах собственных чисел ковариационного операто- ра К: т Предположим, что так определенный оператор является компакт- ным симметрическим оператором из пространства L2(T) в LzkT) и соответствующие собственные числа упорядочены по величине: Xi > Х2 > ... Тогда оо П infJ(7’„)> S = \K(t, Тп i~n+l у г=1 Ничего не известно о том, достигается ли указанная нижняя граница. Тем не менее при численном поиске оптимального пла- на этот результат может быть использован, если на некотором этапе поиска окажется, что величина J(Tn) близка к своей ниж- ней границе.. Литература к § 2: [167].
ГЛАВА 9 ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТОВ, СВЯЗАННЫХ С ОБРАТНЫМИ ЗАДАЧАМИ МАТЕМАТИЧЕСКОЙ ФИЗИКИ § I. Общая постановка обратной задачи, связанной с регрессионным экспериментом 1. Обратные задачи (физический аспект). По сложившейся терминологии к прямым задачам математической физики отно- сят задачи, ориентированные по ходу причинно-следственной связи, т. е. задачи разыскания неизвестных следствий заданных причин, например определение полей во времени* и ъ простран- стве при заданных источниках, вычисление реакции прибора по известному сигналу на входе и т. п. При исследовании сложных объектов Содержание прямых задач составляет определение все- возможных внешних, т. е. доступных для непосредственных наб- людений, проявлений внутреннего состояния объекта. Обратными задачами в этом понимании оказываются задачи, связанные с обращением причинно-следственной связи, т. е. задачи отыска- ния неизвестных причин известных следствий, например, опре- деление характеристик источников поля по значениям поля в некоторых точках , или областях пространства, восстановление входного сигнала по реакции на выходе прибора и т. д. Обрат- ные задачи возникают обычно как задачи интерпретации _ тех или иных наблюдений, т. е. задачи восстановления внутреннего состояния объекта по его внешним проявлениям. Характерной особенностью большинства обратных задач яв- ляется их некорректность. Этим исторически сложившимся и не очень удачным термином обозначается особый род неустойчиво- сти решения обратной задачи к ошибкам задания исходных дан- ных, связанный с математической природой задачи. На практике, при численном решении некорректной обратной задачи, если не приняты соответствующие меры, возникают большие численные ошибки, часто совершенно лишающие результат какого-либо фи- зического смысла. Конкретными примерами некорректных обратных задач мате- матической физики могут служить следующие задачи: 216
а) Обратная задача теории потенциала, связанная, например, * с интерпретацией гравиметрических наблюдений в геологораз- ; ведке. б) Обратная задача теплопроводности, т. е. восстановление начального распределения температуры (или распределенйя ис- точников тепла) по наблюдаемому распределению температуры в некоторый более поздний момент времени. в) Класс обратных задач теории переноса излучения, возни- кающих как задачи «зондирования» протяженных сред по опти- ческим характеристикам выходящего излучения, а также задачи оптической и рентгеновской томографии, диагностики плаз- мы и т. д. г) Класс «инструментальных» обратных задач, возникающих при попытке исключить влияние измерительного прибора в оп- тической и рентгеновской спектроскопии, инструментальной оп- тике и радиоастрономии и т. д. Трудности численного решения некорректных задач породили обширную литературу, посвященную анализу устойчивости обратных задач и поискам устойчивых численных алгоритмов обращения. Однако, как показывает более внимательный анализ, некорректность обратной задачи связана по существу* с инфор- * мационной недоопределениостью. Поэтому представляется оче- видным, что одно усовершенствование численных методов не может привести к полезным результатам, если в исходных экспериментальных данных отсутствует необходимая информа- ция. Важным средством повышения реальной информативности исходных данных является оптимальное планирование экспери- мента для их получения. 2. Некорректность обратной задачи. Типичная обратная зада- ча математической физики —это решение интегрального уравне- ния Фредгольма 1-го рода ь JК (^, у) ф(х) dx == /(y)f (1) . а где ср (я) — неизвестная функция, Z<(#, у) — ядро интегрального уравнения, функция /(у) считается известной. Предположим для определенности, что все функции в соотношении (1) непрерыв- ны, и уравнение (1) имеет единственное решение для всякой непрерывной функции /(у). Подставляя в левую часть (1) вместо ср(гг) функцию С sin акт и рассматривая значения правой части при <о -> °°, легко показать, что ядро рассмотренного типа может сгладить сколь угодно интенсивную, но достаточно «высокоча- стотную» составляющую искомой функции до произвольно ма- лого уровня. Если правая часть известна точно, это не исключа- ет возможности точного решения (в силу единственности). Одт нако. наличие ошибок, сопровождающих регистрацию функции . /(у), исключает такую возможность. Действительно, пусть по условиям .эксперимента можно контролировать близость факти- 217
чески зарегистрированной функции к точному образу /(г/) неиз- вестной функции ф(лг) лишь с точностью до ошибки е: max |/(j0 — f(y)\<e. (2) l/S[c,d] Тогда, если найдется некоторая функция срДат), образ которой /1( */) удовлетворяет неравенству (2), то всегда найдется и функ- ция ф2(я) + С sin соя с произвольной большой константой С, образ которой f2(y) также удовлетворяет неравенству (2). 3. Линейная обратная задача. Линейная обратная задача формулируется математически как задача решения операторного уравнения Лф = /, f<=F, (3) где А — линейный непрерывный оператор, действующий из ли- нейного нормированного пространства Ф в нормированное прост- ранство F. Задача решения уравнения (3) называется корректно поставленной относительно нормированных пространств (Ф, F), короче, корректной, если: 1) для всякого элемента j&F существует единственный эле- мент ф;£Ф (решение), удовлетворяющий уравнению (3); 2) для любого числа б>0 существует такое число е(8)>0, что 11ф1 — <р2Иф < е(8) всякий раз, как только выполнено неравен- ство П/i ~ /2Ир 6, где 2 и Л, 2 связаны уравнением (3). Эти условия эквивалентны существованию ограниченного не- прерывного обратного оператора Л”1: Г->Ф. Если условия 1), 2) не выполнены, задача решения уравнения (3) называется некор- ректно поставленной относительно данной пары пространств (Ф, F) или, проще, некорректной. Иногда'используется ослаблен- \ ное условие корректности: задача решения уравнения (3) кор- ректна по Тихонову {условно корректна), если обратный опера- тор Асуществует и непрерывен на множестве F^F, являю- щемся образом компактного множества ФОСФ: Ро:=Л(Фо). По существу, в приведенных формулировках предполагается, что экспериментатор в состоянии контролировать уклонение фак- тически регистрируемого элемента f от его точного образа / = Лф в метрике пространства F: (4) Условие (4) фактически исчерпывает всю содержащуюся в экс- периментальных данных информацию о решении ф, т. е. обоб- щенным решением уравнения (3) с неточными данными f можно считать множество = Ml 7- с ф. (5) Без дополнительных условий это — наименьшее множество, со- держащее истинное решение ф0, т. е. тот элемент пространства Ф, с которым получены данные /. Некорректность задачи (3) 218
эквивалентна неограниченности множества Фуб в норме II • 0Ф. Тем самым задача отыскания решения уравнения (3) в обычном смысле слова, т. е. как некоторого элемента фу е Ф, оказывается недоопределенной. Доопределение задачи (3) производится различными способа- ми путем указания дополнительных условий, которым должно удовлетворять неизвестное решение ф. Совокупность таких до- полнительных условий называется . априорной информацией и включается в формулировку обратной задачи (3). Априорной информацией типа R (ограничения) будем назы- вать точное указание класса Фо допустимых решений: R: ф«=фос:ф; при этом, вообще говоря, само множество Фо не обязательно ограничено в метрике пространства Ф, например, Фо — конечно- мерное подпространство пространства Ф. Априорной информацией типа (вероятностной) будем назы- вать указание вероятностной меры, определенной на некоторой о-алгебре подмножеств пространства Ф: Р: Prob {ф е ф'} = ц(ф'), Ф'е^. Априорной информацией типа D (директивной) назовем ука- зание правйла предпочтения на множестве возможных решений: D: Ф1>ф2 (ф1 предпочтительнее ф2), если £2(ф1) ,< Й(ф2), . где Й(ф) —- некоторый непрерывный положительный функционал, определенный на плотном в пространстве Ф множестве Фь— ре- гуляризующий функционал. Практически в качестве регуляри- зующего функционала используют некоторую норму II Hi на Ф! <= Ф. Частным случаем регуляризации является регуляриза- ция в норме исходного пространства Ф: Й(ф) = ПфНФ. Регуляризацией в широком смысле называют любой способ использования априорной информации для однозначного выде- ления устойчивого решения — элемента фу Фуб, непрерывно зависящего от f. Регуляризация в узком смысле (по Тихонову) основана на использовании некоторого регуляризующего функ- ционала в рамках директивного подхода (тип D). Регуляризация в узком смысле эквивалентна минимизации регуляризующего функционала, на обобщенном решении: Фу — arg inf Й (ф). ФеФуб Вместо использования априорной информации можно осла- бить требования к решению задачи (3). В самом деле, пусть решение задачи (3), т. е. определенный элемент фёф? удовлет- воряющий уравнению (3) с заданной точностью (4), должно ис- пользоваться для вычисления тех или иных характеристик ис- 219
следуемого объекта—.функционалов а(ф) (напомним, что ф, по физическому смыслу,— описание состояния объекта). Практиче- ски наибольшее значение имеют линейные функционалы, т. е. аддитивные однородные функционалы, непрерывные в метрике пространства Ф. Множество всех линейных функционалов, опре- деленных на пространстве Ф, образует сопряженное простран- ство Ф*, норма в котором индуцируется нормой исходного прост- ранства Ф: г аенФ*: |«|.. > sup 1^< оо. Для любого множества Ф' с Ф и функционала а е ф* определим (конечные или бесконечные) границы функционала а: inf а (ф) = (а), sup а (ф) — йф/ (а)« ФеФ' ФеФ< Пусть теперь Ф* — некоторое множество функционалов. Обрат- ная задача (3) слабо корректна относительно множества функ- ционалов Фх cz Ф*, если относительный размах функционалов йз Ф1 равномерно ограничен на обобщенном решении (5): sup* (а) — кфТй (а)^ ||а|| < оо. аеФ* Слабая корректность означает, что функционалы из множе- ства слабой корректности Ф1 могут быть ^вычислены с ошибкой, непрерывно зависящей от ошибки в исходных данных. Если множество корректности Ф1 плотно в Ф*, слабо корректная за- дача корректна в обычном смысле. Слабым решением некоррект- ной задачи (3) относительно множества функционалов Ф1 назы- вается такой элемент ф, что IФ 1< Р°> « (ф) = (“))|2 Va G Ф*. Максимальное множество слабой корректности совпадает с мно- жеством функционалов вида а(ф) ===== /*(Лф) « (Л*/*)(ф), где — произвольный линейный функционал над F, Л*: F* -> ф* — оператор, сопряженный к оператору Л. Без дополни- тельной информации типа R множество слабой корректности нельзя расширить до всего сопряженного пространства Ф*. 4. Планирование эксперимента для обратных задач. Для об- ратной задачи (3) в постановке п. 3 условия эксперимента опре- деляют вид оператора Л (в той степени, в какой это допускается физической природой явлений), а также по существу метрику в пространстве наблюдений F. Смысл оптимизации эксперимен- тальных условий — планирования эксперимента для обратной за- 220
дачи (3) — состоит в такой модификации этой задачи (без изме- нения исходного пространства Ф), которая допускала бы получе- ние большей информации об объекте исследования. Этого можно достичь, в частности, после включения обратной задачи (3) в надлежащим образом обобщенную схему регрессионного экспе- римента (см. гл. 1, 2). При этом возникает глубокая связь между методами регуляризации задачи (3) и смещенными оценками (гл. 1). Принимая естественное (в рамках линейных задач) условие аддитивности ошибок эксперимента и считая помеху | случайным процессом, получаем, что вероят- ностное распределение процесса £ определяет распределение ве- роятностей вектора наблюдений f, управляемое состоянием объ- екта ф. Эта точка зрения является исходной для применения методов математической статистики к решению обратных задач рассматриваемого типа. В действительности, распределение ве- роятностей процесса g (случайного шума) порождает некоторым каноническим образом метрику в пространстве наблюдений F. 5. Случайный процесс второго порядка, пространство сдвигов и пространство линейных статистик. С абстрактной точки зрения с каждым случайным процессом, как с любым вероятностным объектом, связано вероятностное пространство /й, Р), позво- ляющее указать вероятности некоторого класса событий, инду- цированных данным процессом.^ Этим событиям (измеримым со- бытиям) соответствуют подмножества й' с: й, принадлежащие о-алгебре подмножеств множества Й. Для любого измеримого события й' определена вероятность Р(й'). Всякая измеримая функция и (о) на вероятностном пространстве (й, «Я0, Р) назы- вается случайной величиной. Выделим класс случайных величии с конечным математическим ожиданием: U == {и (со) | Ей =* J и (<о) dP < оо}. По построению класс. U — линейное множество (векторное про- странство), так как любая конечная линейная комбинация эле- ментов из U принадлежит U. Будем считать, что’вся информация о реализациях процесса заключена в значениях всевозможных случайных величин, индуцированных этим процессом — статистик * процесса,— образующих пространство U. В задачах измерения, когда рассматриваемый случайный про- цесс представляет шум измерительного устройства, интерес пред- ставляют не сами реализации процесса или, что то же, статисти- ки процесса, а изменения статистик (как случайных величии) при. поступлении полезного сигнала. Всякое изменение случай- ного процесса под воздействием внешних условий может быть описано некоторым измеримым отображением Ti й -+ й, сохра- няющим структуру вероятностного пространства. 221
Класс измеримых отображений {Тх, x^SB} назовем классом векторных сдвигов, согласованным с векторным пространством $6, если он образует группу, изоморфную группе векторных сдвигов пространства SB, в частности — Тх^+х^ч ~Ь $В • Статистика и на сдвиге х — это случайная величина их(ю) = =^и{Тхш), и математическое ожидание определено для любой измеримой статистики на любом векторном, сдвиге: Еих — J и (Тх«>) dP = J u (со) dP ° Т'х1 = ти (я). (6) Случайная величина и(ю) называется линейной статистикой от- носительно класса векторных сдвигов SB, если: 1) для любого х^-ЗВ выполнено иги(я) <°°, 2) ти(>) —г линейный функционал над векторным простран- ством SB. Все линейные статистики образуют векторное пространство Vi. Говорят, что билинейный функционал (6) приводит простран- ства SB и Ul в двойственность, т. е. они оказываются сопряжен- ными пространствами относительно этого функционала. В дей- ствительности может оказаться, что статистик из Ui недостаточно для разделения точек’Из Пример 1. Сдвиги одномерной случайной величины у = = 0! + 02 + 8 не разделяются статистиками вида и « ау, если под сдвигом понимать вектор -(0i, 02)eR2. Отождествляя «ненаблю- даемые» сдвиги 01 —02 = 0, получаем класс сдвигов i/ = 0 + e, разделяемый статистиками указанного вида/ Пусть = {х\тпи(х) =0, и е U} — подпространство ненаблю- даемых сдвигов. Отождествляя точки из SB< отличающиеся на ненаблюдаемый сдвиг xQ е SB0 (т. е. рассматривая соответствую- щие классы эквивалентности), получаем фактор-пространство SBi = SBfSBs — пространство наблюдаемых сдвигов, точки которо- го разделяются статистиками из /71. Рассматривая далее только наблюдаемые сдвиги, можно счи- тать, что каждая линейная статистика представима в виде ? и(7\<о) = тпи{х} + и (со). Кроме того, без ограничения общности будем считать случайный процесс £ центрированным относительно Класса сдвигов, т. е. для всех линейных статистик Ей [ и (со) dP = 0, и е Uv Не все линейные статистики из пространства Uv подходят для наблюдения сдвигов, так как среди этих статистик могут оказаться статистики с бесконечной дисперсией. Выделим линей- ные статистики с конечной дисперсией: {и\Еи2<о°, —/72. . | 222 j
Так как Еих =Еи2 + ти (я)2, множество U2 переходит в себя под действием сдвигов из SB. Случайный процесс £ называется слу- чайным процессом второго порядка, если существует линейная статистика с конечной дисперсией, т. е. множество U2 не пусто. Случайный процесс называется невырожденным относительно векторного^ пространства сдвигов если не существует нетри- виальных линейных статистик с нулевой дисперсией, т. е. из 2?u2 = 0 следует равенство ти(х) = 0. для всех жеЖ’р Для невы- рожденного процесса пространство U2 оказывается гильбертовым пространством статистик Ни со скалярным произведением (и, р) = Еии. Если процесс вырожден,' гильбертово пространство статистик есть фактор-пространство относительно подпространства линей- ных статистик с нулевой дисперсией: Ни = U2/UQ, U. = {иIЕй2 = 0, и е U,}. Рассмотрим теперь наблюдаемые сдвиги, ограниченные отно- сительно нормы ти (*) 2 ' SUP *"“7---------Г" (7) Обозначим множество таких регулярных сдвигов через <й?2. Фик- сируем некоторый сдвиг х^3?2, тогда тп(х) — ограниченный линейный функционал над Ни, и по теореме Рисса он допускает представление ти (х) = (я, их) У и е Ни, при этом из определения (7) следует Ы2 = (их, их) [#, #], (8) т. е. множество S32 с метрикой (8) становится гильбертовым пространством регулярных сдвигов Ях. Оператор, сопоставляющий каждому х^Нх по указанному выше правилу линейную статистику с конечной дисперсией их^Ни, называется обратным корреляционным оператором К~11: Нх Ни. Оператор определяет изометрическое отображение взаимно сопряженных гильбертовых пространств Нх и Ни. Обрат- ное отображение К: _Ни-+Нх, определяемое как хи = Ки: (u,v) = = mv(xu) для всех v^Hu, называется корреляционным операто- ром процесса. Оператор каждому регулярному сдвигу х со- поставляет оптимальную линейную статистику их = К~'х для оценивания сдвига вдоль направления х, т. е. параметра в мо- дели х$ « $х, при этом дисперсия (наименьшая в классе линей- ных- несмещенных оценок) оценки £ параметра есть .©([}) = (мЛ, ux)-1 = [.r, х]-1. 223
Отметим, что описание случайного процесса в терминах про странств Ни и Нх есть внешнее описание процесса, определяю- щее его «шумовые» свойства, т. е. выделяющее регулярные сдви- ги и соответствующие им оптимальные линейные статистики для наблюдения этих сдвигов. Если случайный процесс % задан непо- средственно своим распределением (вероятностной мерой) в ба- наховом пространстве R своих реализаций, то при некоторых дополнительных условиях корреляционный оператор может быть определен интегралом по этой мере: хи = Ки = Е^и (|) = J хи (х) ц (dx), и е Я*, R и — линейный функционал, заданный па реализациях процесса, т. е. как оператор из R* в R. Сдвиг процесса определяется при этом непосредственно в пространстве Я: Е*х = я + £. В зависимости от свойств оператора К рамки одного из пары сопряженных пространств (Я, Я*) Могут оказаться либо слишком узкими, либо слишком широкими для «вмещения» соответствен- но канонических пространств Нх и Ни. Они в этом случае стро- ятся как сужение или пополнение одного из пространств сопря- женной пары по соответствующему скалярному произведению. Если в пространстве реализаций существует ядро корреляцион- ного оператора как ковариационная функция локальных значе- ний процесса-: K(s, t)~E%(s)l(t), s,t^T, гильбертово пространство регулярных сдвигов строится как. гиль- бертово пространство с воспроизводящим ядром К. Пример 2. Вырожденный случайный процесс в простран- стве непрерывных функций па компакте ~ t^T, с непосредственно заданным ядром корреляционного оператора вида K(s, t) = <p(s)(p(f), s, t&T. Предполагается, как обычно, что £*£(£) =0. Пространство регу- лярных сдвигов Нх есть множество функций, представимых через ядро: х (t) = ^K(t, Si) di = acp (t), t. e. одномерное подпространство пространства Ст. Действитель- но, любой сдвиг х&Нх может быть восстановлен точно по един- ственной реализации процесса, т. е. не является ограниченным в норме (7). Пространство линейных статистик Ни состоит из одномерного семейства классов эквивалентности всевозможных 224
борелевских мер 4 ис = | J ф (t) du (t) — с}. , При этом, например, статистикой может служить локальное зна- чение производной настолько высокого порядка, насколько это допускают индивидуальные дифференциальные свойства функ- ции ф(£). Итак, пространство линейных статистик, будучи по су- ществу одномерным, состоит из элементов, не принадлежащих пространству Су, сопряженному к исходному пространству реали- заций Ст. ' Случайный процесс называется гауссовским, если случайные величины, порожденные линейными статистиками и Яи, явля- ются гауссовскими случайными величинами. Для гауссовского процесса метрика, задаваемая квадратичной формой (8) в прост- ранстве регулярных сдвигов, представляет предельный случай информационной метрики Фишера — Махаланобиса и может быть получена предельным переходом по конечномерным распределе- ниям процесса. 6. Обратная задача как регрессионный эксперимент. Исполь- зуя аппарат предыдущего пункта, можно сформулировать обрат- ную задачу (3) со случайным вектором наблюдений как некото- рый регрессионный эксперимент над изучаемым объектом; А именно, запишем уравнение (3) в виде f = Аф + понимая эту запись следующим образом: 1) Вектор наблюдений f является случайном процессом, по- рожденным сдвигами стандартного случайного процесса второго порядка £ (шума) с нулевым математическим ожиданием и кор- реляционным оператором К. 2) Оператор А отображает пространство состояний Ф (Полное нормированное пространство) изучаемого объекта в гильбертово пространство НХ[К] регулярных сдвигов процесса Случайный процесс второго порядка каноническим образом порождает два изометричных гильбертовых пространства — про- странство Нх регулярных сдвигов и пространство Ни линейных . статистик с конечной дисперсией, сопряженных друг к другу от- носительно билинейного функционала (6). Линейная статистика * и <= Ни называется несмещенной оценкой линейного функционала а(ф) (а Ф*), если для любого ФеФ ЕиА<9 и^и(Лф) ===== а(ф). Оператор А*: IIи Ф*, сопоставляющий* каждой линейной ста- тистике из Нч тот функционал из сопряженного пространства Ф\ несмещенной оценкой которого эта статистика является, на- зывается оператором, сопряженным к оператору А. Множество функционалов, допускающих несмещенную оценку с конечной 15 п./р. С. М. Ермакова ' 225
дисперсией, совпадает с множеством значений сопряженного опе- ратора A*(HU) cz Ф*. 7. Статистически корректные задачи, наилучшая линейная несмещенная (щенка функционала. Если множество функциона- лов, допускающих оценку, совпадает со всем пространством Ф*, т. е. любой ограниченный линейный функционал допускает не- смещенную оценку с конечной дисперсией, задача называется статистически корректной. Условие статистической корректности можно записать как условие разрешимости уравнения Л*и = а. (9) Для разрешимости уравнения (9) необходимо, чтобы область зна- чений оператора А* совпадала со всем пространством Ф*; А*(Яи)=Ф*. Область определения оператора Л* есть, очевидно, все простран- ство Ни. Если уравнение (9) имеет единственное решение при любой правой части, то из полноты пространств Ни и Ф* сле- дует ограниченность обратного оператора (А*)-1, при этом иа = (А*)“!а * есть единственная несмещенная оценка функционала а, имею- щая конечную дисперсию. Если решение уравнения (9) не единственно, то наилучшей линейной несмещенной оценкой функционала а будет решение этого уравнения — статистика и, удовлетворяющая дополнитель- ному условию минимальности дисперсии: (и, и) = inf (и, и). иеНи,А*и=^=а Пусть Н = {и|и = К~1Ауч Ф) - подпространство прост- ранства статистик, порожденное «переносом» в него простран- ства Ф. Необходимым и достаточным условием минимальности дисперсии является включение^ й е т. е,-существование такого элемента ср е Ф, что й = К-1Аф. Условие (9) при этом принимает вид [Лф, Аф] == а(ф). При фиксированном элементе ф левая часть написанного равен- ства — функционал над Ф, т. е. элемент а- Ф*, однозначно определяемый элементом ф. Вводя оператор G, осуществляющий указанное соответствие, получаем уравнение для определения элемента ф по заданному функционалу а: С?Ф = а. При описанной ситуации линейный оператор G действует из Ф в пространство Ф* таким образом, что: 226
1) область его определения есть все пространство Ф; 2) область его значений есть все пространство Ф*; 3) отображение G: Ф -> Ф* взаимно однозначно. Поэтому существует органиченный обратный оператор G’1: ф* Ф, т. е. искомая наилучшая несмещенная линейная оценка функционала есть статистика • u = K~iAG~iat (10) Дисперсия наилучшей несмещенной оценки функционала выра- жается в виде квадратичной формы от этого функционала (и, и) = a(G“4a). Оператор G представим в виде произведения G = А*К~1А, поэто- му, в частности, он вполне непрерывен, если вполне непрерывен оператор А. Из существования непрерывного обратного операто- ра G-1 вытекает, что необходимым условием статистической кор- ректности обратной задачи для вполне непрерывного операто- ра А является конечная размерность пространства состояний Ф. 8. Слабое и сильное решения статистически корректной зада- чи, оценки метода наименьших квадратов (МНК). Представление дисперсии наилучшей несмещенной оценки показывает, что опе- ратор G-1 играет роль корреляционного оператора некоторого случайного процесса с реализациями, лежащими в простран- стве Ф. Случайный элемент ф пространства Ф называется сла- бым решением статистически корректной обратной задачи, если для любого функционала а^Ф* случайная величина а(ф) есть наилучшая линейная несмещенная оценка этого функционала. При тех же условиях элемент ф называется сильным решением порядка р, если ~ . Е’НфНр < ос.. Слабое решение обратной задачи может быть легко построено в явном виде, если пространство Ф есть сепарабельное простран- ство с базисом. Более того, предположим, что {фц ..., фь, ...} — полная система линейно независимых элементов пространства Ф — является безусловным базисом этого пространства. Это зна- чит, что ряд оо S “i (ф) а (ф{), г—1 где {aj — биортогональная система элементов сопряженного про- странства Ф*, сходится абсолютно для любых а <= Ф*, ф <= ф. Если при этом Ф* также сепарабельно, то система функциона- лов {aj будет безусловным базисом пространства Ф*, т. е. лю- бой элемент а Ф* может быть единственным образом представ- лен в виде сходящегося ряда оо a = 2 ciai> ^ = а(<р{), 1 = 1, ... i=l 15* 227;
Пусть, далее, {uj — система наилучших несмещенных оценок базисных функционалов {аД: u^K^AG^ai. Тогда слабым решением обратной задачи будет случайный про- цесс °° Ф “ 2 ^гфг» 1=1 где {uj — случайные величины, соответствующие статистикам {nJ. Можно считать, чтц выборочное значение случайной вели- чины йг получается при. вычислении линейной статистики н, от реализации процесса f — Aq + %. Действительно, для любого функционала а е Ф* значение а(ф) на реализациях процесса ф является несмещенной оценкой с минимальной дисперсией; £а(ф) = 2“(ф«)“«(ф) = «(ф)> 1 Da (<р) = 2 « (ф<)«(фл) «ft а (G-1a), i,k при этом для любых а, £ Ф* cov (а(ф), £(ф)) = == p(G“‘a), т. е. G~l — корреляционный оператор процесса ф. Вопрос о суще- ствовании слабого решения в пространствах, не обладающих без- условным базисом, например С й Llt требует специального ис- следования. Для того чтобы построенное выше слабое решение было силь- ным решением конечного порядка р, нужны дополнительные ус- ловия. Так, найденный выше процесс ф будет сильным решением второго порядка, если сходятся ряды Shih 2|«|(ф)12. В конечномерном пространстве Ф вопрос о сходимости рядов не возникает, и там слабое решение всегда будет сильным реше- нием второго порядка. В этом случае процесс (случайный век- тор) ф называется оценкой метода наименьших квадратов (оцен- кой МНК) (ср. гл. 1), так как оп может быть найден формаль- ной минимизацией по параметрам 0t, ..0П квадратичной формы 17 — 2 Мф<» 7—2 0Мфй . L i=l Ь=1. Получаемые при этом оценки 9Ь ..0П также называются оцен- ками МНК\ а решение ф имеет вид п ф = 2 о»ф{. »=1 228
Возникающая при этом матрица с элементами Mik = = [фЪ <pfe], г, &==1, ..., п, называется матрицей системы нормальных уравнений МНК или информационной матрицей МНК (ср. гл. 2). 9. Статистически некорректные задачи, наилучшая линейная смещенная оценка функционала. В общем случае не все линей- ные функционалы из пространства Ф* допускают несмещенное оценивание. В этом случае обратная задача называется стати- стически некорректной. Так, если оператор А вполне непреры- вен, а пространство Ф бесконечномерно, обратная задача не мо- жет быть статистически корректной. В этой ситуации для оце- нивания функционалов, не допускающих несмещенного оценива- ния, используются смещенные оценки. Линейные смещённые оценки могут иметь ограниченное смещение только при допол- нительной априорной информации типа R: фефосф, где Фо — ограниченное множество в метрике пространства Ф. Пусть множество допустимых решений Фо, кромз того, сим- метрично относительно нулевого элемента. Определим калибро- вочный функционал множества Фо: й(а) = sup |а(ф)|2, аеФ*. (И) ФеФ0 Он определен на всех элементах сопряженного пространства функционалов, положителен, однороден степени 2 и ограничен в силу ограниченности множества Фо. Предположим, что множе- ство Фо является тотальным для Ф*, т. е. соотношение Q(a)=0 может выполняться только для нулевого элемента а = 0 (нуль пространства Ф*). Другими словами, норма ||a||i = Q(a)1/2 = sup |a(<p)| - <₽еФ0 эквивалентна исходной норме в пространстве Ф*. Для функционала а^Ф* наилучшая линейная оценка (ли- нейная статистика) иа « Ни определяется из условия ua = arg inf sup E | u4<p — a (ф) |2 = UGHU <рвФ0 = arg min f sup | mu (Аф) — a (ф) |2 + (u, u)V (12) UGHU 1ф(=Ф0 / при этом нижняя грань достигается в сиду полноты пространст- ва статистик Ни. Множество Фо называется невырожденным эл- липсоидом пространства Ф, если его калибровочный функционал (11) эквивалентен норме и может быть представлен в виде квад- ратичной формы с помощью ограниченного линейного опера- тора J: Й(а)=а(ЛД /:ф*->фа (13) <229
Оператор J, определенный согласно (13), называется калибровоч- ным оператором. Порожденная им норма является гильбертовой и соответствует скалярному произведению [а, 0Ь = а(/р) = рС/а). (14) С помощью калибровочного оператора условие минимума (12) . может быть записано в виде mv{AJA*u) + (u, v) = mv(AJa), которое должно выполняться при любом и^Ни. Отсюда, исполь- зуя общую форму линейного функционала в пространстве Ям, получаем уравнение для наилучшей линейной оценки (статис- тики) K~lAJA*u + и = Kr'AJa. (15) Левая часть уравнения (15) содержит оператор Ни-^Ни, опре- деленный на всем пространстве Ни. Этот оператор. ограничен и множество его значений есть все пространство Яи, кроме того, решение уравнения (15) единственно; следовательно, указанный оператор имеет ограниченный обратный *па==(Л/Л* + Ю-МУа. - (16) Линейная статистика иа, определенная соотношением (16) для • любого функционала и есть искомая наилучшая линей- ная смещенная оценка функционала а. Заметим, что при построении оценки (16) может быть исполь- зован, вообще говоря, любой калибровочный оператор с указан- ными выше свойствами. В частности, в рамках априорной ин- формации типа Р роль калибровочного оператора играет корре- ляционный оператор априорного распределения ц(-) в прост- ранстве решений. 10. Информационный оператор и канонический базис регрес- сионного эксперимента. Структура регрессионного эксперимента (обратной задачи) при наличии априорной информации, задава- емой с помощью калибровочного оператора /, может быть пред- ставлена следующим образом: ‘ А * Ф-*Ях 4 л. Ь- (17> <!>•—Л стрелками, как обычно, указано направление действия соответ- ствующих операторов. Как видно из схемы (17), ни один из ос- . новных операторов задачи не действует «внутри» одного прост- ранства, т. е. ни один из этих операторов не может иметь собственных элементов. Однако система всех четырех обозначен- ных на схеме операторов образует замкнутый цикл, т. е. их произведение, взятое в надлежащем порядке, действует «внутри» каждого из пространств, приведенных на схеме, и, следователь- 230 ' .
по, может иметь собственные элементы в соответствующем про? странстве. Рассмотрим произведение, действующее в исходном прост- ранстве состояний объекта: Ф->Ф, где G = A*K-iA: ФФ* — введенный ранее в п. 8 метрический оператор, и сформулируем проблему собственных значений: JGq)fc = Xfc<pft. • . (18) Если G — вполне непрерывный оператор, то проблема (18) име- ет по крайней мере одно решение фь принадлежащее самому пространству Ф (а не его пополнению по гильбертовой норме 11ф11н = 1(Сф)(<р)11/2, как можно было бы ожидать из формальных соображений). Соответствующее собственное значение положи- тельно: X -sun A1-sup (е<р)(<р) >и- Далее, множество собственных значений не более* чем счетно: и, если их число бесконечно, имеет нуль точкой сгущения Хп ->0 (л->оо). Размерность инвариантного подпространства, соответст* вующего любому отличному от нуля собственному значению, ко- нечна. В дальнейшем для простоты записи будет предполагаться, что эти подпространства одномерны, т. е. имеется с точностью до нормировки всего один вектор ф&, удовлетворяющий (18) при данном значении Обозначим СфЛ = а*е= ф*. Тогда системы {фЛ} и {аЛ} биортогональны, более того, они обладают «двойной» ортогональностью, т. е., во-первых, ал(ф,)=0, во-вторых, при нормировке ал(фА) = 1 (к = 1, 2, ...) /г \ л / \ |0, «л (^*0 = kkak Ы = i i = Ab Оператор JG называется информационным оператором регрес- сионного эксперимента (обратной задачи), а система элементов {фл} — каноническим базисом пространства Ф. Перенос системы {фл} вдоль цикла, обозначенного на схеме (17), порождает кано- нический базис в каждом из остальных пространств цикла. В частности, система статистик = К_14фл, к = 1, .. 231
Есть система ортогональных статистик с единичной дисперсией: “0 — (0 k=^t Эта система полна среди статистик, представимых в виде и==К~'А1А*щ и^Ни. Наилучшая статистика для оценивания функционала, являю- щаяся решением уравнения (15), может быть представлена в виде разложения по каноническим элементам; °° Л ZmI 1 | X Gffe) uhr (19) h—1 т. е. статистика Ml + W"1^ есть наилучшая оценка функцио- нала аЛ; при этом различные канонические функционалы оце- ниваются ортогональными (некоррелированными!) статистиками. Разложение (19) приводит к форме слабого регуляризованного решения статистически некорректной задачи: v 'Ч ~ Ф f3 ТТТГ (20) fe=l « где — случайная величина, порожденная линейной статисти- кой uh на реализациях процесса Лф + g. Случайный элемент ф характеризуется тем, что значения а(ф) любого функционала а ё ф* на реализациях этого процесса эквивалентны по смеще- нию и дисперсии наилучшей статистике для оценивания этого же функционала. С информационной точки зрения решение (20). интерпрети- руется следующим образом: для неизвестного состояния объекта принимается представление оо < ' ф = 2 6лФй, h=l где неизвестные параметры оцениваются на основе «наблю- дений» У к = 0л + eft, где — некоррелированные случайные ошибки с единичной ди- сперсией, а параметры 0Д независимо подчинены априорным ограничениям I0J2^4 (наилучшая смещенная оценка в этом случае есть 0Л = 4(1 + Ч)-1^, что совпадает по форме с (20)). Таким образом, величина есть отношение априорного диа- пазона изменения параметра 0fe к среднеквадратичной ошибке его измерения. Следовательно, в каноническом представлении регрессионный эксперимент (с. фиксированным калибровочным оператором J) распадается на элементарные независимые экспе- 232
рименты, информативность которых измеряется величинами со- ответствующих собственных чисел. В этом смысле говорят, что решения проблемы (18) описывают структуру полезной инфор- мации, получаемой в эксперименте. В частности, если шум пред- ставляет гауссовский случайный процесс, а калибровочный опе- ратор интерпретируется как корреляционный оператор гауссов- ского распределения в пространстве состояний Ф, количество информаций в смысле Шеннона, содержащееся в наблюдениях относительно состояния объекта, выражается формулой оо <21> fc==l если ряд в правой части сходится, и 1а = <», если этот ряд рас- ходится. Замечание. Если разложение (20) содержит лишь конеч- ное число членов, оно эквивалентно гребневой оценке (см. гл. 1) неизвестного (конечномерного) элемента <р, построенной по ка- либровочному оператору J. Таким образом, регуляризованное решение статистически некорректной обратной задачи оказыва- ется эквивалентным оптимальной смещенной оценке искомого элемента. Литература к § 1; [28, 40, 52, 89—91, 171]. <, § 2. Планирование экспериментов для некоторых классов обратных задач 1. Класс экспериментов, область^ планирования, план. В § 1 обратная задача (3) .сведена к некоторому фиксированному ре- грессионному эксперименту. В задаче планирования нужно вы- брать паилучший в определенном смысле эксперимент из неко- торого класса экспериментов. Заметим, что исчерпывающим опи- санием собственно эксперимента, безотносительно к возможной калибровке решений, является «метрический» оператор G — = Л*А“1Л. Поэтому описание класса экспериментов есть по су- ществу описание класса операторов ^ = {£}, совместимых с ре- альными ограничениями на выбор условий измерения. Для выяснения структуры класса метрических операторов 9 уточним схему (17) регрессионного эксперимента. А именно, в схеме (17) оператор Л непосредственно осуществлял преобразо- вание состояния объекта в некоторый регулярный сдвиг реги- стрируемого процесса. В действительности это преобразование состоит из двух этапов: (22) 233
Здесь * оператор Ai'. отображает пространство состояний объекта на пространство доступных для измерения данных, а далее* уже оператор А2 переводит эти данные в сдвиг регистри- руемого процесса. Оператор 44 соответствует физическому меха- низму прямой задачи и, вообще говоря, задан. Оператор А2 «конструируется» в процессе подготовки эксперимента за счет выбора подходящих условий измерения, при этом оператор А2 следует рассматривать совместно с обратным корреляционным оператором процесса регистрации, так как обычно указывается некоторая специальная процедура, одновременно задающая А2 и К~1. Суть этой процедуры состоит в следующем. В пространстве Y*, сопряженном к пространству Ч\ фикси- руется некоторое множество функционалов 33. Каждый данный функционал Xt е задает некоторый элементарный «одноточеч- ный» эксперимент + е,, где 81 — случайная ошибка с нулевым средним и конечной ди- сперсией Eel = °i. Класс 9 метрических операторов порожда- ется всевозможными конечными наборами элементарных экспе- риментов с ограниченной суммарной точностью N ’ N - S °?2 = 2 = const. (23) j=i j=i Каждому такому набору элементарных экспериментов соответ- ствует метрический оператор вида N . Ч' + Ч'*, (24Г где сумма распространена на функционалы и веса набора £ = = {Xi, ..., XN; Wi, ..., wN}. Замыкание класса операторов вида (24), соответствующих всем конечным распределениям £ с усло- вием нормировки (23) в операторной норме IT W*!, и есть искомый класс метрических операторов. Операторы этого класса допускают представление в виде интеграла, понимаемого как предел соответствующих интегральных сумм (24): G(0= fx(.)XdC(X), С(^) = ж, ' % где (•) положительная о-конечная мера, определенная на о- алгебре всех борелевскйх подмножеств 35. Мера £ называется планом эксперимента, множество 3? — областью планирования. В отличие от конечномерных параметрических задач планирова- ния эксперимента, оптимальный план в непараметрических слу- чаях зависит от абсолютного веса (суммарной точности) W=* 234
Пример 3 (оптимальный опрос параллельных каналов). Пусть i/i, ..., г/п, —последовательность независимых случай- ных величин, представимых в виде попарных сумм: Уп == хп “Ь еЛ, w =:: 1, • •., где хп и еп в свою очередь независимы и Егп = Ехп = 0, Ех2п = dn, Ее* == <*п = Интерпретация такова: хп представляет «полезный сигнал» в. n-м из параллельных каналов, еп — ошибка измерения сигнала хп на выходе канала. В течение тактового периода Т сигналы {#п} фиксированы и каналы опрашиваются последовательно. Предполагая, чтож точность измерения выходного сигнала в я-м канале пропорциональна времени, затраченному на опрос этого канала: оп = wn о* Тп, 2 Тп ~ Т\ п приходим к задаче оптимального распределения времен опросу : {Гп}, или, что то же, весов {wn}\ оо 2 Wn = w, Wn^O, П = 1, ... n=l В известном смысле данная задача планирования^ эксперимента обратна задаче оптимального распределения энергии сигналов (оо \ 2 dn = D I между каналами при фиксированных диспер- n—1 / сиях ошибок {on) с целью достижения информационной про- пускной способности системы каналов, рассматривавшейся в [47]. В задаче планирования, наоборот, априорные дисперсии предпо- лагаются фиксированными. В качестве исходного пространства Ф рассмотрим простран- ство h последовательностей х = (хч г..., хп, с нормой 1Ы12 = оо = 2 Яд. Сопряженное к Ф пространство Ф* состоит из последо- п—1 ч вательностей а = (<xlt ...., ап, ♦ ..) с нормой II || ОО, 0L (х) — 2 ^пХ'п • П—1 71—1 Пространство Нх регулярных сдвигов есть гильбертово простран- ство со скалярным произведением . оо \Х 9 X j ’ = 2 W^X^Xп п=1 и состоит из всех последовательностей х с [х, я] < °°. Посколь- ) ку wn 0 при я -> <», пространство Н* шире пространства Ф, т. е. 235
Ф cz IIх — пространство сигналов вложено в Нх — гильбертово пространство с воспроизводящим ядром, и А : Ф Нх — опера- тор вложения, т. е. оператор, сопоставляющий каждой после- довательности х пространства Ф эту же последовательность, но рассматриваемую как элемент пространства Нх. Пространство допустимых статистик Ни состоит из последовательностей и = «= (и19 ..., un, ...), подчиненных условию °° оо (u, ll'j === У1 72=1 72=1 Для сопряженных пространств имеет место обратное вложение ф*'зЯи. Задача измерения «сигнальной» последовательности при сформулированных условиях статистически некорректна, так как существуют функционалы ае Ф*, которые не .могут быть оценены несмещенным образом с конечной дисперсией, а имен- но, это такие последовательности, для которых оо оо 2 <4 < оо, , 2 «>пХ«п =4-оо. 72=1 71=1 Калибровочный оператор J в данном случае есть корреляцион- ный оператор априорного распределения сигналов. Он действует из Ф* в Ф по правилу Ja — Еха (х) = {andn}X=i; оо при этом величина a (Ja) = У, имеет смысл априорной ди- 72=1 __ сперсии функционала а. Наилучшая линейная смещенная оцен- ка для функционала а дается статистикой оо a = и (у) = 2 «пУп, 71=1 где статистика u = {u„) находится из уравнения (15): 4“ Un WndnCtn, т. е. получим _ Wndn „ Un~ 14-^„ ”• Следовательно, слабым решением задачи восстановления си- гнальной последовательности будет последовательность случай- ных величин Отсюда видно, что собственные числа информационного опера-* тора = Wfidn = 236 ’ *•
действительно равны отношению априорной дисперсии к ошибке соответствующего измерения. Определим еще величины {$п), характеризующие точность решения задачи восстановления Е | ос — ос (х) — 2 0Сдйп/(1 + wndn) = 2 ап5п» п~ 1 П=1 где величины '5П ==» dn/(l +’ wndn) « Е\хп — xn\z могут быть названы, апостериорными (остаточными) дисперсиями сигналов после проведения эксперимента. Полагая случайные величины хп и еп, а следовательно, и уп гауссовскими, определим шенноновскую информацию (21) * оо оо л (^ । *)=4" 2log (4+м=4 2Iog +wndn). 71—1 . 71=1— Задача оптимального планирования эксперимента может рассмат- риваться как задача максимизации информации 18(у\х) за счет выбора весов {wn) при фиксированных суммарных «затратах» (23). Поскольку при изменении весов dljdwn = constsn, то легко понять, что оптимальное распределение пагрузки характеризует- ся условиями ip* == 0, s* < max s* = п ^*>0, $* = $*, т. е. нагрузка сосредоточена в точках максимума апостериорной дисперсии, причем все нагруженные точки имеют одно и то же (максимальное) значение этой дисперсии. Поскольку всегда s^1 = d~ 1 + то оптимальное распределение весов определяется «затоплением» априорного профиля Мп1} до уровня 1/$*; ♦ Jl/s* —l/dn, . Wn“l о, при этом уровень апостериорной дисперсии $* соответствует сум- * марным затратам 2 (i/s* - i/d„)+ = w. п—1 Таким образом, оптимальная стратегия измерений должна состо- ять в том, чтобы в первую очередь измерять сигналы с наи- большей априорной дисперсией и только при наличии достаточ- ных измерительных ресурсов «включать» измерения сигналов с меньшим.и дисперсиями, при" этом всегда измеряется только ко- нечное число сигналов, если суммарная дисперсия сигналов 00 ограничена 2 dn < оо. П—1 237
Замечание 1. Безразмерная величина оо п* = 2 WnSn W max sn п—1 п имеет см*ысл эффективной размерности рассматриваемого экпе- римента. Для оптимального, эксперимента получаем W max sn = п* п — необходимое и достаточное условие оптимальности распреде- ления весов {ы?п} (ср. с теоремой эквивалентности Кифера — Вольфовица для регрессионного эксперимента конечной размера ности (гл. 2)). Замечание 2. Оптимальное распределение нагрузок, най- денное выше из условия максимизации информационного коли- чества (211), обладает еще одним экстремальным свойством: inf t max sn = max s* = $*, {wn}' n n т. e. оптимальный план минимизирует максимальное значение апостериорной дисперсии. Это свойство аналогично G-оптимально- сти для конечномерного регрессионного эксперимента. Следует отметить, что в данном примере отмеченная эквивалентность информационно-оптимального и минимаксного планов является следствием независимости отдельных каналов. 2. Параметрическая регрессионная модель с априорными ко- вариациями параметров, гребневая регрессия. Стандартный ре- грессионный эксперимент вкладывается в схему (22) следующим образом. Пусть модель линейна по параметрам: ф СО = 2 01Ф» (О> г—1 фД#), фт(я) —базис модели, состоящий из конечного числа линейно независимых непрерывных функций на компакте X, а наблюдения порождаются независимыми отсчетами в точках Уз = Ф (хз) + Е^ = 0, Ег- = О; = / = 1, ..., г, где веса наблюдений не нормированы и подчинены условию (23). Полный вес W характеризует точность несмещенного оценива- ния константы г ^ = с + е}) с =-j-L 2Z)(c) = Wz-1. з=1 В соответствии со схемой (22) в этом случае Ф = Rtn — конечно- мерное евклидово пространство параметров, ®* = R™, оператор At отображает вектор параметров 0 = (01, ...» 0m) е Ф в прост- ранство непрерывных функций W=CX на компакте X. Сопря- 238
жеппое пространство Т** есть пространство линейных функцио- ’ налов от непрерывных функций, а множество планирований 3S ' состоит из функционалов вида Хх(ф) = х^Х* Класс 9 метрических операторов G:> Т* -> Т* в задаче планиро- вания состоит из всевозможных положительных операторов, со- ответствующих квадратичным формам вида (G^)(i|)) = iy C(X) = 1.- k В пространстве параметров каждый такой оператор порождает матрицу тХт WM (£) = A*C^At: Ф -> Ф* с элементами Mih = (я) i|?ft (х) dt, = W1 (G^i) (фЛ), X являющуюся информационной матрицей эксперимента. Если матрица Ж£) невырождена, то задача -оценивания вектора па- раметров 0 статистически корректна и ее решение дается оцен- ками МНК. Часто оказывается, что матрица М£) «почти» вы- рождена, т. е. ее определитель близок к нулю в масштабе, со- гласованном с единицами измерения параметров. В этих случа- ях используют априорную* калибровку (регуляризацию) оценок на основе, априорной статистики (см. также гл. 1). Калибровоч- ный оператор задается при этом матрицей ковариаций /)o = E(0-E0)(0-£0)rt Рассмотренный в гл. 1 случай гребневых оценок получается, ес- ли матрица Z>0 кратна единичной. В дальнейшем без ограничения общности можно считать ЕВ = 0. Предполагая, что матрица Do невырождена, определим матрицу D' соотношением х. D' =(£>0-1 + ЖМ(С))"1.‘ . Тогда наилучшие линейные (смещенные) оценки параметров да- ются компонентами вектора 0-7УУ, где компоненты вектора У=(У1, ..., Уш)т вычисляются по на- блюдениям ..., уг: Yi = S * = ...» w. 239
Оценки параметров являются паилучшими в том смысле, что для * т любой линейной комбинации параметров а (0) = У afit — aTQ i=i средний квадрат уклонения Е|а(0)-а(0)|2 = аг7Уа минимален в классе линейных оценок. Последнее соотношение показывает также, что матрица D', определенная выше, имеет смысл дисперсионной матрицы остаточных уклонений, т. е. £'=£(0_0)(0_е)Т. Подчеркнем, что «регуляризованные» наилучшие оценки, в от- личие от оценок МНК 0* = являются смещенными: Е(0|0)-ЖР'М(£)0 ^9. ‘ Это естественно, так как оценки МНК, * если они существуют, являются наилучшими (в указанном выше смысле) несмещен- ными оценками параметров. Кроме того, всегда D' < ГИ“1.Л/(£)“1, где неравенство понимается кек обычно для положительно оп- ределенных матриц. ’ Задача планирования в рассматриваемой ситуации состоит в выборе распределения затрат 1Р£(-)*на множестве X — области планирования. Критерии оптимальности естественно связать с матрицей D', характеризующей точностные свойства наилучших оценок. В частности, по аналогии с обычными D-оптимальными планами, определим D'-оптимальный план £* условием det [D71 + WM К*)] = sup det [zV + WM (£)]. При обычных условиях (непрерывность базисных функций на компакте X) экстремум достигается на единственной информа- ционной матрице М* = причем оптимальный план всегда можно выбрать дискретным и содержащим не более иг(тп4-1)/2 точек. Далее определим функцию • т & (#> 2 Ф1 (#) 'Фа (^) i,A=l имеющую смысл остаточной дисперсии при восстановлении фупк- ш т ЦИИ ф (X) = 2 01ф1 (%) С ПОМОЩЬЮ ОЦСНКИ $(•*)= 2 0гф1 (^Х 1=1 . 1=1 И ЧИСЛО . ’ ’ зависящее от плана (эффективную размерность регрессионной задачи). Для любого невырожденного плана £ lim nw (£) — Vy-^oo 240
причем dnw/dW>(^ т. е. зависимость от суммарных затрат стро- го монотонна. Необходимым и достаточным условием D'-опти- мальности плана £* при фиксированных затратах W является равенство W max d(x, £*) — niv(£*), х^Х • > и максимум достигается в точках спектра оптимального плана: Wdix*, £*) = Wt*(x*) = w* > 0. Для любого неоптимального плана выполнено неравенство, ана* логичное неравенству Кифера, In det (£)] (- -—г1—--------{max a (x, c) ^r~ detp^+WW (£*)] ^ Lex ' M I В сиду указанных свойств оптимальный план «регуляризован- ной» регрессии может быть найден с помощью точно такого же итерационного процесса, как и обычный D-оптимальный план (см. гл. 4). Замечание 1. В рассматриваемой ситуации: D'-оптималь- ный план, вообще говоря, не является минимаксным, т. е. удов- летворяющим условию max d (х, £*) = inf max d (х, £). xgX £ х^Х Для того чтобы D'-оптимальный план был минимаксным, необ* ходимо и достаточно, чтобы система линейных уравнений где я*, ..—снектр D'-оптимального плана, а в правой ча- сти всех уравнений стоит положительная константа, имела положительное решение pt > 04 I = 1, ..г. Замечание 2. Рассмотренная задача планирования обычна возникает в связи с приближенным решением интегральнога уравнения Фредгольма 1-го рода: [ К (х, t) ф (t) dt = (x)i х^Х, т ядро которого Ktx, t) — непрерывная функция аргументов на произведении компактов ТХХ. Линейная модель для правой: части — функции порождается линейной моделью для ис- комого решения ф (0 •= S 0i<Pi (0> Чч D =.(к (х> 0 ф* (0 dt- i=T .у 16 п./р. С. М. Ермакова • £41
Оценивая параметры 01? ...» 0т, восстанавливаем искомую функ- цию т ф(0 = 2 9гф«(0» г=1 т. е. приближенно решаем интегральное уравнение. Выбор плана из условия D'-оптимальности представляется при этом естест- венным независимо от того, интересует ли нас непосредственно модель ф(я) или решение ф(я). Что касается точности восстанов- ления искомой функции, то она непосредственно с D'-оптималь- ностью не связана — относительно ошибки такого восстановления т ^l$(o-<p(ol2 = S^/.<Pi(o<pHo = ^a.o i,k ничего определенного сказать нельзя. Максимум дисперсии d(x, £) для функции ф можно интерпретировать лишь следую- . щим образом: при любом фиксированном х^Х интегральное выражение в левой части уравнения есть линейный функционал ют функции кх (ф) — J К (х, t) ф (t) dt. т Обозначим через Жх выпуклое замыкание множества функцио- налов &х('-), когда х пробегает область планирования X. Тогда max d (х, £) = sup Е | к (ф) — к (ф) |2. , xsx h^x 3. Аппроксимация регрессионной зависимости при планиро- вании экспериментов для обратных задач. Особенности планиро- вания экспериментов, связанных с некорректными обратными задачами, определяются природой множества допустимых реше- ний фос: ф. Если Фо — конечномерное подпространство и обрат- ная задача, суженная на это подпространство, может быть сде- лана статистически корректной при некотором плане экспери- мента, то оптимальный план может быть найден обычными ме- тодами теории планирования эксперимента (см. гл. 2, 4). Если же Фо — ограниченное множество бесконечной размерности (на- пример, эллипсоид, заданный калибровочным оператором J), то обычные методы непосредственно неприменимы. Поскольку в настоящее время точные решения задач оптимального планиро- вания для указанного класса ограничений практически отсутст- вуют (за исключением, быть может, задачи, приведенной в ка- честве примера 1), представляют интерес подходы, основанные на тех или иных приближениях исходной задачи планирования. Ниже рассматривается подход, основанный на аппроксимации множества Фо конечномерными подпространствами пространства Ф и тесно связанный с асимптотическими методами в теории непараметрического оценивания регрессии [36]. 242
Пусть Фо с Ф — произвольное ограниченное множество допу- стимых функций. Используем для приближения элементов из Фо конечномерное подпространство £ПСФ: {п 1 ф1ф = 2 0{ф1(» i=l J . где фь ».фп — базис подпространства Ln. Предположим, что обратная задача, суженная на подпространство Ln, статистиче- ски корректна ‘для некоторого плана £, т. е. матрица М (|) — = II (^Фг) (фъ) |l?,fe=i имеет обратную. Оценка МНК для элемента ф Ln имеет вид 0|фг* 0i = S i=l h—1 где uk — случайные величины, порожденные статистиками uk = = ЛГ_1ЛфЛ. Если элемент ф£ Фо не принадлежит L„, то выписан- ная оценка оказывается смещенной. Нетрудно видеть, что в дей- ствительности она является несмещенной оценкой элемента Ф* Ln: IIФ — ф*||е = Ы || ф — ф'Ь Ф'^ЬП являющегося наилучшим приближением элемента ф в метрике Цф||о = (Сф)(ф). Л Рассмотрим уклонение оценки ф для какого-либо линейного функционала а е= Ф: £ь1а(ф) — аСф)!2 =/)(а, g, Ln) + 1а(ф — ф*)]2, где первый член в правой части представляет дисперсию оцен- ки а(ф): п D (а, Ln) = -2 2 IM (ф{) а i,k—l Отметим, что величина %, Ln) не зависит от неизвестного элемента ф. Поэтому, в частности, верхняя грань уклонения: оценки а(ф) от точного значения функционала а(ф) представима в виде sup Е | а (ф),— а (ф) |2 = D (а, £, Ln) + йф() (а, g, Ln), <реФ0 Йф (а, J, Ln) = sup | а (ф — ф*) |2. <реФ0 Поскольку правая часть, по предположению, конечна, указанный способ аппроксимации дает возможность оценить значение лю- бого линейного функционала а от неизвестного решения ф с ко- нечной ошибкой. Этот способ, вообще говоря, не оптимален, 16* 243-
поэтому найденная выше верхняя грань уклонения может быть улучшена, например, с помощью оценок, рассмотренных в § 1. Тем не менее с помощью этого способа можно получить некоторые указания относительно выбора плана эксперимента. Пусть 36 cz Т* — «фактическая» область планирования для •обратной задачи (22). Очевидно, что в качестве эффективной -области планирования, как это видно из схемы (22), можно рас- сматривать множество т. е. выпуклую оболочку образа А *($?), полученного с помощью сопряженного оператора А*. Предположим, что область по- лученная таким способом, обладает воспроизводящим свойством в пространстве Ф*, т. е. любой элемент аеФ может быть полу- чен в виде конечной линейной комбинации элементов обла- сти 86'\ т а = 2 "" г—1 Например, если 36' — поглощающее множество в пространстве Ф*, то т = 1, если 36'—часть положительного конуса в про- странстве Ф*, то можзт оказаться, что т = 2. Существенно пред- положить, что число слагаемых iie превосходит некоторого опре- деленного числа т*. С помощью указанного разложения легко получается оценка сверху для уклонения любого функционала •а^ф* через верхнюю грань этого уклонения для функционалов из 36'\ sup Е | а (ф)— а(ф) |2<e(a){sup D (а, В, Lnj + sup ЙФ_(а, Ln)}, ’ т 12 <оо. . 1=1 J где с (а) = В приведенной оценке от выбора аппроксимирующего под- пространства и плана зависит только сумма в фигурных скобках, которую и следует по возможности минимизировать. На основа- нии теории эквивалентности в формулировке гл. 7 inf sup D (a, I, Ln) = и существует оптимальный план §*(£„), зависящий только от подпространства Ln и области 36', на котором нижняя грань в левой части достигается. Фиксируем этот план в качестве плана эксперимента. Тогда * sup £| а (ф) — а (ф) I2 < с (a) + 8*1, <реФ0 Iw J тде е* = sup Оф (а, £*, Ln) = sup sup |а(ф — ф*) |2 есть по Ф—ф0 существу характеристика аппроксимируемости множества Фо 244
подпространством Ln относительно множества функционалов е* == (Фо, Zrn, Это приводит к задаче оптимальной аппроксимации за счет выбора подпространства Ln: Ln S £п(Фо> Ln, ЗВ ) = inf Ъп (Фо> Ln> ЗВ ) = dn (Фо, ЗВ ), ьп а результирующая характеристика аппроксимации dn(®o, Я?') аналогична n-понеречнику множества Фо по Колмогорову. Предположим, что множество Фо таково, что для какой-либо последовательности {Ln, п = 1, 2, >..} аппроксимирующих под- пространств еп ->0 (п оо), причем указанная сходимость моно- тонна. Тогда для заданной, величины w существует оптимальная конечная размерность аппроксимации и*(ip) и* (ш) , * . / п , *\ —— + = min-----И en L п \ / Таким образом, приближенное решение задачи планирования может быть найдено в результате следующих действий: для каж- дой размерности аппроксимации п выбираем некоторое аппрок- симирующее подпространство Ln и находим соответствующий оптимальный план g*(Ln). Эти процедуры могут быть выполне- ны без привлечения данных о множестве Фо и величине сум- марной точности W. Затем нужно найти величину еп(Ф0, Ln> 3?') и убедиться, что при некотором выборе {Ln} для данного множества Фо справедливо: lim еп == 0. После этого можно опре- П->оо делить оптимальную размерность п*(гр), зависящую уже только от точности w. Окончательным решением будет план £* (£*♦) — п*-оптимальный план для подпространства оптимальной размер- ности. В принципе процедуру можно несколько улучшить, вы- бирая при каждом h наилучшее аппроксимирующее подпрост- ранств® ЬП9 что на практике, конечно, затруднительно. В частных случаях описанную процедуру можно несколько упростить, не вычисляя явно величину еп- Пусть, например, множество Фо есть эллипсоид с калибровочным оператором Л Тогда для каждого плана £ наилучшее слабое решение <pg об- ратной задачи (22) может быть найдено в явном виде (20); Рас- смотрим теперь последовательность подпространств и соответст- вующую ей последовательность n-планов £*(Zn). Поскольку оптимальный в смысле предшествующего рассмотрения план со- держится в указанной последовательности, он может быть вы- бран просто по характеристикам соответствующего наилучшего решения <р|*. с помощью любого подходящего критерия, напри- мер функционала (21). Литература к § 2: [27, 28, 34, 36, 47, 92 *, 171].
ГЛАВА 10 ФАКТОРНЫЕ МОДЕЛИ Главы 10—13 посвящены факторному планированию, с ко- торого начала свое развитие вся теория планирования экспери- мента. Факторные эксперименты были впервые рассмотрены Фи- шером более полувека тому назад в связи с задачами проведения сельскохозяйственных экспериментов. Часто факторные эксперименты ставятся с целью проведения в дальнейшем дисперсионного анализа в его классической трак- товке и служат для того, чтобы по возможности сократить число необходимых экспериментов. Соответствующие планы поэтому иногда называют планами дисперсионного анализа. В этом слу- чае предполагается, что все факторы имеют качественную струк* туру. Это приводит к моделям неполного ранга и к статистиче- скому анализу с использованием понятия линейных > параметри- ческих функций, допускающих оценку. Однако возможен более общий подход к факторным экспери- ментам, при котором статистический анализ выполняется единым образом независимо от структуры (качественной или количест- венной) используемых факторов. В гл. 10 факторные модели вво- дятся таким образом, что для параметров этих моделей можно вывести систему линейных равенств, сводящих задачу к случаю модели полного ранга с помощью техники редуцирования, изло- женной в п. 1.2.5. После этого нахождение оценок МНК пара- метров и параметрических функций,, ковариационных матриц этих оценок, проверки различных гипотез и построение довери- тельных эллипсоидов осуществляется е помощью обычных мето- дов регрессионного анализа (см. § 1.2). Глава 11 посвящена вопросам оптимальности факторного пла- нирования. Главы 12, 13 содержат конструктивные результаты по существованию широких классов эффективных факторных плапдв. Изложение в этих главах относится к общему случаю факторных планов с качественными и количественными фак- торами. 246 -
§ 1. Основные определения и вспомогательные результаты 1. Модель. Рассмотрим серию из N наблюдений у^ ...» y.v, каждое из которых соответствует значениям к переменных (j = l, •••» к). А именно, для zz-го (zz = l, ..., N) наблюдения уи (т. е. в zz-м опыте) переменные Х< принимают значения Xiu. Предполагается следующая модель наблюдений: математическое ожидание наблюдения связано с Хги с точностью до параметров 0m известной зависимостью £z/u = 0r/(Xltt, XfcM),. (1) где 0T = (0i, ..., 0m) — вектор неизвестных параметров, / = = (fi, •••, /т)т — вектор известных функций, {/(Х1и, ..., Xhu)} — матрица коэффициентов. Относительно области определения переменных Х{ предпола- гается следующее. Если переменная Хл определена на множестве значений Xiu (и = 1, ..., ДО, то она Называется качественной и значения Xiu — символы, быть может, записанные в виде чи- сел. Если же переменная Х{ определена на отрезке [X<mln, XimaJ (Ximin = min Xiui Xi max = max Xiu), то она называется количест- u и венной. Будем считать, что первые kt (О < к) переменных качественные, а остальные — количественные. Тогда область оп- ределения переменных Xi задается в виде многомерной ре- шетки Xi^{Xiu}, z = l, ..., Xi £= [Xt* mln, Xi maxi, Z = k± 4“ 1, • . ., Zu, и модель (1) можно доопределить на всей области определения 28. 2. План* Матрица Dx = {Xiu} (i=i, ..., к; и — 1, ..., N) на- зывается матрицей плана или планом. Каждое из различных зна- чений, которое принимает переменная Xt в плане D х называет- ся уровнем. Общее число различных уровней переменной X,- обозначим через Принадлежность того или иного фактора к множеству качест- венных или количественных факторов не оказывает существен- ного влияния на свойства плана. Поэтому удобно наряду с пере- менной Х{ рассматривать некоторую абстракцию — фактор вводимый следующим образом. Каждому из различных уровней Х|0), ...,Х-*г переменной Хг ставятся в соответствие символы О, 1, ..., — 1 независимо от того, является ли переменная Xf количественной или качественной. В этом случае говорят о фак- торе { (качественном или количественном), принимающем со- ответствующие переменной X, значения 0, 1, ..., —1. Матрица плана может быть переписана в виде DF = где — значе- ние, которое принимает фактор г в zz-м опыте (i = 1, ..., к\ и = ^==1, ..., N). Индекс в обозначении матрицы плана часто будет опускаться. 247
План, состоящий из 2V опытов и включающий факторы .. / • имеющие соответственно $4, ..sh уровней, обозначается через sAX...Xsh//N (или просто через X .. .X sh). Максималь- ное число различных опытов (строк в матрице плана) равно S1 . . . Sfc. 4 План $iX.. .X skfN называется полным, если он состоит из N — . sk различных опытов; дробным, если он не содержит всех различных $i... опытов; симметричным, если все факторы имеют одинаковое число уровней; равномерным, если уровни лю- бого фактора, встречаются в плане одинаковое для данного факто- ра число раз. План называется факторным только по отношению к опреде- ленному виду факторной модели, для которой данный план рас- сматривается. Точно так же и модель называется факторной только по отношению к определенному факторному плану.. Далее фактически будет вводиться посредством определения сразу со- вокупность двух понятий: факторного плана и факторной моде- ли. Различные виды факторных моделей будут рассмотрены в §§ 2-4. ч : 3. Главные эффекты и эффекты взаимодействий. В TV-мерном евклидовом пространстве КЛ u-й координате каждого вектора поставим в соответствие u-й опыт плана D. Контрастдм называется такой вектор 2T=(zi, гЛ’)еВ'\что N - S Zu = 0. U—1 Вектором главных эффектов фактора плана D называется такой контраст, компоненты которого для всех наблюдений, в ко- торых фактор STi в плане D принимает одинаковые значения, равны. Этот вектор называется также вектором эффекта взаимо- действия нулевого порядка фактора плана D. Вектором эффекта взаимодействия {r-i^-го порядка, или вектором r-факторного эффекта взаимодействия факторов ST... ..., 9~т плана D называется такой ортогональный ко всем векто- рам эффектов взаимодействий вплоть до порядка г — 2 факторов ..., 3~т плана D контраст, коэффициенты которого для всех наблюдений плана D, в которых факторы &\, ..., принимают, одинаковые значения, равны. Там, где это не приводит к недора- зумениям, слово «вектор» будет опускаться. Совокупность всех эффектов взаимодействия (г-О-го поряд- ка фиксированных г факторов вместе с нулевым вектором есть линейное подпространство пространства RN. Числом степеней свободы эффектов взаимодействия (г—1)-го ' порядка фиксированных г факторов для плана D называется раз- мерность соответствующего им линейного подпространства. В приведенном определении требование ортогональности эф- фектов взаимодействия (г—1)-го порядка ко всем эффектам взаи- модействий вплоть до порядка г — 2 этих же факторов, можно за- 243
лепить требованием ортогональности к максимальным линейно независимым системам соответствующих эффектов взаимодей- ствий. Матрица Ft, состоящая из максимальной независимой систе- мы векторов главных эффектов фактора называется матрицей главных эффектов фактора ^<. Матрица Flt ,.г, состоящая из максимальной независимой системы векторов эффектов взаимо- действия факторов называется матрицей эффектов взаимодействия факторов ..., 3^г. Введем следующее обозначение: где / — вектор-столбец из единиц. Для матриц эффектов полного плана Df будем использовать аналогичные обозначения с верхним- индексом /. « 4. Полное множество эффектов. Число степеней свободы глав- ных эффектов фактора для любого плана равно —1. Пусть в плане D число различных комбинаций уровней факторов <5% ..., ^> равно С'-Г = 81...8Г. (2) Тогда справедливо следующее утверждение. Условие (2) необходимо и достаточно для того, чтобы число степеней свободы любых п-факторных эффектов' взаимодействия (п^г) п факторов .,&\п из , &"г < определялось выражением (Sij— 1).. ♦ (5in— 1). При выполнении условия (2) Ф1... т есть матрица полного ранга. Далее предполагается, что условие (2) выполнено, если речь идет об r-факторных эффектах взаимодействия факторов .. Множество линейно независимых эффектов взаимодействия факторов 3^, ..., 5ГГ называется полным, если число этих эф- фектов во множестве равно (st — 1) 1). 5. Ортогональность эффектов в полном плане. Для двух век- торов aT==Ui, ..., aN) и ст = (с4, ..., cN) вводится операция которая называется произведением, так что а ® с = (aiC4, ... ..., aNcN)T. Пусть столбцы матрицы А размера Л^Хп есть ... ..ап, а столбцы матрицы С размера N XI есть сь ..., ct. По определению А ® С = [ai ® Ci & с2... ап ® cj. Рассмотрим теперь некоторые свойства главных эффектов и эффектов взаимодействий для полного плана Df. Поскольку в плане Df для произвольных факторов ..., SFr выполняется условие (2), то матрица содержит полное множество эф- фектов взаимодействия. Кроме того, справедливо следующее ут- верждение. ' Для полного плана Df любой эффект взаимодействия (глав- ный эффект) одной группы факторов ортогонален любому эффек- 249
ту взаимодействия (главному эффекту) другой группы факторов. Произведение ® ^2 ® ® Рг дает матрицу F{.„T эффектов взаимодействия факторов &"г. При этом столбцы матрицы Р{...г будут ортогональны, если ортогональны все столбцы каж- дой из матриц Ff19 .. Ffr, а скалярный квадрат любого столбца матрицы F{ г будет равен Nf, если аналогичное условие спра- ведливо для любого из столбцов матриц F{, ... ,Ffr. Пример 1. Рассмотрим матрицу полного плана 3X2 для факторов и ^~2‘. "0 0’ 10 2 0 .0 1“ 1 1 _2 1_ - Поскольку фактор — трехуровневый, имеется ровно два линейно независимых главных эффекта этого фактора. В качест- ве таких главных эффектов мо^кно выбрать, например, столбцы следующей матрицы: + 1~ — 2 + 1 + 1 ‘ — 2 ' Каждый из столбцов матрицы F{ ортогонален единичному столбцу (т. е. является контрастом) и для одинаковых уровней фактора принимает одинаковые значения. Любая нетривиаль- ная комбинация столбцов матрицы F\ дает также вектор глав- ного эффекта фактора Таким вектором, например, будет их полусумма (0 — 1 +1 0 — 1 +1)г. Число степеней свободы главных эффектов фактора £Г2 равно 1, и все главные эффекты с точностью до множителя совпадают си столбцом, составляющем следующую матрицу главных эффектов фактора &"2- = -1 -1 +1 +1 +1)г. Матрица эффектов взаимодействий Ff12 факторов и мо- жет быть получена как произведение^матриц F{ и F2: ~+1 ' 0 — г + 2 -1 — 1 — 1 + 1 0 — 2 _+1 + 1- 250
Поскольку столбцы матрицы выбраны ортогональными, то ортогональными < Это влечет за собой сказываются также и столбцы матрицы ортогональность всех столбцов матрицы "+1 — 1 + 1 — 1 + 1 — г + 1 0 — 2 — 1 0 4-2 Ф12 — + 1 + 1 + 1 -1 + 1 + 1 — 1 + 1 — 1 — 1 — 1 + 1 • + 1 0 — 2 + 1 0 — 2 _+1 + 1 + 1 + 1 +'1 + 1- 6. Эффекты уровней и взаимодействий уровней. Ниже вводят- ся понятия эффектов уровней и эффектов взаимодействий уров- ней факторов, а также векторов этих эффектов. Будет рассматри- ваться трехфакторный эксперимент. Переход к многофакторному случаю не вызывает принципиальных затруднений. Обозначим т^п—Еуцп, где уцп — наблюдение, соответствую- щее точке полного трехфакторного плана Df9 для которой фактор 5Г1 поддерживается на г-м уровне, фактор — на /-м уровне и фактор &"3 — на n-м уровне. Звездочка вместо некоторого ин- декса означает, что производится усреднение по всем уровням соответствующего фактора. Так, например, «1-1 Л-Jn “ ~ 2 Лй’п. 1 г=0 Число Ро = Л*** называется истинным средним, число р!г) ~ = Лг** — Л*** называется эффектом i-го уровня фактора Эффектом взаимодействия рй уровней i и / факторов SF\ и &~2 соответственно называется разность между эффектом* уровня i фактора при условии, что , фактор поддерживается па уровне у, и эффектом уровня i фактора ST Эффектом взаимодействия Рпз уровней г, у, п факторов 2, соответственно называется разность между эффектом взаимодействия уровней j и п факторов и соответственно при условии, что фактор поддерживается на уровне i, и эф- фектом взаимодействия уровней / и п факторов и 3 соот- ветственно. Данные определения симметричны относительно факторов 2 и ^з. Аналогичным образом определяются другие эффекты уровней и эффекты взаимодействия уровней. Любой эффект уровня фактора, так же как и эффект взаимо- действия уровней факторов, есть алгебраическая сумма матема- тических ожиданий наблюдений для Df с некоторыми коэффи- циентами. Эти коэффициенты образуют векторы, которые назы- ваются соответственно векторами эффектов уровней фактора и эффектов взаимодействия уровней факторов* 251
Обозначим через вектор эффекта f-ro уровня фактора через ^12 — вектор эффекта взаимодействия уровней i и j соот- ветственно факторов и ^2 и .т. д. Вектор эффектов взаимо- действия уровней ...» ir факторов соответственно может быть получен из следующего соотношения: ® Й'фг*® ... ® Обозначим через ['фг'ф! • • • Ф11 Х] матрицу всех векторов эффектов уровней фактора через Ф12 = [Ф12Ф12 . •. фи матрицу всех векторов эффектов взаимодействия уровней факто- ров и и т. д. Тогда справедливо следующее соотношение: . ,г = ® Nfty2 ® ® ЛРфг. Все Si векторов, составляющие матрицу эффектов уровней фактора 3^i плана D\ являются векторами главных эффектов фактора и rg— 1. Все векторов, составляю- щие матрицу эффектов взаимодействия уровней факторов &~г плана D\ являются векторами эффектов взаимодей- ствия факторов ..., и rgipi.. .г = («1 — 1)... (sr “ 1). Вве- дем матрицу 'Fi...г, содержащую все векторы эффектов уровней и взаимодействий уровней факторов SF\, ..£Fr: У1...Г = | “дг; •Т'К • • • ‘Фг'Фхг • • • Ч>1,.Л Пример 2. Пусть . полный план типа 3X2 для факто- ров ! И 2- ^1 "О 0“ ,10 2 0. Ol- li _2 1_ Тогда матрица имеет следующий вид: J 6lt>i 6t|?2 61^12 — 6Ф1 ® 6^2 Ч! 2 - -1 —1| 1—1 2 — 2 - 1 ‘ 1 — 1 1 1 — 1 2 — 11 1—1 — 1 4 2 — 2 — 1 1 12 — — 1 - 2 - — Г -1 2 1-1 — В-1 1, — 1 — 2 1 2 — 1 ' 1 1 — 1 2 1 — 2 — 1 1 — 1 2 — 11 — 1 1 1 — 1 — 2 2 1 — 1 _1| — 1 - -1 21 — 1 1 1 — 1 1 — 1 — 2 2. Литература к § 1: [6*, 81, 99, 117]. 252
§ 2. Факторные модели для количественных факторов 1. Общая модель. Пусть в плане D все к факторов ... SFh (с числом уровней sk соответственно) — количест- венные. Рассмотрим следующую модель: (Хх, . •., Xh)== bQ + b^f^ (XJ + *.. + b[1 )/i1 (Xr) 4- + № {Xky+ ... 4- (Xh) + П. (3> В модели (3) приняты следующие обозначения и допущения: y(Xit ...» Xh) — наблюдение в точке (Хь ...» Xft); П содержит члены с произведениями Ц..лг 7i]L (л^) .. (Xir) — константы, ii ir); система функций 1, /(У(Х{), /.., /♦г (Х{) линейно независима в точках Xtl, ..XiNl т. е. rg Gi = Sj для лю- бого i, где ' ' . Gi = "1 ... J ••• /(Л_1)Иш)_ Если П содержит всевозможные члены с произведениями (^11) . • • (X'ir) (ц ^ ... =/= гг), то модель (3) назы- вается полной факторной моделью для количественных факторов^ (или моделью АО для факторного плана D. Множество факторов #7, пар факторов(4=# троек факторов и <. д. называется факторным множеством о при выполнении следующего условия: если ЯГП1... (пг =#...=# пг), то и е со для всех v = 1, ..г — 1 и h е {пь ..nr} (i = 1, ..i>), k Zj при i J. Модель (Х19 ..., Xh) h = Ь„ + 2 (X,) + ... +г>!ч“ч/!‘,_ч rn] +' + 2 + • ч»г2 L ...+^2 ,2 чХ г А ЧМ+--- (4> называется факторной моделью для плана D для количественных факторов для множества о (или моделью А®) при выполнении следующего условия: если модель содержит член с. произведе- нием (Ч) ... /-’r) (Xir) для некоторого набора qrt 253
•го опа содержит все возможные произведения' для всех = 0,... ..., Si — 1, ..qT = 0, ..., $г — 1 (полагаем До) (Х{) = 1). Модель А® (4) — общая модель для количественных факторов. Очевидно, что модель Ау, например, является частным случаем модели А®. Еще один частный случай общей модели может быть получен, если — полином q-й степени от Если для каждого г система функций 1, /^(Х^, .. . ,/[$г (Х^ представля- ет собой систему ортогональных полиномов в точках Хи, ..XiN, то столбцы матрицы Gi будут попарно ортогональны. В этом слу- чае соответствующая модель называется чебышевской. 2. Модель истинных эффектов. Рассмотрение чебышевской мо- дели в практических ситуациях, как правило, имеет смысл тогда» когда это дает возможность получить ортогональный план (см* гл. 11). В тех случаях, когда структура плана D не дает такой возможности, рассматривается так называемая модель истинных эффектов для количественных факторов. Рассмотрим для этого полный план Df с числом опытов Nf для факторов, входящих в D. Вектор истинных значений ц/ для Df определяется следующим образом: rf = Eyf == ..., yNf). По аналогии с предыдущим определяется вектор истинных эф- фектов В для количественных факторов.. Пусть для Df где все матрицы F имеют попарно ортогональные столбцы, и ска- лярный квадрат любого столбца в Ф{..л равен Тогда пола- гаем Для вектора наблюдений yf = (y^ .... Ух1)т в точках Df вы*’ полняется тождество Еу' = ф{„лВ, • (5) называемое полной моделью истинных эффектов для количест- венных факторов (или м од елью Ау истинных эффектов). Модель (5) является частным случаем факторной модели Af и, следова- тельно, частным случаем общей факторной модели А®. Обозначим через Ф® и В® части, отвечающие соответственно факторному множеству ы матрицы Ф{..л и вектора В. В пред- положении, что компоненты вектора^ В, не отвечающие фактор- ному множеству* о, равны нулю, модель (5) перепишется следую- щим образом: £У = Ф®В®. (6) Модель (6) называется моделью А® истинных эффектов. 254
Слова «истинных эффектов» опускаются, если из текста ясно ^дли безразлично, о каком типе модели для количественных факто- ров идет речь. 6 приложениях часто предполагают справедливость следую- щей модели, получаемой из модели (6) доопределением ее в бо- лее широкой области Я?; ‘ ..., Хк) = Г(Хь Хк)В\ (7> где f(Xiu, Хки) совпадает с и-й строкой матрицы Ф®. Модели (6) и (7) являются- частными случаями факторной модели Л®. Параметры модели (5) и, следовательно, моделей (6) и (7) допускают удобную интерпретацию, которая ясна из сле- дующего примера. Пример 3. Рассмотрим план D и соответствующий вектор математических ожиданий наблюдений F1 F 2 ' F3 "Х™ х<20> п." . II м Q 1“^ О О -н О О о О 1 II -Х<0) х£> х<р х®> 40) ; Еу = п = Я3 - ООО х(*> х<2°> 40) ’ll -1 1 1J Х(2х) -V. В этом случае полный план Df ъ соответствующий вектор мате- матических ожиданий наблюдений имеют вид ~0 0' 0“ • 1 0 0 0 1 0 1 0 1 0 0 1 ; =± ^ == (г]!, 1 0 1 0 1 1 _1 1 ’ , Для Df матрица Ф12з может быть записана, например, сле- дующим образом: "1 — 1 — 1 — 1 1 1 1 —1~ 1 1 — 1 -^1 -1 — 1 1 1 1 — 1 1 — 1 — 1 1 — 1 1 ф{23 — 1 1‘ 1 -1 1 — 1 — 1 1 1 1 -1 — 1 -1 — 1 — 1 1 1 1 — 1 1 — 1 1 — 1 — 1 1 — 1 1 1 — 1 — 1 1 — 1 _1 1 1 1 1 1 1 1 _ Тогда вектор истинных эффектов равен В — (^0> ^19 ^3» &12» ^13» ^23 > ^12з) = “g" ^123^/ £55
+ AV ^max-^0) ----п---*. ZAA,- — --т:----. и справедлива модель А* истинных эффектов (5) в точках Df. Для доопределения ее в более широкой области положим * i = 1,2,3, где *i = Тогда Xi будет в точках Df принимать значения, совпадающие с компонентами вектора F{. Значения х^ х2х3ч х^2х3 в точ- ках 7)/, будут совпадать соответственно с компонентами векторов ^12, ^2з» ^123- Тогда придем к расширенной модели Af истин- ных эффектов: Еу =* bo + biXt + Ь2х2 + bsx3 + Ь12х1^2+ bi3XiX3 + + 623^3 + 6123^1^3. (8) В предположении, что bi2 ==» Ь23 = Ь123 = 0, например, получим сле- дующую модель Аа истинных эффектов: Еу ==Ъ0 + biXi + Ь2Х2 + Ь3Х3 + bl2XiX2. Параметры модели (8), т. е. компоненты вектора, истинных эффектов, или просто истинные эффекты, допускают наглядную 8 интерпретацию. Так, например, &0 т- е- является сред- и=1 ним по всем значениям T|tt =3 Еу». . - Число 8 4 ~ 4 Tlu 4- ли и=5 * и=1 показывает, каково, «влияние» фактора 3^, т. е. насколько сред- нее математических ожиданий наблюдений в точках, в которых «фактор 3^з принимает одно из значений, больше среднего мате- матических ожиданий наблюдений для точек, в которых фактор ^3 принимает другое значение. Число К-М5 П8 + т)в] р8 + П7 + М «012 - 2 2 J I .2 — 2 J показывает, насколько больше «влияние» фактора 3^ при одном значении фактора &"2, чем «влияние» фактора при другом значении фактора 3^. . Полная модель истинных эффектов (5) — тождество, в то же время справедливость всех остальных моделей, рассмотренных выше, может только постулироваться в приложениях в зависи- мости от характера изучаемого явления. Литература к § 2: [6*]. 256
§ 3. Факторная модель для качественных факторов 1, Модель истинных эффектов. Рассмотрим полный план Df с числом опытов Nf для качественных факторов .., вхо- дящих в план D. Запишем вектор & истинных эффектов: я = Пусть 4 (и) = 1, если фактор поддерживается в и-м опыте плана D на- уровне /; О в противном случае. Обозначим А = (4й (1),. •., (N))Tr-, Xi = [4.,. 4* Ч, %iv..ir “ ® ® ==? Для плана Df используем аналогичные обозначения с верхним индексом /. . ' Для вектора наблюдений yf — , yNf)T в точках Df вы- полняется тождество Eyf = X{^, 4 (9) называемое полной факторной' моделью истинных эффектов для качественных факторов (или моделью Cf истинных эффектов) при условии выполнения некоторых равенств для параметров, кото- рые будут введены в п. 2. Обозначим через Х& и соответственно части матрицы Х{ и вектора отвечающие факторному множеству о. В предполо- жении о том, что компоненты вектора не отвечающие мно- жеству со, равны пулю, модель (9) перепишется следующим об- разом: . (10) Коэффициенты модели (9) и, следовательно, модели (10) до- пускают удобную интерпретацию. Эта интерпретация становится очевидно!! при непосредственном рассмотрении определений эф- г^ектов уровней и эффектов взаимодействий уровней. Пример 4. В качестве примера рассмотрим план 3X2/4: г0 ° D = ? 1 . 1 1 .2 1. Полный план Df для данного случая й матрица записаны в П п./р. С. М. Ермакова ' / . 257
примере 2. Матрица Х^имее^г вцд 'J х* xf xl ш/ ^2 *^12 1:100:10:10000 do i .oil oio. oioo do о di 0:0 о о Л) i di о oh iJo looo do i oio do о о i о .do о do do о о о о 0" о о о • 0 L В предположении, например, что все эффекты взаимодейст- вий уровней равны нулю, получим модель Ity* =|W + ₽1°М° + + Pl2)#l2 + ₽2°M° + P^M1- Матрица коэффициентов X12 для плана следующий вид: 4 D для этой модели имеет о 1 я2 <2 10- 0 1 0 1- 0 1 2. Дополнительные связи. В модели (9) матрица коэффициен- тов Х1..Л для полного плана не является матрицей полного ран- га. Например, сумма столбцов, принадлежащих дает По- этому оценки параметров & по методу наименьших квадратов даже для полного плана Df не единственны. Однако справедлива система таких линейных равенств для этих параметров 93 вида Я^ = 0, (11> что матрица будет матрицей полного ранга и никакая строка Н не будет пред- ставима в виде линейной комбинации строк Х{. В этом случае для плана с матрицей коэффициентов Х{ т. е. для полного плана, при ограничениях на параметры (11) будут существовать единственные оценки МНК параметров Матрица II с пере- численными свойствами может быть получена из коэффициентов- следующей системы: shni)=o, = ¥^ = о,... п{=0 П{=0 nj=O «1^1 «Л-1 .... 2 = 2 = о, (12) ?, ] — 1, i¥=]\ ти =0, ..si —1. 258 /
Разобьем Н на подматрицы в соответствии с разбиениями _h иЧ\..л: Я = [0 где 0-нулевой вектор-столбец. Модель (9) с ограничениями (11) называется полной фактор- ной моделью истинных эффектов для качественных факторов (или моделью Cf истинных эффектов). Обозначим через Н® подматрицу матрицы Я, отвечающую факторному множеству со. Модель (10) с ограничениями = 0 называется факторной моделью истинных эффектов для множест- ва со для качественных факторов (или моделью Сш истинных эф- фектов). Для'модели С® выполняются следующие два условия: 1) Модель Сш истинных эффектов содержит свободный член и члены со всеми эффектами уровней для любого фактора. 2) Если модель содержит хотя бы один член с эффектом взаимодействия некоторых уровней г факторов, то она содержит члены со всеми эффектами взаимодействий уровней любых п {п С г) из этих факторов. Пример 5. Рассмотрим опять полный план 3X2. Матрица II для него будет иметь следующий вид: 0:0 0 Ё 0 Д1 1 1:0 0:0 о oji, do о о = о oh о 0=0 oio о oio oio о oio oh 0 0j0 0-0 , 12 0,0 0 0 0“ 0 0 0 0 0 1 0 0 0 0 0 110 0 0 0 0 1 1 0 10 10 10 10 1- Литература к § 3: [6*, 99]. § 4. Смешанная факторная модель 1. Модель истинных аффектов. Рассмотрим полный план Df наряду с планом D для случая, когда часть факторов ... ..., имеет качественную структуру, а остальные факторы (Ffci+1, количественную структуру. Будем далее счи- тать, что скалярный квадрат любого столбца любой матрицы главных эффектов или эффектов взаимодействий для полного плана Df равен Nf. Для качественных факторов, как в п. 1.6 ис- пользуем матрицы Pi = ф$ = [ф?, 'фг1 ] всех векторов эффек- тов уровней факторов t (z = l,..., kJ. Для количественных фак- 1 f торов, так же как и в п. Г.З, рассматрим матрицы р; = Р$ век- торов главных эффектов факторов (/ = kt +1, к) для пла- на D*. В качестве векторов эффектов взаимодействия для качест- 17* 259
венных факторов • • •, ir (h, • • •» ir CJ &i) используем мат- рицу р< .„ir всех векторов эффектов взаимодействия уровней факторов ,...» &~ir: •Л9\...<г = ЛГЧг..<г = N'K ® ® Для количественных факторов 3"j ,..., &~ц (Л, ..., ji > + 1) рассмотрим матрицу pjr.jl эффектов взаимодействия факторов • • • > &ц> Р^-.J/ Р^г Для качественных факторов 8Г, ST ir (i\, ..ir < А9) тг количественных факторов -• • • ♦ У ц (ц, ..., /<>** + !) рас- смотрим матрицу Pi1...irj1...jrl- Ptr..irjr.J/ = ^ Ф<Г.ЛГ ® Pjr. Jp Аналогично п. 1.6 справедливо следующее утверждение. Любой вектор матрицы Pi1...irjr..ji есть вектор эффекта взаи- модействия факторов St"ix, , 3F^V urgpir,.irjx..jz=* ° К - 9 • • • (sv-1) (sn -*)••♦ (s^ - 9- Обозначим P 1..Л — |^7" *^Pi • • * P&Pi2 • • •'Pr..kJ, . i = 1, Zj=Ffh i = kk + 1, ..k, ii,Ji, ...,/i^ki + l, • • • zkzi2 • • • ZI. ..hl- Обозначим также через В Pi...h4f вектор истинных эффектов смешанной факторной модели. Для вектора наблюдений yf =(Уц . • •, У^)т в точках Df вы- полняется тождество . (13) Для Параметров смешанной модели (13) справедливы равенства, аналогичные равенствам (12), причем суммирование нужно про- изводить только по индексам, не превосходящим Если черев V обозначить матрицу коэффициентов получаемой при этом си- стемы, то V0-O. (14> Матрица . [ v J 260
есть матрица полного ранга, и никакая строка V пепредставима в виде линейной комбинации строк ZE. Модель (13) с ограничениями (14) называется смешанной пол- ной факторной моделью истинных эффектов (мп моделью Gf ис- тинных эффектов). ' ‘' ' ' ' Обозначим через Z®, Vю и 0® соответственно части матриц Zi л, и вектора 0, отвечающие факторному множеству о. Пусть компоненты вектора 0, не отвечающие, множеству о, рав- ны пулю. Тогда справедлива модель , Eyf = Z*e* (W = 0), - (15) которая называется смешанной факторной моделью истинных эффектов для множества <о. Модель (15) можно доопределить в более широкой области. В этом случае придем к модели ЕУ{хи ...,xh) = ^(x1,...,Xh)e,d (W = o), где fg , Xhu) совпадает с u-й строкой матрицы Z“. 2. Эквивалентность факторных моделей. Все перечисленные выше модели обладают рядом одинаковых свойств. Эти свойства касаются оценок регрессионных функций в точках полного пла- на, дисперсий этих оценок, а также вопросов существования единственных оценок метода даимепьших квадратов. Рассмотрим полное множество из п линейно независимых эф- фектов для факторного множества со для полного плана Df и вектор Л Для дробного плана D рассмотрим также п +1 век- торов, у которых координаты, отвечающие некоторой комбина- ции уровней факторов, равны координатам векторов, отвечаю- щим тем же комбинациям уровней для плана Df, Эти векторы называются векторами эффектов, порождаемыми планом D и мно- жеством (О. Для фиксированного плана D существуют и притом един- ственные оценки МНК параметров для любой факторной модели для множества ы тогда и только тогда, когда векторы эффектов, порождаемые планом D и множеством со, линейно независимы. В случае выполнения приведенного необходимого и достаточ- ного условия план D называется невырожденным для факторно- го множества (о. Для невырожденного плана D для множества ы и заданного вектора наблюдений оценка регрессионной функции в любой фиксированной точке Df и дисперсия этой оценки совпадают для любых двух моделей для факторного множества о. 3. Основные частные случаи. В этом пункте приведены не- сколько важных частных случаев факторных моделей. Первый из них — это модель первого порядка £г/ = 0о + 8Д1 + ... + еЛ. Модель является частным случаем общей факторной модели А9 261
для количественных факторов для факторного множества ..., 9~k, если все факторы — двухуровневые. Второй случай — неполная квадратичная модель типа 1: Еу = 0о Qi^i "Ь 0^fc “Ь 012^1-^2 '"Ь • • • + 0fc-if k^h-i^-k» Модель является частным случаем общей факторной модели Л® для количественных факторов для факторного множества ST . ..., STесли все факторы двухуровневые. Третий случай — неполная квадратичная модель типа 2: Еу = 0О + 0j^i+ ••• + + 0ц-^1 + * •« + 0/г/Д^- Эта модель также является частным случаем общей факторной модели для количественных факторов для факторного мно- жества если все факторы трехуровневые. Четвертый случай — модель главных эффектов для к качест- венных факторов (частный случай модели С® для качественных факторов для факторного множества &~к). Такие модели рассматриваются, в частности, в рамках планирования с помощью так называемых латинских планов. Пятый случай — частный вид последней модели — связан с задачей разбиения плана па блоки и возникает в следующей си- туации. Пусть план D для факторной модели Ey — QTf(Xh Хк) с возможными ограничениями на параметры Т0 = 0 содержит N опытов. При этом может оказаться так, что все эти N опытов не могут быть реализованы в однородных условиях. Так, может случиться, например, если однородной партии сырья (в химиче- ском эксперименте) хватает только на 7V0 опытов (NQ<N\ если однородные участки земли в сельскохозяйственном эксперименте невелики и т. п. В таких случаях можно часто предположить ад- дитивность влияния указанного источника неоднородности. При этом вводится, по существу, еще один ^фактор который назы- вается блоковым. Число уровней этого фактора равно числу не- однородных партий сырья, участков и т. п. В этом случае модель может быть записана в следующем виде: £у = ет/(х1......xft)+ 20({V° i=l с ограничениями па параметры: • TQ = 0, 2 p(i) = 0» г—1 где р(г) — эффект i-ro уровня блокового фактора ST, (i) (1 для i-го уровня фактора Х ~ (0 для уровня отличного от г-го. 262 t
Эта модель также является факторной для плана £>Л, содер- жащего все факторы плана D и блоковый фактор Для к = 1 * такая модель рассматривается в рамках так называемого неполно- блочного планирования для исследования влияния фактора с большим числом уровней при разбиении планирования на од- нородные блоки. При небольших значениях к (к > 1) соответст- вующие модели и планы относятся к теории так называемых многомерных, схем. Теория неполноблочных планов и многомер- ных схем составляет отдельную область комбинаторной матема- тики и в данном издании не' рассматривается. Литература- к § 4: [6*, 57*, 126, 134* 148*, 152, 175*J> ;
ГЛАВА И ЭФФЕКТИВНОСТЬ ФАКТОРНЫХ ПЛАНОВ § 1. Критерии оптимальности 1. Основные определения. Здесь в соответствии с п. 10.4.2 бу- дут рассматриваться невырожденные планы (только для одного дополнительного свойства невырожденных планов будет сделано исключение). Будут различаться типы невырожденных планов для произвольной факторной модели для множества о в соответ- ствии со следующим определением. Невырожденной план для факторной модели для множества to содержащего все возможные элементы из г—_1 ц минее факто- ров, называется планом разрешающей способности 2г—1. Невы- рожденный план для факторной модели для 'множества <в, содер- жащего все возможные элементы из г— 1 й менее факторов, на- зывается планом разрешающей способности 2г, если эффекты в модели для множества со оцениваются несмещенно для модели для множества <о\ включающего все возможные элементы из г и менее факторов. В последнем случае план для множества с/ не обязательно невырожден. План разрешающей способности 3 называется также планом главных эффектов^ а соответствукЛцая ему модель — моделью главных эффектов. Для невырожденных планов и факторных моделей без огра- ничения на параметры будем рассматривать общие критерии оп- тимальности: критерии /)- и А -оптимальности, связанные со свой- ствами информационной матрицы плана, й критерии G- и Q- оптимальности, связанные со свойствами дисперсионной функции оценок МНК в исследуемой области. Для моделей с ограничения- ми на параметры будем рассматривать критерий £>-оптималыго- сти с информационной матрицей для редуцированной модели (см. п. 1.2.5). Поскольку свойство //-оптимальности плана инва- риантно при невырожденных линейных преобразованиях вектора параметров модели, оно инвариантно и по отношению к выбору вектора новых параметров редуцированной модели. Следующие два критерия (ортогональности и регулярности) также широко используются при планировании факторных экспе- риментов, хотя па первый взгляд они могут показаться не такими естественными со статистической точки зрения, как предыдущие. 264
В § 2 будет дало обоснование широкой применимости этих кри-_ териев. План называется ортогональным, если ковариационная мат* рица вектора оценок параметров для этого плана имеет диаго- нальный вид. jiffy М - . . Пусть -число одновременных появлении <t., jt-x уровней соответственно факторов ., &"ir Условие = *• '• V7i, (1) называется условием пропорциональности частот для факторов Говорят, что выполняется условие пропорциональности частот для факторного множества о, если условие (1) выполняется для каждой группы факторов, отвечающих любым двум элементам множества <о. Факторный план называется регулярным для факторного мно- жества о, если для этого множества о выполняется условие про- порциональности частот. , Из приведенных определений непосредственно следует, что для регулярного плана для множества со: {^, ..., выполня- ется условие пропорциональности частот для любых двух факто- ров, а для множества о: ..., ..., J — ус- ловие пропорциональности частот для любых четырех факторов. Факторный план называется регулярным мощности t, если выполняется условие .пропорциональности частот либо для любых t факторов, либо для t/2 = к факторов’ {где к — общее число фак- торов в плане). Регулярный план мощности t одновременно яв- ляется регулярным планом мощности £ — 1. 2. Эквивалентность критериев. Сначала рассматривается вза-, имосвязь критериев регулярности и ортогональности. Для регулярного плана мощности t = 2п можно выбрать пол- ное множество взаимодействий вплоть до порядка п — 1 попарно ортогональными. Для регулярного плана мощности t = 2n+ 1 мож- но выбрать полное множество взаимодействий вплоть до порядка п — 1 попарно ортогональными, чтобы каждый из них был орто- гонален ко всем взаимодействиям порядка п. — Таким образом, регулярный факторный план мощности t есть частный случай плана разрешающей способности Z + 1. Следующие два условия эквивалентны: 1) план D регулярен для множества со; 2) для плана D можно выбрать полное множества главных эффектов и эффектов взаимодействий, отвечающих” факторному множеству о, попарни ортогональными. Переобозначим вектор функций модели (10.4) как*/(Х\,.. .,Xk)= = (1, Ж..Л), ..., Xh))T. И пусть РиЧХ^,., XJ = Xhu) — значение, которое принимает вектор / в и-и ?очке плана Df (u = l, .. Nf). Вследствие результатов п. 10.1.55 265*
функции в модели (10.4) могут быть нормированы так, чтобы вы- полнялось условие Nf S /i(Xiu, . к •, Xku) . ,xhu) = Л,-, (2) «,/ = 0,1,...,/; /O(X1U, ...,X/tu>l. Факторный план Q-оптимален на Df для произвольной модели для множества о тогда и только тогда, когда он А-оптимален для модели Аа, удовлетворяющей условию (2). Литература к § 1: [6*, 10*, 121, 174, 179*]. § 2. Оптимальность регулярных планов 1. Критерий средней дисперсии.'Пусть уровни 0, 1,..(s< — 1) фактора появляются в плане D соответственно п^\ п?\... ..., щг раз. В этом случае Л п^} = N< Введем коэффициент неравномерности у-го уровня фактора < следующим образом: = N~n<i) В том случае, когда у-й уровень фактора St" i появляется в пла- не D более N/Si раз, <1, если же мепее N/si раз, то >1, и, наконец, когда у-й уровень фактора SFi появляется в плане ровно N/Si раз, имеем =1. Последнее соотношение сохраня- ется, в частности, для равномерных планов для любого уровня фактора. Среднее значений по всем уровням фактора равное тт _ V _ N у __1 1 . у=0 si t к г ) j=0 Г г называется коэффициентом неравномерности фактора и Для равномерных факторов (т. е. для факторов, у которых каждый уровень появляется одинаковое число раз) 17<==1, для неравномерных факторов Г7< > 1. Рассмотрим регулярный план D по отношению к факторной модели для множества о. Для этого плана средняя нормирован- ная дисперсен по множеству Df равна _ f k ) =aa[i + s to -1) to + 2 - i)(si2 -1) toxto4 + 1 2 В равномерных регулярных планах аа = а2/,где Z—Д —число степеней свободы всех главных эффектов и эффектов взаимодей- 266
твий отвечающих множеству о, или, другими словами, I — чис- ло членов в репараметризованной модели. функция эффективности, связанная с Критерием средней дис- персии в области Df, записывается в виде <р = Поскольку ср 1, эффективность, связанная с критерием ^-оптимальности па Df выражается величиной <р -100%. Неравенство ср < 1 спра- ведливо только для факторных моделей и планов, как они опре- делены в гл. 10. В связи с последним замечанием рассмотрим следующий пример. Пример. В области 0 < X, < 1 (i — 1, 2, 3) рассмотрим план эксперимента Л х 3 [110" 10 1 0 11 для модели Ey = blXi + b2X2 + biX39 Этот план является D-оптимальным. Отсутствие свободного члена в модели делает ее «нефакторной». Дисперсии оценок регрессион- ной функции (отнесенных к о2) в восьми точках области Df есть 1, 1, 1, 3/4, 3/4, 3/4, 3/4, 0. Средняя дисперсия, отнесенная ко2, равна 6/8. Поэтому эффективность плана равна 133%. 2. D- и Q-оптимальность. Рассмотрим общую факторную мо- дель (10.4) для количественных факторов SP i, ..., для мно- жества о. Пусть Di — D-оптимальный план с равной мерой в Si точках на отрезке [Х<тт, XimaJ для модели Еу= b0 + bVftKXi) + . Регулярный факторный план для > множества о, в котором переменные принимают значений в точках планов Dh бу- дет D-оптимальным для модели (10.4) в области Ximin^Xt^ =CXimax 0=1, .к) тогда и только тогда, когда он равномерен. Регулярный факторный план для множества со одновременно D- и Q-оптимален в области Df для произвольной факторной мо- дели для множества со тогда и только тогда, когда он равно- мерен. Рассмотрим теперь смешанную факторную модель (10.13) для факторного множества со для качественных факторов ^~й1и количественных факторов ми Область планирования есть ST i = 0, 1, «.$i — 1, i = 1, •.., kl9 (3) Xj min Xj Xj max, j k± 4“ 1, . . ., k. / Регулярный факторный план для множества со для количест- венных переменных Хг = + ..., к), принимающих st зна- * • ,267
чений в точках планов D,, и для качественных факторов ST k D-оптимален для модели G* (10.1'3) при наличии огра- ничений (10.14) в области (3) тогда и только тогда, когда он равномерен. Если в рассматриваемых моделях /ij)(X) — полином степени / от X, то в качестве D-оптимальных планов D< можно выбрать планы, в которых переменные X принимают s< следующих зна- чений: па концах отрезка [X»m, XmaJ и в корнях производной ($<— 1)-го полинома Лежандра. ГГр и м е р 1. Рассмотрим модель Еу — Оо + 01^1 + 011^1+ 0’аХ + ©зХ + 0<Х +05>+sO)+ и план 110 0 1 2 10 10 3 0 0 1 1 3 110 0 2 0 10 1 10 110 0 1111 для количественных переменных X, X, X, X и качественного блокового фактора 3~*> в области -1<ХХ + Ъ /==!,...,4, 4°\ 4°-{0,1}. План DP есть регулярный равномерный план Главных эффектов. После выбора значений количественных переменных -в соответст- вии с результатами этого раздела оп превращается в D-оптнмаль- пый для рассматриваемых модели и области: х3 xt х(0) х(1) 1 — 1 — 1 — 1 1 0 “ — 1/1/5 + 1 — 1 — 1 0 1 + 1/V5. 4-1 — 1 4-1 1 0 + 1 ' — 1 — 1 + 1 0 1 + 1 4-1 4-1 — 1 1 0 4-1/У5 . — 1 4-1 — 1 0 , 1 -1/У5 — 1 4-1 4-1 ' 1 0 _-1 4-1' 4-1 •4-1 0 1 _ Литература к § 2: [6*, 10*, 141, 144]. § 3. Классификация регулярных планов 1. Ортогональные таблицы. Факторный план в N опытах 'с к факторами на $ уровнях называется ортогональной таблицей мощ- ности t и обозначается (Nt fc, s, О, если для любых 7 факторов 268 ' .
ъсс s* различных комбинаций их уровней встречаются одинако- вое число раз X. Число X называется индексом таблицы. Если симметричный регулярный факторный план мощности t является также и равномерным, то для любых t факторов все j различных их комбинаций встречаются одинаковое число раз. Более того, справедливо следующее утверждение. Симметричный равномерный регулярный s-уровневый к-фак- торный план в N опытах мощности t эквивалентен ортогональ- ной таблице (N, k, s, t). Если для таблицы (N, к, s, t) выполняется условие X =» sr 0 — целое), то такой план называется гиперкубом мощности t. „ 2. Латинские планы. Множество целых чисел О, 1, ;.5 — 1, расположенных в виде (s X $)-матрицы; называется квадратом размера s. Квадрат называется латинским, если каждое целое встречается ровно один раз в каждой строке и в каждом столбце. Два квадрата одного и того же размера называются ортогональ- ными, если при наложении их друг на друга каждая упорядочен- най пара целых чисел встречается ровно один раз. Существует пара ортогональных квадратов, называемых стан- дартными, таких, что им.будет ортогонален любой латинский квадрат этого же размера. Первый из этих квадратов содержит первую строку из 0, вторую - из 1 и т. д. Второй квадрат есть транспонированный первый квадрат. Число ортогональных латин- ских квадратов размера 5 не более чем 5 — 1. Множество 5 — 1 попарно ортогональных латинских квадратов размера 5 называется полным множеством ортогональных латин- ских квадратов. Вместе со стандартными квадратами полное множество орто- гональных латйнских квадратов образует множество из 5 + 1 по- парно ортогональных квадратов. Если множество целых чисел одного из ортогональных латин- ских квадратов заменить латинскими буквами, а множество це- лых чисел другого латинского квадрата — греческими , буквами, то такая пара. ортогональных латинских квадратов называется греко-латинским квадратом. Система более чем из двух попарно ортогональных латинских квадратов называется гипергреко-ла- тинским' квадратом. Множество целых чисел 0, 1, $ — 1, расположенных в ви- де кубической решетки (5X5X5), называется кубом размера s. Куб называется латинским первого порядка, если каждое целое встречается ровно s раз в каждой плоскости, параллельной не- которой грани куба. Два куба называются ортогональными, если при наложении их друг на друга каждая упорядоченная пара целых чисел встречается ровно 5 раз. Аналогично стандартным квадратам существуют три. попарно ортогональных стандартных куба таких, что им будет ортогона- лен любой латинский куб этого же размера первого порядка. Система из двух ортогональных латинских кубов называется ^реко-латинским кубом, а система более чем из двух попарно 269
ортогональных латинских кубов называется гипер греко-латин- ским кубом. Максимальное число попарно ортогональных латинских кубов размера s первого порядка равно $2 + ^—2. Вместе со стандарт- ными кубами они образуют множество из s2+s+l ортогональ- ных кубов. Множество целых чисел 0, 1, ..., s2 —1, расположенных в ви- де кубической решетки (sXsXs), называется латинским кубом, размера s второго порядка, если каждое целое встречается ровна один раз в каждой плоскости, параллельной некоторой грани куба. Пример 2. Рассмотрим для $ = 3 множество из четырех попарно ортогональных квадратов, из которых первые два — стандартные, а последние два — латинские: ООО 012 111 0 12 222 012 012 021 120 102 201 210 Последние два квадрата можно представить в виде греко-ла- тинского квадрата: аа Ьу ср &Р са ау су ар Ъа Пример 3. Приведем еще в качестве примера греко-латин- ский куб размера 3 первого порядка, три параллельные плоскости которого для простоты изображения представим поочередно: аа аа аа ср ср ср by by by ЬР &р др ау ау ау са са са. су . су су Ъа да Ъа ар ар ар 3. Эквивалентность. Существование различных латинских пла- нов тесно связано с существованием ортогональных таблиц и, та- ким образом, с существованием различных регулярных планов. Существование множества * из п ортогональных латинских квадратов размера s эквивалентно существованию ортогональной таблицыAs2, n + 2, s, 2). Существование множества из п ортогональных латинских ку- бов размера s первого порядка эквивалентно существованию ортогональной таблицы ($’, n + 3, s, 2). Идею доказательства этих утверждений, носящего конструк- тивный характер, для простоты рассмотрим на примере 2. По* строим вместо каждого из четырех квадратов размера 3 вектор* столбец, записывая второй столбец квадрата под первым, а тре- тий — под вторым. Это даст четыре столбца, образующих орто- гональную таблицу (9, 4, 3, 2) индекса 1, или гиперкуб 270
мощности 2: ”0 0 0 0“ 10 11 2 0 2 2 0 112 112 0 2 10 1 0 2 2 1 -12 0 2 _2 2 1 0 (4) Строки любой ортогональной таблицы (9, 4, 3, 2) можно рас- положить таким образом, чтобы первые два ее столбца совпали с первыми двумя столбцами матрицы (4). Отсюда легко полу- чить способ построения квадратов из примера 2. Результаты этого пункта относились к случаям ортогональных таблиц мощности 2 и соответственно индексов 1 и $. Аналогично тому, как были определены латинские кубы первого порядка и стандартные кубы,'можно дать определение латинских гиперку- бов первого порядка и стандартных гиперкубов* и установить эквивалентность существования множества из п ортогональных 7-мерпых гиперкубов размера s первого порядка и существова- ния ортогональной таблицы (s\ n + Z, s, 2) мощности 2 и*, индекса sl~2 Cl>3). Таким образом, концепция латинских гиперкубов первого порядка полностью описывает случай гиперкубов мощ- ности 2. - Р Помимо рассмотренных выше случаев, известны соотношения эквивалентности между многими другими комбинаторными пост- роениями, с одной стороны, и ортогональными таблицами или более общими случаями регулярных планов— с другой стороны. Литература к § 3: [6*, 125, 157, 159, 179*]< 271
ГЛАВА 12 ГЕОМЕТРИЧЕСКИЕ ПЛАНЫ В этой главе рассматривается один из частных случаев сим- метричных регулярных равномерных планов — геометрические планы. Теория построения таких планов содержит наиболее яр- кие аналитические методы, которые выделяются своим изящест- вом не только в теории факторного планирования, по и во всей теории планирования эксперимента. Немаловажно при этом, что геометрические и производящиеся от, них планы использовались ранее и используются сейчас в подавляющем большинстве прак- тических приложений. § 1. Расщепление степеней свободы в полном плане 1. Контрасты между множествами наблюдений. Пусть даны два множества наблюдений ..., уг и ..., yit. Тогда вектор коэффициентов линейной функции наблюдений y'i + ,..+ yi--yi+i--Угь 21 = N, называется контрастов между этими двумя множествами наблю- дений. Это определение согласуется с определением контраста в п. 10.1.3. Если все N наблюдений разделены на q множеств по Ni « ~N/q наблюдений в каждом так, что никакое наблюдение по попало сразу в два множества, то имеется Cq = q (q — 1)/2 различ- ных контрастов между этими множествами. Из них можно ^вы- брать только q — 1 независимых контрастов, например контрасты между любым фиксированным множеством и всеми остальными. Говорят, что контрасты между этими множествами обладают q — 1 степенями свободы. 2. Конечные пространства. Рассмотрим симметричный полный план s\ где s = р\ р — простое и h — целое. В плане. sh каждому уровню фактора поставим в соответствие элемент поля Галуа GF(s). При 7z = 1 поле Галуа GF(p) образуется при помощи р классов вычетов по- простому модулю р. При Л>1 поле Галуа GF(ph) образуется при помощи ph классов вычетов по модулям р и Р, где Р — неприводимой полином степени h с коэффициен- тами в GF{p). Каждый опыт с факторами ..., 3Fзафикси- 272
1 рованными соответственно на уровнях х>, ...» Хь будет отвечать точке Л-мерного конечного евклидова пространства EG (к, s). n-плоскость в EG(k, s) содержит sn точек, которые удовлетворя- ют к — п линейно независимым уравнениям вида а01 4-«иХ, +... + амх* = О, «ог + ai2Xi + • • • + «иХ* = 0. * • V • л • • • • « Йо, + Й!, + • . . + ЙЛ, ^nXfc = 0. В частности, гиперплоскость в EG{k, з) определяется уравне- нием й0 + atxi +... + ак%к == 0. (1> Если а0 будет пробегать в выражении (1) все $ возможных значений из GF(s) при фиксированных значениях а^ ..., то получим пучок параллельных (А: — D-плоскостей P(ah ..., ак) в EG(k, s). Числа ..., ак называются координатами пучка Р(а{, ..., йл). В EG(.k, s) нет двух гиперплоскостей пучка Р(йь ..., имеющих общую точку, и через любую точку EG(k, s) проходит точно одна гиперплоскость , пучка Р(й1? ..., ак). Пучок Р(йъ .... ..., щ) параллельных гиперплоскостей в EG(k, $) совпадает.с пучком Р(Хйь ..., где Х^О. Однозначного представления пучков можно добиться считая, что первая ненулевая координата есть 1. Следовательно, координаты пучков можно рассматривать как однородные, поэтому множество всех различных пучков об- разуют конечную проективную геометрию PG(k~~ 1, $). Число различных точек в PG(k — 1, 5) и, следовательно, число различ- ных пучков параллельных гиперплоскостей Р(аь ..., ак) в EG(k, s).равно (sfc — l)/(s — l)t 3. Природа степеней свободы в полном плане. При помощи пучка Р(й1? ак) все sk наблюдений в EGtk, s) естественно де- лятся на 5 множеств по 5ft~1 наблюдений в каждом по принципу соответствия s различным плоскостям пучка. Поскольку различ- ные плоскости пучка не пересекаются и через любую точку EGtk, s) проходит плоскость пучка, каждое, наблюдение в соот- ветствии с таким разбиением будет принадлежать одному и толь- ко одному множеству. В соответствии с терминологией п. 1 пу- чок параллельных плоскостей обладает $ — 1 степенями свободы, т. е. максимальное число независимых контрастов между мно- жествами, порождаемыми этими пучками, равно s—1. Пусть Pt и Р2— два различных пучка параллельных плоско- стей в EG(k, s). Тогда контраст между любыми двумя множест- вами, порождаемыми пучком Pl9 ортогонален контрасту между любыми двумя множествами, порождаемыми пучком Р2. Число различных пучков, параллельных плоскостей равно (-$*—!)/($ —1), и каждый пучок обладает 5—1 степенями свобо- ды. Поэтому общее число из sh— 1 степеней свободы для всех 18 п./р. с. М. Ермакова . _ -273
контрастов может быть расщеплено на (sft—!“)/($—1) множеств, порождаемых пучками параллельных плоскостей, по s — 1 степе- ней свободы каждое, так, что контрасты, отвечающие степеням свободы одного, множеству ортогональны контрастам, отвечаю- щим степеням свободы другого множества. Для простоты в та- ких случаях говорят об ортогональных степенях свободы. Контрасты, отвечающие различным пучкам параллельных плоскостей, имеют наглядную геометрическую интерпретацию. Предположим, что из всех координат пучка .., ak) только одна (для определенности первая) отлична от нуля. Тогда коор- динаты контраста между любыми двумя плоскостями пучка Р(аъ 0, ..., 0) будут зависеть только от уровней фактора Ft и, по определению, будут образовывать главный эффект этого фак- тора для полного плана s\ Поскольку пучок параллельных пло- скостей обладает s~l степенями свободы, пучок Р(а1у 0, ..., 0) порождает. полное множество линейно независимых главных эф- фектов. В более общем случае справедлив следующий результат. Если п координат пучка Р(а{, ..., ak) ненулевые, а остальные равны нулю, то контраст между любыми двумя плос- костями этого пучка есть эффект взаимодействия (п—1)-го по- рядка факторов ST..., STin. Число различных пучков, образую- щих таким образом эффекты взаимодействия факторов SF$ , ... V Равно ($ — 1)п”\ Все эти пучки порождают полное мно- жество эффектов взаимодействия. Пример 1. Рассмотрим полный план З2. Уровням факто- ров \ и £Г2 поставим вм соответствие элементы поля Галуа GF (3): 0, 1, 2. Главные эффекты фактора порождают пучок параллельных плоскостей Р(1, 0), главные эффекты фактора порождают пучок Р(0, 1) и эффекты взаимодействия факторов и порождают два пучка: Р(1, 1), Р(1, 2). Для вычисления главных эффектов и эффектов взаимодействий, порождаемых эти- ми пучками, запишем значения, которые . принимают в плане факторы и а также суммы и 3^ + ~0 0 ^i+2^2 0 - 1 ’ 0 1 1 2 0 2 2 0 1 1 2 1 1 2 0 2 1 0 1 0 2 2 1 * 1 2 0 2 _2 2 1 0 Каждую из трех плоскостей пучка Р(1, 0) составляют три опыта, в которых фактор соответственно принимает значения О, 1, 2. Поэтому два независимых эффекта фактора SF\ можно записать, например, как контрасты между первой и второй и 274
первой и третьей плоскостями. Аналогичное справедливо остальных трех пучков. Полученные таким образом конт- имеют следующий вид: между и для расты 3 ^х» £ 1 — 1 — 1 — 1 -1 — 1 — 1 — 1“ + 1 0 — 1 — 1 + 1 0 + 1 0 0 + 1 — 1 — 1 0 4-1 0 + 1 — 1 — 1 + 1 0 + 1 0 0 4-1 4-1 0 4-1 0 0 4-1 — i — 1 0 + 1 + 1 0 -1 — 1 + 1 0 1 — 1 0 4- 1 0 4-1 + 1 0 + 1 0 0 4-1 — 1 — 1 0 4-1 0 + 1 0 4-1 + 1 0 — 1 —1_ Литература к | 1: [6*, 117, 192]. § 2. Геометрический метод построения дробных планов 1. Генераторы. Как и ранее, будем ставить в соответствие полному симметричному плану sh точки конечного евклидова про- странства EG(k, s). Если координаты точки этого пространства записывать как (%и ..хД система из I независимых уравнений «их* +• • •+ = Q, (2> «11X1 +• • •+ амЪ = о с коэффициентами аГз е GF(s) определяет подмножество из точек EG(ks) или полного плана Дробный план для к 5-уровневых факторов, состоящий из точек, удовлетворяющих системе из I линейно независимых уравнений (2), называется геометрическим. Равенства (2) называются генерирующими соотношениями гео* метрического плана, а пучки Р(аи, ..., ам), м., «ы) — генераторами. Поскольку пучки задаются своими координатами, то термин «генераторы» относят также п к координатам пучков. Пучки Р(Х1«и +...4- kiaih .,., KiUki +...+ где Xi (i = 1, ..Z) не равны одновременно нулю, называются определяющими пучками геометрического плана, задаваемого си- стемой (2). Для данного геометрического плана генераторы можно вы- брать неоднозначно. Определяющие пучки Можно представить од- нозначно, если первую из ненулевых координат считать равной единице. Таким образом, общее число различных определяющих пучков плана, задаваемого системой (2), равно (sl —• l)/(s — 1). 18* 275»
2. Процедура построения по заданным генераторам. Непо- средственный выбор точек из EG{k, s), удовлетворяющих систе- ме (2), с помощью прямой подстановки крайне затруднителен. Более простой способ использует так называемые элементарные преобразования матрицы А = {a-J (i » 1, .,к, / = 1, ..., I) коэффициентов системы (2), т. е. умножение строки на число, прибавление к некоторой строке линейной комбинации других строк и перестановку строк или столбцов. Матрица А путем эле- ментарных преобразований может быть приведена к виду ?11 • S^-1,1 *-1 О'. ..О Введем следующее обозначение: где gi = (?ш • ♦ •» . gTi = (gih • • •» gk-t,i)> Векторы glt ..gi называются псевдогенераторами геометриче- ского плана, задаваемого системой (2). Образуем теперь матрицу ~ г I7*-*! L J’ где Ih-i — единичная матрица порядка к — I. Тогда искомый плап D может быть получен следующим образом: D = Dfk-ICT, (3) где Dk-i — матрица полного плана з*~‘ размера s'1-1 X (к — I). 3. Связанные множества. Рассмотрим вектор £ для плана £>, задаваемого системой (2), с координатами, равными соответствую- щим координатам V» порождаемого пучком Р(аь ..., в Df. В этом случае говорят, что контраст %* в Df порождает % в D. Если Р(аь ..ак) является определяющим пучком плана Z>, то D целиком лежит в одной из плоскостей «о + ад +• • •+ ад === О (4) (при а0 — 0) и не имеет общих точек с другими плоскостями (4) (при Ло'^О). В этом случае V порождает в D вектор V. Вектор V порождает те и только те контрасты V» которые соответствуют * определяющим пучкам плана D. В этом случае говорят, что век- тор и векторы, порождаемые определяющими пучками плана D, 276
находятся в одном связанном множестве (относительно плана Z>). Относительно определяющих пучков плана D также говорят, что они находятся в одном связанном множестве. Более того, спра- ведлив следующий результат. Все ($* — !)/($ —1) пучков параллельных плоскостей в 'Df делятся на (sfe~z— l)/(s —1) связанных множеств по sl пучков в каждом и одно связанное множество из (sz —!)/($ —1) определя- ющих пучков. В одно связанное множество с пучком Р вхооят те и только те пучки, которые представимы в виде суммы пуч- ка Р и линейной комбинации определяющих пучков. Пучки'од- ного и того же связанного множества порождают совпадающие пучки параллельных плоскостей в D. Пучки из различных свя- занных множеств порождают пучки параллельных плоскостей в D, обладающие ортогональными степенями свободы. Геометрический смысл контрастов полного плана (см. п. 1.3) Л распространяется й на геометрический дробный план. D, задавае- мый системой (2^. Если план D включает все комбинации факторов ЗГ или, что то же самое, среди определяющих пучков нет пучка, имеющего в качестве нулевых координат одновременно все ко- ординаты, отличные от а^, ..., а^, то все пучки, соответствующие эффектам взаимодействия факторов 3F it в Df, порожда- ют пучки параллельных плоскостей в D, соответствующие пол- ному набору эффектов взаимодействия этих же факторов в плане D. Пример 2. Рассмотрим полный план З4 (план Df) и план D из 9 точек, задаваемый двумя линейно независимыми уравпе- i НИЯМИ Х1 + Хг+2%, = 0, Х1 + 2Хг + 2х4==0. Генераторами плана D будут точки Р(1, 1, 2, 0) и Р(1, 2, 0, 2). Четыре определяющих пучка: Р(1, 1, 2, 0), Р(1, 2, 0, 2), Р(1, 0, 1, 1), Р(0, 1; 1<2) образуют связанное множество определяющих пучков. Для любого номера координаты пучка найдется опре- деляющий пучок с нулевой координатой на этом месте. Поэтому в плане D никакие три фактора не имеют всех своих комбина- ций (это становится очевидным с помощью простого подсчета числа этих комбинаций). Поскольку ни один определяющий пу- чок пе имеет двух нулевых координат, для любой пары факто- ров план D включает все их комбинации. Это в свою очередь означает, что соответствующие пучки порождают полное мно- жество эффектов взаимодействия для любой пары факторов. К аналогичному выводу можно прийти и по отношению к глав- ным эффектам всех факторов. Имеется четыре связанных множества неопределяющих пуч- ков, каждое из которых содержит 9 пучков. Ниже приведены их координаты. '277
Связанные множества Первое Второе Третье Четвертое (1, 0, 0, 0) (0, 1, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (1, 2, 1, 0) (1, 2, 2, 0) (1, 1, 0, 0) (1, 1, 2, !) (1, 1, 0, 1) (1, 0, 0, 2) (1, 2, 1, 2) (1, 2, 0, 0) (1,-0, 2, 2) (1, 1, 1, О (1, 0, 2, 1) (1, 0, 1, 2) (1, 1, 1, 2) (0, 1, 2, 1) (0, 1, 2, 2) (0, 1, 1, 0) (0, 1, 2, 0) (1, 0, 2, 0) (1, 1, 1, 0) (1, 1, 2, 2) (0, 1, 0, 1) (1, 1, 0, 2) (1, 2, 2, 2) (1, 2, 0, 1) (0, 0, 1, 1) (1, 2, 1, 1) (1, 0, 0, 1) (1, 0, 1, 0) (1» 2, 2, 1) (0, 0, 1, 2) (0, 1, 0, 2) (0, 1, 1, 1) 4. Невырожденность и смещение оценок. При выборе модели, отвечающей факторному множеству о> и соответствующей за- данному геометрическому плану, важным является получение ус- ловий, <при которых этот план будет невырожденным. В силу результатов п. 10.4.2 эти условия связаны с фактом линейной независимости эффектов, порождаемых планом D и факторным множеством со. Вследствие результатов п. 3 множество эффектов, будет линейно независимым, если никакой из пучков, отвечаю- щих факторному множеству о, ре является определяющим и никакие два из них не принадлежат одному и тому же связан- ному множеству. Предположим, что с помощью плана D найдены оценки МНК параметров, модели, содержащей эффекты, порождаемые не болен чем одним пучком из каждого связанного множества. Интерес- ным является вопрос о смещении этих оценок в том случае,, когда, вопреки предположению, модель содержит дополнитель- ные эффекты. В этом случае оценка коэффициента, соответству- ющего взаимодействию S будет, вообще говоря, смещенной. Это. смещение будет ненулевым тогда и только тогда, когда в число дополнительных входят эффекты, находящиеся в одном связан- ном множестве с S. Пример 3. Рассмотрим геометрический план 2?/4, задавае- мый равенством + %2 + Хз= 0- * - F j 2 з г 0 О 01 1 о. Для модели Еу = 6O + 61Y1 + Ь2Х2±Ь3Х3 (Х- —±1) план перепи- шется в следующем виде: *1 *3 г—1 — 1 —11 + 1 +1 — 1 Если, вопреки предположению, модель имеет вид, скажем, Еу ~ = Ь0 + Ь1Х1Ч-62Х2+63Х3 + 612Х1Х2 + Ь13Х1Х3, то МНК-оценки В вектора параметров В = (&0? &i, b2, Ь3) будут смещены. Смещение 278
определяется с помощью равенства ЕВ — В + ЛВ^, где В,= = tblt, bt,)T — вектор дополнительных параметров, и А — матрица смещения: Таким образом, г+1 —1 — 1 —1-1 + 1 +1 —1 +1 + 1. —1 +1 +г _+1 +1 +1 — 1. ЕЬ0 — Ьо, Ebz “ &2 — ЕЬ^ — ЕЬ$ — &з ~ bf2t что согласуется с результатами этого пункта, поскольку, помимо определяющего пучка Р(1, 1, 1), имеется три пары пучков, со- ставляющих три связанных множества: rd, о; о), рю, 1,1), Р(0, 1, 0),~ Р(1, 0, 1), Р(0, О, 1), Р(1, 1, 0), Литература к § 2: [6*, 118, 182]. § 3. Обратная задача построения геометрических планов 1. Переформулировки обратной задачи. В предыдущем пара- графе решалась задача построения геометрических планов при заданной системе (2) или, что то же самое, при заданных гене- раторах. На практике чаще всего возникает обратная задача поиска геометрического плана с заданным числом экспериментов, отвечающего линейно независимому множеству заданных эффек- тов, принадлежащих некоторому- факторному множеству со. Более точно, будем называть обратной задачей задачу поиска плана из sn экспериментов, отвечающих линейно независимому множеству главных эффектов факторов 6Г* и заданных трупп эффектов взаимодействия факторов: ............................... (5) Обозначим через Ms —1), Ms —1) числа степеней свободы соответствующих групп из (5). Пусть А = At +... + М Смежной системой по отношению к заданному множеству эф- фектов взаимодействий t групп факторов (5) называется система из А уравнений + • • • +(»—1)Хй+1 = 0, л«1х1Х<14- • • • 4- 1)Хл+х1=0, , ^ipXif + • • • + ®i(lX?t + (s—l)Xh+X-X(+l = O, aitKtXit + • • • + «;лХ>( +(s—l)xft+>.=0, . 279
где строки матрицы - V — 1, есть однородные координаты всех точек конечной проективной геометрии с ненулевыми координатами. s Обратная задача может ставиться как задача нахождения си- стемы (2), задающей sn (п = к — I) точек в EG(k, 5), с требуе- мыми свойствами. Другая эквивалентная переформулировка этой задачи состоит в нахождении системы (2), задающей совместно со смежной системой (6) sn точек в EG(k +• X, з) для факторов F1, ..., Еще одна переформулировка состоит в следующем. Поставим в соответствие факторам из факторного множества о точки конечной проективной геометрии PGtn — l, з). Говорят, что соответствующие точки из PGin — 1, s) заняты факторами iFr, ..., Говорят также, что точка % е PG{n — 1, s) занята взаимодействием факторов если существует ли- нейная комбинация (с ненулевыми коэффициентами из GF(s)) точек из PG(n — 1, 5), занятых факторами^совпа- дающая с %. Если для заданного факторного множества <о факторам из этого множества поставить в соответствие точки конечной проек- тивной геометрии PG(n — 1, s) так, чтобы ни одна из точек PG(u — 1, з) не была занята более одного раза факторами и взаи- модействиями факторов, отвечающим множеству <в, то такое соот- ветствие называется регулярным. В соответствии^ результатами предыдущего параграфа мож- но переформулировать обратную задачу следующим образом: для заданных п и факторного.множества со построить регулярное со- ответствие факторов из этого множества и точек конечной про- ективной геометрии PG(n — 1, з). Аналитическое решение этой задачи неизвестно. Поэтому все известные методы ее решения используют в той или иной фор- ме прямой или направленный перебор, что при возрастании раз- мерности задачи приводит к значительным вычислительным трудностям. Различные частные методы построения регулярных планов рассматривались в работах С. Аддельмана, Г. Бокса, Н. Дрей- пера, К. Дэниеля, Т. Митчела, Дж. Хантера и др. Из частных методов в § 4 даются способы построения гипер- кубов мощности t (при этом свободными от перебора являются только методы построения гиперкубов мощности 2); в п. 2 при- веден один из изящных методов решения обратной задачи (ис- пользующий перебор), представляющий большой ‘ интерес для приложений. 280 '
2. Компромиссные планы. В данном пункте приведено три класса так называемых компромиссных симметричных фактор- ных планов Аддельмана, которые являются регулярными гео- метрическими планами для множества со, содержащего, помимо всех факторов, некоторые пары факторов. Первый класс планов отвечает факторному множеству со, со- держащему к факторов и все пары факторов среди заданных к9 факторов. Эти заданные к9 факторов называются взаимодейству- ющими. Всем точкам P(?(n —1, з) поставим в соответствие ($” — !)/($—1) факторов. В качестве взаимодействующих фак- торов выберем те, которым отвечают точки PG(n~~ 1, s), удов- летворяющие условию: не существует нетривиальной линейной комбинации никаких четырех (или менее) этих точек, равной нулю. В этом случае главные эффекты и двухфакторные эффек- ты взаимодействий взаимодействующих факторов образуют ли- нейно независимое множество контрастов. Вычеркнем те точки PG(n — 1, s), которые представляются в виде линейной комбина- ции каких-либо двух точек, занятых взаимодействующими фак- торами. Полученное соответствие будет регулярным. Пример 4. Рассмотрим случаи s = 2, п = 3. Каждой ит семи точек PG(2, 2) поставим в соответствие факторы Fu ..., Fj* Ft^(100), Ft — (010), ~ (001), F4~(U0), Fs^(lOl), Fe^(011), F7~(lll). В качестве взаимодействующих факторов выберем, йапример, i и Сумма соответствующих им точек есть (111). Поэтому точку (111) и соответствующий ей фактор ST ч следует вычерк- нуть. Полученный план 10 0 110 0 1 0 1 0 1 ' п __ 110 0 11 U 0 0 1 0 1 1 10 110 1 0 11110 _ 1 1 1 о о о _ отвечает линейно независимому множеству главных эффектов факторов iFt, ..., и эффекта взаимодействия факторов 1 И ^8- Второй класс компромиссных планов отвечает множеству о, состоящему из факторов 3^, ..., всех пар факторов среди к9 заданных и всех пар факторов среди к — к9 остальных факторов. Всем точкам PG(n — 1, s) поставим в соответствие (sn — Г)/($— 1) факторов. В качестве первого множества взаимодействующих факторов выберем те, которым отвечают точки PG(n — l, $), удовлетворяющее условию: не существует нетривиальной линей- ной комбинации никаких четырех (или менее) этих точек, рав- 281
ной нулю. Вычеркнем те точки PG(n — 1, s)r которые представ* ляются в виде линейной комбинации каких-либо двух точек PG(n — 1, 5), занятых взаимодействующими факторами. Из остав- шихся точек выберем те, которые удовлетворяют двум требо- ваниям: не существует нетривиальной линейной комбинации ни- каких четырех (или менее) этих точек, равной нулю; нё суще- ствует нетривиальной линейной комбинации никаких двух из них, дающей какую-либо линейную комбинацию каких-либо двух точек, занятых первыми взаимодействующими факторами. Пример 5. Построим план для шести трехуровневых фак- торов в 81 опыте, который соответствует•* множеству <о, состоя- щему из шести факторов, трех пар факторов среди первых трех факторов и трех пар факторов среди последних трех факторов. Для этого поставим в соответствие всем точкам PG(3, 3) 40 трех- уровневых факторов. Выберем точки (1000), (0100),* (0010) в качестве первых взаимодействующих факторов. Эти точки, а так- же все их линейные комбинации не могут входить во второе множество взаимодействующих факторов. В то же время точки (0001), 41110), (1121) могут быть заняты факторами второго множества, и никакая четвертая точка не может быть занята факторами из второго множества. Третий класс планов отвечает факторному множеству со, со- стоящему из факторов ..., ЗР\ и всех пар факторов, среди которых находится по крайней мере один из заданных. Всем точкам PG(n'— 1, s) поставим в соответствие (sn — l)/(s — 1) фак- торов. В качестве множества точек PG(n — 1, 5), занятых задан- ными ко факторами, выберем те, для которых выполняется усло- вие: не существует нетривиальной линейной комбинации ника- ких четырех (или менее) этих точек, равной нулю. Вычеркнем те точки PG{n~ 1, 5), которые являются линейными комбина- циями трех из занятых. Из остальных точек выберем те, которые удовлетворяют требованию: не существует нетривиальной линей- ной комбинации двух из них и двух из к0 занятых точек, равной нулю. Полученное соответствие будет регулярным. Пример 6. Построим двухуровневый план в 64 опытах, отвечающий факторному множеству со, состоящему из 11 факто- ров и всех пар факторов, среди которых находится по крайней мере один из первых четырех. Для этого поставим в соответ- ствие всем точкам PG(5, 2) 63 двухуровневых фактора. Выберем в качестве первых четырех точек PG(5, 2) точки (100000), (010000), (001000), (000100). В этом случае -исключим из даль- нейшего рассмотрения все точки, у которых две последние коор- динаты равны нулю, а среди первых четырех имеется по край- ней мере одна нулевая координата. Из оставшихся точек сле- дующие семь удовлетворяют всем сформулированным требовани- ям: (000010), (000001), (000011), (111100), (111110), (111101), (111111). 3. Необходимые условия. В ситуации, когда неизвестен ана- литический метод решения обратной задачи, особый интерес 282
представляет получение необходимых и достаточных условий существования решения этой задачи. Конструктивные результаты, связанные с достаточными ус- ловиями существования, в настоящее время неизвестны. Тривиальное необходимое условие можно получить с помощью простого подсчета суммарного числа X степеней свободы, отве- чающих заданному множеству главных эффектов факторов и эф- фектов взаимодействий. При этом решение обратной задачи не- возможно, если —1. Enfe одно необходимое условие спра- ведливо для двухуровневых планов. Если для заданного множества эффектов существует регу- лярный двухуровневый план в 2п опытах, то никакая линейная комбинация коэффициентов уравнений смежной _ системы не со^ держит 2п — 2 ил.и 2п — 3 ненулевых коэффициентов. Пример 7. Наиболее простым примером для двухфактор- ных эффектов взаимодействий, показывающим, что это условие не является достаточным, является задача построения регуляр- ного геометрического плана в 24 опытах для шести двухуровне- вых факторов и следующих шести их взаимодействий (указаны только номера взаимодействующих факторов}: 1—2, 1—3, 2—3, 4-5, 4-6, 5-6. Литература к § 3: [6*, 95, 102]. § 4. Частные методы построения 1, Критерии существования гиперкубов мощности t. Рассмот- рим геометрический план D, задаваемый системой (2). Необходимое и достаточное условие того, что sk~* точек, удов- летворяющих системе из I линейно независимых уравнений (2), образуют гиперкуб мощности t, состоит в том, что не существует 'Нетривиальной линейной комбинации уравнений (2), содержащей менее t + 1 ненулевых коэффициентов. Следующие четыре утверждения эквивалентны: 1) существует такая матрица С = {егД размера kX(k-l) (Cij^ GF(s), s = pn, р — простое), что любая ее подматрица раз- мера tX (k — l) имеет ранг t. ‘ ‘ 2) Существуют такие к точек в проективной геометрии PG(k — l — i, ph), что никакие t из них не лежат в пространстве размерности не выше чем t — 2. н 3) Существует такая система I уравнений вида (2), что не существует нетривиальной линейной комбинации уравнений, со- держащей менее t + 1 ненулевых коэффициентов. 4) Существует такой геометрический план D, что среди опре- деляющих пучков нет таких, которые содержат менее t + 1 не- нулевых координат. Идея доказательства эквивалентности этих утверждений ос- нована на получении общих псевдогеператоров. Ниже дан кон- структивный план построения псевдогенераторов геометрическо- го плана с использованием матрицы С. 283
Пусть выполняется утверждение 1), и пусть ранг матрицы С = {cij} равен п9 (t^n9 < и). В матрице С выберем п9 независи- мых строк (без ограничения общности будем считать, что этими строками являются последние п9 строк С). Тогда каждая строка С/ (1 = 1, к — п9) матрицы С представляется в виде линейной комбинации строк с< (г = к — п9 + 1, ..к) этой 'матрицы: ci = Mw+i + • • • + • . . .......................... Ck-nf = ^k—nrt\Ch—n'-hl + • • • + ^A-n',n'^A* Матрица Л = {Х,Д (i =?= 1, ..., к — п9\ j == 1, ..п9) будет представлять собой матрицу псевдогенераторов геометрического плана. Как и в п. 2.2, можно указать более простую процедуру построения плана с помощью матрицы С. Геометрический план D, образующий гиперкуб мощности Z, можно задать в этом слу- чае следующим образом: - D = D1nCT, где Dn — матрица полного плана s” размера s" X п. 2. Гиперкубы мощности 2. В этом пункте указан способ Фи- шера — Рао построения- гиперкубов мощности 2. Пусть s = ph (р — простое). Тогда существует гиперкуб мощности 2 — орто- гональная таблица (sn, (sn — l)/(s — 1), "s'2). Псевдогенераторами этого плана являются все точки конечной проективной геометрии PG(n — l, s), содержащие не менее двух ненулевых координат. 3. Проблема упаковки. Так же, как и в общем случае реше- ния обратной задачи построения геометрического плана, для ги- перкубов мощности t (t>2) не существует достаточно общих методов, построения. Решения для различных частных случаев получены в работах Р. Бозе, Б. Гулати, Е. Коуниаса, К. Рао, Дж. Сривастава, Р. Фишера и многих других авторов. Ниже приведены несколько Частных случаев, представляю- щих интерес для приложений. ч Множество из к точек проективной геометрии PG(n — 1, $) называется (А, ^-множеством, если никакие t из них не лежат в цространстве размерности не выше чем t — 2. В соответствии с результатами п. 4.1 существование (A, t)~ множества в PG(n — 1, s) влечет за собой существование гипер- куба мощности t — ортогональной таблицы (sw, к, з, t). - (А, £)-множество называется полным, если не существует (к9, О-множества с к9 > к. Число к, отвечающее полному (А, 0- мнбжеству в PG(n — 1, 5), обозначается через. А Дп, $). Проблема нахождения полных (к, 0-множеств и значений АДп, з) носит название проблемы упаковки. В соответствии с результатами й. 2 к2(п, s) — (зп — 1)Л$ — 1), 284
и псевдогенераторы соответствующего плана задаются строками матрицы G8, представляющими собой все точки конечной проек- тивной геометрии PG(n — 1, s\ содержащие не менее двух не- нулевых координат. . . • ' ’ Для двухуровневых гиперкубов мощности 3 справедливо сле^ дующее равенство: *3(п, 2) - 2"-\ Псевдогенераторы соответствующего плана задаются матрицей G = lGt ^1, где | — вектор-столбец, представляющий собой сумму единично- го столбца и всех столбцов матрицы G2. Для гиперкубов мощности 4 приведем три результата: Л) а) *4(4, 2) «5; б) *4(5, 2)<=6; в) *4(6, 2) « 8; г) М7; 2) « 41. Соответствующие множества лсевдогенераторов есть: а) 1111; б) 11111; в) 111100, 110011; г) 1111000, 1100110, 0110101, 1111111. 2) *4(4, s) = max (5, 5 + 1). Для «2, 3, 4 один псевдогенератор имеет вид 1111; для - s>4 матрица С (см. п. 1), образующая соответствующий план, имеет вид - “10'0 О'" 0 0 0 1 1111 г _ 1 а а2 а3 1 а2 ’ 1 а3 а9 _1 а*-2а25-4а38-6_ где а — примитивный элемент GP(s). 3) *4(5, 3) « 11. Псевдогенераторьг соответствующего плана задаются строка- ми матрицы . ' ‘ Г1 1 1 1 Г 0 12 2 1* г _ 1 0 2 1 2 -*- 1 ,1 0 2 2 ’ 1 2 2 0 1 . „12 120^. ~ Проблема упаковки связана также с так называемой задачей смешивания, или задачей разбиения факторного планирования на ортогональные блоки. 285
Рассмотрим полный факторный план s™ и п независимых пучков параллельных плоскостей P^Pta^ aim), i = l, ..., п. (7)_ Степени свободы, принадлежащие пучкам (7), будем интерпре- тировать как степени свободы, принадлежащие некоторым фак- торам Фо ..., Фп, уровни которых соответствуют различным пло- скостям пучков (7)< Пучок P(XiaH +.«*+ Xn$nl, » • +...+ X n^nm) обладает степенями свободы, соответствующими эффектам взаи- модействия факторов Ф<р . ..,Ф<Г, принадлежащих множеству факторов Фь »»., Фп в том и только в том случае, если нену- левыми являются коэффициенты ...Дгг п только они. Все такие степени свободы можно трактовать как степени свободы, отвечающие главным эффектам некоторого $п-уровневого бло- кового фактора ЗС (Такой фактор может быть построен, па- пример, с помощью операции восстановления, описываемой в п. 13.2.3.) Рассмотрим план D* одним из факторов которого яв- ляется блоковый фактор а другие факторы порождаются раз- личными пучками параллельных плоскостей. Если какой-либо главный эффект или эффект взаимодействия для плана D представляется в виде линейной комбинации глав- ных эффектов блокового фактора, то соответствующий эффект называется смешанным (с блоками). Остальные эффекты назы- ваются несмешанными (с блоками). Регулярный план в sm опытах, разбитый описанным образом с помощью фактора на sn ортогональных блоков каждый раз- мером sw“n, обозначается через (sm, sn). Максимальное число факторов в плане вида (sm, зп) при задан- ном размере блоков sm~n при условии несмешивания всех глав- ных эффектов и эффектов взаимодействий вплоть до t-фактор- ных включительно равно максимальному числу таких точек ко- нечной проективной'геометрии PG(jn — n—l, з), что никакие t из них не лежат в пространстве размерности не выше чем t — 2. Это максимальное число равно $) и -соответствует полному (к, О-множеству в PG(m — п — 1, з). Аналогичная постановка задачи возможна и для несиммет- ричных факторных планов. Задача смешивания рассматривалась в работах Р. Бозе, К. Кишена, К. Непра, К. Рао, Дж. Сривастава, Р. Фишера и многих других авторов. Одними из последних в этой области являются работы [130], [180], [190]. Литература к §4: [6*, 117, 118, 130, 180, 182, 190].
ГЛАВА 13 НЕГЕОМЕТРИЧЕСКИЕ ПЛАНЫ В этой главе рассматриваются достаточно общие способы по- строения различных планов, которые не являются геометриче- скими» ' § 1. Симметричные регулярные планы 1. Ортогональные таблицы мощности t. В этом и следующем пунктах указывается ряд условий, при которых существуют не- которые виды ортогональных таблиц, и приводятся результаты, касающиеся нахождения максимального числа /(2V, s, t) факто- ров, которые могут входить в ортогональную таблицу (N, к, s, t)., Первые два результата относятся к существованию ортого- нальных таблиц индекса 1 (методы их построения описаны в работе [124]). Пусть s = ph (р — простое, h — целое). Тогда при s > t су- ществует ортогональная таблица ($*, s + 1, s, t) и при s t су- ществует ортогональная таблица ($*, t + 1, s, t). При этом s + /(s*, s, t) s +1 — 1, если s = 2h > t; s + 1 ’s, t)^s + t — 2, если 5 — ph > t > 3, p > 2; s, t) = t + 1, если s < t\ j(s3, s, 3) = s + 1, если 5 = p\ Пусть s « 2h (h> 1); тогда существует ортогональная табли- ца (s3, s + 2, s, 3). При этом /(s3, s, 3) = s + 2. Следующий результат показывает, как может быть построена ортогональная таблица мощности t из ортогональной таблицы мощности it— 1. Пусть S — упорядоченное множество из s элементов, которые обозначаются через 0, 1, ..., s—1. Для любого t рассмотрим s* различных упорядоченных /-мерных вектор-строк из элемен- тов множества S. Эти векторы могут быть разделены на множеств, каждое из которых состоит из s t-мерных векторов, представляющих собой полное множество циклических переста- новок элементов S. Обозначим эти множества через Si (i == = 1, ..., s*"1). 287
Пусть существует такая матрица из г столбцов с элемента- ми из S а11 • • • а1Г 1 i ......I (п = W-1), (1) ' _ап1• • • anr J ' что в каждой подматрице размера п X t число строк, принадлежа- щих каждому &, равно X.. Тогда можно построить ортогопаль- | ную таблицу (ХУ, г, s, t). Если матрица (1) к тому же есть орто- । тональная таблица мощности t — 1, то можно построить ортого- g нальную таблицу (ХУ, r+ 1, s, t). i Ниже приведено конструктивное доказательство этого утвер- ждения. Множества (i = 1, ..., У-1) могут быть, в частности, определены следующим образом. Рассмотрим У"1 различные О —1)-мерные вектор-строки из элементов множества S. Пусть :| первые ^-мерные вектор-строки каждого множества & есть £ </, ^-i), где (flt ..., •*-одна из У”1 различных U—1)- мерных строк, и j — фиксированный произвольный элемент мно- жества S. Остальные ($—1)-мерные строки каждого множества St образуются из первой циклической перестановки элементов множества S. ' \ Ортогональная таблица (ХУ, г, st t) строится следующим об- разом. Первые ее hs*"1 строк образуются из матрицы (1). К мат- f рице (1) присоединяются еще а—1 матриц, образованных из . 1 (1) циклическими перестановками элементов множества S. Если ? матрица (1) — ортогональная таблица мощности t — 1, то можно ?’ добавить к полученной таблице (ХУ, г, t) дополнительный столбец, в котором первые ХУ"1 элементов равны 0, вторые ХУ~1 г элементов равны 1 и т. д. Таким образом будет4 построена орто- J тональная таблица (ХУ, r+ 1, s, t). ji 2. Ортогональные таблицы мощности 2. В этом пункте при- У ведены два результата, относящиеся к существованию ортого- нальных таблиц мощности 2 для случая, когда s = ph, где р — * простое (методы их построения описаны в работах [103,, 1183). Случай, когда s не является простым числом или степенью' про- стого числа, традиционно рассматривается в терминах ортого- нальных латинских квадратов (см. п. 3). Случай s = 2 также рассматривается отдельно (в п. 4). Пусть 5 == X = ри (р — простое, г, и —целые). Тогда су- ществует ортогональная таблица (ХУ, к, $, 2), где Пусть s — pk (р простое, h — целое). Тогда существует орто- гональная таблица (2У, fc, 2), где 288
Приведенные результаты относятся к случаям, наиболее важ- ным для приложений. Более частные случаи рассматриваются в работах Б. Гулати, С. Коуниаса, М. Масуяма, Е. Сейдена, Дж. Сриваставы, Р. Чакраварти и др. 3. Ортогональные латинские квадраты. Как следует из ре- зультатов п. 11.3.3, существование множества из п попарно ор- тогональных латинских квадратов размера s эквивалентно суще- ствованию ортогональной таблицы (sa, п + 2, s, 2) мощности 2. J3 п. 12.4.2 был дан способ построения ортогональной таблицы (s2, 5 + 1, s, 2) (что эквивалентно полному» множеству попарно ортогональных латинских квадратов размера s) при s=*ph (р— простое). В случае, когда s пе является простым числом или -сте- пенью простого числа, неизвестно, существует ли полное множе- ство ортогональных латинских квадратов в общем случае. Изве- стно, в частности, что не существует полного множества ортого- нальных латинских квадратов, когда $ = 6, 14, 21, 22. Более того, известно, что не существует даже Двух ортогональных латин- ских квадратов размера 2 и 6. Однако, за исключением этих двух случаев, греко-латинские квадраты существуют для любо- го 5. Проблема построения ортогональных латинских квадратов в случае, когда s=£ph (р — простое), рассматривалась в работах Е. Паркера, Е. Сейдена и других авторов. Многие конструкции выполнены с помощью ЭВМ. Однако не построено ни одного множества ортогональных латинских квадратов, близкого к полному. 4. Двухуровневые планы. Для ортогональной таблицы (Я2а, к, 2, 2) мощности 2 рассмотрим матрицу . [Z^F2...FJ, (2) где Ft — вектор-столбец главного эффекта фактора STt- Умноже- нием на константу любой вектор Fi можно привести к такому виду, чтобы все его элементы были равны — 1 или +1. Будем далее считать, что все столбцы матрицы (2) удовлетворяют это- му условию. В том случае, когда % «= 2П, т. е. ортогональная таб- лица представляет собой гиперкуб, можно построить ортогональ- ную таблицу (2n+2, 2п+2 — 1, 2, 2) геометрическим методом. Тогда матрица (2) будет представлять собой квадратную матрицу с ортогональными столбцами и состоять из — 1 и +1. Квадратная матрица HN порядка N с элементами — 1 и +1 называется матрицей Адамара, если Н^Н = NIn. Любая мат- рица Адамара путем умножения соответствующих строк и столб- цов на —1 (что опять приводит к матрице Адамара) может быть приведена к нормализованному виду, т. е. к матрице, у ко- торой первый столбец и первая строка состоят только из +1. Очевидно, что нормализованная матрица Адамара Hk+i будет со- ответствовать матрице (2) при N=k + 1 и, следовательно, бу- дет эквивалентна ортогональной таблице (к +1, к, 2, 2). По- скольку А==%*22, для матрицы Адамара HN (при А >2) выпол- няется условие N » 0 (mod 4). При N = 2 нормализованная 19а п./р. с. М. Ермакова 289
матрица Адамара имеет вид + 1 + 11 - + 1 — 1J- Проблема построения матриц Адамара рассматривалась в ра-* ботах Л. Номера, Дж. Виллиамсона, К. Гольдберга, Р. Пэли, М. Холла и многих других авторов (см. [142]). Далее будут приведены основные результаты, относящиеся к построению матриц Адамара порядка N У= 2П. Пусть HN1~ и == ) — матрицы Адамара соответственно порядков N+ и А2* Тогда их прямое произведение Hn1 X = J. 4 h12HN2 • • • *N12#N2 • • 4 есть матрица Адамара порядка Следующие два результата позволяют конструктивно стро- ить матрицы Адамара. Совместное’ их использование с остальны- ми результатами этого пункта дает матрицы. Адамара вплоть до порядка 88 (при N 0 (mod 4)). Пусть N = v + 1 = ph + 1 0 (mod 4), где р — простое. Тогда существует матрица Адамара HN порядка А: HN = Ы, = + 1, i == v или j ~ v, hi{ = — 1, O^i^v—1, —1, — 1, f=#/, где 0, 1, ..., v — 1 — элементы поля Галуа GF(v) и (Lzi-j оз- \ v j пачает символ Лежандра. Пусть N = 2(г + 1) = 2(ph + 1) 0 (mod 4), где р — простое. Тогда существует матрица Адамара HN порядка N. Ниже дан способ ’ построения такой матрицы. Будем считать, что ph ss 1 (mod 4) (в остальных случаях последнее утверждение реали- зуется с помощью предыдущих результатов этого раздела). Рас- смотрим матрицу . Г° [л <2J’ * где Л — вектор-столбец из +1 размерности v; Q = {дъ} (г,/== = 0, 1, v- 1); g« = 0; qtj == 0=7^7); 0, 1, v- 1 — элементы поля Галуа GF(v). Искомая матрица HN получается теперь е помощью подстановки в матрицу S вместо +1, —1, 0 соответственно матриц [+1 + 11 Г— 1 — 11 Г+1 — 11 [+1 -1]» [-1 +1J* [-1 — 1J- 290
Ортогональные таблицы (4%, 4Л—1, 2, 2), построенные выше, обладают максимальным числом факторов (при фиксированных остальных параметрах таблицы).‘О помощью идей п. 1.1 можно построить на основе этих таблиц ортогональные таблицы мощ- ности 3 также с максимальным числом факторов. Метод построе- ния заключается в следующем. Пусть D2 = {aij} (aTj<= GF(2)) — ортогональная таблица (4Х, 4Л-1, 2, 2), Тогда D = Р2 3 + Л4Х-1),4К Ак есть ортогональная таблица (8Х, 4Х, 2, 3), где J4K, Оа и 7(4v-i), 4% соответственно единичный и нулевой (4Х)-мерные векторы и мат- рица размера (4% -т 1) X 4Л из +1. Пример 1. Рассмотрим ортогональную таблицу (4, 3, 2, 2> мощности 2 с максимальным числом факторов, равным 3: ГО О О' Тогда -ООО 1 0 1 О 1 1 о- 0 о о 1 1 1 1_ есть ортогональная таблица (8, 4, 2, 3) мощности 3 с максималь- . ным числом факторов, равным 4. Литература к § 1: [6*, 71*, 103, 118, 121, 124, 131, 142, 170, 179]. § 2. Несимметричные регулярные планы В этом параграфе рассматриваются различные преобразова- ния симметричных регулярных планов, с помощью которых по- лучаются несимметричные регулярные планы. В большинстве случаев эти преобразования оставляют планы не только регуляр- ными, по и равномерными. И только в п. 1 получающиеся планы будут неравномерными. Однако даже в этом случае сте- пень неравномерности для практических задач не очень боль- шая и планы довольно близки к оптимальным (в смысле крй- ' терпев § 11.2), а в остальных случаях — оптимальны. 1. Сжатие. Для фиксированного плана D с к факторами рассмотрим еще один план D', в котором число’Опы- тов и число факторов совпадают с числом опытов и числом фак- " ' *9* 291
торов в плане D. Пусть в плане D' все факторы, кроме (обозначения для факторов и их уровней оставим прежние), име- ют такое же црличество уровней, что и в плане Z), и каждый фактор, кроме в плане D' поддерживается во всех опытах на тех же уровнях, что и соответствующий факторов плане D. Фактор STi в плане D' во всех опытах поддерживается на тех же уровнях, за исключением уровней f и В этих случаях фактор STi поддерживается на одном и том же уровне (отлич- ном от остальных уровней), который обозначим через /. Рассмот- , ренная операция замены двух уровней фактора на один общий уровень называется сжатием фактора. Если в плане D для факторов • ♦ •» выполняется условие пропорциональности частот, то это же условие выпол- няется для тех же факторов в плане D', полученном с помощью операции сжатия к одному или нескольким факторам плана D. Из приведенного утверждения следует, что регулярность пла- на.— инвариантное свойство относительно операции сжатия. Пример 2. В качестве иллюстрации приведем регулярный план 22 X 3V9 главных эффектов, полученный с помощью дву- кратного применения операции сжатия к симметричному регу- парному плану главных эффектов 3‘/9: “0 0 0 0- “0 0 0 0“ 0 112 - < 0 112 0 2 2 b 0 0 2 1 10 11 10 11 Z> = 112 0 , D' = 112 0 12 0 2 10 0 2 2 0 2 2 0 0 2 2 2 10 1 0 10 1 - _2 2 1 0_ _0 0 1 0_ 2. Расщепление. Пусть D — регулярный факторный план мощности для ki факторов «.., в N опытах. Пусть существует «такой регулярный факторный план D2 мощности t2 в N опытах для к2 факторов ST^+1, ..., что каждому уров- ню некоторого фактора 3" i плана Di отвечает только одна Ком- бинация факторов плана D2. Тогда замена фактора в плане Di множеством к2 факторов 3"*1+1, ..., 3"^+^ плана D2 назы- вается расщеплением фактора STt на к2 факторов плана D2. Расщепление фактора в регулярном факторном плане Di мощности ti для ki факторов на к2 факторов регулярного фак- торного плана D2 мощности t2 приводит к регулярному фактор- ному плану D мощности f®=minUi, t2) для ki + k2 — 1 факторов. При этом выполняется условие пропорциональности частот для любой группы факторов плана D, содержащей не более 1 факторов плана Di и не более t2 факторов плана D2* Регулярный факторный план D2 для расщепления факторд < может быть построен, если существует регулярный факторный 292
план Dz мощности f2 в st опытах и если все уровни фактора появляются в плане Dr одинаковое число раз X». Тогда искомый план D2 может быть получен составлением X» раз плана D%. Пример 3. В регулярном равномерном факторном плане Di главных эффектов для факторов дгк используем следу- ющую операцию расщепления четырехуровневого фактора на три двухуровневых: ‘О 1 2 .3. "О 1 о 1 О о 1 1 0' 1 1 0_ схемой (3), отвечает регу- (3) Поскольку расщепление, задаваемое лярному факторному плану главных эффектов, то и результи- рующий план также будет регулярным планом главных эффек- тов (мощности 2). В том же регулярном плане Di используем следующую опера- цию расщепления четырехуровневого фактора 3^ на два двух- уровневых ^+1 и &\+2. 'О' 1 2 А “О 1 о. 1 0” о 1 г. (4) Поскольку расщепление, задаваемое схемой (4), отвечает регу- лярному факторному плану мощности 4, то результирующий план будет регулярен для следующего факторного множества '<о: 5^,... . . fe+i, SFfc+2, 5ГSTк+2. Таким образом^ в линейно независимом множестве главных эффектов регулярного плана схема (3) заменяет главные эф- фекты четырехуровневого фактора на главные эффекты трех двухуровневых факторов, а схема (4) заменяет главные эффекты четырехуровпевого фактора па главные эффекты двух двухуров- невых факторов и эффект их взаимодействия. Пример 4. Рассмотрим теперь другой регулярный равно- мерный факторный план главных эффектов для факторов . и используем следующую ойерацию расщепления восьми- уровневого фактора i на семь двухуровневых: "0” ’0 0 0 0 0 0 fl- 1 10 0 1 1 0 1 • 2 0 10 10 11 3 110 0 110 (5\ 4 0 0 10Ц11 5 10 110 10 6 о 1 1 1 г о о _7_ .1 1 ,1 0 0 0 t Поскольку расщепление, задаваемое схемой (5), отвечает регу- лярному факторному плану мощности 2 (плану главных эффек- тов"), то и результирующий план также будет регулярным планом главных эффектов. ^9 п./р. с. М. Ермакова 293
В том же регулярном плане. DC используем теперь следую- щую операцию расщепления вовьмиуровневого фактора на три двухуровневых 9ГА+2, ЗГ ;(Г "0 0 0- 1 10 0 2 0 1 0 ж 3 4 1 1 0 0 0 1 (6) 5 1 0 1 6 0 1 1 _7_ .1 1 1_ Поскольку расщепленйе, задаваемое схемой (6), отвечает регу- лярному факторному плану мощности 6, то результирующий план будет регулярен для следующего факторного множества со: аг аг аг аг аг аг - аг аг аг аг аг car or or k+l<^ A+2!^ A+3« Таким образом, в линейно независимом множестве главных эффектов регулярного плана Di схема (5) заменяет главные эф- фекты восьмиуровневого фактора на главные эффекты семи двух- уровневых факторов, а схема (6) заменяет главные эффекты восьмиуровневого фактора на главные эффекты трех двухуров- невых факторов и все их эффекты взаимодействий. 3. Восстановление. Операция, рассматриваемая в этом пунь^ те, в некотором смысле является обратной по отношению к опе- рации расщепления. Рассмотрим регулярный факторный план для факторного множества со = coi U со2, где подмножество coi содержит элементы 9Г ., &"kv &\ЗГ2, ..., ЗГ* ..., 9Г2» • •»> 9гк> а подмножество со2 содержит различные эле- менты, содержащие все остальные факторы *1+1, ..., 3^ пла- на Di и не содержащие первых факторов. Образуем теперь план Z>2, в котором факторы 9"совпадают с соответ- ствующими факторами плана D^ а вместо факторов плана Di. стоит фактор 9" с числом уровней s=^Si...sk. При. этом одинаковым комбинациям уровней факторов ..., 3^ соответствуют одинаковые уровни фактора ЗГ и одинаковым уровням фактора 9" соответствуют одинаковые комбинации уров- ней факторов .. Такая замена называется операцией восстановления. 1 Замена факторов 9"^ регулярного плана D для факторного множества ®==®1и ы2 на. фактор 9" с помощью опе- рации восстановления приводит к плану Z>2, регулярному для факторного множества <о' = {9~} U <о2. ’ Таким образом, в противоположность операции расщепления операция восстановления заменяет в линейно .независимом мно- жестве эффектов плана D{ подмножество главных эффектов и всех эффектов взаимодействий некоторых факторов на главные 294
эффекты одного фактора. Схема (3) тогда интерпретируется и как схема операции восстановления (т. е. операции замены глав- ных эффектов двух двухуровневых факторов и эффекта их взаи- модействия на эффекты четырехуровпевого фактора), и схема (5) — также как схема операции восстановления (т. е. замены главных эффектов трех двухуровневых факторов и всех их эф- фектов взаимодействий на главные эффекты восьмиуровневого фактора)^ Пример .5. Рассмотрим пример построения различных не- симметричных планов главных эффектов в 64 опытах из ортого- нальной таблицы (64, 63, 2, 2). Пусть каждая точка полного пла- на 2е/64 рассматривается. как точка конечного евклидова про- странства EG(6,' 2). Имеется 63 пучка параллельных плоскостей в £G(6, 2), образующие конечную проективную геометрию PG(5, 2). Точкам этой геометрии в соответствии с результатом п. 11.4.2 отвечают 63 фактора ортогональной таблицы (64, 63, 2,2). Точки-.., Xr е PG(5, 2) (р 6) называются линейно независимыми, если rglXj, ..., XJ =_v. Обозначим точки (1, О, ..., 0)г, (0, 1, .0), ..., (0, 0, ..., 1)геР£(5, 2) соответствен- но через 1, 2, ..., 6. Эти точки являются линейно независимыми. Любая точка (ait ..., a6)rePG(5, 2) может быть представлена в виде линейной комбинации точек 1, 2, ..., 6: UIt ..., aQ) - Ml, 0, 0)+...+ М0, 0, ..., 1), (7) где = 0, 1 и все не равны нулю одновременно. Точка (7) обозначается через 1 х2 2 6 в. Например, точка (1, 1, 1, 0, 1, 0) обозначается также через 1235. В этих обозначениях все 63 точки PG(5r 2) изображены на рис. 1. Эти точки разбиты па 9 групп по семь точек. Внутри каждой группы имеется толь- ко по три линейно независимых точки. Следовательно, эти семь точек лежат на двумерной плоскости (2-плоскости). В 2-пло- скости семь точек лежат на семи прямых. На рис. 1 эти пря- мые, содержащие по три точки, в каждой 2-плоскости изобра- жены шестью отрезками прямых и внутренним треугольником. Например, верхний левый треугольник па рис. 1 представляет собой 2-плоскость, содержащую семь точек: 5, 35, 3, 135, 13, 15, 1. В качестве линейно независимых можно выбрать, напри- мер, точки 1, 3, 5. Семь указанных точек лежат на семи пря- мых: 15-—35—13, 13—3—1, 15—5—1, 13—135—5, 15-135-3, 1—135—35, 3-5-35. Расположение точек PG(5, 2)' на рис. 1 обладает следующим дополнительным свойством. Рассмотрим три любые треугольника (2-плоскости), расположенные в одной и той же строке. Тогда три одинаково расположенные на этих треугольниках точки ле- жат* на одной так называемой горизонтальной прямой (в ^пло- скости). Например, в трех треугольниках второй строки цент- ральные точки 25, 124, 145 лежат на одной прямой. 19* 295
Рис. 1. Конечная проективная геометрия PG (5, 2), Любые три точки, лежащие на одной прямой в PG(5, 2), соответствуют пучкам параллельных плоскостей, отвечающим главным эффектам двух факторов и эффекту их взаимодействия. Поэтому можно воспользоваться операцией восстановления для образования одного четырехуровневого фактора. Аналогично, любые семь точек, лежащие в одной 2-плоскости, могут быть использованы для образования одного восьмиуровневого, фактора. Таким образом, каждая точка на рис. 1 — это двухуровневый фактор, каждая прямая (1-плоскость) — четырехуровневый фак- тор, каждая 2-плоскость —. восьмиуровневый фактор. Этот метод дает следующие чытыре плана главных эффектов: 421/64 (из 21 прямой), 414X8V64 (из трех 2-плоскостей и 14 го- ризонтальных* прямых), 47X8V64 (из шести 2-плоскостей и се- ми горизонтальных прямых) и 8V64 (из девяти 2-плоскостей). Аналогичным образом могут быть построены различные, планы вида 2l X 4n X 8т/64. Однако любой из них может бытй построен из планов 8V64, 47 X 8V64, 414Х 83 / 64 с помощью операции расщепления. 4. Произведение планов. Рассмотрим два плана Zh и Z)2. По- * вторяя N2 раз каждую строку плана получим матрицу £>ь Повторяя Ni раз план получим матрицу План D12 =* 296
называется произведением планов D{ и D2, Пусть существуют п регулярных факторных планов Д (i = 1, ..., п) мощности h в Ni опытах для ki факторов &"}(] = 1, ..., /q) соот- ветственно с числами уровней 4°. Произведение этих планов D есть регулярный факторный план мощности Jz= min ...» tn) п ч п в N = Попытах для к =2 к{ факторов^)с числами уровней • i 1 s^\ В плане D выполняется условие пропорциональности частот для любого множества факторов, включающего не более ti фак- торов из множества факторов 3^}. Поэтому указанный план D позволяет получать линейно независимые эффекты двух видов. К первому виду относятся главные эффекты и эффекты взаимо- действий, которые входили в линейно независимые множества каждого из планов Д. Ко второму виду относятся эффекты взаи- модействий факторов, из которых плану Д отвечают не более [к/2] факторов. Последовательное использование операций произведения пла- нов и восстановления дает эффективный способ построения регу- лярных, планов. Пусть Di и D2 — два регулярных факторных пла- на мощности 2. Образуем произведение Di2 планов Di и D2, ко- торое также будет представлять собой регулярный факторный план мощности 2. Кроме главных эффектов всех факторов, план D12 позволяет получить линейно независимые эффекты взаимо- действий факторов, из .которых один соответствует плану Д, а другой — плану Д. В соответствии с результатами п. 2.3 в этом случае может быть- использована операция восстановления, за- меняющая указанную пару факторов с числами уровней, ска- жем, и s2 на фактор с числом уровней $i$2. Операция восста- новления может быть в такой ситуации использована многократ- но с тем ограничением, чтобы на каждой стадии не использова- лись факторы, принимавшие участие в предшествующих опе- рациях восстановления. Частным случаем указанного способа построения является случай, когда план однофакторный, т. е. содержит s уровней одного фактора План Di2 образуется повторением плана D2 с каждым уровнем фактора Зг. Операция восстановления, при- мененная ж факторам и ЗГ' (&' — любой фактор из D2), при- водит к плану, образованному из следующих планов: Д; D2 с заменой уровней 0, 1, ..., s' — 1 фактора соответственно па s'., s' + 1, .,., 2s' — 1; Д с заменой этих же уровней соответствен- но на 2s', 2s' + 1, ..., 3s'— 1 и т. д. Последний составляющий план образуется из Д с заменой уровней 0, 1, „., s' ~ 1 факто- ра ^'соответственно на (s— l)s', (s—Ds' + l, , ss'— 1. Другим частным случаем указанной процедуры является сле- дующий способ построения регулярного факторного плана г X 2п мощности 3 в г(п+1) опытах (г = 21) при условии существова- ния регулярного плана главных эффектов в п +1 опытдх для 297
п двухуровневых факторов. Пусть D = {ai3} (ai} е СГ(2)) — орто- гональная таблица (п+1, п, 2,. 2). Используя способ построения двухуровневого плана мощности 3- (см. п. 12.4.3) и применяя изложенную процедуру, получим план ~ D " О П м Я + Лн-1,п. J * D (r — 2)J ' ^ + /n+1,n (r-l)< где Jn+f, n — матрица из +1, представляющий собой искомый ре- гулярный план г X 2П мощности 3. Пример 6. Рассмотрим два регулярных плана главных эф- фектов. Первый — план Dt для четырех трехуровневых факто- ров 5^, ST\ в девяти опытах. А второй — план D2 для трех двухуровневых факторов в четырех опытах. Произведение этих планов Di2 дает возможность получить ли- нейно независимые эффекты четырех трехуровневых и трех двухуровневых факторов (обозначения для которых оставим Прежние), а также все двухфакторные эффекты взаимодействий, Отвечающие одному трехуровневому и одному двухуровневому фактору. К парам факторов и и ^~в, £Г3 и ^~7 можно применить операцию восстановления. В результате получим регу-« лярный план главных,эффектов 3 X 6V36. Литература к §2: [6* 7, 102, 125, 163], § 3. Нерегулярные планы Нерегулярные планы обладают меньшей эффективностью по сравнению с регулярными планами. Однако в общем случае они содержат меньшее число экспериментов и поэтому нередко яв- ляются более предпочтительными для приложений. Построению нерегулярных планов посвящено большое число работ. Различ- ные виды так называемых; сбалансированных планов рассмат- ривали И. Чакраварти, К. Кишен, К. Рао, Д. Сривастава, Д. Чопра, Т. Ширакура и др. Отдельные частные случай не- регулярных планов рассматривались в работах С. Аддельмана, С. Дэниела, П. Джона, В. Коннора, Б. Марголина, Б. Рактое, В. Федерера и многих других авторов. В настоящем параграфе рассматриваются только общие методы построения нерегулярных планов с помощью преобразований регулярных планов, а также один класс планов, представляющий особый интерес для при- ложений. 1. Преобразование регулярных планов. В этом пункте дается метод получения нерегулярных планов из регулярных. Этот ме- тод сравнительно просто может быть .реализован на ЭВМ и дает планы, близкие по статистическим критериям к оптимальным. . Пусть D — регулярный равномерный план главных эффектов в N опытах для к факторов STh ..., ^ соответственно с числа- 298 х '
ми уровней Si,. sh. Способ получения нового_ плана D для факторной модели М из плана Б для модели М заключается и следующем. Вместо фактора с числом уровней Sj в плане Б рассмотрим такие факторы соответственно с чис- ламп уровней s/, • . .,$i что для одинаковых уровней каж- дый из факторов , STС имеет равные уровни и ПГ 1 + г + 2 (*i3) — 1) = Si, (8) j=i где г — число двухфакторпых эффектов взаимодействий двух- уровневых факторов (из числа факторов ^х,-.. входя- щих в новую модель. Множество чисел уровней факторов пла- на D называется входным набором. В результате указанной замены фактора каждому его уровню ставится в соответствие строка вспомогательного пла- на De. Говорят, что для фиксированного плана D заданы: а) скелет преобразования, если для каждого фактора с s£ уровнями плана Б заданы уровни Дх), • • •, факторов ... .'.., i1 при фиксированных их взаимодействиях в модели М (г = 1, ..., к), т. е. заданы' соответствия (9) sk *Чг 5 • • •, sh > б) структура преобразования, если задан скелет преобразова- ния и для каждого фактора плана D задан план Д —. г-я структура (г=1, ..., к); в) масштаб преобразования, если для каждого плана Р< для любых уровней факторов (у = 1, ..., заданы значения соответствующих количественных переменных Х$. Скелет преобразования (9) называется допустимым, если вы? полняется неравенство (8) и набор Дх>, • • • ..., Д а\ . .. • • • ♦ Д совпадает с точностью до переупоря- дочивапия с входным набором чисел уровней факторов. , Пусть Df — полный план в Nf~ Дх) •... • «... • Д0'*... • Дп^ 299
опытах для факторов .. • > — полный план в п{ = опытах для факторов ^"1, .,., ST/, п Таким образом, Nf = Ц п\. ' ‘ 2—1 Вследствие результатов п. 10.4.2 дисперсия оценки регрес- сионной функции в точке полного плана Df для модели М не зависит от типа этой-модели (т. е. от качественной или количе- ственной структуры факторов) и от значений, которые прини- мают переменные Xi в плане D (т. е. от масштаба преобразо- вания). Обозначим через Mi факторную модель для плана А, • содержащую главные эффекты факторов ..., г и двух- факторные эффекты взаимодействий некоторых из этих факто- ров с числами уровней 2 при условии выполнения неравенства (8). Обозначим через crfa среднюю дисперсию по точкам полного плана D\ для модели Mi и плана Di и через — среднюю дис- персию по точкам полного плана Df для модели М главных эффектов и плана D. Задача выбора оптимального допустимого скелета и структуры преобразования заключается .в минимизации средней дисперсии Для средней дисперсии при заданных скелете и структуре преобразования справедливо равенство (к \ 1 — к + S ), 2—1 / поэтому минимум al достигается тогда й только тогда, когда обращаются в минимум для всех i = 1, к. Таким.обра- зом, при заданном скелете преобразования задача получения оптимального плана D сводится к задаче получения оптималь- ных (в смысле того же критерия) планов ZX, или к задаче по- лучения оптимальных структур преобразования. Функция эффективности — отношение дисперсии ошибки эксперимента и средней дисперсии пи точкам полного плана, нор- мированной на одно наблюдение и па один параметр — имеет вид (p-XaWQa, где . X •= 1 - к + 2 Ci. г=1 А эффективность плана Di (или структуры D<) определяется так: г фг 3=3 . Эффективность плана D выражается через эффективности каж- дого из планов Dh соответствующих плану Dx следующим об- 300
разом: X Ф=----н---• д-л+2 Оптимальные структуры преобразований могут быть легко полу* чены численным образом, поскольку даже прямой перебор не требует большого количества машинного времени. Задала нахождения оптимального скелета преобразования плана D сводится к задаче линейного целочисленного програм- мирования введением для данного плана Di параметра ' 2 о Тогда • где Л, > 0. При этом Л, = 0 тогда' и только тогда, когда <pf — 1. Занумеруем все использованные оптимальные структуры в порядке возрастания величин Si. Пусть — число структур с но- мером i в данном скелете преобразования (9). Обозначим через к\ количество 5-уровневых факторов^ получающихся после пре* образования с i-й структурой. Для допустимого скелета преобра* зования 3 = пГ, (Юу i—1 где п®х — число входных 5-уровпевых факторов, I — помер по* следней структуры. Учет количества 5-уровневых факторов т8 в преобразуемом плайе приводит к неравенству 2 (И) где 18 —, номер последней структуры для 5-уровневого фактора (4в0). Оптимальный скелет преобразования определяется ми* нимизацией функционала h г к= 2 Д| == 2 Mi i=l i—1 при условии выполнения равенств (10) и неравенств (11\ что -является задачей линейного неотрицательного делочисленного программирования. 301
Оптимальный масштаб преобразования с вычислительной точ- ки зрения легко определяется с помощью критерия D-оптималь- ности. Информационная матрица плана, получаемого преобразо- ванием регулярного плана, для модели главных эффектов может быть’приведена к блочно-диагональному виду. Поэтому задача нахождения оптимального масштаба преобразования сводится к задаче нахождения оптимального масштаба планов Di. 2. Планы взвешивания. В этом пункте рассматривается зада- ча построения эффективных нерегулярных двухуровневых фак- торных планов главных эффектов для модели истинных эффек- тов для количественных факторов. Эта задача эквивалентна за- даче построения планов первого порядка, т. е. невырожденных планов для модели Еу = Ь9 +Ь^ +... +bkXk ' (12) на множестве Х, = ±1. - (13) В такой формулировке эта задача известна под названием про- блемы взвешивания по оцениванию весов к предметов. Различа- ет две постановки задачи о взвешивании; взвешивание на двух- .чашечных весах (взвешивание типа 2) и взвешивание на одно- 'Чашечпых весах (взвешивание типа 1). Взвешивание типа 2 соответствует матрице плана D = {diu} -с элементами —1, 0, +1. При этом и-я. строка D отвечает и-му -взвешиванию на весах, а i-ii столбец отвечает i-му предмету. Элемент diu = — 1, если в u-м взвешивании i-й предмет положен на левую чашку весов; diu = 0, если i-й предмет не участвует в u-м взвешивании; diu = +1, если i-й предмет в u-м взвешивании положен па правую чашку весов. Для взвешивания типа 2 возможны два вида модели: с не- известным свободным членом, т. е. модель (12), я с известным свободным членом, который в последнем случае без ограничения общности можно положить равным нулю, т. е. модель Ey^b.X, + ..:+bhXh. г (14) Модель (14) не является факторной и рассматривается здесь из-за того, что результаты по построению планов для моделей (14) и (12) взаимосвязаны. Неизвестный свободный член в мо- дели соответствует взвешиванию с невыверенным нулем,, или со, смещением. Известный свободный член в .модели соответствует взвешиванию на весах с выверенным нулем или без смещения. В последнем случае известно показание весов без ошибки, когда пи на одной чашке нет предметов. План взвешивания типа 2 — факторный план в том случае, когда матрица плана взвешивания не содержит нулей. Ниже рас-, сматриваются именно такие эффективные планы взвешивания" в случае двухчашечных весов. При этом планьь для моделей (12) 502
или (14) будут обладать свойством оптимальности не только на' множестве (13), но и на множестве Х< = -1, 0,+1. (15) План взвешивания типа 1 соответствует матрице плана D = {dfu} с элементами —1, +1: diu = — 1, или diu==+l, если /-й- предмет в u-м взвешивании соответственно не участвует или участвует во взвешивании. Таким образом, задача взвешивания типа 1 эквивалентна задаче построения факторных планов для модели (12) на множестве (13). Здесь коэффициент bi U«l, . ..к) модели (12) представляет собой вес половины f-го пред* мета, в отличие от взвешивания типа 2, где коэффициент пред* ставляет собой вес всего предмета. Для взвешивания типа 1 также возможны два случая. Пер*, вый случай — это планы на множестве (13) для модели (12) без ограничений. Второй случай — это планы нав множестве (13) для h модели (J2) с ограничением bQ — 2 bi + c. Второй случай соот* i=l ветствует известному показанию одночашечных весов (это пока* зание есть с), когда ни один из предметов не участвует во взве- шивании. Без ограничения общности можно положить с = О, Первый и второй случай называются соответственно случаями со смещением и без смещения. Для любого плана Di на множестве (13) и модели (12) матри* ца коэффициентов X равна [JDJ, а для плана D на множестве (13) и модели (14) матрица коэффициентов X равна D. Вслед- ствие этого умножение в плане D для модели (14) любой строки па —1 не меняет матрицы ХТХ. Поэтому без ограничения общно* сти по отношению к критериям оптимальности, зависящим толь- ко от вида ХТХ, можно считать, что соответствующими умноже* киями на —1 план D приведен к виду D = l/DJ < Рассмотрим план /3/ для модели Еу &о + biXi +,., + bk-iXk_l4 (16) Матрица коэффициентов плана Dj для модели (16) есть [/DJ, т. е. совпадает с матрицей коэффициентов плана D для модели (14). Поэтому, если план D обладает оптимальными свойствами по отношению к модели (14), то аналогичными свойствами будет обладать план Di по отношению к модели (16), В частности, справедлив следующий результат. Если план D на множестве (13) есть A-(D-, £-)-оптимальный план для модели (14) с N наблюдениями, то план на множестве (10) есть A-(Z)-, £-)-оптимальный план модели (1*6) с N наблю- дениями. * . Аналогичный результат справедлив, если на множество рас- сматриваемых планов наложены дополнительные ограничения, например ограничения на вид матрицы моментов, насыщенности и т. п. - 833
Ниже приведены способы построения эффективных планов взвешивания типа 2 для модели без смещения (14). Поскольку эти планы будут сосредоточены на множестве (13), они будут обладать свойствами оптимальности для планов типа 2 со сме- щением для модели (12), и, следовательно, для планов взвешива- ния типа 1 со смещением для модели (12) без ограничейий. Из результатов ,п. 1.4 следует, что эффективные планы легко могут быть построены в том случае, когда число наблюдений есть число Адамара, т. е. когда существует матрица Адамара порядка * А. Таким образом, для приложений эта задача легко решается для значений А, удовлетворяющих сравнению A^0(mod4). Ниже рассматриваются методы построения оптимальных пла- нов для A = £=/=4Z па множестве планов с матрицей моментов хтх=: "г X X’ ,.Х X ... г. = (г — X) Eh -j- XJ е где Ek, Jkt k — соответственно единичная матрица и матрица и< -F1 порядка к. Такие планы обозначаются через (fc, н, X), где и— число нулей в каждом столбце. Для получения факторных планов особый интерес представляют планы вида (к, О, X). Пусть X = D — матрица коэффициентов плана'£> для модели (14), к нечетно и Тогда D есть А-, D- и Е-оптимальпый план типа (к, 0, 1) па множестве насыщенных планов (&, н, X) с областью измере- ний (15). Пусть D = X — матрица коэффициентов плана D для модели (Т4), к » 2 (mod 4), к ¥= 2 и XrX-a-2)Eft+2Jhft. Тогда D есть D-оптимальный, план типа (&, 0, 2) па множестве насыщенных планов (к, v, X) с областью измерений (15). Пусть D = X — матрица коэффициентов плана D для модели (14), к^ 3 (mod4) и ХТХ = {к - 3)Eh + ЗДь Тогда D есть A-и Е-оптимальный план типа .(&, О, 3) на мно- жестве насыщенных планов (£, г, X) с областью измерений (15), Пусть X == D — матрица коэффициентов плана D для модели (14) и к s 3 (mod 4). И пусть либо ( JTX« (£-3)E* + 3Jftft, £>15, либо , ХТХ = (£ + l)Efc- £^15, Тогда D есть D-оптимальный план на множестве насыщенных планов (£, v, X) с областью измерений (15). Пусть X = D — матрица коэффициентов плана D для модели W4 } '
(14), к 1 (mod 4), к > 5 и ХТХ = {к ~ 5)Ek + Jhh. II пусть план (А, 0, 1) не существует. Тогда D есть 4-, ZJ- и ^-оптимальный план типа (к. О, 5) на множестве насыщенных планов (к, V, X) с областью измерений (17). Общий метод построения планов (А, 0, 1) состоит в получе- нии их из сбалансированных неполноблочных планов. Здесь рас- сматривается только один конструктивный результат для не- больших размерностей. Пусть X = D — матрица коэффициентов плана D для модели (14), к = 3, ..., 9. Тогда: а) На множестве планов (А, О, X) не существует 4- и Е-опти- мьльных планов для к — 6. б) План (7, 0, —1) является ZJ-оптимальным планом для А==7. в) План D = Н8, задаваемый матрицей Адамара, является 4-, D- и ТГ-оптимальным для к = 8. г) Во всех остальных случаях план 8^ — 2Ek ]kh является 4-, D- и jE-оптимальным. План (7, 0, —1), как и любой другой план (А, 0, —1), где А+1 — число Адамара, можно получить^ вычеркивая первый столбец и первую строку из нормализованной матрицы Адамара соответствующего порядка. Различные частные случаи построения планов взвешивания рассматривались К. Бенержи, А. Деем, X. Элихом и др. Результаты по построению ZJ-оптимальных планов на мно- жестве планов с другими ограничениями на вид матрицы момен- тов можно найти в [1391. Одной из последних работ по построе- нию ZJ-оптимальных планов взвешивания без ограничений на вид матрицы моментов является статья [138*]. Литература к § 3: [6*, 10*, 116, 133, 138* 139, 158, 164, 168, 177— 179*, 181].
ГЛАВА 14 ПЛАНИРОВАНИЕ ЭКСТРЕМАЛЬНЫХ ЭКСПЕРИМЕНТОВ Экстремальными экспериментами называются эксперименты, направленные на отыскание экстремума функции регрессии. При выборе метода экстремального планирования решающим факто- ром является стоимость экспериментов. Если стоимость экспери- ментов высока и их допустимое количество невелико,, то наибо- лее целесообразным может оказаться априорный (статический) план, согласно которому эксперименты проводятся в точках не- которой (возможно, равномерной) сетки в заданной подобласти факторного пространства. Если эксперименты дешевые, то в ка- честве плана проведения экспериментов часто используют после- довательные планы, описанные в настоящей главе. При некото- рых предположениях эти планы обладают асимптотическим свойством сходимости получаемой последовательности точек к точке локального экстремума функции регрессии. Иногда в практике экстремального планирования встречают- ся ситуации, когда в Любой точке факторного пространства с не- большими вычислительными затратами может быть, измерен (со случайной ошибкой) градиент функции регрессии. В этих ситуа- циях для построения плана экспериментов могут быть использо- ваны результаты, приведенные в § 3 и п. 4.1. Если же измере- ние градиента невозможно или требует больших вычислительных затрат, от план проведения экспериментов может быть выбран на основании результатов, изложенных в пп. 4.2—4.8. § 1 посвя- щен общей теории сходимости и скорости сходимости алгорит- мов экстремального планирования, а § 2 —вопросам сходимости некоторых алгоритмов планирования экстремальных эксперимен- тов при наличии ограничений. , Значительная часть математической теории планирования экстремальных экспериментов является частью теории адаптив- ного управления, и поэтому большинство приведенных в настоя- щей главе результатов являются результатами теории адаптив- ного управления. § L Сходимость и скорость сходимости итеративных алгоритмов 1. Постановка задачи. Предположим, -что Х~ fc-мерное ев- клидово пространство, $ — о-алгебра борелевских подмножеств - множества X, ц — ^-измеримая функция, заданная на X. Пред- 306
положим, что в любой точке х&Х можно вычислять ^измерять) независимую реализацию случайной величины у(х) = Т|(л7) + е(я), где е(я)— случайная величина, причем £е(я)=0 для всех х е X, и при различных вычислениях у(х) случайные величины е(х) независимы. Задача планирования экстремальных экспериментов, которая рассматривается в настоящей главе, .состоит в конструировании последовательности точек х0, xit ..., xn, ..., хп « X, п = 0, 1, л. сходящейся (в смысле, уточняемом ниже) к точке х*^Х, в ко- торой т] (#*) = sup ц (х) или такой, что т)(^п) sup т) (х) (п -> оо). хех х&х Задачи планирования экстремальных экспериментов обычно фор- мулируются йак задачи максимизации; задача минимизации оче- видным образом сводится к сформулированной задаче максими- зации. Если при построении точек хп (и = 0, 1, z;.), используются только значения величин п; Хо, . а Хп-С, уМ, . . Z/Un-1), чо алгоритм экстремального планирования называется поисковым. Иногда доступно измерение (со случайными ошибками) гра- диента Vi] функции ц в точке х= (я(1), ..., xw)Tt1 . z(x) = vn(^)+ ?(^j, \ дхк ' их' ' J где zU), £(z) — реализации случайного вектора размерности к, Е^(х) = 0, при различных вычислениях z(x) случайные векторы t>(x) независимы. Если при построении точек хп (дг = О, 1, >*.) используются реализаций случайных величин z(x9\ ..., z(zn-i), то алгоритм экстремального планирования называется регулярным, В настоящей главе рассматриваются итеративные алгоритмы х экстремального планирования, которые имеют следующий* вид: ^п+1 === 4" (1) где и > 0 — номер итерации, хп е X, *уп+1 > 0 — детерминирован- ные скалярные множители (длина шага), sn случайные А>мер- ные векторы (направление движения), хй — некоторая точка из X (начальное приближение). 2. Основные предположения. Для изучения сходимости алго- ритма (1) введем вспомогательную функцию УЧ#) — функцию Ляпунова. На эту функцию наложим следующее условие. Условие 1. V: X [0, °°), infV(#) = O, функция V(x) хе X дифференцируема, а ее градиент удовлетворяет условию 307
Гёдьдераг IIV7U) - V VCr')ll LWx - я'11б, 0 < 6 1, 0 < L < oo. Пример 1. Пусть функция ц(х) дифференцируема, а ее градиент удовлетворяет условию Гёльдера. Тогда в качестве V(x) можно выбирать функцию V(x) = sup ц(я') — ц(^), при этом у функции ц(;г) не’ обязательно существует точка х^^Х, в которой достигается sup ц(я), под сходимостью случай- х^Х ных векторов Яо, xi9 ,.определяемых алгоритмом (1), в этом случае понимается сходимость значений v(xo), ... к inf Vtx) =*= 0. х&Х Пример 2. Предположим, что дисперсии компонент случай- ного вектора sn рграничены, а множество X* = {х <= X | Esn (х) = 0 уп - 0,1, ...} выпукло. Тогда в качестве У(^) можно выбрать р2(я\ X*), где p(z, X*) — расстояние от точки х до множества X*. Таким обра- зом определенная функция У(х) удовлетворяет условию 1, по не является дважды непрерывно дифференцируемой. Пример 3. Если хотя бы одна из компонент случайного вектора sn (тг = О, 1, ...) имеет бесконечную дисперсию, но все они имеют ограниченные центральные моменты порядка г (1<г<2), то в качестве V(x) может быть выбрана функция [аг — где -х* — точка из X, в которой Es^ix*)—® при всех /1 = 0, 1, ... Так определенная VGr) удовлетворяет условию 1 с 6 = г— 1. Второе предположение заключается в требовании марковости последовательности (1). Условие 2. Распределение случайного вектора sn зависит только от п и от хпг т. е. $п*= sn(xn\ причем при любых п>0 и фиксированных ..., хп из X компоненты случайных векто- ров Si(xi) (г = 0, ..., п) .взаимно независимы. При выполнении условия 2 алгоритм (1) представляет собой . цель Маркова. Одно из наиболее важных понятий в рассматриваемой ниже теории — понятие псевдоградиентности. Алгоритм (1) называется псевдоградиентным, если выполнено формулируемое ниже усло- вие 3\. Условие 3'. Для всех п > 0, х е X выполняется неравен- , ство -(vvu)mn>o. Это условие означает, что случайный вектор — sn (п>0) в среднем направлен под острым углом к градйёнту, или, что то же самое, направление sn в среднем — направление убывания 408
функции V. Условие псевдоградиентности иногда бывает слиш- ком жестким, для сходимости алгоритмов (1) часто достаточным оказывается следующее более гибкое условие. У «Ул о в и е 3. Для всех п > 0, х X выполняется неравен- ство -(V7U))r£sn>0nVGr) - рп, 0П>О, рп>0. Введем естественное условие на начальное приближение Условие 4. EV{xq) <<». В частности, это условие выполнено, если хь — детерминиро- ванный вектор. Сформулируем требования на рост детерминированной и слу- чайной составляющих вектора sn. Условие 5. Для всех п > О, х <= X выполняется неравенство + ап>0‘, тп>0. Это условие означает, что у,помехи нп = $п — Esn существует момент порядка 6+1, который растет не слишком быстро. Так- же пе слишком быстро должна расти и функция Esn(%)- Помехой (в точке х^Х) называется случайный вектор ъп(х) = sn(x) — Esn(x). Аддитивной помехой называется помеха, для которой inf £||xn(*)ll2>a2, а2>0. Помеха хя называется мультипликативной, если £11хп(я)112 — х*И, а2>0. Если 6 = 1, то условие 5 принимает вид |] Esn (х) |р + Е || хп (х) |р < а 2 + тпV (х) .• В этом случае величина вп характеризует уровень аддитивных помех; случай оп = 0 соответствует задаче поиска максимума дифференцируемой функции без помех или с мультипликатив- ными помехами. При поиске максимума недифференцируемой функции даже при отсутствии помех (хп(я) = 0 при всех п > О, х^Х) выполнено неравенство: оп>0, поскольку Esn{x) не стре- мится к нулю при V(x) оо. Требования на параметры алгоритма (1У формулируются сле- дующим образом, оо Условие 6.0^ vn^ 1, 2 vn — где \ = Yn+i [On — + 1)}, - Требование vn^0 накладывает ограничения на длину шага 7п сверху (прщ больших шагах- последовательность (1) может 20 п./р. с. М. Ермакова 309
расходиться), а требование 5 Yn = оо — на снизу (при малых п—О шагах последовательность (1) может остановиться, не достигнув минимума функции V(x)). Если 6 = 1 и при всех п > 0 выполнены равенства 0П = 0, рп = 0, тп = т, то условие 6 может быть заменено на более про- стое. Услбвие 6'. Для всех п>0 и некоторого 8 (0<е<0) справедливо О<Тп+1<2(0 — е)/(£т), 2?п = оо. п=1 В этом параграфе будут встречаться следующие обозначения: фп — Тп+1Рп + ^Тп+1Огп+ /(б 1)» ~ фп/^пт Рп == (^п/^п+1 — 1)/^п» Рп = (1 ^п4-1^п)/^п+1* 3. 'Сходимость в среднем. В данном пункте приводятся усло- вия, достаточные для сходимости в среднем величин У(жп) к - нулю при п->оо (т. е. EV(xn) -*• 0 (п->«>)), где х0, х1у - последовательность случайных векторов, получаемая _ с по- мощью (1). ____ Теорема L Пусть выполнены условия 1—6 и limXnCX, _____________ П->оо К>0. Тогда lim 7?F(;rn) X. Если при этом для всех п, то П~>0О EV (жп) < EV (х0) П (1 - Vi) + к 1 - П (1 - Vi) . г=о L i=0 В этой теореме утверждается, что при выполнении условий 1—6 имеет место сходимость в среднем в область малых значе- ний V(x), причем дается оценка скорости сходимости. Для слу- чая, когда длина шага уп в алгоритме (1) постоянна, утвержде- ние, аналогичное теореме 1, выглядит нескблько иначе. . _ Пусть выполнены условия 1*-5 и 6 = 1, рп = 0, 0п == 0, оп — о, ?п =* т, Yn+i = Y, О<у<20/(£т). Тогда _____ lim EV(xn) р, EV(xn) qnEV(x0) + (1 - qn)v, п->ао где v = La2y/(20 — £ут), q = 1 — у(0 — Lyx/2). Сформулированное утверждение означает, что при выполне- нии указанных условий последовательность (1) сходится в сред- нем со скоростью геометрической прогрессии в область, где У(я) v, причем v мало при малых о2 (слабые аддитивные по- мехи) и малых Y (маленький шаг). Если а = 0 (аддитивные поме- хи отсутствуют), тор = 0и EV(xn) qnEV(x0). Следовательно, 310
если присутствуют только мультипликативные помехи или по- мехи вообще отсутствуют, то длину шага в алгоритме (1) можно выбирать равной (0 < у < 20Л-1т“1) и имеет место сходи- мость случайных величин V(xn) к нулю в среднем со скоростью геометрической прогрессии. В следующей теореме приведены условия, достаточные для сходимости EV(xn) к нулю для случая, когда аддитивные помехи могут присутствовать. Теорема 2. Пусть выполнены условия 1—6 и Хп 0. Тогда ЕУ(хп) 0- Если, кроме того: a) lim pn р < 1, то EV(xn) ^М(1 — р) + о(Лп); б) pn < Р < 1 для всех п, то EV k (1 - р)-1 + max {0, K^EV (xQ)} - ' n—1 —(Г-Р^ЧП (1 - V{ (1-p)-1) ; i=0 в) limpn^p>l, mo - Пу»ОО (П—1 \ П(1 -.Vi) ; i=0 / r) pn p > 1 для всех n, mo (n—i \ EV(xg) + X0(p-l)-in(l-vi) . i=0 / Важным отличительным свойством сформулированной теоре- мы является то, что в ней приводятся асимптотические (утверж- дения а) и в)) и справедливые при всех п (утверждения б) и г)) оценки скорости сходимости EV(xn) к нулю. Как следствие тео- ремы 2 можно рассматривать следующее утверждение. Пусть выполнены условия 1—5 6' и рп = 0, 0Л = О, Оп^о, тп = т, уп 0. Тогда EV(xn) 0. Если, кроме того: а) пуп+1 монотонно возрастает, lim луп+1 = у (0“‘ < у < «>), то П-»оо EV (хп) < у La2 (0 — ,Y_1)_1Vn+i + о (Yn+i); б) тПп-н монотонно убывает, lim пуп+1 = у (0^7 <0“1), то П->оо EV (хп) = ОI ехр < — 0 У у J I. \ I i=0 J / В сформулированном предложении утверждается, по сущест- ву, что при наличии аддитивной случайной помехи для сходимо- 20* ЗН
сти в среднем случайных величин У(хп) к нулю достаточно вы- полнения условий оо Тп^-о, 5?п = оо. П=1 Скорость сходимости зависит от скорости убывания уп. Если уп стремится к нулю медленнее, чем [0п]"А, то EV(xn) = О(уп) (это будет, например, если уп = у/(п +я) (у > О"1), или Уп = у^“г (0< r< 1), или уЛ = ^/1пп). Если же стремится к нулю бы- оо стрее, чем [0п]~1 (но так, что 2 Тп = °0), то оценка скорости п—1 . сходимости иная и приводится в утверждении б). Так, если Чп^у/Ьг + а) (?<0в1), то EV(xn) = а если = «== 7[nln (п + l)]""1,4 то EV(xn) = О((1п п)~т0). Из приведенных примеров видно, что во всех случаях оценка для EV(xn) не луч- ше чем О(гг'). Выше сформулированы результаты о сходимости в сред- нем величин V(xn). Если функция Е(я) имеет единственную точ- ку минимума я*, причем для некоторого г> 1 V к) > 1т к - х* ||г, 1Г >0, Ух е X, то из сходимости EV(xn) к нулю следует сходимость хп к х* в среднем порядка г: Е^хп —\г*Иг -> 0; оценки скорости сходимости могут быть переформулированы очевидным образом. В частности, если V(x) сильно выпукла, то г можно выбирать равным 2 и сфор- > мулированные выше утверждения можно рассматривать как ут- верждения о сходимости в среднем квадратическом. 4. Сходимость почти наверное. Ниже приведены условия, до- статочные для сходимости алгоритма (1) почти наверное (п. н.)« - Эти условия являются несколько более жесткими, чем условия, приведенные в п. 3. Это связано с тем, что из сходимости почти наверное хп к х* следует сходимость в среднем величин V(xn) к нулю. оо Теорема 3. Пусть выполнены условия 1—6 и 2 Фп<°°. Тогда У(ж„)->0 п. н. (г. е. P{V{xn) -> 0} — 1) при При этом для любых е >0, п0 >0 имеет место неравенство P{V(xn)^e и0} 1 оо | EV (ж0) 4- 2 <Р« I е"1. n=n0 J Если, кроме того, pnр> 1 для всех п, то для любого с>0 р (*п) < (с + EV{x0) + -^41) П (1 ~ Vi) Vn} > > 1 — c~xEV (х0) — с-1 (р — 1) • Следствием теоремы 3 является следующее утверждение. 312
Пусть выполнены условия 1—5,. 6\ пусть 6»1, 0п = 0, оо а ==0, tn-t Щ кроме того, либо о = 0, либо 2 Тп < оо. Тогда П~1 ' - V(x„) -* 0 п. н. В частности, если — fn~\ у0 < 1, то для любо- го О О P17(XnX₽n-V0 Vn>l}> >= 1 — c~xEV (»j) — £ст2у?0 [c (20 — Lyr) (1 — y9)]~x. Из сформулированного утверждения следует, что при отсут- ствии аддитивных помех (о==0) и выполнении указанных усло- вий алгоритм (1) сходится с вероятностью 1 для Уп“У (О < у < 20£“1т~1). При наличии аддитивных помех (о2>0) схо- димость с вероятностью 1 гарантируется лишь при выполнении оо условия 2 Тп < °°, которое является более жестким, чем усло- п=1 вие 0 требующееся для сходимости в среднем. Если функция V(x) имеет единственную точку минимума я*: 7(z*) = 0, и inf V (х)Х>0 при любом е>0, то из схо- димости V(xn) 0 п. н. следует, что хп х* п. н. Для псевдоградиептных алгоритмов вида (1) имеет место сле- дующая теорема. Теорема 4. Предположим, что выполнены условия 1,3'. и 6 = 1. Пусть существуют такие, числа с4 > 0, с2 > 0 и последова- тельность чисел vn > 0 {возможно, vn -> оо), что -Ellsjl2 vn + CiVtan-i) “ c2[V it пусть числа 7n+i, vn удовлетворяют соотношениям оо 00 Тпл>0, 2 Уп = оо, ‘ 2 Yn+i^n<oo. п—1 п=о оо Тогда, если выполнено любое из условий 2Тп<°° или _____________________________ п=1 vn = 0 (n = 0, 1, ...), сх = 0, limто при любом х0 п->оо последовательность (1) почти наверное такова, что существует предел V{xn) и с вероятностью 1 lim [ V V {xn)]TEsn = 0. ( П-*ОО Утверждение теоремы 4 остается справедливым, если вместо условия псевдоградиентпости (условие 3') потребовать более ела- бое f для^всех п 0, х <= X -[V7U)]T£5n>-Pn, £п-+0, л-^оо, 313
а другие условия теоремы заменить на условия 1, 2, 4, 5 и ус- ловия ©о оо оо 2?п=оо. 2 фп<00, 2 Yn+lTn< оо. п—1 » п~о п—о Сделанные в теореме 4 предположения не позволяют утверж- дать, что F(zn)-> 0 п. н.; например, все условия теоремы выпол- няются при Зп == 0. Если же в условии псевдоградиентности по- требовать строгого неравенства для всех хп, отличных от точек минимума, то можно получить более сильные утверждения. Пусть в дополнение к условиям теоремы 4 для всех п > 0, 8>0 4VVUn)]r£snX(e)>0 при V(#n) > е. Тогда V{xJ 0 п. н. Другим следствием теоремы 4 является следующее утверж- дение. 'Пусть в дополнение к условиям теоремы 4 'множество X* точек минимума функции V(x) не пусто и inf V(x) > 0 при pCr, X*) > 8Г —[vy(#n)]r£sn > с(е) > 0 при pCr, X*) > 8 для всех 8 > 0. Тогда с вероятность^) 1 pUn, X*)0„ • VUn)0, В частности, если X* состоит из единственной точки х* е X, та ; Хп Я* П. Н. Важной особенностью теоремы 4 и ее следствий является то, что эти утверждения остаются справедливыми и для того случая, когда X является сепарабельным гильбертовым пространством* 5. Неасимптотические оценки скорости сходимости. При прак- тическом использовании итеративных алгоритмов возникает за- дача определения минимального числа итераций, необходимых для определения экстремума с заданной точностью. Эта задача может решаться в том случае, когда имеются неасимптотические, т. е справедливые на каждом шаге алгоритма, оценки скорости сходимости. Две оценки* приведены в теореме 2. Ниже приводит- ся еще несколько неасимптотических оценок скорости сходимо- сти, справедливых, вообще говоря, при более общих предположе- ниях о параметрах алгоритма (1). Далее будем предполагать, что выполнены условия 1/4 и еще несколько условий. ' Условие 3". ДлявсехиХ/ -— [\7(^п)] Е (sn | Xq, Х1Ч • * •, Хп) (*^п) Рп Рп^ (^п)> где 6п>0, рп>0, р;>0, 0<С1<1. 314 .
Условие 5'. Для всех n>0 Е (bn г6 ко» ...•«") < °п+6 + ьХ2 (Жп), где Оп > 0, Тп > 0, с2 > 0. Используя формулу конечных приращений, имеем i+e V(х„+1) < V(хп) + Yn+1^VV(zn) + |«пГ*. Отсюда и из условий 3", 5' получаются неравенства вида ^«+1 (1 4“ «п) Yn+lHn^n 4“ Yn+l^ni где vn •== EV(xn), ап > 0, ип > 0, <вп > 0, п > 0, р > 1. Если (что и предполагается дальше) выполнены условия lim UnYn+i = 0, 2«пТп+1 = оо, lim ©„и^1 = О, Ц(1+ап)С п_^ао П=б 4 П->оо П=0 <с3<оо, то алгоритм (1) сходится по функционалу: vn -> 0 (и ->«>). Пусть нпуя+1(1 + ап)"1 > с4(п + По)”1, с4>0, и0>1, с5(п 4- По)""*, с5>0, t > се, 0Хсв<1, п > 0. Если, кроме того: а) сб = 1, с>1 выбирается из условия /(с)^0, где f(c) = = (1 — с-1) с4 [с5 + (с6с4-1с)1/р]р“1 — р-1 (t — С6) По* 1+Р (< С*)(Р П , ИЛИ С6 = 1, р=1т Ро > Сэ, t— 1 < с4, с > с4/(с4 + 1 — О, то при всех п 1 справедливо vn СзС7С8(п), где г 1 (с6“0/Р с7 = max {Ро, cj, с9 clQn'o ° , С10 = С5 4“ (С5с4 СС11 ~ С4 (Д С )» , к = (ио11 (п 4- п0 — при р = 1; [1 + (р — 1) с?"Ч1 In («о-1+ Пв — при р > 1; б) 0<св<1, (f — ct)(p — 1)<р(1 — ев), 1>0<с9, /(с)>0 или ce = 1, р = 1, v0 < са, то при всех п >. 1 справедливо Р„ < СзС10(п 4- По — 1)(с»-<,/р; в) р > 1, О С Со < 1, (Л — Со)(.р — 1)>р(1 — Со), с>1, /(с)^0, то при всех n > 1 справедливо vn < С3с7 {1 4- С?-1 (1 — с«)-1 (р — !) сп [(« + гао — I)1 С<* — Характер приведенных оценок качественно различен при Р = 1 и р > 1. В частности, при прочих равных условиях асимп- 315
•готические выражения для р>1 дают меныйую скорость сходи-* мости, чем для р = 1. При этом различны и рекомендации о вы-* боре параметра сб. При р == 1 наибольшая асимптотическая ско- рость сходимости регулярных алгоритмов и алгоритма Кифера •— Вольфовица (см. §§ 3, 4) достигается при сб = 1. Из приведен- ных оценок следует, что в случае р >1 асимптотическая ско- рость сходимости при сб<1 выше, чем при св = 1. При умень- шении с8 увеличивается скорость сходимости при всех р на начальном этапе, если vQ достаточно велико, vQ>c9 (это по су- ществу означает, что неопределенность априорной информации о положении экстремума превосходит неопределенность за счет помех). Наибольшая скорость сходимости достигается в этом слу- чае при сб = 0, что соответствует, в частности, поиску с постоян- ной длиной шагзс уп. Отметим, что целесообразность использова- ния неубывающего шага на начальном этапе поиска эвристиче- ски давно обоснована. Литература к § 1: [68, 76, 78]. § 2. Сходимость итеративных алгоритмов в задачах условной оптимизации X S В § 1 была рассмотрена задача поиска максимума функции ц, заданной naI = Rfe 1). В настоящем параграфе предполага- ется, что X есть подмножество R* и задано с помощью некоторых ограничений. 1. Использование операции проектирования. Обозначим че- рез Лл/я) оператор проектирования точки х на множество X. По определению, Лл(я) — это точка из множества X, для которой при всех х' X Их'Лх(я)Н < 1Ь' — rrll. Другими словами, представляет собой решение следующей экстремальной задачи: (я) = arg min || х' — х ||. х'еА’ Если X — замкнутое выпуклое подмножество Rft (fc>l), то опе- ратор Лх определяется однозначно. В частности, если X=U=(a:<1\ ..., х^Г. а^х^Ьь i = то. Если операция проектирования на X легко осуществляется, то для поиска максимума функции ц может быть использована мо* 316
дификация алгоритма (1), что обосновывается следующим утверж- дением. Все результаты о сходимости и скорости сходимости, сформу- лированные в § 1 относительно алгоритма (1), справедливы и для алгоритма (в обозначениях § 1) ^n+i === 4" Yn+i^n) • Рассмотрим несколько иную схему обоснования итеративных стохастических алгоритмов решения задачи поиска максимума функции ц, заданной на XcR* (fc>l). Будем предполагать, что X — выпуклое и замкнутое, а ц — вогнутая на X функция. Вектор ц(я) называется обобщенным градиентом функции Y] в точке х^Х, если для всех х ^Х выполняется неравенство ц(я') — ц(я) [ц(#)]г(;г' — х). Обозначим за X* множество точек из X, в которых функция Y] достигает максимума, а за — о-алгебру, порожденную набо- ром случайных векторов (xQ, х^ ..., Хп\ п==0, Теорема 5. Пусть такие &п-измеримые случайные ве- личины (п = 0,1,...), что для любого L>0 существуют: такое \ число Сь>0, что при II^II^L (i = 0,1,..., п) выполняется ’ ^(hnfko. .. .,a:nXXn<CL; такая последовательность sn (п = 0,1,...), что 4 1?($п1Яо, • • •, #„) = «nYj(^n) + Ъп, где ап — последовательность &п-измеримых случайных величин, Ъп — последовательность $п-измеримых случайных векторов, ц(тп) — обобщенный градиент функции ц в точке хп\ такая после- довательность положительных чисел у2;..., что для некоторых Y*» V* °<Y*<Yn+l (%п + Tn II й )Х V* < 001 где т„ = 1, если Н&„11 >0, и т„ = 0, если IIWI = 0; и пусть последо- вательности случайных величин рп, ап и векторов Ьп удовлетворя- ют условиям оо pn>0, an>o, 2 #(рп||Ьп 11+ рп)<ло п— 0 оо' и с вероятностью 1 2 Рп«п.“ °°. 'п=0 Тогда последовательность (Е11х011 < оо) Я>х(хп 4“ Pn*fn+l^n), , и 0,1,»• • п. н. сходится к некоторой точке х* локального максимума функ- ции ц. 317
Важным свойством приведенного алгоритма является то, что он может быть использован и в том случае, когда функция ц не является дифференцируемой во всем множестве X. 2. Методы штрафных функций. Методы штрафных функций являются одними из наиболее простых и широко применяемых методов решения экстремальных задач с ограничениями. Суть метода внешних штрафных функций заключается в сведении ис- ходной задачи поиска инфимума функции Vq(x) (например, VQ(x) — — цСг)) на множестве X к последовательности задач поис- ка инфимума некоторых функций У/я) (/«1,2,...) на множе- стве Х01 где множество Хо содержит X, а вспомогательные функ- ции Vj(x) подбираются так, чтобы с ростом номера j они мало отличались от исходной функции Уо(#) на множестве X и быстро возрастали на множестве XQ\X. Естественно ожидать, что бы- стрый рост функции V/х/ вне X приведет к тому, что при больших / нижняя грань этой функции на.Х0 будет достигаться в точках, близких ко множеству X, и решение вспомогательной задачи будет приближаться к решению исходной. Последовательность функций Pj(x) (/ = 1,2,...), определен- ных и неотрицательных на множестве Хо, содержащем множество X, называют последовательностью (внешних) штрафных функций множества X на множестве Хо, если О при х &Х, + до при х е Х0\Х. Из этого определения видно, что при больших номерах / за нарушение условия х&Х приходится «платить» большой штраф, в то время как при х е X штрафная функция представляет собой бесконечно малую величину при /->«>. Для любого множества Xc=Rfc существует и может быть по- строено- сколько угодно много штрафных функций. Например, если X' замкнуто, то можно положить РА)=ЛрСг,Х), = / = 1,2,..., где Aj — какая-либо положительная последовательность чисел (lim Aj[ = +оо). j->oo Как правило, при решении конкретных задач оптимизации множество X имеет вид X = е R*|x ^Хо, gi(x) < О, i = 1,..Z, gi(x) = 0, i = I + 1,..., иг}, где Xoзаданное подмножество R* простой структуры (возмож- но, X0 = R*), функции gi(x) (г = 1,..., иг) определены на Хо. В качестве последовательности штрафных функций для так оп- ределенного множества X естественно взять Р> (х) = А^Р (х), 7 = 1,2, ...» lim = 4-оо, I m P (x) = 5 (max {0, gi (x)})p+.2 I gi (*) |P> ® e= Xo, i=l i=l+l lim Pj (x) == 1->OO 818
где р > 1 — фиксированное число. Если функции gSx) г раз не- прерывно дифференцируемы на множестве Хо, то при любом р~>г функция Р(х) также г раз непрерывно дифференцируема на Хо. Если Хо —выпуклое множество, функции, gi(z) ($=!,..• выпуклы на Хо, а при I = I -Ы,...,/и функции g&x) ли- нейные, то Р(х) выпукла на Хо. Пусь некоторое множество Хо, содержащее X, а также после- довательность штрафных функций Р^х) * множества X на Хо вы- браны. Предполагая, что функция определена на Хо, по- ложим VA) = V^x)+P£x\ х^Х„ 7 = 1,2,..* При решении детерминированных задач методом штрафных функций обычно считают, что на /-м шаге метода ищется точка, в которой с некоторой точностью достигается минимум V/z), а искомая точка находится как предельная для указанной после- довательности' точек. При решении стохастических задач оптими- зации такой подход неприменим вследствие сложности вспомо- гательных задач. Нецелесообразно также ограничиваться рассмот- рением какой-либо одной функции Vj(x), поскольку нельзя, опре- делить точность получаемого приближения. При решений стоха- стических задач на п-й итерации делается один шаг градиентного метода минимизации функции Vn(x). Предположим, что требуется минимизировать У0(я) па множе- стве Хо, где Хо — выпуклое, замкнутое, ограниченное* подмноже- ство R* ; (А?>1), Е0(я) — выпуклая функция, заданная как пре- дел некоторой последовательности .УДя), т. е. Fo(#) = Иш V^x). J->oo для всех х^Хо. Теорема 6. Пусть V~ выпуклые при всех j =* i, 2,... функции; последовательности Vj(x) сходится равномерно на Хо; sn — случайные векторы^ условное математическое ожидание ко- торых равно E(Sn I *Гг, < • ., Л'п) == Уп^ХпУ "Ь где Vn(x) — обобщенный градиент функции Vn(x), случайный вектор Ьп измерим относительно — о-алгебры, порожденной (^i,..хп); случайные величины рЛ (n = l,2,. .J &п-из меримы, с вероятностью 1 оо оо рп>о, рп->0, ОО, 2 Рп = оо, . 5 Рпрп||<'ОО, n—1 п=1 кп|| + ||^Ы||+Рп1Кс<°0, И = 1, 2, • ••$ « 2 ^рп<оо. Тогда с вероятностью 1 предельные точки последовательности ^П + 1 = Ло(^№ Рп$ц) 319
принадлежат множеству точек минимума функции V<>(x) и lim Vn (хп) = min V0(x), 71->оо XGXq где ЛоСг) обозначает оператор проектирования на множество Хо. Приведенная теорема может быть переформулирована для случая, когда множество X задается в следующем виде: X = {х е R*U е Хо, gi(x) = EG&x) < О, i = 1,.... Z), где случайные величины Gi(x) (Z = l,..., Z) при всех х&Хо взаимно независимы (так называемая задача стохастического программирования). Параллельно с вычислением случайного век- тора xn+i (п =т= 0,1,...), согласно алгоритму, приведенному в тео- реме 6, следует вычислять значение случайного вектора vn+i раз- мерности I по формуле Vn+i == ttw(vn + бп(тп ~ Рп)), где W — ограниченное множество значений вектор-функцйи (gt(x),..gM)T, v0 — произвольная точка из W, случайная ве- личина бп (п > 0) измерима относительно о-алгебры, порожден- ной {(р0, #о), •.(^п, ^п)}; с вероятностью 1 справедливо бп^>0, сю сю 2 бп = 00 и 2 оо; для всех п = 0, 1, . п—0 п===0 E(xnIUo, Vo). ..., Un, Vn)) = (gitXn). gi(xn))T. При вычислении xn+l в функцию штрафа Рп(%) следует вместо gi(xn) (1 = 1, ..., I) подставлять значения vn. Метод штрафных функций сходится с вероятностью 1 и в дан- ном случае. Описанный метод штрафных функций (называемый методом внешних штрафных функций) несколько отличается от следую- щего метода. Предположим, что X замкнуто, имеет внутренние точки, и замыкание его внутренности'Int X совпадает с X, т. е. IntX = = Х, и существует такая точка z^X, что множество {х^ е=Х| 70(^) Vo(z)} компактно. Последовательность непрерывных функций Int X -* R1 (f = 0, 1,...) называется последовательностью внутренних штраф- ных функций для множества X, если выполнено: а) 0< qi+i(x) < < q^x) для всех a?eIntX, f = 0, 1, ...; б) q^x) 0 при i оо для всех x^IntX; в) q^Xj) -> оо при j оо для любой последо- вательности <2j^IntX, для которой Xj-+x* е Х\IntX при /-* оо, I = 0,1,... Метод внутренних штрафных функций определяется по по- следовательности qi(x) аналогично методу внешних штрафных функций; аналогичны и результаты о сходимости метода внут- ренних штрафных функций. 320
3. Метод множителей Лагранжа. Рассмотрим задачу поиска инфимума функции Уй(х) на множестве Х== gdx^O, '' * gSx) = 0, i = I +• 1, m), где функции Р0(я), gt(x\ gm{x) заданы на множестве X- функцией Лагранжа называется функция т L (х, ?») = Vo (х) + 2 kigi (х), г=1 х е Хо, % =(^(1)9 • • ч WT g Ао ~ Rm |X(d >0, „?Лт)>0Ь Точка (х*, X*) е Хо X Ао представляет собой седловую точку функ- ции Лагранжа, L(x, X), если для всех ХеЛ0‘ ьи*,х)^ги*,х*хли,х*). При определенных условиях выпуклости и регулярности исход- ной задачи минимизации необходимым и достаточным условием того, что в точке х*^Х достигается min У(я), является существо- х^Х вание такого X* Ло, что (я*, X*) является седловой точкой функ- ции Лагранжа Их, %). При решении детерминированных задач под методом множи- телей Лагранжа обычно понимают следующий метод (g ==* ~(gi, ...,gJT): zn+1 = arg min L (x, Xn), Xn+1 = лл (Xn + ang (xn+1)). xex0 При решении стохастических задач на каждой итерации де-' лается один шаг градиентного метода в направлении убывания функции ,Их, Хп) (так. же, как в методе штрафных функций). Рассмотрим случай I == т. Для того чтобы не требовать стро- гой выпуклости функции V0U), будем использовать регуляризо- ванпую функцию Лагранжа: т Ln (х, К)~ VQ (х) + Mgi (х) + *2" IIх II2 — Ч II" г=1 па n-м шаге итеративного метода. Предположим; что 70(я), gi(x) (г ===== 1, ..., т) — выпуклые не- прерывные функции; Хо — выпуклое замкнутое ограниченное множество; выполнено условие Слейтера, т. е. существует такая точка сГеХо, что для всех i==l,т gi(x) < 0; случайные ошибки №)-VoU), G^-gdx), VGoW-VV0U), VGiUJ-V^U) 321
имеют нулевое среднее, ограниченную дисперсию и независимы при их вычислении в различных точках; 2 Tn^n = °0, п==1 Тп ха72 («п+1 — «п) о. Тогда для метода Хп+1 = Лх'[*п — Тп+1 (VGo СМ + [v&(MFК + «п+а)], ^п+1 == ^п + Тп+1 (*п)-------«п^п+1) ‘Выполняется — Е1ЬП - ЛГ*П2 -> О, Л*п + 0, ’ где #♦ —решение исходной задачи минимизации V(x) с наимень- шей нормой, X* — множители Лагранжа с наименьшей нормой. Последовательности и ап могут быть выбраны, например, в виде' Тп = ап 8X5 0<t<r, t+-r<A. Литература к § 2: [17, 30, 77]. § 3. Оптимальность итеративных алгоритмов / -1. Потенциальные возможности псевдоградиентных алгорит- мов. Из результатов, приведенных в § 1, следует, что при выполне- нии условия псевдоградиентности [v^cr)mn>o и некоторых других имеет место сходимость в различных смыслах последовательности (1) к х* при в том . же параграфе приведены некоторые оценки скорости сходимости. Ниже приве- дены результаты о достижимой точности алгоритма (1), т. е. о максимально возможной скорости сходимости хп к х*; при этом качество приближения хп к х* будет измеряться величиной wn = Е\\хп — х* II2. Предположим» что выполнены условия 2 и 3' из § 1 для V(x') sup х\(х') — ц(х) x'GX (т. е. алгоритм (1) псевдоградиентный и представляет собой цепь Маркова), а относительно псевдоградиента выполнено условие линейного роста Esn(x) L\\x —х*\\, х^Х, n = 0,1, * . i Если помеха кп== sn — Esn аддитивна, т. еДсм. п. 1.2) sup ЕНкп(х)II2 > о2 > 0, 322
т0 для всех n== 1, 2,... wn [wjf1 + nLV2]~1. Эю соотношение представляет собой формулировку принципа неопределенности для алгоритмов вида (1). Из него следует, что для любого алгоритма (1) при наличии аддитивных помех погреш- ность wn убывает не быстрее, чем [cj + где q = w^1, с2 = Если помеха х мультипликативна, т., е. если для всех п = ₽ 0, 1, ».х X выполняется E||x„(z)||2>a2||a: —х*||, о0>0, то при п = 1, 2, ... Другими словами, при наличии мультипликативных5 помех по- грешность Wn алгоритма (1) убывает не быстрее геометрической прогрессии со знаменателем (1 + L2o^2)-1 <1. 2. Оптимальные псевдоградиентные алгоритмы. Разнообразие псевдоградиентных алгоритмов поиска экстремума ставит вопрос о выборе среди них наилучших в том или ином смысле. Приве- • денные выше результаты о. потенциальных возможностях алго- ритмов вида (1) позволяют решить вопрос об их оптимальности лишь в некоторых частных случаях. Ниже приведены результаты, . с помощью которых в достаточно общей ситуации можно строить асимптотически оптимальные алгоритмы. Сначала приводятся ус- ловия сходимости для широкого класса алгоритмов (1) и даются асимптотические оценки скорости сходимости. На их основе стро- ится алгоритм, имеющий максимальную асимптотическую ско- рость сходимости. Как и в § 1, рассматривается задача поиска максимума функ- ции ц, заданной на X = R* (А > 1), и точки ' х* = arg max n(х), «ex в которой этот максимум достигается. Предположим, что в про- извольной точке х X доступна реализация независимого случай- ного вектора z(x) = + £(#), где 1^(х) е Rft — помеха наблюдения градиента. Для решения поставленной задачи воспользуемся алгоритмом (1), в котором sn = Ф(з(;гп)), где Ф — некоторое отображение из X в X. Решаемая ниже задача заключается в оптимальном (в смысле асимптотического поведения алгоритма (1)) выборе ска- лярных множителей уп (п >1) и отображения Ф. 323
Теорема 7. Пусть выполнены следующие условия* а) ц(#) дифференцируема, градиент удовлетворяет ус-* ловию Липшица, т|(^) ->—00 при 1Ы1-*• оо. и х* — единственная стационарная точка функции ц(#), б) Помехи £(я)— взаимно независимые случайные векторы. в) Отображение Ф—^-измеримо, нечетно и равномерно моно- тонно, г. е. Ф(я) = — Ф(—х), и для всех е>0, х,х' выполнено [Ф (х) — Ф (х')]т (х — х') > h (II х — х' ||), inf h (t) > 0. г) Либо ПФ(^)П < с, либо НФСг)и < с( 1 + Ы), £И£Сг)П2 с(1 - T]U) + ч(х*)), где с —некоторая константа. Тогда при ОО OQ 2 Уп = оо, 2 Тп< оо' п=1 алгоритм (1) с sn = Ф(2(яп)) сходится с вероятностью 1, т. е. хп х* п. н. При выполнении условий теоремы точка х*, в которой дости- гается максимум функции ц(^), единственна, а алгоритм (1) яв- ляется псевдоградиептпым. Теорема 7 — следствие более общих результатов, сформулированных в п. 1.4. Далее рассматривается случай (п>1). Из результа- тов § 1 следует, что другие типы зависимости уп от п (например, 7П = п~г (1/2 < г < 1, п > 1)) приводят к более медленной сходи- мости и не представляют интереса с точки зрения оптимизации асимптотической скорости сходимости. В следующей теореме приведены , условия, при выполнении которых величина 11п(хп — х*) асимптотически нормальна со сред- ним 0 и некоторой матрицей ковариаций D. Этот результат позво- ляет сравнивать различные алгоритмы вида (1) с ^П = п^ по соответствующим матрицам D (в смысле упорядочения неотрица- тельно определенных матриц). Теорема 8. Пусть в дополнение к условиям теоремы 7 уп = = п~1; функция ц(а:) дважды дифференцируема в точке х* и V2t)(j:*) < 0, а помехи Qx) имеют общее распределение P(dx); отображение Ч(х) = ХФ (хх') Р (dx') дифференцируемо в 0; матрица А = j х Ф (х) Фг (х) Р (dx) > 0, а матрица 5=|4 + T(0)V2n(^) 524
устойчива (т. е. все ее собственные числа имеют отрицательные вещественные части). Тогда для алгоритма (1) с вп~Ф(г(Хп)) величина Уп(хп —х*) асимптотически нормальна: 1/п(хп — л*) ~ ~Л*(О,Р), где матрица D = В(Р9,Ф) является решением матрич~ но го уравнения BD + DBT = —Л. Таким образом, асимптотическая скорость сходимости алгорит- ма (1) измеряется величиной D и зависит от свойств помехи, отображения Ф и матрицы вторых производных функции ц в точке х*. Рассмотрим некоторые частные случаи. Пример 4. Градиентный алгоритм имеет вид Xn+i Хп *Yn+i2(#n)у z(xn) == Vц(хп) Если уп = Уп~\ yin > — [ V2т| (х*)]-1 и выполнены условия тео- ремы 8, то имеет место асимптотическая нормальность, а матрица ковариаций D является решением матричного уравнения (4 А + У V2n (x*)j D + D (4Ik - TV2!) (X*)) = fjf, M = xxTP (dx). В частности, если матрица ковариаций помехи £ пропорциональ- на единичной: М = Et&T o2Zh, то D = f 0-2(-2^2т](а;*) - lh)-'9 Заметим, что если ц(;г)—квадратичная функция, то та же ско- рость сходимости имеет место для обычной (не асимптотической) матрицы ковариаций: Е(хп — х*) (хп ~ х*)т « п'"172о"2(—2у (я*) — Z^)-1 + о(п~'\ Пример 5. Общий линейный алгоритм имеет вид xn+i=== хп yn+iTz(xn)i где Г — симметричная положительно определенная матрица. Ус- ловия сходимости для этого алгоритма те же, что и для градиент- ного. Асимптотическая скорость сходимости этого алгоритма при = и"1 определяется решением матричного уравнения (rv2n (X*) + 4 D + D (г V2n(x*)+ 4 л) = ГМГ. В частности, для алгоритма ньютоновского типа Хп+1 =*Хп — Yn+i[V2T]U*)]-12Un) имеем D == [ М = Et£T- В следующем утверждении показано, какой алгоритм является асимптотически оптимальным в классе алгоритмов" вида (1) с 8п = Ф(г(хп)). 325
Теорема 9. Предположим, что распределение Р(дх)имеет плотность р(х) по мере Лебега рл, т. е. P(dx) = p(x)p,h(dx), и для р(х) существует конечная положительно определенная информа- ‘ ционная матрица (по Фишеру) । .1 (р) = f х V In р (х) [ v In р (л?)]г р (х) (dx). * Пусть, кроме того, выполнены условия теоремы 8 Зля Ф = Фо, | ф0(я) = Inр(х). * Тогда для алгоритма (1) с sn«Ф0(г(хп)) имеет место i соотношение * 1/п(хп — х*) ~ Jf(0,D*), D* = [V2-q(^*)Z(p)V2T](^*)l"1; $ а для любого другого отображения Ф, удовлетворяющего уело- | виям теоремы 8, 1/п(хп — х*) ~ </Г(0, £>(Ф)), 2)(Ф) > Д*. 1 Таким образом, алгоритм 1 Хп^1 = Хп — (п + l)”1[V2T](j;*)]-1[Z(p)]’‘,V Inp(zGrn)) < ' • является асимптотически оптимальным в рассматриваемом классе алгоритмов. Пример 6. Если помеха распределена нормально, £ ~ ? ~JV(O, S'), S>0, то оптимальный алгоритм является алгоритмом ньютоновского типа: xn+i = хп — (п + 1 )"4[V2t|(#*)]~lz(xn), D* = [V2rj(^*)]~t5[ V2r)(^*)]-1e Пример 7. В одномерном случае (& = 1) оптимальный алго- ритм выглядит так: хп+1-хп + у(п + 1) у- ir(z*)z(p)’ /(р) = f (£-!^-dx. J p(x) к —оо i Условия теоремы 9 выполнены, если р>0, р(х) симметрична и j дифференцируема при почти всех х^Х, 0<Z(p)<oo, 1пр(ж)— | выпуклая, функция, растущая не быстрее квадратичной, функция ( 00 J <р (t) =м I In р (х — t) p (х) dx дифференцируема в 0. I -о° ' | 3. Робастные псевдоградиентные алгоритмы. Для того чтобы | воспользоваться оптимальным алгоритмом, рассмотренным в пре- дыдущем пункте, нужно знать закон распределенная помехи tSx) ~ z(x) — VnU). Обычно этот закон распределения неизвестен или известен приближенно. Использование оптимального алгорит- ма в ситуациях, когда фактическое распределение отличается от j предполагаемого, может привести к потере точности, а иногда | и к расходимости алгоритма. 326
Приведем пример. Пусть к = 1, предполагаемое распределение помехи имеет плотность р0(х) ~ (2л)“,/2 ехр {—х2/2У, и поэтому применяется алгоритм (1) с уп = п-1, sn~ —z(xn)/ /г\"(х*). Пусть на самом деле распределение помехи «загрязнен- ное» нормальное с плотностью Pi(x) = О,9ро(я) + 0,01(2л)“1/2 ехр {—й2/200)< ТогДа асимптотическая дисперсия применяемого алгоритма при- близительно в девять раз хуже, чем для оптимального относи- тельно Pi алгоритма. Если фактическое распределение помехи имеет бесконечную дисперсию, то рассматриваемый алгоритм вообще не сходится. Заметим, что помехи с бесконечной диспер- сией часто возникают при приближении градиента с помощью конечно-разностной аппроксимации. Например, если значения функции вычисляются с нормальной помехой, а длина пробного шага случайна и нормально распределена, то ошибки конечпо- разпостной аппроксимации градиента распределены по закону Коши. Ниже приведены результаты о выборе оптимального алгорит- ма при неполной информации о законе распределения помехи. Сущность излагаемого ниже подхода тесно связана с идеологией робастного оценивания, впервые сформулированной Хубером, и заключается в том, что предполагается известным некоторый класс & распределений помех £, а наилучшим алгоритмом экстре- мального планирования считается асимптотически минимаксный на данном классе. Асимптотическая оптимальность алгоритма (1) с sn = Ф*(з(#п)) на классе понимается следующим образом: для всех таких Ре^ и Ф, что пары (Р, Ф*), (Р*, Ф) удовлетворяют условиям теоремы 8, имеют место неравенства ZXP, Ф*) £(Р*, Ф*) Р(Р*, Ф), где DkP, Ф) — асимптотическая матрица ковариаций нормального распределения, соответствующая Р и Ф и определяемая в теоре- ме 9. ' Теорема 10. Пусть Ф — выпуклый класс распределений P{dx) на имеющих плотность р, причем 1(р) < °° для всех Р<=&, и пусть существует такое Р*&&, что 0<Z(p*)<Z(p) для всех Положим Пусть выполнены условия теоремы 8 для Р =* Р*, Ф == Ф*. Тогда алгоритм (1) с = п-1, sn = Ф*(гСгп)) является асимп- готически оптимальным на классе SP *среди алгоритмов вида (1) Ч» = = ФСгСгп)). 327
Таким образом, чтобы построить оптимальный на SP алгоритм, нужно найти «наименее благоприятное» распределение и для него, используя теорему 9, построить оптимальный алго- ритм. В одномерном случае для наиболее интересных и важных классов распределений 9* задача отыскания «наименее благопри- ятных» распределений принципиально решена, и, следовательно, в зависимости от имеющейся, априорнрй информации о помехах может быть построен: оптимальный алгоритм. Ниже приведены три примера. А. Класс 9\ невырожденных распределений с такими плотно- стями р, непрерывными в 0, что р(0) > с > 0, Z(p) < оо. «Наименее благоприятным» в данном случае является распреде- ление Лапласа с плотностью р*(я) сехр{—2сЫ), аоптималь- ный на 9\ алгоритм является «знаковым»: Xn+i ~хп — 12(п + 1)ц " Gr*)dsign Iz(a;n)], П(Р*, Ф*)==(2ст1,,и*))~2. Б. Класс распределений с ограниченной дисперсией; {°° 1 Р — pgj, J х2р (х) dx <1 а2, I (р) < оо|. • —оо J «Наименее благоприятным» является нормальное распределение со средним 0 и дисперсией о2, а оптимальный на 9\ алгоритм линейный: Хп+1 === Хп l(n + l)n"U*)]-1z(^n), D(P*, Ф*) = (ц''и*))-2о2. В. Класс приближенно нормальных распределений: 9*з=={Р==р^1, p=(l—e)po+'epi, Ро(^)==(2л)"1/2о"1ехр{—д;2о~2/2}, Pi — такая произвольная плотность, что 7(р) < оо}. Параметр 8 > 0 характеризует «степень загрязнения» нормально- го распределения. В этом случае f(l — е)о“1(2л)“’1/2 ехр {—ж2о'“2/2) при |#|^Д, Р (1 — е)а“1(2л)“1/2ехр (Дц“2(Д/2 — |.г|)) при|х|>Д, где величина Д находится из уравнения д Д .= (1 — е) Д J ра (х) dx + 2р0 (А) ст2 (1 — в). —д Оптимальным на 9*3 является линейный алгоритм с насыщением (т. е. Ф*(я) при я>0 пропорционально min{х, Д}). В многомерном случае задача отыскания «наименее благо- приятных» распределений может быть решена лишь для. некого- ^28
рьтх классов распределений Это связано в первую очередь с тем, что 7(Р) — матрица, и задача ее минимизации, вообще говоря, не имеет решения. Приведем два примера, в которых рассматриваемая задача решается. Г. Компоненты помехи £ независимы, Р (dx) = JJ Pi(dx(t))9 г=1 где Pi(dx{i)) — распределение f-й компоненты (f = 1,..., fc), 9> = {Р1Л е= ...,Ph<= 9“h)}, где ^(г) — классы одномерных распределений. Задача отыскания «наименее благоприятного» распределения сводится к одномер- ным задачам, а оптимальный на 9 алгоритм имеет вид k <1 = 4°-(n+i)-x2 [/(р*)]-1 (inр*(z(i)ы))', I = 1, . .к, хп = (4’Д • •, Х^)т, z = (Z<« .... z™)T, ' [уМ®*)ГЧМ‘м. ЛР» = J dx’ Pi =ar8 min. Лл). -oo 1 x • Д. Класс fc-мерных распределений с ограниченной матрицей ковариаций: &S ~ Здесь S > 0 — заданная матрица. «Наименее благоприятным» яв; шляется нормальное распределение Л61 (О, S), а оптимальный на алгоритм существует и является алгоритмом ньютоновского типа: xn±i = хп — (п + 1)-1( V2'q(a;*)]-1z(a:n). Асимптотически оптимальным на 9*s является также алгоритм из [70], в котором вместо матрицы V2t|(^*) На n-й итерации ис- пользуется оценка для получаемая аналогично оценке в алгоритме Кифера — Вольфовица (см. п. 4.2). Литература к § 3: [68, 70, 79, 80, 97]. § 4. Некоторые алгоритмы планирования экстремальных экспериментов 1. Регулярные алгоритмы. Под регулярным алгоритмом пони- мается алгоритм вида (1), в котором при вычислении направления Движения sn используется случайная реализация градиента функ- ции ц в1 точке хп, т. е. значение случайного вектора е z(xn) == Vf|(zn) +£Un), 21 п./р. с. М. Ермакова 329
где £(х) — случайная ошибка измерения градиента в точке х (xeX = IV). Ниже рассмотрен случай, когда помехи аддитивные^ и для всех х^Х выполнено £И£(х)Н ^о2< оо. Приведенные ниже результаты о сходимости с вероятностью 1 регулярных алгоритмов являются следствиями теоремы 4. Для : удобства ссылок основные предположения сформулированы в виде следующего условия. Условие А. т|Ы<т]*<% = &>1; множества вида {х е XI ц(х) const) ограничены; при всех х,х'^Х II.V n (х + х') — vn (ж) ||< L ||х' ||; Тп>0, 2 Уп = оо, 2Тп<°о. 71=1 П—1 , Под сходимостью алгоритма с вероятностью 1 в данном пунк- те будем понимать следующее: с вероятностью 1 найдутся такие точка (Vrj(^*) == 0) и последовательность п<, что с вероят- ностью 1 и Т|(#п) (г,-п-><»); если точка «в которой = 0, единственна, то с вероятностью 1 хп . х* (п-г оо)^ Наиболее простым регулярным . алгоритмом является гради- { ентный алгоритм (многомерный алгоритм стохастической аппро- ксимации Роббинса — Монро) «^п+1 > «Гп ”1” Уп4-1^(^Гп)• j Если выполнено условие А, то градиентный алгоритм сходится^ с вероятностью 1. 7 Непосредственным обобщением градиентного алгоритма явля-" ется алгоритм, в котором скалярные множители заменены на матрицы Гп. Если выполнено условие А для уп = ПГп11, и для всех х^Х, п>1 < - ' а:тГп2:>с11Гя11-1Ы1, ’ • J то алгоритм ' ' 1 Хп-1-i == Хп 4” Tn-j-iZC^n) Я сходится с вероятностью 1 (норма матриц и векторов евклидова).! Определенный интерес может также представлять алгоритм,: в Котором градиент преобразуется по несколько иному закону^ Пусть , £(#) + Vr|(^) == A(x)q(x\ где А(х) — некоторый линейный оператор из X в X, а измерению доступен случайный вектор qix\ Предположим, что выполено условие А и для всех хтА(х')х clip'll, с>0, НА(а;)11 < so, z 330
Тогда алгоритм сходится с вероятностью 1. Одним из типичных алгоритмов, в которых компоненты гра- диента подвергаются нелинейному преобразованию, является «знаковый» алгоритм. Предположим, что выполнено условие А и для всех х<=Х, £>0 p{tu)(o>o}=pau)(i)<o),' Р{0 £(z)(t) е) > 6(e) > 0, Р{-е l(xVi} 0) > 6(e) (индекс сверху у вектора обозначает его соответствующую ком- поненту). Тогда алгоритм == *Гп "Ь *fn+i sign z(xn) сходится с вероятностью 1, где sign[(а(1), j*., a(ft))T] ==» (sign а(1), signal)г, sign a = r 1, если ~T, если 0, если aZ> 0, a < 0, a ~ 0. Далее рассматривается алгоритм, в котором на n-й итерации (п = 0,1,...) случайно и независимо >от реализации градиента выбирается вектор дп, а шаг делается либо по направлению qn, либо по направлению —qn в зависимости от того, какой из этих векторов составляет острый угол с реализацией градиента. Предположим, что выполнено условие А и для всех х^Х, п 0 |£(?п^)|>с||^||, О 0, (*)] = 0, £h„ir<q<oo. Тогда алгоритм *Гп+1 == *Гп Уn+i^nW^n) ) qn сходится с вероятностью 1. «Знаковый» аналог этого алгоритма Япч-1 = хп + Yn+i£n sign {{z{xn})Tqn} сходится при дополнительных предположениях, сформулирован- ных для «знакового» аналога градиентного алгоритма. Если в сформулированных выше результатах под сходимостью вероятностью 1 понимать, что почти наверное существует hm ц (Хп) и lim || уц (Zn)‘|| = 0, то эти результаты справедливы °Q*' П—>оо Для случая, когда X — сепарабельное гильбертово пространство. 21* ч.м
Все приведенные утверждения о схддимости регулярных ал- горитмов справедливы и для случая, когда помехи мультипли- кативные (см. п. 1.2), причем во всех случаях, кроме утвержде- оо ний о сходимости «знаковых» алгоритмов, условие 2 Тп < «> ___ п=1 можно заменить на условие lim уп < 2L”1c71 из теоремы 4. П->оо Ниже рассмотрен еще один регулярный алгоритм, отличаю- щийся от приведенных выше тем, что на каждом его шаге на- правление движения; sn вычисляется на основе проведенного измерения z(xn)« V-qCrJ + и всех ранее вычисленных значе- ний $0,.. Предположим, что выполнено условие А, 2 Рп*^00» Yn+1/Pn-^O, п=о Жп||2< С< ОО, £{Un|||^n}~>0,. где Яп '(п==0,1, ..Л—o-алгебры, порожденные случайными векторами х0, £0, •••» #n, Sn. Тогда с вероятностью 1 предельный точки последовательности #0, #i, • определяемой по формулам (SO^Z(XO)) *^n+l *^П "1” Yn+i^n, ^n+i а= $П *1” рп(^(*£п) ^п) (х0 — произвольная точка из X), принадлежат множеству {х& €=X|Vn(;r)==0}. В приведенном алгоритме на каждом шаге используется опе- рация усреднения для вычисления направления движения, что позволяет уменьшить влияние случайных помех на процесс по- иска и обеспечить инерционность процесса. На начальной стадии поиска это часто оказывается выгодным, а вблизи решения, как показывают численные эксперименты, инерционность замедляет сходимость. 2. Поисковые алгоритмы. Поисковыми называются алгоритмы вида (1), в которых для вычисления направления движения sn используются только реализации случайных величин у(х({)) (Л = = 1, ..., Z+1) для некоторых точек x(Vi, ..., xe±i} (Z = 0, 1, ...> (возможно, I зависит от п). Рассмотрим общий алгоритм, который охватывает большинство известных поисковых алгоритмов. На n-м шаге этого алгоритма случайным или детерминированным образом выбирается I век- торов qnii и в точках - Л'П, Хп • • •» “Ь 0Сп+1(?п1 вычисляются значения случайной величины у. Предположим, что выполнено условие А, сформулированное в п. 1, ОО an~>0, n->oo, Svnttn2*^00» п=1 £32
I . ^2(^T?ni)2^c||x||2, c>0, ieX, n = 0,1, ,,,, i=l I E 2 hnt IIе < Ci < 00» Es (xn 4- an+i?ni) Qm =0. 3=1 Тогда для алгоритма i *n+i = xn 4- Tn+itZn+x 2 (i/ (Xn 4- a»+i?ni) — у (xn)] g-ni i=l с вероятностью 1 имеет место равенство lim || \7ц (хп) j » 0. n->oo Ниже приведены некоторые частные случаи рассмотренного алгоритма. А. Несимметричный вариант алгоритма Кифера — Вольфови- ца: I = A:, qni = — орты (г = 1, ..., к). Б. Симметричный вариант алгоритма Кифера — Вольфовица; / = 2А, #ni = ei (f==l, ..., А:), дп|==—е< U = к + 1, ..2к), . t При реализации несимметричного варианта алгоритма Кифе- ра — Вольфовица требуется приблизительно в два раза меньше значений случайных величин у(х) на каждом шаге, чем при реализации симметричного варианта, но оценка градиента, полу- чаемая на каждом шаге последнего, точнее. В. Метод крутого восхождения (см. пп. 5—7): 1>к, qni — детерминированные векторы, не лежащие в одном подпростран- стве. Г. Случайный поиск с односторонней пробой: Z = l, qnl рав- номерно распределен на единичной сфере. Д. Случайный поиск с парной пробой: Z = 2, qni равномерно распределен на единичной сфере, qn2 = — qni- Е. Алгоритм стохастического m-градиента: 1 < I = т < А:, qni — случайные ортонормированные векторы, которые обычно получают с помощью процедуры ортогонализации из независи- мых равномерно распределенных на единичной сфере случайных векторов. Достоинства алгоритма стохастического т-градиента при малых т наиболее ярко проявляются в тех задачах, в кото- рых к велико. Ж. Случайный покоординатный подъем: I = 1, qni = е, (Z =» = 1, ..., к) с вероятностью pni 6 > 0. Подобно градиентному алгоритму, рассмотренные поисковые алгоритмы могут быть подвергнуты некоторым преобразованиям. Так, вектор, определяющий направление движения, можно ум- ножить на произвольную положительно определенную матрицу единичной нормы. Можно осуществлять изменение хп лишь в том случае, когда значение цХхп+С) больше, чем вновь измерен- ное у(хп) («случайный поиск с возвратом при неудачном шаге»). Можно из векторов qni, ..., qni выбирать один: тот, для которого величина у(хп + — у(хп) максимальна («случайный поиск с наилучшей пробой)}). Можно вместо разности у(хп + an+iQni) 333
^-у(хп') учитывать только ее знак. Для доказательства сходимся ; сти такого алгоритма нужно делать дополнительные предполо- жения, аналогичные предположениям, сделанным при формули- » ровке сходимости «знакового» алгоритма в п. 1. ? При построении поисковых алгоритмов можно, так же как и при построении регулярных, использовать операцию сглажива- ния, т. е. вместо направления движения sn,x вычисленного по одной из приведенных формул, использовать в алгоритме (1) направление sn, вычисляемое рекуррентно: *• •£п4-1 $п Для сходимости получающихся алгоритмов необходимо выполне- ние условий limpn<l, Tn+i/pn->0, п->оо. , П->0О 3. Локальное поведение алгоритмов* Многие регулярные и 1 Поисковые алгоритмы могут быть записаны в следующем виде: &П "Ь (2) где — детерминированные последовательности коэффици- ентов, -фп(^)—детерминированное смещение при оценивании равное нулю для регулярных алгоритмов, — случайные ошибки, которые в простейших случаях считаются независимы- ми одинаково распределенными векторами с £’^п = 0 и невырож- денной ковариационной матрицей. При выполнении условия А последовательность х^ . сходится с вероятностью 1 к одной из точек множества X* = tr€=Xl V.nGr)==0} , или к границе одной из его связных компонент, если’ только последовательность qn == max i|)n (х) достаточно быстро стремится I KG X - -%. к нулю. Однако такой результат неудовлетворителен с точки | зрения практики, поскольку множество X* состоит не только из j точек максимума функции ц(я), но и из точек минимума, седло- | вых точек и др. При выполнении некоторых предположений | траектория хп не может с положительной вероятностью сходить- f ся к точкам минимума функции ц. Для этого достаточно требо- | вать, например, чтобы матрица вторых производных функции ц | в окрестности точки минимума была невырождена, а последова- j тельности хп, Рп, Цп удовлетворяли условиям хп^Срп при неко- | тором С > 0; ряды _ | _ 42 Рп» 2 2 Рпфп3/3 n=0 n=0 n—Q сходятся, где Фп = 2 Р?. i=n . • 834
Иногда бывает известно, что изолированная точка максимума х* функции ц принадлежит заданной области D и является единственной в D стационарной точкой непрерывного поля V-qU). В этом случае алгоритм (2) можно модифицировать так, чтобы «усекать» траектории, покинувшие область D: Xn+i =^+Wxn(Vl]Un) 4"фп(^п)) + МЛ (3) где Fd^x) = x при x&D и Fd^—Xq при x&D, хй — произволь- ная заданная точка из области D. Ниже приведены результаты о сходимости алгоритма (ЗХ-и ’ асимптотическом (при п-> со) поведении его траекторий. Предположим, что Ф(х) = P{ll£JI > х} убывает степенным об- разом с показателем р, т. е. при всех достаточно больших х > О выполнено С^Х~Р Ф(х) < с2х~р С некоторыми ПОСТОЯННЫМИ 0 < Ct С С2 < °9. .Замечание. Для того чтобы функция Ф(я) убывала сте- пенным образом с показателем р, достаточно, чтобы 2?ll£Jlp < <». Пусть функция Ф(гг) убывает степенным образом с показате- лем р > 2 и выполнены следующие условия: 0° 1) хп->0, ₽п/хп->0 при п->оо и 2 Хп = ОО. n=Q 2) Для заданного р > 2 и для любого Т > 0 найдутся такие ( пЪ п2 постоянные U и V, что если 2 Т, то I 2 ₽n I 2 Рп. п—п i ^71=71^ / П=«1 Тогда для сходимости алгоритма (3) необходимо и достаточно, оо - _ . чтобы сходился ряд 2 Prt. 71=0 Условия 1), 2) легко проверить, например, в случае х„ = п"а, pn = n“b, 0 < а С 1, 6<а/2, причем условие 2) в этом случае выполнено для любого р > 2. Если случайный вектор £п имеет все моменты, то вопрос об условиях сходимости алгоритма (3) решается следующим образом. Введем предположение. 3) Функция G(z) = In2? ехр {(z, £n)}, дважды непрерывно дифференцируема и G(z)/Hzll °о при ilzll -> со. Например, если £п имеет гауссовское распределение с кова- риационной матрицей С, то G (z) = —• zTCz. Алгоритм (3) при хп = и при lim хп/Рп = 0 называется 71->0О соответственно модифицированным алгоритмом Роббинса — Мон* ро и модифицированным алгоритмом Кифера-—Вольфоеица. 335
Последовательности хп и рЛ называются регулярными, если для любого Т>0 найдется такая постоянная г = г(71)<+0°, что п2 из условия 2 *п Т следуют неравенства max xj min хп<г, шах рп/ min рп<г. п1<п<п2 П^П<П2 Пусть выполнены условия 1), 3) и последовательности хп, в модифицированном алгоритме Кифера — Вольфовица регуляр- ны. Тогда для сходимости этого алгоритма необходимо и доста- точно, чтобы для любого % > 0 сходился ряд f 00 2 Хп ехр {— 1хп/Рп}. (4) п=о При тех же условиях для сходимости модифицированного ал- горитма Роббинса — Монро необходимо и достаточно, чтобы для любого X > 0 сходился ряд * оо 2 ехР {— - П=0 (сходимость этого ряда означает, что хп = (дте/1п п, где <оп О (n->oo))? т. е. модифицированный алгоритм Роббинса — Монро может сходиться при логарифмически медленном убывании по- ОО , \ следовательности хп (ср. с условием 2 < + 00 I. п—о / Предположим, что матрица ковариации случайных векторов £п — единичная. Если ряд (4) сходится при % > ц и расходится при X < |х и если область U|2(^U*) — ц(я)) < Зц} содержится' в области D, то траектории модифицированного ал- горитма Кифера — Вольфовица заметают при п -* 00 всюду плот- но область {я|2(ц(а:*) ц(а:)) < ц}. Свойство заметания означает, что сколь угодно малая окрест- ность любой точки х <= бесконечно много раз посещается тра- екторией алгоритма, и при всех достаточно больших п каждая траектория остается в области при сколь угодно- малых б > 0. Аналогичное утверждение имеет место и для- модифициро- ванного алгоритма Роббинса — Монро, а также для ковариаци- онной матрицы, отличной от единичной, однако форма заметае- мой области в этом случае определяется ^несколько сложнее. 4. Планирование экстремальных экспериментов для недиф- ференцируемой функции регрессии; использование рандомизации и сглаживания. Если функция ц(х) недифференцируема (и, воз- можно, разрывна), то большая часть алгоритмов поиска ее мак- .836
^пмума, рассмотренных в настоящей главе, не обязана сходить* ся, Тем не менее иногда можно так выбрать функцию Ляпу-, нова У(х) (см. п. 1.2), чтобы она была достаточно гладкой функ- цией, . а алгоритм поиска максимума функции ц рассматривать как алгоритм поиска минимума функции V, для исследования которого могут быть использованы результаты, сформулирован- ные выше. Другой подход к построению и исследованию алго- ритмов поиска-максимума недифференцируемой функции осно- ван на понятии обобщенного градиента и описан в п. 2.1. 5 Рассмотрим еще, один подход к построению алгоритмов поис- ка максимума недифференцируемой функции ц. Этот подход основан на сглаживании исходной функции путем рандомизации переменных. Приведем ряд определений. Оператором усреднения порядка а (а > 0) называется инте- гральный оператор, переводящий функцию ц, заданную на X = R\ в функцию т], заданную на R2fe и определяемую по фор- муле Л Р) == h СО 'П (х — $х') № Р = (р(1), P(fc))T — вектор параметров усреднения, ££=» == (р(1)ж(1), ..., — вектор), если ядро этого оператора h(x) удовлетворяет условиям ; j* h(x) p.h(dx) = 1, ^h(x)(x(iy)ni .,,(x(hy)nhnh(dx) = 0, X , X fe . 0<£ n^a. ' * 5—i Будем, кроме того, предполагать, что функция h(x) а+1 раз непрерывно дифференцируема. Дифференцирующим оператором усреднения оценки градиен- . та порядка а (а*> 1) называется оператор, переводящий функ- цию ц, заданную на X = Rft в Вектор-функцию rf, заданную на R2ft по формуле П' (*. ₽) = Р-18 {х') П (* ~ РИ Hfc (<&')> где n' (*, Р) = (m (*, Р), •. •, пь (х, Р))\ р g\x) - р(1) > р(л) । г если выполнены условия Jx gi (*) {dx) = — fiih |x gi (^) (*(1))ni... {dx) = 0, 0 < 2 «j < 2 п j 1 • 33Z
Будем, кроме того, предполагать, что функции g^x) е.., к) а раз непрерывно дифференцируемы. Свойства ц(я, р) и ц'(я, р) существенно зависят от величины параметра усреднения р. Так, асимптотически (при р 0) в точ- ках непрерывности функции ц |ц(я)-^(я, p)l=O(llpll‘+10, а в точках дифференцируемости ц(я) ц'(я, р)11 = О(ИрИа)< С другой стороны, увеличение параметра р приводит к усилению сглаживающего действия операторов усреднения. Если g(x) = V/z(x) и, следовательно, т/(я, р) в р), то дифференцирующий оператор называется потенциальным. Далее будем предполагать, что это условие выполнено. Можно было бы вместо поиска максимума функции^ т)(гг) . использовать тот или иной регулярный или поисковый алгоритм поиска максимума функции ц(я, $) при некотором Р>0, но прямое вычисление ц(я, р) или р) потребовало бы много- кратного вычисления функции тр Более целесообразно исполь- зовать несмещенную статистическую, оценку ц'(я, р); где N > 1, (J»l, ♦ TV)— независимые реализации случай- ного вектора, имеющего распределение с плотностью р(хк р (х) > 0 при всех х е х е X . Для сходимости с вероятностью 1 алгоритма #п+1 хп *4“ yn+iTj(*^n, Pn? X} < достаточно требовать выполнения условия А, сформулированно- го в п. 1, для функции Т|(я, р) и условия р„ -> р (п-> «>), а схо- дится этот алгоритм к точке яр, в которой ^яц(.гр, р) = 0. Из свойств операторов усреднения вытекает, что при малых р точ- ка яр достаточно хорошо оценивает одну из точек я*: Vt](x*) =» «0. Если в рассмотренном алгоритме положить II [М 0, то этот алгоритм становится поисковым алгоритмом отыскания точки я*: ,7ц(я*)=0, и для его исследования можно применить ре- зультаты, сформулированные в п.' 2. Заметим, что в этом случае, для того чтобы обеспечить сходимость алгоритма, прихо- дится налагать условия гладкости на ц(я). Кроме рассмотренной задачи планирования экспериментов по поиску экстремума недифференцируемой функции регрессии, 838 k 1 • i=l J
сглаживание функций путем рандомизации переменных исполь*» зуется при построении алгоритмов поиска максимума многоэкст- ремальной функции (см. § 4.4) и функции, определенной на дискретном подмножестве, являющемся подмножеством R* (по-» следняя задача заменяется на задачу поиска экстремума гладкой функции, заданной на Rft; полученное решение рассматривается как приближенное). 5. Метод крутого восхождения. Метод крутого восхождения (Метод Бокса — Уилсона) разрабатывался и применялся для ре- шения задач оптимизации реальных объектов и процессов, и поэтому имеет специфические особенности, хотя и может быть рассмотрен с общих позиций (саг. п. 2). Суть этого метода состо- ит в том, что последовательно проводятся небольшие серии эк-» спермментов (вычисляются значения случайной величины у в специальным. образом определенных точках факторного прост- ранства которые организуются так, чтобы по результатам проведенных экспериментов можно было легко оценить градиент функции регрессии в некоторой точке. В направлении оценки градиента проводится еще несколько экспериментов, после чего выбираются условия проведения следующей серии. Так дости- гается область экстремума, в ,которой обычно 'планируется серия экспериментов с целью оценивания коэффициентов квадратичной модели истинной зависимости ц в окрестности точки экстремума, Предположим, что выбрана точка xQ « X, которую без огра- ничения общности можно считать началом координат (х0 == 0), м в окрестности этой точки строится линейная модель b0 + ^Vn(^) « bQ + 6^(1) + .. t + bhx<h> (xT=Gr(1>, x^Y). Необходимо оценить градиент Vt](^0) 6Л)Т< Если проведены эксперименты в точках xlf xN (N>kH + 1), то оценка МНК b = (Ьо, ..., Ьк) коэффициентов * Ъ = (i0,.. • • bh) имеет вид (см. § 1.2) Ъ = (^)-^тУ, где В методе крутого восхождения план проведения серии экс- периментов выбирается таким образом, чтобы он был симметри- чен относительно центра проведения эксперимента, т..р. < * ~ ’* 5=1 339
11 ортогонален, т. е. N 2^п^-° = о, t^l, i, l = i,...,k. 5=1 Если план | «=« {#1, * w £Л} выбран в таком виде, то информаци- онная матрица FTF диагональна, и вычисление вектора b не пред- ставляет затруднений. Если каждый фактор х{1\ ..., xw варьировать на двух уров- нях: х{г) = (fy > 0 выбираются из априорных соображений), то N N . у(х}), b^N'^aT^y^), t = j=i j=i В качестве плана экспериментов в каждой серии обычно выби- рают полный факторный эксперимент или дробные реплики от пего [671. После того как построена линейная по параметрам модель, можно с помощью F-критерия проверить ее адекватность (см. § 1.2). Естественно, это можно делать лишь в предположении, что при любых Xi, х2, ... из X случайные величины ytxj (i = *» 1, 2, ...) взаимно независимы и нормально распределены со средними ц(я\) и одинаковыми дисперсиями о2 < <». f Для того чтобы определить центр проведения новой серии экспериментов, в методе крутого восхождения обычно (см. также пп. 6, 7) в направлении оценки градиента VT](a:0) выбирается последовательность точек Vi<=X U = l, 2, ...), расположенных на равном и достаточно малом расстоянии друг от друга, вычис- ляются y(Vi) % (i ==t,.2, ,.J) до тех пор, пока не выполнится не- равенство y(Vj) y(v^i). Точку принимают за центр прове- дения новой серии экспериментов. Решение о том, что достигнута область экстремума, обычно (см. также п. 7) принимается на основании построенной квад- ратичной модели и малости нормы оценки градиента. Поскольку метод крутого восхождения является типичным поисковым алгоритмом, для анализа его сходимости можно ис- пользовать общие утверждения, сформулированные в §§ 1, 2 и п. 2. 6. Выбор длины шага в поисковых’алгоритмах. Предположим, что проведена серия экспериментов в окрестности точки хп = О и выбрано направление дальнейшего' подъема из этой точки. По- лупрямую, на которой будет выбираться х=хп+ь запишем в параметрическом виде: х-kt, где К -= (Хп " k “11/2 -1. Если производится движение в направлении оценки 6 = (д1? ... 340
9„'bJT градиента функции т) в точке хп — <\ то ^“fo/llill, t—’ ' расстояние от х до 0. Пусть задана некоторая возрастающая последовательность чисел ti (f=l, 2, ...), зависящая, возможно, от номера серии экспериментов. Обозначим y{i) = у(М{), т](0 == ц(АЛ) (г = 1, 2,...). Самое простое и наиболее распространенное при расчетах на ЭВМ правило выбора нового центра х экспериментов состоит в том, что полагают х=М{ (см. п. 2). При использовании метода крутого восхождения^ обычно используют другое правило: вычис- ляют yki) (i = 1, 2, ...) до тех пор, пока не выполнится y(j+. 4-!)<£/(/) и полагают Далее4 рассмотрен несколько бо- лее сложный, но и более естественный способ выбора длины шага в поисковых алгоритмах. Предположим, что для любых х{ (г = 1, 2, *..) из X случай- ные величины e(xi) = у(хд — т)(Ж,) взаимно независимы и имеют одинаковое распределение с непрерывной функцией распределе- ния F(u) (w^R1), , Положим ' . ’ ’ ' ‘ li = min{f= 1, 2, 1) < у (Л)}. Требуется определить: уменьшение вычисленного значения у произошло из-за случайной ошибки или вследствие того, что ц(Х7<+1) < T](Wi). Другими словами, требуется дискриминировать две гипотезы: где — такое, что т^— п(О = Л (Л<0). для ди_ скриминации этих гипотез проводится еще несколько экспери- ментов на прямой х = Положим у(ц +i) — y(it). При каждом i = 1, 2, ... гипотеза принимается, если отвергается, если щ а и проводится новое наблюдение в точке если а < щ < Ь. Здесь а < 0, b > 0 — числа, значения которых будут определены ниже. Если гипотеза отвергается (это означает: считаем, что функция ц в выбранном направлении начала убывать), то пола- гаем х ~ Ktiv Если гипотеза принимается, то считаем, что I/Ui + 1) < y(it) благодаря случайной ошибке, а функция ц в выбранном направлении пока увеличивается, и поэтому продол- жаем наблюдать z/(i) до тех пор, пока не выполнится неравен- ство k ytiz + 1) < y(iz\ iz>k. ♦ 341
Теперь нужно провести дискриминацию двух новых гипотез: : Г| (Kt) < m2, где m2 — ц (f2) = А. Процедура проверки гипотезы совершенно такая же, как и гипотезы . Последовательная проверка гипотез и проведение экспери- ментов в выбранном направлении продолжается до тех пор, пока для некоторого /»1, 2к, не будет отвергнута гипотеза (определяемая аналогично гипотезам H(q\ #q2)). При заданных' значениях а и Ъ вероятность ошибки первого рода (отвергнуть гипотезу Н^\ когда она верна!) не больше чем а (а, Ъ) = Р < а | ит <Z 0} +, + 2 -Р {л < 14 < fe, ' i — 1, . ♦ *, I — 1, а < иJ Н^\ ur <Z 0} =з l~2 ' =f ? (0)/F. f (о» + у •—CO где F ♦ F (p) J- F (v— u)dF(u). Аналогично, вероятность ошибки второго рода (принять гипо- тезу Hq\ когда она неверна) не.меньше чем В(« Ы Л ГЛ0 - + *)] Il-F (» + *>)] dFM " —oo Пусть Nj.tj — l, 2, ..J—число экспериментов, необходимых для проверки гипотезы Н^\ N — общее число экспериментов, требуемых для принятия при некотором / = 1, 2, гипоте- зы Hi\ Предположим, что ENi^EN^ при всех г = 1, 2, ♦•., и распре- деление случайной величины е(х) = 8 симметричное, т. е. Р{г < < и} == Р{е > —и} для всех и > 0. При возрастании Id и Ь вероятности ошибок первого и вто- рого родов уменьшаются, но увеличивается среднее число экспе- риментов, необходимых для проверки гипотез. Если в качестве критериев для выбора величин а и Ъ выбрать следующие: А) aIaI П яЙ>Т, ' ( fi=l ) }°° (<•)] А П Hi | минимально при выполнении А), 342
где число у >,0 произвольно и задается априори, то следует по** дожить а = — Ь, где Ь = min {d > 0I77 * F(—d) > (2у)_1}, Условие А) состоит в требовании проведения в среднем не мепее у экспериментов в выбранном направлении при условии, что функция ц в этом направлении возрастает. С другой сторо- ны, если ц убывает, то число экспериментов, необходимых для выявления этого (для принятия гипотезы Н[з) при некотором j = 1, 2, ...), должно быть минимальным. В этом состоит усло- вие Б). При решении реальных задач в зависимости от имею- щихся вычислительных ресурсов следует выбирать у от 10 до 30. 7. Выбор направления подъема в методе крутого восхожде- ния. Критерий для определения почти стационарной области. Предположим, что проведена серия экспериментов и с помощью метода наименьших квадратов построена оценка Ь = (Ь1, ..., ^)г градиента функции ц в точке х. Обычно при использовании метода крутого восхождения в качестве направления подъема из точки х выбирают направление, совпадающее с этой оценкой. Это обосновано тем, что в указанном направлении функция ц в среднем возрастает наиболее быстро. Однако за счет наличия случайных ошибок функция ц в этом и любом другом выбран- ном направлении может не только медленно возрастать, но и убывать. Поэтому представляет интерес и другой критерий вы- бора оптимального направления подъёма: максимизация вероят- ности того, что в выбранном направлении функция rj возрастает. Пусть е == (е1? .ек)т — вектор-единичной длины (ете=1), а функция ц в точке х непрерывно дифференцируема. Тогда ц в направлении вектора е возрастает в том и только в том случае, когда eTV-r|Cr)>0. Поэтому вероятность того, что в точке х фуп- жция ц в направлении е возрастает, будем записывать как Р{е^ф)>0}. Предположим, что для любых Xi (/=1, 2, из X случай- ные величины 8Ыву(х<)т!)Ы независимы и имеют нормаль- ное распределение «Со средним 0 и одинаковой дисперсией о2. Предположим также, что градиент V-rj(xl) оценивался по резуль- татам N > п + 1 экспериментов в точках с координатами х^} 0 = 1, . 7 = 1, к) и информационная матрица Фишера М с элементами mej = о“2 2 Л Z = 1,•11, к, . г=1 невырождена. Тогда (я)>0} == max Р (%) >0} = Т {у^^МЬа^, е: е^е=1 в* = Mb/^М Ь], е*— вектор, на котором достигается 343
максимальное значение, t ________Г((7У^-/с)/2)_____ f Ул (JV-^-l) Г ((TV - к - 1)/2) J есть функция распределения Стьюдента с N — к — 1 степенями свободы, N / fe Оо = N~l 2 (у (*j) - S —X j=l \ i=l есть оценка остаточной дисперсии. Таким образом, вектор е* = || Mb определяет направлен ние подъема из точки х, наилучшее в том смысле, что вероят- ность возрастания функции ц в этом направлении максимальна. Получающийся алгоритм экстремального планирования явля- ется псевдоградиентным, а условия его сходимости те же, что и условия сходимости обычного метода крутого восхождения (см. п. 2). При планировании экстремальных экспериментов важна уметь вовремя определять то множество Хо с с R\ в котором достигается искомый локальный максимум функции ц. Если гипотеза о том, что в точке х X функция ц стацио- нарна (т. е. ^ц(х) = 0), справедлива, то распределение стати- стики есть ^-распределение Фишера со степенью свободы числителя — единица и 7V— к — 1 степенями свободы знаменателя. Поэтому множество Хо можно считать почти стационарным, если max G (х) < где 0<а< 1, FltN-k-ita — 100(1 — а)-процентное значение* ^-распределения с 1 и N — к — 1 степенями свободы, а — задан- ный уровень доверия. t Почти стационарное множество можно определять также на основе построения полиномиальной модели второго или треть- его порядков изучаемой зависимости в некоторой подобласти X [67]. 8. Симплексный метод. Симплексный метод широко исполь- зуется при экспериментальной оптимизации. Его суть состоит в том, что движение* к точке максимума функции ц, заданной на X = Rft (&>!),' осуществляется 'последовательным отражением вершин симплекса. к-мерным симплексом называется. многогранник, образован- ный (к + 1)-й точкой (вершиной), не принадлежащей одновремен- но ни одному подпространству меньшей размерности. Симплекс называется регулярным, если расстояния между его вершинами равны. 344
Регулярные симплексы с длиной ребра L > 0 строятся сле- дующим образом. Введем матрицу размера кХ (к+ 1); -0 0 . . . 0" Рк Як * • • Як Як Рк' • • • Як -Як Як • • • Рк- где ____ ____________________ ’‘=гЙ(/4+1-'1)’ + >+*-«). Координаты хц (г = 1, ..., А, / = 1, Л+1) вершин (j = == 1, ...» Л+1) регулярного симплекса с вершиной xt в начале координат определяются строками матрицы А. Координаты вер- шин регулярного симплекса с центром в начале координат опре- целяются строками матрицы г-г1 ~Г2 -гз • • • - rh-i ~rh~ ~Г2 - г3 • ~ rh-i - rk 0 *2 - г3 • • • - rh-i 0 0 0 ' : 'o’ где п = L(2i(i + 1))~1/2, R< = Li''42(i + 1))-1/2, i = 1, ..., к, т\, Ri — радиусы вписанной и описанной сфер для i-мерного регулярного симплекса с длиной ребра L. Наиболее простым симплексным методом является последовав тельный симплексный метод, в основе которого лежит зеркаль- ное отражение регулярных симплексов относительно граней, противоположных вершинам, в которых значение случайной ве- личины у наименьшее. . Основные правила работы этого метода на n-м шаге (п>1) состоят в следующем. 1°. Отобрать наименьшее значение yt из уи ..уА+1, изме- ренных в вершинах симплекса Sn-i. Построим новый симплекс Sn, заменив точку xh в которой было вычислено уь новой точкой хь координаты которой пересчитываются по формуле fe+i х'ц = 2к~г У хц — (1 + 2Л“1)хн, г = .♦ к. 5=1 2° Если результаты применения правила 1° приводят к тому, что последовательность симплексов начинает вращаться вокруг точки, соответствующей некоторому наибольшему значению ут (возможно, обусловленному ошибкой), то после к + 1 опытов на- до прекратить применение правила 1° и повторить .опыт в ука- занной точке. 3° Если значение случайной велиины У/, вычисленной в но- вой точке симплекса 8П1 оказалось снова наименьшим, то надо 22 п./р, с, М. Ермакова 345
прекратить применение правила 1° и вернуться к симплексу Sn-i; отобрать вершину Xj со вторым наименьшим значением у и зер- кально отразить симплекс .б’п-i относительно грани, противополож- ной Xj (для этого надо воспользоваться формулой из правила 1°). Теоретически последовательный симплексный метод не схо- дится к точке максимума функции гр Богатый же практический опыт по использованию этого метода для поиска максимума од- ноэкстремальных функций показывает, что с его помощью уда- ется достаточно быстро отыскивать область максимума (и отсле- живать ее, если функция ц нестационарна) при решении многих задач (в том числе при проведении промышленных экспериментов), в которых измерение контролируемых переменных х^Х может проводится с ошибкой, а случайные величины г/, вычисленные в разных точках х, могут быть зависимы между собой и зависеть от времени. Ограничения типа неравенств при проведении симплексного поиска учитываются очень просто: вершины, не удовлетворяю- щие ограничениям, отбрасываются. Важным свойством регулярного fc-мерного симплекса с коор- динатами Хц (i==»l, .;к + 1, / = 1, ..., к) является то, что он может быть легко достроен до регулярного (Л: + 1)-мерного по следующему правилу: xitn+i = хй> (г — 1, ..., Л+1), .r0,*+i-r заданное значение нового (к + 1)-го параметра, Л+1 + ~ (Л 4“ 1) 4“ • - i=l где xoj (j = 1, ;.., к) ~ координаты центра исходного симплек- са в момент его достройки, Aft+i = Rh+i + rh+i = L(k + 2)1/2 X X (2{k + 1))“1/2. f Указанное свойство позволяет вводить в ходе оптимизации. новые управляемые параметры без потери получен- ных результатов. Длина шага поиска в последовательном' симплексном методе равна расстоянию между центрами соседних симплексов и равна ЬУ2(к2 + k)~i/2. Математическое ожидание смещения центра сим- плекса вдоль направления наискорейшего подъема за один шаг равно Л1/6Н(&+1)(&4~2)J“1/2. Это, в частности, показывает, что последовательный симплексный метод является псевдогради- ентным. Постоянный размер симплекса не обеспечивает одновременно высокую скорость движения симплекса в начале поиска и точ- ность отыскания экстремума в его конце. Поэтому обычно раз- меры симплекса уменьшают с ростом номера шага. Ниже приведена типичная модификация последовательного симплексного метода, в которой размер симплекса на каждом шаге уменьшается. После отражения симплекса на n-м шаге вы- бирается вершина, в которой случайная величина у приняла наибольшее значение, начало координат переносится в эту точ- 346
Ну? после чего координаты остальных вершин преобразуются по формуле * j = Lnxtj, $ = ...jA-t-l, j = 1, значения случайной величины у для вершин нового симплекса не вычисляют, а используют ее значения в соответствующих вершинах старого (исключение составляют те вершины, в кото- рых в течение к + 1 предыдущих шагов значения у не вычисля- лись). Последовательность Zn, определяющая закон изменения длин ребер симплексов, и длина ребра начального симплекса выбираются из априорных соображений о желательной скорости движения симплекса на начальном и конечном этапах' поиска. Симплексный поиск обладает тем свойством, что изменение длины шага в направлении псевдоградиента > 0) однозначно связано с изменением интервала варьирования, или длины «пробного шага» (ап). Отсюда следует, что условие ТпОп’1“^0’ (п->оо), необходимое для сходимости (в различных смыслах) поисковых алгоритмов при наличии аддитивной случайной ошибки, не выполняется; следовательно, алгоритмы симплексно- го поиска не обладают теоретическим свойством сходимости. Литература к § 4: [1, 17, 18, 43, 49, 50, 67*, 69, 78, 96, 169], 22* 347
ГЛАВА 15 ПЛАНИРОВАНИЕ ОТСЕИВАЮЩИХ ЭКСПЕРИМЕНТОВ § 1. Основные понятия 1. Введение. Во многих явлениях, зависящих от большого числа факторов, бывает естественно предположить существова- ние небольшого числа значимых факторов (или эффектов), ко- торые управляют явлением, а влияние остальных факторов счи- тать пе превосходящим ошибку эксперимента. Эксперименты по поиску значимых факторов называются отсеивающими, а теория их планирования называется теорией отсеивающих экспери- ментов (ОЭ). Одна из возможных математических моделей ОЭ такова. Име- ется функция отклика цСг, 0),« зависящая от управляемых пере- менных (факторов) #=(#(1), x(t)) и неизвестных параметров 0 = (01, .. м 0m). Предполагается, что функция отклика зависит от s<t значимых факторов zr(A,t)(l Х£ < £, i=l, .s), при т. е. существует такая функция rj(x(Xi), ..., 0)t что справедливо равенство ц(я, 0) = ц(zUi), ..., я(Хв), 0). С помощью возможно меньшего числа N экспериментов (т. е. вычислений функции возможно, со случайной ошибкой) в точках х1у ..., xN надо найти номера значимых факторов. Если последние найдены правильно, то обычно не представляет труда найти хорошие оценки для 0. Таким образом, целью ОЭ является, получение решения об истинности одной из большого числа обычно равноправных гипотез о номерах значимых параметров. Как правило, не имеет смысла говорить о близости найден- ных номеров к истинным: представляется необходимым точно определить номера значимых факторов. Поэтому цель теории ОЭ отличается от цели теории планирования экспериментов по оце- ниванию параметров, где нужно определить приближенные оцен- ки истинных параметров. Если N и Xi (i = 1, ..., N) зависят от результатов предшест- вующих экспериментов, то планирование называется последова- тельным. Если х^ ..., Xn заданы до начала проведения экспери- 348 4
центов, то планирование называется статическим. Несмотря яа большее число необходимых экспериментов, статическое пла- нирование часто предпочтительнее с точки зрения приложений, поскольку оно позволяет, например, проводить эксперименты параллельно. Иллюстрацией последовательного планирования ОЭ является следующая процедура, широко используемая в медицинской практике. Вместо индивидуального обследования крови большой группы доноров для выявления редкого заболевания исследуют- ся вместе небольшие группы. Проверка позволяет обнаружить наличие хотя бы. одного больного в группе. Полному обследова- нию далее подвергается только кровь доноров из тех групп, в которых было обнаружено заболевание. Во многих случаях * указанная процедура требует значительно меньшего числа ана- лизов, чем процедура полного индивидуального обследования. 2. Различные постановки задач теории ОЭ. Формализованная схема примера с групповыми проверками крови допоров выгля- дит следующим образом. Занумеруем допоров числами от 1 до N, эксперименты (состоящие в проверке па наличие заболевания крови некоторой группы доноров) — числами от 1 до Р, будем го- ворить, что i-й эксперимент дал результат щ = 1, если замечено наличие инфекции в i-й группе, и r|f = 0 в противном случае. Статическим планом эксперимента называется матрица SS размера N X состоящая из элементов Xi(j)(i = 1, ..., N, j = 1,... ..t\ где = 1, если в i-м эксперименте проверялась кровь j-ro донора, х^]) = 0 в противном случае. Пусть число больных доноров равно s а их номера есть ..., X8)(Xi<...<X8);. Л($, ^-—совокупность всевоз- можных номеров X. Результат эксперимента (вычисляемый без случайной ошибки) щ есть функция от «(хИЛД ..., я\(Х«)), а именно, логическая' сумма (дизъюнкция) величин я\(Х1), • JO, если все x^Xj) равны 0 (j ~ 1,..., s), ~ (1 в противном случае. По указанной причине рассмотренная модель называется дизъюнктивной. Последовательное планирования для дизъюнк- тивной модели рассматривается в п. 3.5. Статический план называется сильно разделяющим над A(s. i), если различным X^A(s, i!) соответствуют различные на- боры результатов щ, ..., т^. Скоростью сильно разделяющего , плана 3S называется 7?(^) = In t/N. В приложениях полезно также рассмотрение определяемых аналогично сильно разделяющих планов и над другими множе- s ствами‘(в частности, над М (s91) == (J A(i, t)). Естественно искать i=l сильно разделяющие планы с наибольшей скоростью R при про- чих равных параметрах (см. п. 3.4), 849
Приведенная схема может быть обобщена в трех направлен пнях: а) возможна другая зависимость тц от яДЛ) (в частности, интересна аддитивная модель, см. п. 3.6); б) существуют случай- ные погрешности при измерении тр, которые независимы в раз- личных экспериментах и определяются вероятностями ИуЛцЛ где принимают конечное число значений из множества Y => =={#{1), •••» */(n)h в) исследуются планы, обеспечивающие восста- новление X с достаточно большой вероятностью. Общая модель ОЭ естественно описывается на языке теории информации. Пусть имеется 5 передатчиков сообщений, у каж- дого из которых имеется множество UJ ={1, 2, .t} возможных сообщений, посылаемых с помощью общего для передатчиков кода т. е; Ш X 0-матрицы с элементами я//) е S3 = {0, 1} (i=l, .TV, 7=1, ..., О, по каналу связи с множественным доступом без памяти (КМД), задаваемому вероятностями AjyJtfK, asJ приема дискретного символа yi^Y при переда- че в i-й момент времени двоичного s-набора чисел (слова) == («и-, ..dai) соответственно первым, вторым, ..., s-м по счету передатчиком (рис. 2). Предполагается, что распределение Рв(1) существенно зависит от каждого из символов на входе, и после- довательно во времени слова искажаются независимо друг от друга. В статистических приложениях код 35 называется планом, а Х=(Л1, ..., Х8) есть s-набор номеров существенных факторов, они кодируются с помощью плана 35 в «-набор столбцов а(1) = «Л), ..., a(s)=z(X«) плана и затем в столбец значений функ- ции отклика тр = ц(ян, а&Ь. Распределение измерений yt обычно определяется переходными вероятностями ЛО/Лтр) = Pe(^tkiUi), *.Xi(Ae)). Ввиду того, что номера существенных факторов не совпада- ют, между сообщениями различных передатчиков имеется зави- симость (которая почти исчезает при $-►<», «т= const). Это об- стоятельство, а также идентичность кода для всех передатчиков, отличает приведенную схему от рассматриваемых в теории информации, . - Рис. 2.~Схема капала с множественным доступом (КМД) при совпадении ко- дов х для всех источников. 350
Для дизъюнктивной модели соответствующий КМД обладает симметрией: при перестановке индексов у символов на входе распределение выхода не меняется. Из-за этого нельзя восстано- вить источник передачи того или- иного символа. В общем случае обозначим через па результат действия элемента л из группы перестановок Se индексов 1, s на 5-набор а входных симво- лов а = («1, , • ,, и через лЛ — результат такого же действия на 5-набор (слово) сообщений X^[ds=={(Xi, Пусть Sos — подгруппа все элементы которой оставляют пеиз-’ менпым распределение па выходе КМД. Через Ж(X) далее обо- значен класс смежности U? по Soe, содержащий X, а через Э** = ^NXt — множество (N X ^-планов. Решающая функция приемника есть отображение- d: X Ошибка происходит, если при передаче слова as е= ИР оказывается, что dtcH?* yWJM. . Вероятность ошибки обозначается через ^(a, d). 8 i Предположим, что на hJf (или па ЗИ(5Д)= и [£] ) задано априорное вероятностное распределение Q. Тогда средней веро- ятностью ошибки решения d для кода 35 является _ - , d, Q) - 2 Q (a)> (a, %, d) = EqP (a, %, d)s Код называется (у, d, Q)-кодом, если ^(^, d, Q) < 7. Изве- стно решение, минимизирующее ^(<2?, d, Q) при фиксированных SS и Q — это решение 6 == argmax Ps (у] x (XJ, *.., x (Zs))*« максимальной апостериорной вероятности. В тех случаях, когда используется решение б и равномерное распределение Q* на UP, их символы будут опускаться (например, ^(^) обозначает ^(^, б, С*))- ’ • Назовем 7-разделяющие планы , сильно разделяющими, если 7 = 0 и слабо разделяющими, если 7 > 0. Наиболее изученным в теории планирования ОЭ является - важный вопрос о том, как должно зависеть N от t и других па- раметров модели, чтобы существовал 7-разделяющий план, при- чем 7 стремилось бы к нулю при хотя бы как угодно медленно. Соответствующие результаты формулируются в тер- минах предельной скорости C(s) слабо разделяющего плана. Существуют 7-разделяющие планы с любой скоростью R<C(s) и сколь угодно малой 7 (даже убывающей экспоненциально по N\ в то время как f N . 1 ' liminf и Д(^)>С(5) >а>0. t->oo I . i=l ' J • 351
Эти результаты обобщают исследования пропускной способности КМД в теории информации. Различные выражения для C(s) приведены в пп. 2.1, 2.2. Полностью аналогичная ситуация с у-разделяющими планами имеет место для более сложной зада- чи, где про семейство распределений Рв(-|-), определяющее КМДТ известно лишь, что оно принадлежит некоторому классу 9 (воз- можно, бесконечному) и требуется восстановить как число су- щественных факторов, так и их номера. Соответствующая пре- дельная скорость Сд>приведена в п. 2.3. В приложениях желательно заменить решение 6, требующее при больших s астрономического объема (порядка Г) операций при его построении, на более просто вычисляемое решение хотя бы за счет некоторого увеличения числа экспериментов при той же вероятности ошибки. Некоторые результаты, полученные в этом направлении, описаны в п. 2.4. Приведенные в ип. 2.1—2.4 факты иллюстрируются в п. 2.5 на важном для приложений примере отсеивания для линейной регрессионной модели. В § 3 приведены границы для скорости сильно разделяющих планов в общем случае планирования ОЭ для измерений, вычис- ляемых без случайной ошибки (п. 3.2), более точные значения указанных границ и способы построения сильно разделяющих планов для дизъюнктивной, аддитивной и однородной (возника- ющей при s — 1) моделей. § 2. Слабо разделяющие планы 1. Предельная скорость отсеивающего плана при известном распределении измерений. Ниже сформулирован в некотором от- ношении исчерпывающий асимптотический результат о предель- ной скорости отсеивающего плана для известного КМД. Для формулировки этого результата требуется ряд новых понятии. Пусть случайная строка £ <= S3* имеет распределение •Р₽ (£ = *) = Рр W = Пр (* (/)), 5=1 где р(1) = 1 — р(0) = [J. При фиксированных посылаемом слове 10 = (1, ..., s) Шв и КМД Р8(-| •) —распределение Рр на ЧУ ин- дуцирует совместное распределение Рр на 8* X У: Рр(£ = х, Ъ = у) = Pp(a:)P,(i/lx(A,o)). Далее под U(r, s) понимается множество неупорядоченных под- *• в-1 множеств {р} <= [$] мощности card {v} = г; U (s) — J U (r, s); r=0 {p}c = H\{v} для {v}^U(rts)\ x{v}—набор значений я(г), со- поставляемых величинам I е {р}. Условная информация по Шен- нону определяется так /Р{И==/рр(СД^1;}||{£;Г). 352
где для случайных векторов £, | и случайной величины х, имею- щих совместное распределение Р, /Р(х Д£|£) есть математическое ожидание EPln(P(xl£, £)/Р(х1£)). Пусть С(з) — цена игры, в которой один из игроков выбирает (О, И, а второй — {р} U(s) с платежной функцией JfAv} = Д{р} / card {г}, т. е. С($)= sup min Ju{p}== max min f (p} dv (v}9 . це1)*{г}ед v€=u*(S)0gdJ где A* — множество вероятностных мер, заданных на борелев- ских подмножествах -множества A. {р} = J Jp {р} dp (0). D Положим у (#,*,(?) = min l(t,R) = — Inу(N,t)/N при R = In t/N. Справедлив следующий результат, являющийся основным в данном пункте. 1) При R{3S) > C(s) имеет место оценка SP(32) > а(2?) > 0. 2) При R№?) <C(s) выполняется неравенство lim Kt. R. Qt)> t~>oa > 0 для любого Qt. , • Таким образом, для Qt = Qt асимптотически при t -*• °° ско- рость R = C{s) является пограничной: существуют планы с любой меньшей скоростью при любом априорном распределении Qt. для которых вероятность ошибки экспоненциально мала: QA ехр {—Nl*}. I* >0, тогда как при R> С(s) и Q == Q* вероятность" ошибки больше по- ложительной постоянной (и даже стремится к 1 при £->«>). Значение предельной скорости сохраняется и для априорных распределений, близких по вариации к равномерному на [d8, на- пример для равномерного на [d8\Af, сагйА<=о(^) (£т>оо). Это вытекает из следующего общего утверждения. Если расстояние по вариации между априорными распределе- ниями Qt и Qt на [d8 есть о(уА при t-+ <*>, то QA-разделяю- щий план является (yt ^^-разделяющим. причем yf ~ yf при t оо, 2. Ординарные модели. Величину C(s) предельной скорости, вообще говоря, довольно трудно отыскать аналитически (и даже численно). Это проще сделать для ординарных КМД, под кото- рыми понимаются такие КМД, для которых минимаксная страте- гия по {у) есть пустое множество. Для ординарных Моделей CCs) = max/e{0}/$. 0€=D 353
Одно из достаточных условий ординарности таково: КМД Рч( | •) ординарен, если для любых параметра рандоми- зации £ е D и перестановки л = (лъ ..л8) е Ss справедливо не- равенство 1(и, л) I(u + 1, л) для всех н = 1; .5 — 1, где Ни, л) ==/(£ Л £(ли)1£(л[и — 1])), л[и] = (ль ..Ли). Приведенное условие обычно нетрудно проверить для реаль- ных КМД. В частности, с его’помощью доказаны следующие ут- верждения. . < ‘ 1) Если КМД симметричен, т. е. Ра(-|а) = Ря6|ла) для любой перестановки л 2„ то он ординарен (в частности, КМД дизъ- юнктивной модели ординарен). 2) КМД без шума, для которого в Я («) = аг + 3 ai (m°d 2) i=2 не ординарен при 5 > 3. 3. Предельная скорость отсеивающего плана при неизвестном распределении измерений. Для приложений важно изучение пре- дельной скорости отсеивающего плана -в ситуации, когда, кроме номеров значимых факторов, нужно определить их число г, если известно, что г С з. Эта ситуация описывается следующей общей схемой. Пусть дана совокупность переходных вероятностей Р?Цу\Ь(г)), yt=Y~[yw, ...,ум}, А — {(г, a} \rE[s],aE^r} и для любых двух пар (r<, at) е A (n С г2), найдется такое вход- > (r2) d("2) ( । к(гг)\ иое слово о , что распределение на выходе г>2 ₽ ) не сов- падает хотя бы с одной из мер Рг^ (• | ^ ^)’ ,в которой набор Ь( образован пропуском г2 —п компонент слова 2\ Пусть 2 (г) = {л 6= 2г | За, а' е : ^в)( • | &Г)= (• I yb е $г). Для • простоты предполагается, что 2(г) = 0 для всех г— 1, ..., 5. Ре- тление d определяется как отображение f&XY ->U [flr. Реше- Г=1 ние ошибочно, если оно не совпадает с передаваемым словом. Че- рез Q) обозначается средняя по распределению Q вероят- • ность ошибки. Пусть на Л задано априорное распределение QA со строго по- ложительными вероятностями QA(d, г) > 0, a Qa есть соответст- вующее ему распределение на тройках (а, г, Шг) при фиксирован- ных а и г равномерное на [t]r. ТоТда 5а = max min min min {н} a£Ar играет роль пропускной способности «составного» КМД» 354 . .
Следующее утверждение аналогично основному результа- ту п. 1. При R№7)>Ca имеет место оценка ^д) >«(/?)> О, а при < СА выполняется неравенство Hm Z(f, R, ()д) >0. 4. Предельная скорость отсеивающего плаца при пофакторном анализе. Решение 6 максимальной апостериорной вероятности предполагает сравнение вероятностей Р8('\хСк)) для всех что требует числа операций не менее чем порядка ts In t При вполне реальных для приложений величинах t 10\ s ~10 име- ем Г In £ ~ 1040, что недоступно ЭВМ. Поэтому на практике целе- сообразно использовать упрощенные процедуры построения реше- ний, пусть даже за'счет некоторого увеличения числа измерений при тех же вероятностях ошибок. Примером упрощенной проце- дуры построения решения является пофакторный анализ. Идея пофакторного анализа состоит в проверке для каждого фактора отдельно гипотезы о его значимости, считая действие других значимых факторов «случайным фоном». Пюфакторная ре- шающая функция f определяется следующим образом:' . /(£?, */) « (/(1), •./U)), Л/) = F(x(f), у), . - ’ s где F(x,y) = 5 ^1дА, 1а — индикатор множества А, k—o Ал = |(^, г/) |4U, !/)>max^ztt(fc),max!/),/се Ao = 58WX^N\U Afct fe=l h (x, y) = In [P (£ - у I g (k) = x) /Р (£ = y)]f uu(k) — заданные пороги. Таким образом, F(x(j), у) есть решение максимальной апосте- риорной вероятности, принимающее значение к <=[$], когда у-й фактор считается fc-м по счету значимым, и нуль, если незначи- мым. При этом влияние остальных значимых факторов па выход у считается случайным фоном (что естественно при случайном выборе плана). Решение правильно,, если передаваемое слово w неотличимо ют (/’41), /“Чз)), где f~4k) = {n\f(n) ~к}. Положим Sk(y,n\z)= S Ps(y\a), T}k(y,n\z) Ps(y\a), Cnjhz где {s ) # | Я/t = Z, 2 m=l J {s \ a j aj — 1 “ir Ufa — Zj S Um — n Ip m=l ) 355
Справедлив следующий результат: . max {R & (х, f, Q*) < у) > L (1 + о (1)), t -> оо, при lln 7I ==о(1п£) и Хи(А) = JV/ц* (£,£(&)) —U где и — некоторое положительное число, а ц* — то распределение из Z)*, на котором достигается минимакс в определении Lt 1 L = max min f /3 (£, g (A)) dp (p). ueJD* q Величина L > 0, если выполнены у/ловия: a) , • 10) gfe J (•, • 11) для всёх k = 1,...»s; h 6) Tjh (.'. |0)^ Tjh (., -| 1) для всех k,j = 1, если КМД не симметричен по as и ah. Условие а) является условием неотличимости действия всех значимых факторов от случайного фона при пофакторном анали- зе; это условие выполняется, например, если КМД Рв(-1-) симмет- ричен, т. е. 20s = Sa. Условие б) является условием неразличимо-* сти между собой влияния значимых факторов при пофакторном анализе. Условия а) и б) выполнены, если ранг матрицы Р9(у\а) размера 2е X card У равен числу несовпадающих строк. 5. Случай билинейной регрессионной модели. Пусть при задан- ном плане 35 = (xt(a)) измеряются величины тц =2 0а^{ (а), при- * а=1 чем среди неизвестных параметров 015 ..., 0f лишь s<t отличны от нуля, т. е. значимы. Такая модель (рассматриваемая без оши- бок измерений) часто встречается в приложениях и называется билинейной. Ниже приведен последовательный план поиска зна- чимых факторов этой модели, а также предельная скорость ста- тического отсеивающего плана. Последовательная стратегия поиска значимых факторов по- зволяет находить их вместе с их числом $ не облее чем за (5 + 1) log2(s + Г) + log2 £ — ($ — 1) ldg2(e/2) измерений, если величины 0Ь ..., 08 значимых параметров били- нейной модели удовлетворяют следующему условию несоизмери- • s мости: из условия 2 0гег = 0 для некоторых е» G {—1, 0, +1} сле- дует, что Сг = 0 при любом i = 1, ..., $. Стратегия поиска состоит в следующем. С помощью первого эксперимента, в котором все факторы находятся на верхнем * s уровне, определяетсятц=2 0 г- Во втором измерении на верхнем 1—1 уровне располагается первая половина факторов (если число рас* 356
сматриваемых факторов нечетно, то подразумевается, что берет- ся целая часть половины числа факторов). 1 Эксперименты делятся на два класса. Эксперименты второго класса разбиваются на несколько частей (циклов), но до, между и после них могут проводиться эксперименты первого класса. Пусть после эксперимента первого класса или последнего эксперимента цикла, а также после измерения щ факторы разби- ты на г + 1 подмножеств G™ (г = 0,1, ..., г, г 1)„ причем G™ не содержит значимых факторов, а в остальных есть хотя бы по од- ному значимому и известны - 2 0j = Oin), г = 1, В следующем эксперименте на верхнем уровне располагается пер- вая по порядку половина факторов из G" (г — 1,.,., г). Если Яп+1 е R (oin), .. ., <т<п)) = «iGin>, 8j = 0,1], U=1 J то значимые факторы из G” находились на нижнем или верх- Gn-j-1 , r, 7 . х i (г == 1, ..г), которые будут содержать вдвое меньше факторов, чем G”; .эксперимент, состоящий в измерении цп-ы, относится в этом случае к первому классу. Если же rjw+1 ф 2?(<4Л\ то указанный эксперимент является первым из цикла экспери- ментов второго класса. Целью цикла является определение того, в каких из множеств (i = , г, j == 0,1) есть значимые факторы и вычисление 2 0m. Здесь есть множество фак- me^f торов из Gj, находящихся на уровне /. , В среднем каждое измерение в приведенной процедуре дает порядка $ битов информации, одновременно уменьшая приблизи- тельно вдвое неопределенность в знании номера каждого из зна- чимых факторов. Поскольку каждое измерение статического плана не может уменьшить более чем вдвое неопределенность в знании номера каждого значимого фактора, предельная скорость отсеивающего статического плана для билинейной модели не может быть боль- ше 1. Приведенная последовательная стратегия такую скорости обеспечивает. Оказывается, что этой предельной скорости можнЬ достичь и статическим планом, если величины значимых коэффи- циентов 0Ь ..., 0в несоизмеримы над полем рациональных чисел. Это следует из более точной, чем приведенная в п. 3, оценки для предельной скорости отсеивающего плана: если N > s +log2f(J — 5 + D/7I, то существует план со средней (по равномерному априорному рас- 357
пределению на A(s, f)) вероятностью ошибки, “меньшей у. Пре* дельная скорость статического отсеивающего плана для билиней- ной модели при квантованных измерениях (конечный выходной алфавит) может быть получена из результатов, сформулирован- ных в п. 3» § 3. Сильно разделяющие планы 1. Модель Реньи. Удобную общую схему, в которую включа- ются задачи теории ОЭ при отсутствии ошибок измерений, пред- ложил Реньи в работах, до теории поиска. Пусть надо найти эле- мент X* из множества А = {Х4, ..Хп}’ путем проведения следую- щих опытов: в f-м опыте выбирается и измеряется функция /(<)(Х*) из некоторого класса функций с тп > 2 значениями. План поиска определяется матрицей ЗВ, i-я строка которой есть /^-(гчхэ,..., /<i>(xj). План называется отделяющим элемент X е А, если для любого X €= А, X X выполнено /(X) /(X), где /(X) — столбец с номером X матрицы ЗВ. Если план ЗВ отделяет X, то код элемента X (стол- бец /(X)) не совпадает ни с каким другим столбцом матрицы ЗВ и, следовательно, X можно однозначно восстановить па результа- там измерений. Существование сильно разделяющих планов эквивалентно вы- полнению следующего условия разделяемости системы ST: систе- ма называется разделяющей на А, если для любых X, р из А существует /(<) ST, рдя которой /(1)(Х) =/= /(г)(ц). В качестве примера сведения схемы ОЭ к схеме поиска ниже рассмотрена проверочная матрица X линейного кода, исправляю- щего 5 или меньше ошибок в t кодовых столбцах. Эта матрица со- ставлена из чисел 0, 1, .*q — 1 и обладает тем свойством, что все покомпонентные суммы пб модулю q любых совокупностей m s кодовых столбцов, называемых m-синд ромами, должны быть различны. Если обозначить через Аш совокупность всех не- упорядоченных тп-наборов целых чисел и (l^u^t), ввести .•8 . А =? U Ат и составить матрицу ЗВ из всех синдромов, отвечаю- ш=1 щих различным неупорядоченным m-наборам то ЗВ — сильно разделяющий статический План. Класс ST состоит из функций на А, получающихся суммированием по модулю q из не- которой функции на А1. План ЗВ полностью определяется матри- цей X, которая называется матрицей, порождающей план.' При сведении задачи ОЭ к схеме поиска будут использоваться введенные в примере обозначения. Пусть сначала функция от- клика т](х) зависит только от факторов (управляемых перемен- ных) Xi, ..., xt, которые могут принимать не более конечного числа I фиксированных значений, и ц зависит лишь от m< t сво- их аргументов с неизвестным пт-набором индексов X = (Х4, •.Xm)r т|(я) = цОг(Х)). 358
Обычно будут рассматриваться два случая: <5известно, что т = $; 4^0,: известно, что 0 < т $. Разумна также постановка, в которой задано априорное рас- пределение для т. ~ В случае симметричной ц и б?ов множество Л то же, что и в примере; для той же ц и <S * имеем Л = Л\ Для полностью несим- метричной ц (т. е. меняющейся при перестановке любых двух ар- гументов) множество Л — совокупность упорядоченных 5-наборов. Несколько более сложно сведение к схеме поиска задачи по- иска значимых факторов при неизвестной функции ц из неко- торого конечного класса функций. Здесь планом поиска является совокупность всех синдромов, относящихся ко всем функциям из данного класса. Аналогично поступают в ситуации, когда функ- ция отклика зависит от неизвестных параметров, причем здесь можно рассматривать равномерцо (по всем величинам значимых факторов) 7-раз деляющие планы. Последовательные планы, в отличие от статических, имеют две характеристики 'длительности: максимальное №ах и среднее А, по априорному распределению число экспериментов плана. Ос- новная задача теории поиска — в данном классе ST найти мини- мальную длительность 7VT или (^v) ^-разделяющего соот- ветственно статического и последовательного плана и сам план. Так как точно решить эту проблему можно лишь в редких случа- ях, представляет интерес нахождение асимптотически (при оптимальных в том или ином умысле планов. Пусть (Фл, PN)' — некоторые ансамбли планов, т. е. множества Фл планов с N строками из и некоторые распределения P# па них; (X) и (X) — минимальное число строк N, при кото- ром вероятность P# соответственно отделяемости элемента, X и сильной разделяемое™ случайного плана, распределенного на Ф^^ в соответствии с мерой PNi не меньше 1 — у; — шахЛ^0 (X) . . ^ел 0-1,2). Следующие неравенства позволяют сводить вопросы существо- вания ^-разделяющего статического плана к изучению асимпто- . тики Ny) 0 = 1, 2): inf N(2\ o<v<i Статистический смысл различия между и состоит в следующем. Если взять случайный план из строк, то с вероят- ностью Р<2), не меньшей 1 — 7, полученный план является сильно разделяющим, т. е. если его использовать многократно" при поиске различных элементов X, то он каждый раз дает однозначный ре- зультат. Если же зафиксировать случайный план ЗВ из строк, 359
то при каждом следующем независимом использовании плана Я? вероятность однозначного восстановления случайного элемента X* с равномерным априорным распределением на Л не меньше 1 — у, но вероятность того, что при всех сразу применениях плана ответ однозначен, может быть меньше 1 — 2. Однородные модели. Большая часть исследований по тео- рии поиска, технической диагностике и др. ориентирована на са- мый простой из рассмотренных ранее случаев — поиск одного значимого фактора ($ = 1) известной дискретной функции. Кроме ~ простоты, этот случай часто адекватен реальной ситуации: напри- мер, в технической диагностике систем без избыточности надо искать обычно один дефект, после появлений которого система выходит из строя, одновременное появление двух дефектов мало- вероятно. В случае поиска одного значимого фактора возможны значи- тельные усиления нижних оценок и теорем существования, при- веденных в § 2. Пусть 5^ состоит из всех тп-ичных функций; веса @(Х) упоря- дочены, т. е. ()(Х) > @(р) при X > ц. Тогда Л\ = [logmM + 1, где = minfAJ lai—целая часть.а (а [a]+ = I J целое, Если распределение Q равномерное, то получающееся отсюда асимптотическое равенство iogm С (1 — Y )n] (n -> «>) сущест- венно точнее как нижних, таге и верхних оценок для общего слу- чая ОЭ. Класс состоящий из Rt функций, называется однородным па Л, еели для любых X и ц из Л число функций / е для ко- торых /(Л) =* /(ц), есть Я2, не зависящее от X и ц. Для однородного класса ЗГ автоматически выполняется усло- вие: число функций для которых /(X) =/(ц) =/(v), не зависит от выбора различных X, ц, v из Л. Кроме того, R^Ri > > (п — 2)/[2(п — 1)1. Пусть P3T(N. п)—ансамбль планов, строки которых состоят из независимых реализаций равномерно распределенного на ST случайного вектора, и P(N, п, ЗГ) — средняя вероятность ошибки по ансамблю P&"\Nr п) и равномерному распределению QCk). Тог- да для однородного класса ЗГ (п - 1) {RJR^ - С1-г (R^/Rf < Р (N, п, ST) < (п - 1) (P2/Pt)N и средняя по ансамблю P&"(N, п) максимальная вероятность ошибки не бодыпе Cn-i (7?2/^i) • Ниже рассмотрен нетривиальный пример однородного класса, где задача построения сильно разделяющего плана решена до конца. __ Пусть и ЗГ\ — классы двоичных функций на Л={1,..., п}, принимающих значение 1 ровно к раз и соответственно не более к раз; Мп, к) и Мп, < к) — минимальное число строк сильно разделяющего плана для этих случаев (сами эти планы будут на- 360
зываться (N, п, к)- и (2V, п, ^к)-кодами). Из симметрии, не ог- раничивая общности, можно считать, что к п/2. Справедливо следующее: а) УУ(п, fc)==./V(n, ' б) Ш к) > 12(п - 1)/(* +.1 j]+ = N*(n, *); в) Мп, к) = W*(n, к) при п > к(к + 1 )/2; г) Мп, к) есть решение уравнения Nk = 2 гСп 4- (т + 1) ( п - S Cn) > 7—0 \ Г—О / m m+1 при условии 2 " г—0 г—О Известны также алгоритмы построения (ЛГ,' п, к)- и (ЛГ, и, Cft)- иланов. 3. Границы длины сильно разделяющих статических планов. В основе большинства методов получения нижних оценок для N лежит следующая идея: число опытов не может быть меньше-, чем частное от деления количества информации, нужного для опреде- ления Ji*, на наибольшую информацию, которую можно получить в одном опыте. Пусть сначала — класс всех т-ичных функций. Поскольку число различных столбцов длины ЛГ, равное mN, не должно быть меньше числа гипотез и, то N [logm п]+== N0. Эта оценка спра- ведлива для максимального по X числа опытов последовательного (и тем более статического) сильно разделяющего плана. В обоих случаях эта оценка точна: можно, например, занумеровать числа в тп-ичной системе счисления: X = CIq . .►+ ClNQ—i?7l । 1 А, II в r-м опыте измерять аг(Х*) — получающийся план является сильно разделяющим. Пусть в-титуациях <S & и факторы могут варьироваться не более чем на I уровнях. Простейшая форма нижней оценки для N аналогична предыдущей: ^s: ^>[lnC:/(sln Z)]+; Если функция отклика несимметрично зависит от своих т аргу- ментов (т. е. меняется, если любые два аргумента поменять мес- ти—i тами), то эти оценки можно усилить, подставив (0т== 1=0 вместо С™. Далее рассмотрен Случай «Уз, у >0. Пусть ..., nz) есть число комбинаций аргументов функции gs), при которых 23 п./р. с. М. Ермакова 361
т| принимает значение di (т = 1, ..., тп, если число аргу- ментов, равных bh есть п$ I ] == 1, ..., Z, 2 n;- = s I; \ j=i / ...,£/) = 5 аДп1( Р? ••• Р?. Веса Hi (i« 1, тп) определяют меру л(/ъ, ..рЛ При t -> <*>, х = const, 7 с-1 в случае (£ 8 имеет место асимп- тотическое неравенство у) In card Л —у In у)/ max Н (л (рп ..., pi))t ~ pi,...,pi т где Н (л) — — 2 I*1 яг — энтропия распределения л. В частно- го сти, при у = 0, 0 In 0 = 0, получается нижняя граница длины ста- тического сильно разделяющего плана. Пусть вид функции ц заранее не фиксирован, а известно лишь число s ее аргументов. Пусть для определенности ц принадлежит А8 — множеству из 22 функций от s переменных, принимающих значения в {0, 1}. Для 2V? и Ncy— минимальных чисел экспери* ментов последовательного и статического планов, которые явля- ются 7-раздёляющими сразу для всех ц е Л-8, имеют место сле- дующие неравенства: а> 7V?>log2((l-y)m + 2e; б) N* > ((1 - у) (ln,(0s) - У In 7)/h(2“s). при 7 < е"1, где h(p) = — р In р — (1 -*• р) In (1 — р). Для подкласса GS^AS симметричных функций справедливы более точные неравенства: ‘ .Уу>((1 — y)ln(C’t)— у1пт)/А(1 4- 1/s), Y<e-1; кроме того, при 7V тп In Z/ln (2m/(2m — 1)) существует статический сильно разделяющий план поиска одно- временно функции ц е А8 и набора ее значимых факторов, а так- же последовательный сильно разделяющий план поиска значимых факторов функции ц €= А в со средним числом опытов s log21 + cr где с зависит только от ц. 4. Статические планы для дизъюнктивной додели. Для мини- мальной длины JV(s, t) статического сильно разделяющего плана для дизъюнктивной модели -без ошибок измерений справедливы -362
следующие оценки: W(s, t) =^-a8Is In t + In [(s — 1)!]], тде a. = 1/ln (1 + £• - p*-'), p = (s —l)/$; Ms, t) > K, In id + o(D), f -* K, > (s - 1)2/I21n s]. Величину К, можно найти из рекуррентного соотношения Kt = шах {h (p/s) - vh(l/s)}-\ . Ms = (Ks - K^IK,. 0<v<Ms Оценки сверху для минимальных дЛин статических планов доказываются, как правило, методом случайного планирования и не решают задач реального конструирования (5, ^-планов. Эти задачи являются наиболее важными в приложениях, даже если длины семейства полученных планов обладают худшей асимпто- тикой при t 00, чем верхние оценки. Ниже приведена процедура построения статических планов для дизъюнктивной модели, основанная на существовании полной -системы L из п — 1 ортогональных латинских квадратов порядка п = рг, где р — простое, г — натуральное (см. гл. 12). Сначала строится (zn X п2)-матрица А (т<п), состоящая из чисел f, п. Алгоритм построения А таков: поставим в соот- ветствие столбцам Л ячейки латинских квадратов произвольным, по единым для всех квадратов способом; строкам, начиная с третьей, поставим в соответствие номера представителей систе- мы Л; первые две строки отвечают «рокам и столбцам ячеек; на пересечении строки i и столбца j матрицы А поместим число, сто- ящее в ячейке j латинского квадрата I из L. По определению ор- тогональных латинских квадратов любые два столбца А имеют не более одной совпадающей компоненты. Двоичная (тп X п2)-мат- рица ЗВ строится на базе А путем замены каждого элемента г е А на столбец длины и, все элементы которого равны нулю, кроме r-го, равного единице. Матрица ЗВ является. (5, п2)-планом при s т — 2, причем при т ~ ап(п -*• <»), а < 1, длина этого плана асимптотически всего в а~1 раз больше нижней оценки. Ks In t. 5. Последовательное планирование для дизъюнктивной моде- ли. Сначала рассматривается задача поиска одного значимого фак- тора среди t факторов xh х2, ..xt, если известно, что хотя бы один значимый фактор среди xi9 .,.., xt существует. Предположим, что известна априорная вероятность pj значимости фактора Xj (/= 1, ..., t) и Pt > р2 > ... рь Пусть tvi, ..., wt— ансамбль весов (т. е. априорных веро- ятностей факторам быть значимыми), Ъ — длина ветви двоичного дерева, ведущей к концевому узлу соответствующему весу Wi. Средней длиной двоичного дерева с ансамблем в'есов {wjUi на- зывается I ~ 2 Оптимальным двоичным деревом называет- г=1 ся двоичное дерево с наименьшей средней длиной. Алфавитным 23* 363
деревом называется двоичное дерево, которое, будучи нарисовано на плоскости без пересечений^ имеет такой вид, что концевые узлы, соответствующие весам i/д, располагаются слева направо по мере возрастания номера г. Оптимальный последовательный план нахождения одного зна- чимого фактора соответствует оптимальному алфавитному дереву для ансамбля весов 1 —П(1 —Р;)] Piil(l — Рз) j=l J • j—1 с концевыми узлами xit Пусть теперь £ = pi = p U == 1, 2, ...), т. e. имеется задача поиска одного значимого фактора в бесконечной биномиальной совокупности факторов. Минимальная длина последовательного плана в данном случае равна (q = 1 — р) а+ 1+ qm^/(i - qm), где т — такое целое число, что + qm > 1 > qm 4- ^тп4'1, а и Р — целые числа, удовлетворяющие соотношениям т = 2а + О С 0 < 2а. Далее рассматривается задача поиска всех значимых факто- ров в конечной биномиальной совокупности факторов (т. е. t < и вероятность того, что фактор Хг значим, равна р). Через HR(t) обозначено среднее число групповых проверок (экспериментов) в последовательном плане R. Если q^ (У5 — 1 )/2 = q0? то HR(t) > t для любого последова- тельного плайа 7?, а при q > q0 существует последовательный план R с HR(t) < t. Нижняя граница для HR(t) такова: HR(t) > -tip log2 р + q log2 q). Рекуррентные соотношения H (n) = 1 + min {q^H (n — m) -4- (1 — (w, я)], G(m, n) = l+ min |[(g’ — gm)/(l — X x G (m — i, n — i) + [(1 — g’)/(l — Q,m)] G (i, n)]r Я(0) = 0, G (1, n) = H(n — i) определяют последовательный план экспериментов R, для кото- рого НМ = n, G(m, пУ = н — [pqm~4kl — gw)], и кото- рый при q q0 является оптимальным. Здесь п < t, НМ — среднее число экспериментов, необходи- мых для определения всех значимых факторов в биномиальной совокупности факторов размера п, G(m, п) — среднее число экс- периментов решения той же задачи при дополнительном условии' что среди т факторов (1 т п) существует хотя бы один зна- чимый. 364
Пусть имеется t факторов xit xt и известно, что ровно 5 из них значимые (ситуация ^Г8). Всего существует C&t способов вы- бора s значимых из t факторов. Поскольку каждый эксперимент делит множество всех s-наборов значимых факторов на две части, указывая какому подмножеству принадлежит искомый набор, где N — минимальная длина последовательного плана. Один из возможных последовательных планов для решения за- дачи 8 состоит в следующем. В первом эксперименте для про- верки выбираются первые 2г факторов, где л определяется из не- равенства 2г t/s — 1 < 2г+1. Если такого i нет (в случае t<2s\ то полагается i = 0. Если результат эксперимента равен нулю, то среди первых 2’ факторов нет значимых, и эти факторы из рассмотрения исключаются. Если результат эксперимента равен 1, то среди первых 2г факторов есть по крайней мере один значи- мый; выделим его i проверками методом деления пополам. Второй эксперимент аналогичен первому, только ищется либо s значимых факторов среди £—2* фактбров, либо $—1 значимый среди t — 1 факторов. Остальные эксперименты проводятся ана- логично. Пусть Л^,8 обозначает максимальное число экспериментов по- строенного планаГ Тогда: a) —1; б) если t = s + к (0 < А $), то Nt, s = s + к — 1; в) если t — s(2f + 1) + к • 2i + I (г, к, I — целые числа, 0 к < < Z < 21), то Ntt з = U + 2)s + к — 1. Из а) следует, что в ситуации <S описанная процедура опти- мальна. ' Приведенная процедура с той разницей, что г выбирается из условия 2* + 1)/$] — 1 < 2i+l, может быть использована и в ситуации (т. е. для поиска значимых факторов, если извест- но, что их не больше s). Максимальное число экспериментов Nt^ в указанной процедуре находится по формуле Nt, 8 = Ni+lt 8. 6. Аддитивная модель. Аддитивной называется билинейная мо- дель, в которой все значимые параметры равны 1. Если информа- ция о числе значимых факторов отсутствует, то асимптотическая (при оо) нижняя граница для минимальной длины сильно раз- деляющего статического плана равна 2t/log21, причем эта грани- ца достигается на планах регулярной конструкции. В ситуации 02 существуют сильйо разделяющие последовательные планы с максимальной длиной порядка 41og6£ U->«>), в то же время длина статического плана не может быть меньше у log2t. Таким образом, уже. при s — 2 статическое планирование требует в а > 1 раз больше опытов, чем последовательное. Литература к гл. 15: [2, 13*, 14, 22, 56].
ГЛАВА 16 ДИСКРИМИНИРУЮЩИЕ ЭКСПЕРИМЕНТЫ § 1« Постановка задачи 1. Т-критерий. В предыдущих главах, связанных с планиро- ванием экспериментов, весьма существенным было предположе- ние о том, что отклик ц(^, 0) задан. Во многих практических за- дачах экспериментатор может лишь надеяться, что отклик совпа- дает с одной из функций-цДя, GJ, ..., цДя, 0V). Возникает необ- ходимость отыскания функции тр(х, 0Д, совпадающей с истинной зависимостью. При этом предполагается, что такая функция име- ется среди указанных и функций. Рассмотрим вначале случай двух конкурирующих моделей 2). Хотя он и является простейшим, однако при его исследо- вании используются те же идеи, что и в общей ситуации. Будем предполагать, что отклик скалярный и х s X с R\ Итак, Угг « TbUi) + etr, где T}M(z). совпадает либо с 01и), либо с ц2(#, ц2и), индекс «и» отмечает истинные величины, ошибки eir предполагаются незави- симыми с нулевым средним и единичной дисперсией. Пусть в соответствии с гл. 1 1 0jW = Arg inf 2 Pi U/i — где n ri N = 2 ru yt = Pir, Pi .= rJN, i=l _ r=l fijг — некоторое компактное множество из R* J (/ = 1, 2). Предположим для определенности, что верна первая модель, т. е.. ци(я?) = Ц1(я, 01и) и 01и является внутренней точкой множе- ства Qt. План эксперимента будем выбирать так, чтобы максими- зировать величину п , • ^12 (Sn) — 2 Pi [Ци (^i) — II2 (xi> 02и)]2» •i=l - i ‘ - 366
. где 02И = Arg inf 3 Pi [Пи <^i) — П2 (^i, o2)l2. Функционал T?2(S) называется параметром нецентралъности. При нормально распределенных ошибках и использовании ^-критерия (или F-критерия в случае неизвестной дисперсии ошибок) мощность теста по проверке справедливости первой мо- дели является монотонно возрастающей функцией от параметра ATJ2(In), который представляет собой нижнюю границу парамет- ра нецентрального ^-распределения, описывающего случайную величину п ri V* (02N) ”2 2 Q/ir Цг (^i> 02и)]2 г=1 г—I при линейной параметризации второй модели. Для нелинейных моделей это утверждение носит асимптотический характер. Как и в гл. 2, наиболее конструктивные результаты могут быть сформулированы для непрерывных планов, когда дискретностью мер можно пренебречь (N> j == 1, 2)* План В* = Arg sup Л°2 (В), (1) где У®2 (В) = inf f (Ии (*) — Пг (-г» 9г)]2 В (dx) e2eQ2 X называется 7?2 -оптимальным. При законе распределения ошибок, отличном от нормального; или использовании оценок (такие оценки встречаются при робаст-» ном оценивании) вида L N 6jN = Arg inf 2 PiF [Z/i — ГЪ (хй 0j)l OjeQ; i=l в качестве параметра нецентральности (или «меры» расхождения между моделями) становится необходимым использовать функ- ционалы Лг (В) = inf [ ? [т]„ (х) — д,- (х, 02)] £ (dx). (2) е2еаг х План |* = Arg sup 7\2(|) (3) называется Т ^-оптимальным. Экстремальная задача (3), естест- венно, включает (1) как частный случай. Чтобы подчеркнуть, что план строится для определенной модели (цДл:, 9iH) = ц/я)) 367
п определенных значений параметров (01 = 0m), иногда будет ис- пользоваться термин локально Т ^-оптимальный план, 2. Минимаксные и байесовские планы. При Т12-оптимальном планировании подразумевается, что верна первая модель и смысл «введения 7\2-оптимальных планов тот же, что и локально опти- мальных планов в нелинейной регрессионной задаче. Для практи- ческих целей бодее полезными являются минимаксные планы: В* = Arg sup inf inf f F [цх (x, 0J — ц2 (x, 02)] %(dx). (4) £ 02Gfi2 X • При рассмотрении нескольких конкурирующих моделей мини- максный план определяется как решение экстремальной задачи В* = Arg sup min Djn (В), где 4 n, Djn (B) = inf inf f F [iq,- (x, 0j) — гр, (x, 0n)] %(dx). епейп Если экспериментатор располагает априорным распределением параметров 0, и априорными вероятностями моделей Но/, то имеет смысл рассматривать байесовские оптимальные (7\-оп- тимальные) планы: , t в* = Arg sup 6 (В), . (5) V „ , 6 (£) = 2 j Тjn (£, 0;) FFoj (L 0j) = inf f F [Tjj (x, 0j) - цп (X, 0n)] g (dx)< ♦ § 2. Свойства T -оптимальных планов f. Необходимые и достаточные условия оптимизации. Предпо- ложим, что: а) Функция F(z\ введенная в предыдущем параграфе, моно- тонно возрастает, когда z > 0, монотонно убывает, когда z < 0, и непрерывна на множестве Z = {z|z = г|и(л?) — ц2и, 02), х X, 02 Q2); . б) Множества X и Q2 компактны и функция ци(ж) и ц2(^, 02) непрерывны на X X Q2; в) Экстремальная задача (2) имеет единственное решение 02. При выполнении этих условий оказываются справедливыми следующие утверждения. 368
Существует по крайней мере одно решение экстремальной за- дачи (3). Множество оптимальных планов выпукло. Для оптимальности- плана необходимо и достаточно выполне- ние неравенства — ПгС*, е*)]< ^(S*) VxeX. Если Jg*(dx)>0, то функция F [т]и (ж) — т]2(ж, Gj)] достигает своей верхней границы на X. Пусть в дополнение к условиям а)—в) выполняется условие г) функция Ици(:с) — T]2U, 62)] выпукла по 02 еЙ2 для всех х е X. Тогда существует оптимальный план, содержащий не более чем т2 + 1 опорных точек. При линейной параметризации функции т|2(я, 0г) для Ti2 -кри- терия условие г) всегда выполняется. 2. Связь с задачей чебышевской аппроксимации. Следующее утверждение лежит в основе ряда методов построения Г12-опти-* мальных планрв. Пусть выполнены условия а)—г) и условие д) функция F(z) симметрична. Тогда опорные точки оптимального плана принадлежат че- бышевскому экстремальному ~ базису X* задачи наилучшей ап- проксимации (6*, X*) — Arg inf I ци (х) — ц (х, 02) |. в2ея2 Пусть, кроме того, выполнено условие е) функции т)2 (•г*, 02) H'E(z) дифференцируемы в окрестно- сти точек 0*, z* = Ци(^*) — Ц2(я*, 0*) Тогда существует план £♦, который оптимален в.случае любо- го критерия, удовлетворяющего условиям а)—ё), причем опти- мальные меры являются решением системы уравнений где - 6{ = Ци (#*) — 0), |6{| = const, m+1 Pi>0’ » = 1, + г=1 Пусть множество X задается ограничениями вида gt(02), при- чем функции gi(0.2) дифференцируемы в окрестности точки 02, и пусть /(б*) = {]'1ft(0г) — 0} —множество индексов активных ограничений, которое содержит q элементов. Тогда In Pi = I di |/2 I I, n = m2 + i—q, 369
где J rid —абсолютное значение определителя матрицы: ' (х*> 0) SQ Мп (0) ае е=9*’ I =- Г,*. i — 1, i + 1, ... w2 + l — <h пе/(0*)к (6) При линейной параметризации hQ2^R результаты, при- веденные в предыдущих пунктах, остаются в силе, если все 0а имеют конечную норму (обычно это требование приводит к един- венностй 0*). Так, если ц2 (х, 02) = 02/2 (z), 'где /2(^) — линейно независимые и непрерывные функций на X, то / m2+i ' Pi = ldil/S 141» ' (7) / 5=1- _ * ' где |dj —абсолютное значение определителя матрицы 3. Свойства минимаксных планов. Результаты предыдущих пунктов могут быть использованы при анализе экстремальной за- дачи (4). Для этого в пп. 1, 2 необходимо положить ци(я) = 0 и заменить повсюду ц2(л:, 0г) на ц(я, 0) = 01) — ц2(^, 0г). Например, легко убедиться, что при выполнении очевидных модификаций условий а)—г) всегда найдется минимаксный план, содержащий не более чем + т2 + 1 опорных точек. Если при линейной параметризации первая и вторая модели содержат т общих базисных функций, то указанная граница понижается до + тп2 — т + 1 точек. При выполнении модификаций условий а)—д) опорные точки минимаксных планов принадлежат чебышевскому экстремально- му базису задачи наилучшей аппроксимации нуля: inf "sup |т] (z, 0)|, еео х=х где Q = Qi X Q2< 4. Линейная параметризация. Расмотрим случай линейный конкурирующих моделей и P-критерий: F(z) = z2. Для этого случая • ..в т}к& ej) = ejMwa)eif - (8) где Мт (£) = м}} (S) - Mik (&) (g) Mhi (£), X план предполагается регулярным для всех моделей. Формула (8) 370
позволяет получать аналитически решения целого ряда задач планирования дискриминирующих экспериментов. Так, при байе- совском подходе (см. (5)) 6 (5) — 2 tr \М(ft) (£) + 0oj0oj)L i j=l где , 0oj = f 0^ (#b), Doj = f (0; - 0oj) (0j - %j)TST (dty). 4 '°j Экстремальная задача *|*.= Arg sup 6(£) может быть теперь рас- смотрена в рамках теории, изложенной в гл. 2. Для этого доста- точно ввести матрицу (для простоты ограничимся двумя конку-. рирующими моделями) -миа) Мп©‘ м22©_ * и обратить внимание на выпуклость б(£) по-М. Иногда полезно комбинировать байесовский и минимаксный подходы и рассматривать экстремальные задачи типа £* = Arg sup inf б (I), / где — распределение, принадлежащее некоторому множеству Пусть ^5-1-множество распределений с заданной обобщенной дисперсией |DOjl = С$. В силу положительной определенности матрицы inf tr [Z>0J + MoJ = tr Dtf. * (9) Так как |Л/| 1/m|Z)|1/m и равенство достигается при не- котором Z>, то inf tr Mw (В) DOj = т5с- m} | Mw (£) Doi и (8) принимает вид • ' ' v " ,1 , g* = Arg SUp 2 Л0;7П^/тз | MW (g) j1' £ Данная экстремальная задача может быть решена с помощью ме- тодов, изложенных в гл. 4. Экстремальная задача (4) при линейной параметризации и ог- раничениях вида Qj ~{0j\ It при двух конкури- рующих моделях также сводится к задаче планирования с 371-
выпуклым Критерием оптимальности. Действительно, [О П / >М£), - - 2J где ЛГ(£) = _-М21 (?) ^22^)1’ матрицы Мл(£) У, к — i, 2) определены в пояснениях к (8), Х(|) наименьший корень уравнения |М(?)-ХЛ| = 0, |Ч °] 0 А2 * А = 5. Некоторые специальные случаи. При нарушении условий в) необходимым и достаточным условием /'^-оптимальности плана является существование такой вероятностной меры р*, что Ф12(*Л*)<Л2(£*) где Ф12 (*, I*) = f F (Пи О) — 1)2 (*, 02)1 И* (^2)» а2(5*) й2(|*) — множество решений задачи (2) при £ = £*. Изменения в формулировках остальных результатов из п. 1 очевидны. При нескольких конкурирующих моделях вместо задачи (3) приходится иметь дело с экстремальной задачей: %* = Arg sup min /==2, щ (10) ё з В этом случае необходимым и достаточным условием оптималь- v ности плана является существование таких у* >0, S 7 5 = 1» 5=2 что ^1 £*) < min Т13 (£*) Ух Х> где ^1(^,5*)^ ‘ S 7; (я) — Т); (я, 0j)b 3=J(W /(£♦) — множество решений экстремальной задачи min 7\(£*), з 6. Некоторые частные случаи. Пусть Х=[ — 1, l'],Q2 = R % ТИ2 r|i (я, 01) = 01# 2t (х» ®г) = 2 02а^а1» Экстремальный чебьь а=1 шевский базис для задачи [ т2 _ inf sup ОрГ™2 — 2 02а#а е1,о2хе-х а=х 372
известей из классической теории .аппроксимации: । * тп -|-1 — i ) X* ~ Ixi = cos —-------л, г = 1, ,.., т2 4- 11. ( \ j Оптимальные меры опорных точек в соответствии с п. 2 равны соответственно р* — (2тп2)-1, ..., р* = >п21, ..., рХ2+1 — (2т3) \ Данный результат полезно сравнить с § 3.1. Пусть й2 = {0|(0ГС)2 1), где С некоторый- вектор из R’n, г]1(ж) = 0, = 0T/(^), F(z) = г2. Тогда — sup inf QTМ (£) 0, 6 (e^c)2^i где . ‘ ’ MQ)= \j(x)f(x)^dx). , X Замечаем, что inf 0гЛ/(£)0 =• СТМ~'(Ъ)С, поэтому построение Т-оп- (0тС)>1 тимальпого плана эквивалентно построению плана, минимизирую- щего функцию СТМ~Ч^)С. Это дополнительно объясняет резуль- таты § 3.4. ' § 3. Построение Т-оптимальных планов 1.Итерационная процедура первого порядка. Результаты § 2 ведут к целой серии процедур численного построения оптималь- ных планов. Это могут быть либо традиционные алгоритмы опти- мального планирования, изложенное в гл. 4, либо алгоритмы на- илучшей чебышевской аппроксимации. Возможны также их со- четания. Опишем итеративный алгоритм для построения Г-оптималь- ных планов (индексы для краткости опущены) для двух конку- рирующих моделей. Алгоритм 1. 1) Имеется план Отыскивается точка xs+1 = Arg max [sup ф (x, gs) — Т"2 (£s), Т°2 (|s) — inf ф (x, |s)l, где ф(я, £s) = (г)и(^) ~ т)2(я, 02S)]2; Xs — множество опорных точек плана gs, 028 = Arg inf f [ри (х) — т]2 (х, 02)]2 (dx). 02^й2 X 2) Строится план gs+1 = (1 — ys)gs + y4(rs+1), где ys = as, если <p (rs+1) — Z?2 (gs) >0, и = — max {as. pis/(i — pis)} в против- ном случае. В качестве последовательностей {«J можно выбрать {ср. с гл. 4): оо оо а) .2 “s = 00, 2 а,2 < оо; / S —0 «=0 б) as = Arg sup Т?2 [(1 — а) + а£ (^+1)]. 0<а<41 373
— J© Данный алгоритм в рамках условий а)—в) сходится по функцио- налу, т. е. lim Zj2 (|s) == Т°2 (£*), а из последовательности 3->оо всегда можно выделить последовательность {|8}, сходящуюся к одному из оптимальных планов. Если не выполняется условие в), то этап 1) должен быть мо- дифицирован в соответствии с п. 2.5, а именно: xs+1 = Arg max finf sup <p (x, |s) — — ^12 (is), T12 (is) — inf min <p (x, |s) M’S эс=.Х$ где принадлежит множеству вероятностных-мер, определенных на множестве [ [Пи (ж) — Пг (я, 0)1 is (<&r) — X — f F [т|и (x) — т]2 (x, 02J)] £e (dx) < 6 X Для модифицированной итерационной процедуры имеет место б-сходимость lim (Ц inf Т?2 (£) 4-6. - S->oo I В некоторых случаях скорость сходимости алгоритма 1 может быть заметно увеличена. Например, при Ц2 (я, 02) = 02/2 (я), где /2(я) — вектор линейно независимых непрерывных функций на X, на каждом шаге итерационной процедуры удобно воспользоваться формулой (7) для нахождения оптимального набора мер со- ответствующего системе опорных точек плана §8. Приведенная процедура годится для любой задачи планирования (для любого ^(и)), если выполняется условие а)—д). В ином случае следует положить <pU, &s) =Е[ции) — 02в)Г — T($s), 02S = Arg inf f F [ци (x) — ц2 (x, 02)]^s (dx). 02еЙ2 X 2. Процедуры, связанные с теорией аппроксимации. В тех слу- чаях, когда планирование дискриминирующего эксперимента сво- дится к задаче чебышевской аппроксимации, естественно обра- титься к методам Валле-Пуссена, Ремеза, представлению задачи чебышевской аппроксимации в виде задачи линейного программи- рования и т. п. Первые два метода в литературе обычно излага- ются при X с R1» ‘ ' 374,
Интересно отметить, что численная процедура из предыдуще- го пункта может быть использована для отыскания чебышевского экспериментального базиса, причем сфера ее применения шире, чем упомянутых выше классических алгоритмов. 3. Последовательные планы. Построение локально Т-опти- мальных планов проясняет лишь общую структуру плана - ди- скриминирующего эксперимента (ни номер истинной модели, ни истинные значения соответствующих параметров не из- вестны). Построение байесовских и минимаксных планов трудоемко в вычислительном аспекте и, вообще говоря, также позволяет выяс- нить лишь общую структуру плана, поскольку существенно зави- сит от исходных предположений об априорных распределениях или ограничений на параметры. Поэтому в тех экспериментах, для которых это возможно, целесообразно обратиться к последо- вательному планированию. Одна из простейших последовательных процедур при двух конкурирующих моделях состоит из следующих операций. Алгоритм 2. 1) Имеется эксперимент из N наблюдений, проведенных по плану Находятся оценки 01Я и 02N: • N 0^ = Arg inf 5 F h/i — T) (Xi, 0j)], 7=1,2. i=l 2) Отыскивается точка зд+i = Arg sup F [ц (x, 0itf) — ц (x, 02jv)]< X6I 3) (7V + l)-e наблюдение проводится в точке xN+l. * При решении экстремальных задач на первом этапе можно столкнуться со случаем, когда решение не единственно. При этом функция, максимизируемая на втором этапе, должна усложниться в соответствии с п. 2.5. Для практики это несущественно, так как начальный план можно выбрать невырожденным относительно обеих моделей. Асимптотическая оптимальность последовательной, процедуры планирования (ср. с гл. 6) следует из сильной состоятельности оценок 0jN, которая имеет место при весьма слабых ограничениях на функции F(z), fj(x, 0) и предельный план (см. гл. 1). Это при- водит к тому, что алгоритм 2 становится при достаточно боль- шом числе наблюдений эквивалентен процедуре численного отыс- кания локально Т-оптцмального плана при as = и отказе от отрицательных а;. 4. Несколько конкурирующих моделей. Пусть* имеется и моде- лей и необходимо построить какой-либо план, удовлетворяющий (40). Аналогом алгоритма 1 является следующая итерационная процедур^. 375
Алгоритм 3. 1) Имеется план |в. Отыскивается xs+1 = Arg max fmin S"P 2 Pj<Pj (*j, £«)» min min <pj (x, £,)], 1 Pj xeXjSJs i<ZJsx<=Xt J где q>,(x, £„) = F[ri„(x) — rij(x, 0,.)], 0j4 = Arg inf f F [tih (x) — ti> (x, 0js)] & (dx), eieai x 2 Pi — 1» J»—множество индексов, для которых SeJs Тц (В«Х min Ти (£,) + 6, J, I 2) Строится план ls+k=(l — TfJ|e+TfiV^e+iX где ys выбирается так же, как и в п. 1, с очевидной заменой проверки знака разни-* цы ф(я, g) — Г°(^) па проверку выполнения неравенств min sup S PjTjU, £s) — min7\z(gs)>0, p xel j^Js ' min min <pj (x, £s) — min Tlt (|s)< 0. 3~J.S XG:XS I При выполнении условий a)—в), распространенных на случай не- скольких моделей, справедливо предельное соотношение lim min Гъ- Qs) = sup min TVj (£) 6. j £ 3 Обратим внимание, что в данном разделе всюду предполага- лась единственность решения для экстремальной задачи: 0* = Arg inf [ F [t]! (x) — (x, 0j)] g* (dx). Невыполнимость этого условия формально ведет к существенному усложнению алгоритма, которого можно избежать за счет подхо- дящего выбора начального плана (ср. с ri. 1). Последовательная процедура для нескольких конкурирующих моделей имеё^Г следующий вид. Алгоритм 4. _ 1) Имеется эксперимент из N наблюдений, проведенных по плану lx. Находятся оценки N 0JN = Arg inf 2 Р lUi — (*!> Oj)l» J = 1, ..., V, OjeQj i=i Отыскивается множество индексов JNl для которых N - _ N 2 F (Ух — (Xi, 0jW)l — 2 F [yi — T]j* (Xi, 0j*:v)] < Nb. i=l i=l 376
2) Находится точка зд+1 = min sup <p.N (ж), pj х^Х J где 2 Л = 1« Л>°» 6,*л) — ть (*» 0jJv)l- jeJ jy 3) (N + l)-e наблюдение проводится в точке xN+l, Последовательность определенная в алгоритме 4, асимпто- тически Т-оптимальна при выполнении условий сходимости соот- ветствующей итерационной процедуры построения^локадьно оп- тимального плана. Литература к гл. 16: [92*—94, 105—108, 143*, 173]. 24 п./р. С. М. Ермакова
ЛИТЕРАТУРА 4. А д л е р 10. П., Маркова Е. В., Грановский Ю. В. Планирова- ние эксперимента при поиске оптимальных условий.— М.: Наука, 1976. 2. Алберт А. Регрессия, псевдоипверсия и рекуррентное оценивание.— М.: Наука, 1977. 3. А л ь с в е*д о Р., В е г е н е р А. Задачи поиска.— М.: Мир, 1982. 4. Б а р д Й. Нелинейное оценивание параметров.— М.: Статистика, 1979. 5. Батищев Д. И. Поисковые, методы оптимального конструирования.— М.: Сов. радио, 1975.' 6. Б р о д с к и й В. 3. Введение в факторное планирование эксперимен- та.—.М.: Наука, 1976; 7. Б р о д с к и й В. 3. О планах Аддельмана — КемпзорпЬ и о планах 4n X X В кн.: Вопросы кибернетики; Линейная и нелинейная wпа- раметризация в задачах планирования эксперимента. М., 1981, с. 52—58. ^Васильев Ф. П. Численые методы решения экстремальных задач.— М.: Наука, 1980. 9. Володин И. II. Нижние границы для среднего объема выборки и эф- фективность процедур статистического вывода.— Теория вероятностей и ее применения, 1979, 24, № 1,'с. 119—129. 40. Вопросы кибернетики. * Математико-статистические методы анализа и планирования эксперимента.— М., 1978. 11. Вопросы кибернетики. Нетрадиционные подходы к планированию экс- перимента.— М., 1981. ' 12. Вопросы кибернетики. Проблемы случайного поиска.— М., 1973. 13. Вопросы кибернетики. Теоретические проблемы планирования экспери- мента (отсеивающие эксперименты).—М.: Сов. радио, 1977. 14. Галлагер Р. Теория информации и надежная связь.—М.: Сов. ра- дио, 1974. 15. Г о р с к и й В. Г., А д л е р Ю. П., Т а л а л а й А. М. Планирование промышленных экспериментов.— М.: Металлургия, 1978. 16. ГрановЬкий Б. Л., Ермаков С. М. О непараметрическом подхо- де к задачам планирования регрессионных экспериментов.— ДАН СССР, 1968, 180, Яг 2, с. 273—275. ' 17. Г у п а л А. М. Стохастические методы решения негладких экстремаль- ных задач.— Киев: Паукова думка, 1979. 18. Д а м б р а у с к а с А. П. Симплексный поиск.— М.: Энергия, 1979. 19. Д е м и д е н к о Е. 3. Линейная и нелинейная регрессия.— М.: Финан- сы и статистика, 1981. 20. Д е и и с о в В. И. Математическое обеспечение системы ЭВМ-экспери- ментатор.— М.: Наука, 1976. 21. Д е н и с о в В. И., 11 о п о в А. А. А-, Е-оптимальные и ортогональные планы регрессионных экспериментов для полиномиальных моделей.— М., 1976. Препринт/Научный совет по комплексной порблеме «Кибер- нетика» АН СССР. 22. Дьячков А. Г., Малютов М. Б. О слабо разделяющих планах.— В кн.: Методы передачи и обработки информации. М.: Наука, 1980. 23. Е р м а к о в С. М. Метод Монте-Карло и смежные вопросы — М.: Нау* ка, 1975. 378
24. Е р м а к о в С. М. Об оптимальных несмещенных планах регрессион- ных экспериментов.—Труды МИАН СССР, вып. III, 1970, с. 252—257. 25. Ермаков С. М., Махмудов А. А. О планах регрессионных экспе- риментов, минимизирующих систематическую ошибку.—Заводская ла* боратория, 1977, № 7, с. 854—858, 26. Е р м а к о в С. М., М е л а с В. Б. Об одном подходе к задаче планиро- вания регрессионных экспериментов при нелинейной параметриза- - ции.— Заводская лаборатория, 1973, № 10, с. 1222—1225. 27. Е р м а к о в С. М., М е л а с В. Б. Теорема двойственности и итерацион- ный метод нахождения /t-оптимальных планов эксперимента.— Вестник ЛГУ, 1982, № 1, с. 38-43. 28. Ермаков С. М., Панкратьев Ю. Д. Смещенные оценки и метод регуляризации.— Вестник ЛГУ, 1976, № 7, с. 27—30. 29. Е р м а к о в С. М., С е д у н о в Е. В. О несмещенных планах регресси- онных экспериментов в конечномерных пространствах функций.— Вест- ник ЛГУ, 1974, № 1, с. 12—20. 30. JE р м о л ь е в Ю. М. Методы стохастического программирования.— М.: Наука, 1976.. . . 31. Ж и г л я в с к и й А. А., Ермаков С. М. О случайном поиске гло- бального экстремума.— Теория вероятностей и ее применения, 1983г т. 28, № 1, с. 129-134. 32. Ж и г л я в с к и й А. А., С е д у н о в Е. В. О методах оптимального планирования регрессионных экспериментов при наличии систематиче- ской ошибки.— Известия АН СССР. Техническая кибернетика. М., 1980г № 2, с. 164—171.— 33. 3 е~д г и н и д з е И. Г. Планирование эксперимента для исследования многокомпонентных систем.— М.: Наука, 1976. 34. Ибрагимов И. А., Розанов Ю. А. Гауссовские случайные про- цессы.— М.: Наука, 1970. 35. II б р а г и м о в И. А., Хасьминский Р. 3. Асимптотическая .тео- рия оценивания.— М.: Наука, 1979. 36. Ибрагимов И. А., Хасьминский Р. 3. О границах качества не- параметрического оценивания регрессии.— Теория вероятностей в ее применения, 1982, т. 27, № 1, с. 81—94. 37. Ибрагимов И. А., Хасьминский Р. 3. О последовательном оценивании.—Теория вероятностей и'ее применения, 1974, 19, № 2Г с. 245—255. 38. И в а н о в А. В. Асимптотическое разложение моментов оценки наи- меньших квадратов векторного параметра нелинейной регрессии.—Ук- раинский матем. журнал, 1982, 34, № 2. 39. И в а н о в А. В., Ц в а н ц и г 3. Асимптотическое разложение оценки наименьших квадратов векторного параметра нелинейной регрессии.— Теория вероятностей и матем. статистика, 1982, вып. 26, с. 41—48. 40. И в а н о в В. К., В а с и н В. В., Т а н а н а В. П. Теория линейных некорректных задач и ее приложения.— М.: Наука, 1978. 41. Карлин С., Стадден В. Чебышевские системы и их применение в анализе и статистике.— М.: Наука, 1976. 42. К а р м а н о в В. Г. Математическое программирование.— М.: Наука,. 1980. 43. К а т к о в н и к В. Я. Линейные оценки и стохастические задачи оп- тимизации.— М.: Наука, 1976. 44. К л е п и к о в Н. П., С о к о л о в С. Н. * Анализ и планирование экспе- риментов методом максимума правдоподобия.— М.г Наука, 1964. 45. Козлов В. П. Об одной задаче оптимального планирования статисти- ческого эксперимента.— Теория вероятностей и ее применения, 1974, 19, № 1, с. 226—230. ‘ ; 46. К о з л о в а Г. А., С а в а п о в В. Л.. Некоторые вопросы оптималь- ной интерполяции случайных полней,— Труды МЭИ, вып. 445, 1980, с. 43—20. 47. Колмогоров А. Н. Теория передачи информации.— М.: Изд. АН СССР, 1956. . • 24* 379-
48. Коробов Н. М. Теоретикочисловыс методы в приближенном анали- зе—М.: Физматгиз, 1963. 49. Коростелев А. П. Затухающие возмущения динамических систем и условия сходимости рекуррентных стохастических процедур.— Тео- рия вероятностей и ее применения, 1979, 24, № 2, с. 298—317. 50. Коростелев А. П. Сходимость рекуррентных стохастических алго- ритмов при гауссовских возмущениях.— Кибернетика, 1979, Яг 4, с. 93— 98. 51. Круг Г. К., Сосу лин Ю. А., Фа ту ев В. А. Планирование экспе- римента в задачах идентификации и экстраполяции.— М.: Наука, 1977. 52. Лаврентьев М. М., Романов В. Г., Ш и ш а т с к и й С. П. Некор- ректные задачи математической физики и анализа.— М.: Наука, 1980. 53. М а л ю т о в М. Б. Об асимптотических свойствах и приложениях ИРДЖИНА-оценок параметров обобщенной регрессионной модели Л— В кн.: Вероятностные процессы и приложения. М., 1982, с. 144—158. 54. М а л ю т о в М. Б. Нижние границы среднего объема выборки последо- вательно управляемой выборки.— УМН, 1982, 37, Я® 2, с. 209—210. 55. М а л ю т о в М. Б. Замечание о планировании для бесконечномерной области действия.— В кн.: Планирование оптимальных экспериментов. М.: МГУ, 1975, с. 164—166. 56. М а л ю т о в М. Б., М а т е е в П. С. Планирование отсеивающих экспе-' риментов при несимметричной функции отклика.— Матем. заметки, 1980, 27, Я® 1, с. 108-127. 57. М а р к о в а Е. В., Е ж о в а Л. Н. Прямоугольники Юдена и связанные с ними планы.— М., 1979. Препринт/Научиый совет по комплексной про- блеме «Кибернетика» АН СССР. 58. М а р ч у к Г. И; Методы вычислительной математики.— М.: Наука, 1977. 59. М а р ч у к Г. И. Окружающая среда и проблемы оптимизации разме- щения предприятий.—ДАН СССР, 1976, 227, Я® 5, с. 1056—1059. 50. М а р ч у к Г. И., Е р м а к о в С. М. О некоторых проблемах теории пла- нирования эксперимента.— В кн.: Математические метода планирова- ния эксперимента. Новосибирск: Наука, 1981, с. 3—17. €1. М а р ч у к Г. И., Е р м а к о в С. М. Метод Монте-Карло и методы вы- числительной математики.— В кн.: Метод Монте-Карло в проблеме пе- реноса излучения. М.: Атомиздат, 1967.' 62. Математические методы планирования эксперимента/Под ред. ‘Пенеп- ко В. В.— Новосибирск: Наука, 1981. 63. Мелас В. Б. Одна теорема двойственности и Е-оптимальность.—За- водская лаборатория, 1982, Я® 3, с. 48—50. 64. М о ц к у с И. Б. Многоэкстремальные задачи в проектировании.— М.: Наука,. 1967. 65. Моцкус Й. Б. О байесовых методах поиска экстремума.— Автомати- ка и вычислительная техника, 1972, Я® 3, с. 53—62. . 66. М ы с о в с к-и х И. П. Интерполяционные кубатурные формулы.— М.! Наука, 1981. * 67. Н а л и м о в " В. В., Чернова Н. А. Статистические методы планиро- вания экстремальных экспериментов.— М.: Наука, 1965. 68. Н е в е л ь с о н М. Б., X а с ь м и н с к и й Р. 3. Стохастическая аппрок- симация и рекуррентное оценивание.— М.: Наука, 1972. 69. Н е в е л ь с о н, М. Б. О сходимости непрерывных и дискретных^ проце- дур Роббинса — Монро в случае нескольких корней уравнения регрес- ' сии.— Проблемы передачи информации, 1972, 8, № 3, с. 48—57. 70. Н е в е л ь с о н М. Б., X а с ь м и н с к и й Р. 3. Адаптивная процедура Роббинса — Монро.— Автоматика и телемеханика, 1973, Я® 1, с" 71—83. 71. Новые идеи в планировании эксперимента.-^- М.: Наука, 1969. 72. Панкратьев Ю. Д. К вопросу о возмущениях линейных функцио- налов.— В кн.: Системный анализ и исследование операций. Новоси- бирск: ВЦ СО АН СССР, 1977, с. 5-14. 73. П о д и н о в с к и й В. В., Н о г и н В. Д. Парето-оптимальные решения многокритериальных задач.— М.: Наука, 1982. 380
74. По дкорыто в А. Н. О свойствах оптимальных планов в случае квадратичной регрессии.— Вестник ЛГУ, 1975, .№ 2, с. 163—166. 75. П о л а к Э, Численные методы оптимизации. Единый подход.— М.: Мир, 1974. 76. Поляк Б. Т. Сходимость и скорость сходимости итеративных стоха- стичеких алгоритмов. I. Общий случай.— Автоматика и телемеханика. 1976, № 12, с. 83—94. 77. Поляк Б. Т. Методы решения задач на условный экстремум при на- личии случайных помех.— ЖВМ и МФ, 1979, 19, № 1, с. 70—78. 78. Поляк Б. Т., Цыпкин Я. 3. Псевдоградиентные алгоритмы адапта- ции и обучения.— Автоматика и телемеханика, 4973, № 3, с. 45—68. 79. Поляк Б. Т.; Цыпкин Я. 3. Оптимальные псевдоградиентные алгоритмы адаптации.— Автоматика и телемеханика, 1980, № 8, с. 74-84. 80. Поляк Б. Т., Цыпкин Я. 3. Робастные псевдоградиентные алго- ритмы адаптации.— Автоматика и телемеханика, 1980, № 10, с. 91—97. 81. Рао С. Р. Линейные статистические методы и их применения.— М.: Наука, 1968. 82. Р а с т р и г и н Л. А. Статистические методы поиска.— М.: Наука, 1968. 83. Регрессионные эксцерименты/Под ред. Налимова В, В.— М.: МГУ, 1977. 84. Себер Дж. Линейный регрессионный анализ. М., Мир, 1980. 85. С е д у н о в Е. В. Планирование и анализ регрессионных экспериМен- ‘ тов с учетом систематической ошибки (обзор).— Заводская лаборатория, 1979, № 1, с. 55-62. 86. С о б о л ь И. М. Многомерные квадратурные формулы и функции Ха- ара.—М.: Наука, 1969. 87. С о б о л ь И. М., С т а т н и к о в Р. Б. Выбор оптимальных параметров в задачах со многими критериями.— М.: Наука, 1981. 88. С т р о н г и н Р. Г. Численные методы в много.экстремальных зада- чах.— М.: Наука, 1978. 89. С у д а к о в В. Н., X а л ф и н Л. А. Статистический подход в коррект- ности задач математической физики.—ДАН СССР, 1964, 157, № 5, с. 1058—1060. 90. Т и х о н о в А. Н., А р с е н и н В. Я. Методы решения некорректных задач.— М.: Наука, 1979. 91. Турчин В. Ф., Козлов В. П., М а л к е в и ч М. С. Использование методов математической статистики для решения некорректных за- дач.-УФН, 1970, 102, с. 345-386. 92. У с п е н с к и й А. Б., Ф е д о р о в В. В. Вычислительные аспекты ме- тода наименьших квадратов при анализе и планировании регрессион- ных экспериментов.— М.: МГУ, 1975. 93. Федоров В. В. Теория оптимального эксперимента.— М.: Наука, 1971/ 94. Ф е д о р о в В. В. Планирование экспериментов при линейных крите- риях оптимальности.—Теория вероятностей и ее применения, 1971, 16, № 1, с. 189—195. 95. Ф и л а р е т о в Г. Ф. Необходимые условия разрешимости задач по- строения планов дробного факторного эксперимента.—В кн.: Планиро- вание и автоматизация эксперимента в научных исследованиях. М.: Сов. радио, 1974, с. 72—80. • 96. Ф у к с м а н Я. Л. Об оптимальных статистических выводах в экстре- мальном эксперименте.— В кн.: Теория оптимальных решений. Киев: ИК АН СССР, 1975. ' 97. Ц ы п к и н Я. 3., П о л я к Б. Т. Достижимая точность алгоритмов адап- таций.- ДАН СССР, 1974, 218, № 3, с. 532-535. 98. Ш а л т я н и с В. Р., В а р н а й т е А. Об одном методе уменьшения раз- мерности при решении многоэкстремальных задач.— Теория оптималь- 1 ных решений, № 1. Вильнюс: АН Лит. ССР, 1975, с. 23—42. 99. Ш е ф ф е Г. Дисперсионный анализ.— М.: Наука, 1980. 100. Шор Н. 3. Методы минимизации недифференцируемых функций и их приложения.— Киев: Наукова думка, 1979, - 381
101. Addelman S. Ortogonal main effect plans for asymmetrical factorial experiments.— Technometrics, 1962, 4, p. 21—46. 102. Addelman S. Symmetrical and asymmetrical fractional factorial designs.— Technometrics, 1962, 4, p. 47—58. ' 103. A d d e Im a n S., Kempthorpe 0. Some main effect plans and ortogonal arrays of strength two.— Ann. Math/Statist., 1961, 32, p. 1167— 1176. 104. Atkinson A. C. Developments in the design of experiments.—Inter.. Statis. Review, 1982, 50, p. 161—177. 105. Atkinson A. C., Cox D. R. Planning experiments for discrimina- tion between models (with discussion).— !. Royal Statist. Soc., Ser. Br 1974, 36, p. 321—348. 106. Atkinson A. C., Fedorov V. V. The design of experiments for discriminating between two rival models.— Biometrika, 1975, 62, p. 57— 70. _ 107. Atkinson A. C., Fedorov V. V. Optimal design experiments Tor discriminating between several models.— Biometrika, 1975, 62, p. 289е— - 303. 108. Atkinson A. C. Posterior probabilities for choosing a regression mo- . del.— Biometrika, 1978, 65, p. 3$—48. 109. Ash A., H e d a у a t A. An introduction to design optimality with . overview of the literature.— Commun. Statist., 1978, A7, № 14, p. 1295— 1325. 110. Atwood C. L. Sequences converging t.o D-optimal designs of experi- ments.— Ann. Stat., 1973, 1, p. 342—352. 111. A.twood C. L. .Convergent design sequences,-for sufficiently regular optimality criteria.—Ann. Statist., 1976, 4, p. 1124—1138. 112. Atwood C. L. Convergent design sequences, for sufficiently regular optimality .criteria — singular case.— Ann. Stat., 1977, 5. ИЗ. В an dem er H. Problems in foundation and use. of optimal experi- mental design in regression models.—Math. Oper. Statist., Ser. Statist., 1980, 11, p. 89—113. 114. .B a n d em e r H. et al. Theorie und Anwendung der Optimalen Ver- suchplanung 1, Handbuch zur Theorie.— Berlin: Akad. Verlag, 1977. 115. В an dem er H., Nagel W. Parameter estimation in linear regre* sion models with weak and fuzzy prior knowledge.— Math. Operations^ und Statist., Ser. Statist., 1981, 12, № 3, p. 297—305. 116. Banerjee K. S. Weighing designs.—N. Y.: Marcel Dekker, 1975. 117. Bose R. C. Mathematical theory of the symmetrical factorial design.— Sankhya, 1947, 8, p. 107—166. 118. Bose R. C., Bush KA. Ortogonal arrais of strength two and three.— Ann. Math. Statist., 1952, 23, p. 508—524; 119. Box G. E. P., Hunter W. G. A basis for the selection of a res- ponse surface design.— J. Amer. Statist, Ass., 1959, 54, p. 622—654. 120. Box G. E. P., Draper N. R. The choice of a second order rota- table design.— Biometrika, 1965, 50, p. 335—352. 121. Box G. E. P., Hunter J. S. The 2h~v fractional factorial designs. I, II: — Technometrics, 1961, 3, N 4, p. p. 311—351, 449—458. 122. Box G. E. P., Lucas H. L. Designs of experiments in nonlinear situations.— Biometrika, 1959, 46, p. 77—90. 123. В u n к e O. Improved inference in linear models.— Math. Oper. und Statist., 1975, 6, № 5, p. 817—829, 124. Bush K. A. Orthogonal arrays of index unity.—Ann. Math. Stat., 1952, 23, p. 426—434. 125. Chakravarti J. M. Fractional replication in assymmetrical factorial designs and partially balanced arrays.— Sankhya, 1956, 17, p. 143— 164. 126. Ching-Shui Cheng. Optimality and construction of pseudo-Youden designs.— Ann. Statist., 1981, 9, p. 201—205. 127. Chernoff H. Sequential Analysis and Optimal Design.—SIAM, 1972. 382
128. Chernoff H. Locally optimal designs for estimating parameters — Ann. Math. Stat., 1953, 24, p. 586-602. ' 129. Cote R., Manson A. R., H a d e r K. J. Minimum bias approxima- tion of a general regression model.—J. Amer. Statist. Ass., 1973, 68, № 343, p. 633—638. 130. Cotter S. C. A general method of confounding for symmetrical facto- rial experiments.—J. Royal Statist. Soc., Ser. B, 1974, 36, p. 267—276. 131. Denes J., Keedwell A. D. Latin squares and their applications.— N. Y.: Acad. Press, 1974. 132. E1 f v i n g Xi. Design of linear . experiments, 1955 Cramer Festshrif Vo- lume.— N. Y.. Wiley, p. 58—74. 433. Ehrenfeld S. On the efficiency of experimental designs.— Ann. Math. Statist, 1953, 26, p. 247—255. 134. Federer W. T. Some recent results in experimental design with a bibliography. II, III.— Int Statist Rew., 1981, 49, pp. 95—109, 185—197. 135. Fedorov V. V. Convex design theory.— Mathem. Operations!, und Statist, Ser. Statist., 1980, 11, № 3, p. 403—413. 136. Fedorov V. V., Malytov M. B. Optimal design in regression, expe- riments.— Math. Operations! und Statist., 3, p. 281—308. 137. F or d I., S i’1 v e у S. D. A sequentially constructed design for esti- mating a non-linear parametric function.— Biometrika, 1980, 67. 138. Galil Z., Kiefer J. D-optimum weighing designs.—Ann. Statist., 198©, 8, p. 1293—1306. 139. Galil Z., Kiefer J. Construction methods for Z)-optimum weighing designs.— Ann Statist., 1982, 10, p. 502—510. 140. Gribik P. R., Kortanek К. O. Equivalence theorems for cutting plane algorithms for a class of experimental design, problems.— SIAM ’ J. Appl. Math., 1977, 32, p. 232—259. 141. Guest P. G. The spacing of observations in polinomial regression.— Ann. Math. Statist., 1958, 29, p. 294—299. 142ч H e d a у a t A., Wallis W. D. Hadamard matrices and their appli- cations.— Ann. Statist, 1978, 6, p. 1184—1238. 443. Hill P. D. H. A review of experimental design procedures for regres- sion model discrimination.—Technometrics, 1978, 20, p. 15—21. 144. Hoel P. G. Efficiency problems in polinomial estimation.—Ann. Math. Stat., 1958, 29, p. 1134—1145. . ‘ 145. Hoel P. G. A simple solution for optimal Chebyshev regression extra- polation.— Ann. Math. Statist., 1966, 37, p. 720—725. 146. H о e r 1 A. E., Kennard R. W. Ridge regression: non-ortogonal pro- blems.— Technometrics, 1970, 12, № 1, p. 55—82. 147. Jennrich R. I., Ralston M. L. Fitting nonlinear models to da- ta.— Annual Reviews of Biophisics and Bioengineering, 1979, 8. 148. John J. A. New developments in classical design.— Math. Operations! und Statist., Ser. Statist., 1980, 11, p. 380—402. 149. John R. C., Draper _N. R. D-optimality for. regression designer a review.— Technometrics, 1975, 17, p. 15—23. 150. Kiefer J. Optimum experimental designs — J. Royal Statist. Soc., Ser. B, 1959, 21, p. 272—319. 151. Kiefer J. General equivalence theory for optimum designs (approxi- mate theory).— Ann. Statist., 1974, 2, p. 849—879. 152. Kiefer J. Optimal design theory in relation to combinatorial design.— Combinator. Mathem. Optim. Des. Appl., 1980, p. 225—241. 153. Kiefer J. Optimal design for fitting biased multivariate analysis.— In: Proc. Multivar. Symp. I IL N. Y.; London. 1973, p. 287—297. 154. Kie.fer J., Stud den W. S. Optimal designs for large degree poli- nomial regression.—Ann. Statist., 1976, 4, p. 1113—1123. 155. Kiefer J., Wolfowitz »J. Optimum designs in regression pro- blems.—Ann.-Math. Statist., 1959, ,30, p. 271—294. 156,«-Kiefer J., Wolfowitz J. On a theorem of Hoel and Levine on extrapolation designs,Ann. Math. Statist., 1965, 36, p. 1627—1655. 383
157. Kishen К. On Latin and hypergraecolatin cubes and- hupercubes.— Current Sci., 1942, 11, p. 98—99. 158. Kishen K. On the design of experiments for weighing and making; other types of measurements.-- Ann. Math. Statist., 1945, 16, p. 294— 300. 159. Kishen K. On the construction of Latin and hypergraecolatin cubes and hypercubes.—J. Indian Soc. Agric, Statist., 1949, 2, p. 20—48. 160. Kupper L. L., Meydrech E. F. A new approach to mean squared estimation of response surfaces.— Biometrika, 1973, 60, Xs 3, p. 573—579. 161. Lauter E. Characterization of the optinal designs for the estimation of non-linear parameters.— Международ, конференция по теор. вероятн. и матем. статистике. Тез. докл. Вильнюс, 1973, т. 2, с. 13—14. 162. Lauter Н. A minimax linear estimator for linear parameters under restriction in form of inequalities.—Math. Operationsf. und Statist., 1975,. 6, p. 769—774. . 163. Margolin В. H. "Resolution IV fractional factorial designs.— J. Royal Statist. Soc., Ser. B, 1969, 31, p. 514—523. 164. Margolin В. H. Non-orthogonal main effect designs for assymmet- rical factorial experiments.—J. Royal Statist. Soc., Ser. B, 1972, 34r p. 431—440. 165. Me hr a R. Optimal input signals for parameter estimation in dinamic ' systems survey and new results.— IEEE Trans. Autom. Contr., 1974, AC-19, p. 753-768. 166. M e 1 a s V. B. Optimal designs for exponential regression.— Math. Ope- rationsf. und Statist., Ser. Statist., 1978, 9, № 1, p. 45—59. 167. Micchelli C. A., Wahba G. Design problems for optimal surface interpolation.— In:. Approximation theory and applications. N. Y.; Lon- don: Acad^ Press, 1981, p. 329—348. 168. Mood A. M. On Hotteling weighing problem.—Ann. Math. Statist., 1946, 17, p. 432-446. 169. Myers R. H., К h u r i A. I. A new procedure for steepest ascent.— Commun. in Statist., 1979, № A8 (14), p. 1359—1376. 170. Paley R. E. A. C. On ortogonal matrices.— J. Math, and Phys., 1933, 12, p. 311—320. 171. Parsen E. A new approach to the synthesis of optimal smoothing and prediction systems.— In: Mathematical Optimization Technique. Ber- keley (California): Univ. Press, 1963, p. 75—108. . 172. P a z m a n A. Some features of the optimal design theory — a survey.— Math.\Operatipnsf. und Statist., Ser. Statist., 1980, 11, p. 415—446. 173. Pereira B. de B. Discriminating among separate models: a biblio- graphy.— Intern. Statist. Rev., 1977, 45, p. 163—172. 174. Plackett R. L. Some generalizations in the multifactorial design.— Biometrika, 1946, 33, p. 328—332. 175. Preece D. A. Supplementary bibliography of designs for experiments in three dimensions.—Austr. J. Statist., 1979, 21, p. 170—172. 176. Pukelsheim F. On linear regression designs which maximize in- formation.—J. Statist. Planning and Inference, 1980, 4, p. 339—364. 177. Raghavarao D. Some optimum weighing designs.— Ann. Math. Statist., 1959, 30, p. 295—303. 178. Ra gh a va-r a о D. Some aspects of weighing designs.—Ann. Math. Statist., 1960, 31, p. 878—884. 179. Raghavarao D. Constructions and combinatorial problems in design of experiments —Wiley, 1971. 180. R a k t о e B. L., Rayner A. A., C h al t о n D. O.' On construction of confounded mixed factorial and lattice designs.—Austr. J. Statist., 1978, 20, p. 209-218. 181. Rao M. B. Weighing designs when «га» is odd.— Ann. Math. Stat., 1966, 37, p. 1371—1381. 182. Rao C. R. The theory of fractional replication in factorial experiments.— Sankhya, 1950, 10, p. 81—86. • 384
183. Rao C; R. Estimation of parameters in a linear model.— Ann Statist 1976, 4, p. 1023—1037. 184. Sacks J., YlvisakerD. Designs for regression problems with cor- related errors.— Ann. Math. Statist., 1966, 37, № 1, p. 66—89. 185. Sacks J., Ylvisaker D. Designs for regression problems with cor- related errors: many parameters.— Ann. Math Statist., 1968, 39, № 1, p. 49—69. 186. S i b s о n R. D a -optimality and duality.— In: Progress in Statistics. Amsterdam, North-Holland, 1974, 2, p. 677—692. 187. Silvey S. D. Optimal design.— London: Chapman and Hall, 1980. 188. S p r u ill C. Optimal designs for second order processes with general linear means.—Ann. Statist., 1980, 8, p. 652—663. 189. Studden W. J. Optimal designs on Tchebysheff points.—Ann. Math. Statist., 1968, 39, № 5, p. 1435—1447. 190. Surdara R. J. Confounding in factorial experiments —J. Royal Sta- tist. Soc., Ser. B, 1974, 36, p. 439—441. 191. Toutenburg H. Prior information in linear models.—N. Y.: Wiley, 1982. 192. Vajda S. Patterns and configurations in finite spaces.—Griffin’s Sta- tistical Monographs and Courses, N. Y.: Hafner Publ. Co., 1967, № 22. 193. Whittle P. Some general points in the theory of optimal experimen- tal design.— J. of the Royal Statist. Soc., Ser. B, 1973, 35, p. 123—1301 194 .Wynn H. Results in the theory and construction of D-optimum expe- rimental designs.— J. of the Royal Statist. Soc., Ser. B, 1972, 34, p. 170— 186. ' 195. W u C. F. Some iterative procedures for generating nonsingular optimal * designs.— Commun. in Statist., 1978, 14, № A7, p. 1399—1412. 196. W u C. F., Wynn Hj P. The convergence of general sten-length algo- rithms for regular optimum design criteria.— Ann. Statist., 1978, 6, p. 1273— 1285.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Адамара матрица 289 Аддельмана планы 281 Активный эксперимент 10 Алгоритм асимптотически оптималь- ный 327 — глобального поиска 110 — итеративный 307, 317 — локального поиска 107 — поисковый 102, 307, 332 - — псевдоградиентный 308 — регулярный 307, 329 — релаксационный 98, 103 — стохастической - аппроксимации Роббинса — Монро 330 --------_ модифицированный 335 ---Кифера — Вольфовица 329 --------модифицированный 335 Априорная информация 11, 219 Асимптотическая оптимальность 87 Асимптотическое разложение 41 ---стохастическое 44 Базис безусловный 227 — канонический 231 Байесовская оценка 19, 34 * л Байесовский критерий 13 — план 368 ---оптимальный 143 Бинарное отношение 126 Бокса — Уилсона метод 339 Вектор эффектов взаимодействий 248, 251 --------уровней фактора 251 ---главных 248 ---уровней фактора 251 Взвешенный метод наименьших квадратов 24 Взвешивание без смещения 303 — со смещением 303 4 Взвешивания планы 302 — проблема 302 Входной набор 299 Гаусса — Маркова -схема 23, 29, 138 ----теорема 26 Гаусса — Ньютона метод 45 Гауссовский процесс 223 Генераторы 275 Генерирующие соотношения 275 Геометрический план 275 Гильбертово пространство регуляр- ных сдвигов 223* — с воспроизводящим ядром (ГПВЯ) 210, 224 Главные эффекты 248 Главных эффектов модель 264 ----план 264 Границы длины 361 Гребневая регрессия 238 Дерево алфавитное 363 — двоичное оптимальное 363 Джеймса — Стейна сжимающая оцен- ка 38 ‘ Дискриминирующий эксперимент 17, 366 . - Дисперсионного анализа план 246 Дисперсйя апостериорная 237 Доминируемость 10 — процедуры 151 Достаточная статистика 20 Дэвидона — Флетчера — Пауэлла ме- тод 105 Задача выпуклого программирова- ния 102 — корректная 218 ----по Тихонову ’218 ----статистически 226 —^минимаксного планирования не- тривиальная 145 — многокритериальная 125 ----максимизации 126 некорректная 218 386
Задача оптимального планирования эксперимента 51 — поиска плана обратная 279 — разбиения на ортогональные бло- ки 285 — смешивания 285 — статистически некорректная 229 — стохастического программиро вая- ния 320 ' Заметания свойство 336 Имитационный эксперимент 9, 17, 181 Индекс таблицы 269 Информации функционал 63 Информационное количество Фише- ра 20 ---Шеннона 233 — уклонение Кульбака 141 Информационно-статистический под- ход 116 Информационный оператор 2.31 Истинное среднее 251 Калибровочный оператор 230, 245 . — функционал 229 Канал связи с множественным до- ступом (КМД) 350 Канонический базис 231 Квадрат гипергреколатинский 269 — греколатинский 269 — латинский 269 Квадраты ортогональные 269, 289 — стандартные 269 Кифера — Вольфовица алгоритм 333, 335 — — теорема 58, 193 Кифера план 74 Класс векторных сдвигов 222 Код 361 Количество информации в смысле Шеннона 233 Компромибсные планы 281 Коно план 74 Контраст 248, 272 Контролируемые переменные 51 Координаты пучка 273 Корреляционный” оператор 223 ---обратный 223 Коэффициент неравомерности 266 Критерии эквивалентные 4 Критерий векторный 125 — качества эксперимента 10 — качественный 126 — количественный 125 — линейный 59, 84 ’—минимаксный 167 —независимый (по предпочтению) 126 ♦—оптимальности 51 Критерий D 58, 67 --обобщенный 58 — D8 59, 80 х - — Е 67 — F 367 — G 58, 62 — Т 366 - %2 367 Крутого восхождения метод 339 Куб гипергреколати'нский 270 — греколатинский 269 — латинский 269 Кубы ортогональные 269 — стандартные 269 Лагранжа функция 130, 321 Латинский квадрат 269 — куб 269 — план 262 Линейная регрессионная модель 23, 137, 190. — статистика 222 .— теория возмущений 184 Линейный критерий 59, 84 Лойаных метод 115 Ляпунова функция 307 Марквардта метод 45 Маркова цепь 184 Математическая модель (экспери- М|нта) 9 Матрица Адамара 289 — главных эффектов 249 — информация 64 — информационная 191 — .обобщенная обратная 26 — плана 217 — порождающая план 358 — псевдообратная (Мура — Пенроу- за) 26 — эффектов взаимодействий 249 Мера обобщенная 197 Меры (веса) точек плана 51 Метод выборки антисимметричной 183 --расслоенной 182 ---существенной 182 — Гаусса — Ньютона 45 — градиентный 105 — Дэвидона — Флетчера — Пауэлла 105 — зависимых испытаний 183 . — крутого восхождения 339 — ломаных 115 — Марквардта 45 — наискорейшего подъема 105 — Ньютона 105 — обобщенного градиента 105 — оценивания 150 387
'Метод переменной метрики 105 — покоординатного подъема 106 ------случайного 106 — симплексный 344 — случайного поиска 107, 333 ---тп-градиента 108, 333 — сопряженных направлений 106 — существенной выборки 182 — Хартли 45 - — штрафных функций 318 ------внешних 320 ' ------внутренних 320 - DUD 46 Минимаксный критерий 13 Множество допустимых оценок 125 ---преобразований 125 — Парето 10, 127 “-положительности (меры) 198 — стационарных точек 104 — условий 10 — эффектов полное 249 Модели конкурирующие 366, 375 Моделирование распределений 181 Модель аддитивная 365 — главных эффектов 264 — дизъюнктивная 349 — истинных эффектов 254, 259 ---— полная 254 --------смешанная 261 --------факторная 257, 259 ------Af 253 ------А“ 253 ------Cf 257 ------С“259 — неполного ранга 25, 29 — однородная 360 — полная факторная 253 — полного ранга 23 . — Реньи 358 — чебышевская 254 — F 46, 136 Набор весов ^-оптимальный 168 • ---G-оптимальный 168 ---Л/Р-оптимальный 168 — номеров существенных факторов 350 Наискорейшего подъема метод 105 Насыщенное планирование 158 Невырожденный процесс 223 Неполноблочнбе планирование 263 Неравенство Рао — Крамера 19, 134 — Хёфдинга 141 Нерегулярная система функций 158 . Нормальных уравнений система 24, 28 Ньютона метод 105 Область действия 51 — определения переменных 247. Область планирования 191, 234 Обобщенная дисперсия 57 Обобщенный градиент 317 — /2-критерий 58 Однородный класс 360 Оператор 230 — информационный 231 — корреляционный 223 — проектирования 316 — усреднения 337 ---дифференцирующий 337 ------потенциальный 338 Операция восстановления 294 Опорные точки плана 51 Определяющие пучки 275- Оптимальности критерий 52 Оптимальность асимптотическая 87 — А 52, 84, 264 ___(7 52 — D 52, 58, 64, 191, 264, 267 240 — £52,64 — G 52, 191, 264 — L 52, 84 — Фр (по Киферу) 64 Оптимальный коэффициент 92 “-план 51, 156 ---по Парето 10 ---эксперимента 10 Ординарные модели 353 Ортогональность эффектов 249 Ортогональный план 265 Отделяющий элемент 358 Отсеивающий эксперимент 17, 348 Оценивание робастное 327 Оценка 18 — байесовская 19, 34 ---линейная 35 — гребневая 38 — допустимая 19 - ИРДЖИНА 47, 137 — линейная 23 байесовская 35 •--минимаксная 35 — максимальная (по отношению) 127 — максимального правдоподобия 22 — максимальной вероятности 22 — метода наименьших квадратов (МНК) 23, 190, 228 - --------обобщенного 28 — минимаксная 19, 34, 37 ---линейная 35 — наилучшая линейная несмещенная (НЛН) 23 — несмещенная 19, 225 ---с минимальной дисперсией 19 — нечеткая псевдобайесовская 37 — сжимающая 38 — — Джеймса — Стейна 38 — эффективная 20 • оптимальная по Парето 127 388
Оценка эффективная подлинно (по Борвейну) 127 — — слабо (по Слейтеру) 127 — — собственно (по Джоффриопу) 127 — Л/ 22 Параллелепипедные сетки 92 Параметр нецентральности 367 Параметризация линейная 370 Параметрическая задача оценивания 18 — функция, допускающая оценку 25 Парето множество 10 Переменная качественная 247 — количественная 247 Переменной метрики метод 105 План 247, 350 — байесовский 368 — взвешивания 302 — главных эффектов 264 — глобально-оптимальный 211 — градиентный 199 — дробный 248 ---геометрический 275 — Кифера 74 — Коно 74 — латинский 262 — линейно-оптимальный 60 — локальпо-оптимальный 138 — локально D-оптимальный 146 -------насыщенный 146 — минимаксный 62, 146, 368, 370 — насыщенный 72 — невырожденный для факторного множества 261 — непрерывный 53 — нормированный статический 133 — оптимальный для экстраполяции в точку 85 •--точечный 210 — ортогональный- 72 — полный 248 — последовательный 132, 375 — равномерный 248 — разрешающей способности 2г — 1 264 ------ - 2 г 264 — рандомизированный 150 — регулярный 52 — ротатабельный 72 — симметричный 248 второго порядка 73 — сиплекс-решетчатый 79 — симплекс-центроидный 79 — сингулярный 52 — статический для дизъюнктивной модели 362 •--разделяющий сильно 349, 351,358 *------слабо 351 План факторный 248 — эквидистантный 89 — эксперимента 10, 51, 152, 190, 234 — экстремальный 199 — D-оптимальный 57, 191 — D'-оптимальный 240 — G-оптимальный 191 — ^-оптимальный 86, 264, 267 — Т-оптимальный 367 локально 368 — ^-оптимальный 61 Планирование насыщенное 158 — неполноблочное 263 — последовательное 348, 363 — статическое 349 Планы дисперсионного анализа 246 — компромиссные 281 ---симметричные факторные Ад- дельмана 281 — ^/-эквивалентные 193 Плотность измерений 186 Поисковый алгоритм 307, 332 Покоординатного подъема метод 10$ — случайного подъема метод 107, 333 Полином Чебышёва 87 Полиномиальная регрессия 69, 73, 76, 87, 174 Полиномы Шеффе приведенные 78 Полная модель истинных эффектов 254, 259 ---факторная 253 Полное множество ортогональных латинских квадратов 269 ----эффектов 248 Полный факторный эксперимент 72 1 Помеха 309 — аддитивная 309 — мультипликативная 309 Порядковая шкала 126 Последовательная стратегия 132, 35$ Последовательное оценивание 131 — планирование 348, 363 Последовательность оценок асимпто- тически нормальная 21 эффективная 21 --в тачке 21 — — состоятельная 20 в среднеквадратичном 21 сильно 21 “ слаб° 21 У «-состоятельная 21 — планов асимптотически опти- мальная- 212 — регулярная 336 — штрафных функций 318 внешних 318 внутренних 320 Последовательный план 132 Пофакторная решающая функция 355 389
Предельная скорость отсеивающего плана 352, 354, 355 Преобразование допустимое 125 Преобразования масштаб 299 — скелет 299 ---допустимый 299 — структура 299 Приведенные модели Шеффе 78 Проблема упаковки 284 Произведение векторов 248 — планов 297 Пространство мер 197 — регулярных сдвигов случайного процесса 213 Процедура анализа и планирования эксперимента 151 — второго порядка 98 _ — допустимая 151 — локально несмещенная 151, 179, 180 — несмещенная 151, 156, 161 — нулевого порядка 101 — первого порядка 96, 101, 373 — рекуррентная 138 > Процесс случайный второго поряд- ка 223 ----- гауссовский 225 ---невырожденный 223 Псевдогенераторы 276 Псевдоградиентный алгоритм 308 Псевдообратная матрица 26 Пучки определяющие 275 Разделяющая система 358 Рандомизированный план 150 Рао — Крамера неравенство 19, 134 Расщепление фактора 292 Регрессии уравнение 50 — функция 50 Регрессионная модель 12, 189 ---билинейная 356 --- нелинейная 40 Регрессионный эксперимент 12, 225 Регрессия гребневая 238 — полиномиальная 69, 73, 76, 87, 174 — тригонометрическая 88, 175 Регуляризация 219 Регулярная система функций 158 Регулярное соответствие 280 Регулярный факторный план 265 ------мощности t 265 Рекуррентная процедура оценивания 138 Релаксационный метод 103 Реньи модель 358 Решающая функция приемника 351- Решение некорректной задачи 220 — обобщенное 218 — сильное 227 ---порядка р' 227 слабое 220, 227 Риск стратегии 133 Риска функция 18 Робастное оценивание 327 Роббинса — Монро алгоритм 330 Свойство заметания 336 Седловая точка 321 7 Семейство последовательных планов 136 ----стратегий 135 Сетки кубические 114 .— равномерные 114 Сжатие фактора 292 •Симплекс к -мерный 344 — регулярный 344 Симплекс-планы 73 Синдром (т-) 358. Система нормальных уравнений 24,- 28' — разделяющая 358 — смежная 279 — функций нерегулярная 158 ----регулярная 158 Систематическая ошибка 13 Скорость сильно разделяющего пла- на 349 Слабое решение некорректной, зада- чи 220 „ ш Слейтера условие регулярности 130, 321 Случайная ошибка 13 Случайного поиска метод 107, 333 Случайный процесс второго порядка 223 *---гауссовский 225 ----невырожденный 223 Смещение оценки 19 Соответствие регулярное 280 Сопряженных направлений метод 106 Способ удвоения 103 Средняя длина двоичного дерева 363 Статистический эксперимент 9 Степени свободы ортогональные 274 Стоимость эксперимента 10 • Стохастической аппроксимации ал- горитм 330, 333, 335 Стратегия последовательная 132, 356 Схема Гаусса — Маркова 23, 29, 138 Сходимость в среднем 310 ------ квадратическом 312 — почти наверное (п. н.) 312 — с вероятностью 1 330 Таблица ортогональная мощности £ 268, 287 Теорема Гаусса -«• Маркова 26 — двойственности 65, 68 — Кифера — Вольфовица 58, 193- — о взаимной ограниченности 64 390
Теорема эквивалентности 50, 56 Теория возмущений линейная 184 — многомерных схем 263 — отсеивающих экпериментов (ОЭ) 348 Точка максимума глобального 102 ----локального 102 Точки, занятые взаимодействием факторов 280 ----факторами 280 Тригонометрическая регрессия 88, 475 Функция регрессии 50 — риска 18 — унимодальная 102, 111 — ценности 184 — эффективности 300 Хёфдинга неравенство 141 Цепь Маркова 184 Унимодальная функция 102 Уравнение регрессии 50 Уровень переменной 247 Условие пропорциональности час- тот-265 — регулярности Слейтера 130, 321 — сверхнасыщенности 162 — сильной регулярности 25 — -Эйкера 25 Усреднения оператор 337 Фактор блоковый 262 Факторное множество 253 Факторный эксперимент 15 Факторы взаимодействующие 281 Функционал градиентный 198 — информации 63 — калибровочный 229 — опорный 194 — экстремальный 199 Функция вогнутая 104 •-сильно 105 — Лагранжа 130, 321 — Ляпунова 307 г- параметрическая, - допускающая оценку 25 — потерь 18, 133 Чебышева полином 87 Число контрастов 272 — степеней свободы 248 - Шеффе приведенные модели 78 ---полиномы 78 . Шкала интервалов 125 — критерия 125 — порядковая 126 Штрафных функций^йетод 318, 320 ---последовательность 318, 320 Эйкера условие 25 Эксперимент 9 — дискриминирующий 17, 366 — имитационный 9, 17, 181 — отсеивающий (ОЭ) 17, 348 — по проверке' гипотезы 17 — регрессионный 12 — факторный 15 — экстремальный 17, 306 Эффект взаимодействий 248, 251 ---г-факторпый 248 — несмешанный 286 — смешанный 286 — i-ro уровня 248
Сергей Михайлович Ермаков, Вячеслав Зиновьевич Бродский, Анатолий Александрович Жиглявский, Виктор Павлович Козлов, Михаил Борисович Малютов, Вячеслав Борисович Мелас, Евгений Витальевич Седунов, Валерий Вадимович Федоров МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА Редактор А. П, Коростелев х Техн, редактор Е. В. Морозова Корректоры О. А. Сигал, Н. Д. Дорохова ИВ № 12231 Сдано в набор 05.04.83. Подписано к печати 10.11.83. Т-19295. Формат 60x90716- Бумага тип. Ка 3. Обыкновенная гарнитура. Высокая печать, Условн. печ, л, 24,5» Уч.-изд. л. 26,01, Тираж 26 000 экз, Заказ № 563, Цена 1 р. 60 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 4-я типография издательства «Наука». 630077, Новосибирск, 77, Стани- славского, 25
1 р. 60 к.