Текст
                    В.И. ВаРШАВСКи*
КОЛЛЕКТИВНОЕ
ПОВЕДЕНИЕ
АВТОМАТОВ

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ТЕХНИЧЕСКОЙ КИБЕРНЕТИКИ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1973
В. И. ВАРШАВСКИЙ КОЛЛЕКТИВНОЕ ПОВЕДЕНИЕ АВТОМАТОВ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1973
6ф6.5 В 18 УДК 62-50 Коллективное поведение автоматов, В. И. В а р- ш а веки й, Главная редакция физико-математи- ческой литературы изд-ва «Наука», Москва, 1973, 408 стр. Книга посвящена важному разделу теоретиче- ской кибернетики. Единым языком и с единых позиций рассмотрены результаты, полученные в настоящее время при изучении моделей коллек- тивного поведения атоматов, и применение идей и методов коллективного поведения к описанию сложных систем и организации управления в та- ких системах. Книга охватывает широкий круг проблем от поведения автоматов в случайных сре- дах до поведения систем взаимодействующих ав- томатов, решающих чисто логические задачи. Книга представляет интерес для научных ра- ботников и инженеров, работающих в области теории автоматов, теории управления и проекти- рования систем управления в сложных системах. Илл. 90. Библ. 147 назв. 3314-1710 В 042(02)-73 182-72
ОГЛАВЛЕНИЕ Предисловие................................................ 7 Введение ................................................... 9 Глава I. Поведение автоматов в случайных средах ... 24 § 1.1. Постановка задачи..................................24 § 1.2. Асимптотически-оптимальные последовательности сим- метрических автоматов....................................32 § 1.3. Поведение непрерывных автоматов ь стационарных случайных средах....................................60 § 1.4. Стохастические автоматы с переменной структурой 72 § 1.5. Поведение автоматов в переключаемых случайных средах..............................................84 Глава II. Игры автоматов................................112 § 2.1. Игры автоматов...................................112 § 2.2. Игры двух автоматов с нулевой суммой . . .118 § 2.3. Однородные игры автоматов........................142 § 2.4. Примеры симметрических игр автоматов . . 155 § 2.5. Игра Гура........................................169 § 2.6. Игры на окружности...............................197 Глава III. Случайное парное взаимодействие в коллективах автоматов.....................................* 207 § 3.1. Случайное парное взаимодействие в игре Гура . . 207 § 3.2. Случайное парное взаимодействие в симметрических играх автоматов........................................ 229 § 3.3. Синхронизация коллектива автоматов при случайном парном взаимодействии...................................237 Глава IV. Медели коллективного поведения...............256 § 4.1. Модели с двухуровневой организацией .... 256 § 4.2. Коллективное поведение в системе массового обслу- живания с ожиданием.................................... 272
5 ОГЛАВЛЕНИЕ § 4.3. Коллективное поведение в задаче о распределении ресурса................................................293 § 4.4. Коллективное поведение в задаче о регулировке мощности...............................................314 § 4.5. Децентрализованный способ управления установле- нием соединения в сети связи...........................335 Глава V. Поведение систем взаимодействующих автоматов § 5.1. Синхронизация в цепях автоматов...............349 § 5.2. Вычисление значений логических функций цепями взаимодействующих автоматов........................375 Примечания...............................................394 Литература...............................................397 Предметный указатель.....................................405
ПРЕДИСЛОВИЕ Идея написания книги обсуждалась впервые мной и М. Л. Цетлиным в 1964 г. Зимой 1964—1965 годов нами был написан обзорный доклад «Коллективы автоматов и модели поведения» на III Всесоюзное совещание по ав- томатическому управлению и зимой 1965—1966 годов доклад «Automata and Models of Collective Behaviour» на III Конгресс IFAC в Лондоне. Оба эти доклада мы рассматривали как первую прикидку содержания книги. На базе этих двух докладов были сделаны еще два об- зорных доклада — М. Л. Цетлиным в Праге и автором этой книги в Эдинбурге. Летом 1966 г. мы предполагали начать предварительную работу над книгой, однако тра- гическая смерть М. Л. Цетлина нарушила эти планы. В 1969 г. вышел в свет посмертный сборник работ М. Л. Цетлина «Исследования по теории автоматов и моделированию биологических систем». Сборник подво- дил итог работам по коллективному поведению автома- тов, выполненным до 1966 г., и в приложениях был дан краткий обзор ряда более поздних результатов. Факти- чески сборник перекрывал первоначальный план книги, который обсуждался нами в 1964 г. Однако уже к мо- менту выхода в свет книги М. Л. Цетлина был получен ряд новых результатов, в ряде случаев имеющих суще- ственное значение для тематики. Многочисленные обсуждения убедили автора, что идея написания книги остается актуальной. Для сохра- нения цельности в книге повторено изложение ряда воп- росов из книги М. Л. Цетлина, а также использованы результаты ряда журнальных статей, авторами которых, как правило, являются участники ежегодного семинара лаборатории кибернетики ЛОЦЭМИ АН СССР. В при- мечаниях к книге указана авторская принадлежность
8 ПРЕДИСЛОВИЕ излагаемых результатов, что не перекладывает, конечно, на указанных лиц ответственности за качество книги. Выбор материала книги определялся следующими со- ображениями: во-первых, собственными научными инте- ресами автора и научными интересами лиц, с которыми автор поддерживает многолетние научные контакты; во- вторых, стремлением сделать изложение часто весьма разнородного материала, связанного лишь единством ме- тодологического подхода, единым и связным; в-третьих, желанием охватить достаточно широкий круг содержа- тельных постановок с тем, чтобы продемонстрировать возможность говорить на языке коллективного поведе- ния о сложных объектах различной природы. Часть материала книги набрана петитом. Читатель, интересующийся в основном- содержательной стороной вопроса, может опустить эти места без ущерба для по- нимания. Автор выражает свою искреннюю признательность всем, кто любезно предоставил ему возможность ис- пользовать их результаты в этой книге и приносит свои искренние извинения лицам, чьи интересные результаты в области исследования моделей поведения автоматов в случайных средах и моделей коллективного поведения не упомянуты в этой книге, но, к сожалению, нельзя объ- ять необъятное. Постоянные контакты с М. М. Бонгардом, В. А. Бо- ровиковым, Э. М. Браверманом, В. С. Гурфинкелем, С. М. Меерковым, Л. И. Розоноэром, И. И. Пятецким- Шапиро и обсуждение как собственно научных резуль- татов автора, так и этой книги принесли неоценимую пользу. Автор сомневается, что он сумел бы довести ра- боту до конца, если бы не постоянная помощь В. Б. Ма- раховского, В. А. Песчанского и Л. Я. Розенблюма и особенно их неутомимое стремление к обнаружению ошибок в рукописи. Автор сожалеет, если это их заня- тие, превратившееся почти в спортивную игру, не было доведено до конца. Особую признательность автор выра- жает редактору этой книги Д. А. Поспелову, приложив- шему немало труда, чтобы сделать книгу удобочитаемой. Ленинград, Автор январь 1972 г.
ВВЕДЕНИЕ Развитие техники и усложнение организационной и социальной структуры общества ставит нас перед не- обходимостью изучения сложных систем, которые при- нято называть «большими системами». Не вдаваясь в терминологические споры по поводу определения «боль- шой системы» (такие определения с избытком имеются в соответствующей литературе) мы вместе с тем, можем указать ряд систем, которые, по общему убеждению, яв- ляются «большими». Такие примеры, безусловно, легко обнаруживаются в экономике — крупные фирмы, отрасли промышленности, система международной торговли и т. п. Ряд примеров может быть продолжен и в области тех- ники— системы ПВО, большие коммуникационные сети и т. п. Заметим при этом, что современная международная телефонная сеть, обеспечивающая автоматическое соеди- нение любых абонентов, расположенных в разных стра- нах и предоставляющая абоненту значительное число ав- томатических услуг, содержит никак не менее 1084-109 точек переключения. Указанная система никогда не про- ектировалась как единое целое, а возникла в результате естественной эволюции средств связи. В этом кроется в сила и слабость такой системы. Слабость потому, что воз- можно, проектируемая с единых позиций, такая единая система связи работала бы более эффективно. Сила же заключается в том, что, несмотря на огромное число эле- ментов и высокую сложность, система обеспечивает впол- не удовлетворительную связь. Действительно, в такой системе ежечасно должны выходить из строя не менее 104 элементов. То, что это, по-видимому, имеет место, может предположить каждый, пытающийся дозвониться в бю- ро ремонта. Работоспособность системы здесь обеспечи- вается сильной децентрализацией управления и высокой автономией составных частей — телефонных подстанций, узлов связи и т. п.
10 ВВЕДЕНИЕ Наиболее яркие примеры систем ультравысокой слож- ности мы находим в биологии. Несмотря на очевидные различия с точки зрения решаемых задач, используемых компонент и т. п., с точки зрения управления системы та- кого рода обладают рядом общих свойств. Понимание общих закономерностей, проявляющихся при функцио- нировании систем высокой сложности, является одной из насущных задач современной науки. Техника, экономи- ка биология, социология — вот далеко не полный пере- чень наук, развитие которых существенно нуждается в выяснении основных закономерностей, проявляющихся при функционировании систем высокой сложности. Каковы же характерные черты наблюдаемых нами систем высокой сложности? Нам представляется, что од- ной из наиболее важных черт является высокая авто- номия поведения составных частей системы — подсистем. Эта черта очень хорошо просматривается на различных иерархических уровнях биологической организации. Мно- гоклеточные организмы состоят из отдельных клеток, которые в соответствующих условиях могут питаться, передвигаться и делиться, т. е. нормально функциониро- вать вне организма. Эта способность клеток даже вы- сокоорганизованных животных хорошо просматривается на культурах ткани. Объединенные же в единое целое — организм, они обладают в совокупности единым целесо- образным поведением, направленным на поддержание постоянства внутренней структуры не только каждой от- дельной клетки, но и всей совокупности в целом. В таких сверхорганизмах, как муравейник, обладаю- щих единым циклом питания и единой системой гумо- ральной регуляции, автономия поведения компонент — отдельных насекомых, еще выше. Между тем, система в целом обладает единым целесообразным поведением и устойчива настолько, что эволюция практически не кос- нулась муравьев в течение миллионов лет. Ряд подобных биологических примеров может быть продолжен. Заметим, что идея такой организации нашла свое блестящее развитие в романе польского писателя- фантаста Станислава Лема «Непобедимый». Обращаясь к экономическим и производственным сис- темам, мы также легко обнаруживаем высокую степень автономии поведения их подсистем. В этом случае всег-
ВВЕДЕНИЕ 11 да следует иметь в виду, что, управляя совокупностью экономических или производственных подсистем, выше- стоящий уровень управления фактически управляет не самими подсистемами, а людьми, стоящими во главе этих подсистем, и, безусловно, обладающими своими локаль- ными интересами и целями. Отождествление этих интере- сов и целей с интересами и целями системы в целом су- щественно зависит от способов организации управления в системе. Вопросы автономии поведения тесно связаны со вто- рым вопросом — децентрализацией управления в систе- ме. Вопросы децентрализации и централизации управле- ния являются одними из наиболее тонких и важных воп- росов организации управления в сложных системах. По-видимому, не вызывает сомнения тот факт, что при наличии абсолютно надежных управляющих или вычислительных средств, надежных каналов связи с до- статочной пропускной способностью и достаточной мощ- ностью вычислительных или управляющих средств пре- дельно централизованное управление заведомо пред- почтительнее всякого другого. Предпочтительность централизованного управления следует, по крайней мере, из соображений, что при выполнении упомянутых выше условий в центральном вычислительном или управляю- щем устройстве могут быть реализованы и алгоритмы локального поведения, т. е. централизованно решены все задачи, обеспечивающие децентрализованное поведение. При этом централизация открывает, кроме того, ряд до- полнительных возможностей. Даже само по себе центра- лизованное решение локальных задач выгодно, так как, например, чем больше вычислительная машина или сис- тема, тем дешевле на ней выполнение одной арифметиче- ской операции. Правда, уже здесь намечаются некото- рые неприятные мелочи — в предельно централизован- ных системах объем обслуживающих и диспетчерских систем растет быстрее, чем число обслуживаемых источ- ников задач, и пока не известно, сколь велики эти объ- емы для систем предельно высоких сложностей. Однако, даже оставаясь оптимистом в оценках эффективности Централизованных систем высокой сложности, приходит- ся расстаться с частью своего оптимизма при рассмот- рении вопросов надежности вычислительных и управля-
12 ВВЕДЕНИЕ ющих средств, а также вопросов надежности и пропуск- ной способности каналов связи. Здесь нам следует разли- чать понятия надежности и живучести. Концепция надеж- ности в ее классической постановке явно не применима к системам высокой сложности, так как все известные средства борьбы за повышение надежности лишь сни- жают вероятность отказа, причем снижение вероятности выхода из строя одного элемента по сравнению с достиг- нутым сегодня даже на два порядка ничего принципиаль- но не изменяет для систем высокой сложности. Для систем же, подвергаемым экстремальным внеш- ним воздействиям, таким, например, как взрыв или удар, классическая концепция надежности вообще непригодна. В указанных случаях имеет смысл говорить о живучести системы, т. е. способности системы выполнять свои функ- ции или часть своих функций, быть может, медленнее или менее точно, но выполнять, даже при серьезных повреж- дениях ее частей. В связи со сказанным интересно процитировать сло- ва из выступления М. Л. Цетлина на заседании секции Московского физиологического Общества 25 февраля 1965 г. «... и в технике и в физиологии надежность можно понимать по-разному. Чтобы быть точнее, я хочу сказать, что имею в виду следующее неприятное свойство всех на- ших технических изделий: их неравномерную надеж- ность. Я имею в виду совсем глупую вещь: рубашка вы- брасывается, когда у нее изнашивается воротник, в то время как прочие ее части совершенно целы. Любые ма- шины, даже большие и тяжелые, выбрасываются, когда изнашиваются в очень небольших масштабах — не хва- тает буквально, быть может, нескольких граммов метал- ла. Если, скажем, разболталась станина, это уже ничем не возместишь. Умные люди, проектировавшие рубашки во времена моих родителей, продавали к рубашкам за- пасные воротнички. Они прицеплялись к рубашкам по- средством запонок, и их можно было менять. Кстати, у всех технических вещей рабочие части делаются, на- сколько это возможно, сменными. Было бы, конечно, го- раздо приятнее, если бы рубаха вела себя, однако, не так, а просто оттого, что я ее ношу и стираю воротничок, она бы становилась короче. В рубахе имеется запас, обычно порядочный, и рубаху можно было бы носить, наверное,
ВВЕДЕНИЕ 13 в десять раз дольше, чем ее можно носить сейчас. Это, кстати, относится к обуви в той же мере: обувь выбрасы- вается, когда она вообще совершенно новая. Было бы гораздо приятнее, если бы такая компенсация шла прос- то по ходу дела»1). Из сказанного должно быть ясно, что мы подразуме- ваем под понятием живучести. Нетрудно видеть, сколь невысока живучесть централизованных систем — выход из строя центрального устройства полностью лишает систему средств управления, а выход из строя каналов связи ставит в катастрофическое положение подсистему. Естественным путем в борьбе за живучесть является рас- пределение функций управления внутри системы. Об этом еще в 1949 г. в лекциях «Теория и организация сложных автоматов», прочитанных в Иллинойском уни- верситете, говорил Дж. фон Нейман: «Тот факт, что естественные организмы резко по-ино- му относятся к ошибкам и ведут себя совершенно иначе, когда ошибка появляется, вероятно, связан с другими свойствами природных организмов, полностью отсутству- ющими у наших автоматов. Способность естественных организмов выживать, даже при наличии большого числа неисправностей (к чему совершенно не способны искус- ственные автоматы), вероятно, связана с высокой при- способляемостью, способностью автомата наблюдать са- мого себя и реорганизовываться. А это, по-видимому, предполагает значительную автономию его частей. В нерв- ной системе человека такая автономия очень сильна. Автономия частей приводит к эффекту, который можно наблюдать в нервной системе человека и которого нет в искусственных автоматах. Когда части автономны и спо- собны к реорганизации, когда имеется несколько органов, каждый из которых в случае необходимости способен взять на себя управление, между частями могут разви- ваться антагонистические взаимоотношения, и они боль- ше не будут «дружить» и сотрудничать. Весьма вероят- но, что все эти явления между собой связаны»2). !) М. Л. Ц е т л и н, Исследования по теории автоматов и моде- лированию биологических систем, «Наука», 1969. 2) Дж. фон Нейман, Теория самовоспронзводящихся автома- тов, «Мир», 1971.
14 ВВЕДЕНИЕ Таким образом, по крайней мере с точки зрения жи- вучести системы, децентрализация систем управления в части случаев представляется целесообразной. Вторая причина, которая делает децентрализацию полезной, а в ряде случаев и необходимой, связана с ог- раниченными возможностями каналов связи. Нетрудно представить себе ситуацию, когда запаздывание в кана- ле связи является существенным и непреодолимым свой- ством канала. В этом случае управление через централь- ное устройство может оказаться вообще невозможным. Так, например, очевидна невозможность управления с Земли мягкой посадкой космического аппарата на Марс. С другой стороны, децентрализация — вещь, вообще го- воря, не безобидная. Полная децентрализация управле- ния не позволяет оперативно довести до подсистем ин- формацию об изменении целей системы в целом. Да и наивное мнение о том, что если все подсистемы функцио- нируют «хорошо», то «хорошо» функционирует и вся си- стема в целом, верно только в том случае, если подсисте- мы абсолютно независимы. Рассмотрим простой пример1). Имеется 100 рабочих, которые могут выбирать себе место работы на одном из двух предприятий А и Б. Зар- плата каждого рабочего пропорциональна объему про- дукции, выпускаемой на том предприятии, на котором он работает. При этом на каждом предприятии объем выпускаемой им продукции растет с ростом числа рабо- тающих на нем рабочих, однако при этом доля продук- ции, приходящаяся на одного рабочего, т. е. зарплата ра- бочего, падает. Предположим, что рабочие могут свобод- но выбирать себе место работы и что рабочие при этом руководствуются только размерами заработка. При при- нятых нами предположениях стремление рабочего к уве- личению своего заработка эквивалентно стремлению к увеличению производимой им продукции, т. е. к увели- чению производительности труда. Пусть для определенности выпуск продукции на пред- приятии А определяется формулой: УА = 9ХЛ — 0,05Х д и на предприятии Б: Уб =4Хб —0,05 А'б, где Хл и Хб — ’) Модель, связанная с этим примером, рассматривается подроб- но в § 2.4.
ВВЕДЕНИЕ 15 число рабочих, работающих на предприятиях А и Б со- ответственно. Нетрудно видеть, что зарплата, приходя- щаяся на одного рабочего на предприятии А, всегда вы- ше зарплаты на предприятии Б, и в результате при де- централизованном поведении рабочих все они сконцент- рируются на предприятии А. При этом предприятие А будет выпускать УА=400 единиц продукции и зарплата рабочих будет равна СА—4. Однако если нас интересует суммарный выпуск про- дукции на предприятиях Л и Б, то рабочие должны быть распределены по предприятиям следующим образом: Ха = 75,Хб = 25; при этом всего будет выпускаться 462,5 единицы продукции (УА=393,75; У б — 68,75); зарплата на предприятии А равна СА = 5,25, на предприятии Б — Сб=2,75. Использование непосредственного центрально- го управления, т. е. указания 25 рабочим работать на предприятии Б, вызовет их естественное противодейст- вие, так как в этом случае управляющее воздействие вступает в противоречие с локальными интересами под- систем (в нашем примере рабочих). Таким образом, с одной стороны, децентрализованное поведение группы рабочих, каждый из которых стремит- ся к максимизации своей производительности труда, при- водит к тому, что средняя производительность труда, равная 4 ед/раб, не достигает своего оптимального зна- чения, равного 4,625 ед/раб. Для того чтобы это опти- мальное значение было достигнуто, необходимо «прину- дить» 1/4 всех рабочих работать с существенно зани- женной производительностью, равной 2,75 ед/раб. и, сле- довательно, с другой стороны, при принятой системе оплаты централизованное управление столкнется с явным противодействием исполнителей. Легко понять, что приведенная в качестве примера ситуация весьма искусственна и существует достаточное число возможностей обойти возникшие здесь трудности. Однако такая ситуация характерна для задач управле- ния в больших системах, где каждая подсистема в силу различных причин уже имеет свои сформировавшиеся ло- кальные интересы и любое централизованное управление функционирует па фоне совокупного поведения подсис- тем, в той или иной мере явно направленного на удовлет- ворение своих локальных целей.
16 ВВЕДЕНИЕ Суммируя сказанное, можно заключить, что невоз- можно безоговорочно отдать предпочтение чисто центра- лизованному или чисто децентрализованному управлению. Очевидно, необходимо выяснить границы применимости децентрализованного управления, позволяющего исполь- зовать все его преимущества, а затем исследовать воз- можности введения центрального управления, осущест- вляющего достижение стоящих перед системой глобаль- ных целей с учетом совокупного поведения подсистем. К решению поставленной задачи можно подходить по- разному. Во-первых, можно изучать реально существую- щие сложные системы и пытаться выяснить основные принципы организации управления в таких системах. Био- логия дает нам многочисленные примеры такого подхода. Особенно здесь следует отметить работы школы члена- корреспондента АН СССР И. М. Гельфанда1) - Работы та- кого плана мы находим также в экономике и социологии. При создании сложных технических систем разработ- чик, основываясь, как правило, на эвристических сообра- жениях, организует общее управление и взаимодействие подсистем. Попытки обобщить накопленный богатый опыт привели к созданию современной системотехники. Методы исследования операций дают возможность понять основные закономерности управления в организа- ционных системах. Указанные подходы имеют дело с ре- альными системами и, безусловно, открывают огромные возможности для формирования теории управления в сложных системах. С другой стороны, реальные системы не позволяют наблюдать проявления основных законо- мерностей в чистом виде — на них всегда накладываются влияния многочисленных факторов, связанных с функ- ционированием системы как таковой. Стремление к по- строению формальных моделей, позволяющих рассмат- ривать процессы управления в сложных системах, при- вело к возникновению математической (общей) теории систем. В своем современном состоянии математическая теория систем уделяет основное внимание разработке формального аппарата, как правило, в рамках теории динамических систем и эргодической теории, и в силу !) Результаты исследований биологических систем, проводимые этим научным коллективом, практически полностью определили на- правление модельных исследований, рассматриваемых в этой книге.
ВВЕДЕНИЕ 17 этого оставляет в стороне содержательную интерпрета- цию изучаемых объектов. В то же время, как образно выразился один из участников Международного симпо- зиума в Суханово (Моск, обл., 1969 г.), в области искус- ственного разума и теории сложных систем «мы еще не слезли с деревьев» и очень важно именно в период формирования теории сохранить яркую содержательную интерпретацию решаемых задач. При этом естественно возникает реальная опасность того, что вместо полноцен- ной теории мы получим коллекцию более или менее ин- тересных решенных задач. Однако этого не следует боять- ся, так как одновременно возникнут два очень важных и совсем не побочных продукта — опыт решения задач и язык, на котором об этих задачах удобно говорить, а именно опыт и язык образуют тот фундамент, на кото- ром можно строить настоящую теорию. И не исключено (хотя и не обязательно), что язык дифференциальных уравнений, используемый в математической теории си- стем, окажется не тем языком, на котором надо говорить о больших системах. Для изучения основных закономерностей организации управления в сложных системах естественно попытаться построить некоторую последовательность моделей, на ко- торых попробовать набрать опыт и выработать язык, удобный для «разговоров о сложных системах». Можно надеяться, что все это позволит создать предпосылки для формирования полноценной теории. Такой подход не является методологической новинкой и широко используется в науке. В связи с этим здесь уместно привести слова И. М. Гельфанда: «Если взять для примера квантовую механику, то в ее становлении можно выделить два этапа. Первый этап, когда Нильс Бор создал философию квантовой механики. Формул еще нет, а если они и есть, то не совсем такие, как нужно, или совсем не такие. Второй этап — бурный расцвет, превра- щение в строгую область физики с большим количеством строгих формул. Но этот этап — все же второй, он возмо- жен лишь после первого этапа1)». По тексту цитируемое !) Введение ко второму разделу в книге М. И. Цетлина «Иссле- дования по теории автоматов и моделированию биологических си- стем», «Наука», 1969.
18 ВВЕДЕНИЕ кончается словами: «Так вот в биологии еще не наступил первый этап». С полным основанием слово биология можно заменить словами теория сложных систем. В предлагаемой вниманию читателя книге описыва- ется совокупность моделей поведения, которые, как нам кажется, с одной стороны, позволяют получить ряд интересных характеристик совместного поведения систем объектов с явно выраженными локальными интересами и, с другой,— позволяют построить систему представле- ний и язык, на котором удобно говорить о сложных си- стемах *). В качестве элементарных объектов, совокупное (кол- лективное) поведение которых мы будем изучать, исполь- зуются конечные автоматы. Впервые идея о том, что ко- нечные автоматы являются весьма удобным объектом для построения моделей сложных, в том числе и биологиче- ских систем, была высказана, по-видимому, Дж. фон Нейманом* 2). Однако направление работ, связанное с по- строением моделей коллективного поведения, было сфор- мулировано и развито М. Л. Цетлиным. В 1960 г. М. Л. Цетлин начал изучать вопросы пове- дения автоматов в случайных средах и предложил кон- струкцию автомата с линейной тактикой, образующего в этих средах асимптотически оптимальную последова- тельность. Постановка задачи о поведении автоматов в случайных средах была вызвана следующими причина- ми. М. Л. Цетлин предполагал, что можно «атомизиро- вать» сложное поведение, т. е. при изучении сложного поведения можно выделить элементарный поведенческий акт и сформулировать элементарную поведенческую за- дачу. Если после этого построить устройство (конечный автомат), хорошо решающее элементарную задачу, т. е. автомат, обладающий целесообразным поведением в эле- ментарной ситуации, то сложное поведение сложного ’) Говоря здесь о языке, мы не имеем в виду некоторую формаль- но-логическую систему. Речь идет о возможности говорить о функ- ционировании сложных систем в терминах коллективного поведения автоматов. 2) См. об этом Введение редактора (А. Беркса) в книге Дж. фон Неймана «Теория самовоспроизводящихся автоматов» («Мир», 1971). Как утверждает А. Беркс, концепция Дж. фон Неймана в кибернети- ке, в отличие от концепции Н. Винера, вообще интерпретировала ки- бернетику как теорию автоматов.
ВВЕДЕНИЕ 19 объекта можно рассматривать, как результат совокупно- го поведения большого числа элементарных объектов, каждый из которых решает элементарную задачу. В качестве элементарной поведенческой задачи М. Л. Цетлин выбрал задачу о выборе одного из несколь- ких действий при случайном подкреплении — задачу о по- ведении автомата в случайной среде. Выбор этой задачи в качестве элементарной не случаен. Действительно, при- веденная выше постановка задачи может быть доведена до абсурда следующим образом: любое сложное поведе- ние, базирующееся на конечном объеме памяти, может быть представлено как порождаемое реализацией алго- ритма с конечной памятью, т. е. конечным автоматом; тогда задача об «атомизации» поведения автоматически сводится к задаче нахождения декомпозиции исходного автомата или к задаче построения сложного автомата из элементарных (базовых) автоматов, т. е. к клас- сической задаче синтеза конечных автоматов1). Стремле- ние сохранить содержательную сторону постановки при- вело к выбору в качестве элементарной задачи формаль- ного аналога задачи о Т-образном лабиринте, по которо- му под неусыпным вниманием зоологов, физиологов и психиаторов всего мира ползали, бегали и плавали чуть ли не все представители живого от планарии до человека2). Следующий и основной вопрос, который при этом во- зникал, это вопрос о том, сколь сложные формы поведс ния могут быть реализованы совокупностью объектов, хорошо решающих элементарную поведенческую задачу и каковы основные закономерности такого совокупного (коллективного) поведения. Именно этот вопрос был ос- новным с самого начала, и он вызвал к жизни постановку 1) Примеры того, как такая постановка сохраняет своп интерес в рамках изучаемой тематики, содержится в главе 5. 2) Справедливости ради следует отметить, что человека не застав- ляли ползти или бежать по лабиринту, лабиринт ему заменял набор кнопок. Автор должен сознаться, что в 1961 г. в лаборатории М. А. Алексеева Института высшей нервной деятельности АН СССР М. Л. Цетлин «гонял» его в лабиринте. О результатах подобных экспериментов и их связи с автоматными моделями см. работу М. А. Алексеева, М. С. Залкинда, В. М. Кушнарева «Решение чело- веком задачи выбора при вероятностном подкреплении двигательных реакций» в сборнике «Биологические аспекты кибернетики» (АН СССР, Москва, 1962).
20 ВВЕДЕНИЕ задачи о поведении автоматов в случайных средах, как промежуточного этапа, направленного на создание «строительного материала» для моделей1). В 1961 г. появились первые статьи М. Л. Цетлина, посвященные поведению автоматов в случайных средах, и круг лиц, занимающихся этими вопросами и работаю- щих с М. Л. Цетлиным по этой тематике, начал расши- ряться. В эти годы автоматными моделями начали зани- маться В. Ю. Крылов, И. П. Воронцова, В. А. Боровиков. В. И. Брызгалов, И. И. Пятецкий-Шапиро, В. И. Крин- ский, В. А. Пономарев и, несколько позже В. Л. Стефа- нюк, А. В. Бутрименко, С. Л. Гинзбург, М. В. Мелешина, А. М. Гершт. С самого начала активный интерес к этой тематике проявляли И. М. Гельфанд, Л. И. Розоноэр, М. М. Бонгард, Э. М. Браверман. В январе 1963 г. в Комарове под Ленинградом был проведен первый расширенный семинар группы киберне- тики Вычислительного центра Ленинградского отделения Математического института АН СССР2), на котором при- сутствовали все лица, работавшие над автоматными моделями поведения совместно с М. Л. Цетлиным. Вся творческая жизнь М. Л. Цетлина была связана с биоло- гией, и работа над моделями поведения во многом стиму- лировалась его биологическими интересами, хотя уже на первом семинаре обсуждались возможные техниче- ские, экономические и социологические аналогии и моде- ли. Тематика семинара выходила за рамки только авто- матных моделей поведения и включала обсуждение широкого круга вопросов, связанных с организацией сложного поведения, таких как распознавание образов, *) Вызывает некоторое удивление тот факт, что, будучи вспомо- гательной, задача о поведении автомата в стационарной случайной среде продолжает и по сей день отвлекать на себя значительные уси- лия. По прошествии более чем 10 лет все время продолжают появ- ляться работы, как в СССР, так и особенно за рубежом, изменяющие, модифицирующие и дополняющие конструкции автоматов, облада- ющих целесообразным или асимптотически оптимальным поведением. При этом в моделях собственно коллективного поведения использу- ются только три известные конструкции — автомат М. Л. Цетлина (автомат с линейной тактикой), автомат В. И. Кринского («доверчи- вый» автомат) и автомат Роббинса. 2) С 1965 г. лаборатория кибернетики Ленинградского отделения Центрального экономико-математического института АН СССР.
ВВЕДЕНИЕ 21 непрерывные среды, физиологические модели и т. п. Бла- годаря присутствию физиологов семинару удалось избе- жать при обсуждении биологических моделей столь ча- стой для подобных дискуссий вульгаризации физиологи- ческих данных. К январю 1963 г. был сделан крупный шаг в развитии тематики — были сформулированы основные положений! игр автоматов и изучены простейшие игровые модели. Последнее позволило уже на семинаре говорить о моде- лях совместного поведения автоматов и наметить основ- ные направления работы. В это же время В. С. Гурфин кель предложил игру, которая затем легла в основу модели игры Гура, сыгравшей существенную роль в раз- витии аналитических методов исследования игр. Начиная с января 1963 г. расширенный семинар проводится каж- дый год, объединяя лиц, работающих над задачами кол- лективного позедения автоматов и формируя некоторый незримый (как теперь принято говорить) коллектив, свя- занный общностью точек зрения и методологией, кото- рый год от года расширяется. К лету 1966 г. исследование коллективного поведения автоматов сформировалось в самостоятельное научное направление, несомненным лидером и вдохновителем которого был М. Л. Цетлин, питавший работавший с ним коллектив постановками задач и подвергавший беском- промиссной критике полученные результаты. Существенным этапом в развитии тематики была за- щита М. Л. Цетлиным в 1964 г. докторской диссертации «Конечные автоматы и моделирование простейших форм поведения»1). В этой работе были подведены итоги работ по конструкциям автоматов, матричным и однородным играм. Дальнейшее направление работ было связано, во-пер- вых, с изучением моделей, имеющих очевидную приклад- ную содержательную трактовку, а именно, моделей уп- равления сетями связи (А. В. Бутрименко, В. Г. Лазарев), коммутационными устройствами (В. М. Ченцов), системой совместно работающих радиостанций (В. Л. Стефанюк) и др., и, во-вторых, с развитием математического аппара- ’) Опубликована в «Успехах математических наук», т. 18, № 4 (112), 1963.
22 ВВЕДЕНИЕ та, позволяющего получать аналитические оценки пове- дения (В. А. Волконский, А. А. Милютин, Б. Г. Питтель, В. И. Кринский, В. А. Пономарев, В. А. Боровиков и др.). В результате проведенных работ стала очевидной не только возможность описания поведения сложных систем на языке коллективного поведения, но и очевидная воз- можность использования идей и методов коллективного поведения для организации управления в реальных сис- темах. Кризис, возникший из-за внезапной смерти М. Л. Цет- лина в мае 1966 г., был преодолен на пятом ежегодном семинаре в 1967 г. На шестом семинаре впервые широко рассматривались экономические модели и вопросы орга- низации коллективного поведения в экономических си- туациях. В эти годы круг лиц, занимающихся вопросами кол- лективного поведения, существенно расширился, сформи- ровался ряд групп, как, например, группы Л. И. Розоно- эра (ИПУ), С. В. Фомина и В. Г. Лазарева (ИППИ), В. Г. Сарговича (ВЦ АН СССР), Д. А. Поспелова (МЭИ, а затем ВЦ АН СССР), Г. Н. Церцвадзе (ТГУ) и ряд других. В это же время моделями поведения автоматов начали заниматься за границей, в частности, в США, од- нако эти работы не отошли пока от простейших моделей поведения—поведения автомата в случайной среде (Чандрасекар, Фу, Шен и др.). Исследование моделей коллективного поведения ав- томатов в настоящее время сформировалось в самосто- ятельное научное направление. Регулярно проводятся симпозиумы и школы по этой тематике, на всесоюзных конференциях работают секции по вопросам коллектив- ного поведения автоматов. В Секции технической кибер- нетики Научного совета по проблеме «Кибернетика» при Президиуме АН СССР создана подкомиссия по теории коллективного поведения автоматов и игровым методам управления. Рассматриваемое направление возникло в СССР и развивалось советскими учеными и лишь в по- следние годы начали появляться работы этой тематики за рубежом. Следует заметить, что имеются и другие направления, в той или иной мере занимающиеся вопросами изучения моделей коллективного поведения в сложных системах.
ВВЕДЕНИЕ 23 Таковы, например, многие модели обмена, модели груп- пового выбора и т. д. По-видимому, наблюдается сближе- ние всех таких подходов, быть может, на базе существу- ющих тенденций к построению «квазитермодинами- ческих» моделей сложных систем. С другой стороны, модели коллективного поведения автоматов имеют свою очевидную специфику и именно тенденция к слиянию различных подходов при изучении моделей коллектив- ного поведения делает необходимым подведение некото- рого итога в развитии моделей коллективного поведения автоматов.
ГЛАВА I ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ §1.1. Постановка задачи В качестве объектов, поведение которых мы будем далее изучать, используются конечные автоматы, т. е. объекты, имеющие конечное число внутренних состояний cpi(i=l, 2, . . . , п), конечное число входных сигналов Si (1=1, 2, . . . , g) и конечное число выходных сигна- лов/™ (т=1, 2, . . . , k). Предполагается, что автома- ты функционируют в дискретном времени, т. е. время t принимает целочисленные значения 1, 2, 3, . . . Автомат задается каноническими уравнениями: ф(/+1)=Ф[ф(0, S(/+l)], (1.1.1а) f(O=F[<p(O]. (1.1.16) Уравнение (1.1.1а) определяет смену внутренних состоя- ний автомата под воздействием входной переменной 3(0> а уравнение (1.1.16)—зависимость выходного сигнала от внутреннего состояния автомата. Функция перехода автомата (1.1.1а) может быть за- дана различными способами. Нам будет удобно зада- вать функцию Ф[ф(0, S(/-|-l)] системой матриц. Каждо- му значению Sz входной переменной соответствует мат- рица состояний ||а0(Sz) || (/, /= 1, 2, . . . , п), которая определяет смену состояний автомата под воздействием входного сигнала Sz. Для детерминированного автомата матрицы Цао(Sz) Ц являются простыми, т. е. каждая их строка содержит в точности один элемент, равный единице, а все осталь- ные элементы строки равны нулю. При этом, если ф(/)=фо S(/H-l)=Sz и ao(Sz) = U то ф(/+1)=ф5. Стохастическим автоматом мы будем называть авто- мат со стохастическими матрицами состояний llazj(Sz) Ц (O^afj(Sz)^l,2 = !)• Элемент ao(Sz) матрицы i состояний определяет вероятность перехода автомата из
постановка задачи 25 § i.i) состояния ф/ в состояние под воздействием входного сигнала Si. Нетрудно видеть,.что каждой матрице состояний де- терминированного автомата соответствует ориентирован- ный граф состояний, вершины которого соответствуют состояниям автомата, а дуги — элементам сид причем вершина I связана с вершиной j, только если ац==1. В случае стохастических автоматов можно задавать автомат набором графов состояний, приписывая каждой дуге вероятность соответствующего перехода. Мы будем рассматривать поведение автомата во внеш- ней среде Е. Это озна- «ает, что выходные сигналы автомата А (рис. 1.1) являются входными сигналами для некоторого устрой- ства Е, которое в свою очередь порождает входные сиг- налы для автомата А. Внешнюю среду вообще говоря, также можно рассматривать как некоторый автомат (де- терминированный или стохастический), поведение кото- рого зависит от его внутреннего состояния, внешних входных сигналов и, быть может, времени. Выходные сигналы f(i) автомата А мы будем далее называть действиями, а входные сигналы S (t) — реакцией среды. Будем предполагать, что реакции среды, вос- принимаемые автоматом А, разбиваются на два класса: класс благоприятных реакций S (0=4-1 (выигрыш) и класс неблагоприятных реакций S(t)= — 1 (проигрыш, штраф). Внутри каждого из этих классов реакции среды для автомата неразличимы. Таким образом, множество входных сигналов содержит только два элемента: +1 и —1. Функционирование автомата во внешней среде опре- деляется взаимодействием автомата со средой. Рассмот- рим простейшую задачу о поведении автомата в стацио- нарной случайной среде. Будем говорить, что автомат А функционирует в ста- ционарной случайной среде С—С(а\, . . . , а^), если действие автомата и значения его входной переменной связаны следующим образом: действиеfm(/n= 1,2,...,Л), произведенное автоматом в момент времени t, влечет
26 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 за собой в момент времени (/+1) значение S= —1 (про игрыш) с вероятностью рт — —%— и значение 3= + 1 (выигрыш) с вероятностью qm = т» Здесь —рт=а.1П (|ат| 1) имеет смысл математического ожидания вы- игрыша за действие fm. Пусть в момент времени t автомат находится в состоя- нии фь которому соответствует действие fm\ тогда веро- ятность перехода из состояния фг- в состояние ф;- опреде- ляется как Pij— Рт&Ц (S - 1) -J-(S — | !)• (1.1.2) Заметим, что 'ZPii = 1) +'Vtqmaij(+ 1) = рт + qm = 1 ' ' ' (Ы.З) и, следовательно, матрица ||ру||— стохастическая. Таким образом, поведение системы «автомат — стационарная случайная среда» описывается дискретной цепью Марко- ва. В том случае, когда конструкция автомата (набор матриц +1) || и Нсц-Д —1) ||) такова, что цепь эргоди- ческая, существуют финальные вероятности состояний, не зависящие от начального состояния. Обозначим через rt- финальную вероятность состояния <рг автомата в среде С и через ат (т=1, 2, . . . , k) фи- нальную вероятность действия fm, т. е. сумму финальных вероятностей состояний, в которых автомат делает дей- ствие fm. Тогда математическое ожидание М(А, С) выиг- рыша за один шаг автомата А в среде С определяется формулой k А4(/1, С) ~ т—Л (1.1.4) Очевидно, что min а,п С М (Л, С) < max ат. т т (1.1.5)
§ 1.1] ПОСТАНОВКА ЗАДАЧИ 27 Если автомат выбирает свои действия независимо от реакций среды и равновероятно, то математическое ожи- дание его выигрыша k ^о=4'2а'"- (ы.6) т=1 Автомат А обладает целесообразным поведением в среде С, если М(А, С)>М0. (1.1.7) Вообще говоря, задача построения автомата, обладаю- щего целесообразным поведением в данной среде С, три- виальна, так как ее решением является автомат с одним внутренним состоянием, в котором он выполняет то дей- ствие, за которое в данной среде полагается максималь- ный средний выигрыш. Такой автомат обладает «апри- орной целесообразностью», т. е. целесообразность его поведения основывается на априорном знании парамет- ров случайной среды. Далее, во всяком случае для ста- ционарных случайных сред, нас будут интересовать авто- маты, «априорной целесообразностью» не обладающие. Говоря, что автомат обладает целесообразным поведени- ем в среде С, мы будем подразумевать, что он обладает целесообразным поведением в каждой из /г! стационар- ных случайных сред, полученных из среды С(аь ... ,аЛ) всеми возможными перестановками параметров Последнее означает, что функция М(А, С) является сим- метрической функцией параметров ат. Автоматы, обеспе- чивающие такую функцию Л1(А, С), будем .называть ав- томатами без «априорной целесообразности», или сим- метрическими автоматами. Рассмотрим пример симметрического автомата, обла- дающего целесообразным поведением в стационарной случайной среде. Пусть автомат имеет k состояний фг- (/=1, 2, . . . , k) и k действий При выигрыше автомат сохраняет свое состояние (действие), а при про- игрыше изменяет его с вероятностью у. и сохраняет с ве- роятностью (1—у{). Мы будем рассматривать две моди- фикации такого автомата:
28 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ 1ГЛ. I а) в случае смены состояния ср* автомат переходит в состояние фи+о при t=l, 2,..., k — 1 и в состояние Ф1 при i=k. б) в случае смены состояния ф< новое состояние выби- рается случайно, причем вероятность выбора одинакова для всех состояний, не зависит от ф* и равна l/k. Рис. 1.2. Рис. 1.3. Соответствующие графы состояний приведены на рис. 1.2 и 1.3. С учетом (1.1.2) матрица переходных веро- ятностей имеет вид для случая а): 1 - TiPt 0 0 ... О О О 1 — у2р2 ЪРч 0 ... О О ТлРй 0 0 0 ... О 1 — YftPh1
S 1.1] ПОСТАНОВКА ЗАДАЧИ 29 и для случая б): 1-^ТЛ м* k 1 ~~k 11£1 . k k k •UP* ‘ k .(1.1.9) Wk Wk Wk . Л-1 k k k ' ’ ’ 1 k ^bPk Для матрицы (1.1.8) финальные вероятности находятся из системы уравнений: (fl П(1 — Y1P1) + rkyhph состояний (1.1.10) п ---п(1-У1/Л) + п iTi 1 Pi-1- Из (1.1.10) находим, что riViPi = r^kpk, riYiPi>7i-iYi-iPi-i h и из условия нормировки 2r»= 1 имеем w I г. - хл I (»•=/=!)> (1.1.11) i=l Уравнения для финальных вероятностей состояний матрицы (1.1.9) имеют вид 1. 1 П = г<|1------------------г~ liPi V- (1-1.12) Из этой системы уравнении находим 1 k riXiPi т 2 r'V/P/ /=1 и из условия нормировки имеем (1.1.11). Для рассматриваемого примера симметрического ав- томата Г{=О{. Обозначая обе модификации автомата
30 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I через 7\, имеем M(Tk,C)= Исходя из требования симметрии, для всех i= 1, 2, ..k\ тогда полагаем 'уг=у=ЛО М(П,С) (1.1.14) (1.1.13) Заметим, что k ^ai M(Th,C)-M0=l- , - -4- = 1 — a i 1 so-м h ==_i_________- > o. k V I (1.1.15) Следовательно, автомат Г* при любых у=#0 обладает в стационарной случайной среде целесообразным поведе- нием [равенство в (1.1.15) достигается при сц—а для всех /= 1, 2, .... Л]1). !) Справедливость (1.1.15) следует из того, что среднее арифме- тическое неотрицательных чисел больше среднего гармонического. Действительно, при 0
§ i.n постановка задачи 31 Заметим, что в выражении (1.1.13) от конструкции ав- томата зависят только параметры yi. Попытаемся увели- чить математическое ожидание выигрыша и, следова- тельно, целесообразность поведения автомата за счет соответствующего выбора его конструкции при сохране- нии свойства симметрии. Для этого сделаем так, чтобы ?i=T(Pi), т. е. чтобы параметр yi зависел от Эффект такого рода может быть получен, если рассматривать ав- томат как композицию двух автоматов: автомата Тк и автомата памяти В (рис. 1.4). Рис. 1.4. Выходная переменная ф(0 автомата В принимает два значения, 4-1 и —1. Автомат Тк изменяет свое со- стояние тогда и только тогда, когда s(t)= — 1 и ф(/) = = — 1. Если автомат В таков, что ф = —1 только в одном из состояний, например, в состоянии ср,, а во всех осталь- ных состояниях ф(<р,) = + 1 (1=2, 3, ..., п), то нетрудно видеть, что вероятность пребывания автомата В в состо- янии epi при условии, что автомат Тк делает действие fm, P[<f>(t)=w\f(t) =Дп], есть финальная вероятность со- стояния <pi в цепи Маркова со стохастической матрицей Ы1 = рт к/ (- ОН + Япг к/ (+1)11- (1-1-16) где матрицы ||a(S)||—матрицы состояний автомата В1). Пусть Ym=y(pm)=P[fp(Z)==<pi|f(/)=fm]; тогда к к 2ат у * 4 I (Рт) Рт 7 (₽т) М(Л, С) = V '---------= 1 - —-1------------• (1.1.17) (Рт) Рт 2 7 (Рт) 0 ат) т=1 т—1 !) При этом, естественно, предполагается, что матрицы ||а{y(S)J таковы, что цепь эргодична.
32 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 Можно показать, что задача повышения целее аз- ности поведения автомата сводится к задаче г ~' са- ния конструкции автомата В, для которого >0,J 4рт ’ В следующем параграфе мы рассмотрим ряд приме- ров конструкций автоматов типа рис. 1.4, обеспечиваю- щих оптимальное поведение в стационарных случайных средах. § 1.2. Асимптотически-оптимальные последовательности симметрических автоматов В предыдущем параграфе была сформулирована за- дача о поведении автомата в стационарной случайной среде и введена общая конструкция симметрического ав- томата (см. рис. 1.4). Ниже мы рассмотрим ряд конкрет- ных конструкций автоматов. Очевидно, что математиче- ское ожидание выигрыша автомата А в среде С М(А, С) не может превосходить maxaw (1.1.5). Нас будут инте- т ресовать конструкции автоматов, для которых М(А, С) приближается к М max — max ат- rn Последовательность автоматов Ль А2, ...» Ап называ- ется асимптотически-оптимальной, если 11m М (Ап, С) — М max* (1.2.1) П-*оо Автомат, принадлежащий асимптотически-оптимальной последовательности, при достаточной величине номера п !) Действительно, если мы имеем два действия fi и /2 и pi>p2, то для целесообразности поведения необходимо y(pi) >у(рг). С дру- гой стороны, как видно из (1.1.17), lim М (A, С)=тах («1,.. >Яь)== Л-*оо 1 (pi) == аг только если lim - = оо (/ г) и, очевидно, lim \(р «ц) = О, П-*оо I ("г) П-+ЭЭ г т. е. для асимптотической оптимальности необходимо, кроме того, дп
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 33 производит почти всегда то действие, при котором веро- ятность выигрыша максимальна. Далее в качестве номе- ра автомата в последовательности мы будем использо- вать число состояний автомата памяти В (см. рис. 1.4), называя его емкостью памяти автомата. Рассмотрим конструкцию автоматов В, в которых ав- томат имеет п состояний фг (1=1,2,..., п) и два выходных сигнала ф(ф/), причем ф(ф1) = —1 и ф(ф1)= + 1 (г=2, 3, ..., п). Как мы уже отмечали выше, в этом случае P[<p(O=<pi|f(O =Ап]=у(Рт) может быть вычислена как финальная вероятность состояния <pi при условии, что ве- роятность штрафа не зависит от действия, которое вы- полняет автомат, и равна рт. Последнее утверждение с очевидностью следует из рассмотрения функционирова- ния автомата только в те моменты времени, когда f (/) -- —fm, и того факта, что автомат В в момент смены дей- ствия всегда находится в одном и том же внутреннем со- стоянии фь Назовем у(рт) стационарной вероятностью смены действия. Обратимся теперь к конструкциям кон- кретных автоматов, образующих асимптотически-опти- мальные последовательности. 1. Автомат с линейной тактикой Ln, Автомат с ли- нейной тактикой Ln,k имеет k состояний автомата Th (k действий fm) и и состояний ф! автомата памяти BLn Функция смены состояний для автомата В tn имеет вид Ф(г -|- 1) — tnaxll, min (/г, ф(/) -| 3(0)1- (1.2.2) Функции (1.2.2) соответствует граф смены состояний на рис. 1.5. ^2 Рз Рп-1 РЪ S = —1 О’------о*------------------Ое-----с S= + t Рг Рг ---х>— #7-7 XD--- Рис. 1.5. Пусть 0 = Р [ф (/) = <р. 17 (f) xzz^J.KaK уже отмечалось выше, мы можем вычислять г™ в предположении, что ве- роятность штрафа не зависит от f(t) и равна рт. Тогда
34 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ, 1 му уравнений для финальных вероятностей: непосредственно из вида графа на рис. 1.5 имеем систе- ГТ - гТр,п + Г^р,п, tn tn , I tn (1 О Q\ rt - ri-iqin -’r ri+ip,n, U-Z.dj m _ m n i тп Tn — Tn—\(Jin “r Tn4m* Последовательное исключение переменных в (1.2.3) дает m _ пи г—1 А _ Ут __ 1 + ап /1 О Л\ Ti - Г[ кщ , A/п -- — — 1 __ > (1.2.4) "til 1 utn откуда, используя условие нормировки 2УГ=Ъ имеем i 1 Л —1 '» V 11 ._ 1 Т1 Aw — 1. / О Окончательно 1________________________________1 (1.2.5) Далее, из (1.2.5) и (1.1.17) следует1) Из (1.2.6) so-’:) -И (£».«, С) 44-—^- у 'J 21 ni“ 1 а'п (1.2.6) lim М (Ln,h, С) = п-*&> maxа1П, если maxam>02), т пг если шахат<0. т *)Имся в виду, что ( 1 - Х„,) pnl =- pin ~qm=— ат. 2) Условие max «т>0 эквивалентно условию maxX/n> 1. В слу- хи т чае, когда max am= 0 и max Х/п = 1, т tn —1 =0.
§ 1.2] АСИМПТОТИЧЕСКИОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 35 Таким образом, в стационарных случайных средах, в которых существует действие, обеспечивающее неотрица- тельное математическое ожидание выигрыша, автоматы с линейной тактикой Ln, к образуют асимптотически- оптимальную последовательность. Если условие неотри- цательности тахп,п не выполняется, то с ростом емко- ni р сти памяти M(Ln,k, С) стремится к среднему гамониче- скому чисел ат. Поскольку среднее арифметическое неотрицательных чисел больше их среднего гармониче- скою, то и при шах ат <С. 0 целесообразность поведения автомата с линейной тактикой не теряется. 2. Автомат В. И. Кринского Dn,k («доверчивый» ав» томат). Автомат Dn,h, так же как и автомат с линейной тактикой, имеет /г состояний автомата 7\ и п состояний Ф,- автомата памяти ВПп. Правило смены состояний для автомата BD п следующее: <p(/+l)=max[l,nS(f+l),<p(O—1]. (1-2.7) Соответствующий этому правилу граф смены состояний приведен па рис. 1.6. Рис. 1.6. Непосредственно по рис. 1.6 можно выписать систему уравнений для определения г™ : __ т । т Г1 — Рт Ч’ Г2 рт, т __ т ?1 — Г С^-ХРтч (1.2.8) т ~ Гп — Чт*
3G ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 С помощью подстановок вычисляем rT = (Z - 2, 3,...,/;), гГ- I (рт) = р?п1. (1.2.9) Из (1.2.9) и (1.1.17) следует V V пп 2ш1 (1 — а \11 м (Dn.k, С) = = т=Л хт) . (1.2.10) Нетрудно видеть, что lim М (D,lift, С) — max а1П, (1.2.11) п -> оо т и автоматы Dn, образуют в любых стационарных слу- чайных средах асимптотически-оптимальную последова- тельность. 3. Автомат Роббинса Rn, k- Автомат Rn, k во многом сходен с автоматом Dn, ft. Отличие состоит в том, что при смене действия автомат Вдп из состояния ср t переходит Рис. 1.7. в состояние <р„. Правило смены состояний для автомата BRn следующее: <p(f + 1) = maxU(2— ср» (/)), nS(t + 1), <p(t) - 1]. (1.2.12) Граф смены состояний, соответствующий этому пра- вилу, приведен на рис. 1.7.
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 37 Граф на рис. 1.7 позволяет выписать систему уравнений для определения rf: т т _ Г1 — Г2 Рт, tn ~ ri • ••••• _П1 „ I ,m_ Гл — Qm i H pm. t (1.2.13) Из (1.2.13) и условия нормировки находим = ?(Р/П) = Рт ‘(Pm-l) рГп-i (1.2.14) Из (1.2.14) и (1.1.17) имеем M(Rn,k, (1.2.15) Как и для автомата, lim М (Rn,ki С) = max ат. п-^оо Г11 (1.2.16) Таким образом, автоматы Роббинса образуют во всех стационарных случайных средах асимптотически-опти- мальную последовательность. 4. Автомат В. Ю. Крылова Кп, ь- Автомат Кп,к при выигрыше изменяет свои состояния так же, как и авто- мат с линейной тактикой. При проигрыше'автомат с рав- ными вероятностями увеличивает или уменьшает номер своего внутреннего состояния. В состояниях <pi и <рп авто- мат ведет себя следующим образом: состояние <pi при выигрыше сохраняется, состояние <рп при штрафе сохра- няется с вероятностью ’А и с вероятностью ’А перехо- дит в состояние <pn-i ')• Граф смены состояний автомата Вкп приведен на рис. 1.8, из которого следует система !) Мы несколько изменили поведение автомата в состоянии (pi по сравнению с оригинальной конструкцией для того, чтобы иметь возможность использовать формулу (1.1.17).
38 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 уравнений для определения г™ : Н = Г1 Ptn -Г -у г2Рт, tn т । 1 т Г2 ~ Г1Ят + рпъ Г1П г"1 ( Л ! 1 \ I 1 ~ •i — 'i—1 \Чт { 2 Рт I “• 2" * г+1Рт> (1.2.17) Г™ ___ r'n (л I 1 „ \ I rm (z» I 1 •n — • n—11 4 m -f- “2" Ptn I + rn I qm — pnl Рис. 1.8. Решая систему (1.2.17), имеем tn (Ят~^~ 1\* ‘ ~ 1 \ Рт ) ’ п и из условия нормировки 5 гГ = 1 окончательно: гт _ ( Р"1 ^п~1 И ---- ! (Рт) - (1.2.18) (1.2.19) Из (1.2.19) и (1.1 17) следует 4 M^+iy1-1 (1.2.20) ’) Еще раз заметим, что некоторое отличие (1.2.20) от формулы полученной В. Ю. Крыловым, связано с изменением поведения авто- мата в состоянии фь
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 39 Нетрудно видеть, что limAf (Kn,k, С) = тахят (1.2.21) П-+СО т и автоматы Кп,к образуют асимптотически-оптимальную последовательность во всех стационарных случайных средах. Из асимптотического анализа М(А, С) для рассмат- риваемых конструкций автоматов следует, что автоматы типа рис. 1.4 образуют асимптотически-оптимальную по п последовательность, если ^>0 и ^^-<0. (1.2.22) dptn 9п 4 1 Все рассмотренные выше конструкции автоматов, кроме автомата с линейной тактикой, отвечают условиям ду (рт, п) (1.2.22). Для автомата с линейной тактикой ——-<0 при что и определяет асимптотическую опти- мальность последовательности таких автоматов только в таких стационарных случайных средах, для которых min pm<’/2- tn Заметим, что для рассмотренных выше конструкций асимптотически-оптимальных автоматов наряду с усло- виями (1.2.22) выполняется условие Нт? (рт> п) — 0. (1.2.23) Л-*ОО Глубиной состояния ф/ tZ(срг) !) называется наимень- шая длина последовательности входных сигналов, при- водящая автомат, находящийся в состоянии <рг-, к смене действия. Глубиной автомата d(A) называют наибольшую глубину состояний его автомата памяти d (Л)= maxd(cpi). i Все рассмотренные выше автоматы имеют глубину, равную п. Для того чтобы последовательность автоматов Ль Аг, . . . , Ап была асимптотически-оптимальной, не- обходимо, чтобы dn = d (Лл) -> со при п->со, (1.2.24) *) Речь идет о состояниях автомата памяти В.
40 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ 1ГЛ. I что непосредственно следует из (1.2.23). Автоматы после- довательности, отвечающие условию (1.2.24), будем называть «глубокими». Рассмотрим некоторые свойства глубоких автоматов. Будем ис- пользовать следующие обозначения: ф'г (0—состояние автомата Ап в момент времени /; %п == = min{f:/>0, /(/) ^/(0)}—момент первой смены действия авто- мата; Рф (•)—вероятности событий, определяемых поведением автома- та Ап на полуоси />0 при условии, что в момент времени / = 0 авто- мат находился в состоянии ср. Будем предполагать, что автоматы Ап в стационарной среде С обладают следующими свойствами. Свойство 1. Существуют множества Еп состояний автомата и такие последовательности £л~* 0 (п—> оо) и <зл, что: а) шах р" (т" < < ея, (1.2.25) б) max р"{<рп (/) (Г £"}< е если t > ~п. (1.2.26) ф Иными словами, для достаточно больших п существует такое мно- жество Е состояний автомата и такое о>0, что: а) смена действия за время о мало вероятна, если исходное состояние принадлежит множеству £, и б) где бы ни была система в начале, в любой мо- мент после истечения времени а ее с большой вероятностью можно найти в множестве Е. Состояния множества Е мы будем называть «глубокими». Это свойство можно интерпретировать как инертность, склонность редко менять свое поведение. Для рассмотренных выше автоматов в качестве множества Еп можно выбрать £rt = {<p. ? 0<?<1. (1.2.27) Иными словами, Еп — множество состояний, для которых <^(ф)>гп, т. е. таких состояний, что автомат, находящийся в одном из них в начальный момент времени, не может сменить действие раньше, чем через zn тактов. Тогда утверждения а) и б) верны для автоматов с линейной тактикой, если и для автоматов Кринского, если п\1 Р \(1-г)п1 Ы ] где р = minрт, q = 1 —р. т
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 4} Из свойства 1 следует, что автомат проводит большую часть вре- мени в глубоких состояниях и редко меняет действие. При этом авто- маты простого строения быстро «забывают», через какие состояния данного действия они проходят, так что блуждание по разным со- стояниям до изменения действия обладает эргодичностью и напоми- нает стационарный процесс. Это «забывание», или эргодичность, мы выразим как свойство 2. Обозначим через Ej подмножество состояний в Е, соответствую- щих действию f. Свойство 2. Для стационарной среды С существует распреде- ление вероятностей Ру (Ф) на Ру такое, что max МвН]~P/W|<en- (1.2.28) Распределение Ру есть то «стационарное» распределение вероят- ностей на глубоких состояниях, соответствующих действию f, которое устанавливается при длительном блуждании автомата без смены действия. Из сопоставления свойств 1 и 2 вытекает, что установление «стационарного» режима происходит гораздо быстрее, чем смена дей- ствия. __ Так как «стационарное» распределение Ру устанавливается очень быстро по сравнению с временем до смены действия, естественно рассмотреть новые вероятности событий, которые получаются из ^пе- реходных вероятностей Рф(«) усреднением по ср с вероятностями Ру. Обозначим ф Аналогично, А4ф(-) означает математическое ожидание некоторой случайной величины при условии, что в нулевой момент времени си- стема находится в состоянии ср, и Л</(-) = 2Р/(ф)Л1ф(.). ф Будем называть средним временем до смены действия f величину mf =Л?у(т).. Третье свойство касается порядка выполнения действия. Для про- стых автоматов легко проверяется, например, следующее предполо- жение. Будем называть множеством точек смены действия те со- стояния, в которых автомат может оказаться в момент т смены дей- ствия, если <р(0)е£|: Рх {Ф (т) = > 0, XGEj}.
42 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Пусть tn— момент первого достижения множества Еп после мо- мента смены действия Tn = min{/: t>xn t ^n(t)eEn}, Свойство 3. Для стационарной среды С существуют величины такие, что Рф (ф С*п )g££]-L -1 (и -»со) Ра равномерно по , где множество точек смены действия. Так как для простейших автоматов множества Ч^ содержат по одному состоянию, то для них в качестве величин можно при- нять непосредственно вероятности {ф (т), т. е. вероятно- сти следующего события: после момента смены действия i группаЕк глубоких состояний действия k достигается раньше, чем группа глу- боких состояний какого-нибудь другого действия. Будем говорить, что автомат А п принадлежит классу К2(С), если в стационарной случайной среде он обладает свойствами 1 и 2. Если он обладает всеми тремя свойствами 1, 2 и 3, то будем говорить, что он принадлежит классу Кз(С). Для автоматов класса в стационарной среде С верны сле- дующие утверждения. Лемма 1. бп = о(ту) (п-*оо). Доказательство. Из свойств 1 и 2 вытекает, что для любого целого L ифе^ Фп(Ч!)е£/ . k= 1, 2,..., L] 4- + Le„ < L max Рф {т < < 2Ls„ . Следовательно, mf = MAx)Xl-2Un)Lsn, lim rt-^oo Gn Так как L произвольно, то <зп = О (пу ) при оо. Лемма доказана. Следующая теорема утверждает, что предельное распределение момента т смены действия экспоненциально, что соответствует воз- можности аппроксимировать процесс F(t) смены действия автомата цепью Маркова ( с непрерывным временем). Обозначим
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 43 где ел удовлетворяет неравенствам (1.2.25), (1.2.26) и (1.2.28) и стре- мится к нулю при п -> оо. Очевидно, Prt -♦ 0 (и оо). Теорема 1. Если автоматы Ап в стационарной среде С принад- лежат классу К2(С) и если хп > р„“"в1 для некоторого 6i>0, то р9 {* >*п "t} <ех₽ {- хп с1+а«)): о-2-29> если, кроме того,<ре£у и хп » О (In 1/вл), то Рф (т > хп т, } = exp {- хп (I + ап )}, (1 ^.30) причем |«л|<С(6)р‘-в, где 6 — любое положительное число, а постоянная С (6) не зависит от выбора последовательности {*ш) и начального состояния ф. Следствие. Если автомат в стационарной среде С принадле- жит классу К2(С), то равномерно по фе£у а) Рф {т > xmf } -* е~* (х > 0, п -♦ со); б) если, кроме того, хл—»0в но xn> ПРИ некотором б>0, то ’) Рф{г<х„т/} ~ хп (п—со). (1.2.31) Основная идея доказательства теоремы 1 состоит в следующем. Отрезок [0, tn ] разбивается на 1>я одинаковых пар отрезков. Первый отрезок/-й пары (обозначим его ) имеет длину 2тд , второй — (fn)Ln — 2ап) (обозначим егоД^. При этом, так как отрезки ма- лы в сравнении с Др то согласно свойству 1 вероятностью сменить действие в течение одного из отрезков 6/ можно пренебречь. По- этому остается подсчитать вероятность не сменить действие на одном из больших отрезков Д{. Согласно свойствам 2 и 3 за время 2ал между соседними отрезками Д/_* 11 Д/ автомат успевает «забыть» о своем движении по состояниям на отрезке Л/—i (если не произо- шло смены действия, так что событие «смены действия на отрезке Д^ почти не зависит от события «смена действия на предыдущих отрез- ках Ду, j<Zl»). Поэтому общая вероятность не сменить действие за время t близка к вероятности непоявления события в соответствую- щем пуассоновском потоке событий, т. е. экспоненциально зависит от t. Доказательство теоремы I. Обозначим tn = V, = max Р_[т>/2±1, /=0,1,2,..., Ч^Ф/ Ч М l) а ~ b означает, чго а/b 1 (п->оо).
44 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 где Фу —множество всех состояний, в которых автомат делает действие /, {Ln } — возрастающая последовательность натуральных чисел. Согласно свойству 1 К» < max Рф * <реФу * fwе е1’ т>/-М+ + max Р9 |ф (2з„) е £/, * > /2±1 + феФ/ [ brtj + max Рф |т>/А, ф(вп)еЕ„ Ф(2зя)еЕ.1< ч>еф/ [ J <ЧЛ-1+ ™х 5 рФ1{Ф(’л)=’1’0рфДт>/тг!--2’« Согласно свойству 2 n<3enyz_!+ 2 ?/(W^Jt>/2±-23„)= ФаеЕу ( Ln J “ЗД-1+ 2 ^W^(t>2±-23„17z_1. Фе£/= I Ln j ' Обозначив оп“^/(т^-г -23J,= 2 ?/(1’)рф(т<-г--2зл)- I Ln j ФеЕ У ( Ln J получим Vl < 33„Vz_t + (1 - vn} Vz_, = (1 - va -I- 3г,,) Vt_Y. Так как Vo = 1, то <(1-»п + Зз„Л / = о,1,2,... (1.2.32) Аналогично можно доказать, что для(ре£у PJx>lTL]>(i-vn)‘-^n- O-2-33) I J Используя равенство /иФ(х) = 2 ЛИО/) 1=0
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 45 и монотонность Рф [т> I] как функции от /, получаем t 00 ( Р<₽ т>/г=- , (1.2.34) п Го I п I V (1.2.35) " 1=1 I п ) Используя (1.2.33), имеем для z=l, 2, ... > тв Мф (t) > 21Д [(1 - vrf - 3/s„ ] = = I 1 “(I ~V'^] - 4z (z + ° e“)’ bn [ un £ j ИЛИ vn" (1 - *n) [1 - (1 - <’„)*] - 42 (г 4‘ ° £A‘ (L2-36) В дальнейшем через убудем обозначать положительные числа, которые могут быть взяты как угодно близкими к нулю. Положим шах [у еп , <зп/т^ = рп и рассмотрим сначала случай х ЛП Ь'п Пусть1) Ln = [(In prt )2] п 2 = [(— 1прл)Д’п]. Из (1.2.36) получаем Р„<°(рГ&2)- Подставляя в (1.2.32) l = Ln , получим -V„+3s„) + (1.2.37) где |а« 1 = 0 (Pn~6j)- Потенцируя (1.2.37), получим неравенство (1.2.29). *) Знак [х] обозначает целую часть числа х.
46 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Используя очевидное неравенство max Рф {т>/ + и} <тахРф {?>/) max Рф {т >ц), <реФ f ф ф легко получаем, что неравенство (1.2.29) верно для любых последо- вательностей { хп удовлетворяющих условию Из (1.2.32) и (1.2.34) получаем оценку сверху для величины vn; — « 1 V 1 V/l 1 vn + Зел) . . __ „ — g£ Ln vn 6sn rt rt n н Рп<^.-|-3!п. (1.2.38) Используя неравенства (1.2.33) и (1.2.38) и условие хп =0 ( | In ert |)t выводим оценку снизу для Рф {т > хпт^, Имеем 1П 1Р<₽ {Т > хп'"[} -1- ^п-п ] > 1,1 [ 1 * * * V - -р- - | > п Полагая Ln 1 получаем р«> {т > Vi) > ехР {- хп (’ I- %)} । ° (Кеп) • Отсюда следует соотношение (1.2.30). Лемма 2. Если автомат в стационарной среде С принадлежит классу Ко (Q, то равномерно но среЕу Мф(т) - fnf, Доказательство. Обозначим V = max М (т), V = min М^(х).
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМЛЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 47 Согласно свойствам 1 и 2 имеем: V < max Рф (т < 2з„} 2б„ |- + ™<^PJT>25"’ ‘Р ( ) G Е\ + + Рф {т> 2бп, Ф (2g) е Е }] (V +2з) + + max 2 1Ф(°Я) = ,|’}(Л1ФТ +2а)< < 2з„ + Зе„ (V + 2з„) 4- V Pf (i|>) -Ь 2з„ < 8з„ 4- 3s„V 4- т,. ф Отсюда mf 1--3$„ • 11*111 П-> 00 Аналогично получаем lim (—\ > 1. /1->оо I lllj I Лемма доказана. Теперь докажем соотношения, аналогичные (1.2.29) и (1.2.30) для автомата с линейной тактикой и автомата Кринского, не проверяя свойств 1 и 2 и не используя лемму 2. Приведенное ниже доказатель- ство позволяет получить более точные оценки для этих типов авто- матов *)• Пусть в момент времени 0 автомат находится в одном из сос- тояний действия 1. Обозначим момент первого достижения состоя- ния п через Xi, второго — т2 и т. д. Через т обозначим момент перво- го достижения состояния 1 действия 2, т. е. момент смены действия. Теперь оценка вероятности Рф{т > может быть дана с помощью неравенств рф { > /п|т > TftJ Рф (т > тх) [Рх {т > тх) ]h 1 < Pv {Т > < (п\Х > TL } U - рф > Т1}] [Р1 {т > Т1} ]L-‘ ss 9 Для простоты рассмотрим случай k=2.
48 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I ИЛИ Рф{т>^я} < [?! {t>Ti)]L-1 +Рф{ rL>tn\x >т£ }, (1.2.39) РФ {* > tn} > 1р1 (Т > т1) 1Л“1 - РФ {* < Т1) - Рф{ тк<^ tn [т> Tft }. (1.2.40) Рассмотрим сначала автоматы с линейной тактикой. Величина Р\ {т > Т|} может быть найдена с помощью известных формул, опи- сывающих задачу о разорении игрока (см. [146], гл. XIV, § 2, стр. 289): где q и р — соответственно вероятности выигрыша и штрафа при дей- ствии 1. Вероятность Р± { xk < х | т> Xk } можно рассматривать как композицию k условных распределений вида Pi {ti < х|т > tJ. Лег- ко проверить, что Сп = {тх | т > тх} [q/(q — р)1 (n->oo). Поэтому, выбирая & = kn п L = Ln в виде ( tnfCn) ± ( )а» где а > 1/2, и пользуясь предельными теоремами о больших уклонениях (см., например, [147]), легко проверить, что порядок вероятностей р1 { Tk < tn I т > th } н pi{TL>tnlr>tL} не превосходит exp [—при некотором 0 > 0. Условия предельных теорем легко проверить, используя экспоненциальный характер распределения вели- чины Ti (см. [14G], стр. 299). При Е = Ei(JE2, Ei = {<р:<р>2г/г, f = /i}, Е2 — {(?:([)> zn, [ = f2}, где z — const < 1, получим согласно формулам задачи о разорении игрока ([146], стр. 290), что для <р е Е[ Далее, при вероятность Р<р {^х > Сп | Г > т1} 0 (С—*ао) равномерно по п. Поэтом^, если п —О ( то оценка ехр годится для Рф { xk < tn | T > xk } п Рф { xL > tn | x > TL } при всех ф еРь Таким образом, неравенств-а (1.2.39) и (1.2.40) можно переписать в виде +0 [(“гУ1-г)" + е~ Ц \ Ч / д
§ 1.2] ЛСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 49 Если г, ., Лч \г*п 1 ( \ 1 \ « ' <ln<(vj . fi>T’ f2>max 1 v)’ TO Лр r > м = exP {- {п У (v)n +° 0))} равномерно no ср e E\. Кроме того, легко доказать методом разностных уравнений, что равномерно по ср е Е[ ^ф(т)~(—z9p)2- (-y)'1 (л-00). (1.2.41) Гораздо проще могут быть получены аналогичные соотношения для автоматов Кринского. А именно, для tn—* оо Рф{Т > ‘п } < еХР {- -у (1 + 0 (1))J • Если, кроме того< р'п , где r>max (1/(1—0), 1/z), то {- 1п-~ 0 +°(‘))1 V Ч J II («-*») (I-2-42) равномерно по фе Е\. Элементарными методами можно доказать, что утверждение тео- ремы 1 верно для линейных автоматов и автоматов Кринского при условиях: — J j,n = O(G„), £/г Кр \(1—z)n ' V/ —для линейных автоматов; сл^°[(~р~У ]’ З'‘“’со’ £л = ° I Р<1—z>nl (0<г<1) —для автоматов Кринского. Рассмотрим вероятностный автомат А , действиями и состоя- ниями которого являются действия автомата 4, с вероятностями пе- реходов Pfg (р— вероятность того, что автомат А из точек смены действия переходит в глубокие состояния действия g) и ста- ционарную среду С с вероятностью проигрыша 1//п^ для дей- ствия f. Процесс ср (/) изменения состояния автомата А в среде С есть цепь Маркова. Будем предполагать ее эргодической. Тогда
50 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I можно говорить о финальных (стационарных) вероятностях состоя- ний. Обозначим через o(f) сумму финальных вероятностей состоя- ний, соответствующих действию /, и a (f) — финальную вероятность действия f для автомата А в среде С. Теорема 2. Если автомат в среде С принадлежит классу Кз(С) и для всех fug при некотором 6>0 р1-б=0/^ рп = тах(]/77, \ I /rlf I j то для всех J Легко проверить, что процесс f (/) изменения действий автомата А в среде С есть цепь Маркова с вероятностями переходов Pfg* Pfg = -^, Г *8, Pg8=l-1—Pes. 18 ntf 88 mg Вероятности переходов PfgJW* цепи Маркова зависят как от вероят- ностей перехода автомата А при проигрыше к другому действию так и от вероятностей проигрыша \/т f в среде С. Отсюда следует, что величины х f = a (f) Im[ удовлетворяют системе уравнений 2%=^- а-2-43) Для автоматов с линейной тактикой и автоматов Крииского лег- ко проверить, что величины Pfg при п оо стремятся к некоторым константам, отличным от нуля и единицы (если отличны от нуля п единицы вероятности штрафа в среде С). Отсюда следует, что суще- ствует решение системы (1.2.43), которое удовлетворяет соотношениям где хр положительные константы. Поэтому = te) 41 ит(/)~хр J-T х&те («-» со), т. е. отношения финальных вероятностей пропорциональны отношению средних времен до смены действия. Теорема 2 сводит анализ целесообразности поведения автомата к относительно простой задаче подсчета величин Наметим путь доказательства теоремы 2. Выберем последова- тельность {удовлетворяющую условиям > т1 р!-5» = °(«/) (п - 00 )
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 5} для всех f при некотором б>0. Обозначим через Tj первый момент достижения множества Е после ^я,через Тг— первый момент дости- жения множества Е после Т| + tn п т. д.; — момент первого дости- жения Е после + tn. Пусть <р(/) обозначает состояние автомата в момент t. Легко про- верить, что последовательность cp(Ti), (р(т2), . . есть цепь Маркова на множестве Е. Используя теорему 1 и предположение теоремы 2, можно доказать, что финальные вероятности а (/) множеств Е^ для этой цепи удовлетворяют системе уравнений = 2^(1 + 0(1))=^. (1.2.44) Из сопоставления систем (1.2.43) и (1.2.44) вытекает, что ° (/) ~ <^(/) («—®). С другой стороны, легко доказать, что средние доли времени, прово- димого в состояниях действия f для цепей ср(/) (/=1, 2, . . .) и Ф (Tft) (k = 1 , 2, . . .) эквивалентны при и оо, т. е. '«(f) (/) («—“)• Существенный интерес при изучении поведения асим- птотически-оптимальных последовательностей автоматов в стационарных случайных средах представляет скорость сходимости М(А, С) к стационарному значению. Если ЭЛ—матрица марковского процесса, то 2И' = -Ро + 21 i=i где Ро — lim ЗЯ', Pj = (2И) — дифференциальные мат- /-►00 рицы *) и А/ собственные числа матрицы Э1(Хо= 1). Следо- вательно, скорость сходимости к финальному распреде- ленью определяется значениями собственных чисел цепи Маркова, описывающей поведение системы «стационар- ная случайная среда — автомат». О Дифференциальной матрицей называется матрица, сумма эле- ментов каждой строки которой равна нулю. Вообще говоря, сумма в выражении для ЭД может в зависимости от собственных чисел содержать и члены вида и т- п- Приведенное выражение справедливо для случая, когда корни урав- нения |ЭД — ХЕ| = 0 простые.
52 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Рассмотрим спектр матрицы марковского процесса для автомата Ln 2- Характеристическое уравнение автомата с линейной тактикой Ln 2в стационарной случайной среде С(рь р2) можно привести к виду (*—1) //’1'71 Тп (к 2 И>1<?1) УрУЙ) + Тп (V2 Ур2д2)_ un-i (Х/2 ]/p^Pz) (I-P1-P2) =0, (1.2.45) где Tk (г) и Uh (z)- полиномы Чебышева I и II рода соответственно. < , sin (k + 1) arccos z z n Tk (z) = cos k arccos z, Uk (z) = -----------^7===----------, (1.2.4G) a pi = l — 7i, p2=l—72— вероятности штрафов за первое и второе действие автомата. Из (1.2.45) сразу получаем первое собственное значение 1=1, которое соответствует вектору финальных вероятностей состояний, так что для определения остальных 2п—1 собственных значений 1 нужно исследовать уравнение ,г-- тп (*/2 УР1Ч1) УР141 ип_^Ум1) + УР2<12 2^УЩ_ ип^У12Ур2д2) = 1-А-А- (1-2.47) Прежде‘чем перейти к решению задачи локализации корней урав- нения (1.2.47), заметим, что все корни этого уравнения действительны, так как матрица переходных вероятностей, описывающая функциони- рование автомата Ln 2в случайной среде C(pi, р2), является якобие- вой. Следовательно, в уравнении (1.2.47) достаточно рассмотреть лишь вещественные значения % на интервале — l^l^l. Левая часть уравнения (1.2.47) представляет сумму двух дробно- рациональных функций. Для изучения каждой из них рассмотрим Т„ (Х'а) f(Za) = -tCTx7Sr» d-2-48) где а = 2 Уpq» Пользуясь свойствами полиномов Чебышева Tk (z), Uk (z), корни которых вещественны, различны, перемежаются и лежат на отрезке (—1,1), легко заметить, что функция Г(1/а) является нечетной и на отрезке (—а, а) имеет/г интервалов монотонного роста (рис. 1.9). При этом п — 2 интервала монотонности определяется парами (Ps, Ixs+1) (s=l,2, . . . , п—2) ближайших нулей полинома kit (j.ft=acos-^- (&== 1, 2, . . ., n ~ 1). (1.2.49)
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 53 У левого конца каждого из этих интервалов функция Г(%/а) при- нимает значение —оо, у правого конца — значение +оо. На интерва- ле (—a, a cos [(п — 1) л/n]) функция Г(%/а) растет от — 1/и до оо, а на интервале (a cos(ji/n), а) —растет от — оо до 1/и. Вне отрезка [—а, а] функция Г(%/а) монотонно растет. Представим левую часть уравнения (1.2.47) в виде и воспользуемся установленными свойствами функции F^k/a). Функ- ция Ф(%) на отрезке (—max (2 Уp±q^ 2 Ур2^2), тах (2/Р1<7р 2)/р2дг2)) имеет 2и — 1 интервала, где она монотонно растет, и на концах этого отрезка достигает значений, равных по модулю 7* = Vшах (/>!<?!, p2q2) — min (р1Ч1, p2q2) + -±-. (1.2.51) Вне этого отрезка Ф(Х) монотонно растет для всех |1|> > max(Я’УргОи ^УръУъ)' Из 2п— 1 интервалов монотонности на 2п —- 3 интервалах, определенных нулями полиномов Uп_у^^У и (^/2 УРъЧъЬ функция Ф(А,) принимает все значения от —оо до оо, а на двух (крайних) интервалах — значения от —у* до оо и от — оо до у* (рис. 1.10). На расположение корней уравнения (1.2.47) существенное влия- ние оказывает соотношение между параметрами pi, р2 случайной
54 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I среды С(рь р2). Поэтому в дальнейшем отдельно рассмотрены случаи: 1) pi<l/2, р2<1/2; 2) pi<l/2, р2> 1/2. Случай pi> 1/2, р2<1/2 заменой индексов 1 на 2 и 2 на 1 сводит- ся к случаю 2. Случай же pi> 1/2, р2> 1/2 легко можно свести к с/учаю 1 заменой р2^Ч2, —X в уравнении (1.2.47). Действительно, так как четности полиномов Тп (г) и Un_^z) не совпадают, то уравнение (1.2.47) инвариантно относительно замены Рь Рг *7г> — X. Случай 1. Правая часть уравнения (1.2.47) у = 1—р\ — р2по- ложительна. При этом оказывается, что у>у* и прямая у проходит выше точки у* на рис. 1.10). Но функция Ф(Х) на отрезке [—шах (2Ур^1, 2Yp2^2), max (2]/pi^i, 2Ур2^г) ] 2/1—2 раза принимает все значения от 0 до 4-°°. Отсюда следует, что 2п — 2 корня уравне- ния (1.2.47) локализованы на интервалеЦ/<шах (2/^^, 2/>2^2), Легко устанавливается, что Ф(1)>у и Ф(1)->у при п->оо. По- этому оставшийся корень Хд уравнения (1.2.47) лежит в окрестности точки Х=1. Если же pi>V2, Р2>Уг, то У<У*(/7 на рис. 1.10), и оставшийся (2и— 1)-й корень X* лежит в окрестности точки Х=—1. Случай 2. Пусть сначала у== 1 — pi — Р2>Ъ- Подсчитывая значение у* функции Ф(Х) по формуле (1.2.51), убеждаемся, что У*>|у|- Это означает, что прямая у проходит ниже точки +у* на рис. 1.10), если у>0, и ниже точки — у*(у,1/ на рис. 1.10), если у<0.
§ L2J АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 55 Для вычисления в случае 1 корня X* уравнения (1.2.47) введем переменные coi (А,), сог (X) следующим образом: .______________X__________ Х~ min (2^,2^) ’ (1.2.52) Ch “2 - max (2 Vp^i, 2 ’ Тогда уравнение (1.2.47) примет вид min (2 2 Уp2q2) sh cth + + max (2 YpiQi, 2 Уp2q2) sh w2 • cth л<о2 = 1 — — p2. (1.2.53) Полагая (1.2.54) учитывая, что cth лш 1 + 2^~2л®, и обозначая C’“x min (2 Vpiqi, 2 VpiqJ' C’“2 max (22|/р2?г) (1.2.55) получаем с учетом (1.2.53) уравнение для определения еп 2(min(/p^, shw^-2"*"' + V,Ms) X X sb -1.(45-+ 45).,,. (1.2.56) 2 \ sh coj sh co2 / n Используя далее (1.2.55), получаем окончательное выражение для ел в следующем виде: . (<71-Р1)(?2-Рг) (, „JPi\n,(„ nJP*.Y\ е» * 1-Рг-рг Г1 -р^ + (?2“Р2) И J- (1.2.57) Корень X* вычисляется с помощью (1.2.54) и (1.2.57). Характеристическое уравнение автомата Dn 2в стационарной слу- чайной среде С (pi, рг) имеет следующий вид: (1— X)X«-1 „ *П~Р" Л.п *П-Р2 (1 + Х)Х”-‘ =0. X—ра (1.2.58)
56 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Из (1.2.58) следует, что, кроме корня Х=1, существует корень Л=0, кратность которого равна л—1. Остальные корни, число кото- рых л, удовлетворяют уравнению •\П пп уп Пп Ч1~---£1-+92——^-=(1+Х)Х"-1. (1.2.59) 1~А А — р2 Вводя новую переменную max(pn р2)* (1.2.60) можно (1.2.59) переписать в виде zrt-1(z2 —7)[1 —тах(рп р2) г] — min (qlt q2)(z — '()~ — max (glt <?2) (г — 1) У1 = 0, (1.2.61) где 1 max (px, p2) • Уравнение (1.2.61) относительно переменнойz имеет порядок п-\-2 и содержит два лишних корня: Zi=l, Z2=Y- Для определения области локализации корней (1.2.61) воспользу- емся теоремой Руше, согласно которой, если функции f (z) и g (z) ре- гулярны в конечной области D с жордановой границей Г и на гра- нице |/ (г) | > |£ (г)|, то функции f(z) и F(z) = f(z)+g(z) внутри D имеют одинаковое число нулей. Положим f(z) = zn 1 (г2 — 7) [1 — шах (рх, рг) z], (1 2 62) g (г) = — (min (qt, q2) (г — 7) + max (qlt q.j (z — 1) 7nb min (pn q.,) Тогда на границе ]z] = l+6, гдеО < 6 < при доста- • точно большом п |f (z)| > |g fz)|. Согласно теореме Руше функции f(z) и F(z)=f(z) + g(z) внутри круга [z| = l+6 имеют одинаковое число нулей. Число нулей f (z) внутри круга |z| = l+6 равно л+1 (нулевой корень кратности л—1 и корень z = ±у’/2). Таким образом, уравнение (1.2.61) внутри кру- га |z| = 1+6 имеет л+1 нулей, среди которых два лишних. Возвра- щаясь к переменной X, получим, что для л—1 корней уравнения (1.2.59) имеет место оценка W < (1 + 6) шах (рп р2). (1.2;оЗ) Теорема Руше позволяет получить и нижнюю границу области ло- кализации корней уравнения (1.2.59). Полагая в уравнении (1.2.61). / (z) = min (?1, <72) (г — 7) + max (?1, q.t) (z - 1) 7",] t > (1.2.64) g (г) = — zn 1 (г2 — 7) [ 1 — max (plt p2) г], J
§ 1.2] АСИМПТОТИЧЕСКИ-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 57 получим, что на границе |z| = l— 6 и при достаточно большом n \f(z)\ > |g(X)| ифункции f(z) nF (z)=f (z)+g (z) внутри круга |z| = l—б имеют одинаковое число нулей. Как видно из (1.2.64), внутри круга |z| = 1 — б функция f(z) имеет один корень. Это означа- ет, что все корни (1.2.61) находятся вне круга |z| = l—б. Возвраща- ясь к переменной Л, получим, что все корни уравнения (1.2.59) име- ют оценку |Х| > (1-6) шах (ръ pj. (1.2.65) Объединяя (1.2.63) и (1.2.65), получаем, что п— 1 корней уравне- ния (1.2.59) находятся в кольце (1 — 6) шах (рь р2) <|Х|< (1 + 6) max (рь р2). (1.2.66) Для вычисления оставшегося корня X* рассмотрим уравнение (1.2.59) в кольце (1+6) max (рь р2) |Х| < 1. Используя (1.2.60) и уравнение (1.2.61), легко показать, что при достаточно больших п существует действительный корень Х* = 1—[xmax(pj, р"), (1.2.67) где min (ди дг) ~ 1 + max (plt р2). Таким образом, и для автомата с линейной тактикой Ln, 2 и для автомата Кринского Оп>2 существует собствен- ное число, которое с ростом п, с экспоненциальной скоро- стью стремится к единице. Весь асимптотический анализ поведения автоматов в этом параграфе проводился в предположении об эргодичности соответствующих це- пей Маркова. Для конечных значений п, эргодичность не вызывает сомнений. Однако полученные выше оценки для собственных чисел позволяют усомниться в эргодич- ности соответствующих цепей, т. е. независимости фи- нального распределения от начального состояния, при п,—>оо. Вопрос о единственности стационарного распре- деления вероятностей состояний при п,—>оо остается от- крытым. В заключение параграфа рассмотрим еще две кон- струкции автоматов. 5. Автомат В. А. Пономарева Vn,hh (автомат со срав- нивающей тактикой). Автомат Vn,i,k имеет k состояний автомата Th (см. рис. 1.4) и п, состояний автомата памя- тиВуп1. Автомат Ву . имеет I состояний, в которых выходной сигнал равен — 1 ф (<р,) = — 1 и
58 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I ф(<р0== + 1(/<г<».). Функция переходов автомата Bvnj представлена на рис. 1.11. Автомат Vn,i,k асимптотически оптимален во всех стационарных случайных средах. Рис. 1.11. Математическое ожидание выигрыша для Vn,i,2 дается формулой = + (1.2.68) где <?2 2"~1 - 1 a, =z —----------- 1 41 * — 1 Рг V Z1 ~ 1 Р1 — 1 г и Ах = — А2 = -22-, А =~- Р1 Р2 М Если 1 >А1>Лг (за оба действия среда сильно «штра- фует»), то ОгМ стремится к нулю сравнительно медленно, примерно как 1/1. Если же Ai>%2> 1, тогда 02/01 стре- мится к нулю быстро, примерно как 1/Ах. 6. 8-автоматы. Внешние среды, в которых функциони- рует е-автомат, отличаются от стационарных случайных сред C(fli, а2, ...fik), которые были определены в § 1.1. 8-автоматы в качестве входного сигнала могут воспри- нимать любое число ат. Мы будем говорить, что е-авто-
§ 1.2] АСИМПТОТИЧЕСКО-ОПТИМАЛЬНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 59 мат функционирует в детерминированной стационарной среде D(ai, а2, ..., а1{), если действие fmj произведенное автоматом в момент времени t, влечет за собой в мо- мент времени /4-1 выигрыш величиной Ощ1)- е-автомат может выполнять k действий fi, f2, fh и запоминать в два последовательных момента времени действия f(t— 1) и f(0 и соответствующие им выигрыши a(t— 1) и a(t). Таким образом, число внутренних состоя- ний 6-автомата равно k2a, где а — число различимых е-автоматом значений входного сигнала (точность опре- деления выигрыша), е-автомат с вероятностью (1 —в) (0<е<1) в качестве f(/4-l) выбирает то из действий f(t— 1) и f(t), выигрыш за которое больше, и с вероят- ностью г/k любое из действий ft, f2,..., fk. Нетрудно показать, что функционирование е-автома- та в детерминированной стационарной среде описывает- ся эргодической цепью Маркова, следовательно, суще- ствуют финальные вероятности состояний автомата в данной среде, не зависящие от его начального состояния. Для упрощения последующих выкладок предположим, что ai>a2>—>Qfc. Обозначим через от финальную ве- роятность выбора автоматом пг-го действия (т=1, 2, ..., k) в среде D, а через фу— финальную вероятность состо- яния (/у) смены i-ro действия в момент t на j-e в момент /+1. Система уравнений для фу имеет такой вид: при при при Фо = 1 • h Ф« = -jt 2 + — г=1 h k фо=4"2фг1+^фи’ 1=1 1~* h Фо = “Г 2 ф/‘’ 1=1 (1.2.69) !) В случае, когда ят<0 , естественно говорить о проигрыше.
60 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Для ат получаем рекуррентное соотношение т—1 1 -(1-е) + ’ ni = 2,3,..k, (1.2.70) _ 1 31 1 — е + Ле Очевидно, что при 6=1, т. е. если имеет место лишь слу- чайный выбор действия, am=l/k. При е, отличном от '1, и при е, меньшем 1/k и стремящемся к 0, Oi->1. Если «1 = аг > «3 > ... > ак, = а2 = — и ПрИ е_>о, 01 = 02=72 И T. Д. Следовательно, при достаточно малом е с вероятно- стью, сколь угодно близкой к 1, e-автомат выбирает в де- терминированной стационарной среде D оптимальное действие, т. е. обладает целесообразным поведением. Видоизменим конструкцию 8-автомата следующим образом: автомат (е, п) запоминает последовательность действий и соответствующие им выигрыши за (п+1) мо- ментов времени; тогда для случая а.\>а.2>...>ак . k-1 1“г — 01 [ k — 1\п 1 + — 1) (1 _ е) С увеличением и. целесообразность поведения автомата увеличивается. При и,= 1 получаем 8-автомат. Для случая детерминированной среды 8-автомат не представляется достаточно осмысленным, однако цель введения конструкции 8-автомата становится понятной, если рассматривать не фиксированные выигрыши апг, а предполагать, что для каждого действия fm существует плотность вероятности выигрышей Р?п(а). § 1.3. Поведение непрерывных автоматов в стационарных случайных средах Рассмотренные в § 1.2 конструкции конечных авто- матов работают в дискретном времени. Изучение пове- дения автоматов в случайных средах при непрерывном времени требует отхода от классической модели конеч-
НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ 61 § 1.3] кого автомата. Для этого существуют по крайней мере два пути, одним из которых является использование мо- дели асинхронного конечного автомата [67, 122], а дру- гим— использование модели непрерывного автомата, т. е. автомата с непрерывным множеством состояний. Как мы видели выше, в задачах о поведении автоматов с ли- нейной тактикой в случайных средах память автомата должна фиксировать одно из чисел в интервале 14-п; под действием входного сигнала это число увеличивается или уменьшается на 1 (за исключением крайних состояний). Понятно, что в задачах о поведении автомата в случай- ной среде требуемая точ- ность определения номе- ров состояния весьма не- 1 j высока. С этой точки зре- * * *** I иия в качестве номера L| состояния можно исполь- рис ] 12. зовать число из непрерыв- ного интервала. Такой подход кроме возможности пере- хода к непрерывному времени, позволяет упростить схем- ную реализацию автомата. Рассмотрим возможность обобщения автомата с линейной тактикой Ln>2 на случай непрерывного времени и непрерывного множества состо- яний. Представим автомат Ln,2B виде, изображенном на рис. 1.12. На этом рисунке S(/) = {+1, — 1} — входной сигнал, /'(/) = {+!, —1}—выходной сигнал, x(t) =S(t)-f(t) '), — автомат, обеспечивающий эквивалентность всей конструкции автомату с линейной тактикой \Ln,2. Нетруд- но видеть, что граф смены состояний автомата R имеет вид, изображенный на рис. 1.13, и <р(/-|-1) =max[ — п, min[n— 1, <p(Z) +*(/)]] (1.3.1) Автомат R может быть реализован в виде накапливаю- щего сумматора входных сигналов с ограничением преде- лов суммирования. Очевидно, что такой сумматор может быть реализован в виде интегратора с насыщением, т. е. с ограничением пределов интегрирования, если при 9 Операция умножения двух переменных, принимающих значе- ния из множества {—1, +1}, соответствует операции эквиваленции в алгебре логики.
62 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ (ГЛ. I этом постоянная интегрирования такова, что <+1 [ х (/) dt = v, 't и выходной сигнал интегратора <р ограничен значения- ми— —1)и, соответственно снизу и сверху. Р-П Р-л+1 P-n^Z Р-, Ро Рл-3 Рп-2 Рл-1 (Jk-------х-------<— ••• -<—-----------сх— • • • х—х---------х--------о <Р-п Р-п+1 P-n+Z Р~7 Pl _____/4_____ Рис. 1.13. Рл-J Pn-Z <Pn-7 -X>-----X)-— При этом следует учесть, что на выходе интегратора дол- жен стоять пороговый элемент / (О = sgn (ф) = J если ср > О, если ср<0. Таким образом, непрерывный аналог автомата с ли- нейной тактикой (Ln, 2) может быть построен в виде Рис. 1.14. рис. 1.14. Очевидно, что ес- ли входной сигнал S(t) изменяется только в фиксиро- ванные дискретные моменты времени,то конструкция автома- та на рис. 1.14 пол- ностью эквивалентна автомату с линейной тактикой и на нее распространяются все результаты, полученные в преды- дущем параграфе для автоматов Ln,2. В средах с непрерывным временем непрерывность работы интегратора делает множество состояний автома- та непрерывным, причем изменение этих состояний во времени под действием входа описывается дифференци- альным уравнением первого порядка.
§ 1.3] НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ g3 Всюду ниже мы будем считать, что состояния ф(Л непрерывного автомата Н могут принимать все значения из некоторого отрезка [—Сь с2], изменяясь во времени t непрерывным образом. Мы будем полагать, что состояния <р (/) меняются много медленнее, чем входной сигнал S (/). Мы будем изучать наипростейшие медленные автома- ты Н, зависимость состояний которых от времени может быть задана дифференциальным уравнением первого по- рядка, содержащим в правой части малый параметр е. Такие автоматы можно считать марковскими и приме- нять к их изучению аппарат уравнений Фоккера — План- ка. Вообще говоря, аналогичное рассмотрение пригодно и для автоматов, у которых уравнение изменения во вре- мени ф(/) содержит старшие производные с коэффициен- тами, малыми по сравнению с параметром е при млад- шей производной. Определим теперь непрерывный автомат Н так: ф(0=8У(ф(0, 5(0)=Ф(ф(0, S(0); (1.3.2) f(/) = F(T(/)) = SgnT(O = !-1 ПРИ ( 1 при ф>0, где ф(0—внутреннее состояние автомата, ф(0е е[—Ci, с2]; f(0 —выходной сигнал; S(t) —входная пе- ременная, принимающая два значения, +1 и —1. Зада- дим граничные условия для уравнения (1.3.2): Ф(0|ф»-с1=Д1 ($(0), ф(0 1ф=с2=Д2(5(0). (1.3.3) Будем говорить, что автомат Н функционирует в ста- ционарной случайной среде С(рь р2), если в момент t действие /(/) влечет за собой значение с вероят- ностью р (S|f), p(S--l|f) = p(?)=JP1 прИ (1.3.4) (р2 ПРИ ф > О, /’(5=1|/)=9(ф)=1— р(ф). Предположим также, что в среде C(pi, р2) e/м _ l-sgn<pp . 1 + sgn<p? 5 (0 ~--2— б* (0 +----2~ ** (! з 5) Si (O=sgn hi (O + W,
64 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I где bi — некоторые постоянные, а каждый процесс тн (О представляет белый шум [121] такой, что вероятность значения &= — 1 равна pi. Стохастическое уравнение поведения автомата Н (1.3.2) в стационарной случайной среде С (pi, р2) будем понимать в следующем смысле: <р(0] = м (* (v. s)kl ~ lim гф« + »>-ф<<> ^rol A = Ф(ф, — 1)р(ф)+Ф(ф, 1)<7(ф)=М(ф), (1.3.6) lirn ( +.#-? ('И! ф до) = d (ф (ф, 5)|ф) = = Ф2(Ф, — 1)р(ф)4-Ф2(ф, 1)</(ф) —М2(ф)=£>(ф), (1.3.7) где Л4{-} означает математическое ожидание, а £){•}— дисперсию. Ниже мы будем рассматривать лишь эргодические автоматы, у которых в соответствующих средах при <-»-оо существуют стационарные вероятности состояний. Тогда математическое ожидание выигрыша в среде С (pi, р2) для автомата Н 0 с2 7И(/7, С) -^ J £(ф)</ф | [ £(ф)с1ф, (1.3.8) —<4 0 где ai=qi—pi (Z=l, 2), g((p) —стационарная плотность вероятностей процесса ф(/). Для вычислениям (Я, С) найдем £(ф). Перепишем сначала уравнение (1.3.2) в следующем виде: ф = М(ф) 4-1 D (ф)р(ф, S), (1.3.9) где р (<р, S) „ . Vo (Ф) Вследствие медленности изменения ф(/) по сравне- нию с Ф(ф, S) уравнению (1.3.9), как и уравнению Лан- жевена [92, 117], будет соответствовать обобщенное диф- фузионное уравнение Фоккера — Планка для плотности
§ 1.3] НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ 65 вероятностей ^(<р,О = --|р{^(ф)1Г(ф,0- Кроме того, имеем условие нормировки J W(<?,t)d<?= 1. -7, Для определения решения уравнения (1.3.10) необхо- димо задать начальные и граничные условия [52, 95, 96]. Надо также отметить, что коэффициенты уравнения (1.3.10) могут иметь разрывы. Поэтому, кроме задания начальных условий и условий на внешней границе, сле- дует задавать условие сшивания решения на внутренней границе или искать обобщенное решение уравнения (1.3.10). Отметим также, что при наличии разрывов коэффи- циенты и решения уравнения (1.3.10) можно понимать как обобщенные функции в смысле [52]. Для нахождения стационарного решения имеем урав- нение -Д-|Ря(ф)] =0, (1.3.11) где Gg(<p)—поток вероятностей в символической записи, Gg (ф) = [М (Ф) —4- D (ф)]Я (ф). Предположим теперь, что Gg (ф)’— непрерывная функ- ция. Это предположение ведет к тому, что при сшивании решений мы приравниваем произвольные постоянные, представляющие поток вероятностей в областях, где коэффициенты уравнения (1.3.10) непрерывны. Следова- тельно, функция #(ф) удовлетворяет уравнению М(ф)£(ф) — 2-A[£)((p)g(<p)] = G = const. (1.3.12)
66 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ (ГЛ. t Решение уравнения (1.3.12) можно представить функ- цией ф L —ct ~р(фГ 1 ехр[2 J W — Ci ф Г М(у) . ] . 1 —— dy dx, (1.3.13) где с определяется из условия нормировки, причем про- изводная £(ф) может иметь в точке разрыва 6(•) — об- разную особенность. Таким образом, поведение автомата в стационарной случайной среде допускает интерпретацию в виде обоб- щенного процесса диффузии, идущего в некоторой, вооб- ще говоря, неоднородной среде. С другой стороны, вся- кому уравнению Фоккера — Планка соответствует урав- нение для изменения состояний автомата Ф = М (ф) + J/D^j g (О, где £(/) —б(-) — коррелированный случайный процесс с единичной дисперсией и нулевым средним. Рассмотрим теперь непрерывный аналог автомата с линейной тактикой. Пусть С1 = Сг = с и Ф = — ^(ф)8ёп(ф)5(/) М (ф) Г£)(ф)р(/), (1.3.14) где k (<р) > °, ф |р-±с = — 1 4'25 '° (ф) sgn (ф)||Ф-!<-, причем А4(ф) =6(ф)[<7(ф) — р(ф)1 = £(ф)а(ф), 1 3 £>(Ф) = 462(ф)р(ф)</(ф). j В этом случае просматривается аналогия между бро- уновским движением и процессом обучения автомата. Нетрудно видеть, что если имеется лишь хаотическое блуждание (а(ф) =0), то автомат не обучается. С ростом а(ф) по отношению к £)(ф) обучаемость автомата увели- чивается. Отметим также, что коэффициенты уравнения (1.3.14) непрерывны при р]+р2= 1.
§ 1.3] НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ 67 Для автомата Н естественно предположить, что G = 0 [56, 96]. Из соотношений (1.3.8), (1.3.13) и (1.3.15) легко получить . Pi (с) «1 М(Я,С) = — I Г, Рг (с) + 1'~“рТмГ| Pi (c)^i 1 - exp-t^r ------- !- СХР~9п37Т где О г —с. О Пусть &(ср) —четная функция ср такая, что р(с)->оо при с->оо, где р(с) =Pi(c) =р2(с). Тогда при с->оо имеем М (Я, С) - max (ах, «2), если max (ах, а2) > 0. 2^102 #1 + если max (ах, а2) < 0, (1.3.17) что совпадает с Af(Ln,2, С). Величину Р(с), равную времени, за которое ф(/) из- менится от 0 до ±с при рг=0, естественно назвать ем- костью памяти на действие, причем Р(с)— c/k, когда £(ф) = Zj=const. В случае, когда й(ф)->0 при |ф|->-с, функция р(с) возрастает быстрее, чем c/k. Далее рассмотренный автомат Н будем обозпа чать H2c/h. При исследовании асимптотически-оптймальных по- следовательностей конечных автоматов (§ 1.2) мы виде- ли на примере автомата Кринского, что введение асим- метрии скоростей смены состояний при штрафе и выиг- рыше позволяет распространить асимптотическую опти- мальность последовательности автоматов на случай «max <0. Естественно попытаться применить аналогич- ный прием и для непрерывных автоматов. Рассмотрим непрерывный автомат E2e/i<,v, у которого при штрафе скорость смены состояний равна k, как и для автомата Н2с/к в (1.3.14), а при поощрении — vk.
68 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ 1Г.Л. I Тогда дифференциальное уравнение для изменения со- стояний автомата E2c/a,v запишется как [14-5(0 . 1—5(01, <Р= 2-"V-|-----psgntp = = М (ср) -I • J/Dto) р (I). (1.3.18) Условия на границе в (1.3.18) те же, что и в (1.3.14). По аналогии с (1.3.15) имеем М(<р) = 4 1(1 -I- ») - - (1 - «)1. D (Ч.) -- = t.(1 +У). (!-„). (| 3 |9) Для автомата E2c/kfvt аналогично автомату H2c/k, естест- венно предположить, что G=0; тогда из (1.3.8), (1.3.13) и (1.3.19) следует М (E2c/h^3 Си) — где Mh М2 и £>ь D2 — математические ожидания и дис- персии для каждого действия. Проанализируем (1.3.20) с точки зрения определения требований к v, обеспечивающих асимптотическую опти- мальность последовательности автоматов Е2с/^ в непре- рывных стационарных случайных средах при ятах<0. Обозначим = = (1.3.21) Тогда, если а.\>а2, необходимо, чтобы Л)>0 и Л1>Л2 и если а2>аь то необходимо, чтобы Л2>0 и Л1<Л2. Учитывая симметрию (1.3.20), рассмотрим только пер- вые два условия, т. е. случай, когда а\>а2. Учитывая (1.3.19) и (1.3.21), имеем (1 4-^) у —(1 — о,) (1 -|-д2)у — (1 — д2) ’ (1 + у)2 (1 - </?) (1 + у)2 (1 - 4) ’ (1 + V)2 (1 - Д2)
§ 1Л] НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ 69 Первое неравенство из (1.3.22) требует v>0, что слабее требования v>l, обеспечивающего асимптотическую оп- тимальность при атах>0, которое следует из второго неравенства, так как V (1 #тах )/(1 +атах). (1.3.23) Из (1.3.23) видно, что при фиксированном v автомаг асимптотически-оптимален во всех средах, для которых #max (1 — v)/(l “1“ ^)* Таким образом, мы видим, что введение асимметрии скоростей смены состояний расширяет область асимпто- тической оптимальности. Однако для того, чтобы после- довательность автоматов E2c/h^ была асимптотически- оптимальной во всех непрерывных стационарных случай- ных средах, необходимо, чтобы v=oo. Практически тре- бование бесконечно большой скорости изменения со- стояний при штрафе выполняется переводом интегратора (см. рис. 1.14) в режим насыщения каждый раз, когда на вход автомата поступает штраф. Нетрудно видеть, что такая конструкция будет пред- ставлять собой непрерывный аналог автомата Кринско- го (см. рис. 1.6). Для упрощения аналитического исследования в этом параграфе рассматривались непрерывные автоматы только с двумя действиями. Возможность построения не- прерывных аналогов для автоматов с несколькими дей- ствиями основана на том, что симметричные автоматы допускают декомпозицию на автомат действия и автомат памяти. При таком представлении непрерывного авто- мата сигналом смены действия служит нахождение ин- тегратора автомата памяти на нижнем уровне насыщения, т. е. наличие тока через нижний ограничивающий диод, что приводит к весьма простой схемной реализации. Заметим, что при этом возникает возможность постро- ения автоматов с непрерывным множеством действий. Рассмотрим для простейшего случая С(а, — а) оценку скорости обучения автомата #2с/Ь.^Усть в начальный момент t = 0 ср(0) = фо, т. е. плотность начального распределения ф — дельта-функция 6(ф — фо). Из уравнения Фоккера — Планка нетрудно найти плот- ность вероятностей перехода W (ф (/), ф0) в виде ряда как решение
70 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 соответствующей граничной задачи Штурма — Лиувилля: /2/лф \ т ехР ( /?а2 ) г т т2 1 W (Ф, /|ф<>) = ^5--+ е.хр I-J2 (Ф - Фо) --2^Г] X sh ( ka2 ) I n23l2t\ i yi exP(—sH fr , X X a 7 1 I , /2mP \21 |[cos 2a (<p + ) + [* + |яа2Л,| J ! "Ф . пл , ,П /лл(ф0 + «)\ s,n 27 (<Р + ")] [cos (-------) , т& . [ пл + 7Г81Пр7 <'₽<> + ") где tn=2p — 1, о2=4р(1 — р), $ = c/k — намять на действие, t — без- размерное время. При оо (1.3.24) 1Чтц>\ exp ir (ф, /| ф(1) - 22--1----L = g (<р), 'г 1Т"7 <т2 /2т6\ (1.3.25) что, естественно, совпадает с полученной выше стационарной плот- ностью вероятностей. Обозначим через Q-i (^|<Ро) и Qi (^|<Го) соответственно вероятнос- ти действий — 1 и 1 в момент /, если ф(0) = ф0. Тогда 1 1 — exp I — - 2sli( k& + AQ (Лфр), (1.3.26) expl- <21(/|ф,>)=-=---- 2sh Д<2(/|ф„) где д0 (ИЧ'о) = 2 ехр | — + -^2 j exp I— (2« — I)2 а2л2Р“2/l :< оо Г (2п — 1) л (<р0 4- а) , 2тР . (2л — 1) л (<р0+ а) 1 XI [cos----------2л------(2л-1) л sin---------2^-------J х ГТ7 27р 4Т ^7 (2« — 1) л |^1 + ^2,г _ j) а2Я у j
§ 1.3] НЕПРЕРЫВНЫЕ АВТОМАТЫ В СТАЦИОНАРНЫХ СРЕДАХ 7| Величина |AQ (/|<р0)| является модулем отклонения вероятностей Q±i(/|<po) от их стационарных значений. Поэтому в качестве меры обученности автомата в момент t можно, например, выбрать величину Д (/) = max|AQ (/|ф0)|. (1.3,27) Фо Время обучения (/об) определим как корень уравнения Д (/об)=е, где 8 — требование к обученности автомата (в может определяться как требование соответствующей малости как абсолютного отклонения Д, так и относительного, т. е. может быть 8=в(р, (3)). Нетрудно полу- чить грубую оценку Д(/): 13 (|/и| Р [ т л2о2\ 1 Д W 6л~ ехр ( о2 “ \2а2 + 8f2 J (1.3.28) 2 М Р (Эту оценку легко улучшить при л^2" 1.) Отсюда |ш| Р . ( 6л о2 — 1ПЦ 13 ^об nF л2 ст2 го^ + тр2 (1.3.29) В случае, когда ср (/) е (—оо, оо), k==k (/) ехр t \2“ \ k(t')df о / о2 f k2 (/') dt' b (1.3.30) Q1 (ПФо) W (ф, /|ф<>) где erf (•) —интеграл вероятностей.
72 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 Требование обучаемости автомата при /п=/=0 t f k (/') dt' /—►00 / * \ 1/2 /-►00 f k* (Г) dt'j ]k (f) dt' \0 / 0 удовлетворяется, например, когда при /->оо: k (t)=ct~<*t c=const (0<a<l). В этом случае автомат является асимптотически-оптимальным (при /->оо), даже когда k (t) =k=const, но | <po I < Время обучения можно оценить из соотношения у- тег( ^об |ml J k (Г) dt'—|фо1 О________________ *об I А» (Г) dt' о (1.3.31) Если воспользоваться известным асимптотическим выражением для erf (х) при больших |х|, то, например, при k(t) — & = const и » \т\ k § 1.4. Стохастические автоматы с переменной структурой В предыдущих параграфах мы рассмотрели некото- рые конструкции автоматов, обладающих целесообраз- ным или асимптотически-оптимальным поведением в ста- ционарных случайных средах. Как мы уже видели, мера целесообразности поведения автомата — математическое ожидание выигрыша — зависит от конструктивного па- раметра автомата — емкости его памяти или величины асимметрии скоростей изменения состояний. Представ- ляется интересным рассмотреть модель, в которой струк- тура и параметры автомата могли бы изменяться в про- цессе его функционирования, обеспечивая тем самым увеличение целесообразности поведения. Удобной мо- делью такого рода может служить модель стохастиче- ского автомата с переменной структурой. Использование стохастического автомата в качестве модели для формирования целесообразной структуры в процессе поведения основывается на следующих сообра- жениях. Выше (§ 1.1) мы предположили, что при пове-
§ 1.4] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 73 дении автоматов в случайных средах различаются толь- ко два вида входных сигналов — выигрыш и штраф. Следовательно, автомат рассматриваемого типа задает- ся двумя матрицами состояний A (S) = ||ао- (S)|| (Z, j— = 1, 2 ,..., п), определяющими смену состояний автома- та под действием соответствующего входного сигнала. Матрица состояний является простой: каждая ее строка при любом значении S содержит в точности один эле- мент, равный единице, а остальные элементы равны ну- лю. Автомат полностью определяется парой матриц {А(—1), А (4-1)} и отображением множества состояний на множество действий (функцией выхода). При фикси- рованной функции выхода и фиксированной случайной среде для каждой пары матриц {А(—1), А (4-1)} (струк- туры автомата) можно определить меру целесообразно- сти поведения (функцию пользы), которую для этого случая мы определим следующим образом: т k М (А, С) = S(t) = 2аЛ, (1.4.1) Г-+00 1 /=0 m=l где от—финальные вероятности действий fm. Рассмотрим 2п2-мерное евклидово пространство, в ко- тором по осям отложены значения элементов ац(—1) и ао(+1). Тогда каждой паре матриц Л(—1), Л(+1) со- ответствует точка такого пространства. Для конечных автоматов всем возможным конструкциям соответствует множество вершин единичного 2п2-мерного гиперкуба, принадлежащих пересечению гиперплоскостей Saf?(S) — j —1=0 (/=1,..., п, 5=4-1, —1). На множестве этих вершин задана функция пользы М(А, С). Таким обра- зом, функция М(А, С) для дискретных автоматов пред- ставляет собой решетчатую функцию на множестве то- чек, соответствующих различным конструкциям автома- тов. При этом переход от одной точки к другой, на- ходящейся на минимальном (например, по Хеммингу) расстоянии от исходной, может привести к резкому скачку функции пользы. С другой стороны, выпуклая оболочка этого множе- ства есть множество точек, соответствующих всем парам стохастических матриц Р (5) = ЦлУ- На выпуклой обо-
74 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I лочке функция пользы М(А, С) непрерывна, поэтому понятия близости, приращения, градиента и минимума приобретают свой классический смысл. Тогда задача отыскания оптимальной для данного п конструкции автомата формально может быть сведена к задаче отыскания седловой точки функции Лагранжа ф [р (+1), р (- 1)] = м (л, с) - 2 2 Ms (2 я® -1)- Здесь, однако, нас будет интересовать другой подход. Мы будем рассматривать задачу нахождения стохасти- ческого автомата с переменной структурой, обладающего целесообразным поведением в случайных средах, как за- дачу нахождения алгоритмов изменения переходных ве- роятностей в Р(+1) и Р(—1), обеспечивающих уве- личение математического ожидания выигрыша. Алгоритмы изменения переходных вероятностей дол- жны обеспечивать выполнение условия 2^8 = 1 (i = 1,2,...,«). (1.4.2) рл При оптимизации с ограничениями всегда существует возможность получить решение на границе, следователь- но, мы можем ожидать, что найдутся способы изменения переходных вероятностей, обеспечивающие решение з крайних точках, т. е. в классе конечных автоматов. Изучение поведения стохастических автоматов с пе- ременной структурой в случайных средах начнем с изу- чения их поведения в стационарных случайных средах С(аь а2,..., ah). Способы изменения переходных вероятностей, кото- рые мы будем рассматривать, основываются на следую- щих соображениях. Если автомат перешел из состояния с номером i в состояние с номером / под действием вхо- да S, и после этого был оштрафован, то вероятность Jif; должна быть уменьшена. При этом для сохранения условия нормировки (1.4.2) соответственно должны быть увеличены все остальные переходные вероятности в этой строке. Если же после перехода автомат выиграл, то ве- роятность л® должна быть увеличена и соответственно уменьшены все остальные вероятности этой строки.
S 1.4] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 75 В стационарной случайной среде неизменны средний выигрыш за каждое действие и средний выигрыш ав- томата в каждом состоянии. Следовательно, вероятности выигрышей и проигрышей одинаковы для всех элемен- тов одного столбца матрицы P(S). В связи с тем, что вероятность штрафа на шаге t не зависит от вероятно- сти штрафа на шаге t—1, вероятности выигрышей и штрафов одинаковы для элементов одноименных столб- цов матриц Р(—1) и Р(+1). Следовательно, при изуче- нии поведения стохастического автомата с переменной структурой в стационарной случайной среде достаточно изучить поведение строки матрицы состояний. Более то- го, аналогичные рассуждения приводят нас к заключе- нию, что в случае стационарной случайной среды доста- точно рассмотреть автоматы с памятью 1, т. е. автоматы, имеющие одно состояние на действие. Мы пришли к простейшему варианту стохастического автомата с пере- менной структурой — «автомату-строке». Автомат-строка имеет k действий и задается набором k чисел лт^0, причем k 2>,„ = i. (1.4.3) т -1 Автомат-строка выбирает свои действия независимо от значения входного сигнала с вероятностями п?г. Реакции среды воздействуют лишь на изменение вероятностей пт выбора действия. Состоянием автомата-строки яв- ляется набор вероятностей {л?п} выбора действий. В этом смысле автомат-строка обладает бесконечным множе- ством состояний, т. е. бесконечной памятью. Мы будем рассматривать способы изменения вероят- ностей. выбора, при которых имеет смысл понятие фи- нальной вероятности состояния автомата-строки и, сле- довательно, стационарных вероятностей л7П выбора дей- ствий. Рассмотрим следующий способ изменения переход- ных вероятностей. Если в момент времени t автомат вы- полнял действие fi и S (/+1) = + 1, то Лг(Н-1)-М0 4-Д+М'), (1.4.4а) л, (М-1) = МО-Ь Л'+ММО). i-r-i- (1.4.46)
76 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Если же S(/4-l)=—1, то л,(/+ 1) = л,(/) — Д_л4(/), (1.4.4в) Л;(< + 1) = Л;(/) — ALлДл^/)), j I. (1.4.4г) Для сохранения условия нормировки (1.4.3) необходимо, чтобы Д±л3- + 2 д± л< (я/) = 0. (1.4.5) Определим Л4(Длу)—математическое ожидание прира- щения Ttj за один шаг: 1 “I” а • 1 -~ d • М (Длу) = л;- —Д1 л;- — л; —+ + 2 Л4Ц^-Д+Л/(Л{) -2*4Д-лДлО. (1.4.6) it-j Z Z В случае, когда ai = a2=.^ = ak=ai математическое ожи- дание выигрыша не зависит от состояния автомата-стро- ки и, следовательно, для этого случая естественно по- требовать, чтобы Л4(Дл;)=0. Это условие выполняется при TtjД± + s HiД^-Лу (Л|) = 0. (1.4.7) 17 ) Тогда из (1.4.6) и (1.4.7) имеем М(Длу) = 2 [Д!ьлу(л;) + Д£яДл{)] (1.4.8) i=l z Для того чтобы в стационарной случайной среде рас- сматриваемый автомат обладал оптимальным поведени- ем, необходимо, чтобы для ау=атах М(Дл;)>0, а для Яу = аЮ1п М(Длу)<0. Из (1.4.8) видно, что эти требова- ния выполняются при Д1+лу(л4) + Д!_лДл() <0. (1.4.9) Таким образом, мы получили три условия, которым должны отвечать правила изменения переходных веро- ятностей: (1.4.5), (1.4.7) и (1.4.9). Кроме того, необхо- димо, чтобы (1.4.10) 0^л±Дл^1.
§ 1.4] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 77 Приведенным выше условиям отвечают, например, функции типа Д^Л; — аЛ; У л‘+1\ ) (1.4.11) Дхл; (я1) ~ — ал7 1 Ря;’> J где а>0 и 0>О. Ограничение на а, определяемое (1.4.10), будет приведено ниже. Автомат-строку, у которого вероятности выбора дей- ствия изменяются в соответствии с (1.4.4) и (1.4.11), а число действий равно k, будем обозначать через Q,.. Математическое ожидание приращения вероятности вы- бора действия за один шаг для автомата-строки Qk вы- ражается формулой k М (Длу) = т (лу) — ал)+Р У л?+Р(п, — а{). (1.4.12) г-1 Определим также математическое ожидание b(nj) квад- Ь (л,) = а2л}+2₽ (2 л|+₽)2<л + аЧ'+2₽ (2 я1+₽)2^ 4 + £ л{ [Х2рл2+2р^ -F а2л?мА;] - - аЧ+2р (2 л?+р)2 + а2л2+2р £ л*+2р = - а2л’+2р [лу "i+2P + Я‘+РЛ. (1-4.13) L \i^j ) J Рассмотрим сначала случай k=2. Пусть Л1(0 = =^{^(0=А}=я и я2(0=рй(0=Ь} = 1 — Л. Тогда Д±л = алр(1-л)1+(5, | Д^л = - ал1+Р(1 - л)р | и, соответственно, т(л) = а(«1-а2)л1+₽(1-л)1+р, 4 д(л) = а2л1+23(1-л),+2р.
78 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ 1ГЛ. I Определим дополнительные ограничения, которые должны быть наложены на величины аир, чтобы ав- томат-строка Q2 обладал оптимальным поведением в среде С(«1, а2). Для этого рассмотрим случайный мар- ковский процесс л(/) в непрерывном времени, у которо- го математическое ожидание величины изменения л(/) и квадрата этой величины равны соответственно /?г(л) и 6(л) (1.4.15), т. е. lim а/,о 4' Пп, ^(Л). Обозначим через F(t, х, у) функцию распределения процесса л(/), т. е. вероятность того, что процесс л(/), значение которого в некоторый момент времени равно х, через время t примет значение меньшее, чем у. Если предположить, что функция Е(/, х, у) имеет не- dF(t,x,y) d2F(t,x,y) прерывные частные производные ——- и ----------§х2 при любых /, х и у, то для Е(/, х, у) можно написать уравнение Колмогорова dt 2 дх2 ' 7 дх v 7 Заметим, что процесс л(/) протекает в промежутке [О, 1] и условие (1.4.10) обеспечивает поглощение на обеих границах промежутка. Если обозначить через Ф1(х) вероятность окончательного поглощения л(/) в точке л=1 при условии, что процесс начался в точке х, и через Ф0(х) —вероятность окончательного поглощения в точке л = 0, то, как известно [96], Ф](х) и Фо(х) яв- ляются решениями уравнения Ь-^-Ф (х) т (х) Ф (х) - 0 (1.4.17) с граничными условиями Ф1(0)=0, ф1(1) = 1, фо(О)=1, фо(1)=О. При этом не имеет значения пи факт недостижимости границ, ни обращение в нуль на границах коэффициен- тов /и(х), й(х) уравнения.
§ 1.4] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 79 Решения уравнения (1.4.17) при указанных гранич- ных условиях имеют такой вид: Ф1 (х) = X 5ехр 0 f1 2от (г) А “J b& dz V 1 [ ехр < 0 [ p2m(z) П] Ь(г) dz 1 V <1у "'/(О’ (1.4.18) Вид функций Ф1(х) и Ф0(х) существенно зависит от величины 7 (1), а именно: если 7(1) <оо, то ФДх) —монотонно возрастающая функция х, а Ф0(х)—монотонно убывающая функция; если 7(1)=<х> и то Ф1(х) = 1, хе (О, 1]; если 7(1) =оо и ai<a2, то Ф0(х) = 1, хе[0, 1). Нас, естественно, интересуют такие функции Ал, при которых 7(1) =оо, так как в этом случае происходит по- глощение на нужной границе. Такие Ал и определяют оптимальный процесс л(0- Учитывая (1.4.15), имеем 1 7 (1) = jjexp о Нетрудно показать, что если р<1, то 7(1) <оо, если Р=1, то при «! — а2 <а/2 при О1- а2 ></.1'2 если р>1, то 7(1) =оо. 7(1) <оо, /(1)=оо, Это означает, что случайный-процесс л(/) является оп- тимальным, если р>1 или р=1 и | <21 — а2|>а/2. Для выяснения того, насколько полученные для не- прерывного процесса результаты пригодны для оценки
go ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 поведения автомата в дискретном времени, рассмотрим результаты моделирования поведения автомата Q2 на ЦВМ. При работе автомата в дискретном времени необ- ходимо выполнение условия (1.4.10), т. е. я | алР (1 — л)1’1 р , 1 л |-(Хл'1Р(1 - 1, । (14 19) л — ал3 (1 - - л)1 > 0, л — ал1"1"^ (1 — л)р > 0. Из (1.4.19) и условия/(I)—оо min{l; 2|ax а2\} (2g)2fi °^(Р + 1)0Н (р _ 1)Р—* следует при 0 -- 1 , мри 0 > 1 . (1.4.20) Исследовалось поведение автоматов Q2 в среде С (0,6; 0,4). Проводились две серии экспериментов: первая серия при 0=1, вторая при р=2. В каждой серии для различных значений проводилось по 500 экспериментов с начальным значением л(0)=0,5. Каждый эксперимент длился 3000 шагов. Результаты экспериментов приведе- ны в таблицах 1.4.1 и 1.4.2. В этих таблицах т+ — число экспериментов, в которых к концу эксперимента л(Г)> >0,95, a nt- — число экспериментов, в которых к концу эксперимента л (Г) <0,05. Заметим, что продолжение счета при малых значениях а приводило автоматы с л>0,05 к значению л(Г) = 1, однако для этого требова- лись времена, существенно превышающие 3000 шагов. Таблица 1.4.1. Таблица 1.4.2 Р=1. а<0,4 0=2 а 0,7 0,5 0,3 0,1 т+ 412 450 491 500 т_ 88 49 8 0 (1 2,0 0,7 /п+ 490 493 т_ 1 0
§ М] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 81 Результаты эксперимента говорят о хорошем согла- совании непрерывного приближения и дискретного про- цесса. Теперь рассмотрим случай &>2. Будем считать дей- ствия автомата пронумерованными таким образом, что соответствующие им математические ожидания выигры- шей образуют неубывающую последовательность ax>a2> .. (1.4.21) Очевидно, что имеет смысл рассматривать только та- кие среды, в которых не все равны между собой. Предположим, что ах ~ аг > . > ah, (1.4.22) т. е. ar+i — наибольшее из математических ожиданий вы- игрышей, отличных от максимального. Введем новую переменную / п,„, I - 1, 2, . . . , k. (1.4.23) m=l Будем изучать случайный процесс, значениями которого в каждый момент времени t являются значения вероят- ности P{l^k' Для этого найдем вы- ражения для математических ожиданий Л/{Дл<0(/)1 и М {[Дл<0 (f)]2} М") = а2 24** 2 _ i=i \/=/+ Z h — а 2 4^ 2 (ai - aj) г=1 /=/4-1 Г I f Ь \2 k / I \ 21 л}+₽ + 2 "1+2& 2 "Н • I / i=/+l \/=i / (1.4.24) Воспользуемся неравенством Гёльдера 1,1 , где р >0, д>0 и +
82 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 Положив Pi=l, р=1-|-р, получаем неравен- ство (1.4.25) (1.4.26) Оцепим выражение для niifjt) снизу, используя не- равенства (1.4.25) и (1.4.26): а(я(0)ЦР(1-я(0)1+и т / т \а Используя неравенство У л“ С 2S ni) , 0 sC л» sC 1 i=Z \ i^l / и а^1, оценим выражение для bi (л) сверху: bL (л) а2 1+20 = а2 [(Л<0)14-2₽ (1 _ я(/))2+2Р + 'г(1 — Л<0) 1+20 (я(/))24 20] = а2 („(0)1 [ 20 (1 ._ „(0)1 I-2P, Полученные оценки позволяют нам заменить изуче- ние процесса n^(t) изучением процесса |(/), у которо- го математическое ожидание приращения в любой мо- мент времени t не больше, а математическое ожидание квадрата приращения не меньше, чем у процесса л(/)(/)
§ I.-I] АВТОМАТЫ С ПЕРЕМЕННОЙ СТРУКТУРОЙ 83 и равны соответственно 1/р р ’ _ 1 “г Ь(~) - а2;1+20(1 - £)1+20. Ясно, что вероятность поглощения процесса границе g=l будет не больше вероятности поглощения процесса на границе л=1, так как эта вероят- ность [см. (1.4.18)] увеличивается с увеличением m(g) и уменьшением &(£). Аналогично случаю & = 2, можно найти условия, при которых вероятность Ф1(х) поглощения процесса £(/) на границе £=1 при условии g(0)=x равна Учитывая (1.4.27), имеем 1) либо р >1, 2) либо р — 1 — I а, — л, г 1 (1.4.27) ЦО на единице. (1.4.28) /Р и 2 ос <4------------ п ai — “i Так как процесс (t) поглощается на границе л(0 =1 с вероятностью не меньшей, чем вероятность поглощения процесса £(/) на границе |=1, то, если па- раметры а и р в (1.4.24) удовлетворяют условиям (1.4.28), вероятность поглощения процесса л(/>(£) на границе = 1 равна единице, т. е. равна единице сум’ марная вероятность действий автомата, соответствующих максимальному математическому ожиданию выигрыша. Таким образом, если параметры аир отвечают условиям (1.4.28), то математическое ожидание выигрыша для ав- томата Qk равно максимально возможному для данной среды. Нетрудно проверить, что учет условия (1.4.10) приводит нас к следующим условиям оптимальности и томата Q/t в стационарной случайной среде С: (23 1) либо р > 1, а <-------Ду—-----п—г, 7 1 (3 4- 0__ 2) либо р — 1, ос min 11; —1 (1.4.29) ai —
84 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I § 1.5. Поведение автоматов в переключаемых случайных средах В рассмотренных выше примерах поведения автома- та параметры среды ат оставались неизменными в тече- ние сколь угодно длительного отрезка времени, и в этом смысле задача о поведении в стационарной случайной среде является элементарной. Больший интерес представ- ляет случай, когда параметры случайной среды изменя- ются во времени, например, при помощи случайного ме- ханизма. В стационарной случайной среде время уста- новления стационарного режима не имело большого значения. В том же случае, когда параметры среды из- меняются во времени, существенную роль начинает иг- рать «лабильность» автомата, его способность быстро реагировать на изменения внешней среды. В стационар- ных случайных средах увеличение емкости памяти приво- дило к увеличению инертности автомата — уменьшению вероятности смены действия, — и математическое ожида- ние выигрыша автомата монотонно возрастало с ростом емкости памяти. Очевидно, что в случае нестационарных случайных сред зависимость математического ожидания выигрыша от емкости памяти должна потерять свой мо- нотонный характер. В этом параграфе мы рассмотрим случайные среды, характеристики которых зависят от времени случайным образом. Будем считать, что среда состоит из стационар- ных случайных сред, переключение которых осуществля- ется цепью Маркова. Рассмотрим цепь Маркова /С(С1, С2, ...» Сг, Д), имеющую г состояний Сь С2, ..., Сг и матрицу переход- ных вероятностей Д=||6сф||, а, р=1, 2, ..., г. Состояние Са соответствует стационарной случайной среде Са= = С(а?, Будем говорить, что автомат А находится в переклю- чаемой случайной среде К, если в каждый момент вре- мени он функционирует в одной из стационарных случай- ных сред Са, а=1, 2, ..г, т. е. если действие fm, про- изведенное автоматом в момент времени t, влечет за со- бой в момент времени /+1 входной сигнал S(t4-1)= — 1 „ 1 — (проигрыш) С вероятностью Рт = -----2-- И ВХ°ДНОЙ
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 85 сигнал S (/+!)=+ 1 (выигрыш) с вероятностью Ят= 1 — Рт» при этом, если автомат в момент времени t находился в стационарной случайной среде Са, то в мо- мент времени Z-j-1 он будет находиться в стационарной случайной среде Ср с вероятностью бар. Обозначим через а=1, 2, г, t=l, 2, ..., п такое состояние системы «автомат — переключаемая слу- чайная среда», при котором автомат находится в состоя- нии ф/, а переключаемая среда — в состоянии Са1 *). Тогда вероятность перехода системы из состо- яния ф “ в состояние i|$ выражается формулой 1) + <&«</( + 1)] бар, (1.5.1) где ||а0(5)||— матрица состояний автомата Д, p^i =* 1 -----—1, <7®. — 1 _ рф.а — вероятности проигрыша и выигрыша в среде Са при действии /ф1=Г(фг-). Матрица П = Цл®р||, а, 0=1, 2, г, i,j=l, 2, п порождает цепь Маркова. Если эта цепь является эрго- дической, то финальные вероятности rf состояний этой цепи ф? не зависят от ее начальных состояний, и ма- тематическое ожидание выигрыша А4(Д,К) автомата А в среде К вычисляется по формуле k г М (А, К)=22«, (1.5.2) m=i a=l где От = 2 r9i — сумма по всем <р/ таким, что F(<pi)=fm, т. е. От— суммарная вероятность тех со- стояний, в которых автомат производит действие fm, а среда находится в состоянии Са. Рассмотрим простейший случай, когда г=2 и 11-6 6 1 Н 8 i-s- »<s<4' <|Г>-3> 1) Здесь, в отличие от § 1.2, мы рассматриваем сплошную нуме- рацию состояний автомата (автомат не разделен на автомат действия и автомат памяти).
gg ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I где параметр б представляет собой среднюю частоту пе- реключения состояний среды. Действительно, математи- ческое ожидание М(Т) числа тактов, в течение которых среда находится в фиксированном состоянии, равно М(Т) -2 /6(1 -6)' 1 = /=1 --«ТУ 2 (1-6)' = 4- ,|5-4> Предположим для простоты, что C[ = C(ai —а) и С2 — С(—а, а) и рассмотрим поведение автомата с линей- ной тактикой Ln,2 в такой переключаемой случайной среде. Пронумеруем состояния автомата следующим обра- зом: (ср/, =хг-; (фг, f2)=Xn+i (*=1, 2,..., п). Обозна- чим через Ла) (/= 1, 2, . . . , 2п) финальную вероят- ность состояния гр? системы «автомат — переключае- мая случайная среда». Введем вектор Ri= |[r r(i2)|| (7=1, 2,..., 2/г) и две матрицы второго порядка |(1-6)Р 67 | |(1-6)<7 8р I 8р (1-6)J’ 67 (1-6)р’ (L5-5) и будем полагать, как и ранее, р = ~ 1 — Р — __ 1 Ч~ д ___q_ 2 ’ ~ Р ' По графу смены состояний для автомата с линейной тактикой (см. рис. 1.5) и графу смены действий (см. рис. 1.2) получим следующую систему уравнений для определения финальных вероятностей состояний системы «автомат — переключаемая случайная среда»: 7?! — SR2 + QRn+h R2 ~ SR3 QRi, Ri — SRi-t-iH- QRi— 1, Rn — QRn. + QRn ь Rhm “= SRi r QRn 121
§ I 51 АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 87 Rn-]-2 = SRn | 1 + QRn+3, Rn и — SRn \ i—i 4 Q Rn-^ i+ь /?2л —- S/?2n -1 + SRin- Решение системы будем искать в виде Rk=RQ^l-hi k = = 1, 2, ..., п и Rh=RQpk-\ k = n-\-l, М-2, ..., 2п, где — (го\ г(о2))—постоянный вектор. Из (1.5.6) имеем П = SRoiin k -1 откуда (H2Q - + S) /?0 = 0. (1.5.7) где Е — единичная матрица второго порядка. Для определения собственных чисел имеем урав- нение Det(p2Q — pM-S)=0 и 4 з 1 — S 1 И И 1 —26 1 - а2 + + [2 1 — а» + 1 — 26 ’ 1 — а«] — 1—26 1 — «2 + 1=0. Нетрудно проверить, что это уравнение может быть представлено в виде (Н - I)2 [И2 - 2р 1) + 1] = о (1.5.8) и, следовательно, |л1 = ц2=1, а ц3, щ являются корнями соответствующего квадратного уравнения. Окончательно будем искать решение системы (1.5.6) в виде Rk AR(k" + BR<i? + CR^ + DR^, (1.5.9) где R^^R^-k (k = \, 2,..., n) и = ₽(oM-1 (^=/i+l, «+2,..., 2/i) и R^—собственные векторы для (1.5.7).
88 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. ! Собственными векторами системы (1.5.6) являются -11,1], М2)- [(»-fe)n~26-7 +(1 26 1___Л _ Ml X 1 — 26 q q /]’ — [из {q + ppi); Из k (Рз “ - (1 — б) (р -Ь днз))]э R(k} ~ [nJ ftS (g + ppi); р2 k (н ~ -(1 — S) (р -|-gpt))J, (1.5.10) R%-k = 11,1], «Я» = [<" + * ~ '> Ат + - т<" + 4 k- 1)г^ОА --------(1 - — У|, М34 = [q + m2); рГ*’1 (рз - — (1 — 6)(р -4- диз))]» = [нГft-16 {q + wi); р"1 ft“1 (р4 - - (1 - 6) [р 4- ppi))], п. ) k = 1, 2. Коэффициенты А, В, С и D в (1.5.9) находим из уравнений для Rn и R%n в (1.5.6). Тогда = d [%2П (х - X) (1 - Хх) 4- x"+ft (1 - %х) X Х(Х—1) | xn—ft+1(x — X)(X—l)4- 4-(х — X) (1 — Хх)], r(h2) = d [x2n (х — X) (1 — Хх) 4- xrt+h (х — X) х Х(Х- l)4-xn~ft+1(l — Xx)(X—l)4- 4- (х — X) (1 — Хх)], k= 1,2,....п, (1.5.11)
§ 1.51 АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ gg где d — множитель, полученный из условия нормировки, d =_______________________<L=^______________________ 2л (х-Х) (1-Хх)(1— х) (х2п + 1) + х (X—1)а (1+х) (х2п- 1) ’ х — любой из корней рз, р4, а 1 = -^-.Из очевидных со- ображений = [rSU rSJ = На. А'Ч • (1.5.12) Используя (1.5.2), окончательно получим Л1 (L„,2. К) = , (1.5.13) ch пу + cth — sh л у где , 2а2 1 — 6 , СП У — j _ о2 1 _ 96 * ’ На рис. 1.15 приведены кривые, показывающие зависи- мость М от емкости памяти п при различных значениях б Рис. 1.15. и фиксированной величине а=1/3. На рис. 1.16 приведены такие же графики для фиксированного 6=0,01 и различных значений а.
90 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Из формулы (1.5.13) видно, что М(Ьп>2, /<)г>0, limAl(Ln,2, К)=0 и lim М(Ln,2, /С)=0, следовательно, «-►О п-*оо математическое ожидание выигрыша достигает максиму- ма т при некотором конечном значении по емкости па- мяти. Уменьшение M(Ln,2, /<) при малых значениях п Рис. 1.16. связано с тем, что при этом недостаточно используется информация о том состоянии среды, в котором находит- ся автомат; при чрезмерном увеличении емкости памяти происходит усреднение статистических свойств обоих со- стояний среды (автомат не успевает «переучиваться»). Уменьшение частоты переключений среды равносиль- но увеличению быстродействия автомата. Естественно поэтому, что с уменьшением 6 значения п0, как и макси- мальное значение М, возрастают. При б->0 и По->оо m->max(a, —а). С увеличением б происходит обратный процесс. Так, при —-gj максимум математиче- ского ожидания выигрыша достигается при п0=1. Фор- мула (1.5.13) позволяет выбирать значения п для авто- мата, функционирующего в переключаемой случайной среде. Для выбора оптимальной емкости памяти автоматов Ln,2 можно использовать таблицу 1.5.1, в которой при- ведены значения п0 и т для различных значений а и б.
§ 1.5J АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 9J В каждой клетке таблицы первое число есть п0, вто- рое — т. Рассмотрим поведение е-автомата в составных сре- дах и покажем, что существует такое значение ео, при котором финальные вероятности состояний, в которых выбираются оптимальные действия, являются макси- мальными. Таблица 1.5.1 0,001 0,010 0,032 0,100 0,320 0,450 0,8 3; 0,792 2; 0,744 2; 0,672 1; 0,512 1; 0,230 1; 0,064 0,6 5; 0,588 3; 0,532 2; 0,446 2; 0,314 1; 0,130 1; 0,036 0,5 6; 0,488 4; 0,424 3; 0,344 2; 0,232 1; 0,090 1; 0,024 0,33 8; 0,306 5;0,250 3; 0,182 2; 0,110 1; 0,040 1; 0,012 0,2 11; 0,178 6; 0,112 4; 0,074 2; 0,040 1; 0,014 1; 0,004 о,1 15; 0,072 7; 0,034 4; 0,020 2; 0,010 1; 0,004 1; 0,002 Предположим, что среда /<=/С(С1, С2, А) составлена из двух стационарных сред, Ci = Ci(ab #2), С2=С2(а2, <2i), переключение которых осуществляется цепью Мар- кова с двумя состояниями Ci и С2 и матрицей переход- ных вероятностей (1.5.3). Пусть ai>a2 (ai и а2 могут быть любыми числами, как положительными, так и отрица- тельными). Система S (автомат — составная среда) ха- рактеризуется состояниями£?/ (а, Р=1, 2, Z, / = 1, 2), где аир — среды, в которых функционирует е-автомат в два последовательных момента времени, a i и j — дей- ствия, выбираемые автоматом в этих средах. Поведение этой системы описывается конечной цепью Маркова. Можно показать, что эта цепь эргодическая и, следова-
92 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I тельно, существуют финальные вероятности состояний Eff. Обозначим их <р“/. Через оу обозначим финальную вероятность состояний системы S, в которых в момент времени /-{-1 в среде р автомат выбирает действие /: а,1 Для оу мы получаем систему уравнений (1.5.14) Из первых четырех уравнений системы (1.5.14) еле- 12 12 ' ' дует, что о} = и 02 = <11- . Тогда 26 + в — 2бе 1 _ 2 _ ai — °2 — 2 (46 + е + — еб — 2е6» — Зе25 + 2е»8«(
§ 1.51 АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 93 При е-> 0 ст}--* 1/4 (следовательно, ст} = о2 = = 1/4). При е=1 ст} = ст| = ст} = ст} = 1/4. Покажем, что при любых е и б ст} = о! 1/4: „1 _ 1 _ 8(1-6) (1-е) (1-28) 0 1 4 4 [(26 s—26е) (1—8е + е)-р 26—еб] '''' ’ так как б<1/2 и 0<е<1. Итак, существует ео(б), при котором ст} достигает мак- симума (б<1/2): ,,, /2б~ 1 , . _______1 -р У~26~__ е°(°)— 1 + 1/2Г’ (е°) — 2(1 4- 5 4-3/2Г— 6 /2Т] Очевидно, с уменьшением частоты переключения б уменьшается соответствующее ео(б), а финальная веро- ятность состояний, в которых выбирается оптимальное действие соответствующей среды, стремится к 1. Для случая —1) и a(t)<za(t—1) можно несколько видоизменить конструкцию е-автомата, введя «принудительную случайность»: с вероятностью е/А и с вероятностью автомат в момент /4-1 выбирает любое из отличных от fit) действий. Для переключаемых сред в этом случае мы получаем 12 1 л 1 2 1 — «2 —2 [ J + £ _|_ 26 — 2е6]И ПРН е 0СТ1 — ст2 — 2(1 4-2бР Рассмотрим теперь поведение непрерывных автома- тов Н в переключаемой случайной среде Кк. Пусть пара- метры среды Кк зависят от чисто разрывного феллеров- ского процесса K(t), принимающего два значения, +1 и —1, с плотностью вероятностей перехода л(ЦН-т)1М0) = (1 — ат)б(%(/+т) —%(/)) + -|-атб(Х(Н-т)-|-Х(/))+О(т), (1.5.15) где t — момент предшествующего скачка процесса %(/). Будем говорить, что автомат функционирует в пере- ключаемой случайной среде Кк, если в момент t при А,(/)=4-1 автомат функционирует в стационарной среде C+(ai+, а2+). а при Х(/) =—1—в стационарной среде
94 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ (ГЛ. 1 C_(ai_, а2-)- Кроме того, предположим, что в среде Кк S{t) = x+ sg”--(-Z-)- S+ (/) + ‘ ~Sg? Х (Z) (0, (1.5.16) где S+(t) и S-(t) определяются аналогично (1.3.5) для каждой среды Csgnji(o. Уравнение (1.3.14) в переключа- емой среде К.к={С+(а1+, о2+), С-(а^, а2_)} будем пони- мать аналогично (1.3.6) и (1.3.7): lim М ( Ф^ + ^-фЮ.. q)^j 1(/)1 = /1-4-о [ п J = М{Ф(ф, S)| ф(0. MO} = MsgnJK/)(’p), (1-5.17) /1^ + 0 I I ) = ЩФ(Ф, S) I ф (/), X(/)} = DsgnX(Z)(T). (1.5.18) В практически наиболее интересном случае, когда среда изменяется достаточно медленно, естественно пред- положить эргодичность системы «среда — автомат». Тог да, обозначив через £+(ф) и £_(ф) стационарные веро- ятности того, что автомат находится в состоянии ф(/), а среда — в состоянии +1 или —1 соответственно, для математического ожидания штрафа имеем 0 с2 М (7/, /<?.) = «14- ,Г g+ (ф) dtp + а2}-.( g+ (<р) dip + о 0 с? + 01- J £-(ф)(/ф + (12-.! g- (ф)Лф. (1.5.1У) -с, О Для вычисления М(Н, К,.) найдем £+(ф) и £_(ф). Выбирая отрезок времени т достаточно малым, получим №(ф(Н-т), Ц/+т) |ф(0, Х(0) = = №(ф(/+т)|ф(/), Л(0)л(Х(<+т)|Х(0) + О(т). (1.5.20) Используя уравнение Смолуховского [92, 117] Г(ф(/ + т), Х(/ +т)) = = [117(Ф(/ + Т)Д(/ + т)|ф(/),%(/))Х ХГ(ф(/), Х(/))<М%, (1.5.21)
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 95 а также (1.5.17), (1.5.18) и (1.5.20), найдем W-|. (Ф, 0 - - 4" [М+ (ф) (Я” “ --TW ID+ (Ф) W+ (ф> 01} - a w | (ф, 0 - W- (ф, 0L (1.5.22) W- (ф, t) = - А (ф) W- (Ф, t) - - 4-A ID_ (ф) W-(Ф, 01} + а W+ (ф, 0 - W- (<Р’ 01. (1.5.23) где Н7+(ф(0, 0 и И7_(ф(/), 0—плотности вероятностей того, что в момент времени t автомат находится в состо- янии ф, а среда — в состоянии +1 или—Соответственно. Но для стационарных вероятностей Я+(ф) и £-(ф) J £+(фМф = |^_(ф)с?ф=-у. (1.5.24) Кроме того, для автоматов (например, Я), имеющих в стационарной случайной среде С поток G = 0 на грани- це, естественно положить jM sgn х(ф)Язгпх(ф) - -4- 4" (*Р)^кп X (Ф)]|ф=±с = 0. (1.5.25) Стационарные вероятности £+(ф) и £-(ф) удовлетво- ряют уравнениям (1.5.22) и (1.5.23), причем левые час- ти этих уравнений обращаются в нуль. Для случая «1+= — й2+ =—а\-=а2-=а и автомата Н2с/к имеем M±=±ka и D±=fe2(l—а2). (1.5.26) Тогда для стационарных плотностей вероятностей . dg_ 1 „ d2g_ /га -г— — -т-k“ (1 - а2) —— а (g+ — g_). (1.5.27)
95 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 Складывая оба уравнения из (1.5.27) и учитывая гра- ничные условия для потока (1.5.25), получим - a (g+ - g~) - 4 k( 1 - <?) - 0 • (1 5.28) dg Введем обозначения:^ = g_ — у2,-~ = t/3. Тогда первое уравнение из (1.5.27), (1.5.28) и введенные обозна- чения позволяют построить систему дифференциальных уравнений в нормальной форме: ауз _ . zu. / \ Зф ~ ~k(l— а2) Уз '*([— а2)^1 ' У~’' ^-и dtp Уз‘ (1.5.29) Решая систему (1.5.29) стандартными методами и учи- тывая (1.5.19), получаем выражение для математическо- го ожидания выигрыша M(H2c:k, =------------T(zhf2~1)'-----. (1-5.30) sh г + г I -^2" ~ 1 I ch г где т = [а+ (1 — а)а2Г'% г — ~ k \ — а2' М[Н2с/к, Хх] как функция г (elk.) имеет максимум. Дей- ствительно, нетрудно видеть, что М(Н2е/к, Кх)>0 и lim M(H2e/k, Кх)=0; lim М(H2c/k, Кх)=0. При малых г г->0 Г->00 функция М(Н2с/к, Kt.) монотонно возрастает с ростом г, а следовательно, с ростом elk М(Н2с!к, Кх) = 4- С другой стороны, при г—>оо функция М(Н2с/к, Кх) мо- нотонно убывает с ростом г м (Н^, Кк)
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 97 Заметим также, что если а-»-0 (у->о), то при с/Л->оо М(Я2с/А, Ял) max (а, —а), как это и должно быть в квазисуационарном случае. На рис. 1.17 и 1.18 приведены графики зависимости Л1(Я2с/л, Ял) от c/k при м а=0,333 и различных значениях а и при а= =0,01 и различных зна- чениях а. Сравнение рис. 1.15 и 1.16 с рис. 1.17 и 1.18 соответствен- но говорит о функци- ональной эквивалеит- 0 " 2 4 6 8 10 12 14 16 ности в переключае- мой случайной среде Рис. 1.17. автоматов Я2с/а и Ln, 2. Рассмотренные выше примеры поведения автоматов в переключаемых случайных средах отличались тем, что для обеспечения оптимального поведения требовалось зпать параметры среды. Естественно попытаться рас- смотреть конструкции автоматов, не требующие для оптимизации своего поведения априорной информации о параметрах переключа- емой случайной среды. Простейшей возмож- ностью решения этой задачи является ис- пользование конструк- ции, приведенной на рис. 1.19. Конструкция на рис. 1.19 представ- ляет собой композицию из двух автоматов с линейной тактикой. Ав- томат Lra функциони- рует в переключаемой О 2 4 6 8 10 12 14 16 с/н р ] ]8 случайной среде, имеет ,1С’ ' '' два действия и г внут- ренних состояний на действие. Емкость памяти авто- мата ЬгЛ определяется выходным сигналом г(/) авто- мата Ln,ft, который в свою очередь имеет п состояний на действие и k действий. При достаточно большой
98 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I емкости памяти автомата Ln, к, т. е. при достаточно боль- ших временах усреднения, математическое ожидание вы- игрыша для автомата Ln,k за действие r(t)=j равно а^М{Ь}л, К). При п-^-оо можно ожидать, что lim М (Ln>ll, К) = max М (Ljt2, К) П+со j Рис. 1.19. и автомат Lntk будет формировать оптимальную, ем- кость памяти автомата Lr, 2, т. е. вся конструкция будет обладать в переключаемой случайной среде оптималь- ным поведением *)• Аналитическое исследо- вание поведения такой кон- струкции весьма громоздко и сопряжено с рядом труд- ностей. Экспериментальное ис- следование поведения опи- санной выше конструкции на ЦВМ подтверждает вы- сказанные соображения, од- нако рассматриваемый авто- мат имеет очень большие времена установления ста- ционарного режима, так как для выхода на оптимальное значение требуется весьма большая емкость памяти ав- томата Ln,л. Другой возможностью формирования оптимального для данной переключаемой случайной среды автомата !) Смена действия автоматом Ln,k может привести к неопреде- ленности в работе автомата так как последний может оказаться в состоянии, находящемся вне емкости памяти. Во избежание этого будем считать, что в случае смены действия автомат Ln,вменяет свое действие r(t) на действие г(0 + 1 или r(f) —1 с вероятностями 1/2. Действия г(0 = 1 и r(t)=k изменяются на действия 2 и k—1 соот- ветственно. Учитывая, что смена действия происходит только при штрафе, легко видеть, что в этом случае никаких недоразумений воз- никнуть не может.
§ 15] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 99 является использование стохастических автоматов с пе- ременной структурой. Начнем с простейшего примера. Рассмотрим стохастический автомат Bi,2, имеющий два состояния с номерами 0 и 1 и два действия 0 и 1, соответствующих номерам состояний. Автомат задается двумя стохастическими матрицами, определяющими сме- ну состояний автомата: _ + 1 _ -Г 1 лОо л01 ^ + 1 or4-1 JT1O Лц --1 «-1 Л00 Л01 1 1 Лю Ли (1.5.31) и следующими правилами изменения переходных веро- ятностей: если в момент времени t автомат перешел из состояния с номером / в состояние с номером i под дей- ствием входа S(f), то Лд(0 (<+!) = (0 + aS (t + 1) ns^ (/) лЭД-о (/), | л/((i% (t + 1) = nJ((Li>(i)-aS(t+ 1) л^° (0nJgLi) (/), I (1.5.32) где S(/4-l) —входной сигнал (выигрыш или штраф) в момент времени /4-1; остальные переходные вероятности в этот момент времени остаются неизменными. Поведение системы «среда — автомат» описываются неоднородной цепью Маркова. Теория неоднородных це- пей разработана слабо, и аналитическое изучение по- ведения системы «среда — автомат» сопряжено с рядом существенных трудностей. Поэтому далее, при рассмот- рении поведения .стохастических автоматов с переменной структурой в переключаемых случайных средах, мы при- ведем ряд общих содержательных соображений, оправ- дывающих выбор способов изменения переходных веро- ятностей, а поведение автоматов будем изучать экспери- ментально, моделируя поведение системы «среда — автомат» на ЦВМ. Обозначим через %oi и %ог вероятности того, что авто- мат находится в состоянии с номером 0, а среда — в со- стояниях с номерами 1 и 2 соответственно. Аналогично, для состояния автомата с номером 1 имеем вероятности
100 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ 1ГЛ. 1 Хп и Хи. В связи с тем, что состояния среды равноверо- ятны, *01 4~ Х11 ~ *0-‘ 4* *12--------------ЯГ’ (1.5.33) При этом математические ожидания приращений значе- ний переходных вероятностей выразятся такими форму- лами: М (Длоо1) = аа (1 ~ 2б) [л°+ а (*м + (1.5.34а) М (Дл 26) Яро* [Го (1 (х01 4- х02)] (1.5.346) ^(Длн1) - аа ~ 2б*ЯЙ* + а (*п + хц)1 (1.5.34в) М (Длй1) — (1 ~2б) ~ Л (*ц + Xn)1 2 (1.5.34г) где Го=*о1 —*02 и Г1=Хц — Xi2, причем из (1.5.33) сле- дует, что го=П- Если автомат обладает целесообразным поведением, то г0=П>0; тогда sgn М (Длоо) — sgn М (Д^ц1) = sgn (1 — 26). (1.5.35) Учитывая, что дисперсии приращений вероятностей пе- реходов уменьшаются по мере приближения вероятно- стей переходов к граничным значениям 0 и 1 и обраща- ются в нуль на границе (так же, как и математические ожидания этих приращений), можно ожидать, что матри- ца смены состояний для выигрыша будет стремиться к простой: О 1|приб<1/2, ^при 6>1/2. (1.5.36) Ряд менее очевидных соображений позволяет надеять- ся, что знаки математических ожиданий вероятностей смены состояний при штрафе будут противоположны знакам одноименных элементов матрицы переходов при
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ Ю1 выигрыше. Таким образом, можно ожидать, что при б<1/2 автомат В1Л будет сходиться к автомату с ли- нейной тактикой Li,2. Эти предположения подтвержда- ются экспериментом. На рис. 1.20 приведена зависимость математического ожидания выигрыша автомата Bi,2 от б в среде К. (С! (0,5; —0,5), С2(—0,5; 0,5), Д). Пунктир- ная линия на рис. 1.20 соответствует М (Ь\,2, К) — математическому ожиданию выигрыша в этой среде для автомата с линейной тактикой с памятью, равной едини- це. До 6=1/2 математические ожидания выигрышей для обоих автоматов практически совпадают. При:б.>-1/2 автомат с линейной тактикой теряет целесообразность, в то время как стохастический автомат Bi,2 в этой об- ласти с ростом б увеличивает меру целесообразности своего поведения. Функция М(В1<2, К.) симметрична от- носительно точки 6=1/2, что хорошо согласуется с (1.5.36). Эксперименты проводились для бе [0,05; 0,95]. Вне этого интервала формирование матриц переходов и математическое ожидание выигрыша зависят от пара- метра а, что и следовало ожидать, так как возрастает время между переключениями и поведение автомата приближается к поведению в стационарной случайной среде. Теперь рассмотрим поведение автомата Вп>2, имею- щего 2п состояний. В половине состояний автомат дела- ет действие 0, в другой половине — действие 1. Правила изменения переходных вероятностей для автомата Вп,2 являются расширением правил изменения переходных вероятностей для автомата В\,2.
102 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I Если автомат перешел из состояния с номером i в со- стояние с номером / под действием входа S(t), то + !) = «(* + 1)ал$°(0 [1 - (1.5.37а) Дл»(0 (* + 1) = - S (/ + 1) (/) 4<п (/), 14- /• (1.5.376) Все остальные переходные вероятности при этом сохра- няют свое значение. Можно предложить второй вариант изменения пере- ходных вероятностей, реализация которого несколько проще. Если автомат в момент времени t перешел из состо- яния с номером i в состояние с номером / под действи- ем входа S(t) и после перехода был оштрафован в момент времени /4-1, то переходная вероятность ум- ножается на а(0<а<1) и i-я строка нормируется де- лением каждого элемента на сумму элементов по стро- ке. В случае выигрыша в момент времени Z-j-l все элементы t-й строки, кроме умножаются на а и строка нормируется. Следовательно, 1 — S(< + 1) а 2 л?/° (О "и()«+1)=-ТТ5ЙТЙ-----------—---------’ (1.5.38) а 2 + S (t + 1)( 1 — «) л$° (/) 1+S(OH) 4(0(* +1) = -i+s-ж)--2 л —--------------о-5-39) а 2 +S(/+l)(l-a)nf/>(0 Оба приведенных метода практически эквивалентны. На рис. 1.21, a—1.21, а приведены результаты экспери- ментального исследования поведения автоматов Вп, 2 в переключаемой случайной среде при а=0,8 и 6=0,01. В такой среде оптимальная емкость памяти для автома-
§ 1.51 АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 103 та с линейной тактикой равна двум и математическое ожидание выигрыша M(L2,2, К) =0,744. На рис. 1.21 приведены зависимости /=0 (время на графиках по оси Т дано в логарифмическом 77 15 У 7/ 13 15 16 а) Ч г масштабе) и графы смены состояний, соответствующие матрицам переходов в конце эксперимента. Рис. 1,21, а и б соответствуют экспериментам с автоматами В4,2
104 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. 1 (в состояниях 0—3 выполняется действие 0, в состояни- ях 4—7 действие 1); рис. 1.21, в и 1.21, г — эксперимен- там с автоматами В2,2 (в состояниях 0, 1 выполняется действие 0, в состояниях 2, 3—действие 1). На рис. 1.21 переходные вероятности, превышающие 0,95, изображены сплошными стрелками. Для переход- ных вероятностей с меньшими значениями их величины указаны в разрывах стрелок. Переходы, имеющие веро- ятность меньше 0,01, на графах не указаны. Кроме того, на рис. 1.21, а и б не указаны состояния, вероятность по- падания в которые меньше 0,01, а вероятность выхода больше 0,95. Такими состояниями оказались состояния 2 и 5 в эксперименте 1 и 0, 1, 6 в эксперименте 2. На рис. 1.21, а — г видно, что математическое ожида- ние выигрыша (средний выигрыш) для стохастических автоматов с переменной структурой монотонно прибли- жается к значению математического ожидания выигры- ша для автомата с линейной тактикой с оптимальной для данной среды памятью. Следует отметить, что матри- цы переходов по выигрышу формируются гораздо луч- ше, чем матрицы переходов по штрафу, что хорошо со- гласуется с (1.5.34). Наиболее важным результатом экспериментов явля- ется структурная близость получающихся автоматов и автоматов с линейной тактикой, что безусловно указыва- ет на естественность конструкции автомата с линейной тактикой в задачах о поведении в случайных средах. При этом следует заметить, что эквивалентная емкость памяти получающихся автоматов (число следующих под- ряд штрафов, безусловно, приводящее к смене действия) близка к 2 независимо от числа состояний исходного сто- хастического автомата, т. е. к вычисленному оптималь- ному значению емкости памяти автомата с линейной тактикой для этой среды. Таким образом, стохастический автомат с переменной структурой типа В в переключае- мой случайной среде формирует себе оптимальную для этой среды емкость памяти. Из рис.1.15 и 1.16 и таблицы 1.5.1 следует, что если в качестве исходного автомата использовать стохастический автомат с переменной струк- турой, имеющей восемь состояний на действие, то такой автомат может быть применен во всем практически интересном диапазоне переключаемых случайных сред.
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ 10g Эксперименты со стохастическими автоматами с пе- ременной структурой Вп,2 в переключаемых случайных средах при 6>1/2 приводят нас при любом п к тем же самым результатам, что и эксперименты с автоматами J3t,2 (см. рис. 1.20). Изучая поведение автоматов в простейшей переклю- чаемой среде, мы видели, что при п->оо математическое ожидание выигрыша автомата стремится к нулю, т. е. автомат при очень большой памяти «усредняет» обе ста- ционарные случайные среды. Однако такой вывод спра- ведлив только для случая, когда С\ — С(а, —а) и С2= = С(—а, а). Рассмотрим поведение автомата Кринского Dn,2 в переключаемой случайной среде K(Ci, С2, Д) такой, что Ci = С (4‘\ 4°) и С2 = С (а™ , а™) при п->оо. Как и в случае автомата с линейной тактикой будем исполь- зовать недекомпозированное представление автомата. Пусть Rj г)2)}, где — вероятность того, что автомат находится в состоянии /’, а среда — в состоя- нии i(/=l, 2, ..., 2п, i=l, 2). Тогда в силу конструкции автомата (см. рис. 1.6) финальные вероятности состоя- ний определяются из решения системы уравнений: Ri — SiR2 S2Rn+ii R2 — 51/?з, Я/ = Rn - Qi £ Ri, t-i Rn-vi — +2 4" }• Rn+2 — S2Rn-’,-3, (1.5.40) Rn-i-i — S2R11-] j'4-l, Rm - Q> £ Rn+i, / = 2,3, ..., n — 1,
106 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ. I где _|(1-б)р?> 6М2) | Si-| (1-6)M Q (I) dt>_ q\‘ Pt. — 2 ’ "l ~ 2 * "l — 2 ' "l Заметим, что Ri = ST!Rn (/ = 2, 3, . . . , rt), Rn+I = Sn2-'R2n (j - 2, 3....«), 7?1 = [E — S2Si]-l [SVlRn + S2₽2n] , Rn+i = [E - SXS2]-1 [sx + SrM • Будем искать R, в виде Rj=nn~i Rn и Rn+j в виде Rn+i — vn~lRin (j= 2, 3, • . ., rt). Из системы (1.5.40) имеем (pE - SJ/?„ - 0, [vE -S3]/?2« =0. (1.5.42) (1- S) | s?'," d-в)dr !+«'<» и_ 1+«<Л 2 (1.5.41) Из уравнений Det(pE—S|)=0 и Det (vE—S2)—Q получаем (1-6) (p^+Zi2*) + H(l-6)2 (pV’+p^)2 -4 (l-26)p<V2) g! = -----------------------, (1-6) (/’(11,+p(12)) - Hi-fi)2 (^°+/42))2 - 4 (!-26)4‘M2) p2_^------------------------------------------------- _ (1-6) (/2°+/22)) -I- V(1-6)2 - 4 (1-2в)/«р<22> Vi — 2 d-в) (/4‘>+Л2)) - Hi-s)2 (/21)+/’22))2 -4 (i-se)^^2) v2 = -----------------------g (1.5.43) Далее из (1.5.42) имеем собственные векторы: й’ = Ы2>, И1 -d-б) Л й2> = |бР<я, И!-(1-6)Л «8!=Ма.’1-(1-»)Л1. я4?=Ы“. v, - (1 - 6) Л1-.
§ 15] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ Ю7 В силу того, что для каждого уравнения в (1.5.42) имеется пара собственных чисел и пара собственных векторов, представим решение системы в виде R, = ^~‘А^ + pr’AtR™, Rn+J = уГ'Вх^ 4- vn2~lB2R$> (j = 2, 3, ..., «)• Коэффициенты Ль Л2, Вь В2 будем искать из уравнений для Rn и R2n: Rn= Qi ЛхМ0 2, и" ' 4“ A^R^ 2, Нг ' 4* -|- Л2/?„2)р2 *] 4- + Qx IB -S.Sxl-1 [Bx^v? + B2R<?№], (1.5.46a) (1.5.45) п п L ~ /=2 /=2’ 4- Qj [£ - S2Sj]-> + R2n = Bx/$> 2 v^'B^ 1 4“} L /=2 j-2 + Q2[E- SxSJ-1 [Лх^и?4- Л2Я<М 4- + Q2 IF- SxS2]-i [Вх^уГ1 4- B.M> уГ1] • (1.5.466) Заметим, что Q/=[A—и QiW = Q2R^ = A/?^ - v,$>. Тогда (1.5.46) приводится к следующему виду: |£-а1[^14т;й>+ ^г47,е] + .^й2’]-Y [4.1*?-%" + 4- A&r'R™\ - ¥ [BrfRtt 4- В/Й ] = 0, (1.5.47а) — А] ГВх -j—— /?2п 4- В2 -г—— R^n 1 + I 1 — /j. 1 — ^0 j + Q2 fii T=4 R<£ + fin- r=v2 ] - ф [B 4- B2vn2-lR^ ] - Ф [Л1И?/?Ф 4- л2р^2)] = 0, (1.5.476) + qJa 1^4 + а. 1 — ,П-1 2 — V2 +
108 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ (ГЛ. I 'F = Q1lE-S2S1]~i = h“ М, Ф21 'Фгг || O = Q2[£-S1S2]-t = |<P“ М. ц Ф21 Ф22II Окончательно имеем систему уравнений: Ai I. cq + xnpj *) -J- Л2 (а2 4- х12рг *) — -B1v?gn-B2v^i2=0, •^1 (а1 4" И21Р1 4” Л2 («2 4" Х22.п2 *) — -В}У1 ^21 — $2^2^22 ~ 0, Ли 4" Л2Р2Л12 — Bi (Pi 4~ criivi *) — — ^2 (Рг 4~ ai2v2 *) — 0, Яг! 4“ -^гИгЛгг — Bi (Pi 4~ °2ivi *) — — В2 (р2 4* &22у2 — О, = 1|5/1бр22) 4- Ф/2 [Vi ~ (1 — б)Р20], Л/i = Ф/1бР(12) 4- Ф/2 [щ - (1 — 6)Pi”], Хц = - 1]>1г6р<12) -1|)12 [р; - - (1 - 6)р^] 4- S(i-6)(p<12)-P(11))4-tAiM2> + (1~<М x2i = — фггбр!2’ - 1р22 [и» - (1 - б)Pi'] 4- 62P(12)‘?i) — (1 — 6)2 — 6) ?(2)
§ 1.5] АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ J 09 <Tli — — Ф12 [vi — (1 — б) Р2^] 4~ 6(1—6) —/>(2°) + \6</22) , + 0-^) °2i — tyzi&p'z* — ф22 [v2-(1 — S) РгЧ 4" а - (1 - «ММ0 4- \ (1 - 6) ^2> ' (1-4) Определитель системы (1.5.48) равен нулю в силу эргодичности марковской цепи (1.5.40), следовательно, система имеет нетривиальные решения. Далее мы будем интересоваться поведением автомата Dn, 2 при и->оо. Будем полагать, что gi>p.2 и vi>v2. При этом для 6<1/2 p!<l и vi<l. Действительно, lim Цх — max pi2>) > lim рх = 6-0 6-1/2 2 lim р2 = min (р^, /42)) > lim р2 = 0, 6-0 6-1/2 lim Vx = max (/>2\ Pz}) > Um vx = 6-0 6—1/2 2 lim v2 = min (p^, p^2)) > lim v2 = 0, 6-»0 6—>1/2 <fy-l db = Jl-6)(pP + p(12))2-46p(11)pt(2> 2 2 V (1 — 6)* (p*11 + P<2>)2 — 4 (1 — 26) p^p’x2’ (14- P(12))2 - 4MV > 2(1 - 8)(W4W2>)2)- - 2(1 - 6)p(№ = (1 - 6) (p<‘> - Pl2»)2 > 0. Следовательно, 4^^° ПРИ б<1/2. Аналогично, 4g-<° ПР” S<l/2.
110 ПОВЕДЕНИЕ АВТОМАТОВ В СЛУЧАЙНЫХ СРЕДАХ [ГЛ, I При вычислении коэффициентов At, A2, Blt В2 мы будем пренебрегать членами высоких порядков малости. Тогда из (1.5.48) имеем Ах = сагРаУ” (In I12), А2 — CttiPav" (511 — I12)» Bt = СОС2Р2Н1 1 (xn — Х21)> B2= — ca2PiP? 1 (Кц — x2i), (1.5.49) где с — нормирующий множитель. Пусть У г, — г? + г/2) — вероятность пребывания в п j-м состоянии и aL — Т г,- — вероятность того, что ;=1 автомат делает первое действие. Тогда где 61 и 62 — положительные ограниченные константы, и таХ (VjJ^P max(»i1, »л2)1 Gi „ £i °2 е2 (1.5.51) Из (1.5.51) нетрудно видеть, что с ростом п автомат де- лает исключительно то действие, для которого макси- мальное характеристическое число (1.5.42) имеет мень- шее значение. При малых 6, когда max(vi, V2)-> ->max(p(21), Р22)) и max (щ, Ц2) -> max (P(i1}, p(i2)), автомат делает почти всегда то действие, наименьший выигрыш за которое имеет наибольшее значение. Полученный результат несколько неожидан. Из со- ображений о том, что автомат с очень большой памятью усредняет обе среды, естественно было бы предположить, что автомат выбирает преимущественно то действие, на котором обеспечивается max i max min (a*0, а*2’) ’), как следует из (1.5.51). Однако ’) Точнее, min[max(vi, v2), тах(ць ц2)].
$ 1-BJ АВТОМАТЫ В ПЕРЕКЛЮЧАЕМЫХ СЛУЧАЙНЫХ СРЕДАХ J j j полученному результату может быть дано естествен- ное объяснение. Дело в том, что вероятность смены действия автоматом определяется в основном моментами пребывания среды в «плохих» для этого действия состоя- ниях, и автомат выбирает свои действия так, как если бы он функционировал в стационарной случайной среде С [mln И’, 42)), min(41’,42))]. С другой стороны, за- метим, что р«> + р<2> lim Pi =—Цч------, lim р2 = 0; 6-1/2 Z 6-1/2 11m 2 /2 , 11m v2 = 0, 6-1/2 2 и автомат оказывается не в состоянии «различить» ста- ционарные случайные среды С1 и С2. Аналогичные выкладки могут быть приведены и для случая, когда матрица переключений стационарных случайных сред имеет вид 47- -3 Для этого случая, аналогично (1.5.51), Пт W, п-оо [тах(|1х, [X2)J ’ где Н. 2 = § [О ~ W Р? + С1 - 62) pj2) ± ± V [(1—6,) - (1-6,) р!2)]2+ 46J62p<1)p(2)} , V1, 2 = 1 [(1 - 61) Р^ + (1 - «,) Р(22) ± ± /[(1 - 6х) - (1 - 62) Р^2)]2 + 4616гр^р<22)}> Нетрудно показать, что рР’+р^ max (И1, р2)<-ДЦ21_ 1 и P^ + pj? max(vx, v2)< < 1. 2
ГЛАВА II ИГРЫ АВТОМАТОВ § 2.1. Игры автоматов В этой главе мы начнем изучение совместного пове- дения автоматов — моделей коллективного поведения. Язык теории игр, не покрывая всех возможных видов коллективного поведения, позволяет, однако, построить ряд интересных и содержательных моделей. Рассмотрим игру N автоматов А1, А2, ..., AN. Будем, как и прежде, предполагать, что входные переменные S3 (t) принимают только два значения, S^(/) = 4-l и 1, соответствующие единичным выигрышами проигрышам автомата А3 в момент времени t. Выходная переменная р'(0 каждого автомата А3 при- нимает kj значений из множества (Л, fL •••. Эти значения мы будем называть чистыми стратегиями ав- томата А3 или просто стратегиями и говорить, что авто- мат А3 использовал в момент времени t свою а-ю чистую стратегию, если fJ(t) = Внутренние состояния авто- матов ф3’ (/) и матрицы смены состоянийЦь (S'(0)1 бу- дем определять аналогично предыдущей главе. Назовем партией игры, разыгрываемой в момент вре- мени t, набор f(f) = (/х(0, ^(О, • • •» чистых стра- тегий, используемых в момент времени t автоматами Л1, Л2, ..., AN. Исходом партии f(t) будем называть на- бор S(/+l) = {S1(f+l), S2(H-1), ..., $*('+!)} значе- ний входных переменных (единичных выигрышей и про- игрышей) этих автоматов в момент времени /4-1. Будем говорить, что задана игра Г автоматов Л1, Л2, ..., AN, если для каждой партии f(t) задана вероят- ность p=(f, S) ее исхода S(/4-l), причем при всех f имеет место равенство 2p(f,S) = l. (2.1.1) 8
5 2.1) ИГРЫ АВТОМАТОВ 113 Игра Г автоматов А1, А2, AN состоит из последо- вательности партий f(t), /=1, 2, исходы, S(/-|-l) ко- торых определяются вероятностями p(f(t), S(<4-1)) • Для каждой партии игры Г можно определить мате- матическое ожидание выигрыша автомата А1 в партии f — как 2S [p(f,Sx, ...,S/_1,+ l,Sy+1, S1..s>—1« fiH-1 SN — . ...S’-1, - 1,S’H, SN)]. (2.1.2) В теории игр игра Г* считается заданной, если ука- заны: а) игроки Д (/=1, 2, N), б) множество стратегий игроков FJ — {/{, /2, • • • > I (/=1,2,..., АГ), в) функции выигрыша v1 (f), определенные для каждой ситуации (партии). Нетрудно видеть, что игра Г инвариантна к умноже- нию всех функций выигрыша на константу1). Игру Г, N автоматов и игру Г* N лиц будем на- зывать эквивалентными, если аД/)=£пД/) 2). Заметим, что задание игры Г* не позволяет однознач- но построить игру автоматов Г. Действительно, игра Г* задается только значениями aj(f), однако, зная N мате- матических ожиданий выигрыша в партии f, нельзя вос- становить значения 2JV—1 вероятностей ее исхода. Игра Г называется игрой с независимыми исходами, если N р (f, S) = p{f, Sx, S2, ..., Sw) = П p^f, sj), (2.1.3) гдеО^рД/,-1)<1, 0^рД/,+ 1)^1, pi(f, +1)4W, -0 = 1 и ai(f)=pi(f, +l)-pi(f, -1). l) Умножение всех платежных функций на константу эквивалент- но изменению масштаба «цен». 2) Заметим, что | ai (f) 1 <1.
114 ИГРЫ АВТОМАТОВ [ГЛ. II Такая игра может быть однозначно построена по про- извольной игре Г*; при этом ai (f) = max |feu7(f)| < 1, = (2.1.4) Будем говорить, что система автоматов A1, A2, ...,AN, участвующих в игре Г, находится в состоянии х(/) = = (xi, Х2, xw), если в момент времени t автомат Л’ находится в состоянии <рх , Х{=1, 2, ..., т}, j—1, 2,... N1). Покажем, что такая система описывается ко- нечной цепью Маркова. Для этого определим вероятно- сти Р Fi,£лг перехода системы из состояния х(/) = = (хь х2, ..., xN) в состояние g(H-l) = (|i, ..., gw). Пусть в состоянии х(/) автоматы разыгрывают пар- тию f(t) = [F1 (чч)’^8(ф£)» •••»^W(Vxw)]’ тогда веро- ятности Pg,1’ " g^ перехода системы из состояния x(t) в состояние IG+1) задаются формулами: Pt ’"Х = 2 р s1’S2’ • • • ’sN)х X aU(S2) х • • . X«xNw^ (SN), (2.1.5) 2 Pg...= £р(^)£«к(31)Х j 6|...s-v s g X а£б> (S2) X ... X a^.gw (SN) = = Зр(А5)ПД2а4Л(§^ = 1. (2.1.6) Справедливость (2.1.6) следует из того, что2 «х/fy (3;) =1 и 5 Р (/> 5) = 1 • При этом S !) Здесь под состоянием автомата понимается пара состояний: состояние автомата памяти и состояние автомата действия. Для сим- метричных автоматов = kfij*
§2.1] ИГРЫ АВТОМАТОВ 115 Таким образом, матрица ||р£’ ’’’,*^|| является стоха- стической. Если определенная таким образом цепь Маркова яв- ляется эргодической, то существуют финальные вероят- ности состояний системы, а следовательно, и математи- ческие ожидания выигрышей автоматов, не зависящие от начального состояния системы. Игры автоматов, которым соответствуют эргодиче- ские цепи Маркова, будем называть эргодическими. Обозначим через ......... финальную вероятность того, что система автоматов Л1, Д2,..., AN, участвующих в игре Г, находится в состоянии x=(xi, хг, xn). В этом состоянии играющие автоматы разыгрывают пар- тию f= [И -Р W,), ti. = р W.)...........с,= Тогда математическое ожидание Mi выигрыша автомата Aj в игре Г определяется формулой М> = 2 ......W (Д, fl, ..., flN). (2.1.7) К Величину Mi будем далее называть ценой игры Г для автомата Заметим, что ai(f) зависит только от разыгрываемых автоматами партий, по не зависит от того, в каких состояниях находятся автоматы памяти. Пусть f= fl • • • > ftjf) и U t — множество всех состояний си- стемы играющих автоматов, в которых разыгрывается партия /. Тогда а(/) = 2Я*.....*N (2.1.8) И = 2 о (/)<?(/), (2.1.9) где a(f) —финальная вероятность партии f. Заметим, что цена игры для автомата А> в игре Г существенно зависит от конструкций всех играющих ав- томатов, т. е. от матриц [а^ (S)|. Определенные выше модели коллективного поведения описаны на языке теории игр, однако игры автоматов
116 ИГРЫ АВТОМАТОВ [ГЛ. II существенно отличаются от игр N лиц в обычном для теории игр смысле. В теории игр обычно предполагает- ся, что платежные функции, определяющие игру, извест- ны всем игрокам заранее. Игроки, используя эту инфор- мацию и любые вычислительные средства, выбирают свои чистые или (что бывает значительно чаще) сме- шанные стратегии, которые в ходе игры уже не изменя- ются. При этом каждый игрок предполагает, что его партнеры играют наилучшим образом. В играх автоматов игроки (автоматы), не обладая априорной информацией об игре, вынуждены выбирать свои стратегии для каждой партии в ходе самой игры. Автоматы, участвующие в игре, располагают информа- цией лишь о своем выигрыше и проигрыше в каждой партии, не зная ни платежных функций, ни даже числа участников игры. Игра автоматов существенно зависит не только от платежных функций, но и от конструкций участвующих в игре автоматов. Платежные функции, задающие игру, и конструкции партнеров автомата по игре, определяющие их поведе- ние, порождают более или менее сложную случайную среду, в которой автомат должен обладать целесообраз- ным поведением. При этом естественно потребовать, что- бы используемые конструкции автоматов обладали целе- сообразным поведением в простейшей игре — игре с партнером, использующим одну чистую стратегию (иг- ре с природой) !). Отсутствие априорной информации об игре приводит к естественному требованию использо- вания автоматов без априорной целесообразности — сим- метрических автоматов. В заключение этого параграфа рассмотрим простей- ший пример игры двух автоматов с линейной тактикой ^1,4 и £1>5. Первый автомат имеет 4 действия, второй — 5. Так как п=1, то автоматы при проигрыше изменяют свое действие, а при выигрыше сохраняют. Действия ав- томатов при проигрыше сменяются циклически. Пусть вероятность p(f, S) принимает только два значения, ’) Игра с природой эквивалентна поведению в стационарной слу- чайной среде. Аналогично, к поведению в стационарной случайной среде сводится поведение автомата в игре с партнером, использую- щим одну смешанную стратегию.
§ 2.1] ИГРЫ АВТОМАТОВ 117 О и 1. Так как автоматы £1э4 и имеют соответствен- но 4 и 5 стратегий, платежные функции удобно задавать в виде двух матриц 4X5: 110 0 10 11 1110 110 0 ° \ / ° 0 I I 1 о I ’ | о 1 / \ 1 0 111 1110 0 0 11 10 0 1 На пересечении /-й строки и /-го столбца первой (соот- ветственно второй) матрицы расположено значение ве- роятности проигрыша первого (соответственно второго) автомата. Последовательности разыгрываемых автома- тами партий удобно изобразить на прямоугольном поле (рис. 2.1), где строки соответствуют стратегиям первого автомата, столбцы — стратегиям второго, а точки — ра« зыгрываемым партиям. Из рис. 2.1 видно, что партии (2,5), (4,3) и (4,4) яв- ляются устойчивыми, т. е. автоматы, попав на эти пар- тии, продолжают разы- грывать их сколь угод- но долго. В партии (3,3) автомат ЛЬ4 проигры- вает, а £1,5 выигрыва- ет, и автоматы пере- ходят на партию (4,3). Во всех остальных слу- чаях реализуется одна из следующих двух циклических последо- вательностей партий: {(1,1), (2,1), (3,2), (4,2), (1,3), (1,4), (1,5)} или {(1,2), (2,2), (2,3), (3,4), (3,5), (3,1), (4,1)}. Рассмотренная игра не является эргодической, одна- ко она иллюстрирует некоторые характерные черты по- ведения автоматов в игре.. Заметим, что наличие циклов и устойчивых состояний характерно для любых игр, в ко- торых p(f, S) принимает значения 0 или 1, а автоматы осуществляют выбор новой стратегии детерминированно. В случае, когда новая стратегия выбирается равноверо- ятно, циклы не возникают.
118 ИГРЫ АВТОМАТОВ [ГЛ. II § 2.2. Игры двух автоматов с нулевой суммой В теории игр игра с нулевой суммой определяется следующим образом. Пусть в партии f игры Г* N лиц /ь /г. •••» Jn vdf) (i=l, 2, ..., N) —платеж игроку Ц в конце партии (если /г- должен платить сам, то fi(f)<0). Если при этом 2 fi(/) = 0, то партия f называется »=1 партией с нулевой суммой. Если любая возможная пар- тия некоторой игры имеет нулевую сумму, то такая иг- ра называется игрой с нулевой суммой. В случае двух игроков игра с нулевой суммой озна- чает, что выигрыш первого игрока равен проигрышу вто- рого игрока, т. е. в любой партии игры vi(f)——02(f). Определим теперь игру двух автоматов с нулевой суммой. Игра Г двух автоматов, А1 и А2, имеющих соответст- венно и k2 стратегий, называется игрой с нулевой суммой, если для любой партии игры f = (f1, f2) ai(f) = = —a2(f)> т. e. в любой партии игры математические ожидания выигрышей автоматов равны по величине и противоположны по знаку. Пусть ai (f) =—a2(f) =a(f), p(f)=J^L> q(f)= 1±±([L и p(f,S',S2) -веро- ятность исхода (S1, S2) партии f. Игра двух автоматов с нулевой суммой называется игрой с независимым штрафованием, если p(f, -1, -l)=p(f)<7(f), P(f,-l,+l)=p2(f), p(f, +i,-i)=<m p(f, +L +l)=P(f) <7(f). Игра двух автоматов с нулевой суммой называется игрой с зависимым штрафованием, если p(f, -1, -l)=p(f,+l, +1)=0, p(f, -1, +l)=p(f), p(f, +1, -l)=?(f) *)• 9 Нетрудно видеть, что игра с независимым штрафованием яв- ляется игрой с независимыми исходами (2.1.3), а игра с зависимым штрафованием игрой с независимыми исходами не является.
§2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 119 Пусть a(f) = a[fla, /р)=аар(а=1, 2, ..., kf, 0= = 1, 2, .... k2). Величины aap образуют прямоугольную матрицу [Jaap||, совпадающую с матрицей эквивалент- ной игры двух лиц с нулевой суммой. Обозначим через V = min шах ац и v = max min ац i i i i соответственно верхнюю и нижнюю цены игры Г, причем V^v. Если игра является эргодической, то существуют фи- нальные вероятности состояний системы играющих ав- томатов, и величина 2И(Л*, А2, Г)—математическое ожидание выигрыша первого автомата в игре Г — не за- висит от начальных состояний. Эту величину будем назы- вать ценой игры автоматов Л1 и Л2 в игре Г. Обозначим, как и прежде, финальную вероятность состояния системы автоматов, участвующих в игре Г, через RK" Если система находится в состоянии (xi, н2), то автоматы Л1, Л2 находятся в состояниях <р£х и <pXi соот- ветственно и используют стратегии /£, = F1 fXj= = F2(<pxJ. Тогда в соответствии с (2.1.7)'цену игры ав- томатов Л1, Л2 в игре Г можно вычислить по формуле: М (Л1, Л2, Г) = 5 Ч, Хз = 2 О (a, Р) (2.2.1) х3 а,р где ст(а, 0) —финальная вероятность партии (а, 0). Простейшим примером игры автоматов является иг- ра автомата Л против игрока J, использующего смешан- ную стратегию Х=(хь х2,..., Хд,). В теории игр гово- рят, что игрок использует смешанную стратегию X, если он использует стратегии fi, f2,..., fk2 с вероятностями (hj \ 0<х{ < 1, 2 xi = 1 )• Выбор стратегии i=l / f (t) в каждой партии игры производится независимо от исхода предыдущей партии и использованной ранее стратегии f(t— 1). Тогда математическое ожидание выигрыша автомата Л при стратегии fa определяется формулой Д. aa = 2 flapXe, a = 1, 2, ..., klt
120 ИГРЫ АВТОМАТОВ [ГЛ. II и поведение автомата в игре эквивалентно поведению в стационарной случайной среде С(аь а^, ., а* ), и для любого X М(Д, J, Г)=М(А, С). Если автомат А принадлежит к асимптотически-оп- тимальной последовательности А1, А2,..., Ап......то h, lim М (Ап, ku J, Г) = max 2 «аз*з- (2.2.2) п-*оо а 3=1 При ЭТОМ к, lim М (Лп, klt J, Г) max min 2 аазхз- (2.2.3) л-*оо а X 3=1 Равенство в (2.2.3) достигается на оптимальной смешан- ной стратегии игрока /. Следовательно, играя против игрока J, автомат, принадлежащий асимптотически-опти- мальной последовательности, при достаточной емкости памяти добивается выигрыша не меньшего, чем цена иг- ры по фон Нейману. Пусть нам задана марковская цепь с двумя состоя- ниями ф1 и фг и стохастической матрицей 1- 61 6х 62 1 — 62 Тогда р — ----финальная вероятность состояния ф1 и 1 — р = ----финальная вероятность состояния фг. Реализация этой цепи Маркова дает последовательность случайных событий ф1 и фг с вероятностями р и 1 — р соответственно. Пусть коэффициент корреляции между событиями ф/ и ф;-. Тогда R = _ РСЫ1*)—РСЬЖЫ _ _ _ j _ **** К (Р (Фл> ~Р2 (h)) (Р CW — Р2 (Фг)) 1 “ = 61 + 62 1 (р(фь фг)—вероятность последовательности событий ф1, фг) и RibM>, = ~ i — 61-j-Sj 1 — R’htl’a — Тс-
§2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 121 перь пусть в игре А/Х2 игрок Л использует оптималь- ную смешанную стратегию с вероятностями чистых стра- тегий р, и 1 — р, но использует для выбора своих чистых стратегий датчик случайных чисел, обладающий коэффи- циентом корреляции/?/,/, = Для автомата An,k1 игра с таким партнером эквивалентна поведению в пе- реключаемой случайной среде К[С1(ац, ац,..., ал,1), С2(й12, агг,- • А] и матрице переключений II — (1 — F)(«+ 1) О - Ю(/? + 1)| р(/? + 1) (1-р)(/?+1) I Из сказанного следует, что автомат Ап,ь1 с емкостью па- мяти, близкой к по, оптимальной для данной переклю- чаемой случайной среды, будет добиваться в игре вы- игрыша, превышающего цену игры. Сделанный вывод распространяется и на произвольные игры ki%k2 с ну- левой суммой. Теперь рассмотрим игры с нулевой суммой двух ав- томатов А1 и А2. Будем считать, что автомат А^ состоит из автомата действия и автомата памяти. Как и в § 1.1, обозначим через <р? состояние автомата памяти для Л’ и будем рассматривать такие конструкции, у которых смена действия происходит только в состоянии <р{ ав- томата памяти. Время (число тактов) /д (а,) до смены действия ав- томатом А, находящимся в состоянии ф; и делающим действие fa, в стационарной случайной среде зависит от а,. Математическое ожидание случайной величины (он) обозначим через T’J'(ai) и (оч) = Та (а,). Не- трудно видеть, что для любых i и j — Та (д0 /о 9 л\ а/ “ Та (aj) ' где а/ и ст/ — финальные вероятности стратегий ft и fa. Пусть 7.1(0/)—стационарная вероятность смены *) В последнее время для создания датчиков случайных чисел часто используют конечные автоматы, которые вносят марковские свойства в генерируемые последовательности.
122 ИГРЫ АВТОМАТОВ [ГЛ. II действия fi автоматом Л в среде С; тогда из (1.1.11) сле- дует тА^) -тА(а{) и Та{ Определим константу W. Очевидно, что для рассматри- ваемых конструкций автоматов ТА{ —1) = 1, и, следова- тельно, (2.2.5) ТА((ц) = L1LH. ' ТА(<н) Учитывая, что для всех рассмотренных в § 1.2 конструк- ций автоматов уА( —1) = 1, окончательно имеем ^(а‘>=-йкг- Последовательность случайных величин назовем по- следовательностью с вырожденным распределением, ес- ли из нее можно выделить подпоследовательность g2,..., 1п> • • •, такую, что для некоторого малого 6П вы- полняется где |п—математическое ожидание случайной величины gn (вероятность того, что случайная величина является бесконечно малой по сравнению со своим математиче- ским ожиданием, стремится к единице)1). Далее мы будем рассматривать последовательности автоматов Ль Л2,..., Лп, отвечающие следующим усло- виям. Условие 1. JiT П->СО номерно по <р'(п) вольные состояния тФ'(п>, , Ап («V -777-i— = оо для любых ai>a2 рав- П(п) (й2) п и ф"(п), ГДе ф'(л) И ф"(л)—произ- автомата памяти Ап. !) Примером такой последовательности является последователь- ность случайных величин %п, которые принимают значение 0 с веро- ятностью 1 —~ н значение п- с вероятностью 1/и.
§2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ суммой 123 Условие 2. (а), /’(2) (а), • • - 4^ не есть после' довательность с вырожденным распределением при лю- бых ф(п) и а. Определим автоматную цену d пары последователь- ностей автоматов Ль Л2.....Ап и Вь В2,..., Вп, отве- чающих условию 1. Стационарная вероятность смены действия ул («) —монотонно убывающая функция от а и ТВп(—а)—монотонно возрастающая функция от а. Определим число d(n> равенством (d") = 1вп (- dM), - 1 < d(»> < 1. Будем рассматривать только такие последовательности Ль Л2,..., Ап,... и Bi, В2,..., Вп,..., для которых су- ществует предел d = limd(n). Число d назовем автомат- П“>ОО ной ценой последовательностей Ль Л2,.....Лп......Вь В2) • • • > Вп,... Если автоматная цена пары последовательностей А), Л2.... Лп,..., Вь В2,..., Вп,... есть d, то, по определению, автоматная цена пары последовательно- стей Вь В2, Вп.....Ль Л2,..., Ап,... равна —d. Авто- матная цена пары одинаковых последовательностей рав- на нулю. Пусть задана игра Г с матрицей ||аа₽п и число d. Перенумерацией строк и столбцов матрицы ||аар|| приве- дем ее к виду М=И’ (2-2-6) где Od — максимальная подматрица матрицы ||aap|| та- кая, что aafi^.d, если aa^Nd, и aap2Ssd, если aa^GPd, а подматрица Id не пуста. Может оказаться, что Od пу- ста и Jd совпадает с ||аар||. Партии (а0), для которых аареОй, называются d-недоступными партиями игры Г, остальные партии — d-доступными. Пусть, например, за- даны две игры, Г\ и Г2, с матрицами где знаками «+» и «—» обозначены произвольные по- ложительные и отрицательные элементы соответственно.
124 ИГРЫ АВТОМАТОВ [ГЛ. II Если d~0, то для матрицы все партии являются d-доступными. Для матрицы Г2 партия (2.2) (с выигры- шем с) является d-недоступной. Теорема 3. Пусть Ль А2, ..., Ап и Blt В2, ... ..., Вп,... — последовательности автоматов, удовлетво- ряющие условиям 1 и 2,— играют в игру Г. Тогда, если o<d<V, то предельный выигрыш М автоматов в после- довательности {Ai} заключен между двумя ближайшими к числу d элементами матрицы игры Г, являющимися d-доступными: а*. sC М sC а*. •th «зЬ при v<d< V, где а* - max _ {а0}; а*л = min _ {а0} Доказательство. Как уже указывалось выше, в игре 1 автомата А„ с автоматом Вп математическое ожидание выигрыша автомата Ап (цена игры Г) равно Л4П = М (Лп, Вп, Г) ~ (п) (2.2.7) и где atj(n) —вероятность того, что автоматы Ап и Вп ра- зыгрывают партию (i, /). Если в моменты /—1 и t автоматы разыгрывают различные партии, то будем на- зывать момент времени t моментом смены партий. Мо- менты смены партий разбивают время на интервалы, в каждом из которых разыгрывается одна определенная партия. Таким образом, каждому интервалу ставится в соответствие пара индексов (i, j). Обозначим черезтп(ац, Г) среднюю продолжительность интервалов с индексом (i, /), т. е. среднюю продолжительность партии (г, /). Долю интервалов с индексом (t, /) относительно общего числа интервалов обозначим через ру(п) и назовем ве- роятностью перехода к партии (i, /)• Отношение суммы длин интервалов, в которых разыгрывается партия (i, /), к суммарной длине всех интервалов есть сгц(п). Вероят- ность партии (i, /) связана с ее средней продолжитель- ностью следующим образом: Сц (п) = апРи (п) хп (аи, Г), (2.2.8)
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 125 где ап—нормирующий множитель, определяемый из ус- ловия (п) — Ы Пусть в момент перехода к партии (i, j) автомат Ап оказался в состоянии <р(п), а автомат Вп — в состоянии ф(п). Математическое ожидание продолжительности партии (i, /) при таких начальных условиях обозначим через До тех пор, пока автоматы разы- грывают партию (i, /), можно считать, что они функцио- нируют в стационарных случайных средах, причем ав- томат Ап совершает действие i с математическим ожида- нием выигрыша aij, а автомат Вп совершает действие / с математическим ожиданием выигрыша — ац. По опре- делению автоматной цены и в силу условия 1 при лю- бых ф(п) и ф(п) Пп1 (=0 при a>d, (229) п-^оо ai;) (о приа<г/. Пользуясь условием 2, можно вывести, что ’) ТФ(л)ф(п)(а.?.) .~7Ф(п)(_ Яо) ПрИ a0>d, п °п Т'Р('ОФ('О (я. ) при aij<Zd. (2.2.10) Смысл (2.2.10) состоит в том, что продолжительность партии определяется поведением того из автоматов, кото- рому «хуже». Автомат, которому «хуже», выделяется соотношением математического ожидания выигрыша и автоматной цены. При этом вероятность того, что в пар- тии (i, /) раньше сменит действие тот из автоматов, ко- торому «хуже», не обязательно стремится к единице при п —>оо. Из (2.2.10) следует, что тф(п)Ф(п) ) г ад прИ d < а < а - to ,.р„ ’) Запись* ~у означает, что при п->оо отношения х 1у и ' п п 1 п п Ул/Хл ограничены, т. е. *л и у п имеют один и тот же порядок роста по п.
126 ИГРЫ АВТОМАТОВ [ГЛ. II Согласно определению верхней V и нижней v цен игры, в случае V>d>v в каждой строке матрицы ||а^|| есть элементы, меньшие, чем d, а в каждом столбце — боль- шие, чем d. Пусть ни один из d доступных элементов aij^Od не равен d. Тогда для pfj(ra) можно записать си- стему уравнений Pi,(n) = 2pM(n)0Aw(«). (2-2.12) где 0ы,ц(п) имеет смысл вероятности того, что автоматы разыгрывают партию (i, j), если до смены партии они разыгрывали партию (k, I). Используя условие равнове- роятного выбора нового действия автоматом в случае смены действия и условие 2, можно показать, что суще- ствует а>0 такое, что Qkbkj(n) >а при всех /, если aki>d, и 0ль«(п)>а для всех I, если т. е. если то свое действие изменяет ъ основном первый автомат, а при aki>d — второй1). Исследуя систему (2.2.12) при га->оо, можно показать, что р.,у, (га) — РиДга) при любых Oij,, и рар (га) =О(ру(га)) при лю- бых аац^О<1 и ац^Оа. Следовательно, если игра Г тако- ва, что V>d>v и ни один из au^Od не равен сС_то су- ществует А=/:0 такое, что Иглр{, (га) > X при ац&Ол. п-*-со Пусть тп (ааоРо, Г) = шах т„ (а,,, Г). (2.2.13) Если матрица ||ац|| такова, что максимум в (2.2.13) единственный и партия (ао, Ро) является d-доступной, то из изложенного выше следует, что М = ааА. (2.2.14) В остальных случаях а* ^М^а* (2.2.15) где а*. = max ai;; а*. = min ац, что и тре- •’1/1 * UJ2 _ J 1 aij<d; е Od a^d', a^&>d бовалось доказать. ’) Последнее утверждение в некотором смысле аналогично (2.2 10).
§2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 127 Очевидно, что если хотя бы один из d-доступных эле- ментов ау равен d, то M=d. Рассмотрим еще одно условие, которому должны удовлетворять конструкции играющих автоматов. Пусть автомат Ап функционирует в некоторой среде Zn. Обо- значим через Т1Ап (Zn) среднее время до смены действия автоматом Ап при начальном состоянии <pi и действии fi в среде Zn. Заметим, что, как и выше, (Zn) не за- висит от математических ожиданий выигрышей за дей- ствия, отличные от f,-. Определим среду Zn следующим образом. Пусть имеется k2 случайных величин gi(n), ^(п),..., £л2(га) и математическое ожидание выигрыша за действие f, в среде Zn может принимать одно из k2 значений 0*2°, ...» следующим образом. Случайно, с равной вероятностью, выбирается одно из значений а<*>, кото- рое сохраняется в течение £i(n) тактов, после чего про- изводится новый равновероятный выбор значения мате- матического ожидания выигрыша. Нетрудно видеть, что случайная среда Zn эквива- лентна случайной среде, в которой функционирует участ- вующий в игре автомат, если его партнер в случае сме- ны стратегии выбирает новую стратегию равновероятно. Обозначим через gj(n) математическое ожидание ве- личины g;(n) и через = min, а(2{), а£>) Условие 3. Если 00, /о («) (математическое ожидание выигрыша за действие Д, большую часть времени равно а ), ^0 («) (среда Zn является быстро переключаемой для автома- та А п) и --Та----->00 , tl П->оо ’ то для автомата Ап при достаточно большом п и любых
128 игры автоматов (гл. п 6>0 должно быть выполнено условие П. (<"d Л. <“;. + 6)- Последовательности автоматов, удовлетворяющие ус- ловиям 1, 2 и 3, образуют класс S. Теорема 4. В играх с нулевой суммой последова- тельностей автоматов Д], Аг,..., Ап,..., Вг,... ..., Вп,..., принадлежащих классу S, 1) M=v, если d^v, 2) M=V, если d^V. Доказательство. Если d=v, то утверждение теоремы следует из доказательства теоремы 3. Рассмотрим случай d<.v. Так как v = maxmina{j, то в матрице ||а,-3|| существуют строки, все элементы кото- рых больше, чем d. Так как d определяется из равенства ?An(d) = Увп(~ d), что эквивалентно Тдп(й) = Твп{— d), то, очевидно, для строк, в которых aa.^>d, Тап (%) _> оо. ГВП (— “a j Л-»СО Из (2.2.12) следует, что для всех таких партий (а, /) выполняется ра31 (n) ~pajs (п) и, учитывая (2.2.11), нахо- дим, что тя (aai, Г) = о [т„ (aaj(a), Г)1, где авз(а) = min aaj. i Тогда из (2.2.8) получаем, что ов,(п) = 0[<Ta3(a)(rt)]. Обозначим через оа (п) = У оа, (п) вероятность выбора i автоматом в игре Г стратегии fa. Оценим среднее время Т“Я(Г, Ва), течение которого автомат Ап совершает дей- ствие fa в игре Г с автоматом Вп. Если в строке р есть элементы a^<_d, то нетрудно установить, что для любо- го 6>0 и достаточно больших п T^n(r,Bn)<T^n(d + b). (2.2.16) Если автомат Ап совершает некоторое действие fa, для ко- торого aaj>d для всех /, то можно считать, что он функ- ционирует в переключаемой среде Zn, удовлетворяющей ограничениям условия 3. При этом в интервале между сменами действий математические ожидания выигрышей
§ 2.2) ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 129 Ап суть числа aai, аа2, • • •, а«л2, а времена между пере- ключениями среды суть времена между сменами дейст- вия Вп, т. е. ~1з = Твп(—aaj). Поэтому в силу условия 3 при любом 6>0 Т“п К/ (а)] < т“п [Г, Вп ] < Тап 1аада) + 61. (2.2.17) Так как Л1( Л2> • • •, Лп —автоматы с равновероятной сменой действия, то из (2.2.16), (2.2.17) и условия 1 сле- дует, что ^-->0 где ааода0) = max aaj(a) = max min aaj = v, откуда следует, a a j что при d^u. M=v. Для доказательства случая d^V достаточно указать, что при этом автомат Вп находится в тех же условиях, что и автомат Лп для случая d^O. Действительно, = — УвпиdA„B„ = —d пап. Тогда из условия dA„e„> > Уап следует dBnAn иВп, и мы получаем, что в этом слу- чае M=V. Таким образом, теорема доказана. Можно показать, что конструкции автоматов Lnk) Dn<k, Кп,ь и Rn h, описанные в § 1.2, принадлежат классу S. При этом мы будем рас- сматривать автоматы, у которых автомат действия выбирает новое действие равновероятно. Обозначим такие автоматы через Sn. Пусть автомат Sn функционирует в стационарной случайной среде и совершает действие, математическое ожидание выигрыша за кото- рое принадлежит области асимптотической оптимальности автомата. Конструкций рассматриваемых автоматов таковы, что в этом слу- чае автомат из состояния Фу с большей вероятностью переходит в состояние ф;4-1, чем вфу_1е Из свойств 1, 2, 3 асимптотически-опти- мальных последовательностей автоматов (§ 1.2) следует, что даже если автомат находился в состоянии фь то с вероятностью большей, чем некоторая константа он окажется в состоянии фл прежде, чем для сменит действие. Поэтому условие 2 достаточно доказать лишь состоянияФл. Кроме того, для автоматов $п Так как Ts'n (a) < (a) < TS„ (a) > то при любых 4>i («) и фу (л) Tg* (а) ~ TgJ^ (а), и из асимптотической оптимальности авто- мата следует условие 1. Выполнение условий 2 и 3 может быть легко проверено с использованием теоремы 1 (§ 1.2).
130 ИГРЫ АВТОМАТОВ [ГЛ.П Определим автоматные цены некоторых пар последо- вательностей автоматов. Напомним, что две одинаковые последовательности автоматов имеют d—Q. Следователь- но, условие d=Q есть условие эквивалентности двух по- следовательностей автоматов в игре. 1. Пусть автомат Dn,kt играет с автоматом D[n,k^ (п=1, 2,...) (память второго автомата в I раз больше памяти первого автомата). Для автомата Dn,h , .. „ /1 — а\п = РП = [-Г) - Тогда автоматная цена don k -,Dln определится из урав- нения 1 — d /1 + d\l i 1 . 1 — = ’ - J<J<+ L Учитывая, что - = у, имеем ql-[-q—1=0, откуда <7>’/2 и d>0 при />1. Таким образом, в игре Г мень- шая память (большая подвижность) создает автомату преимущества. 2. Игра автомата с автоматом В этом случае автоматная цена don ki; к^к1 определяется из уравнения 1 — d\n‘ _3 — d 2 ) ~ 2 1 4- 3 —dj ’ In 2 Пусть n(=n и n2—ln. Положим d=0; тогда Zo = • При l>lo d>0, при l<l0 d<0. 3. Игра автомата D„^ с автоматом • Для этой пары автоматная цена определяется из уравнения При d=0, п.\ = п и n2—ln lim I— 1, т. е. автоматы D и R п-*«> практически эквивалентны.
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 131 Заметим, что в играх с нулевой суммой для автома- тов с линейной тактикой не выполняется условие 1, так как автомат с линейной тактикой асимптотически оптимален только в средах с неотрицательным матема- тическим ожиданием выигрыша. Для оценки последова- тельности автоматов с линейной тактикой вместо игры с нулевой суммой можно рассматривать игру с постоянной суммой, а именно, с суммой 1. Назовем антагонистиче- скую игру автоматов игрой с постоянной суммой Ь, если математические ожидания выигрышей и яа;з пер- вого и второго автоматов в партии (а, 0) связаны ра- венством + = Естественно, что при принятых ограничениях на входные сигналы автоматов игра может быть только игрой с независимыми исходами. Если &=!, то математические ожидания выигрышей и не выходят из интервала [0, 1]. На игру автоматов с линейной тактикой при Ь = \ распространяются все полученные выше результаты. Для двух последовательностей автоматов Ль А2,..., Лп, Bi, B2i..., Вп в этом случае автоматная це- Hadb = limd&, где определяется из уравнения П->ОО (2.2.18) В игре двух одинаковых последовательностей автоматов при b = 1 и, следовательно, d\ = 42. Автоматная ценз d\ = l/2 соот- ветствует одинаковому выигрышу обоих автоматов в иг- ре с единичной суммой. Рассмотрим игру Г автомата Dnii,ti с автоматом Ьл3л3 при 6 — 1. Автоматная цена определяется из урав- нения /1—d\«. 1— d [ 2 J ~ /2 —d\>h При d = 1'2 lim ——. r «1 1пЗ
132 ИГРЫ АВТОМАТОВ [ГЛ. II Нетрудно получить отношения объемов памяти и для других пар последовательностей автоматов при d\ = '/2. п2 _ In 3 Для К„„ь, и Lnatk, Заметим, что = (2.2.19) где 1а . в — Нт — — отношение объемов памяти двух по- " л л-со «1 следовательностей автоматов при d, определяемом из соот- ношения ул„ (<й>) = Уап (b—db), т. е. при db=bj2. Из (2.2.19) можно определить все соотношения емкостей па- мяти. Из сказанного видно, что все рассмотренные кон- струкции автоматов удовлетворяют условию V2<Uo<2, что говорит о «равноценности» этих конструкций. Теперь рассмотрим игру с нулевой суммой двух оди- наковых автоматов с линейной тактикой. Для упрощения выкладок будем считать, что игра является игрой с за- висимым штрафованием. Пусть R$ <х=1, 2,..., ku ₽=1, 2,..., k2, i, /=1, 2, ..п — вероятность того, что в партии (а, р) автома- ты А1 и А2 находятся в состояниях фг- и ф; соответст- венно. Для автомата с линейной тактикой, исполь- зуя рис. 1.5, запишем систему уравнений для определе- ния Rif'- R$ = != 2, 3,...,n—1, (2.2.20) Rfi = «₽+1 + / = 2, 3,..., п-1, (2.2.21) R& = Paf> (Ri+i,« + i = 2, 3,..., п-1, (2.2.22) 1 kl Rij = pa&Rzj-i + 4-2pv₽^-b/=2,3,...,n-l, (2.2.23) = + i=2,3,...,n-l, (2.2.24) R% = Prt (2.2.25)
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 133 4 ^2 /?$ = (^1.2+^,₽2) + f-S <7av(fl“\i+Ci), (2.2.26) к2 v=l Я®? = 0 и = 0, (2.2.27) и условие нормировки 2 Я$ = 1. (2.2.28) <х,Р,г,> Равенства (2.2.27) следуют из условия зависимости штрафования. Действительно, система автоматов Л1, Л2 может попасть в состояние (<рА, фп) только в результате исхода S=(+l, +1) и в состояние (<p*, <pi) —в резуль- тате исхода S=(—1, —1), что невозможно при зависи- мом штрафовании. Заметим, что если система находится в состоянии (ф|, фу), i, /=2, 3,..., п— 1 и i+/=const, то она может перейти только в состояния (ф<—i, ф1+1) и (фнь Фу—1)>т. е- сумма индексов номеров состояний со- храняется. Если система находится в состоянии (<р1, Ф„), то она может перейти только в состояния (ф1, фп) и (фз, фп—1)’)• Таким образом, если система находится в состоянии (ф|, фу) и i+/=n+l, то не существует после- довательности выигрышей и проигрышей, переводящих ее в состояние (фг,фу^) для При этом, если система находится в состоянии (ф*, фу) i‘+/=const, и, для определенности, г^/, то за max(i, п — j) следующих подряд выигрышей автомата Л2 система перейдет в сос- тояние (фу, ф),). Учитывая ненулевую вероятность ука- занной последовательности выигрышей, можно утверж- дать, что в финальном распределении вероятностей со- стояний системы /?“*) = О для всех i, /, таких, что =^=п-|-1. Обозначим Я“п+1-1= Ri* и перепишем систему уравнений (2.2.20) — (2.2.28) Ri* - PaP^i + <7a₽^i, i - 2, 3,..., п - 1, (2.2.29) Ri₽ - РарТ?2а₽ + 4-2 (2.2.30) Rn* - <7ар^-1 + 2 <7av#“v (2.2.31) х) Аналогично для <Р1).
134 ИГРЫ АВТОМАТОВ [ГЛ. II и условие нормировки 2 1. (2.2.32) г.аф Будем искать решение системы (2.2.29) —(2.2.32) в виде ^ар РаР где Ха3 = . Тогда из (2.2.30) и (2.2.31) имеем одно- родную систему 2&i£2 уравнений с 2£i&2 неизвестными и условие нормировки (2.2.32): 1 h' ^аР + Сар — Рарбар + Сар/М^ар 4" Т~ 2 PvP (6vp + С?р) 1 v=l и 1 k‘ Барбар + РарСар — £р, |р = -г—PvP (бур т Сур)> (2.2.33) 1 у~1 аналогично Роф&оф “Г ?оф^оф Оф — Га — О V==i Рау (бау 4“ f (2.2.34) Решая (2.2.33) и (2.2.34) относительно &ор и сар, по- лучаем — т„ /, _ ар а₽" Ра₽(^-1)’ г — *«РТ<* ~ “Р Рар^а!1-1) ’ (2.2.35) (2.2.36) Из (2.2.33) суммированием по а и из (2.2.34) суммиро- ванием по р находим, что hl 2 = 0 И 2 = 0* (2.2.37) v=l V=1
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 135 Подставляя (2.2.35) в (2.2.37), получаем систему из ^1+^2 уравнений для определения и та: п, x„ft —1 h. — 1 - 2 ттст ’т=о. р=1.2..........ь,, v=i 1 v-i Sp 1 ^аб 1 > п £ жА ^аб ~~~ 1 __ л ___1 о 1 " ла6ъй т« 5 7"+1 7 — О, ОС -1, 6=1 ла6 — 1 6=1 а& ~ 1 (2.2.38) Рассмотрим предельные характеристики поведения автоматов в игре при п->оо. Пусть 1М = prfF1; и м = -ргтгЧ • (2.2.39) лар 1 Аар 1 Заметим, что при н->оо, 2vap> 1 (<m>0) Hap ~ ^ap ”*0, ^ap I ^ap, (2.2.40) а при /l-^оо, Zap<l (0ap<O) Pap 1 ^ap> ^aP "^aP’^O. (2.2.41) Рассмотрим вначале случай, когда матрица ||aapll со- держит строки, состоящие только из положительных элементов. Будем полагать, что этим свойством обладав ют первые s строк, т. е. «;р > 0, Х;р> 1, / - 1, 2,...,s, р - 1,2,..., k2. (2.2.42) Используя (2.2.39), исключим из (2.2.38) и, изменив порядок суммирования, получим (ь, \ 1=2^ ^.(2.2.43) 5 v₽8 / Р=1 / Учитывая условия (2.2.40) — (2.2.42), можно утверждать, 5 hi что2 ^av; тогда (2.2.43) перепишется в Y= 1 + l виде та 2 Наб — 2 Ф*’ а=1, 2, ...,$. (2.2.44) 8=1 тг=1
136 ИГРЫ АВТОМАТОВ [ГЛ. И Введем обозначение Цаа0 (а) — max |xas. Тогда, пренебре- в гая слагаемыми высших порядков малости, получаем та 1Ъ- ^80(Т)уа80 1 1 V₽80 0=1 (2.2.45) Пусть теперь ца„8„ = minpa80(a)- Легко видеть, что коэф- а фициенты при Та» имеют более высокий порядок мало- сти, чем коэффициенты при та, а=#ао. Таким образом, все Та->0 (а=й=ао) и, следовательно, автомат А1 нахо- дит ту стратегию fao на которой достигается min а тахрол? или, что эквивалентно, maxminaag. Напомним, § а в что это справедливо при условии (2.2.42). Далее очевиден способ вычисления цены игры М (Ln,kt, Ln.k,, Г). Автомат Л1 при п-+<х> фиксирует свою стратегию/сс0- Это означает, что автомат А2 функ- ционирует в стационарной случайной среде С(—aaoi, — а<ад, • • • > — Яал)• Учитывая, что аад->0, из (1.2.6) находим, что / к- Л"1 M = k2 2 • \ 3-1 / (2.2.46) Заметим, что однако, например, в случае седло- вой точки (max min яар = min шах > V = v. Таким \ a p 3 a ) образом, если матрица игры содержит строки из поло- жительных элементов, то М является средним гармони- ческим из элементов той из этих строк, наименьший эле- мент которой имеет наибольшее значение и M>v, Аналогично можно показать, что если матрица игры имеет столбцы из отрицательных элементов, то М яв- ляется средним гармоническим элементом того из этих столбцов, наименьший элемент которого имеет наиболь- шую величину и M^V. Теперь рассмотрим случай, когда матрица игры не имеет ни одной строки, обеспечивающей «бесироигрыш- ность» первого автомата, и ни одного столбца, обеспе- чивающего аналогичные условия для второго автомата.
§2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 137 Из (2.2.29) —(2.2.31) и условия нормировки (2.2.32) для математического ожидания выигрыша автомата А1 имеем « 2 + 2 ГТТГТ с«Ра«Р M(Ln,hl,Ln.^) = ^--------------а:Р . (2.2.47) а,(3 а,(5 “Р Первая из сумм числителя равна нулю в силу (2.2.37). При Хар>1 и п->оо сар->0 (см. (2.2.36)) и 1 П-»оо \хр (\хр 1) Оставшиеся три суммы в (2.2.47) ограничены. Так как член п^Ьар растет с ростом п, то °1,3 Af = limM(/?) = 0. (2.2.48) П->ОО Таким образом, при отсутствии явного преимущества у одного из игроков (при отсутствии строки из положи- тельных или столбца из отрицательных элементов мат- рицы ||аар||) автоматы играют «вничью»; при этом и M=d. Теперь рассмотрим игры стохастических автоматов с переменной структурой, начав с игр «автоматов-строк» Qk- Обратимся к простейшему случаю игры 2X2. Пусть задана матрица игры |ан а121 ||^21 аЪ2 и автоматы Q2 = {nb 1 Л1) и Q1 = {л2, 1 — л2), где ni и л2 — вероятности выбора первой стратегии первым и вторым автоматом соответственно. Тогда, учитывая пра- вила изменения вероятностей л (1.4.14), имеем М (Anj) = аЛ1+3 (1 — Л1)1+а [п2 (0ц — a2i) + + (1—лс2) ($i2 й22)], (2.2.49) М (Дл2) = ал|+р (1 — л2)1+₽ Ьх (an — аи) + j- (1 ““ я2) (#22 “ #21)] 1 (2.2.50) М (Дл?) = а2л-+2р (1 — л{)1+2Р. (2.2.51)
138 ИГРЫ АВТОМАТОВ [ГЛ. II Пусть матрица игры имеет седловую точку, т. е. maxmintfi; =minmaxfli;=flfe/ и, для определенности, i j i i cLhi=ci\i\ тогда a\2>a\\>a2i. Заметим, что при любом фиксированном Л2 поведение автомата Q2 в игре эквива- лентно поведению в стационарной случайной среде С (а}, fl2) > где Aj = ^2^11 4“ (1 — ^2) ^12 И fl2 = ^2^21 “Г ( 1 Я-г) ^22 • Аналогично при фиксированном Л1 для автомата Qi fll — —Л1 CL\ 1 — (1 — Л1) fl2i И <22 ~~ — ^1^12 — ( 1 — ^1)^22 • Возможны два случая: 1) ^22^<2ц<<212; тогда fl} > #2 при любом л2, (2.2.49) и (2.2.51) совпадают с (1.4.15). Если а и (3 отвеча- ют условиям (1.4.20), то Л1->1 и автомат Q2 начи- нает функционировать в стационарной случайной среде С (flu, fli2), в которой Л2->1. 2) fl22^^n>^2i; тогда fli > fl2 при любом ль (2.2.50) и (2.2.51) совпадают с (1.4.15). Если аир отвеча- ют условиям (1.4.20), то л2->1 и автомат Q2 начи- нает функционировать в стационарной случайной среде с (АН, А21), В которой Л1-> 1. Очевидно, что расположение седловой дочки не влияет на наши рассуждения. Таким образом, если матрица иг- ры имеет седловую точку, то автоматы Q2 выбирают свои чистые стратегии, соответствующие седловой точке. Приведенные рассуждения могут быть распространены на случай игры &1Х&2- Теперь пусть матрица игры не имеет седловой точки. Тогда условия для оптимальных смешанных стратегий запишутся в виде -г (1 — Hi) #2i — Hi#i2 + (1 — Hi) #22, j ^2 2 52) Ц2Яц 4- (1 — Рг)«12 =-- Из«21 + (1 — Pi)«22- I Из (2.2.52) следует, что если ni = pi и п2=ф2, то М (ДлО = Л4(Дл2) =0. В этом случае средняя траектория системы в плоскости (ль л2) есть раскручивающаяся спираль с фокусом в точке (ць ц2). Среднее по траекто- рии значение выигрыша приближается к цене игры. Мо- делирование игры на ЦВМ приводило, однако, к реше- ниям в чистых стратегиях. Это объясняется, на наш взгляд, тем, что траектория параметров по мере раскру-
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 139 чивания спирали подходит все ближе и ближе к границе области их задания (0, 1). По мере приближения к гра- ницам, вследствие ограниченности разрядной сетки ма- шины, математические ожидания приращений обраща- лись в 0, что прекращало процесс. Теперь рассмотрим игры с нулевой суммой автоматов Bn,h, в частности, игру 4X4, заданную платежной мат- рицей: 0,6 -0,2 -0,4 0,6 — 0,2 0,4 -0,2 0,0 0,4 0,6 0,2 0,4 1 0,2 0,2 -0,2 -0,8 Матрица игры имеет седловую точку fl): max min ац ~ min max — #зз =0,2. * з Математическое ожидание выигрыша в этой игре для автоматов с линейной тактикой равно 0,38 (среднему гармоническому из элементов третьей строки платежной матрицы). Моделирование на ЦВМ этой игры для двух автоматов В4,4 дало средний за 50000 партий выигрыш, равный 0,36. Результаты этого и ряда других экспери- ментов показывают, что стохастические автоматы с пере- менной структурой типа Bn,h в случае, когда матрица игры имеет седловую точку, играют приблизительно так же, как и автоматы с линейной тактикой. Пусть игра 4X4 задана платежной матрицей 0,6 -0,2 0,4 0,2 -0,2 -0,4 -0,2 0,0 -0,2 0,6 -0,6 04 0,2 0,2 — 0,2 - 0,8 Матрица не имеет седловой точки и при оптимальных смешанных стратегиях (2/3, 0, 1/3, 0) и (0, 5/9, 4/9, 0) для первого и второго автоматов соответственно имеет цену игры, равную 0,066. В эксперименте исследовалось поведение в этой игре двух стохастических автоматов с переменной структурой типа Вл,4 при разных значениях п и параметра обучения а. На рис. 2.2 приведены результаты трех типичных экс-
140 ИГРЫ АВТОМАТОВ [ГЛ. II периментов: зависимость среднего числа выигрышей на один шаг (на одну партию) от времени. Время (число партий) на рис. 2.2 приведено в логарифмическом мас- штабе. В начале эксперимента все переходы в стоха- стических матрицах автоматов были равновероятны. Па- раметры и результаты к концу эксперимента приведены в таблице 2.2.1. Как видно из этой таблицы, в случае отсутствия седловой точки в игре двух стохастических автоматов с переменной структурой Вп,н с равным чис- лом состояний и одинаковыми параметрами обучения а Таблица 2.2.1 Число состояний на действие а Средний выигрыш •пз томата Кривые на рис. 2.2 автомат 1 автомат 2 2 2 0,90 0,07 1 1 1 0,90 0,066 2 1 1 0,95 0,062 3 оба автомата получают средний выигрыш, практически равный цене игры. Рис. 2.3 и таблица 2.2.2 содержат результаты экспе- риментов для случая, когда в игру с той же, что и в предыдущем случае, платежной матрицей играли отли- чающиеся друг от друга автоматы типа Вл,4- Из рис. 2.3 и таблицы 2.2.2 следует, что уменьшение коэффициента обучения а, равно как и числа состояний, дает преиму- щества играющему автомату. Следующая серия экспериментов была проведена для игры автоматов и Ln,i. Результаты некоторых экспе- риментов для той же, что и в предыдущем случае, пла-
§ 2.2] ИГРЫ ДВУХ АВТОМАТОВ С НУЛЕВОЙ СУММОЙ 141 тежной матрицы приведены на рис. 2.4 и в таблице 2.2.3. Из рис. 2.4 и таблицы 2.2.3 видно, что стохастические автоматы с переменной структурой «переигрывают» ав- томаты с линейной тактикой независимо от емкости па- мяти последних, добиваясь среднего выигрыша, сущест- венно превышающего цену игры. Таблица 2.2.2 Число состояний на действие ai а2 Средний выигрыш автомата 1 № кривой автомат 1 автомат 2 1 1 0,8 0,95 0,09 1 2 2 0,8 0,95 0,11 2 3 1 0,9 0,90 0,02 3
142 ИГРЫ АВТОМАТОВ [ГЛ. II Таблица 2.2.3 Число состояний на действие a Средний выигрыш В1.4 Хе кривой автомат В, , 1.4 автомат L, , Ьп, 4 1 1 0,95 0,216 1 1 8 0,90 0,210 2 1 64 0,90 0,204 3 § 2.3. Однородные игры автоматов Наибольший интерес представляют для нас игры многих автоматов. При изучении поведения коллективов из большого числа игроков (автоматов) естественно вы- делить классы игр, в которых платежные функции за- висят от небольшого числа параметров. Примером таких игр являются игры с ограниченным взаимодействием. В играх с ограниченным взаимодейст- вием платежная функция каждого игрока определяется выбором стратегий небольшим числом игроков — его «со- седей» по игре. Типичным примером такой игры являет- ся игра на окружности. В игре на окружности платеж- ная функция игрока Л (/=0, 1, ..., N—V) зависит от его стратегии и стратегий его правого и левого соседей V^fa”1)modN,/з3,/т+1)modN) или только одного (напри- мер, левого) соседа Vj( . Определение иг- ры на окружности естественным образом распростра- няется на игры на плоскости, торе и т. п. Заметим, что игра с ограниченным взаимодействием может быть за- дана произвольной разностной схемой. Взаимодействие в игре удобно задавать в виде графа взаимодействия. Для этого игроку Ji ставится в соответствие вершина гра- фа /.Если платежная функция ]Л(/) зависит от стратегии игрока Л, то из вершины i в вершину j проводится стрел- ка. На рис. 2.5 приведены три примера графов взаимо- действия для игр на окружности. В приведенных примерах игр с ограниченным взаи- модействием характерным является независимость зада- ния правил игры от числа участвующих в игре партне- ров. Указанное свойство игр с ограниченным взаимодей-
§ 2.3] ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 143 ствием характерно для класса однородных игр — игр, в которых участники игры равноправны. Однородная игра задается всего одной платежной функцией, что существенно упрощает ее описание. Рис. 2.5. Рассмотрим игру Г*М лиц /°, J1,..., JN~l. Пусть каж- дый игрок располагает kj чистыми стратегиями /{, /и, •••> fkjU = 0,1, jV — 1).Партией игры Г*, как и выше, мы будем называть набор чистых стратегий fip используемых игроками J1, f = , д,, ..., /^.J-Ha мно- жестве партий задано N функций У’(/)Л’-1. Говорят, что задано отображение g игры Г* на себя, если заданы: 1) взаимно однозначное отображение g множества игроков на себя gJj=Jgi; 2) взаимно однозначное отображение множества стра- тегий игрока Р' на множество стратегий игрока /gJ’ gfl. — ffgVgj- Отображение g определяет отображение множества партий {/} игры Г* на себя. Партия f— — ftv • • •> переходит при отображенииg в партию gf =(/?.. А1,. •••»где /==£1’ и si=s, s=o, 1, ... .... ЛГ-1. Отображение g называется автоморфизмом игры Г*, если оно сохраняет платежные функции, т. е. если для любой партии f игры Г* имеет место равенство VHf) = V^(gf). (2.3.1) Совокупность автоморфизмов игры Г* образует группу Gr* . Игра называется однородной, если группа Gr* авто-
144 ИГРЫ АВТОМАТОВ |ГЛ< и морфизмов игры транзитивна на множестве игроков, т. е. если для любой пары игроков Ji и найдется такой ав- томорфизм, что gJi = J3. Очевидно, что в однородной иг- ре множества стратегий всех ее участников попарно изо- морфны. Множество партий {gf} (g^Gr-) будем назы- вать инвариантным множеством партий, порожденных партией f. В силу однородности игры (равноправия уча- стников игры) средние выигрыши всех игроков на инва- риантном множестве партий одинаковы и равны средне- му арифметическому выигрышей всех игроков в любой из партий инвариантного множества, т. е. vm =4- 2 = 4-2у)(2Л2) б/ geor* где Ngf — число партий в инвариантном множестве {gf}. Величину V(f) назовем ценой партии f (ценой инва- риантного множества {gf}). В однородной игре платежная функция любого игро- ка однозначно определяется платежной функцией одного из игроков и группой Gr’ автоморфизмов игры. Важным классом однородных игр N лиц являются. симметрические игры S *. Однородная игра N лиц назы- вается симметрической, если группа GS' ее автоморфиз- мов совпадает с симметрической группой перестановок ее индексов 0, 1,..., N — 1. Если в симметрической иг- ре N лиц стратегии игроков можно пронумеровать так, что l-я стратегия игрока J1' будет переходить в l-ю стра- тегию игрока Jgi (i=0, 1,..., N—1, geGs-), то пла- тежная функция /-го игрока V7(f) = V (fi,., vx, v2, ..., vft) V4 (vn v2, ..., vh), (2.3.3) где vs=Ns/N — доля игроков, выбравших в партии f стратегию с номером s (s=l, 2,..., k) (Ns — число игроков, выбравших в партии f стратегию с номером s). Таким образом, симметрическая игра независимо от чис- ла участвующих в игре партнеров задается k платежны- ми ФУНКЦИЯМИ Vi (Vi, V2, . . . , Vfc). Вернемся опять к общему определению игры Г*М лиц. Пусть игрокам известны платежные функции Vj(f) и между игроками невозможны сговор и образование
§ 2.3] ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 145 коалиций. Предположим, что на основании анализа иг- ры, используя любые вычислительные средства, игроки выбрали набор чистых стратегий [н = [ft, ft . •., ft^- . Игроки не будут иметь никаких оснований изменять свои стратегии, если каждый из них убедится, что при сохра- нении остальными игроками своих стратегий его выигрыш не может быть увеличен. Естественно, что если бы игро- ки могли вступить в сговор, то совместное одновремен- ное изменение стратегий двумя или более игроками мог- ло бы увеличить выигрыш каждого из них, но мы уже заметили выше, что сговор невозможен. Если набор fw = [ft, ft..., ff^J выбран так, что приведенные выше соображения справедливы для всех игроков, этот набор fH будет уравновешен. Если игроку Л невыгодно менять в одиночку свою стратегию, то это означает, что v\f,..., fl..., > Vi (ft..., ft. • •, f^) <2-3-4) для всех a=#ij. Если (2.3.4) верно при любом j, то партию fH назы- вают точкой равновесия в чистых стратегиях (точкой Нэ- ша). В общем случае игры N лиц точки Нэша в чистых стратегиях (партии Нэша) может не существовать. Мы будем говорить, что игрок Л использует свою смешанную стратегию рУ= (р{, р£, ..., рь), если он ис- пользует свою чистую стратегию f’. с вероятностью р( k (t=l, 2,..., /г,^ сит, что всякая конечная игра N лиц имеет по крайней мере одну ситуацию равновесия в смешанных стратегиях Р?«)> Р<н > • • •> т. е. _ V* (р(°н>, • • • > р7я>, • • • > Р(Я) *) > V’ (рнь • • •, рА • • •, Р(Н) *) (2.3.5) для всех pt) и j—0, 1,..., N— 1, где F(p’,pi,...,p*-1)= 2 • • • P^l1! х ......(2.3.6) Pi — 1 • Основная теорема Нэша гл a
146 ИГРЫ АВТОМАТОВ (ГЛ. II — математическое ожидание выигрыша игрока J} при ис- пользовании набора смешанных стратегий (ц°, р,1,..., рЛ-1). В однородных играх W лиц в силу определения таких игр автоморфизм g^G?*должен сохранять равновес- ные по Нэшу смешанные стратегии. В симметрических играх существуют симметричные равновесные смешанные стратегии, т. е. существуют О (1) N— 1 Н(Н) = Н . = Р(Н) — Р(Н). Однородную игру, имеющую партию Нэша в чистых стратегиях, будем называть игрой Нэша, а инвариант- ное множество партий, порожденное партией Нэша — множеством Нэша. Если партия Нэша является партией максимальной цены, то такую партию назовем партией Мора. Игры, имеющие партии Мора, будем называть играми Мора, а соответствующие инвариантные множества партий — множествами Мора. Если в симметрической игре N лиц S* выигрыш каж- дого игрока И в партии f не зависит от того, какую стратегию выбрал игрок П, а зависит лишь от распре-- деления игроков по стратегиям, т. е. Vj(vi, v2,..., vA) = V(vi, v2,..., vft), /=1, 2,..., k. (2.3.7) то такую симметрическую игру G* будем называть иг- рой Гура. Легко видеть, что любая игра Гура является игрой Мора. Если игроки могут вступать в соглашения, то два игрока, и И, могут одновременно изменять свои стра- тегии. Игрокам, вступившим в коалицию, совместное из- менение своих стратегий оказывается выгодным и в том случае, если происходящее при этом увеличение выигры- ша одного игрока превышает уменьшение выигрыша другого игрока. При этом игрок, у которого выигрыш возрос, должен скомпенсировать другому игроку умень- шение его выигрыша. Таким образом, при организации коалиции игроки должны организовать еще и систему взаимных расчетов. В однородных играх игроки могут добиться максимального выигрыша, вступив в соглаше-
§2.3] ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 147 ние все одновременно. При этом, если игроки договорят- ся поочередно разыгрывать все партии наибольшей це- ны, то средний выигрыш каждого игрока будет равен цене партии Мора. Аналогичного эффекта можно добить- ся организацией процедуры «общей кассы». Процедура «общей кассы», состоит в том, что в каждой партии игры все выигрыши складываются п делятся поровну между участниками игры. Тогда выигрыши всех игроков в каж- дой партии такой игры одинаковы: . N-1 = (2.3.8) /v /—О Очевидно, что игра Го с общей кассой, построенная по игре Г*, является игрой Мора. Введение процедуры «общей кассы» в симметриче- скую игру N лиц 2* превращает такую игру в игру Гура G*. Введенные определения классов игр распространяются и на игры автоматов с независимыми исходами (Г). При этом платежные функции имеют смысл математи- ческого ожидания выигрыша автомата в партии игры f. Так же как и для любых игр с независимыми исхода- ми (§ 2.1), для каждой симметрической игры S* или игры Гура G* может быть построена эквивалентная игра автоматов 2 или G. Для эргодических игр автоматов существуют финаль- ные распределения вероятностей партий. Если o(f) — финальная вероятность партии f в эргодической игре ав- томатов Г, то для однородных игр a(gf)=(j(f) и в одно- родной игре автоматов математические ожидания выиг- рышей всех автоматов в партии f одинаковы. Чтобы сформулировать утверждения для игр автоматов-, аналогич- ные теореме 1 и лемме 2 (§ 1.2), нам понадобится следующее уси- ление свойства 1. Выигрыш автомата в игре Г можно рассматривать как реакцию внешней среды. Эта реакция может иметь очень сложный вероятностный закон в зависимости от поведения остальных автома- тов, т. е. в зависимости от функции /j(Z). Назовем Г-игровой средой для /-го автомата такую среду, в которой он получает в любой мо- мент времени t штраф с вероятностью Pj(Jj(t), Fгде fj (t) — его действие в момент /, a Г* j(t) — произвольная функция, отража- ющая изменение набора действий его партнеров во времени. Свойство Г. СуществуютЕп, ел—>0 и аятакие, что соотноше- ния (1.2.25) и (1.2.26) выполняются в любой Г-игровой среде.
148 ИГРЫ АВТОМАТОВ [ГЛ. II Можно доказать, что условия выполнения свойства 1 для автома- тов с линейной тактикой и автоматов Кринского верны и в случае игровых сред. В игре Г /-й автомат получает штраф за каждое из своих действий с определенными вероятностями/^ (fp где Fj — набор действий всех его партнеров. Пока ни один из партнеров не меняет действия (Fj = const), /-й автомат находится как бы в некоторой стационарной случайной среде. Обозначим множество всех таких стационарных сред через <2у(Г). Если каждый автомат А1' в игре Г обладает свойствами I и 2 для любой среды из множества Qj (Г), то игру Г автоматов AJ (j = 1,2, N) назовем игрой класса Кг- Если каждый автомат А7 в игре Г обладает, кроме того, свойством 3 для любой среды из <2у(Г), то игру автоматов назовем игрой класса Кз. Если, кроме свой- ства 1, выполняется более сильное требование свойства Г, то игру ав- томатов назовем игрой, принадлежащей классу /С2 или %з соответст- венно. Из теоремы 1 легко выводится следующая теорема о времени Тп до смены партии в игре с независимыми исходами. Пусть т*—момент смены действия автоматом А7 и m(f, j) — среднее время до смены действия автоматом А7 в стационарной сре- де, соответствующей партии f. Обозначим Кроме того, будем обозначать Ф(/) = (<Pi(/), ф2(0, • • • Ф.у(О)’» W Фа (0 — состояние автомата А^ в момент t, ^Е'хЕ^Х.-.Х £;n, £ф( ) = Р {Ф1 (0) = Ф1. , TN(0) =фдг). Соответственно определяется Л1ф (•). В дальнейшем предполагается, что число автоматов N может ме- няться с изменением параметра п, как и условия игры. Обозначим через величины еЛ и <зп для автомата А* фигурирующие в формулировке свойства 1', и pnh= max= 1 > 2> Далее обозначим 5.=^mftax[m(Z,fe)₽1^’ 'Хп = -t-б = м У р«*° in (f, k) tn rp max[/?z(f, k) In-—], h L nk j
§ 2.3] ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 149 Теорема 5. Если игра Г автоматов 4*(£=1, 2, . . . ,Nn) при- надлежит классу Кг и х п хп для некоторого 6i>0, то Рф {т > хп м/} < ехР {~хп 0 + “«)}; если, кроме того, Ф е Е ? и хп = О (xn) j то = ехР НМ1 + %)1 ’ причем м < С W ?)гв. где § — любое положительное число, а постоянная С (6) не зависит от выбора последовательности и начального состояния Ф. Доказательство следует из теоремы 1 и очевидного равенства Рф(Т>/} = Прф p/>q. /=1 1 Замечание. Так как Л471 = S zn~1 (/, > то k е = О(тахР‘ьв) (n-^oo). Как следствие из теоремы 5 вытекает Лемма 3. Если игра Г принадлежит классу К^^хп ->0, при п ->оо, то равномерно по ФеЕ/ МфТ Mf. Теоремы 1, 2 и 5 позволяет построить приближенные выражения для финальных распределений вероятностей партий в игре Г. Для дальнейшего мы будем использовать гипотезу медленности, которая состоит в следующем. В игре Г N автоматов А'п, принадлежащих асимпто- тически-оптимальной последовательности такой, что все платежные функции игры a’(f) принадлежат области асимптотической оптимальности, смена партий игры при п->оо происходит настолько редко, что успевает устано- виться стационарное распределение вероятностей состоя- ний автоматов и каждый автомат Ап может быть заме- нен стохастическим автоматом А„, который изменяет свое действие с вероятностью Тп(^(/)) и сохраняет его с вероятностью 1 — (o/(f)), где —стацио- нарная вероятность смены действия автоматом А’п при
150 ИГРЫ АВТОМАТОВ [ГЛ. II неизменном математическом ожидании выигрыша, рав- ном Возможность замены автоматов А!п автоматами Afn означает, что игра Г (Л^, Ап, . ..,Лл)и игра r(4j, Яд, Ап) имеют одинаковые финальные вероятности партий f. Рассмотрим приближенное выражение для финально- го распределения партий в игре Г(Ап,А^, . ,,,Лп). Вероятность того, что в партии f— (vb V2,..., va) среди автоматов, использующих чистую стратегию fm, г автоматов будут менять свое действие, равна рт (г) = CrNm{yH [am</)]}r {1 - уп (2.3.9) где Nm=vmN. Мы будем предполагать, что yn[am(f)] достаточно мало (т. е. п достаточно велико) и Yn[Om(f)]Mm таково, что распределение Пуассона дает хорошее приближение для биномиального распределения (2.3.9). Тогда р,п (г) = e-?n I3"1 (2.3.10) Обозначим через р(1) вероятность того, что в партии f игры / автоматов, сменив действие, выберут в качестве повой стратегии стратегию с номером т'). В силу того, что композиция пуассоновских законов распределения есть пуассоновское распределение, имеем (П [ 1п k ] р =е L-- (2.3.11) _ к гцеупФ^ 1Лп(/)]— средняя вероятность смены т=1 действия в партии f. Пусть via(t) —доля автоматов, выбравших в момент времени t чистую стратегию с ’) Предполагается, что в случае смены действия автоматы выби- рают свои действия равновероятно и, следовательно, р(1) одинаково для всех т.
§ 2.3] ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 151 номером т; тогда в партии Р Vm (t + 1) = vm (О + = S Р* (i) Р (i + г) = г- N ‘ [°т </)] - % 4 y 17л lam (/)1 Nm}‘ Р(/) т ~е <!(/+ г)! lam (/)! Nm J где Yn(/) = Уп и /r(z)—r-я бесселева функция чисто мнимого аргумента. Нетрудно видеть, что форму- ла (2.3.12) справедлива и при г<0 *). Пусть pm(km)—вероятность того, что km автоматов покидают в f стратегию с номером т, а р (&0, k\,..., kh) — вероятность того, что в f kQ автоматов сохраняют свои стратегии, km автоматов меняют свою стратегию на стратегию с номером т(т=1, 2,..., k). pm(km) опре- деляется выражением (2.3.10), а вероятности р(к0,к!,...,кк)— ... *fti kJ k) • (2'3.13) ') Мы полагаем, что все 0. Для случая '/п1 — 0 /’Гт ('+ B = 7fl= Р(').
152 ИГРЫ АВТОМАТОВ [ГЛ. II Как и выше, воспользуемся для (2.3.13) пуассоновским приближением (I) ......W = ------ (2-3.14) Тогда вероятность сохранения партии f игры равна P[f(t + i) = f(f)l= 2 Pi(W(*2)-a(MX *1».... kh X Р (k0, ki, .... kh) = 2pi(^i) [2й&) Г- hi [ k2 [ Xp(kQ, klt Spa(^a) X . hk = e-2v„ Ф N nj0 (2N |/^ -n (/) (2.3.15) При малых YriW можно полагать, что произведение в (2.3.15) близко к единице1). Тогда *ф(/)—вероятность смены партии f в момент времени t — равна ф (/)« 1 -e'2yn(nN^2Nyn(f). (2.3.16) Из (2.3.16) получаем среднюю продолжительность пар- тии f игры Т"(П = 2/W)ll —Ч>(/)Г = ^ = (2.3.17) k Учитываем, что уп (/) — S ^ту'п (/) при vm>0 (/п==1, m=i 2,.... k) и /г-> со y„ (f) — max y„(f)2). Тогда наибольшую m !) h / r~---------------------\ П Л> ( 2АГ1/ f- (f)ln (/) ~ 1 + m=i \ V / 2) Аналогично (2.2.10).
§2.3) ОДНОРОДНЫЕ ИГРЫ АВТОМАТОВ 153 среднюю продолжительность имеет партия f°, на которой достигается minmaxyn(f) или max min ат(уъ v2, vh). (2.3.18) f m f m Если am(vi, V2,..., Vfe) — убывающие функции от vm, то (2.3.18) выполняется на партии am(vi, v®, ..., v^) = = a° {tn=\, 2,..., й)1) и партия f° является единствен- ной партией Нэша. Как следует из сказанного выше, в этом случае партия Нэша является партией макси- мальной средней продолжительности. Аналогично (2.2.8) и (2.2.12), af(n) = anpf(n}Tntf\ (2.3.19) где О/(м) —финальная вероятность партии f, Pf(n) —ве- роятность того, что в случае смены партии выбирается партия f, pf(n) определяется из системы уравнений Pf(n) = S Pi (п)бц(п), 2р/(п) = 1, (2.3.20) i f где Qif(n) —вероятность того, что в случае смены дейст- вия партия i переходит в партию f. Пусть f— (vi, v2, ..., v/<) и/' = (vi, v'2, ..., — партии игры, причем vm== Vm+Avm и &vmN—hn!. Назовем рас- стоянием по Хеммингу между партиями юры f и f' вели- k чину h ~ 2 \М- Тогда о/г (и) = р„ 2 р (&i) р (М • • • р (kh) р (fci + ..............hk "h Ль k2 -|- h2, ..., kk ftfc), (2.3.21) где pn—нормирующий множитель. Пренебрегая в суммах членами порядков малости, получаем [Л72 "1 1 hm тТп^Г-г2---------- п M(f)] • J П [Л |l hm<0 1 т'- (2.3.22) ') Естественно, что равенства могут быть выполнены только с точностью до членов порядка \/N,
154 ИГРЫ АВТОМАТОВ [ГЛ. II Нетрудно видеть, что 6//,(п) весьма быстро убывает по h и можно ограничиться лишь вероятностями перехо- да от партии f к партиям, находящимся от партии f на расстоянии й<4 *)• Пусть max [vmy“ (/)]; тогда с вероятностями, т близкими к l/(k— 1), партия f переходит в случае сме- ны партии к партиям вида Г = + ..., vk), l=f=m0. Из сказанного (см. (2.3.17), (2.3.19) и (2.3.20)) следует,что (2.3.23) где f° — партия, для которой выполняется (2.3.18), т. с. min ат (/°) = max min ат (/). tn f т Таким образом, в_ симметрических играх автоматов при п->оо и малом yn(f)W автоматы разыгрывают пре- имущественно партии инвариантного множества f°. Обозначим, как и в § 2.2, через V и v верхнюю и нижнюю цены игры соответственно, т. е. v = max min ат (/) и V = min max ani (/). f tn tn f Тогда нетрудно видеть, что цена партии /° заключена между верхней и нижней ценами игры, т. е. k v^M (f°) = 2 (/0) < V. (2.3.24) m^l В частности, если v=V, то игра имеет ситуацию равно- весия в чистых стратегиях, и автоматы при достаточно большом п разыгрывают почти исключительно инвари- антное множество партий Нэща. _ Введение процедуры «общей кассы» (игра G) при- водит к тому, что V = v=max 2 (/) (2-3. / m=l —-------------- k !) Заметим, что 0 и h всегда четно.
§2.4] ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 155 и автоматы при достаточно большом п разыгрывают почти исключительно инвариантное множество партий максимальной цены. § 2.4. Примеры симметрических игр автоматов В этом параграфе мы рассмотрим несколько простых примеров симметрических игр N одинаковых автоматов, принадлежащих асимптотически-олтимальным последо- вательностям А\, Aj2, ..., A3ni ... 1. Стационарная случайная среда. Поведение N ав- томатов в стационарной случайной среде эквивалентно поведению автоматов в симметрической игре S при £m(f)=am, т. е. игре, в которой математическое ожида- ние выигрыша автомата за чистую стратегию не зависит от того, какие чистые стратегии выбрали осталь- ные автоматы. Пусть ai>a2^a3^.. и принад- лежит области асимптотической оптимальности последо- вательности автоматов А^ • •А3п, ... Тогда в силу асимптотической оптимальности автоматов и взаим- ной независимости их поведения при /г~>оо финальная вероятность р (vi = 1) -> 1. Оценим скорость сходимости системы к финальному распределению1). Как мы уже отмечали в § 1.2, в слу- чае, когда смена действия автоматом осуществляется только при одном состоянии его автомата памяти, ста- ционарная вероятность у(птп) смены действия в стацио- нарной случайной среде совпадает с действительной ве- роятностью смены действия. Если в момент времени t km автоматов выполняют действие fw, то производящая функция распределения вероятностей Ат(^+1) имеет вид p(^„,s) = [Tm + (l—fjs] т.П [(1-4) + -TsJ (2.4.1) и математическое ожидание величины йт(/+1) - h km(t + 1) = (1 - Т,„) k,n + Т2= (km, s)|^i. (2.4.2) i-1 !) Полученная здесь оценка будет использована нами в § 3.2.
156 ИГРЫ АВТОМАТОВ [ГЛ. II Из (2.4.2) следует выражение для математического ожи- дания изменения доли автоматов, выполняющих дейст- вие fm, — 1 ж\ 1 - Д Vm=T 2 ViTi ~ <2,4-3) i=l Для оценки скорости сходимости предположим, что N велико настолько, что можно пренебречь влиянием дис- персии распределения Avm и заменить разностное урав- нение (2.4.3) дифференциальным Чп + = 4- (2.4.4) Применяя к (2.4.4) преобразование Лапласа, имеем X,n(s + iJ=-^-X + vm(0), (2.4.5) где Хт — изображение функции а X — изображе- ние функции Тп(0- Тогда (2.4.6) (2.4.7) Из (2.4.6) имеем t vm = v.n (°) е~<,п* Г -j- 5 In (x) e~r,n('~ ' d'. 6 (2.4.8) Вычисление Tn (0 из (2.4.7) весьма громоздко, поэтому воспользуемся обобщенной теоремой о среднем; тогда из (2.4.8) получим vm=v„,(0)e т-\---------4}------0<^</. (2.4.9) 1 т
§2.4] ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 157 7n (/т) зависит от начальных условий и • Последнее 1 к 1 4- 2 т=1 Заметим, что времени. При£-> сс следует из условия нормировки и выражений для фи- нальных вероятностей действий автомата, принадлежа- щего асимптотически-оптимальной последовательности. 2. Игра в размещения. Игрой в размещения называ- ется симметрическая игра Л/ автоматов, в которой ат (О = «rn (vi. v2, • • •, Vfc) = -4е. (2.4.10) т где km=vmN — число автоматов, выбравших в партии f стратегию с номером т; ат—константа, называемая мощностью стратегии fm- Моделируемая игрой в размещения, ситуация в неко- тором смысле близка к ситуации выбора хищниками районов охоты: стратегиями являются районы охоты, а мощностями стратегий — количества дичи в соответст- вующих районах. Игра в размещения содержательно интересна только для случая N<k, т. е. для случая, когда число игроков меньше числа стратегий. Действительно, по определе- нию, цена партии f fe 1 M(f) = v vniam (v,„) = 2 <11=1 т. e. цена партии равна сумме мощностей использован- ных в этой партии стратегий, деленной на общее число игроков. Любая партия, в которой использованы все стратегии, является партией наибольшей цены. Поэтому при N>k с ростом N будет возрастать вероятность пар- тий наибольшей цены, даже если автоматы выбирают свои действия равновероятно (с вероятностью 1/£). Игра в размещения является игрой Нэша. В партии а Нэша -у2 = ан для всех используемых в этой партии т а стратегий1). В партии Нэша достигается max min ______________ f ™ т ’) Как мы уже отмечали, это равенство выполняется с точностью до величин порядка \/N. Точнее, для любой пары i, f-L - .°* . kj 1
158 ИГРЫ АВТОМАТОВ (ГЛ. II Как было показано в предыдущем параграфе, автоматы, принадлежащие асимптотически-оптимальной последова- тельности, при неограниченном росте емкости памяти будут в игре в размещения разыгрывать почти исключи- тельно партии Нэша. В игре в размещения нас будет интересовать зависимость поведения автоматов от ем- кости их памяти. Эту зависимость мы проследим на ре- зультатах моделирования игры на ЦВМ. В игре участвовало пять автоматов с линейной так- тикой Ln,h (k=7). Каждый автомат мог выбирать одну из семи стратегий со следующими мощностями: «1=0,9; а2=а3=а4=а5=аб=«7=0,33. В этом случае игра име- ет следующие 20 инвариантных множеств партий Нэша: (0,4; 0,2; 0,2; 0,2; 0; 0; 0), (0,4; 0,2; 0,2; 0; 0,2; 0; 0), (0,4; 0,2; 0; 0,2; 0; 0,2; 0), (0,4; 0; 0; 0; 0,2; 0,2; 0,2). Все партии Нэша имеют цену 0,4 • 0,45+3 • 0,2 • 0,33=0,378. Значения среднего выигрыша автоматов в зависимости от емкости их памяти в эксперименте приведены на рис. 2.6 (кривая 1). Введение процедуры «общей кассы» превращает игру в размещения в игру Мора со следующими 15
§ 2.4) ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 159 инвариантными множествами партий Мора: (0,2; 0,2; 0,2; 0,2; 0,2; 0; 0), (0,2; 0,2; 0,2; 0,2; 0; 0,2; 0), (0,2; 0,2; 0,2; 6; 0; 0*2; 0,2), (0,2; 0; 0; 0,2; 0,2; 0,2; 0,2). и ценой партии Мора, равной 0,2-0,9+4-0,2-0,33 = 0,444. Результаты моделирования игры приведены на рис. 2.6 (кривая 2). Обращает на себя внимание следующий факт: хотя процедура «общей кассы» при больших емкостях памяти и приводит к большому среднему выигрышу, однако при малых емкостях памяти (в нашем примере п^б) эта процедура оказывается не эффективной *). 3. Игра в распределения. Игра в распределения, со- храняя общие содержательные черты игры в размеще- ния, позволяет изучать поведение больших коллективов при фиксированном числе стратегий (возможно, N>k и N^k). В игре распределения участвуют N автоматов А1, А2, ..., AN, каждый из которых имеет k действий (стра- тегий). Игра задается k функциями — vm^am(ym) ^vin (0sgvm^l; m=l, 2, .... k), где vm — доля автоматов, выбравших в партии / стратегию с номером т. Функции am(vm) называются функциями мощностей стратегий. Математическое ожидание выигрыша автомата ЛЛ выбравшего в партии f игры стратегию с номером т, равно = а„(Чт) = ^.'. (2.4.11) rn Таким образом, игра в распределения отличается от иг- ры в размещения тем, что теперь мощность каждой стра- тегии зависит от доли автоматов, выбравших эту стра- тегию. Моделируемая игрой в распределения ситуация близ- ка к задаче о распределении ресурса (§ 4.3). Однако !) М. Л. Цетлин называл этот эффект «вредом уравниловки при низкой сознательности».
160 ИГРЫ АВТОМАТОВ [ГЛ. I! если в классической постановке задачи о распределе- нии ресурса естественно говорить о коллективном по- ведении потребителей ресурса, то игру в распределения можно интерпретировать как задачу о «коллективном поведении ресурса». Ситуация, моделируемая игрой в распределения, близка, например, к модели распределе- ния рабочей силы при свободном выборе места работы и наличии зависимости заработка на каждом предприя- тии от числа работающих там рабочих. Естественно, что может быть предложен и ряд других содержательных интерпретаций этой игры. Для простоты мы будем рассматривать случай, когда функции am(vw) вогнутые, т. е. d2a (v \ —(2.4.12) Это допущение обычно для задач типа задачи о распре- делении ресурсов, так как оно обеспечивает единствен- ность точки равновесия. Содержательно условие (2.4.12) означает, что с ростом числа автоматов, выбравших стратегию fm> значение мощности этой стратегии возра- стает, однако математическое ожидание выигрыша каж- дого автомата при этом падает. Действительно, из ус- ловия вогнутости следует datn(vm) am(vm) Jv V ’’ /л поэтому (v»i)_____ат (vm) zfv V -------------------— <0, (2.4.14) vm т. е. От(ут) —убывающая функция от vm, следователь- но, игра имеет единственную ситуацию равновесия (точ- ку Нэша). Будем говорить, что стратегия доминирует над стратегией Д-, если aj(vj) ^ai(vi) при всех значениях vj и Vi. Стратегию fj в этом случае будем называть до- минирующей, а стратегию — рецессивной. Нетрудно видеть, что в ситуации равновесия по Нэшу автоматы не используют рецессивные стратегии. Далее мы будем рас-
§ 2.41 ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 161 сматривать случаи, когда рецессивных стратегий в иг- ре нет. При выполнении условия (2.4.12) и при отсутствии рецессивных стратегий, а следовательно, при отсутствии отношения доминирования, распределение автоматов по стратегиям в партии Нэша определяется решением си- стемы уравнений Заметим, что в игре в распределения цена партии f k h м (/) — 2 Vmam (Vm)= 2 am (Vm) m=l m=l и цена партии Нэша Мн = ат = 2 aW) = а<Н)« (2.4.16) тп=1 т=1 Если принадлежит области асимптотической опти- мальности участвующих в игре автоматов, то, как было показано в предыдущем параграфе, при достаточно боль- шом п автоматы разыгрывают почти исключительно пар- тии инвариантного множества Нэша. При изучении пове- дения автоматов нас будет интересовать зависимость положения ситуации равновесия (стационарное распре- деление автоматов по партиям) от емкости памяти иг- рающих автоматов. Пусть п=1; тогда вероятность смены действия авто- матом совпадает с вероятностью проигрыша. Матема- тическое ожидание изменения доли автоматов, выполня- ющих действие равно & (2.4.17) 1-1 При оо в силу закона больших чисел действительное изменение доли автоматов, выполняющих действие fm,
162 ИГРЫ АВТОМАТОВ [ГЛ. II стремится к его математическому ожиданию. Следова- тельно, при 2V->oo можно говорить о ситуации динами- ческого равновесия, в которой Avm=0 (m=l, 2, ..., k). Если N -> оо и п=1, то инвариантное множество партий динамического равновесия будем называть инвариантным множеством Антоса и соответствующие партии — партия- ми Аптоса. Партия Антоса устойчива, если sgn Avw= sgn (v“> — vm) для всех m и min (Д^)2 = (Av^)2. v/n ' ' Из (2.4.17) получим систему уравнений для опреде- ления распределения автоматов по стратегиям в партии Антоса: v,V>-am(v^) = a^ 2 М,А) -1 = 0. (m= 1,2, ...Д), (2.4.18) Суммируя первые k уравнений системы (2.4.18), нахо- дим, что цена партии Антоса МА = 2 “m (v^) = 1 - ka(A}. (2.4.19) m—i Рассмотрим случай k=2. Тогда в точке Нэша ах (v^) = и а2 (1 - v\H>) = (1 - а™ и в точке Антоса a, (vH = v)A> - а(Л) и а2(1 — = I - - а<л>. Если то в силу вогнутости ai(vi) и a,(l_V1) <"> и (1 -vl4’)-а(Л)> >(l_v<4))aw(PHC. 2.7), или v(i4) < aW)/(l-aW) и J_ — v(i4) ;> а(Л)/(1 — а(И))> следовательно, < vi4’ < 1/2. Аналогично, еслиу1Н)>'’1Л), то 1/2. Заметим при этом, что если v 4(Н)= vi4), то viH) = vi4) =1/2. Таким образом, при k=2 точка Антоса лежит на оси vi меж- ду точкой Нэша и точкой vi=l/2.
§2.4] ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 163 Аналогично можно показать, что при А>2 Vm ’ > > 1/6 ИЛИ ’ < 1/k, (2.4.20) т. е. для каждой стратегии доля выбирающих ее в пар- тии Аптоса автоматов заключена между долей автома- тов, выбирающих эту стратегию в партии Нэша и чис- лом 1/k. В игре с «общей кассой» суммарный выигрыш всех автоматов делится поровну между участниками игры и зависит только от распределения автоматов по страте- гиям. При этом математическое ожидание выигрыша у всех автоматов в партии f не зависит от того, какую стратегию выбрал автомат, и равно Так m=i k как функции am(vm) вогнутые, ТО функция 2 am(vm) также вогнутая по каждой переменной vm. Тогда на ос- новании теоремы, о ситуациях равновесия в выпуклых играх [5, 71, 72] игра имеет единственную ситуацию равновесия (точку Мора). Распределение автоматов по
164 ИГРЫ АВТОМАТОВ [ГЛ. II стратегиям в партии Мора определяется решением си- стемы уравнений = а(М) k 2 vm -1 = о. m=i Заметим, что (2.4.21) является условием на седловую точ- h / fc \ ку функции Лагранжа Q= 2 ат (vm)— а<л,)1 2 vm — 1 I, /п=1 \т=1 / k обеспечивающей шах 2 ат (vm) при ограничении /и=1 к 2 — 1=0. т=1 Пусть k=2. Здесь возникают два интересных случая, связанных со взаимным расположением ситуаций равно- весия. Получающиеся при этом эффекты до сих пор не встречались нам в моделях коллективного поведения (играх) со стационарными платежными функциями. 1) viH)> vl4)>vVll) или vJH)<v(1yl)<v(1zM). В этом слу- чае вследствие вогнутости функций ajvj и «2(1—Vi) и единственности максимума функции ai(vi)+«2(l — vi) Мм>МА>Мн, т. е. цена партии Нэша ниже цены пар- тии Антоса, которая в свою очередь ниже цены партии Мора. В силу непрерывности всех функций, определяю- щих поведение системы, можно предполагать монотон- ное убывание среднего выигрыша с ростом емкости па- мяти играющих автоматов. 2) viA1)> v[A) или v(AH)< v(/). Этот слу- чай представляет особый интерес. В силу непрерывности всех функций, определяющих поведение системы, естест- венно считать, что по мере роста емкости памяти сред- нее значение доли автоматов, использующих первую стратегию, будет непрерывно смещаться !) от точки Ан- тоса к точке Нэша. Так как точка Мора лежит между точкой Антоса и точкой Нэша, то столь же естественно 9 Вообще говоря, не непрерывно, так как п изменяется дискрет- но, однако пока мы будем пренебрегать этим соображением.
§ 2.4] ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 165 предположить, что существует фиксированное значение емкости памяти, при котором среднее значение распре- деления автоматов по партиям совпадает с точкой Мо- ра1). Таким образом, в игре без «общей кассы» можно ожидать, что существует оптимальная емкость памяти, обеспечивающая максимальный выигрыш, приближаю- щийся к цене партии Мора. Степень приближения к це- не партии Мора определяется дисперсией распределения автоматов по партиям. Точное аналитическое исследование поведения ав- томатов в этой игре сопряжено с аналитическими труд- ностями, поэтому мы приведем здесь результаты экспе- риментов на ЦВМ по моделированию поведения автома- тов с линейной тактикой для игр в распределения при £=2. В первой серии экспериментов игра задавалась сле- дующими функциями мощностей стратегий: «1 (vi) = Vi — 0,5vi, аа (va) = 0,6v2 — 0,5v2. (2.4.22) Вычислим в соответствии с (2.4.15), (2.4.18) и (2.4.21) координаты точек равновесия и цены партий Нэша, Мо- ра и Антоса: v<H) = 0,948; = 0,052; M" =0,574; ' v)M) = 0,706; v<"> = 0,294; MM = 0,714; (2.4.23) vV4) = 0,732; vH> = 0,268; Мл =0,713. В этом примере цена партии Антоса близка к цене партии Мора и v|H) > >> v^. На рис. 2.8 приведе- ны зависимости среднего выигрыша автоматов с линей- ной тактикой от емкости их памяти, полученные в ре- зультате экспериментов по моделированию поведения 64 автоматов. Кривая 1 на рис. 2.8 соответствует игре без «общей кассы», а кривая 2 — игре с «общей кассой». *) Или близко к ней с точностью до членов, определяемых вели- чиной 1/п.
166 ИГРЫ АВТОМАТОВ [ГЛ. II Из рис. 2.8 видно, что в игре без «общей кассы» средний выигрыш автоматов убывает с ростом емкости памяти, как это и следует из расположения точек рав- новесия в данном при- мере, а средний выиг- рыш автоматов в игре с «общей кассой» ра- стет и при п>6 «об- щая касса» становится «выгодной». При n=l, М— =0,7095, т. е. средний выигрыш меньше цены партии Антоса. Это объясняется тем, что число играющих авто- матов сравнительно не- велико и распределение автоматов по партиям Рис. 2.9. fl б > । । । 1 1 । । . / : г 4 5 r 7 Рис. 2.8. имеет существенную дисперсию. На рис. 2.9 приведены примеры распределения автоматов по партиям для не- которых значений п. Из этого рисунка видно, что с ростом емкости памяти автоматов дисперсия распреде- ления автоматов по партиям падает, а среднее смещает- ся от точки Антоса к точке Нэша.
§ 2.4] ПРИМЕРЫ СИММЕТРИЧЕСКИХ ИГР АВТОМАТОВ 167 В следующем примере точка Мора расположена меж- ду точкой Антоса и точкой Нэша. Игра задана функция- ми мощностей стратегий: «I (vj) = Vi - 0,8vi, <*2 (v2)= 0,2v2 - l,2vi. (2.4.24) Вычислены следующие координаты точек равновесия и цены партий для этой игры: = 1,000; v(rW) = 0,800; vV° = 0,683; v(2H) = 0,000; v<2M) = 0,200; v(24) = 0,317; MH = 0,200; MM = 0,280; MA = 0,253. (2.4.25) Экспериментальная зависимость среднего выигрыша ав- томатов от емкости их памяти для этого примера приве- дена на рис- 2.10. Число играющих автоматов, как и в 74 0,30 0,28 0,26 0,24 0,22 0,20 0,18 01b OJ4 0,12 ООО ----1----1---1----1----1___I____I____L. 1 I ! I____________. О 1 2 3 4 5 О 7 8 О 10 11 12 п Рис. 2.10. предыдущем случае, равно 64. Кривая 1 на рис. 2.10 со- ответствует игре без «общей кассы», а кривая 2 — игре с «общей кассой». В этом примере дисперсии распределения автоматов по партиям несколько больше, чем в предыдущем. Это объясняется меньшими значениями среднего выигрыша и более пологими функциями a^Vm). Более слабая за- висимость выигрыша от vm вблизи точек равновесия
168 ИГРЫ АВТОМАТОВ [ГЛ. II определяет и более медленную сходимость распределе- ний к ситуациям равновесия. Аналогично (2.4.17) и (2.4.18), можно написать усло- вия на ситуацию динамического равновесия при произ- вольной емкости памяти к VniVm (vm) = 1 (т — 1, 2, k); 2 vm ~ 1 = 0. (2.4.26) m=l Ситуация динамического равновесия устойчива, если вы- полняются условия, аналогичные условиям на точку Антоса. Рис. 2.11. лее близка к партии Мора, там эксперимента. На рис. 2.11 приведе- ны зависимости ситуаций равновесия от емкости па- мяти играющих автома- тов: кривая 1 — для мощ- ностей стратегий (2.4.23), кривая 2 — для мощно- стей стратегий (2.4.25). Как видно из рис. 2.11, при п=3 во втором при- мере ситуация динамиче- ского равновесия наибо- что соответствует результа- На рис. 2.12 приведены экспериментальные резуль- таты, определяющие зависимость точности дости- жения партии Антоса от числа играющих ав- г,_ томатов. Кривая 1 J,,iJ представляет завися- " мость дисперсии рас- 0,11 - пределения автоматов дуд _ по партиям в первом ’ _ примере, а кривая 2— и,дэ во втором. 0,08 - Следует заметить, 087-------l—i_l-----------j— что поскольку точка е4 ss ‘Zti Z5B N Антоса реализуется ав- рис 2,i2. томатами с памятью 1, то, естественно, эти автоматы более «лабильны» и быст- рее выходят на стационарное распределение. Это
§2.5] ИГРА ГУРА 169 утверждение вытекает из результатов экспериментов. Если в начальной партии половина автоматов выбрала первую стратегию и половина — вторую, то при памяти 1 автоматы выходят на стационарное значение среднего Рис. 2.13. выигрыша уже через несколько сотен партий, в то вре- мя как при памяти 6 стационарное значение устанавли- вается за 20000 партий. Стационарное значение опреде- лялось отсутствием колебаний в третьем знаке вычис- ляемого в эксперименте текущего значения среднего вы- игрыша. На рис. 2.13 приведены некоторые характерные кривые изменения среднего выигрыша от времени для первого примера. § 2.5. Игра Гура Как было отмечено в § 2.3, в игру Гура превращает- ся любая симметрическая игра введением процедуры «общей кассы». Рассмотрим игру Гура, в которой участвуют N оди- наковых автоматов Л1, Л2,..., AN, каждый из которых имеет два действия. Игра задается функцией a(v), где a(v) — математическое ожидание выигрыша каждого ав- томата в партии, в которой vN автоматов выбрали пер- вое действие и (1—v)N — второе. Будем считать, что в случае смены действия автомат меняет свое действие на противоположное. Тогда вероятность того, что j автома-
170 ИГРЫ АВТОМАТОВ [ГЛ. II тов при достаточно больших п и N и малом yN сменят действие 1 на действие 2 [аналогично (2.3.10)], (j) = , (2.5.1) и вероятность того, что i автоматов сменят действие 2 на действие 1, р2 (i) = . (2.5.2) где £14-£2=М vN=ki и ?(&1)—стационарная вероят- ность смены действия в партии (£j, k2). Вероятность того, что число автоматов, выполняющих в партии f(t) действие 1, увеличится на г автоматов, имеет вид P[£i(*+ l) = £i(*) + rl + = / -e Zl /!(/ + '-)! / _ Y(ftl)W(ф.\г2 у’ _ ~e \ ki 1 Zl /! (/ -T r)l - i = Ir (2y (£x) (2.5.3) где Ir(z) —функция Бесселя мнимого аргумента. При построении функции P[£i(?4-1) =&i(0+/'] мы использовали гипотезу медленности и предположение о том, что биномиальные распределения могут быть за- менены пуассоновскими. На рис. 2.14 приведены полу- ченная в эксперименте функция P[£i(f4-l)=£i(0+d (кривая 1) и функция, вычисленная в соответствии с (2.5.3) (кривая 2). Параметры эксперимента: М=32, n=4, Z>i = 18, а=0,333 (у=0,022), число партий игры — 60 000. Из рис. 2.14 видно, что уже при п=4 мы имеем впол- не удовлетворительное совпадение эксперимента с (2.5.3).
§2.51 ИГРА ГУРА 171 Учитывая гипотезу медленности и (2.5.3), можно по- строить марковскую цепь, состояниями которой являют- ся (Л^+1) партий игры А(/)=0, 1,..., N, а переход- ные вероятности определяются из (2.5.3). Финальные Рис. 2.14. вероятности состояний этой цепи определяют финальное распределение вероятностей партий. Заметим, что P[fet (< + !) = А (0 + (г + 1)] Р[А (t + 1) = А (0 + г] А zr+i (A) КАА) ~ k2-( (fet) / -^ А/ /г (2Т(^)/АА) ~ ' + 1 ' и Р [А (/ +1) - (О - (г + 1)] _. fen А) PA(/+i)=A(0-d ~ г + 1 • (2.5.4) (2.5.5) Если п достаточно велико, т. е. Л/у(А)<С1, то можно пренебречь всеми вероятностями переходов при |г|^2
172 ИГРЫ АВТОМАТОВ [ГЛ. II Обозначим P±i(fc)=P[MWMi(0±l] и po(k) = = 1 —P+i(k) —P-i(k). Тогда поведение системы автома- тов в игре приближенно описывается марковской цепью со следующей матрицей переходных вероятностей: Po (0) />+1 (0) 0 0 . . 0 0 0 P—1(1) A> (1) P+1(D 0 . . . . 0 0 0 0 P_i(2) P9 (2) P-i-j (2) . < . . 0 0 0 * 0 0 0 0 . . • P-i(N~ -1) Po(N-l)p+l(N-l) 0 0 0 0 . . 0 P-t (N) A> (Ю (2.5.6) Стационарные вероятности состояний этой цепи найдут- ся из решения системы уравнений о(0) = а(0)р0(0)+а(1)Р-1(1), о (/) = а(/ - 1) р+1 (/ - 1) + a(j) ро(j) + + о(/+Op-Hj+l), / = 1,2, — . o(N) = o(N - 1) p+i (N — 1) + a(N) p0 (N), O N 2 o(/)-l. Из (2.5.7), учитывая, что 1 — Po(/)=P+i(/)+P-i(/) и 1 —Po(O) =p+i(0), легко получаем a (/ + 1) p i (/ + 1) = о (/) p+i (/), (2.5.8) откуда ... znxrr1 P+i^ _ Р+1(0) /П1 p+l/о rm a (/) - a (0) {П (. + 1} - о (0) р^ (/) _П (/) • (2.5.9) Учитывая, что ^+1 = —Т"*, имеем P_tW I Zn ?+i(0 - (N— ill P-i (0 (/-l)!(Af-/)! • Окончательно получаем a(/)'= ae+vow . c’N -. (2.5.10)
ИГРА ГУРА 173 §2.5] N где а — нормирующий множитель и2о(/) = !• Будем о рассматривать случай, когда т. е. когда n»61nJV, (2.5.11) где б=1/1пЛ для автоматов с линейной тактикой и 6= = l/ln-j- для автоматов Кринского. Если у (j)N достаточно мало, то в (2.5.10) можно пре- небречь членами высших порядков малости и оа) = аС!ы-^. (2.5.12) Прежде чем перейти к полному асимптотическому анализу распределения (2.5.12), рассмотрим простейший случай. Пусть a (v) — кусочно-постоянная функция Рис. 2.15. (рис. 2.15), а оо — вероятность того, что автоматы разыг- рывают партии, принадлежащие интервалу (vj, vj+i), на котором a(v) принимает максимальное значение. Тогда ft*+l . j (fe. , — М Oq = a 2 C'n у y) o,Cn у » (2.5.13) где ki = ] viN [, ki+i = [vi+iM и Cn = mln Cfc. Пусть oi = l—Oo — вероятность того, что автоматы разыгры- вают партии, не принадлежащие интервалу (kj, ki+i), и О1 = « 2 с»777><»775- S с"< /<Ь; J<h{ <Ж2'У<^)‘2^’ (2-5.14)
174 ИГРЫ АВТОМАТОВ [ГЛ. II где v(Z)= min ?(/), т. е. a(l/N)= max a(j/N). Тогда i<ki 3<ki ^.>2-n^L (2.5.15) ai 4(ki) v ' Определим, как должно возрастать п при W->oo, чтобы поведение автоматов сохраняло асимптотическую опти- мальность. Положим n—$N. Тогда для автоматов с ли- нейной тактикой д0 д(/) Г 1 М (MVlN 'a (fc.) L 2 \. х (/) / J ’ 1а (/) TZ у |jy, и для автоматов Кринского (2.5.16) где X(j) = q° > Г1 (1—a(z) (2.5.17) Асимптотическая оптимальность поведения достигается, если lim (— = оо. N—оо \ а1 J Это условие выполняется для автоматов с линейной так- тикой при р> 1пЧ(4-21-^-(/)’ (2-5Л8) и для автоматов Кринского при 0 > In [ 1 — а (/)] — In [1 — <z (£{)] ' (2-5,19) Теперь перейдем к более полному асимптотическому анализу распределения (2.5.12). Приведенные ниже тео- ремы сформулированы для автоматов с линейной такти- кой, однако будет показано, что полученные результаты легко распространяются и на другие последовательности асимптотически-оптимальных автоматов. Рассмотрим сначала случай, когда функция а(х)1) такова, что . . (аъ если x^v0, а (х) = 1 0 если x>v0, 0<vo<l. (2.5.20) 9 х— доля автоматов, делающих первое действие.
5 2.5] ИГРА ГУРА 175 Пусть для определенности ai>a2. Будем считать, что v0<l/2 (такой случай при ai>a2 наиболее интересен). Обозначим через Н (х) Н(х) ——х log2 х,— (1 —x)log2(l — х). (2.5.21) Теорема 6. Пусть N->4-оо, a1=max(ai, а2) >0 (2.5.22) х= 1 — Н (v0) , . „ Л, если Л2 log2 (Л1/Л2) 1-Я (у,) , log, Л, ’ ССЛИ 2,2 Тогда, если емкость памяти п с ростом N так, что lim и оо1), то h = i-----2 1 1 — а. k(n, N) N (2.5.23) изменяется (2.5.24) Если же т° при любых фиксированных а<Ь N->-\-cd Вер f -4= < _ 1 bl [2VN n 2 2/?VJ b 1г Г х2 1 . -Ь J ехр| — -х— dx. (2.5.25) ' /у J а В случае, когда ai = max(ab a2)<0, предельное соот- ношение (2.5.25) имеет место независимо от роста емко- сти памяти. Таким образом, теорема 6 утверждает, что если суще- ствует распределение автоматов по партиям, обеспечи вающее а(х)>0, и lim-тт-^х, то доля автоматов, делаю- N->°° Л щих первое действие, в подавляющем большинстве слу- чаев будет близка к v0 и меньше ее, т. е. будет иметь 9 Например, яри ~ 1 Na о <
176 ИГРЫ АВТОМАТОВ [ГЛ. И место асимптотическая оптимальность (рис. 2.16, а), в противном случае распределение автоматов стремится к нормальному со средним в точке vo=l/2 (рис. 2.16, б). Рис. 2.16. Пусть теперь функция а(х) непрерывна вместе с про- изводными достаточно высокого порядка и имеет един- ственный максимум в точке x=vo, O^vo^l. Пусть также a (v0) = max а (х) > 0 (2.5.26) 0<х<1 (тогда для х, достаточно близких к vo, Х(х)>1). Введем функцию М*) = f „ ЧХ1О » еСЛИ [х* (1 — х)ЛР 4 ' г с ,1—-тт-, если Z(x)s^l. LX(1— х)х]р v/ (2.5.27) Обозначим через vP точку максимума функции Хр(х). Нетрудно показать, что lim-Vp =v0 и при (если R р~>0 достаточно мало) максимум функции Хр(х) единствен и достигается внутри ео — окрестности точки то, причем ео таково, что X(vp)> min Л(х)>1 (2.5.28) fX—v0|<?0 Введем обозначение ftp (х) = ft (х) + pH (х), (2.5.29) где й(х)=1пХ(х) и Н(х) определяется формулой (2.5.21). Легко видеть, что ftp(x) =1пХр(х).
§2.5] ИГРА ГУРА 177 Пусть, для простоты, точка vN/n максимума функции hN/n(x) единственная. Очевидно, что если — достаточно мало, то vn/п близка к точке максимума функции h(x), совпадающей с точкой максимума функции а(х). С дру- гои стороны, если — велико, то точка максимума фуик ции hN/n(x) близка к точке х=1/2 — точке максимума энтропии распределения автоматов по партиям Н(х). Как следует из теоремы 6 и приведенных ниже теорем, коллектив автоматов в игре Гура ведет себя так, как ес- ли бы он максимизировал функцию hN/n(x). Теорема 7 (об условиях, при которых финаль- ное распределение автоматов по партиям оказывается асимптотически нормальным). Пусть п->+оо, ЛГ->-|-оо так, что lim -J- = p</?. (2.5.30) Пусть т — четное число, определяемое следующим обра- зом: (vp) = %<2> (v₽) = ... = V"1-0 (vp) = 0, a (vp) =f= =#0 (следовательно, ^'4vp) < О)1). Если m=Q или 2 и в дополнение к (2.5.30) \ , Л/ т limnl--------рр—1 = + оо, (2.5.31) bf-^-co \ П / п-*оо то: 1) при фиксированных а<.Ь а k(n,N) b If r Z2 1 , -* Fs J - T d!' a J (2.5.32) 4 (vp) — t-я производная функция Xp (x) в точке макси- мума vp.
178 ИГРЫ АВТОМАТОВ [ГЛ. II 2) при у—>+00, так что ydn, N—>-0, вер [|^ - Я ехр[- (2.5.33) где 1 / 2 \ vNln = vp + •( (4 -р)^ + о Ц4 - р)^), (2.5.34) dntN — (2.5.35) при т>2, при т = 2, (2.5.36) а постоянные у и С вычисляются по формулам Сформулированная теорема утверждает, что в уста- новившемся режиме при выполнении условий (2.5.30) и (2.5.31) для достаточно больших п и N доля автоматов, выполняющих первое действие, есть случайная величина, близкая к нормальной, со средним, равным vN/n, и дис- персией, равной -7^—. Таким образом, распределение ncNin автоматов по партиям имеет максимум в точке максиму- ма функции hN/n(x). Учитывая, что—^—-*О[см. (2.5.31), n^NIn (2.5.35)], можно утверждать, что при выполнении усло- вий теоремы 7 автоматы максимизируют функцию
$ 2.5] ИГРА ГУРА 179 Доказательство1)- Ограничимся рассмотрением более слож- ного случая т>2. В формуле (2.5.12) определим коэффициент нор- мировки а N N 2ck 1 = V К1 (k/N) - 1 NVn(k/N) Zi N a (k/N) k—G h=0 (2.5.39) Найдем его асимптотическое представление при м->оо> УУ->-оо. Пока- жем сначала, что при «->оо и iV->oo 117 “ vN/n|<5 где б — сколь угодно малое положительное число. Действительно, ^ntN — &ntN + BntNi Dn,N- 2 In “'/wJ>5 Учитывая, что kl x У 2л kh^ll2e fe, получаем *n, N (M D B„ N.----1 . n’N Г2лЛ^к-^/п|<в ;= 2 +Хл.л- (°) + n(D> (2.5.41) Vk *0 (2.5.42) где •= klN, К" м('ч) = ~—П/7 (*)]—д—некоторое число, Л n, N \ к) (1_x)(l-x)]l/n> не зависящее от п и N. Так как — единственный’максимум функ- ции (х), то найдутся числа 61 и 62 такие, что 0<б1<бг<б и min Хр (х) > max N(x), и поскольку по условию теоремы N (х) -* Хр (х) равномерно по х при п -> оо и N -> оо, то для достаточно больших п и N min . ХП, N W > Я max , xn N W> (2.5.43) |*-Vpl<A |x-Vp|>6a * !) Доказательство теоремы 6 проще и новых трудностей не вы- зывает.
180 ИГРЫ АВТОМАТОВ [ГЛ. II причем q> 1 и не зависит от п и N. Далее, R —-— I min х ж, (х}\П 'V n. N г-' ^|Х-»р|<в| п> N ) 1 1 И ''pl-6. ^-vp|<6, 1 ГМ1—*) d'l *) и аналогично Dn, N / max X w(x)U C 2л ^-„ррь ) |%_>ftj Vv(l-v) для достаточно больших n и N. Из (2.5.43) и двух последних оценок имеем / Dn дА Ап, N = вп, N ( 1 + В-”. I = Вп, N (1 + ° (qn)) ~ Вп, If> \ /I, /V / что и требовалось доказать. Так как выполнено (2.5.30) H^/n-^vp, X ^р) > 1, то из вида функций lNfn (х), X N (х)и оценок (2.5.40) — (2.5.42) следует А ~____________1 "Vj ~ ~ |„ - й„|<. (’*) <2,5 441 для произвольного достаточно малого б>0. Определим функции gxin^ и g? (х) из равенств \v/nW = \v/n (VN/n) ехР [^N/nW] ’ г т (2.5.45) \(-«) = A. (Vp) exp [£Р (х)]. Из условий теоремы 7 следует, что 41’ (\)=42) (vp)=• • •=4m_1) (vp)=0 > 4m) (vP)=< °- 9 En^Gn означает, что lim
§2.5] ИГРА ГУРА 181 (vj Нетрудно убедиться, что gm = —— z р/. Далее можно показать, что %р (Vp) для и первых т производных функции gN/n (х) в точке х = справедливы следующие асимптотические представления: / Л7 у 1 /, кт . 2 \ vw« = VP + т (т - р)('п-1> + 0 ((т“р)<т-1)) S$ln (Уи/п) = as { — - P)<m-1)« t =—£« Ym-ft+o( — — p s (m — s)l r \n H ___1 On—1) (2.5.46) \ gm 1—Vp/ Ясно, что функция gNtn (x) co своими производными равномерно по х стремится к функции gp (х). Применяя формулу конечных при- ращений, нетрудно получить из (2.5.44) д! <А < А2 лп. N Лп, N Лп, № (2.5.47) где <» = <» 2 ехрГ )Ч L Zi s! * N/n s=2 + (2’5-48) причем A0 Лп, N ________________^N/n (VWjn)_____________ ~ V^N a (vNln) vWn (1 - vN/n) ’ / I N Ci == min (хУ = 0 — ОI + — — P ^—Nlnl<68Nln W gm H (m—1) Ci maxr W = г»>+° (’+ - p|(m-1) l*~vN/nl<e \ I ” I
182 ИГРЫ АВТОМАТОВ [ГЛ. II Пусть выполнено условие (2.5.31). Если обозначить ^k~^N;n~ , N .___________1_. = xk (— — Р то суммы Д* N с учетом (2.5.46) примут вид Г / 2V \ т = 2 t exp [л(—— (*)]’ (2.5.49) , я.чт. (т—1) |xft|<6|N/n-p| где т-1 Fi (^У^ + ^,^1, 2, а2<0, S' ,7г’ 5=2 1 / ДГ \ 1— а — у __ у-------(tn-i) Sx — xk+i xk~ N \ п ?) Используя (2.5.47), можно записать F^x) в таком виде: т т s=2 5=2 т = [ (X + т) — Чт — тхут~J] + ss Xs, (2.5.50) 5=2 1 as = °^+|— -Р| )’ Так как 02<О, то точка х=0 есть точка локального максимума Е*(х), но - т F\ (х) = -у [т (х + у)"1-1 — $asxs-1, т' s=2 АГ 11 а полином (т—1)-го порядка-—2 [щ (х + у)'71”"1 —/ну'”"'"1] имеет ml лишь один вещественный корень х=0. Поэтому то же самое верно и дл'Я полинома (х), имеющего тот же порядок при достаточно ма- лых <js . Таким образом, при достаточно малом и фиксированном 6 и при 1м — —р достаточно
§ 2.5] ИГРА ГУРА 183 мал) точка х=0 есть единственная точка абсолютного максимума функций (х), i== 1,2. Более того, предполагая, что рассматриваются именно такие 6, n, N, можно показать, что F'i w = .™<e [sgnx ’ Fi = max (Fi F’1 м ~ (р>0 и не зависит от 6, n, N) для достаточно малых 60. Для сокра- щения записи обозначим %,№= л [(2V/n) — тогда S1 = X°,W 2 еХР К. NFi (xh)l > |АЪ1<Ь > N 2 ехР nF1 |xft|<60/2 > Лп, N ---1) ехР ып, NFi (‘Г’) ’ 22 = Ап, N 5 ...... ех₽ (“n, NFi М < 0 exp[%wFt+(60)] exp [%,wFt (6,)] < N 1 - exp [®п> NF'gJ " "•N 1 — exp [- 86О«П1 NgJ " < CAn, N exP [%, NFi (5o)] (%, так как легко проверить, что ^gx ограничено при п->+°°> Af—(Во второй оценке члены суммы 2г мажорируются члена- ми убывающей геометрической прогрессии со знаменателем ехР [“n,NFZ^ Из последних двух оценок и (2.5.31) следует, что Лп.*Г = 21(1 + Ф)~ 2l = Xn,N 2 exP["n, NFi (хкИ- Х 1 / |Л*1< Оо Отсюда при помощи формул конечных приращений получаем Лп,„>Лпл2 exp[4""n,Nxil = si’ (2.5.51) N |xh |<6о L J АП, N^A°,N 2 exp[4-®n,WXfcl = Ss> (2.5.52) |xft|<00 L J
184 ИГРЫ АВТОМАТОВ [ГЛ. II где —Р 1г = min F” (х) = а2 + О ( оо + & + — 1 \ l2 = max Fl W = аз + ° Ро + & + "Т“ — Р [х|<д0 \ I 1 (т-1) Наконец, введем переменную ук = j/— n *ь. В силу (2.5.31) и (2.5.49) имеем еу = ук+1-Ук=У-1^п,1 .,-^4 2_____ ^у "j/* N^° - А”<N [ f Г J/2 > —— J_____exp - -у 8V lvl</—!j«>n, N6» *- .exp [-4-^Ь 3 а Z2 3 J_________ехр ly !<V ^i°n, N&° где fl и a — ближайшие к нулю справа и слева V— li&n,Nxk >3— a = g„- Поэтому ____ о ^п, 51--------7Г~ (2.5.53) числа вида и из оценок (2.5.47), (2.5.51), (2.5.52) и формулы (2.5.48) следует, что Ап, N^2n л Ап, ,7=^.--~~ ' п, n ~7 ~---> y~Zl®n. NSX K-Z2“n, NSx т. e. окончательно Л”^/2Л = V2T4« N — a2“n, N Sx К — ngNln Пусть a<b — фиксированные числа. Согласно (2.5.12) &n, N (2.5.54) N Bep p < KnCw/n ( ( n ) ~’ vw/n) 6j ~ __(д \____i У pk I__________^n, N ~ (лп, N) r________7k ч hN v (k/N) ~ ~Д------------- a<ynCN/n ^77—vNlnj<b n' An> N
§2.5] ИГРА ГУРА 185 п * _____________________________________1 Здесь CN/n= - gNjn (bNln) = —gflin. Так как (nCN/rl) 2 -»0, то применяя формулу Стирлинга и обозначения (2.5.45) и (2.5.48), нетрудно получить, что S"’N An,N а 2 ь ew[ngNln(vk)]. VnCNln<4h VNIn < VnCNln Исходя из (2.5.46) и (2.5.31), можно показать, что для всех ’* £lv“+7Йг 1-1 (Л, Л’)„ £^-(vk-vN/„)*< < nSN/n (Vft) < Ъ (« > (vft “ W’ lim (n, N) = 1. Ввиду этой оценки доказательство соотношения П-*оо N->oo Sn, N лп, N а а вместе с (2.5.54) и соотношения (2.5.32) представляются очевидны- ми. Что касается (2.5.33), то оно доказывается способом, аналогичным изложенному выше, в сочетании с приемом, обычно используемым при доказательстве теорем о вероятностях больших уклонений. Ход дока- зательства станет ясен при доказательстве следующей теоремы. Две следующие теоремы показывают, что при р=0 или /п>2, 7V->oo, п->оо и нарушении условия (2.5.31) финальное распределение оказывается асимтотически близким к распределению, отличному от нормального. Теорема 8. Пусть 0 <ИП^—= т>2 и lim 72->оо Д'->оо (2.5.55)
186 ИГРЫ АВТОМАТОВ [ГЛ. И Тогда 1) при фиксированных а<Ь а 1^nCNln k(n, N) N ~ vNln b y^nCN!n (2.5.56) 2) при y->oo, так чтоydn< w*0, Bep k(n, N) I у N vN/n --- 1 VnCN/n Здесь Cn/п (2.5.57) (2.5.58) dn, jv = max m(,n+1); Mv ~ р')"ГТ] m(m+1)}. (2-5-59) Доказательство. Пусть имеет место (2.5.55). Вплоть до со- отношений (2.5.47), (2.5.48) ход доказательства (2.5.56) повторяет ход доказательства теоремы 7. Затем, используя обозначение хк = V— п<>1 ’) и формулы (2.5.46), суммы Я* N можно записать в виде ^n.N 2 ехР ml +Gi(x/t) ~nci 5 (2.5.60) тг------ . _ V — Mi ’) Отметим, что xft = ->0 при п->оо, АЛ->-оо.
§ 2.5] ИГРА ГУРА 187 и ( Xh У °i (*fc) = 2 7? ®n,w ( !V— ) Согласно (2.5.55) ехр xtn ----t-+Gi(xk\ ml 1\ ехр vtn _ — ml равномерно по всем xk из интервала [—60, 60], где бо —любое фиксированное число, а xh xk равномерно по всем прочим х^в Поэтому ясно, как сделать строгим доказательство предельного соотношения Ai A"*n i V 2 exP бх tn,----я |xft|< ,/ -пс{6 vtn xk + 4° tn.----- -nCi dz и, следовательно, согласно (2.5.46) — (2.5.48) A°n,NN tn ^ntN ml (2.5.61) доказательство (2.5.56) трудностей не содержит и С учетом (2.5.61) далее не приводится. Наметим ход доказательства (2.5.57). Согласно (2.5.58) х —>0. поэтому мы можем доказать, что VnCNln Р\ k(n'N>> р.х k(n, N) N УЫп N/n --- V nCNln X mz—------ L V nCNln |fe(n, N) | 5 > | N ~ vN/n| х р l^nCN/n _ fix ynCNln . = Р1 + Рг-
188 ИГРЫ АВТОМАТОВ [ГЛ. II Здесь 6>0 и ц>1—любые фиксированные называется, что ZnCWn . 1 yi Л-------N----(Jm) Д ехР числа. Далее по- _ xk ml где или Pi dz, __oo xh = V nCNln {'k ~ ‘Nln) ’ xfc+l ~xk~ ft » ? Г *т 1 А ехр[-7нГг X хт 2 (т - 1)! (Ут)-‘ ехр dz~2 (2.5.62) 'т xk exP —^!C6 Для P2 имеет Ntecro оценка l^nCNln . i Рг< fl (An) _____ U-v<|xft|<"/nCw/rt a где C6 = 1 + о (б) ,или (мажорируя сумму суммой членов убывающей геометрической прогрессии) в силу (2.5.58), (2.5.59) получаем Лехр^-Св-^-] А хт~^ р2 Отсюда при достаточно малом 6 — —* 0, поэтому ’ k (л, N) I х P1 (l + Р '>//> > ny —- 1 VnCNln] N что и требовалось доказать. Приведем без доказательства формулировку еще од- ной теоремы.
§2.5] ИГРА ГУРА 189 Теорема 9. Пусть « -о, П тогда k(n,N) N (2.5.63) (2.5.64) где an,N и bniN— ближайшие слева и справа к vN/n чле- ны вида (k — целое). Таким образом, при выполнении (2.5.63) свойство асимптотической оптимальности становится еще более ярко выраженным. Дискретность в формулировке ре- зультата резко отличает эту теорему от предыдущих. Полученные результаты распространяются на все рас- смотренные выше асимптотически-оптимальные последо- вательности автоматов, если положить М*) = 1?п(х)Г1/п. (2.5.65) Аналогичные результаты могут быть получены и для непрерывных автоматов. Определим игру N непрерывных автоматов. Пусть каждый автомат задан внутрен- ними состояниями фу(ОG [—cj, cQ, выходом р(0 (стра- тегиями) и входным сигналом sj(t), принимающим два значения:—1—«проигрыш» и +1—«выигрыш»: при при ^0, Фу >0. (2.5.66) Связь между состояниями фф) и входом s-'(Z) опреде- лена уравнением фф)=фД<рф), s>(0] (2.5.67) при граничных условиях <^(0 = дУ Ф7 = ’*-U L (ci U. (2.5.68)
190 ИГРЫ АВТОМАТОВ [ГЛ. II Вектор F(t) = {fl(t)> f2(0,---> назовем разыгры- ваемой в момент t партией, а вектор £(/) = {$*(/), s2(/),..., sN(/)} — ее исходом. Будем говорить, что коллектив автоматов А = = {Д1, А2,..., Д*} участвует в игре Г, если для каждой партии F задана вероятность ее исхода p(S(t)\F(t)). Будем считать также, что = (2.5.69) i где Fi — все возможные различные значения (партии), которые может принимать вектор F(t), а функции 0(х) и (t) имеют вид 0 (х) = Р ПРИ Х = 0’ (Г) = sgn [rji (0 + Ь[\, (2.5.70) (0 при x=f=O, где в свою очередь — некоторые детерминированные константы, Ti'i(i) —«белый шум», статистически незави- симый с т)?(0 при всех !=/=/, j и k (в том числе и при j=k), такой, что безусловная вероятность р(|г) реали- зации 5,(0= & • • •, равна P(S=li/F(t)=Fi) при всех г. Назовем, наконец, вектор Ф(0 = {ф*(0> cp2(0,---, <pN(0} состоянием коллектива А в момент t и обозначим символически F(Z) =7(Ф). Ниже мы будем рассматривать лишь эргодические игры, в которых существует стационарная вероятность состояния Ф. При этом математическое ожидание выигрыша для автомата А> MJ(AJ)= f g (Ф) [f (Ф)НФ, (2.5.71) где vi — платежная функция [f (Ф)1 = 5 {Р [s1, ..., s'-‘, + 1, S/+1, ...,sN\f (Ф)] - — Р Is1, ..., s'-1, - 1, s'+i, ..., sw \f (Ф)]}, (2.5.72) Cj, |СЬ Ci, . . . , Ci J. Для вычисления АР достаточно найти £(Ф). Как по- казывает анализ, системе уравнений (2.5.66) — (2.5.70)
S 2.5] ИГРА ГУРА 191 соответствует W-мерное уравнение Фоккера — Планка для определения плотности вероятностей Н7(Ф, t): W (Ф, t) = - 2 ^у{м'(Ф) 1F (Ф, t) - - 4- 2 А 1ВЛ (Ф) w (Ф. «)1 » (2.5.73) z i=i Зф ) где М’(Ф)—условное математическое ожидание фЧф’СО, $Ф))> а В^(Ф) — второй смешанный централь- ный момент функций ф’ (<р’, s’) и ф’ (<p’, s’) при усло- вии Ф(/) =Ф. Уравнение (2.5.73) несколько упрощается для игр с независимыми исходами. В этом случае N р (S (t) I F (0) = Р} (sJ (0 IF (0). (2.5.74) вЛ(ф) = блв'(Ф), где 6ji — символ Кронекера, В’(Ф) —дисперсияф’ (<p’, s’) при условии Ф(?)=Ф. Тогда уравнение (2.5.74) можно записать в виде W (Ф, 0 = — 2 ^?{мУ(ф)w (Ф> 0 “ - 4^[Г>7(Ф) W (Ф, *)]}. (2.5.75) Для нахождения решений уравнений (2.5.73) — (2.5.75) необходимо задаться начальными и соответствующими граничными условиями, а также использовать условие нормировки f Ц7(Ф, ])4Ф = 1. (2.5.76) -Cl Как известно, приравнивая нулю левые части (2.5.73) — (2.5.75), можно найти стационарное решение #(Ф)== = lim W (Ф, t). Рассмотрим теперь поведение N автоматов Дгс/А в иг- ре Гура с независимым штрафованием, при достаточно большой емкости памяти р=с/^ (см. § 1.3). Учитывая,
192 ИГРЫ АВТОМАТОВ [ГЛ. II что в игре Гура вероятность штрафа не зависит от дей- ствия, выполняемого автоматом, а зависит лишь от v — доли автоматов, выбравших первое действие, для авто- матов Н2с/к при всех / £»(Ф)=£>(Ф). (2.5.77) В дальнейшем нас будет интересовать математическое ожидание Mi выигрыша /-го автомата и стационарное распределение вероятностей величины v. Для этой цели достаточно найти стационарную вероятность k) того, что /-й автомат находится в состоянии ф3, а из остальных N—1 автоматов k производят действие fi g (ф7. k) = J. . J J. . . .[gto1, .... ф'-1, <pA ф>+1, ..., ф*)Х О 0 -с — с '-'k—' N-k-i Х^ф1- • .</ф/~W*'1- • (2.5.78) Интегрируя (2.5.75) k раз от 0 до с и (W—k—1) раз от —с до 0, с учетом (2.5.77) и условия однородности игры при t -*• оо, имеем ^{м'(Ф'-, ^)g (ф< k) - [О (ф/, ft)g(T< Л)]} = = 2 IGi (ф< - 0) - Gi (ф3, — с)] + 11, i-tj N + 2 [Gi (ф< 0) — Gi (фА с)], (2.5.79) г-=Л0Н1 где (k при />£, 0 — (.& + 1 при j ^k, Mi(q>i, k) и О3(ф3, k)—соответственно математическое ожидание и дисперсия ф3(ф3’, k), найденные при условии, что автомат Hi находится в состоянии ф3, a k из осталь- ных (N—1) автоматов производят действие fi; Ог(ф3, х)— поток вероятностей для автомата Н* при ф‘ = х (х=±0, ±с), если автомат Hi находится в. состоянии ф3; из ос- тальных (N—2) автоматов (k—1) или k производят дей-
§ 2-5] ИГРА ГУРА 193 ствис fi, соответственно, когда х= {+0, 4-с) или х= = {—0, —с), а именно: G, (фА х) = рИ‘ (ф?, k) g (фА ф‘, k — 1) — ft)g(TW,ft-l)]! , Gi (фА —х) = Гл4* (ф^, k) g (ф7, ф‘, k) — (2.5.80) 4^ID,'f' ч>'-, где С с о о £(ф'. ф', /)=.!’•. . J У - - . J £(ф’, ..., ф< . .., ф',..., фл) х О О -с -с k N—h~2^ X dy1... б/ф;_1б/ф?+1... . dqN. Естественно предположить, что при Р = ~ -> оо сум- ма потоков вероятностей (стоящая в правой части (2.5.79)) на границе выбранной области обращается в нуль. Это предположение эквивалентно предположению для игры Гура конечных автоматов, которое формули- руется в нашем случае непрерывного времени следую- щим образом: (*) вероятность смены действия при у-»со за время dt более, чем одним автоматом, есть величина порядка O(dt), т. е. на внутренних границах Af-мерных гиперкубов, образованных состоянием Ф, внут- ри которых «разыгрывается» лишь одна партия Г, про- исходит «поглощение частицы». Это справедливо (для автоматов Я), если maxn(v) v достаточно велик по сравнению с 0 [по-видимому, чем больше c/k, тем меньше «допустимый» максимум а (у) может отличаться от 0]. В этих предположениях имеем соотношение ~j(ф;. k) g ft) - ^/'ID (Ф< k) g (ф\ ft)l} - 0, (2.5.81)
194 ИГРЫ АВТОМАТОВ (ГЛ. II которое может быть получено (для автоматов Н) непо- средственно из уравнений (2.5.66) — (2.5.70), (2.5.78), оп- ределения игры Гура и предположения (*). Предпола- гая поток на границе равным нулю, из (2.5.81) получим стационарное решение ^=^4’®''’’'- (2-5-82> Произвольные постоянные r(k) находятся из определе- ния игры Гура и функций gtrf, k), а именно, из условия с 0 f g (фу. k -1) d<pj - f g (<p't k) d<?>, (2.5.83) b -c которое дает при всех k r(k)=r(k—l)=r. (2.5.84) Выражения (2.5.83) и (2.5.84) и_условия нормировки позволяют определить вероятность g(yk) того, что в иг- ре Гура действие fi делают k(N)=vhN автоматов ё (V») = rt Ь k) dV' = {ехр ]-1} (2.5.85) где a (vh) = q (vft) - p (vft), q (yk) = 1 — p (vft), P = -p r = px ( За ( 'ь) \ , ] -1 exd^W(M/ Ф (Vft)} • (2.5.86) Следовательно, математическое ожидание выигрыша 2 <Р/ехр h=0 I N 2^ *0 2Р ( 'k) Я Сл) °а (vfe) 2Р (Ч) я (ч) (2.5.87)
S 2.5] ИГРА ГУРА 195 Если N фиксировано, а величина 0 -> оо [и, конечно, max а(у) >0], то V (Hj) — max a (v). (2.5.88) При этом с вероятностью, стремящейся к 1 (когда р-> ->оо), автоматы разыгрывают те партии, выигрыш в которых максимален; максимальный выигрыш может достигаться в одной или нескольких точках или на од- ном или нескольких отрезках у. Но, если N сю одновременно с 0->оо, что пред- ставляет наибольший интерес, то коллектив Н ведет се- бя целесообразно лишь тогда, когда память Р(М), как функция 7V, стремится к бесконечности достаточно быстро. При этом нетрудно убедиться, что скорость стремления P(jV) к бесконечности, требующаяся для оптимального поведения Н, существенно зависит от вида кривой a(v), т. е. из (2.5.85)---(2.5.87) можно получить следующее утверждение. Пусть jV->oo, maxa(v)>0. Будем называть коллек- тив асимптотически-оптимальным в данной игре Г, если при /->оо и р -> сю все автоматы с вероятностью, стре- мящейся к 1, разыгрывают лишь те партии, выигрыши которых максимален [при этом, ествествешю, = max a(F)]. Тогда для асимптотически-оптимального поведения Н в игре Гура необходимо и достаточно, чтобы р(Лг) стремилось к бесконечности следующим образом. 1°. Пусть для ve[0, 1] при (2 5 89) (а2 при v > v', тогда P(A0^PiW21n2, (2.5.90) где 1 1 1,111 1 Р1 = | +d "₽“/>. "Л<т- ирир.<-1.,й>4,;,^1,2. (2.5.91)
19G ИГРЫ АВТОМАТОВ (ГЛ. II 2°. Пусть функция а(у) непрерывна в е-окрестности точки своего единственного максимума. Если в этой точ- ке первой отличной от нуля производной слева будет /n-я, а справа — ft-я, то Р(АГ) _ p2/Vr+12 In 2, (2.5.92) где r=max(m, ft), о /ii - __1 Р^ (У) 1 (2 5 93} Р2 = ([1 +(<?('/) -Р ( /))*] -й-J • (2-&-9д) Аналогичная ситуация получается, если a(v) дости- гает своего наибольшего значения на отрезке (v', v"], где она постоянна, а производные в соотношениях (2.5.92) берутся слева от точки v' и справа от точки v". 3°. Пусть а(у) достигает своего наибольшего значе- ния на отрезке [v', v"j (причем может быть v' = v"), где она постоянна, и в точках v' слева и v" справа терпит разрыв, тогда Р(А0>₽з^21п2, (2.5.94) где р3, которая зависит от параметров а (у), в явном ви- де мы не выписываем. Подобным образом, можно проанализировать и дру- гие формы кривой a(v). Следует отметить при этом, что в случае непрерывной вблизи своего наибольшего значе- ния кривой a(v) для асимптотически-оптимального по- ведения Н (при N -*• оо) требуется тем большая память, чем медленнее меняется a(v) в е-окрестности своего мак- симума. Обозначим теперь maxa(v) = a0. (2.5.95) Пусть прн фиксированном е>0 выполняется нера- венство |p(v)-p0|<4 (2.5.96) для всех v^[v' — 61(e), v',+S2(e)], причем е таково, что p(v) непрерывно в этой 8-окрестности. Будем говорить, что коллектив автоматов Н ведет себя асимптотически
§ 2.6] ИГРЫ НА ОКРУЖНОСТИ 197 е-оптимально в игре Гура, если при t-+oo и А/—>оо ве- личина Pe(7V) -> оо, так что р {v/-61(e)^v^v"+62(e)}->l, (2.5.97) где в фиксированно. При этом, естественно, 1 - 2р0 - < М^Н1) < 1 - 2р0 + (2.5.98) Нетрудно видеть, что в случае 2° коллектив Н ведет се- бя s-оптимально тогда и только тогда, когда Ре (N) > М2 In 2, (2.5.99) где г [7 1 1 1 , 1 V1 рв-тахцр(У) 9(У) p(y_6i(e)) +<7(v'-fi1(£))/ ’ (pF7) “?F) “р^' + Ъ(О) + <7(>''+«2(О)) .• (2‘5’100) Таким образом, для того, чтобы коллектив Н вел себя асимптотически-оптимально в случае разрывной кривой a(v), либо асимптотически 8-оптимально в слу- чае непрерывной кривой a(v), достаточно, чтобы -X—>оо при N-^-oo (2.5.101) сколь угодно медленно, т. е. условие (2.5.101) достаточ- но, по крайней мере для приближенного асимптотически- оптимального поведения автоматов независимо от апри- орных сведений. Нетрудно видеть, что в целом требования к емкости памяти непрерывных автоматов, обеспечивающие их асимптотическую оптимальность, мало отличаются от аналогичных требований к конечным автоматам. § 2.6. Игры на окружности Игры на окружности были определены в § 2.3. Автоморфизм gh, /г = 0, 1, ..., ДГ-1 игры на окруж- ности игроков /°, Р, ..., JN~X описывается следующим образом; а) N, б) стратегия fm игрока /’ переходит в стратегию fin игрока ghP.
198 ИГРЫ АВТОМАТОВ [ГЛ. Л Совокупность автоморфизмов gk образует цикличе- скую группу порядка N, причем gkgs=g(h+s) modjv Еди- ницей этой группы является автоморфизм go, для кото- рого goJ}=Jj- Группа Gk* автоморфизмов игры на ок- ружности К* транзитивна на множестве игроков, так что игра К* является однородной. Партия игры К* f — (fm„, fm,, • • • > )порождает инвариантное мно- о (гО cl с IV— 1 \ жество, состоящее из партии > ЦШо, im^ •••» •••» /трДр /mJ» (/т2» ftn3, •••> fm0, fmJ » ••• ...» (fmN-v ^0» •••> Однородная игра /<* может быть игрой Нэша. Пусть каждый игрок располагает k стратегиями Лтг(^= 1» 2,...» 6). Рассмотрим игру /<*, в которой w = = fj) 1}, т. е. выигрыш каждого игрока зависит от выбранной им стратегии и стратегии его левого соседа. Тогда, если для некоторого fa v(fa, fa)^v(fa, fttl) = = 1, 2, k), то партия ([a, fa, . fa) является пар- тиен Нэша. Если указанное условие не выполняется, то можно найти такое fp(fa), что ^(/а> /з) max V (/«„, fin) (2.6.1) mfaa, И v(fa, fa)>v(fa fa). (2.6.2) Пусть имеется только два различных fp(fa) и N— четное, тогда найдутсяfa) -- max v(fp., fa) и v(fa, fa) = = maxv(fa, fm) и партия(/3., fa, fa, ..., fa, fa) будет m=£Pa партией Нэша. Вообще, если условия (2.6.1) и (2.6.2) выполняются для l^2k различных значений fp(fa), то всегда существует такое s^/, что v(/>, />) max v (fy, fin), v (fp«, fa) = max v (fa, fm), v(fas’ fa) = max (fps, fm), *) Под/—! мы понимаем (/— l)modN.
ИГРЫ НА ОКРУЖНОСТИ 199 § 2.6] и если s является делителем /V, то партия (/>, fa, ... . ...fps, fa, fps) является партией Нэша. В игре с одним соседом партия Нэша должна отве- чать одному из двух следующих требований: 1) все игроки используют одну и ту же чистую стра- тегию; 2) никакие два соседних игрока не используют оди- наковых стратегий. Действительно, если в ситуации (/ /р>) игроку невыгодно изменять свою стратегию fa> на другую, то это означает, что ц(/рь /₽)= maxu(fpi, fa), tn и следующему игроку имеет смысл изменить любую ис- пользуемую им стратегию на стратегию /р>. Теперь обратимся к игре с двумя соседями, т. е. к иг- ре с платежной функцией t^=v’(P-1, р, р+|). Очевидно, что если v (fa, fa, fa) = maxv (fa, fa, fa), (2.6.4) tn то партия (fa, fa» ...» fa) является партией Нэша. Если не существует fa, для которого выполняется условие (2.6.4), то в партии Нэша не существует последователь- ности более, чем из двух игроков, выбравших одинако- вые стратегии. Действительно, пусть имеется последова- тельность игроков СО стратегиями fab [tf, fa8, /аЪ тогда в силу невыполнения условия (2.6.4) среднему иг- року выгодно изменить свою стратегию. Заметим, что игра на окружности может и не иметь партий Нэша. Как уже упоминалось выше (§ 2.3), любая игра N лиц имеет ситуацию равновесия в смешанных стратеги- ях. Рассмотрим такую ситуацию равновесия в играх К* Пусть р/ = (|4, |12» •••, |Л)—смешанная стратегия игро- ка Л и ЕДр,)—математическое ожидание его выигрыша (р= (цО, ц1,..., уЛ"1)). Формально в точке Нэша дости- гается тах/гДу) при условии V |Д—1=0, Из этих и; i=i условий и условия на седловую точку функции Лагран- (fe \ — 1 jможет быть написана систе- i=l J
200 ИГРЫ АВТОМАТОВ [ГЛ. II ма уравнений для определения ситуации равновесия в смешанных стратегиях: 32 (А> А, А) = х (л I, s = 1, 2,..., k), '. i I =0 (/ = 0, 1, ...» N— 1). s (2.6.5) Нетрудно видеть, что X является ценой партии Нэша в смешанных стратегиях. Выражение (2.6.5) существенно упрощается при k = 2. В этом случае p,i=l — |i2 = P~ Ис- ключение ц.2 и А из (2.6.5) приводит нас к уравнению ар/-1р.’+14- бр’-14- ср.,+14- d = 0, (2.6.6) где a=v (2,2)4-v (1,1) - v (2,1) —v (1,2), b=v (1,2)-v (2,2), c=v (2,1)-v (2,2), d=v (2,2), v(ai, O2)=u(ai, 2, аг) —Ц(сц, 1, аг). Как уже отмечалось выше (§ 2.3), каждая симметриче- ская игра имеет симметрическую ситуацию равновесия, т. е. такую ситуацию равновесия, в которой р,^=р,‘ для всех j и i. Тогда (2.6.6) будет иметь вид ац.2+ (54-с)ц4-^=0 (2.6.7) и ситуацию равновесия определит любой корень уравне- ния (2.6.7). 1 Пусть ту — —4—; тогда из (2.6.6) следует v (2,1)т. , + у (1, 1) - vo,2)» (2.6.8) и т,+1=Xtj-i, где А — преобразование (2.6.8). Если N — четное, то ti==4w72Ti. Если An/2 не есть единичное пре- образование, то неподвижные точки преобразования AN/2 совпадают с неподвижными точками преобразова- ния А. Отсюда при нечетном N все х, равны между со- бой, а при четном W равны между собой все Xj с четны- ми индексами н все т; с нечетными индексами. Таким
§ 2-61 ИГРЫ НА ОКРУЖНОСТИ 201 образом, при нечетном N ситуация равновесия в смешан- ных стратегиях имеет вид (у, у,..., у) и (у', у',... ..., у'), а при четном М(ц, у,..., у), (у', у',..., у'), (у, у', у, ...,у') и (у', у, у', . ..,у), где у и у' —корни уравнения (2.6.7) *). По заданной игре на окружности К* может быть по- строена игра К с независимыми исходами N автоматов A0, A1,..., А”~'. Рассмотрим примеры игр на окружности автоматов с линейной тактикой. Пример 1. n=l, k=2, игра является игрой с одним соседом и а (2,1) —а (1,2) = 1, а (1,1) =а(2,2) = — 1. Рассмотрим последовательность партий из некоторо- го начального распределения по стратегиям. Пусть в момент времени t автоматы разыгрывают партию 1, 2, 1,2,2, ..., 2, 2, 1, 2, 1, 2,..., 1,2 (2V—k четное), тогда в к следующий момент времени будет разыгрываться пар- тия 1, 2,1,2,1, ..., 1,2,1,2, ..., 1, 2. Таким образом, к группа из k автоматов, делающих одно и то же дейст- вие, будет циклически смещаться по окружности. Обоз- начим через 1 последовательность автоматов (любой длины, большей 1), делающих действие 1. Тогда в рас- сматриваемой игре любая партия вида 1, 2, 1, 2, 1, 2, 1 переходит в партию2, 1, 2, 1, 2, 1 и, циклически сдвига- ясь, повторяет этот переход. При этом, если W четное, то период повторения партий равен У, если N нечетное, то — 2N. Как мы уже отмечали § 2.1, наличие циклов ха- рактерно для игр автоматов с платежными функциями п = ±1. Для иллюстрации приведем две последовательности партий при W=9 и М=10 (таблицы 2.6.1 и 2.6.2). Если N четное, то партии (1,2, 1,2,..., 1,2) и (2, 1, 2, 1,..., 2, 1) устойчивы. Пример 2. k=2, игра является игрой с одним соседом и а (1,1) =а (2,2) =0,25, а= (1,2) =—0,1, а (2,1) =0,9. Нетрудно видеть, что игра имеет партию Нэша в чистых *) Естественно, что смешанные стратегии имеют смысл только при положительных корнях, меньших 1.
202 ИГРЫ АВТОМАТОВ [ГЛ. I! Таблиц а 2.6.1 t /- Г Г Г Г /в 0 1 1 1 2 2 1 2 2 2 1 1 2 9 2 1 1 2 1 1 2 2 2 1 1 1 2 2 1 2 3 1 1 1 2 2 2 1 1 2 4 1 2 2 2 1 1 1 2 2 5 1 2 1 1 1 2 2 2 1 6 2 2 1 2 2 2 1 1 1 7 2 1 1 2 1 1 1 2 2 8 1 1 2 2 1 2 2 2 1 9 2 2 2 1 1 2 1 1 1 10 2 1 1 1 2 2 1 2 2 11 1 1 2 2 2 1 1 2 1 12 2 j 2 1 1 1 2 2 1 13 2 1 1 1 2 2 2 1 1 14 2 1 2 2 2 1 1 1 2 15 1 1 2 1 1 1 2 2 2 16 1 2 2 1 2 2 2 1 1 17 2 2 1 1 2 1 1 1 2 18 1 1 1 2 2 1 2 2 2 Таблица 2.6.2 t /° /* Г /3 /4 /7 /8 fJ 0 1 2 1 2 1 1 2 2 2 1 1 2 2 1 2 1 2 2 1 1 1 2 2 1 1 2 1 2 1 1 2 2 3 1 1 2 2 1 2 1 2 2 1 4 2 2 2 1 1 2 1 2 1 1 5 2 1 1 1 2 2 1 2 1 2 6 1 1 2 2 2 1 1 2 1 2 7 1 2 2 1 1 1 2 2 1 2 <S 1 2 1 1 2 2 2 1 1 2 9 1 2 1 2 2 1 1 1 2 2 10 1 2 1 2 1 1 2 2 2 1 стратегиях (1, 1, ..1). В эксперименте использовалось поведение двух автоматов Ln, 2 в игре в зависимости от п. Вычислялась величина on(f)—средняя по экспе- рименту доля партий f. Результаты эксперимента приве- дены в таблице 2.6.3.
§ 2.6] ИГРЫ НА ОКРУЖНОСТИ 203 Пример 3. &=2, игра является игрой с двумя сосе- дями и а(1,1,1) =0,43, а(2,2,2) =0,6, а(1,1,2) = а(1,2,1) = = а (1,2,2) = а(2,1,1) = а (2,1,2) = а(2,2,1) =0. Игра имеет две партии Нэша в чистых стратегиях /о= (1, 1,..., 1) и fi= (2,2,... ,2), причем последняя партия является также партией Мора. Результаты экспе- римента с автоматами Ln,2 в этой игре при различных п и N приведены в таблице 2.6.4. Таблица 2.6.3 / п 4 1 1 5 ’ 1 6 1 7 8 11 0,72 0,79 0,86 0,90 0,94 12 21 0,26 0,21 0,14 0,10 0,06 22 0,01 0 0 0 0 Вероятность попадания на партию fi при N=32 и равновероятном, не зависящем от выигрышей, выборе стратегий автоматами равна ~10-10, в го время как данные таблицы 2.6.4 получены в ~105 партиях. Таким образом, целесообразность поведения автоматов очевид- на. В таблице 2.6.4 on(fi) — доля fi, а л (1) —частота действия 2. Таблица 2.6.4 п N 3 в 9 18 32 % п ^(1) 7Д1) %<'*> "(1) 71(1) 71(1) 1 0,18 0,52 3 0,54 — 0,36 0,69 0,22 0,67 0,03 0,52 0,00 0,65 5 0,91 0,83 0,80 0,84 0,78 0,87 0,60 0,88 0,45 0,88 6 0,99 0,99 0,97 0,99 0,92 0,95 0,80 0,93 0,72 0,89 7 0,99 0,99 0,98 0,99 0,98 0,99 0,91 0,97 0,81 0,90
204 ИГРЫ АВТОМАТОВ [ГЛ. II Платежные функции в игре на окружности могут за- висеть не только от поведения самого автомата и его правого и левого соседей, но и от некоторых общих для всего коллектива характеристик. Так, например, можно рассматривать симметрическую игру автоматов на ок- ружности. В этом случае игра задается платежной функцией a'(f) vb v2, ..., vfe), (2.6.9) где, как и выше, vm — доля автоматов, выбравших в пар- тии f игры стратегию fm. Связи между автоматами в иг- ре на окружности вносят организацию в коллектив ав- томатов и порождают «обмен информацией» между ав- томатами в процессе игры. Используя возможность изменения платежной функции автомата в зависимости от поведения его соседей, мы можем влиять на характе- ристики поведения автоматов в игре. Рассмотрим такую возможность для игры Гура. Как было показано в предыдущем параграфе, в игре Гура с ростом числа играющих автоматов растет и требуемая, емкость их памяти. Введение взаимодействия с ближай- шими соседями позволяет собирать автоматы в группы по «общности действий» так, чтобы свои стратегии из* меняли только автоматы, находящиеся на границах этих групп. При этом число автоматов, действительно участ- вующих в игре, будет равно числу границ групп. Ука- занная возможность может быть реализована следую- щим образом. Пусть k = 2 и игра Гура задана функцией a(v). Тог- да игра Гура на окружности имеет следующие платеж- ные функции; а(2, 2, 2, v) = а(1, 1, 1, v) = 1, а(2, 1,2, v) = a(l,2, 1, v) = -l, а(2, 2, l,v) = a(2, 1, 1, v) = a(l,2, 2, v) = = a (1, 1, 2, v) = a(v). Таким образом, автомат штрафуется с вероятностью 1, если оба его соседа производят одно и то же дейст- вие, а его действие не совпадает с действиями соседей; поощряется с вероятностью 1, если его действие совпа- (2.6.10)
§ 2.6) ИГРЫ НА ОКРУЖНОСТИ 205 дает с действиями его соседей; во всех остальных случа- ях выигрыш автомата определяется игрой Гура. Нетрудно видеть, что партии (1,1,..., 1) и (2, 2,..., 2) являются партиями Нэша. Для того, чтобы сделать эти партии невозможными, перейдем от игры на окружно- сти к игре па отрезке со следующими граничными усло- виями: f°—1 и [лч1 = 2. Можно ожидать, что при доста-
206 ИГРЫ АВТОМАТОВ [ГЛ. II точно большой емкости памяти играющих автоматов в финальном состоянии игра будет иметь всего две зоны: зону единиц, примыкающую к левому краю, и зону дво- ек, примыкающую к правому краю. При этом смена партии будет определяться только двумя автоматами, находящимися на границе зон. Можно ожидать, что при достаточно больших п финальное распределение вероят- ностей р(у) практически не будет зависеть от М Спра- ведливость этого предположения не проверена. Нам не удалось преодолеть аналитические трудности, стоящие на пути определения финального распределения автома- тов по партиям в такой игре. Приближенные оценки в этом случае мало надежны, так как при больших п экс- периментальная проверка требует непомерно большого времени1). На рис. 2.17 приведены результаты моделирования игры Гура на отрезке из 32 автоматов с линейной так- тикой при различных значениях п. Функция а(у) имеет максимум при v=V4. На рис. 2.17 правый столбец соот- ветствует обычной игре Гура, левый столбец—игре Гу- ра на отрезке. Эффект введения взаимодействия на ок- ружности очевиден. !) К возможным путям преодоления этой трудности мы еще вер- немся в следующей главе.
Глава III СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ АВТОМАТОВ § 3.1. Случайное парное взаимодействие в игре Гура Выше мы ствия в игру раграфе мы взаимодействия в играх автоматов. Будем говорить, что в коллективе из N автоматов организовано случайное парное взаимодействие, если в каждый момент времени происходит равновероятное разбиение коллектива на N/2 пар1). В каждой образо- вавшейся паре возможен «обмен информацией» между автоматами, т. е. кроме входного сигнала, определяю- щего выигрыш или проигрыш автомата в данной пар- тии, автомат может использовать в качестве входного сигнала номер. состояния, номер действия н значение выигрыша своего партнера по паре. Рассмотрим механизм случайного разбиения па па- ры. Пусть имеется N автоматов Д1, Л2, ..., AN !). Суще- ствует N\ последовательностей Д’*, Д’2, ..., В каж- дой такой последовательности разобьем, автоматы на пары следующим образом: (Д’*, Д’2), (Д’\ Д’<), .... ..., ^A’2k-i, Д’гь), ..., (Д’^-i, Д’лг). Любая перестановка автоматов в паре и любая перестановка пар не приво- дят к изменению разбиения. Таким образом, существует тг - Л'? А — N рассмотрели пример введения взаимодей- Гура — игру Гура на отрезке. В этом па- продолжим изучение способов введения !) N для простоты считаем четным.
208 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III различных различимых разбиений автоматов на пары. Предполагая равновероятность всех разбиений, получа- ем, что вероятность каждого разбиения (3.1.1) Пусть автоматы Лг* и образовали пару; тогда осталь- пые автоматы могут быть разбиты на пары „ 2^ — 2)? способами, откуда вероятность образования пары (Л\ /V) такова: р(А‘, = = (3.1.2) Если в коллективе из N автоматов имеется k авто- матов одного вида 2,..., k) и N—k автоматов другого вида Af(i=l, 2, ..N—k), то вероятность того, что автомат Лг’ образует пару с автоматом типа В, равна Р(Д‘-, В) = в>) = = 4.(1 + -L-j). (3.1.3) Аналогично, вероятность того, что автомат В1’ образует пару с автоматом типа В Р(В‘, В) = ^р(В‘, = = <ЗЛ'4’ Вероятность образования нары (В, В) Р(В,В) = ±^Р(В‘, В)--= _ *(*"!)_ *7, I I \ k -~N(N — 1) — N— 1 ) N (N ~ 1) Вероятность образования пары (Л, В) р(А, В) =±.^р(А‘, В) +%Р(В1, Л))=2* $-^.(3.1.6)
§3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 209 Если коллектив содержит k\ автоматов В и автома- тов С, то вероятность образования пары (С, В) равна Р(С. В) = я->^=-^(1 <3.1.71 Теперь пусть коллектив автоматов 41, <42,..., Aw может содержать автоматы п различных типов Bi, В2,..., Вп, причем автомат Bj встречается в коллективе с вероятностью р,. Тогда вероятность того, что партнером по паре автомата A’eBj будет автомат типа Bj, равна р(А\, Bj\A^Bi') = N -^"540 +5^)-^-]= я=1 Ц \ / J N = Pt 2 c"-iPi~l(i-Pi)N~k (i + дА-) - N -2cW(l-P>)w-ftjv4rT= /ъР+лг^-г Л=1 4 N — 1 Pi>>N N — 1 = Р) (1 + N — 1) 1“ „ l-Pi-(l-Pj)N N - 1 * Р) N — I (3.1.8) Второй член X!—Р—в выражении (3.1.8) до- стигает своего максимального значения при р,= = 1 —(l/W)Wv-’>, причем Аналогично (3.1.8), P(Al, Bj | AieBj) =\-Pj + . (3.1.10) Рассмотрим организацию случайного парного взаи- модействия в игре Гура.
210СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. Ill Пусть при случайном парном взаимодействии в ка- честве дополнительного входного сигнала каждый авто- мат использует номер внутреннего состояния своего партнера по паре1). В игре участвуют N автоматов с линейной тактикой и Х{— стационарная вероятность то- го, что автомат находится в состоянии ф/ (в состоянии с номером i). Мы будем использовать гипотезу медлен- ности, т. е. предполагать, что между сменами партий ус- певает установиться стационарное распределение веро- ятностей состояний. Случайное парное взаимодействие в игре Гура сво- дится к следующему. Если автоматы Д* и Д^ в момент времени t образовали пару и <р‘(/) и ф’(/) — их внутрен- ние состояния, a s’’(0 и si(t) — их входные сигналы, то Ч/(^-Ы) = 'min (п, ф1 (t) + 1), если — -|- 1, = если sz (/) = — ! и <pl (t) =b 4J (t), max(l, ф*(/) — 1), если s‘(t) — — 1 и (3.1.11) Таким образом, при выигрыше автомат «не обращает внимания» на своего партнера по паре, а при проигры- ше меняет свое состояние, только если номер его внут- реннего состояния совпадает с номером внутреннего со- стояния его партнера по паре. Из (3.1.8) следует, что верятность того, что партнер по паре автомата Д’, находящегося в момент времени t в состоянии фг, окажется в том же состоянии, равна х&, где / 1 —Xi 1 —(1 —\ = —тг-------------J<L (ЗЛ12) Заметим, что >0. (з.м;,) dxi х? (N - 1) и, следовательно, gi<gi+i2). 9 Говоря о номере внутреннего состояния, мы имеем в виду но- мер внутреннего состояния автомата памяти (§ 1.2). 2) Мы, естественно, предполагаем, что автоматы обладают целе- сообразным поведением и х*
§3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 211 Из (3.1.11), учитывая (3.1.12), имеем Xi = Xtp + х2 Up, Xj = Xj-iq+ Xj (1 — x. U)p +x2 +1U+1P, 2 xi — 1 • i=i (3.1.14) Подстановкой переменных получаем из (3.1.14) Ху % — Ху-|-1 В?+1» 2 = 1, (3.1.15) где к Из соотношения |y<gy+i следует, что 1 ^2 Xj к X?| Вл • (3.1.16) Непосредственно из (3.1.16) имеем y — х f*i£»Y/2. *2 - г ?а ~ е, \ х ) * /~ X» _X_^Y'4 Х3 < |/ \ X ) - 5, к X ) ; Xj<- U\* ) (3.1.17) и аналогично, х2 I "1’п . V --: I ’ Л f \ А ) X ( Х^п \И2^—1 (3.1.18) Обозначим кп = ?— и Х2 = ; тогда из условия норми- ?л с» ровки имеем л-1 1/2" 1 и лл (3.1.19)
212 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III Рассмотрим уравнение ;=0 (3.1.20) Обозначив (3.1.21) Непосредственно из (3.1.21) следует, что^<-^-, тогда X при %>1 у<1 и имеет место неравенство n—1 оо ,7 /==о о 1 У 1 1 1 т. е. при л > 1 — >/7 > 7Z---. X ук+1 Ориентируясь на полученные оценки для у, будем искать х в виде х = ---Г- (3.1.23) (X + 1)“2" На рис. 3.1 и 3.2 приведены зависимости от а до % при J—।—।— 7 в S 10 Л Рис. 3.1. п=1 и а от и при различных значениях X. Кривые на рис. 3.1 и 3.2 вычислены на ЦВМ совместным решением (3.1.20) и (3.1.23). Из результатов вычислении следует.
§3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 213 что при и п^2 0,5^а^ (0,5)1|в, откуда 7 ~ 7 (z + 1)2"-1 <х< (T+i)2"’1’6’ (3.1.24) Основываясь на результатах вычислений (рис. 3.1 и 3.2) 05 0,50 0,46 0,48 - 1=4 1=3 1=Z 0,44 0,4Z 0,40 0,38 0,36 0,34\—I___I_I__L О 7 Z 3 4 J__I__L_I_|_ 7 8 О 10 11 п Рис. 3.2. и учитывая, что значения а зависят от X, можно уточ- нить оценку (3.1.24): 7 < 7 (х + 1)2"1 " Х '' (I+1)2'1’1’ откуда с очевидностью C^ + i)2"’1 Пл + i)2""1' (3.1.25) (3.1.26) Из (3.1.12) следует, что при фиксированном п и N-> оо lim Е2 = lim L = 1 и, следовательно, iimx, = 11m х„=%. АГ-*оо N-*oo AZ—юо /V—>оо С другой стороны, при фиксированном N и п-+<х> Nx2 О, (1 - х2)" « 1 - Nx2 +N{\~i}xl и £2 ^-»0, т. е. Х2 оо. Нетрудно получить, что хп > и > , т. е., что при достаточно больших N 'Kn~'k. ^Г1______!_ ->[ A(/V-1) _ Таким образом, при фиксированном N и п-^-оо нижняя
214 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. HI граница для Xi стремится к нулю существенно быстрее, чем верхняя. К сожалению, не удалось построить более точные оценки для хь Тем не менее, полученные оценки позволяют утверждать, что с ростом п вероятность сме- ны действия убывает приблизительно как 1/(1+1)2”. В случае игры N автоматов Кринского взаимодейст- вие определяется следующими правилами: если автома- ты Д’ и Д’ в момент времени Т образовали пару и <р’ (/)., <р’(£) —их внутренние состояния, a $’(/), $’(/) —их вход- ные сигналы, то <Р'(* + 1) = In, если <р'(0 =г= или $'(/) = + !, (max [1; ср'(О 1], если <р/(О = Ч^(Ч и = — 1. (3.1.27) Из (3.1.27) аналогично (3.1.14) имеем систему уравнений для определения стационарных вероятностей состояний: Xj ~ Д, 1 / *+ П 1 , п у Xj = I. 3=1 (3.1.28) Введя обозначение Х=1/р, получим систему уравнений, совпадающую с (3.1.15). Поскольку р^1, то Х^1 и (3.1.24) имеет место при любых значениях a(v). В § 2.5 было показано, что в предположении о спра- ведливости гипотезы медленности финальное распреде- ление вероятностей партий в игре Гура дается форму- лой (2.5.12) аС^г (ЗЛ-29> Асимптотический анализ этого распределения был про- веден в § 2.5. В обычной игре Гура стационарная веро- ятность смены действия имеет вид (3.1.30) Сравнение (3.1.26) и (3.1.30) показывает, что введение случайного парного взаимодействия рассмотренного ти- па приводит к изменению характера зависимости ул(у)
§3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 215 от п. При этом коллектив автоматов максимизирует функцию hNin(v) — (3.1.31) где h(v) =р ln(X(v) + l) и Н(у) = — v In v — (1— v)ln(l — —v). Сравнивая (3.1.31) и (2.5.29), можно считать, гру- бо говоря, что введение случайного парного взаимодей- ствия рассмотренного типа эквивалентно возрастанию памяти автоматов в 2п/п раз. При этом все теоремы § 2.5 об асимптотических свойствах финального распре- деления (3.1.29) остаются справедливыми при подста- новке вместо п величины 2П. На рис. 3.3 и 3.4 приведены результаты моделирова- ния игры Гура автоматов с линейной тактикой на ЦВМ Рис. 3.3. На рис. 3.3 приведены зависимости среднего числа ав- томатов, делающих первое действие, от емкости памяти играющих автоматов, на рис. 3.4 — зависимость среднего выигрыша от емкости памяти. Кривые /, 2 — игра без взаимодействия, кривые 5, 4 — игра с взаимодействием, кривые/, 3 — игра 32 автоматов, кривые 2,4— игра
216 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III 64 автоматов. Эффект введения случайного парного вза- имодействия очевиден. На рис. 3.5 приведены примеры частот различных партий при разных значениях п, полученные при моде- лировании игры на ЦВМ. Введением случайного парного взаимодействия мы изменили зависимость энтропийного члена в (3.1.31) от емкости памяти. Однако при фиксированной емкости памяти величина энтропийного члена линейно возраста- ет с ростом числа участвующих в игре автоматов. По- пытаемся построить способ случайного парного взаимо- действия, изменяющий эту зависимость. Рассмотрим вероятность того, что в момент времени Z + 1 в игре Гура действие 1 будут делать k(t)+r авто- матов, если в момент времени t было k(t) таких авто- матов. Учитывая, что вероятности чисел автоматов, по- кидающих в момент времени t свое действие, распреде- лены по биномиальному закону, можно определить вид
§ 3.1J СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 217 производящей функции распределения вероятностей пар- тий в момент времени <+1: p(s, k(t)) = = [у (k) + (1 - У (k)) s] ft [ 1 - Y (k) +y (k) s] w-ft. (3.1.32) Непосредственно из (3.1.32) находим математическое Flv) Fly) 0,4 ~ N=32 0,3 ~ n = 1 0,3 - О 0,2 О fl Ofi Oft 0,4 “ 0=32 0,3 " n~Z O,Z - 1,0 у О 0,2 Ofl Ofi Ofi Ifi У Рис. 3.5. ожидание и дисперсию величины Д£(/) =&(/+1) — k(t): 2?(Afe(0) = ЛГт(Л!)(1 — V(fe)). J ' Таким образом, математическое ожидание изменения числа автоматов, делающих действие 1, за один шаг
218СЛУЧАЙИОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. Ш всегда направлено к точке я = — т. е. к точке макси- мума энтропии H(v), а дисперсия распределения p[k(t + + l)=&(Z)+r] достигает минимума в точке максимума функции a(v). Дисперсия распределения p[k(/+!) = = k(t)+r] определяет времена пребывания автоматов на соответствующих партиях, и в игре Гура происходит «война между средним и дисперсией». Естественно по- пытаться организовать случайное парное взаимодейст- вие так, чтобы оно снимало влияние асимметрии рас- пределения p[k(t+ 1) =k(t) +г]. Изменение вида распределения p[k(t+1) =k(t) +r] может быть осуществлено, только если за счет случай- ного парного взаимодействия вероятности смены перво- го и второго действия станут различными. Обозначим через Vi (k) вероятность смены действия для автомата, делающего действие 1, и через 72(6) вероятность смены действия для автомата, делающего действие 2. Тогда для того, чтобы распределение р[6(^+1) =6(0+г] было симметричным относительно k(t), т. е. для того, чтобы М (А£ (Z)) = 0, достаточно V2^)(N-k(t))=yi(k)k(t). (3.1.34) Условие (3.1.34) обращается в тождество, если (А7—1)72(6) =?(6)6(0 и (ЛА— 1)71(^) = =y(k) (N — k(t)). (3.1.35) Из (3.1.35) непосредственно следует способ организации случайного парного взаимодействия, симметризирующе- го распределение p[k(t+1) =k(t) +г]. Этот способ сво- дится к изменению процедуры выбора нового действия — при смене действия автомат в качестве нового действия выбирает действие своего партнера по паре. При этом вероятность того, что партнер по паре автомата, делаю- k (t) щего действие 2, делает действие 1, равна (3.1.3), а вероятность того, что партнер по паре автомата, де- лающего действие 1, делает действие 2, равна yz'i ’’ что обеспечивает выполнение (3.1.35). Заметим, однако, что при таком способе случайного парного взаимодейст- вия игра теряет эргодичность: партии игры & = 0 и k = N являются поглощающими. Эту трудность легко преодо-
§ 3.1) СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 219 леть: достаточно ввести в коллектив два автомата, не из- меняющих в процессе игры свои действия,— один авто- мат, постоянно делающий действие 1, и другой, постоян- но делающий действие 2. При этом всегда Теперь производящая функция распределения p[k(t-\ + l)=£(0+d имеет вид p(s, k) = + (1 X X [1 - -s)]N~h- <3L36) Из (3.1.36) имеем АГ (Д&) =р'(1, k)-k = O и D[\k(t')]^D[k(t+l)] = p"(l,k) + p'(l,k)-~ р'2(1, k)^ (3-1.37) При достаточно больших п сомножитель ^2 -т(£)у~гт| не оказывает существенного влияния на значение дис- персии, и дисперсия достигает своего минимального зна- чения в точке, для которой V W • т 7-’- °- (31-38) Учитывая, что d'f (k) _ . Чп da (k) dk " 1 W 1 — а2 ’ dk ’ из (3.1.38) имеем г-^7-2* - -г^—2 = О, (3.1.39) kn (N — k) 1 — a2 dk у 7 и точка минимума дисперсии по мере роста п стремится к точке максимума функции выигрыша a(k). Для приближенного асимптотического анализа пове- дения автоматов в игре при использовании второго типа случайного парного взаимодействия заменим, как и вы- ше (глава 2), биномиальное распределение пуассонов- ским. Обозначим = т (fc) & .
220СЛУЧАЙНОЕ ПАРИСЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III тогда при использовании пуассоновского приближения вероятность того, что / автоматов сменят в момент вре- мени t действие 1 на действие 2, равна = (3.1.40) и вероятность того, что j+r автоматов сменят действие 2 на действие 1, равна + = (3.1.41) Тогда, аналогично (2.5.3), Р |й(1 + 1) = 6(1) +rl = = 2р(/)/’(/+п =2^’“^ = i г = ехр [- 2у (k) Ir [2у (k) (3.1.42) Так как /r(z) то p[ft(f+l)=^(/)+r]=p[^(f+l)=fe(/) —г]. (3.1.43) Полагая п достаточно большим (yn(k)N достаточно ма- лым), пренебрегая вероятностями р[£(<+1) =£(/)+d при |г| ^2 и учитывая (3.1.43), аналогично (2.5.10) по- лучаем F(k) = C(k) ехр рт„ (*) ~ ® (3.1.44) Для асимптотического анализа распределения (3.1.44) заменим бесселеву функцию ее линейным приближени- ем. Тогда <3.1-45)
§ З.ц СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 221 где а—нормирующий множитель, ~ “ T«(vfc)vk(l-Vk)2 da (vh) ________2n«________________«(1 -2vh) dvk ’ T„(vfe)vk(l-vft)(l-a’) Tn(vft)v2(l -vk)«’ (3.1.46) Положение максимума F(k) определяется решением уравнения __ (l-«a)(i-2vk) = dvk 2«vk(l-vk) (3.1.47) Пусть vfto—точка единственного максимума функ- ции a(Vh); тогда решение уравнения (3.1.47) при п-*~оо равномерно стремится к Vka и финальное распределение имеет максимум в точке максимума функции a(v). За- метим, что при Vh=l/y и = 1 — l/JVvfc(l -Vh) N~. Следовательно, если п стремится к бесконечности мед- леннее, чем N, или даже так, что О -Iim Т’ /г-*оо TV-* со О и б достаточно мало, то <. О и > О» т-е- F(k) имеет подъемы на краях. Для того чтобы Vfe0 была точкой наибольшего значения F(k), кроме п->оо, необ- ходимо еще F(i) <F(k0) и F(N— 1)<F(k0), т. е. р/ь \ — а \ aN 0,“ T(vfco)vfto(l-vho)>T1(W-D ’ где Yi = min[y(l/yV), у(1 — l/Af)], что выполняется при . Так как v*0—точка единственного у IV
222случайное ПАРНОЕ ВЗАИМОДЕЙСТВИЕ в КОЛЛЕКТИВАХ |ГЛ. Ill максимума функции а(у), то a{yka ) >ai = max[a(l/Af), а(1 —1/W)] и 1 ( X) = Г ya(vfe,K[ \ 1» Т1 |/ (vfto)J ах [х (vftjJ ’ Тогда условие lim^<x=ln-^ (?„ = (3.1.48) 7»->ОО 1 1 является достаточным условием того, что распределение F(k) имеет единственный максимум в точке Vfc0. Напомним, что в случае игры Гура без взаимодейст- r N вия при lim — — со поведение автоматов теряло це- П->00 п N-+co лесообразпость — распределение автоматов по партиям сосредотачивалось вокруг точки v= 1/2, и с ростом А/ не- зависимо от n<zN математическое ожидание выигрыша автоматов стремилось к а(1/2). При рассматриваемом типе случайного парного взаимодействия целесообраз- ность поведения автоматов сохраняется в случае выпол- нения условия (3.1.48). Покажем, что условие lim —=.0 (3.1.49) п-*оо П является условием, обеспечивающим асимптотическую оптимальность поведения. Математическое ожидание выигрыша автоматов Ап в игре Гура GnN автоматов имеет вид м (Nn ,Gn) = ^ a (vft) F(k). (3.1.50) k=0 Будем говорить, что последовательность автоматов ДН(л/) асимптотически-оптимальна в последовательности игр Гура Gn, если lim М (An{N), GN) = max a (v). (3.1.51) N ->co v Пусть задан интервал (vfea ± В) и пусть Хо — е = max IX (vfto — 6); X (vft„ + 6)1, Хо - X (vfto)
§3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 223 и б таково, что (Zo-8)"_ 1 ХП - д/2 (7V-1) Т. е. .(3.1.52) Пусть также Хо — 8 = 1 ~Н Дл 1 -|- до 1 — а 1 — д0 8, откуда / _ 2до —£ (1 — д0) _ “ 2 — £ (1 — До) _ а ____ £ U Др)2 а __________£ О Д<>)2 /о 1 со\ — а° 2 — е (1— ао) <'а° 2 ’ (ЗЛЬЗ) Тогда') N—1 У aN (Хо — e)n aN3 (1о — е)п До До (3.1.54) И 2 /?(/e)>F(ftn)> —---°. (3.1.55) !’<!<* Ти а° Из (3.1.52), (3.1.54) и (3.1.55) имеем S -1 1 l',~vh„l<a 4Х0 \ АГ _ 1 — N 2 F(k) N2 (Хо - е)« 1 • I»—»fc„l>e N Учитывая условие нормировки, получаем 2 (3.1.56) l”—vfeol<e ’) При этом мы предполагаем, что Хо--е>Х(1/У) и Хл—е> >Ц1—1/N).
224СЛуЧАИМоё ПАРНОЕ ВЗАИМОДЕЙСТВИЕ в КОЛЛЕКТИВАХ [ГЛ. П1 4т) Ь« Очевидно, что М (ЛП(М, Gn) > (1 - 4-) Ьо - 6 (1 - а0)2] = До I N ~ 1 З^о In N 1« \2~| / <> 1 г*7\ -По- -af + “A/---------п—(1 -°«) ]• (3.1.57) Нетрудно видеть, что при выполнении условия (3.1.49) lim М(ЛП(]у), Gn) — а0 = maxa(v). п->00 V N-+co Пусть т—четное число такое, что Х(1) (vfco) = Л<2) (v^) =... ...=X('n-1)('V)lo)=0, (следовательно, ^(v^XO), т. е. tn — номер первой отличной от нуля производной функции X(v) в точке ее максимума. Тогда X(vfto + 6)=A0-|-2-ir6i^xo+ (3.1.58) i=m ит> откуда е»—— 8т и, используя (3.1.52), получаем Заметим при этом, что для того, чтобы распределение F(k) было сосредоточено в точке v^, необходимо, чтобы 6<1/Af и, следовательно, необходимо Пт = 0, (3.1.60) N->oo что приводит нас к условию теоремы 9 (2.5.63). Таким образом, при рассмотренном типе случайного парного взаимодействия автоматы обладают асимптоти- чески оптимальным поведением при выполнении усло- вия (3.1.49) и интервал, в котором сосредоточено рас- ' ,ч /InNXUm ~ пределение г (я), стремится к нулю как 1-^-1 • Одна- ко для того, чтобы автоматы разыгрывали исключитель- но инвариантное множество партий Мора, необходимо выполнение тех же условий, что и в игре автоматов без взаимодействия.
§ 3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 225 На рис. 3.6 и 3.7 приведены результаты моделирова- ния игры Гура автоматов с линейной тактикой при ука- занном типе случайного париого взаимодействия. На v Рис. 3.6. /7 4Й7 7 Z 3 4 5 6 7 8 9 70 77 12 13 л Рис. 3.7. рис. 3.6 приведены зависимости среднего числа автома- тов, делающих первое действие, а на рис. 3.7 — зависи-
226слуЧАЙНОЕ парное взаимодействие в коллективах [гл. ш мость среднего выигрыша от емкости памяти. Кривые / и 2 на этих рисунках соответствуют игре без взаимодей- ствия, а 3 и 4 — игре со взаимодействием; кривые 1 и 3 построены для игры 32 автоматов, а кривые 2 и 4 — для игры 64 автоматов. На рис. 3.8 приведены примеры частот различных партий. Здесь уместно сказать несколько слов о трудно- стях моделирования, игры Гура. Используя гипотезу ' IV) /у 02 0,1 О N-3Z п = 1 F(v) 0,4 0,3 N—3Z rt~2 F(V) 1fi Ofi Ofi 0,7 Ofi D,5 0,4 V 0,2 0,1 F(v) 7,0 0,9 0,8 0,7 Ofi Ofi 0,4 0,3 o,z 0,1 о ofi 05 о,б о,б <7/ V О 0,2 O;1 0,6 0,0 1,0 v Рис. 3.8. медленности, рассмотрим оценку для собственных чисел стохастической матрицы, описывающей поведение ав- томатов в игре Гура. Известно, что сумма собственных чисел равна следу матрицы, т. е. v Xi = Sp7H = V р [k +!) = £(/)]. (3.1.61) i—О h О
3.1] СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В ИГРЕ ГУРА 227 Для игры Гура без взаимодействия и для игры Гура со случайным парным взаимодействием первого типа (3.1.61) имеет вид N N ________ 2 «i = 2 e-vWN /0 (2Т (k) |А (tf - k)} > i-0 k=0 >(^+l)-S y(k)[N + Vk(N-k)]>(N + l)~ k-0 N -^2 l(k). (3.1.62) z k-0 Пусть — min Xi1); тогда, учитывая, что хг^1. i получаем ]V N___1 N xN>(N + V)3 tW- 2 x,>1 -^2 T(£). z k-0 i=-0 z k-0 (3.1.63) Окончательно имеем min Xi > 1 — ^ ?(£*); min у (k)<" ?(&*) < max y(fe). (3.1.64) k k Аналогично, для случайного парного взаимодействия второго типа min> 1 - ^-т(&*). (3.1.65) Из (3.1.63) и (3.1.64) следует, что при п->оо и min2i(v)>l минимальное собственное значение экспо- ненциально стремится к 1, что указывает па необходи- мость проведения весьма длительных вычислений для получения достоверных результатов. Требуемое время может быть существенно снижено, если вместо прямого моделирования использовать про- цедуру итеративного вычисления финальных распре- делений. 9 Мы предполагаем, что все собственные числа—действитель- ные, однако аналогичный результат может быть получен и без это- го предложения.
228слуЧАИНОЕ парное взаимодействие в коллективах [гл. ш Для каждых фиксированных N и п могут быть вы- числены ДЧ-1 условных распределений вероятностей ^лг>п[&(^+1) |£(^)]. Они легко вычисляются даже без использования пуассоновского приближения, хотя при n>4 [/г(/+1) |^(Z) ], полученные в эксперименте и непосредственным вычислением практически совпадают. Заметим, что Лу,п[£(^+1) |&(^)] весьма быстро убыва- ют по fe(Z-f-l)—k(t), поэтому для запоминания табли- цы этих функций требуется не (W-H)2 ячеек памяти, а существенно меньше [как правило, не более 10 {N-\- 4-1)]. Далее финальное распределение рекуррентно вы- числяется по формуле Fl№) (3.1.66) Нормирующий множитель l/SF(r) исключает влияние ошибок округления. В качестве начального приближе- ния финального распределения для (п+1) удобно ис- пользовать финальное распределение, полученное для п. Далее может быть использована следующая методи- ка построения финальных распределений. Игра моделируется до тех п, при которых результа- ты моделирования начнут совпадать с результатами итеративных вычислений, т. е. до тех пор, пока не нач- нет «действовать гипотеза медленности». Далее прово- дятся итеративные вычисления до таких п, при которых результаты этих вычислений не начнут совпадать с при- ближенными финальными распределениями. Использо- вание такой методики позволяет в ряде случаев сокра- тить времена, необходимые для получения интересую- щих нас зависимостей. В заключение заметим, что совместное использование обоих рассмотренных в этом параграфе способов орга- низации случайного парного взаимодействия обеспечи- вает асимптотическую оптимальность поведения автома- тов в игре Гура при выполнении условия lim’il^^O. (3.1.67) /V—>оо п п>со
§3.2] СИММЕТРИЧЕСКИЕ ИГРЫ АВТОМАТОВ 229 § 3.2. Случайное парное взаимодействие в симметрических играх автоматов Как уже отмечалось выше (§ 2.3), процедура «общей кассы» обладает весьма важным свойством: она превра- щает симметрическую игру Нэша в игру Мора, т. е. введение процедуры «общей кассы» позволяет при доста- точно большой емкости памяти играющих автоматов добиться максимально возможного математического ожи- дания выигрыша. Поведение автоматов в игре с «общей кассой» в некотором смысле эквивалентно поведению при наличии договоренности. Недостатком процедуры «общей кассы» является связанная с ней централизация управ- ления поведением. Для огранизации процедуры «общей кассы» требуется введение центрального устройства, суммирующего выигрыши всех участвующих в игре ав- томатов и организующего распределение суммарного выигрыша поровну между участниками игры. Как мы уже говорили, введение процедуры «общей кассы» было продиктовано желанием организовать про- цедуру, эквивалентную договоренности между игроками. В этом параграфе мы попытаемся организовать взаи- модействие между автоматами, эквивалентное процедуре «общей кассы», в процессе игры. Таким образом, мы будем искать пути, дающие автоматам возможность «договориться» и, тем самым, при достаточной емкости памяти, обеспечить выход на партию Мора. При этом нас будет интересовать только взаимодей- ствие простейшего типа, т. е. взаимодействие с неболь- шим числом соседей, так как, если автомат в каждый момент времени обладает информацией б всех других автоматах коллектива, то такое взаимодействие практи- чески не отличается от процедуры «общей кассы». Ниже мы покажем, что соответствующим образом организо- ванное случайное парное взаимодействие эквивалентно процедуре «общей кассы». Пусть симметрическая игра S N автоматов задана платежными функциями am(yi, v2, •.., v^), В коллективе автоматов организовано случайное парное взаимодействие, сводящееся к тому, что партнеры по паре обмениваются своими входными сигналами, т. е., если автоматы Л’ и А* в момент времени t образовали
230 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III пару и ф'(/), фФ)—их внутренние состояния, а $’(/). si(t) — их входные сигналы, то ФФ + l) = F4cp40, з'ЮЦ q>'(/+ l) = /W(0, s'(/)],} где F’(<p, s) и ^(ф, s)—функции переходов автоматов А* и Д> соответственно. Тогда с учетом (3.1.3) и (3.1.4) вероятность появления входного сигнала з’(0=з’(/) = = — 1 (проигрыша) для автомата Д', производящего в момент времени t действие fm, имеет вид , . . h p[sl(t) = - 1] = 1 + йТГТ)2 Wm(vbv2,...,vft) — - jy-ZZ-fPm(v1. *2..Vfc), (3.2.2) откуда математическое ожидание выигрыша автомата А\ выбравшего в момент времени t стратегию с номе- ром т, равно М (Д') = (1 + тДп') 2 VmOm (vn V2.......Vk ) - \ / m=i — v*) (3.2.3) и k lim Al(Д') — 2 v2,..., vft). (3.2.4) JV-mx> m—1 Нетрудно видеть, что математические ожидания выиг- рышей всех автоматов при достаточно большом N оди- наковы и совпадают с математическим ожиданием вы- игрыша при использовании процедуры «обшей кассы». Рассмотренный способ случайного парного взаимодей- ствия сохраняет недостаток «обшей кассы», состоящий в ее неэффективности при небольшой емкости памяти иг- рающих автоматов. Рассмотрим еще один способ организации случайно- го парного взаимодействия в симметрической игре, пред- полагая, что выполняется гипотеза медленности.
§ 3.2] СИММЕТРИЧЕСКИЕ ИГРЫ АВТОМАТОВ 231 Если автоматы играют в симметрическую игру без «общей кассы», то в каждой группе автоматов, выбрав- ших одно и то же действие (одну и ту же стратегию), существует свое распределение автоматов по состояни- ям. Введение процедуры «общей кассы» приводит к то- му, что вероятность находиться в данном состоянии для каждого автомата одинакова и не зависит от того, ка- кую стратегию выбрал автомат. Таким образом, можно надеяться, что взаимодействие, приводящее к выравни- ванию вероятностей состояний в коллективе, окажется эквивалентным процедуре «общей кассы». В связи с тем, что номер состояния автомата зависит от его среднего выигрыша, при таком взаимодействии автоматы долж- ны обладать «альтруизмом»—«богатые» автоматы долж- ны делиться своим «состоянием» с «бедными». Рассмотрим случайное парное взаимодействие, осно- ванное на приведенных выше соображениях. Взаимодей- ствие при этом сводится к тому, что партнеры по паре обмениваются номерами внутренних состояний, т. е. если автоматы и Aj в момент времени / образовали пару, то фф+О = F‘W(t),s‘ (/)],! Ф'(г+1) = г>[<р‘(0.8'(0М 1 ' Заметим, что, во-первых, введение такого взаимодейст- вия не увеличивает конструктивную сложность каждого автомата, и, во-вторых, обмен номерами внутренних со- стояний эквивалентен обмену номерами используемых стратегий. Обозначим через хг-(/) вероятность того, что в игре S в момент времени t автомат находится в состоянии с номером i, а через XjW(/) —вероятность того, что автомат находится в состоянии с номером Z, при условии, что он в этот момент времени выбрал стратегию с номером т. Пусть vm(t)— доля автоматов, выбравших в момент вре- мени t стратегию с номером т\ тогда h Xi (t) = s V,n (t) xim (/). (3.2.6) m 1 При N оо вероятность того, что партнер по паре на- ходится в состоянии с номером т, не зависит от состоя- ния, в котором находится сам автомат, и равна хт. Если
232случаиное ПАРНОЕ взаимодействие в КОЛЛЕКТИВАХ [ГЛ. III в момент времени t вероятность штрафа (проигрыша) за стратегию т равна рт(0 и ?т(0 = 1—Рт(О» то Для ав‘ томата с линейной тактикой имеем Xlm (I 4- 1) = Xi (0 рт (/) + Х2 (0 Рт (t), Xlm (t 4- 1) = Xi-t (t) qm(t)+Xi+i (t)pm(t), Xnm (t 4- 1) = Xn-l (0 <7m (/) 4* Xn (t) qm (t). (3.2.7) Умножая правые и левые части уравнений (3.2.7) на vm(^4-l) и суммируя по т, с учетом (3.2.6) получаем k н X1(t+l) = X1(t)'SlVin (Н-1)рт(0+*22М* + 1)рт(0> т=1 т=1 h Xi (t -f- 1) = Xi-i (/)2 Vm (t 4" 1) Qm (t) 4~ m-1 4-*i+l (0 2 Vm(t 4- l)pm(t), m=i 2 Xi (0 = 1. (3.2.8) Введем обозначение Реке (0 = 2 Vm (t + 1) Pm (0 = 1 ~а^В--- ; (3.2.9) m=i тогда распределение вероятностей состояний автоматов в коллективе таково, как если бы все они штрафовались с одинаковой вероятностью, равной рэкв (/). Оценим ве- личину аэкв (/)• При достаточно большом N доля автоматов, меняю- щих в момент времени t стратегию с номером т на дру- гую стратегию, равна где ут(0— стационар- ная вероятность смены стратегии с номером т. Тогда при равновероятном выборе автоматами новой страте- гии в случае смены действия 1 к Vm (i 4“ 1) = Vm (0 — Vm (/) (t) 4- ^vt (/) 7/ (f) (3.2.10)
§ 3.2] СИММЕТРИЧЕСКИЕ ИГРЫ АВТОМАТОВ 233 и, следовательно, Оэкв (0 — k k К « н. = Сок (^) — 2 Ут (0 Т/п (0 Pm(t) ~ь~ 2 Pl (0 » (3.2.11) m=i L l=i h где аок(0= 2 Vm(t)am(t)—математическое ожидание т=1 выигрыша при использовании процедуры «общей кассы». Учитывая, что ym(t) с ростом п экспоненциально убы- вает, нетрудно видеть, что при п->оо случайный пар- ный обмен стратегиями (номерами внутренних состоя- ний) эквивалентен процедуре «общей кассы». С другой стороны, при минимальной емкости памяти автоматов (п=1) введение случайного парного обмена стратегиями не приводит к изменению поведения автома- тов. Таким образом, с увеличением емкости памяти по- ведение автоматов изменяется от независимого до пове- дения, эквивалентного поведению при процедуре «общей кассы». Для экспериментальной проверки полученных резуль- татов рассмотрим игру в «распределения» при случай- ном парном обмене стратегиями (§ 2.4). В проведенных экспериментах моделировалось пове- дение 64 автоматов с линейной тактикой в игре в «рас- пределения» со взаимодействием. Были проведены две серии экспериментов, в каждой из которых определялся средний выигрыш автоматов в зависимости от емкости памяти. В обеих сериях k=2. Платежные функции в первой серии экспериментов повторяли платежные функции первой серии экспери- ментов § 2.4 (2.4.22). Платежные функции во второй се- рии повторяли платежные функции второй серии экспе- риментов § 2.4 (2.4.24). Результаты экспериментов приведены на рис. 3.9 и 3.10 для первой и второй серии экспериментов соответ- ственно. Первые кривые на каждом рисунке соответст- вуют игре с «общей кассой» (рис. 2.8 и рис. 2.10), вто- рые— игре со случайным парным взаимодействием. На рис. 3.11 приведены примеры частот различных партий, полученных в эксперименте. Правая колонка —
34СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. III для игры с «общей кассой», левая — для игры со слу- чайным парным взаимодействием. Из рис. 3.9 и 3.10 видно, что при случайном парном взаимодействии средний выигрыш автоматов изменяет- ся от цены партии Антоса к цене партии Мора, остава- 0,6 Lili I 1 __1_I_I_L— О 7 Z 3 4 5 6 7 >° О и 0 1 Z 3 4 5 R 7 О О 10 11 п Рис. 3.10. Рис. 3.9. ясь при этом все время больше среднего выигрыша при процедуре «общей кассы». В симметрических играх автоматов, равно как и в иг- ре Гура, весьма существенным параметром поведения является скорость установления финального (стационар- ного) распределения вероятностей партий. Рассмотрим возможность использования случайного парного взаимодействия для убыстрения сходимости рас- пределения автоматов по партиям к стационарному зна- чению. Выберем уже встречавшийся нам в предыдущем параграфе следующий способ организации взаимодейст- вия: если в момент времени t автоматы А* и Aj образо- вали пару и автомат А* изменяет свое действие, то в ка- честве нового действия он выбирает действие своего партнера по паре. При этом для сохранения эргодично- сти будем предполагать, что на каждой стратегии имеет- ся один автомат, никогда не изменяющий своего дей- ствия. Приближенно оценим поведение автоматов с мини- мальной памятью (п=1) в симметрической игре при та-
§ 3.2] СИММЕТРИЧЕСКИЕ ИГРЫ АВТОМАТОВ 235 ком взаимодействии. Аналогично (3.2.10) в этом случае, пренебрегая членами порядка можно записать при jV оо k vm(t+ 1) = vm(t) — vm (t) pm (f) + Vm (t) ‘-1 (3.2.12) О SB 40 42 44 46 48 50 к 0 24 26 20 50 32 34 36 38 40 к О 41 43 45 47 40 51 к О 25 27 23 31 33 35 37 33 К N=64 Рис. З.Н. Аналогично (2.4.4), заменяя разностные уравнения диф- ференциальными, получаем л Vm =—VmPm + vm 2 ViPi, (3.2.13) i=l
236СЛУЧАЙНОЕ парное взаимодействие в КОЛЛЕКТИВАХ [ГЛ, III Решая (3.2.13), получаем к -$Pm<H+'£i ^iPidt vm(t)=Ce i=1 (3.2.14) Учитывая, что второе слагаемое в показателе степени одинаково для всех vm и принимая во внимание условие нормировки, имеем (3-2Л5) 2 (0) е J i=l Пусть рт не зависит от v, т. е. пусть мы имеем случай поведения N автоматов в стационарной случайной сре- де, тогда —р t (0) е т v"’ (0 = • (3 2.16) г-1 Нетрудно видеть, что еслира = minрт,то va(t) экспонен- tn циально стремится к единице. Сравнивая (3.2.16) и (2.4.9) 9, мы видим, что при рассматриваемом способе случайного парного взаимо- действия и п=1 автоматы добиваются того же, чего до- биваются без взаимодействия автоматы с бесконечно большой памятью. Более того, при случайном парном взаимодействии выход на точку Мора обеспечивается независимо от того, какое значение имеет max ат, в то т время как в игре N автоматов с линейной тактикой при достаточно большом п этот результат достигается лишь в случае шахат>О.Изсравнения (3.2.16) и (2.4.9) оче- т видна также разница в скоростях выхода на финальное распределение. Пусть случайное парное взаимодействие организова- но в произвольной симметрической игре. Тогда при от- (0 = ',п (0) е~^ + , 0 < t*m < t.
§ 3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 237 сутствии доминирующих и рецессивных стратегий, как это видно из (3.2.13), стационарное распределение веро- ятностей соответствует ситуации динамического равно- весия рт=р т. е. одинаковому математиче- скому ожиданию выигрыша на всех стратегиях. В слу- чае, если ситуация динами- ческого равновесия устойчи- ва (игра имеет партию Нэ- ша в чистых стратегиях), то автоматы с экспоненциаль- ной скоростью выходят на соответствующее стационар- ное распределение. На рис. 3.12 приведены результаты моделирования поведения автоматов с n= 1 в игре в «распределе- ния» [платежные функции (2.4.24)]. Зависимость сред- него выигрыша автоматов от времени, изображенная па этом рисунке, показывает, что автоматы довольно быст- ро выходят на цену партии Нэша. § 3.3. Синхронизация коллектива автоматов при случайном парном взаимодействии Предлагаемая в этом параграфе модель существенно отличается от моделей, рассмотренных выше. Если при- веденные выше модели укладывались в рамки языка теории игр, и поведение автоматов рассматривалось в бесконечной последовательности партий, то изучаемая в этом параграфе модель связана с организацией поведе- ния, направленного на выполнение однократного дейст- вия: автоматы должны «согласовать» момент выполне- ния некоторого действия. В этом параграфе мы рас- смотрим решение этой задачи при случайном парном взаимодействии. Решение аналогичной задачи для детерминированно- го взаимодействия (взаимодействие на отрезке, окруж- ности и произвольном графе) будет рассмотрено в гла- ве 5.
238случай11ое парное взаимодействие в коллективах [гл. in Синхронизацию мы будем понимать здесь в следую- щем смысле: все автоматы после подачи стартового сиг- нала на один случайно выбранный автомат должны «до- говориться» и одновременно выполнить заданное дейст- ствие. Естественно, что при случайном парном взаимо- действии решение задачи в такой постановке невозмож- но. Действительно, в силу случайности образования пар для любого конечного отрезка времени существует не- нулевая вероятность того, что взаимодействие началь- ного автомата и автоматов, вступивших в контакт с ним и друг с другом, не выйдет за пределы ограниченной группы автоматов, т. е. всегда существует ненулевая ве- роятность того, что за конечный отрезок времени инфор- мация о подаче стартового сигнала на один из автома- тов не распространится по всему коллективу. Таким об- разом, при случайном парном взаимодействии можно говорить лишь о математическом ожидании доли одно- временно сработавших автоматов и об одновременном срабатывании автоматов с заданной степенью точности. Мы будем рассматривать автоматы, имеющие п+1 состояний. При этом состояние ср = О будем называть на- чальным, а состояние у = п — синхронным. Взаимодей- ствие автоматов сводится к следующему. Если в момент времени t автоматы Дг’ и Aj образовали пару и срг’ (/) и qp(Z)—их внутренние состояния, то -I-1)-=F(<p'(o, фу(0)> | пзп ф'(Л-1) = £(ф'(/), Ф‘(0). / 1 ' Если функция переходов симметрична, то <рг‘(/+1) = = qp(/+l). При случайных парных столкновениях авто- матов, находящихся в начальных состояниях, их состоя- ния не изменяются, т. е. F(0, 0)=0. Обозначим через v,(Z) долю автоматов, находящих- ся в момент времени t в состоянии с номером /, а через Vj(t)—математическое ожидание Будем говорить, что коллектив автоматов е-сипхро^ визируется, если после подачи стартового сигнала на один случайно выбранный автомат Для всех Г>0, lim vn (t) = 1, /->00
§ 3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 239 II существует такое Т, что V,(0<8 при | v«(<)>1-~« при Таким образом, под е-синхронизацией мы будем по- нимать существование такого момента времени Т, для которого математическое ожидание доли одновременно переходящих в синхронное состояние автоматов не ме- нее, чем 1—2е. Рассмотрим две конструкции автоматов, обеспечива- ющих е-синхронизацию, и асимптотическое поведение числа состояний таких автоматов при М->оо и е->0. Функции переходов автоматов первого типа опреде- ляются следующими правилами. Если автоматы Ai и А* в момент времени t образова- ли пару и <р’(/) и ф’(0—их внутренние состояния в мо- мент времени t, то Фг(£ + 1) — q?(Z-|-1) = min {max [ф‘(/); ф7(/)4~ 1; п}, если max [фг (f)’» ф7(*Я =/= О, Ф‘(/ 1) — ф7(/ 4‘ 1) = 0, если ф‘(/) — Ф7(0 = 0., (3.3.3) Стартовый' сигнал переводит автомат из состояния 0 в состояние 1. Нетрудно видеть, что в момент времени/4-1 в состоя- нии 0 будут находиться только те автоматы, которые в мо- мент времени t находились в состоянии 0 и образовали па- ры с автоматами, находящимися в том же состоянии. Пусть P0(k, t)— вероятность того, что в момент вре- мени t k автоматов находятся в состоянии 0,2/V— число k автоматов в коллективе и =-vo(/) —доля автоматов, находящихся в момент времени t в состоянии с номером 0. Обозначим через М N,k(S) математическое ожидание числа пар S, в которых при случайном парном разбие- нии оба автомата находятся в состоянии 0, если среди 2А' автоматов точно k автоматов находятся в состоянии 0 и через DN,k(S)—дисперсию числа таких пар. Тогда 2N М lS\ Vo + = (3.3.4) n2/# I 1\__ V p (b f\DN<k^ (To {t 4- 1) — P (k, t)-^5--,
240случаиное парное взаимодействие в коллективах [гл. hi где v0(t -f- 1)и a0(f-|-l) — математическое ожидание и дисперсия доли автоматов, находящихся в момент вре- мени /+1 в состоянии 0. Определим MN>h(S) и Dm,a(S). Пусть Pn,k(S)—вероятность того, что при случайном парном разбиении 2jV автоматов, из которых k автома- тов находятся в состоянии 0, образуется ровно S пар, в которых оба автомата находятся в состоянии 0. Не- трудно видеть, что для Pn,k(S) может быть записано следующее рекуррентное соотношение: <s> = W^i)- (S - 1) + 2k(2N-k) + 2N(2N - 1) Pn -*• <S) + ,(2N-k)(2N-k-l)p 4 2N~(2N^T)--• (3.3.5) Решением разностного уравнения (3.3.5) с учетом на- чальных условий является P^.(S) -= -C"Cy - , (3.3.6) где Q^k^2N и O^k — 28 — S. Действительно, Cs.v есть число разбиений автоматов на пары, при котором пары вида А°АС и АСА° разли- чимы 1): С n — число различных разбиений, при которых S пар имеют вид А°А° и C^s —число способов рас- пределения k — 2S автоматов по N—S парам, т. е. СрГ-8^к~28 — число- способов разбиения 2N—2S автома- тов на пары, при котором нет ни одной пары вида Л°ДЭ и пары вида Л°ДС и ДСД° различимы* 2). ') Д° означает, что автомат находится в состоянии 0, а Ас озна- чает, что автомат находится в состоянии С=£0. 2) Справедливость решения (3.3.6) может быть проверена непо- средственной подстановкой в (3.3.5); при этом удобно использовать тот факт, что C%CN~-s = Cf_s ’
§3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 241 Рассмотрим производящую функцию г) f q\ л 8 л k f>S r>k — 2S(bk—— 28 \ 8\h JLl (о)Л1Л2 == Xj ^CjvGjV-S^ ^i^2~ h 8 k 8 N N—8 V V rSrk-2S(y *2\S zO1 Ji-28 = X X b/vU2v_s 1Л1Л2) (ZA2) = S=0 fe—28=0 = + 2Xa + 1)N = Fn (ХЛ), (3.3.7) откуда 3Fw(1,x2) dXj = 2 C2NX2 s SPN,h (S) = s Ck2trf2MN,h (S) k 8 k И Mntk(S) dk dk* pfN(l,0) ' L (3.3.8) 1 й!С^ и, аналогично, °- <s>=dR RF ]+м"л(5) ~ ""л(5)- L (3.3.9) Из (3.3.7) имеем ^л,(1’2£ = (X22 + 2Кг+ If"1 - Ntf (X2 + I)2""2, дЧ (3.3.10) ^Fa'(^’ — = N(N --1) V2 (Л2 + 1 )2N'4 Заметим, что I/ (Ч VI - *! + 2'A + k (k - 1) (3.3.11) dk*-1 6k rr /1 \ 141 II M I 4«3 rfh ft) I 1/ W b 1 - л dlk тыл ^-1 + + M (k - 1) If + 4k (k - 1) (i - 2) X ‘tifk + + &(*-W-2)(fc-3)^-i£k, CLK
242случаиное ПАРНОЕ взаимодействие в КОЛЛЕКТИВАХ (ГЛ. III откуда л'л /сч_ ’ N (2N— 2)\k(k — \) _ k(k-\) • (2/V-ft)! ~2(2/V-l)’ (3.3.12) n (c j _ ft(ft-l)(ft-2) (ft-3) , fe(ft-l) _ mW- 4 (2/V — 1) (2/V — 3) "r2(2/V —1) - 4^-Зтр = (S)A-2 (S) + + Mw>ft(5)-M.fc(S). (3.3.13) Из (3.3.4) имеем 2N = (k, t) — 20^0 (k, t) 4jV2 (2N = - (/) + 4 (0 (02^--^ (Z)1 + . (3.3.14) Заметим, что 2N дл2 /с\ Ро (k, t - 1) - VO2(Z) + o02(t). fc=0 2V Следовательно, •> Vq (<) (/) + 0“ (/) °6 (i) — 2^ — I + 2N = ^P0(k,t-l) ft=0 2Л^ — 1 — DN,k ($) _ k (S) ! (S) N* N (2^ — 1) № (2^ — 1) 2N = ^P0(k, t - Ati,hMntk(S), fe=0 A - <fe~2) (fe~~3) J_ J- - ^N,k— 2№(2W—3) “Г № k(k— 1) 1 . k(k — 1) _ 2№ (2^ — 1) (2^ — 1) + 2№ (2N — 1)» ~ Л'-l , (Л-2)(6-3) k(k-\)(N “ A/» (2.V — 1) + 2№ (2N — 3) № (2W — I)2 _ 1 A»(6W—5) + ^(16№ —10^—1) —6 (2^ —1)« . N» (2N — I) 2№ {2N — 3) (2/V — 1 )2
§3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 243 Нетрудно видеть, что и, следовательно, Vo(/+ l)<vo* 2(O + ^-. (3.3.15) Для дальнейшего нам будет полезным иметь в виду, что при v0 (г) >1/2 2vo(0>vo(/) и +1) <(i+4)*2ю- (3-3.16) Рассмотрим начальные такты работы системы. Пус- ковой сигнал переводит в момент времени 1=0 один ав- томат в состояние с номером 1, и в соответствии с логи- кой взаимодействия автоматов в следующий момент вре- мени два автомата оказываются в состоянии с номером 2. Таким образом, 1) v0 (0) = 1 - V! (0) = ± Vi (0) = 0 для всех /=^(0,1); 2) v0(l) = 1 - V1(l)=0 v2(l) = ±; v,(l) = 0 для всех /=^=(0,2); 3) vo (2) — 1 — -у -г N (2jV _ j) *); vs(2)= 4~jv'(2^-l)> v, (2) = 0 для всех/=^(0,3). Рассмотримповедение vo(/) в интервале v0 (f) > 1/2. Из (3.3.16) следует, что2) — 17 1 12*—2 I 1 \2*—2[ 9 \2*—2 '’o(O<[(l + Tr)vo(2)j =(1+4-) (1-4) ~ 2^-2 N . (3.3.17) Определим моменты времени, для которыху0(^) > 1/2. ') В соответствии с (3.3.12). 2) Пренебрегаем членом-^-——. /V (л»1У1 I j
244 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ (ГЛ. Ill Аналогично (3.3.16), учитывая, что А^ъ. > — имеем v0(* + 1)> (1 - Vo(0> [(1 -4-)vo<2)]2 3-2f~2 N И v0(Z)^> 1/2 для всех где ti = \og2N+2<i\og2N+\og2 In 2 + 2 —log23. (3.3.18) Из (3.3.17) получаем, что при Zi = log2 W + 2 v0(«)<+ (3.3.19) Теперь рассмотрим поведение v0(/) в интервале (Л, ^2), где v0(/a)> (е_И3 (3.3.15) имеем v0 (* -I 1) < (0 (1+ < *о (0 (3.3.20) Тогда в рассматриваемом интервале (3.3.21) Если в > (+щг , т0 из условия v0 (t) е следует, что t—/i^log2ln l/e —log2ln(e—1), (3.3.22) откуда окончательно имеем, что v0 (f) е^для при />log2W+log2 In l/e+3. (3.3.23) Заметим, что в момент времени t Vj(t)=O для всех /=/= =/= (0, /+1), следовательно, для обеспечения 8-синхрони- зации vn(n — 1) 1 — 8, что выполняется при n^log2Ar+log2 In l/e-l-4. (3.3.24) Условие (3.3.24) обеспечивает 8-синхронизацию практи- чески с точностью до двух автоматов (см. выше). Если
§ 3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 245 в (3.3.15) пренебречь членом то решение при- ближенного уравнения есть vo(O = e N , (3.3.25) и условие е-синхронизации «^log2 W + log2 In l/e+2, (3.3.26) что для больших п практически совпадает с (3.3.24). Заметим, что для того, чтобы vo(t) достигло величи- ны, не зависящей от N, требуется время порядка log2 N, после чего происходит собственно синхронизация кол- лектива за время, зависящее от 8. В рассмотренной кон- струкции время синхронизации Т=п. Заметим, что ми- нимальное время, за которое информация о подаче стар- тового сигнала на один случайно выбранный автомат может распространиться по коллективу при случайном парном взаимодействии, равно logaW и, следовательно, время синхронизации коллектива автоматов предлагае- мой конструкции близко к минимальному. В рассмотренной конструкции автоматов время пе- рехода автоматов в синхронное состояние равно числу состояний автомата. Естественно попытаться улучшить оценку (3.3.24) путем замедления скорости смены со- стояний. Исходя из этих соображений, рассмотрим вто- рую конструкцию автоматов, поведение которых опреде- ляется следующими правилами: если автоматы А* и .Aj в момент времени t образовали пару, <р’(/) и <р’(0 —их внутренние состояния, то <р‘ (/ + 1) = Ф7(/ + 1) = min [<pz (f), ^(t), и — 1] + 1, если max [ <pz (/), <p^ (t)l 0, q/(f + 1) = ф'(^-Н) = 0, если max 1ф'(0> фЛ01 = 0- . (3.3.27) Стартовый сигнал переводит автомат из состояния 0 в состояние 1. п Пусть у (t) = vi (0 —доля автоматов, нахо/я- щихся в момент времени t в состояниях с номерами, не
246СЛУЧАЙНОЕ ПАРНОЕ взаимодействие в КОЛЛЕКТИВАХ [ГЛ. Ill меньшими, чем /. Из конструкции автоматов (3.3.27) следует, что в состояниях с номерами не меньшими, чем j, в момент времени / + 1 окажутся только те автоматы, ко- торые находились в момент времени t в состояниях с номерами не меньшими, чем /—1, и образовали в этот момент пару с автоматом, находящимся в состоянии с номером, не меньшим, чем /—1. Рассмотрим приближенное описание поведения этой конструкции, построенное в предположении, что можно пренебречь в (3.3.15) членом v*> • тогда 2W ’ 7o(/ + l)=v?(0, (3.3.28) Ь+1(Л-1) = 7Ж (3-3-29) Поведение автоматов в нулевом состоянии в обеих кон- струкциях одинаково, следовательно, 2*—1 L(0 = l-vo(0 = l-e'“ (3.3.30) Из (3.3.29) непосредственно следует, что 0 при t <Zj + 1, • F,(/ —/ +I)2’-1 при (3.3.31) Тогда, учитывая (3.3.30) и равенство vn(0=Yn(0> п0’ лучаем V„(0 = при при 0 К_п + 1, (3.3.32) t > п + 1. Следует обратить внимание на то, что в этой конструк- ции мы разрешаем автоматам выходить из синхронного состояния. Несмотря на это, vn (/)— монотонно возраста- ющая функция времени Hlimvn(0 = 1. t >00 Введем вспомогательные обозначения: е N =х и 2Л—1 — 1/а. Рассмотрим систему неравенств vn (0 = (1 - Х)1/О < 8, V„ (t + 1) = (1 - Х8)1/а >1-8. (3.3.33)
§ 3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 247 Определим область существования решений системы (3.3.33): 1 —х<е“, 1 —х2>(1-е)“, ’ (3.3.34) х2<1-(1-е)“. J ’ Система (3.3.34) эквивалентна системе (3.3.33). При а< 1 /, ._ , (1 — а) « (1 — а) (2 — а) 3 (1 — е)“ = 1 — ае — —— ае2 — *----------- ае3— ... = = 1 — ае — R (е), 7? (в) О, и следовательно, 1 —(1—е)“>ае. Разлагая (1 — 8)“ в ряд Тейлора по степеням а, по- лучаем a2ln2—L a3ln3_L- и (1 — 8“) < a In 1/8 для a <f j-^. Тогда область существования решения системы x>alnl/e, x«C]/ae, а(3.3.35) уже области существования решения системы (3.3.34), и решения системы (3.3.35) являются решениями системы (3.3.34). _На рис. 3.13 приведены функции х=1п Ре и х= J/ае и образованная этими кривыми область су-
248 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ [ГЛ. Ш шествования решения системы (3.3.35). Очевидно, что решение существует только при а<е/1п* 21/е. Отсюда ra>log2 1/е + 21og2 In 1 /е 4-1. (3.3.36) Теперь пусть п = log21/6 4- 2 log2 In 1/6 > log2 1/е + 2 log21/8 + 1, т. e. 6=Ce. Рассмотрим момент времени t = log2 А/ + n. + log2 (In 1/6 + In In 1/6)1). 2 t—n Тогда e N = 6/ln-^- и 2n—1 = -g-(ln-y) и, следова- тельно,vn (?) = fl — 6/ln-|-V .Учитывая малость 1 - -,пг 6/ln-g-, можно считать, что vn(t)^e = 6^е.С дру- гой стороны, v„ (? + 1) = ^1 — 62| (ln-у) js л* «£>-8^1 - 6 >1-8. Таким образом, можно утверждать, что независимо от N для любого сколь угодно малого 8>0 существует такое и0(е), что при любом п>п0(е) в момент времени T(N, п) происходит одновременный переход в синхрон- ное состояние не менее чем (1—2e)/V автоматов, а так как vn(t)—монотонно возрастающая функция времени и vn(/)^l, то этот момент, единственный2). Заметим также, что в силу ограниченности vn(f) при vn(0~*" 1 дисперсия распределения Pn(k) стремится к нулю. На рис. 3.14—3.16 приведены результаты моделиро- вания на ЦВМ синхронизации коллектива автоматов второго типа для 256, 512 и 1024 автоматов соответст- венно. Верхние кривые на рисунках: пунктирная кривая — функция 1 —2б(п), где е(п) вычислена в соответствии ') Естественно, что п и / в действительности должны быть бли- жайшими сверху целыми числами. 2) Как было видно выше, мы еще предполагаем, что 8>1/ДГ.
§ 3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 249 тахД?п Л (maxДуп ) Рис. 3.14. тахДуп D(maxAvn) О 1 3 3 4 5 О 7 д 3 10 11 1Z 13 14 15 п Рис. 3.15.
250СЛУЧАЙНОЕ парное взаимодействие В КОЛЛЕКТИВАХ [ГЛ. III с (3.3.36); сплошная кривая — среднее по 400 эксперт ментам значение maxAvn(0- Нижние кривые на рисун- ках суть среднеквадратичные отклонения maxAvn(0- Правила собственно случайного парного взаимодей- ствия могут быть несколько изменены. Пусть в каждый момент времени каждый автомат получает информацию о номере внутреннего состояния одного случайно вы- бранного автомата, причем, если автомат Д* получил информацию о внутреннем состоянии автомата АЗ, то автомат АЗ получает информацию о внутреннем состоя- нии автомата Д*1)- Тогда, если k автоматов находятся в состоянии с номером /, то вероятность образования связи автомата, находящегося в состоянии с номером i к (* — 1) с автоматом в том же состоянии будет и распре- *) С вероятностью—!- k=i. 2N—I
§3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 251 деление числа связей такого типа будет биномиаль- ным, т. е. Л I k (k ---- 1) r\ У Q.___ k (k 1) Г. (k 1) 1 M2N,k (S) = 2У-Г ’ U2N>h -------2У-1 [! — (27V-1)’ f (3.3.37) Аналогично (3.3.12), - ,, . ~2/n , „2 Vo (0 [1—vo (01 . °o (0 , vo (f + 1) = v0 (/) + Co (0-2W — 1-----1" 2Af—1 2 /.4 V p /А / _ °o(O — xj 7o(k, t 1) — Л-0 4'v 2N -_j_y p (k _____k—\ — lf 2N Iх 2N—1 /’ Jt-0 ' h h /h_i) Учитывая, что ^ТГ 2У (2~У - 1)’ ’ имеем ^2N,h ($) (. k \ (S) / ^2N,k (^)\ 2N v 2W-1J^= 2N V 2^ ) и, следовательно, „2/^^ Vo (0 (1 — -Jo (/)] °о(0 °0 (0 <-----2У7ГТ----+ 2ЛГ=Т ’ v0(^+l)^^(t). Используя прием, аналогичный приему, использован- ному нами при выводе (3.3.15), получаем vo(O-%v?-<vo(i+l)Cv§(0. (3.3.38) В этом способе обмена информацией между автомата- ми для первой конструкции имеем vo(0sg: [v0(l)]2*-1 и условие (3.3.26) является условием е-синхронизации. Обратимся ко второй конструкции. Из правил взаи- модействия и (3.3.38) имеем Ь+1(^ + 1) = />(От,(0 И 7п (0 - [lx (t - п + 1) е~^ ]2,1-1, (3.3.39)
252СЛУЧАЙНОЕ парное ВЗАИМОДЕЙСТВИЕ в КОЛЛЕКТИВАХ [ГЛ. III где Ф(0 = -^Ь.22п->-Чп/,(0 и 1 Из условий 8-синхронизации получаем 1 > 1 Тп а - П + 2) >(1 - 6) 2П-1 e’X'+D.. (3.3.40) Обозначим, как и Bbiuie,v0(f — п4-1)=х и l/2n-i= а.За- метим, что vo(/ — п+2) ^.х2. Тогда, полагая, что 8> Yn(0 Усиливая систему неравенств (3.3.40), по- лучаем x>alnl/e,x2<ae (1 —(3.3.41) Исключая х, получаема ^^Ду-^1 —и окончательно п log21/е 4- 2 log2 In 1/8 — log2 ^1 — -д^-j + 1 • (3.3.42) При этом (3.3.42) отличается от (3.3.36) только членом — logg^l —Аналогичные первой конструкции точ- ные оценки для второй конструкции автоматов при слу- чайном парном разбиении удается построить только при условии Um N& = 0. N->oo В заключение параграфа рассмотрим возможность решения еще одной задачи — задачи о фазировке при случайном парном взаимодействии, которая формулиру- ется следующим образом. Коллектив состоит из N автоматов А\ каждый из которых имеет п состояний, причем без взаимодействия состояния автоматов изменяются циклически, т. е. <pJ'(/4- + 1) — [<РУ(С + Umodn- Пусть, как и выше, vf(/) —мате- матическое ожидание доли автоматов, находящихся в момент времени t в состоянии с номером I. Мы будем говорить, что коллектив автоматов работает синфазно, если для всех i Vi(t) =vi(t+kri), k—\, 2, .... и для каждого i существует /o(i)> Для которого (Zq (t)) == 1.
§3.3] СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 253 Будем говорить, что случайное парное взаимодействие приводит к фазировке коллектива, если для каждого i найдется такое to(i), что lim (f0 (i) + kri) = 1 x). (3.3.43) fc->oo Рассмотрим простейший случай, когда n=2, ф= (0,1). Зададим следующие правила случайного парного взаи- модействия: если в момент времени t автоматы А1 и А* образовали пару и фф), ф*(0—их внутренние состоя- ния, то <р* (/-|-1) =<ps (/+!) = 1 — <рг (0 <PS (0 • (3.3.44) Из (3.3.44) следует, что в состоянии с номером 0 в мо- мент времени /4-1 окажутся только те автоматы, кото- рые в момент времени t находились в состоянии с номе- ром 1 и образовали пару с автоматом, находящимся в состоянии_с номером 1. Пусть v(0—математическое ожидание доли автома- тов, находящихся в момент времени t в состоянии с номером 1. Полагая, что v^l, для любого из рассмот- ренных типов случайного парного взаимодействия V2 (0 - -2^- < 1 - V (' -1- 1) < V* (0 + , (3.3.45) откуда 1 — v2(0 + -2^- Н- 1)> 1 — v2(0 — -glj- (3.3.46) И (1-v2 (0-^r)2--i-<l-v« + 2)< <(1__;2(0 + _^_у + _^_> (3347) Верхнее ограничение в (3.3.47) дает v (f + 2) > 2v2 (0 - v< (!) + + j, (3.3.48) !) Нетрудно видеть, что в силу конструкции автоматов достаточ- но выполнения условия (3.3.43) для любого одного состояния авто- матов.
254 СЛУЧАЙНОЕ ПАРНОЕ ВЗАИМОДЕЙСТВИЕ В КОЛЛЕКТИВАХ (ГЛ. III а нижнее ограничение — - г 1__V2 1 11 V (i 4- 2) = 2v2 (t) - v‘ (0 + ^5- - 4^ - 2^-J. (3.3.49) Заметим, что корнями уравнения х4— 2х2-{-х являют- л 1 -1 + /5 ся хх= 0, х2 = 1, х314 =-у2— ; следовательно, при v(0> —2~1 +M(* + 2)>v(f), а при v(/)<—1 — 62v(f + 2) <v(Z), где 6i и 62 определяются членами порядка в неравен- ствах (3.3.48) и (3.3.49). Таким образом, в зависимости от значения v(/) система фазируется так, что либо lim v (t + 2k) — 1, либо lim v tf 2k) = 0, k->co ' (3.3.50) Величины 6i и 6г, связанные с дисперсией случайно- го парного разбиения, определяют зону «нечувствитель- ности», которая стремится к нулю при УУ->оо. Таким образом, в зависимости от v(0) автоматы фа- зируются либо так, что в состоянии 1 они попадают в четные моменты времени, либо так, что в это состояние они попадают в нечетные моменты времени. Теперь пусть п—2г и пусть не взаимодействующий автомат представляет собой г-разрядиый двоичный счет- чик. Обозначим через (/) == (0,1) значение ьго раз- ряда кода номера состояния /-го автомата, т. е. <рф)_ n—1 = 2zcpi (Z). Обозначим через ф/ (t) число, стоящее в i=0 I младших разрядах кода номера состояния, т. е. ф/ (t) = Z-1 2z(Pi(Z), и зададим следующие правила случайно- го го парного взаимодействия.
§ 3.3 J СИНХРОНИЗАЦИЯ КОЛЛЕКТИВА АВТОМАТОВ 255 Если в момент времени t автоматы Ат и Xs образо- п—1 п—1 вали пару и фя' (t) = 2 ф'" (t) %, ф* (0 = У ф! (<) 21 — их i—О i--0 внутренние состояния, то фГ(Н-1) = [ф"‘(0, если (0 <2‘-1 — 1 или 4’i—1 (О <С 2i-i, ,Ф1 (t + 1) = ф7(С \ЛрЖ если Фг-КО = Фр-1 =2‘-1—1. (3.3.51) (3.3.51) означает, что значение i-ro разряда изменяется только в том случае, если это должно произойти в обоих автоматах в силу логики работы двоичного счетчика. В противном случае значение i-ro разряда сохраняется. Если значение i-ro разряда может быть изменено, то изменение определяется взаимодействием i-x разрядов так, как это было определено для автоматов с двумя состояниями (3.3.44). Таким образом, в коллективе будет происходить «поразрядная» фазировка, так как нетруд- но видеть, что при сфазированных младших разрядах поведение i-ro разряда эквивалентно поведению авто- мата при п=2 и замедленном в 21-1 раз времени. К сожалению, при произвольном п не удалось найти способа фазировки коллектива, относительно которого удалось бы показать условия сходимости.
ГЛАВА IV МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ § 4.1. Модели с двухуровневой организацией Изучение моделей с двухуровневой организацией мы начнем с простейшего примера — организации двухуров- невого коллектива автоматов с разделением задач меж- ду уровнями для поведения в периодической случайной среде. Задача о поведении в периодической случайной среде интересна для нас по следующим соображениям. Выше мы рассматривали поведение автоматов в случайных средах со случайным образом изменяющимися во време- ни характеристиками. Естественно попытаться изучить поведение автоматов в средах с детерминированным законом изменения вероятностных характеристик и вы- яснить, насколько априорное знание закона изменения характеристик среды может быть использовано для по- строения оптимального автомата. Пусть Рш(0—вероятность штрафа за действие fm(t)- Если Pm(t)—монотонные функции времени, то, учитывая, что 0<Zpm(t) <1, задача при /->оо сводится к уже известной задаче о поведении в стационарной слу- чайной среде. Нас будет интересовать поведение в средах с достаточно простым законом изменения характеристик и в то же время позволяющим получить нетривиальное решение. Наиболее простым примером такого закона яв- ляются кусочно-постоянные периодические функции вре- мени. Как мы увидим далее, модель поведения в такой случайной среде допускает интересную содержательную интерпретацию, связанную с распознаванием периоди- ческого сигнала в канале с шумами. Необходимость та- кого распознавания возникает, например, в задаче син- хронизации коммутирующих и декоммутирующих устройств систем телеметрической передачи информации с временным разделением каналов.
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 257 Мы будем говорить, что автомат находится в перио- дической случайной среде П (Ci, С2,..., Ст), где Ct= ==Ct(ait, ct2t,...» ctkt), с периодом Г, если действия авто- мата и реакции среды связаны следующим образом: дей- ствие автомата 2,..., k), произведенное авто- матом в момент времени /, влечет за собой в момент времени /+1 значение S = —1 (штраф) с вероятностью pmt= (1— amt)l2 и S= + l (выигрыш) с вероятностью qmt= (l+awJ/2; при этом предполагается, что = amt. Таким образом, периодическая случайная среда представляет собой периодическую последовательность стационарных случайных сред. Нетрудно видеть, что математическое ожидание выиг- рыша для любого автомата, функционирующего в перио- дической случайной среде, заключено между Almin = -v min(av, 02/, - • ам) 1 r-l и 1 п Almax = V" S max («1/, ...» akt). 1 t=i (4.1.1) Очевидно, что математическое ожидание выигрыша любого автомата, принадлежащего асимптотически-опти- мальной для стационарных случайных сред последова- тельности, будет далеко от Л1тах. Действительно, пусть k = 2 и в течение первой половины периода более выгод- ным является первое действие, а в течение второй поло- вины— второе. Тогда поведение автомата в такой перио- дической случайной среде с достаточной степенью точ- ности (по результатам) совпадает с поведением в про- стой переключаемой случайной среде с вероятностью переключения б = 2Г. Если номера выгодных действий переключаются на периоде более одного раза, то соот- ветственно возрастает эквивалентная частота переклю- чений. Отличие периодической случайной среды от пе- реключаемой заключается в том, что в первом случае длины стационарных участков постоянны, а во втором распределены по показательному закону. Наличие ин- формации о характере (законе) изменения параметров среды позволяет организовать совместное оптимальное поведение группы автоматов.
258 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV памяти будет добиваться в эти большего выигрыша. Из этих конструкция, приведенная на pi fixed Рис. 4.1. Вначале рассмотрим случай, когда период среды из- вестен. Тогда, если мы будем рассматривать автомат, ко- торый включен только лишь в моменты времени /, t + T, /+2Т, /-}-ЗТ,..., то такой автомат будет функциониро- вать в стационарной случайной среде Ct и, следователь- но, любой автомат, принадлежащий асимптотически-оп- тимальной последовательности, при достаточной емкости моменты времени наи- соображений вытекает с. 4.1. Автомат состоит из Т асимптотически- оптимальных в стацио- нарной случайной сре- де автоматов (напри- мер, автоматов с линей- ной тактикой) и двух циклических коммута- торов с периодом ком- мутации, равным Т. Первый коммутатор ци- клически подключает выходы автоматов к выходу всего устройст- ва, второй коммутатор циклически подключает вход устройства ко входам ав- томатов. Порядок подключения автоматов к первому и второму коммутаторам одинаков. Коммутаторы работа- ют синхронно в ритме дискретного времени среды и вто- рой коммутатор отстает от первого на один такт, так что в момент времени входной сигнал (штраф или вы- игрыш) подается на вход того автомата, выход которого в момент времени t был подключен к выходу устройства. Таким образом, если период среды совпадает с перио- дом работы коммутатора или период работы коммутато- ра кратен периоду среды, то каждый автомат функцио- нирует в одной и той же стационарной случайной среде. При этом предполагается, что в те моменты, когда вход автомата не подключен ко входу устройства, его внут- реннее состояние и действие не изменяются. Тогда при достаточной емкости памяти входящих в устрой- ство автоматов математическоё ожидание выигрыша для каждого автомата сколь угодно мало отличается от
§ 4.11 МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 259 max (ап, a2t, ..akt), т. е. математическое ожидание вы- игрыша для всей конструкции сколь угодно мало отли- чается от Almax и, следовательно, устройство на рис. 4.1 обладает в периодических случайных средах с известным периодом асимптотически-оптимальнЫхМ поведением. При использовании автоматов с линейной тактикой для асимптотической оптимальности необходимо еще пред- положить, что max (аи, a2t, ...» ^0^0 для всех t. Теперь перейдем к решению задачи о поведении в пе- риодической случайной среде при неизвестном периоде. Потребуем, однако, чтобы нам была известна верхняя граница возможных периодов Гтах. Заметим, что для большинства практических задач последнее ограничение не является чрезмерным. На основании конструкции, асимптотически-оптимальной в средах с известным пе- риодом, может быть предложена конструкция, асимптоти- чески-оптимальная и в этом случае. Для этого достаточ- но в конструкции, приведенной на рис. 4.1, сделать пе- риод коммутации равным наименьшему общему кратно- му чисел от 1 до Ттах. Тогда любой возможный период среды будет делителем периода коммутации. Такое ре- шение, хотя и возможно, но неэкономично (уже для Ттах = 12 наименьшее общее кратное возможных перио- дов равно 27720). Заведомо существует конструкция авто- мата, имеющего период коммутации Тшах и определяюще- го оптимальный режим перебором всех возможных перио- дов коммутации от 1 до 7'тах. Такой перебор можно осу- ществить, например, автоматом с линейной тактикой, имеющим Гщах действий, для которых математическое ожидание выигрыша определяется средним выигрышем, полученным устройством с периодом коммутации, опре- деляемым действием этого автомата. Использование автомата с линейной тактикой для определения истинного значения периода среды пред- ставляется неудовлетворительным, так как хотя такая конструкция и является асимптотически-оптимальной, но обладает очень большим временем установления. На рис. 4.2 приведена зависимость среднего выигры- ша конструкции, изображенной на рис. 4.1, от периода коммутации при периоде среды, равном 12. Среда имеет следующие параметры: П = П (Сь Сь Сь Со, С2, Сь С2, с1( С2, Сь С2, С2), где С, = С! ( + 1/3, —1/3) и
260 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV С2=С2 (— 1/3, +1/3). Емкость памяти входящих в кон- струкцию автоматов с линейной тактикой равна 6. Вид кривой на рис. 4.2 наводит на мысль использо- вать для решения задачи определения периода среды конструкцию игры Гура. Действительно, математическое ожидание выигрыша для конструкции на рис. 4.1 зави- сит от периода коммутации, т. е. от числа участвующих М 0,2 0,7 0,3 - О Z 4 О В 70 72 74 76 78 20 22 24 7 Рис. 4.2. в функционировании автоматов; правда, при этом нам следует учесть еще и то обстоятельство, что величина выигрыша зависит не только от правильного выбора пе- риода, но и от правильного выбора действия каждым автоматом. Рассмотрим конструкцию, приведенную на рис. 4.3. Эта конструкция отличается от конструкции на рис. 4.1 наличием дополнительных автоматов В, по одному на каждую позицию коммутатора. Число позиций коммута- тора равно Гтах. Автоматы В являются автоматами с ли- нейной тактикой с двумя действиями 1 и 2. Коммутато- ры могут останавливаться только на тех позициях, которым соответствуют автоматы В, производящие дей- ствие 1. Таким образом, период работы коммутатора ра- вен числу автоматов В, производящих действие 1. После каждого полного оборота коммутатора автоматы В штра- фуются с вероятностью, равной средней доле штрафов, полученных работавшими в этом периоде автоматами А. Автоматы В штрафуются одинаково, независимо от то-
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 261 го, какое действие производит каждый из автоматов, и математическое ожидание выигрыша для каждого авто- мата В равно среднему за период работы коммутатора выигрышу автоматов А. Таким образом, поведение авто- матов В имеет много общего с поведением автоматов в Рис. 4.3. игре Гура. Заметим, что автоматы В играют в игру с «общей кассой» и, следовательно, игра автоматов В является игрой Мора. В нашем случае ситуация несколь- ко усложняется из-за того, что математическое ожидание выигрыша автоматов В зависит от поведения автома- тов А. Нам не удалось построить удовлетворительного аналитического описания поведения такой конструкции, и ниже приводятся результаты экспериментов. В проводившихся экспериментах периодическая слу- чайная среда представляла собой периодическую после- довательность двух стационарных случайных сред: С\ — = С\(а^ —£]) и С2 = С2(—а2, а2). В этом случае перио- дическая среда может быть задана Г-разрядным двоич- ным кодом, в котором цифры 1 и 0 соответствуют первой и второй стационарным случайным средам и Т — период среды, и двумя параметрами, а\ и а2. Результаты экспе-
262 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ IV риментов приведены в таблице 4.1.1. В этой таблице п — емкость памяти автоматов (для автоматов А и В одинаковая), Гтах —число пар автоматов, участвовавших в работе, Т — действительный период среды, т — дли- тельность переходного периода в периодах среды, М— средний выигрыш устройства на один такт, вычисленный Таблица 4.1.1 №№ г» Г max Т 6/2 м - Код 1 10 10 5 0,75 0,75 0,75 170 00011 2 10 10 7 0,75 0,75 0,75 147 0000111 3 10 20 6 0,75 0,75 0,75 210 001111 4 10 24 12 0,75 0,75 0,75 203 001101110000 5 10 24 11 0,75 0,75 0,75 208 00110111000 6 15 24 8 0,75 0,75 0,75 263 00110111 7 15 24 12 0,75 0,75 0,75 175 001101110000 8 15 10 5 0,75 0,75 0,75 200 00011 9 15 10 7 0,75 0,75 0,75 144 0000111 10 15 20 11 0,75 0,75 0,75 228 00110111000 11 15 24 12 0,75 0,75 0,75 192 00110111000С 12 15 24 6 0,75 0,75 0,75 250 001111 13 10 20 / 0,75 0,75 0,75 171 0001111 14 10 20 7 0,50 0,50 0,50 262 0001111 15 10 30 10 1/3 1/3 0,333 250 0000001111 16 10 30 10 0,75 0,50 0,65 320 0000001111 17 10 30 10 1/3 0,75 0,50 375 0000001111 18 10 30 10 0,50 1/3 0,434 382 0000001111 за период от окончания переходного режима до конца эксперимента. Для определения устойчивости работы устройства все эксперименты длились не менее 50 000 так- тов. Устойчивость работы оценивалась средним выигры- шем с точностью до третьего знака. При этом, как видно из приведенных в таблице 4.1.1 значений Л4, по такому критерию устройство работало устойчиво. Очевидно так- же, что этот критерий не обнаруживает случайных корот- ких выпадений из устойчивого режима. Из таблицы 4.1.1 видно, что длительность переходно- го режима была весьма короткой п не превышала ни в одном из экспериментов 400 периодов среды. Такие не- большие длительности переходного режима явились для нас полной неожиданностью, хотя этому факту может
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 263 быть дано вполне правдоподобное объяснение. Дело в том, что в большинстве экспериментов действительный период Т был близок к 0,5 Tm.ix, т. е. к точке, наиболее благоприятной для скорейшего выхода на стационарное распределение автоматов в игре Гура. Этот факт не сни- жает общности полученных экспериментальных резуль- татов. Действительно, например, в третьем эксперименте для случаев Гтах=20 и Г=6 автоматы В имеют одина- ковое математическое ожидание выигрыша при периодах коммутации 6, 12, 18 и период коммутации 12 наиболее бЛИЗОК К 0,5 Гщах. Заметим, что если коммутатор имеет 2 Гтах позиций, то можно ограничиться изменением периода коммутации _ 1 в интервале Тmax ±-у Ттах,т. е. величинами, достаточно близкими к середине интервала изменения числа авто- матов В, производящих действие 1. В экспериментах 6, 15—18 т. е. исследуются случаи максималь- ных уклонений от -у-ТпПх* С другой стороны, на ускорении сходимости сказался способ выбора начальных внутренних состояний автома- тов с линейной тактикой (эти состояния в начале экспе- римента выбирались для всех автоматов на границе сме- ны действия). Начальное распределение автоматов по действиям задавалось датчиком случайных чисел. На основании проведенных экспериментов можно утверждать, что с достаточно большой вероятностью конструкция, приведенная на рис. 4.3, обладает асимпто- тически-оптимальным поведением в периодических слу- чайных средах с периодом, не превышающим Ттах. Обратим внимание на организацию поведения авто- матов в этой задаче. Задача о поведении в периодиче- ской случайной среде решается коллективом автоматов, образующих группы двух уровней. На первом уровне (автоматы А) каждый автомат решает задачу о выборе действия в моменты времени, когда он включен в рабо- ту. Поведение каждого автомата А в некотором смысле независимо от поведения других автоматов А. На втором уровне (автоматы В) решается задача управления рабо- той автоматов первого уровня: выходной сигнал автомата
264 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV В определяет, работает ли «подчиненный» ему авто- мат А или нет. При этом автоматы В работают с «общей кассой» т. е. обладают «общностью интересов». В отли- чие от моделей предыдущих глав, здесь мы имеем кол- лектив автоматов с фиксированной структурой, разделе- нием функций (автоматы А решают локальные задачи, автоматы В управляют совместным поведением автома- тов 4) и простейшим обменом сигналами между авто- матами (выходной сигнал автомата В является входным сигналом для автомата 4). Рассмотрим содержательную интерпретацию задачи о поведении автоматов в периодических случайных сре- дах. К этой задаче сводится задача распознавания (вос- становления) периодического сигнала, передаваемого по каналу с шумами. Действительно, если на приемнике вос- станавливается сигнал и сравнивается с сигналом, пере- даваемым по каналу связи, то использование несовпаде- ния восстановленного сигнала с принятым в качестве сигнала штрафа делает задачу о восстановлении сигнала полностью эквивалентной задаче о поведении в перио- дической случайной среде. При этом вероятность штра- фа за правильное значение восстановленного сигнала равна вероятности ошибки при приеме. Примером ситуа- ции, требующей восстановления периодического сигна- ла, является задача синхронизации коммутирующих и декоммутирующих устройств системы передачи теле- метрической информации с временным разделением каналов. Задача синхронизации коммутирующих и декоммути- рующих схем системы передачи телеметрической инфор- мации с временным разделением каналов при наличии помех в канале связи формулируется следующим обра- зом. Находящееся на передатчике коммутирующее уст- ройство в соответствии с некоторой программой после- довательно опрашивает датчики телеметрической инфор- мации и так же последовательно передает данные об их состоянии в канал связи. Находящееся иа приемнике де- коммутирующее устройство должно выделить и иденти- фицировать сигналы от различных датчиков. Таким об- разом, декоммутатор должен синхронно и синфазно вы- полнять ту же самую последовательность действий, кото- рую периодически выполняет коммутатор.
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 265 Особое значение задача синхронизации коммутатора и декоммутатора приобретает в случае, когда данные, принятые приемником, должны быть использованы для формирования команд оперативного управления объек- том, несущим датчики телеметрической информации. Синхронизация коммутатора и декоммутатора включает в себя задачу о синхронизации логических цепей прием- ного устройства с соответствующими цепями переда- ющего устройства для правильной дешифровки принятой информации. Мы будем считать, что для входа в синхронный ре- жим передатчик в начале работы (а возможно, и в про- цессе передачи информации) передает на приемник сигнал настройки (синхронизующий сигнал), представляющий собой ДВОИЧНЫЙ КОД Ку длиной п двоичных разря- дов. Время, в течение которого к каналу связи подклю- чен один датчик информации, соответствует длине одной разрядной посылки синхронизирующего кода (времени, в течение которого передается значение одного разряда кода /<), и момент переключения датчиков соответству- ет моменту смены разрядных посылок. Мы предполага- ем, что логические цепи приемника и передатчика рабо- тают в некотором дискретном масштабе времени и име- ют одинаковый эталон времени, определяющий длину одной разрядной посылки. Получение такого эталона естественно связать с синхронизацией по несущей часто- те. При этом мы, естественно, понимаем, что за время, соответствующее одной разрядной посылке синхронизи- рующего кода, по каналу связи в рабочем режиме дол- жен быть передан код, соответствующий состоянию оп- рашиваемого датчика, так что длина разрядной посыл- ки синхронизирующего кода выражается в числах раз- рядов информационного кода (слова). Могут быть выделены две задачи: 1) синхронизация по моменту смены разрядных по- сылок (пословная синхронизация), т. е. синхронизация по моменту переключения каналов; 2) синхронное и синфазное восстановление синхрони- зирующего сигнала (кадровая синхронизация). Для решения первой задачи за единицу времени мо- жет быть выбран период несущей частоты или несколько периодов в зависимости от требуемой точности определе-
266 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV пня момента смены разрядных посылок. При решении второй задачи за единицу времени естественно принять длину разрядной посылки, которая либо известна, на- пример, в числах периодов несущей частоты, либо опре- деляется при нахождении момента смены разрядных по- сылок. Так как в канале связи действуют шумы, то вход- ной сигнал принимается с ошибками. Будем считать, что ошибки в каждый момент времени независимы и вероятность неправильного приема сигнала равна р, причем р Для исключения ряда дополнительных трудностей мы будем рассматривать синхронизирующие коды длиной 2п разрядов. Сначала рассмотрим задачу синхронизации по моменту смены разрядных посылок. Пусть вероят- ность неправильного приема значения синхронизирующе- го сигнала на интервале времени, равном одному такту времени для задачи об определении момента переключе- ния, имеет значение р{. Потребуем, чтобы Лч — сумма единиц, стоящих на четных позициях кода /<, была мень- ше, чем 0,5и, а Лп — сумма единиц, стоящих на нечетных позициях кода /С, была больше, чем 0,5лн Тогда на при- емнике синхронизирующий сигнал можно рассматривать как периодическую случайную последовательность с пе- риодом, равным длине двух разрядных посылок, такую, что в течение четных разрядных посылок вероятность единицы в этой последовательности равна (1-2/л) + а в течение нечетных разрядных посылок вероятность единицы в этой последовательности равна 4^(1-2/’0ТР1>1/2. Пусть, например, задан синхронизирующий код 1110101010 (п=5); тогда вероятность единицы на чет ных позициях равна (l+3pi)/5 и вероятность единицы на нечетных позициях равна 1—р{ (Лч = 1, Лп = 5). Таким образом, задача о синхронизации но моменту смены разрядных посылок легко интерпретируется как задача поведения в периодической случайной среде. Оче-
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 267 видно, что в случае использования описанных выше кон- струкций возникающая корреляция не искажает резуль- татов, полученных в предположении о бернуллиевском характере последовательности. Эквивалентность второй задачи задаче о поведении в периодической случайной среде очевидна. Существенной особенностью работы схемы в виде, приведенном па рис. 4.3, является ее высокая надеж- ность: в случае выхода из строя одного или нескольких автоматов А автоматы В выключают их из работы. В случае выхода из строя одного или нескольких авто- матов В остальные автоматы В подстраиваются к изме- нившимся условиям. В качестве следующего примера рассмотрим модель системы массового обслуживания с отказами, на вход которой поступает поток из А1 разнородных заявок С[ (i = l, 2,..., А4), причем в каждый момент времени на вход системы может поступить только одна заявка и заявка Сг- поступает с вероятностью pi. В системе име- ется N мест обслуживания (обслуживающих устройств) и N<M. Рассмотрим соответствующую автоматную модель. Пусть имеется множество из стационарных слу- чайных сред Ci(alt а'2, ..., а'А' (i= 1, 2,..., М) и сис- тема из Af автоматов RJ (/=1, 2,. . ., N). В каждый мо- мент времени /=1, 2, .. . с вероятностью pi систе- ма функционирует в стационарной случайной среде 1 j. Автомат Rj имеет A?(A4-}-l) действий, каж- дое из,которых представляет собой набор двух чисел: числа fl —номера действия в стационарной случайной среде и числа — номера стационарной случайной сре- ды, в которой функционирует автомат 7?(метки автома- та/?^). Если Ц =0, то автомат не реагирует наномер стационарной случайной среды и функционирует в случай- ной смеси стационарных случайных сред как в одной слу- чайной среде. Автомат, имеющий метку 0, включается в юм случае, если для данной стационарной случайной среды ист автомата с соответствующей меткой. Если автомат/?; имеет выходной сигнал ^ =/, то он вклю- чается в работу только при появлении стационарной
268 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV случайной среды Сг-. В этом случае мы будем говорить, что автомат настроен на метку /. Пусть в момент времени t система функционирует в среде Ci. Если к среде Сг- подключается какой-нибудь автомат R\ то он выполняет действие, получает выигрыш или проигрыш и изменяет внутреннее состояние в соот- ветствии со своей функцией переходов. Если же ни один автомат к среде не подключен, то действия 1, 2,..k выбираются системой равновероятно. Выигрыш или проигрыш, полученный от среды, в обоих случаях считается выигрышем или проигрышем всей системы. Задача состоит в том, чтобы, не располагая априорной информацией о стационарных случайных средах и ве- роятностях их появления, организовать поведение систе- мы так, чтобы максимизировать математическое ожида- ние выигрыша. Пусть метки автоматов фиксированы, и автомат Rj (/=1, 2,..., W) имеет метку —I. Если автоматы Ri принадлежат асимптотически-оптимальной последо- вательности, то математическое ожидание выигрыша си- стемы в этом случае равно N—1 м М~ V A max -h max V pjaJm, т — 1, 2,. . ., k. (4.1.2) ;--l tn m j—N Если в коллективе нет автомата с меткой 0, т. о. - /, то математическое ожидание выигрыша равно N . М = pjmaxain V р, — т 1 (4.1.3) Каждый автомат должен, вообще говоря, решать две задачи: задачу о выборе наилучшего действия в ста- ционарной случайной среде при фиксированной метке и задачу о выборе стационарной случайной среды, т. е. о выборе метки. Для решения этих двух задач естест- венно представить каждый автомат Ri в виде пары ав- томатов (ДЗ, Bi), причем выходами автоматов Ai яв- ляются номера действий, а выходами автоматов Bi — номера сред (метки). Аналогично предыдущему случаю
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 269 естественно считать, что автоматы второго уровня (ав- томаты В) играют в симметрическую игру с «общей кассой», т. е. в игру Гура. При этом естественно пред- положить, что при достаточной емкости памяти автома- тов А и В автоматы А выходят на оптимальное для данной метки действие, а автоматы В выходят на точку Мора, т. е. реализуют оптимальный набор меток. Рассмотрим организацию работы системы. Каждый автомат № состоит из пары автоматов (А^, Вз), име- ющих по п внутренних состояний. Выходным сигналом автомата А* является /а, а автомата Bj — . В каж- дый момент времени на входе системы появляется ста- ционарная случайная среда С(/)=Сг*. Вероятность по- явления среды Ci равна рг*. Если в системе имеется автомат В\ у которого £? — i, то в этот момент времени в среде функционирует автомат А1, т. е. автомат А1 вы- 1 -\-а1 игрывает с вероятностью —!__* и проигрывает с веро- ятностью где а — выходной сигнал автомата А1. В остальные моменты времени состояние автомата А1 не изменяется. Если в коллективе нет автомата В1 с меткой i, но есть автомат Bs с меткой ?з=0, то в работу вклю- чается автомат As. Если же в коллективе нет автоматов Вз с метками 0 или i, то выбор действия производится ша равна ___-____Автоматы Bi штрафуются (поощ- ряются) раз в т тактов с вероятностью, равной средне- му за т тактов проигрышу (выигрышу) автоматов Aj, причем эта вероятность одинакова для всех автома- ту-? т - V (/) тов Bi и равна----, где — момент предыдущего включения автоматов Вл Таким образом, через каждые т тактов производится оценка качества выбора меток и изменение настройки на метки; в интервале Г, Г+т ав- томаты Bj не изменяют свои внутренние состояния. В случае смены действия автоматы Aj выбирают новые
270 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV действия равновероятно, а автоматы В>— равновероят- но среди неиспользованных меток, так как в силу поста- новки задачи назначение одинаковых меток двум авто- матам лишено смысла ’). Приведем результаты моделирования на ЦВМ не- скольких примеров. Пример 1. Ci= (0,9; 0), С2=(—0,9; 0,9); среды по- являются с вероятностью 0,5. В игре участвует один автомат R с емкостью памяти автоматов А и В п = 5, т=20. Математические ожидания выигрыша автомата R для случаев нулевой, первой и второй меток соответст- венно следующие: Мо=О,45, Mi = 0,45, М2=0,675. Ре- зультаты моделирования приведены для случая |=1, 2 в таблице 4.1.2 и для случая £=0, 1, 2,— в таблице 4.1.3. Из этих таблиц видно, что в обоих случаях автомат после двух тысяч тактов устойчиво стоит на метке 2. Таблица 4.1.2 Число тактов 200 1000 2000 3000 4000 Средний выигрыш М 0,44 0,67 0,69 0,66 0,67 Общее число тактов на метке 1 200 540 540 540 540 Общее число тактов на метке 2 0 460 1460 2460 3460 Пример 2. С равной вероятностью 0,2 появляется одна из пяти сред: Ci=(0,2; —0,6), С2=(—0,9; 0,9), С3= (—0,5; 0,5), С4=(—0,3; 0,3) и С5=(—0,3; 0,3). Коллектив состоит из двух автоматов /?1 и /?2. Математические ожидания выигрыша для разных пар меток приведены в таблице 4.1.4. Нетрудно видеть, что в первой среде наиболее выгодным является действие 1, а во всех остальных — действие 2, следовательно, как это и видно из таблицы 4.1.4, наилучшей является на- 9 Этим игра автоматов второго уровня отличается от игры Гура.
§ 4.1] МОДЕЛИ С ДВУХУРОВНЕВОЙ ОРГАНИЗАЦИЕЙ 271 Таблица 4.1.3 Число тактов 200 1000 2000 3000 4000 5000 6000 Средний выигрыш 0,44 0,45 0,66 0,67 0,67 0,69 0,66 Общее число так- тов на метке 0 0 490 1200 1200 1200 1200 1200 Общее число так- тов на метке 1 200 510 560 560 560 560 560 Общее число так- тов на метке 2 0 0 240 1240 2240 3240 4240 стройка одного автомата на метку 0, а другого — на метку 1. Обратимся к результатам моделирования. Память автоматов Aj (/=1, 2) была равна пяти. В таблице 4.1.5 приведены распределения автоматов по средам при раз- личных значениях емкости памяти автоматов к мо- менту 10000 интервалов т в процентах к общему числу интервалов. Из таблицы 4.1.5 видно, что при пв = 10 до- статочно четко выбирается комбинация меток 0,1. Ди- намика выбора хорошо видна из таблицы 4.1.6 (пв=10, т=40). Из этой таблицы следует, что автомат >52 после Таблица 4.1.4 Метки 0,1 0,2 0,3 0,4 0,5 1,2 1,3 1,4 Математическое ожидание выиг- рыша 0,44 0,28 0.28 0,28 0,28 0,22 0,14 0,1 Метки 1,5 2,3 2,4 2,5 3,4 3,5 4,5 Математическое ожидание выиг- рыша 0,1 0,24 0,2 0,2 0,12 0,12 0,0<
272 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Таблица 4.1.5 "в м Распределение автоматов Bi по действиям В1 ва 0I1I2I3I4I5 0 11 1 2 1 з I 1 4 5 5 10 0,2 I 34 18 13 12 17 6 0,42 | 0 85 4 0 6 5 17 93 31 0 24 0 10 0 10 0 8 7 1 000 интервалов устойчив на метке 0, а автомат В1 ус- тойчив на метке 1 после 2000 интервалов, и после 2000 интервалов автоматы устойчиво выбирают комбинацию меток 0,1. Таблица 4.1.G Число ин- тервалов х м В1 В2 0 1 2 3 4 5 0 1 2 3 4 5 1000 0,14 0 16 40 0 44 0 28 0 0 0 0 72 2000 0,30 0 24 20 0 32 24 24 0 0 0 0 36 4000 0,42 0 62 10 0 16 12 82 0 0 0 0 18 8000 0,42 0 81 5 0 8 6 91 0 0 0 0 9 12000 0,42 0 87,4 3,3 0 5,2 4,1 94 0 0 0 0 6 Характерной особенностью последней модели, как и предыдущей (поведение в периодической случайной сре- де), является разделение задачи между двумя ярусами автоматов: автоматы первого яруса решают задачу по- ведения в стационарной случайной среде, автоматы вто- рого яруса объединены «общностью интересов» и реша- ют задачу «распределения работ» между автоматами первого яруса. § 4.2. Коллективное поведение в системе массового обслуживания с ожиданием В этом параграфе мы начнем изучение моделей кол- лективного поведения автоматов, которые плохо форму- лируются на языке теории игр, имея, между тем, про- зрачные содержательные формулировки на языке пове-
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 273 дения как такового. В задаче, которая здесь будет рассматриваться, нам известен критерий целесообраз- ности поведения коллектива автоматов, и нас будет ин- тересовать возможность организации локального пове- дения каждого автомата, обеспечивающей целесообраз- ное поведение всего коллектива. Рассмотрим систему массового обслуживания, состо- ящую из N мест обслуживания, которые мы будем на- зывать каналами обслуживания или просто каналами. На систему обслуживания поступает k потоков заявок на обслуживание от k различных абонентов. Как обычно в теории массового обслуживания, мы будем предпола- гать, что интервалы времени между двумя заявками на обслуживание, поступающими от одного абонента, распределены по показательному закону и последейст- вие отсутствует, т. е. поток заявок от каждого абонента представляет собой пуассоновский поток с интенсивно- стью Хг-. Будем также предполагать, что время обслужи- вания f-й заявки (заявки от i-ro абонента) не зависит от того, каким каналом заявка принята на обслужива- ние, и это время распределено по показательному закону со средним временем обслуживания xj. Система массо- вого обслуживания, которую мы будем здесь рассматри- вать, является системой массового обслуживания с ожи- данием н неограниченной очередью. Это означает, что если в момент поступления очередной заявки нет сво- бодных каналов, то заявка ожидает освобождения канала. Ожидающие заявки образуют очередь, и ни одна заявка не покидает очереди, не будучи обслу- женной. Качество функционирования такой системы можно оценивать по средней длине очереди или по связанному с ней среднему времени ожидания. Среднее время ожи- дания зависит от дисциплины очереди. Мы будем гово- рить, что система управления очередью не обладает це- лесообразным поведением, если среднее время ожидания равно среднему времени ожидания при дисциплине «первым пришел — первым обслужен». Анализ систем массового обслуживания с ожиданием и неограниченной очередью показывает, что среднее время ожидания (средняя длина очереди) может быть уменьшено введе- нием системы приоритетов; при этом самый высокий
274 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ 1ГЛ. IV номер срочности обслуживания должен быть присвоен заявкам с наиболее коротким средним временем обслу- живания. Организация системы приоритетов требует знания вероятностных характеристик входных потоков. В ряде практически важных случаев вероятностные ха- рактеристики входных потоков априорно неизвестны или изменяются во времени. Рассмотрим систему массового обслуживания, в ко- торой приоритеты вырабатываются непосредственно на каналах без априорного знания вероятностных характе- ристик входных потоков. В этом случае для увеличения целесообразности поведения каждый канал в ходе ра- боты выбирает абонента, заявки которого он обслужи- вает без очереди. Из теории массового обслуживания следует, что такими абонентами должны быть абоненты с наименьшими средними временами обслуживания, а при близких средних временах обслуживания — с наи- большими плотностями потоков. Для того чтобы осуществлялся указанный выбор, надо, очевидно, чтобы обслуживание заявок абонентов с короткими средними временами было бы наиболее «выгодным» для каналов. Такой эффект может быть достигнут, если в системе назначить единую «плату» за обслуживание заявки, не зависящую от времени обслу- живания. Если такая единая «плата» равна стоимости среднего по всей системе времени обслуживания, то або- ненты, имеющие среднее время обслуживания меньше среднего по системе, окажутся «доходными» для кана- лов, а остальные — «убыточными». При этом степень «доходности» абонента определяется не только его «до- ходностью» при единичном обслуживании, но и плот- ностью. потока его заявок. На этих содержательных соображениях основана организация коллективного поведения автоматов для выработки системы прио- ритетов. Каждому каналу поставлена в соответствие пара ав- томатов А° и Ар, называемых соответственно основным и резервным. Эти автоматы идентичны по конструкции. Как и в § 1.1, мы будем считать, что каждый из них состоит из автомата памяти и автомата действия (рис. 1.4). Автомат памяти имеет п состояний, граф сме- ны состояний приведен на рис. 4.4.
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 275 Входной сигнал S=+l в момент поступления заявки на канал при включенном автомате, S= — 1 в процессе обслуживания заявки при включенном автомате, 5 = 0, если автомат выключен. Число состояний, на которое сдвигается отображающая точка на графе при 5= + 1, равно Тер—средней длительности обслуживания в си- стеме. Смена действия происходит, когда автомат па- мяти находится в первом состоянии (на рис. 4.4 это 1 Z 3 4 5 S п-Z п-1 п S-1 г 9 9 9 9 ©•••© 9 9 1 Z 3 4 5 6 п-г П-1 п Д—-! Q&*—о*—о*—о*—о*—О*---*—О*—о-—о 1 Z 3 4 Б Б n-z п-1 п Рис. 4.4. состояние зачернено). Автомат действия имеет k состоя- ний и в момент смены состояния фиксирует номер або- нента, заявка которого поступила в этот момент вре- мени на обслуживание. Действия основного и резервно- го автоматов являются приоритетными номерами, т. е. абонент, номер которого совпадает с действием основно- го или резервного автомата некоторого канала, поступа- ет на обслуживание в этот канал без очереди. При этом действие основного автомата дает первый номер сроч- ности, действие резервного — второй. Работа системы организована следующим образом. Если на обслуживание поступила заявка от абонента, номер которого соответствует действию основного ав- томата, то включается основной автомат, если резерв- ного, то — резервный. Если на обслуживание поступила заявка от абонента, не имеющего приоритета по этому каналу, то автомат памяти резервного автомата сбра- сывается в первое состояние и включается резервный автомат.
276 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV На рис. 4.4 видно, что номер состояния автомата па- мяти работавшего автомата равен разности между дли- тельностью обслуживания и средним временем обслу- живания в системе. Для того чтобы каналы могли закрепить за собой наиболее выгодных абонентов, пре- дусматривается возможность конкуренции между або- нентами. С этой целью каждый раз после окончания обслуживания очередной заявки в канале производится сравнение номеров состояний автоматов памяти основ- ного и резервного автоматов. В следующий момент вре- мени основным назначается автомат с наибольшим но- мером внутреннего состояния. Если при поступлении заявок на обслуживание име- ется несколько свободных каналов и ни по одному из них заявка не имеет приоритетного номера, то она по- ступает на обслуживание в канал, имеющий наимень- ший номер состояния резервного автомата. Если в качестве системы массового обслуживания рассматривать систему телефонной связи, то закрепление каналов за некоторой частью абонентов улучшает еще одну характеристику качества функционирования систе- мы— число переключений. (Мы будем говорить, что пе- реключения в системе не произошло, если два раза подряд в канале обслуживались заявки одного и того же абонента.) Переключения такого рода вносят су- щественные помехи и сильно снижают качество слыши- мости, особенно в системах с уплотненными каналами. Если вероятностные характеристики потоков заявок от абонентов постоянны, то условия работы автоматов близки, в некотором смысле, к игре в размещения. По- этому, если память автоматов выбрать достаточно боль- шой, можно предположить, что приоритеты для абонен- тов с малыми длительностями обслуживания будут назначаться так, как будто средние длительности обслу- живания были известны заранее. Очевидные аналити- ческие трудности исследования поведения такой системы оправдывают экспериментальный подход к ее изучению. Сначала рассмотрим элементарный пример. Пусть у нас имеется одноканальная система массового обслужи- вания с двумя абонентами. Плотности потоков заявок от абонентов одинаковы и равны Xi=X2=l/16. Средние времена обслуживания для заявок первого и второго
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 277 абонентов соответственно равны tj = 12 мин, т2=2 мин. Для дисциплины ожидания «первым пришел — первым обслужен» при заданных параметрах системы среднее время ожидания равно 50 мин. При назначении приори- тета второму потоку заявок среднее время ожидания уменьшается до 31 мин. Использование автоматов для этого примера дало в эксперименте на ЦВМ среднее время ожидания также равным 31 мин. На ЦВМ была проведена серия экспериментов, в ко- торых исследовалось поведение коллектива автоматов при различных соотношениях плотностей потоков и сред- них времен обслуживания заявок. Параметры систем Таблица 4.2. i № N k 1 T. 1 1 2 4 Ki = 1/16 (1 4); T1 = r2 = 2; т3 = T4 == 12; 2 4 4 Xi = ?.2 =: 3/16; Ti = 2; t2 = 12; А:( = /.„ = 1/16 т3 = t4 = 7 3 4 4 Л: = 1/3 (1<|< 4) Ti = t2 = 2; t3 = T4 = 12; 4 4 6 Ki = 1/20 (1 1 5); %i = 12 (1 i ^5); As = 1/4 t6 = 2 5 4 7 Ki = 1/20 (1 sS i 5) ; Tz = 7 (1 C i ^5); Kq = K7 = 1 /8 Тб = t7 = 2 6 4 8 Ki = 1/16 (1 i 8); T: == 7 (1 ' ^6); т7 = 2; t8 = 12 7 4 16 Ki = 1/16 (1 C i <4); Ti = t2 = 2; t3 = t4 = 12; Kj = 1/48 (5 C i 16); Tz = 7 (5^i^l6); 8 8 16 Ki = 1/16 (1 c i c 16) Tz = 2 (1 i 8); Xi = 12 (9 1 16) приведены в таблице 4.2.1. Во всех экспериментах пара- метры системы выбраны так, чтобы среднее время ожи- дания в системе без приоритетов равнялось 50. Память (число состояний автомата памяти) автоматов во всех экспериментах серии была одинаковой, равной 8. Выше мы говорили о том, что выбираем единичный скачок (единичную «плату» за обслуживание) равным средне- му времени обслуживания в системе. Для определения критичности поведения системы к выбору этого парамет- ра во всех экспериментах он был принят одинаковым и равным 4, причем, как это видно из таблицы 4.2.1,
278 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV в некоторых случаях он больше, а в некоторых случаях меньше действительного среднего времени обслуживания в системе. Результаты экспериментов приведены в таблице 4.2.2. Номера экспериментов таблицы 4.2.2 совпадают с номе- рами экспериментов в таблице 4.2.1. В таблице 4.2.2 Таблица 4.2.2 X» эксперимента с° с’ И1 п- 1 31,0 31,0 0,85 0,98 2 34,4 31,5 0,70 0,97 3 31,0 31,2 0,75 0,98 4 31,0 31,2 0,68 0,96 5 31,0 34,0 0,80 0,98 6 38,5 36,0 0,90 0,98 7 35,2 34,0 0,85 0,98 8 31,0 32,0 0,90 0,999 для каждого эксперимента приведены: с° — рассчитан- ное среднее время ожидания в системе с приоритетом абоненту, имеющему наиболее короткое среднее время обслуживания (тг = 2); с1 — среднее время ожидания, полученное в эксперименте с использованием автомат- ной модели; I71 — среднее число переключений, получен- ное в эксперименте с использованием автоматной моде- ли; Л2 — среднее число переключений, полученное в экс- перименте с системой без приоритетов. Как видно из таблицы 4.2.2, система приоритетов, вырабатываемая автоматами в процессе функциониро- вания системы, обеспечивает средние времена ожидания, близкие к тем, которые получены для системы с прио- ритетами, выбранными на основании априорного знания характеристик входных потоков. Может вызвать недо- умение результат экспериментов 2, 6 и 7, так как в этих экспериментах автоматная модель дает средние времена ожидания меньшие, чем при использовании сис- темы фиксированных приоритетов. Этот факт объясня- ется просто — значения с° соответствуют системе при- оритетов только для абонентов с самыми «короткими» заявками, а в экспериментах 2, 6, 7 имеются три группы
§4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 279 средних времен обслуживания и в автоматной модели реализуется более сложная система приоритетов. В практических задачах особенно интересен случай, когда параметры потоков заявок, поступающих от або- нентов, изменяются во времени. В этой ситуации систе- ма приоритетов также должна изменяться во времени. ^Методы выработки системы приоритетов для нестацио- нарного случая в теории массового обслуживания не рассматривались. Естественно изучить поведение авто- матной модели и в этом случае. Мы будем рассматривать модель, в которой зависи- мость параметров потоков от времени является случай- ной и задается цепью Маркова. Как и в § 1.5, мы ог- раничимся случаем, когда марковский процесс, пере- ключающий параметры потоков, имеет два состояния и задан симметричной стохастической матрицей. В экспе- риментах, которые мы далее будем рассматривать, систе- ма имеет следующие параметры: число каналов — N = 4; число абонентов — £ = 4; плотности всех потоков одина- ковы и равны 1/8; средние длительности обслуживания могут принимать два значения — 2 и 12. В первой серии экспериментов система имела два состояния (ti = t2=2; Тз = т4=12) и (tl = t2=12; т3= = т4 = 2), причем в каждый момент времени с вероят- ностью 6 происходила смена состояния системы. Заме- тим, что состояния системы равновероятны и средние длительности обслуживания за достаточно большой от- резок времени одинаковы для всех абонентов. Во второй серии экспериментов каждый абонент имел два состояния (т| = 2 и = 12) и переключения состояний абонентов производились независимо с веро- ятностью 6, одинаковой для всех абонентов. В таблице 4.2.3 приведены результаты экспериментов первой серии‘при различных 6 и /2 = 4. С2 — полученное в эксперименте среднее время ожидания в системе без приоритетов. В таблице 4.2.4 приведены результаты экспериментов при 6=1/64 и различных значениях п емкости памяти. Соответствующие результаты второй серии экспери- ментов приведены в таблицах 4.2.5 и 4.2.6. Обращает на себя внимание резкое возрастание сред- него времени ожидания в случае независимого переклю-
80 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Таблица 4.2.3 6 0,00- 0,008 0,032 0,100 0,320 с1 31,2 34,4 37,6 41,5 45,0 г2 50,0 50,0 50,0 50,0 50,0 /71 0,82 0,84 0,86 0,92 0,95 П2 0,98 0,98 0,98 0,98 0,98 Таблица 4.2.4 п 1 2 3 4 8 10 12 14 с-1 48,4 43,1 39,5 36,2 38,4 39,5 41,3 42,3 с2 50,0 50,0 50,0 50,0 50,0 50,0 50,0 50,0 Табл и ц а 4.2.5 д 0,002 0,004 0,008 0,016 180,5 80,5 60,8 38,0 с2 240,0 120,0 90,0 55,0 П‘ 0,79 0,78 0,78 0,77 ГР 0,99 0,99 0,99 0,99
СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 281 чения параметров потоков. Такое возрастание объясня- ется наличие1М пиковых периодов, т. е. таких периодов, когда все абоненты выдают заявки со средним временем обслуживания, равным 12. В эти периоды поток заявок больше пропускной способности системы и начинается Таблица 4.2.6 71 1 2 3 4 8 14 С1 52,5 45,7 42,1 38,0 38,4 41,3 с2 55,0 55,0 55,0 55,0 55,0 55,0 линейный рост очереди. Чем меньше вероятность пере- ключения, тем длиннее периоды пик. Отсутствие очереди в периоды минимальной нагрузки не компенсирует оче- реди в периоды пик. Рис. 4.5. Зависимости среднего времени ожидания от емкости памяти автоматов при 6=1/64 для обеих серий экспе- риментов приведены на рис. 4.5. Кривая 1 на этом ри- сунке соответствует таблице 4.2.4, кривая 2 — табли- це 4.2.6.
282 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ 1ГЛ. IV Проведенные эксперименты показывают, что для не- стационарных потоков существует оптимальная емкость памяти автоматов. Использование автоматов с оптималь- ной или близкой к оптимальной (сверху) памятью по- зволяет существенно уменьшить среднее время ожи- дания. Результаты, полученные при исследовании поведения автоматов в описанной выше задаче, позволяют наде- яться на эффективность использования такого подхода для управления более сложными системами массового обслуживания. Рассмотрим систему массового обслуживания с ожи- данием и неограниченной очередью, отличающуюся от описанной выше системы тем, что одна и та же заявка обслуживается различными каналами за различные вре- мена, т. е. пропускная способность канала для различных заявок различна и пропускная способность различных каналов для одной и той же заявки также различна. В такой системе распределение заявок по каналам опре- деляет пропускную способность системы. Следователь- но, можно попытаться организовать коллективное пове- дение автоматов для выработки приоритетов, приводя- щих к увеличению пропускной способности системы. Обратимся к содержательной интерпретации этой за- дачи. (Заметим, что именно содержательная постановка задачи привела к построению автоматной модели.) Рас- смотрим производственный участок, состоящий из не- скольких полностью взаимозаменяемых рабочих мест. На каждом из рабочих мест выполняется несколько опе- раций, составляющих полный цикл изготовления детали (выполнения наряда). Далее иод словом рабочий мы будем понимать одного исполнителя независимо от то- го, является ли этот исполнитель одним рабочим или бригадой. Цикл изготовления каждой детали состоит из последовательности операций, т. е. из последовательно- сти работ разного рода. Наряд на изготовление каждой партии деталей характеризуется набором норм времени на выполнение разного рода работ. Такие наборы для различных деталей различны. Мы будем рассматривать систему, состоящую из N каналов обслуживания (рабочих) и k абонентов (пар- тий деталей). Обозначим через ац установленную норму
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 283 времени на выполнение /-го вида работ в партии дета- лей /-го типа. Предположим, что существует г видов работ и размеры партий деталей постоянны. Тогда уста- новленная норма времени на изготовление партии дета- г лей /-го типа подсчитывается по формуле а/ ~ S а/г /=1 Для каждой партии деталей установлена расценка за г ее изготовление, равная 4/” 2 где yi — часовая z=-i ставка за выполнение работ /-го вида. Рабочие в силу индивидуальных особенностей, опы- та и квалификации обладают различной производитель- ностью на работах разного вида. Производительность труда /-го рабочего при выполнении /-го вида работ ха- рактеризуется коэффициентом перевыполнения нормы Сц. Иными словами, каждый рабочий характеризуется совокупностью коэффициентов {сц}. При этом время изготовления /-м рабочим /-й партии деталей равно Очевидно, что средняя производительность труда на участке зависит от распределения деталей между рабо- чими. Одна из задач мастера как раз и заключается в том, чтобы, зная индивидуальные особенности каждого рабочего, организовать процесс производства. Опытный мастер, хорошо знающий возможности рабочих своего участка и возможности производства, успешно справ- ляется с такого рода задачей. Однако даже у самых опытных мастеров возможны ошибки. Они вызываются тем, что мастер в силу субъективных причин может не- дооценить или переоценить способности того или иного рабочего, ему может быть свойственен определенный консерватизм, не позволяющий вовремя заметить рост квалификации у одного и падение у другого рабочего. Кроме того, единоличное принятие решения мастером может привести к трениям, связанным с появлением при- вилегированных и обиженных рабочих. Особенно это от- носится к случаям, когда в связи с несовершенством
284 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV технического нормирования, отсутствием норм равной напряженности, недостатками в системе оплаты и т. д. существует понятие «выгодной» и «невыгодной» работы. (Так, например, один и тот же рабочий, работая над самыми «выгодными» с точки зрения оплаты деталями, может, скажем, заработать за день 11,5 руб., а работая над самыми «невыгодными» деталями —1,5 руб.). При разработке системы оперативного внутрицехового управления возник вопрос о возможности исключения указанной функции мастера и замены ее коллективным поведением рабочих в процессе производства. Оценка такой возможности и проводилась на рассматриваемой ниже модели коллективного поведения автоматов. Если параметры входных потоков и деталей известны заранее с приемлемой точностью и не изменяются во времени, то задача распределения нарядов по рабочим может быть решена как задача об оптимальном назна- чении. Но даже при хорошо организованной системе планирования и четко работающей системе оперативного управления поступление деталей на участок носит веро- ятностный характер, поэтому жесткое распределение типов деталей по рабочим может привести к простою одних рабочих при наличии очереди нарядов к другим рабочим. Следовательно, данные, полученные при реше- нии задачи о назначении, должны использоваться не как основа для жесткого распределения, а как система при- оритетов на получение работ разного рода. Основная возникающая здесь трудность связана с отсутствием полной информации, характеризующей систему, и нали- чием случайных и систематических изменений во време- ни параметров системы. Разумным выходом из этого положения является выработка в процессе производства системы приоритетов на основании информации о пре- дыдущей деятельности системы. Нас будет интересовать случай, когда выработка системы приоритетов порож- дается взаимодействием рабочих в процессе произ- водства. Рассмотрим организацию такой системы. Все посту- пающие на участок наряды образуют общую очередь. Каждому рабочему разрешается иметь т упорядочен- ных приоритетных номеров: ...» bmi Наличие приоритетного номера у рабочего дает ему пра-
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 285 во получить наряд, соответствующий его приоритетному номеру, без очереди. В случае, если в очереди нет при- оритетных для данного рабочего нарядов, он получает первый стоящий в очереди наряд. Существенным для такого способа распределения нарядов является тот факт, что число приоритетных номеров у рабочего зна- чительно меньше, чем номенклатура нарядов. Рабочему предоставляется право самостоятельно формировать приоритетные номера. Естественно предположить, что в основу формирова- ния приоритетных номеров ляжет «выгодность» или «не- выгодность» для данного рабочего тех или иных типов деталей. Здесь может возникнуть опасность того, что все рабочие выберут в качестве приоритетной одну и ту же выгодную для всех деталь и выработка системы приори- тетов не приведет к существенному эффекту. Заметим, однако, что чем большее число рабочих выберет данную деталь в качестве приоритетной, тем реже она будет попадать на обработку каждому рабочему и, следова- тельно, тем ниже ее средняя «выгодность». Разумным поведением в этой ситуации является выбор в качестве приоритетной такой детали, которая дает меньший еди- ничный выигрыш, но имеет высокую частоту посту- пления. Рассмотрим адекватную описанной выше ситуации модель коллективного поведения автоматов. Имеется система массового обслуживания с ожиданием и неог- раниченной очередью, с N каналами и k абонентами. Каждый абонент выдает в систему поток заявок с плот- ностью Aj. Поток заявок в модели предполагается пуас- соновским. Каждая заявка характеризуется платой dj за ее выполнение. Взаимодействие каналов и абонентов задано матрицей T=||fjf||, временами обслуживания за- явок от /-го абонента — f-м каналом. Предполагается, что действительные времена обслуживания распределе- ны по показательному закону со средним Каждому каналу поставим в соответствие два авто- мата: А0— основной и Др — резервный. Автоматы имеют по k действий и по п состояний на действие. Действия автоматов являются приоритетными номерами каналов (т=2), причем действие основного автомата является приоритетным номером первой категории срочности,
286 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV а резервного — второй. В соответствии с описанной выше дисциплиной очереди освободившийся канал принимает па обслуживание заявку с номером, совпадающим с но- мером действия основного или резервного автомата; если в очереди нет такой заявки, то на обслуживание поступает первая из стоящих в очереди заявок. Каждый канал характеризуется числом cit представ- ляющим собой средний заработок этого канала в еди- ницу времени, вычисленный за некоторый предыдущий отрезок времени. Если на обслуживание поступила заявка, номер ко- торой совпадает с номером основного автомата, то ра- ботает основной автомат, во всех остальных случаях работает резервный автомат. Работа автомата задается следующими правилами. Если номер обслуживаемой заявки соответствует номе- ру действия работающего автомата и т7г- — действитель- ное время обслуживания этой заявки, то после обслу- живания к номеру состояния автомата прибавляется число CiTji- (4.2.2) Если получившаяся сумма меньше 1 или больше п, то новое состояние автомата есть 1 или п соответствен- но, в противном случае номер нового состояния совпа- дает со значением полученной суммы. Смена действия автомата происходит в состоянии 1, причем номер ново- го действия совпадает с номером заявки, находящейся в данный момент на обслуживании. Если на обслужива- ние поступила заявка, не имеющая приоритетного номе- ра, то резервный автомат переводится в состояние 1. Каждый раз после обслуживания очередной заявки про- изводится сравнение номеров состояний основного и резервного автоматов. В случае, если номер состояния резервного автомата больше или равен номеру состоя- ния основного автомата, резервный автомат становится основным, а основной — резервным. Нетрудно видеть, что номер состояния автомата ха- рактеризует для канала «выгодность» абонента, номер которого совпадает с номером действия автомата. Срав- нение номеров состояний автоматов обеспечивает кон куренцию абонентов на каналах.
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 287 Для оценки эффективности такой системы была про- ведена серия экспериментов по моделированию ее пове- дения на ЦВМ. В качестве исходных были использованы данные по трем участкам конкретных заводов. В первом эксперименте участок имел трех рабочих и 22 наимено- вания деталей, во втором — пять рабочих и 47 наимено- ваний деталей и в третьем — 12 рабочих и 50 наиме- нований деталей. Исходные данные по деталям и рабо- чим для всех трех экспериментов приведены в таблицах 4.2.7—4.2.12. Для первых двух экспериментов, кро- ме трудоемкостей по операциям, указано число партий в программе (второй столбец таблиц 4.2.7 и 4.2.9) и Таблица 4.2.7 Детали 1 2 3 4 5 G 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 4 4 4 4 4 4 4 4 1 4 1 1 4 1 1 1 2 2 4 4 1 2 0,36 0,75 4,86 4,94 3,68 5,67 5,24 0,71 4,87 10,69 2,34 0,60 2,67 1,30 5,72 1,63 4,02 8,56 1,28 1,28 0,45 1,03. 0,23 0.53 1,99 0,62 3,23 2,05 3,17 2,67 5,20 1,03 0,89 1,28 4,28 1,05 4,77 1,63 11,85 9,20 1,50 1,50 0,39 1,11 0,53 2,57 0,58 0,96 0,62 2,10 3,66 1,53 0,66 1,09 1,49 1,71 3,66 1,07 1,33 0,58 0,66 3,92 0,81 0,62 1,03 1,56 2,39 2,74 0,77 0,56 2,97 1,84 1.03 28,94 113,18 482,95 516,02 379,46 459,95 585,15 383,98 559,14 794,19 204,80 82,95 335,70 104,00 629,40 356,07 1110,30 914,50 139,30 173,40 37,40 161,70 Таблица 4.2.8 Рабочие 1 0,8 и 1,2 1,3 1,0 1,3 2 1,4 1,3 1,6 1,0 1,3 1,1 3 0,6 1,2 1,1 1,0 0,8 1,3
288 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Таблица 4.2.9 Детали 1 3 4 1 2 0,056 1,017 0,113 0,042 0.194 0,123 0,068 0,290 0,259 0.238 0,440 0,123 0,119 0,097 0,096 18,68 11, 18 74,35 4 1 0,055 0,071 0,048 0,041 0,030 0,121 0,100 25,58 5 1 0,319 0,082 0,064 29,90 6 1 0,022 0,011 0,080 6,00 7 1 0,096 0,045 0,029 8,00 8 3 0,123 0,272 0,271 0,115 0,349 51,98 9 1 0,187 0,141 0,183 0,187 0,090 0,106 0,040 42,48 10 1 0,103 0,093 9,02 11 1 0,030 0,166 0,040 0,050 0,132 19,82 12 1 0,290 0,149 0,226 0,362 0,136 69,20 13 1 0,265 0,408 0,298 0,239 0,217 0,440 115,20 14 1 0,226 0,427 0,537 0,278 0,116 0,427 0,010 61,63 15 1 0,176 0,103 0,327 30,80 16 2 0,239 0,515 0,320 0,372 67,48 17 4 0,103 0,040 0,040 7,00 18 1 1,220 0,1G0 0,160 71,04 19 1 0,099 0,053 0,020 0,070 1,390 83,50 20 1 0,115 0,096 10,46 21 4 0,152 0,040 0,040 5,66 22 4 0,059 0,020 3,79 23 3 0,127 0,215 0,170 0,127 0,251 0,850 73,90 24 3 0,202 0,265 0,265 0,351 0,121 0,121 0,141 59,52 25 3 0,141 0,И9 0,257 0,224 0,112 0,097 45,60 26 3 0,184 0,153 0,252 0,224 0,112 0,097 47,80 27 3 0,176 0,173 0,235 0,136 0,252 0,240 55,70 28 2 0,134 0,195 0,204 0,140 0,096 0,360 0,258 83,90 29 2 0,144 0,080 0,228 0,128 0,228 0,128 0,464 63,50 30 4 0,030 0,030 0,33 31 4 0,113 0,056 0,048 0,198 21,20 32 4 0,105 0,040 0,048 0,070 0,089 16,27 33 4 0,099 0,035 0,080 0,107 0,212 0,066 27,93 34 4 0,056 0,070 0,072 0,108 13,91 35 4 0,043 0,080 0,115 0,048 0,139 0,064 0,080 35,42 36 4 0,025 0,075 0,171 0,040 0,080 0,048 226,00 37 4 0,026 0,068 0,062 0,032 8,92 38 2 0,166 0,096 0,320 0,179 36,00 39 Л 1 0,032 0,016 0,048 0,164 1,32 40 4 0,051 0,066 0,100 1,01 41 1 0,123 2,024 0,369 0,341 0,649 139,40 42 Л Ч о 0,224 0,240 0,256 0,160 40,32 43 2 0,320 0,195 0,323 0,252 2,300 0,179 192,00 44 л с 2 0,156 1,312 0,208 0,288 0,094 48,90 45 1 0,156 0,053 0,384 0,080 1,990 141,00 4б 1 0,291 0,498 0,096 0,179 0,323 0,413 1,433 172,80 47 1 0,100 0,058 0,194 16,40
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 289 Таблица 4.2.10 Рабочие 1 1,7 1,3 1,1 1,5 1,6 1,4 1,5 2 1,3 1,6 1,4 1,3 1,2 1,2 1,3 3 0,6 0,8 1,1 0,9 1,2 1,0 0,6 4 0,8 1.1 1,2 0,9 1,4 1,3 1,0 5 1,1 1,2 1.0 1,3 1,2 0,8 0,8 стоимость изготовления одной партии. В третьем экспе- рименте число партий по всем деталям одинаково и сто- имость изготовления партии прямо пропорциональна норме времени на эту партию. В таблице 4.2.9 приведены нормы времени на одну деталь. Рассмотрение таблиц 4.2.7 и 4.2.9 позволяет довольно легко выделить «выгодные» и «невыгодные» детали, Таблица 4.2.11 ______________________Дета ли 1 60 21 19 9 8 14 26 10 26 26 29 5 11 2 53 7 23 12 17 26 27 24 33 13 11 15 15 3 72 7 16 20 20 1 28 4 27 24 19 20 12 4 44 14 12 3 9 7 29 22 19 2 37 И 20 5 13 64 13 7 10 28 30 24 8 1 8 16 12 6 22 51 13 21 8 Ю 31 29 21 16 13 18 20 7 13 55 32 21 2 12 32 26 19 8 17 20 14 8 13 100 13 21 4 26 33 9 21 23 9 12 15 9 17 18 57 25 15 И 34 6 17 11 18 3 16 10 27 28 51 13 28 И 35 39 37 7 34 23 35 11 9 4 40 86 10 И 36 4 7 40 30 59 41 12 17 17 1 85 44 21 37 21 9 56 14 17 56 13 28 9 20 14 70 17 38 9 3 7 25 25 32 14 18 25 9 17 52 1 39 13 12 8 20 30 11 15 2 1 90 И 61 21 40 8 3 30 33 14 34 16 25 3 28 22 26 70 41 5 15 8 12 39 20 17 24 34 8 .16 16 71 42 19 52 20 51 22 17 18 36 7 7 2 18 63 43 21 47 52 34 12 30 19 12 39 29 16 26 63 44 28 17 13 5 6 23 20 2 9 3 10 15 26 45 56 13 7 32 10 65 21 17 29 14 8 18 6 46 52 6 18 63 26 11 22 20 34 5 36 31 19 47 11 48 15 5 63 2 23 26 24 12 27 41 21 48 23 32 12 42 52 17 24 34 41 21 34 39 3 49 32 9 27 8 2 25 25 21 18 35 17 28 21 50 4 20 И 26 5 16
290 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV например, сравнением детали 19 с деталью 20 в табли- це 4.2.7. Наличие такого явного несоответствия норм времени и расценок безусловно ухудшает условия функ- ционирования системы. В следующем примере стоимость изготовления партий деталей прямо. пропорциональна установленным нормам времени. Нормы времени даны в условных единицах. Таблица 4.2.12 Рабочие 1 1,00 0,50 0,80 0,60 0,55 0,58 2 0,75 1,00 0,50 0,70 0,81 0,62 3 0,50 0,50 1,00 0,60 0,92 0,58 4 0,70 0,75 0,62 1,00 0,81 0,86 5 0,91 0,68 0,51 0,84 1,00 0,81 6 0,52 0,83 0,62 0,72 0,78 1,00 7 0,83 0,80 0,72 0,80 0.77 0,80 8 0,68 0,76 0,65 0,88 0,90 0,90 9 0,50 0,52 0,93 0,85 0,96 1,00 10 0,90 1,00 1,00 0,50 0,50 0,70 11 1,00 0,51 0,71 1,00 0,51 0,62 12 0,53 0.60 0,80 0,70 1,00 1,00 В проведенных экспериментах определялись следую- щие величины: s — средняя длина очереди, К — коэффи- циент загрузки, представляющий собой отношение вре- мени, в течение которого канал занят (рабочий работа- ет), к общему времени функционирования системы, и П — среднее число переключений. Каждый эксперимент состоял из трех частей. В пер- вой части изучалось поведение системы без приоритетов, т. е. для дисциплины очереди «первым пришел — первым обслужен». Относящиеся к этой части результаты при- ведены в первых столбцах таблиц результатов. Вторая часть эксперимента и соответственно второй столбец таблиц представляет исследование модели коллективно- го поведения для выработки приоритетов. Очевидно, что пропускную способность системы можно оценивать по коэффициенту загрузки. Однако для более полной оцен- ки эффективности использования системы приоритетов в третьей части эксперимента повышалась интенсивность входного потока до тех пор, пока коэффициент загрузки
§ 4.2] СИСТЕМА МАССОВОГО ОБСЛУЖИВАНИЯ С ОЖИДАНИЕМ 291 для системы с приоритетами не становился равным ко- эффициенту загрузки для системы без приоритетов Достигнутое увеличение плотности входного потока счи- тается равным увеличению пропускной способности сис- темы. Приведенная в таблицах плотность % входного по- тока одной партии деталей одинакова для партий деталей всех типов. Результаты первых двух экспери- ментов приведены в таблицах 4.2.13 и 4.2.14. Таблица 4.2.13 N 3 3 3 k 22 22 22 S 52,8 14,5 52,8 К 0,88 0,82 0,88 П 1 0,98 0,72 0,75 % 0,0057 0,0057 0,006 Таблица 4.2.14 5 5 5 k 47 47 47 S 61,7 27,0 62,8 К 0,87 0,84 0,87 П 0,98 0,61 0,65 X 0,0057 0,0057 0,0059 Использование модели коллективного поведения для выработки приоритетов дает повышение пропускной способности системы примерно на 5% в первом случае и на 3% во втором. Обращает на себя внимание рез- кое снижение средней длины очереди при' введении сис- темы приоритетов. Уменьшение среднего числа переклю- чений, наблюдаемое в модели, в реальной системе дол- жно привести’ к специализации рабочих, что в свою очередь должно привести к дальнейшему росту произ- водительности труда. При анализе полученных результатов возникают воп- росы: хорошо работает система или плохо, что такое 3%, много это или мало? Для того чтобы ответить на эти вопросы и оценить качество работы системы выработки приоритетов, в сле- дующем эксперименте была добавлена еще одна часть.
292 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV В этой части эксперимента работа системы обслужива- ния (входные потоки, времена обслуживания) модели- ровалась на ЦВМ, а дисциплина очереди (распределе- ние заявок по каналам) устанавливалась в процессе функционирования системы с пульта машины человеком, знающим характеристики потоков и рабочих. В ходе эксперимента такой «мастер» мог пользоваться любой информацией как о текущей деятельности системы, так и о средних значениях «моделируемых процессов. Ре- зультаты этой части эксперимента приведены в четвер- том столбце таблицы 4.2.15. Первые три столбца этой таблицы аналогичны предыдущим таблицам 4.2.13 и 4.2.14. Таблица 4.2.15 12 12 12 12 k 50 50 50 50 S 6,5 2,4 6,5 1,9 К 0,81 0,75 0,81 0,73 П 0,98 0,87 0,89 0,86 X 0,012 0,012 0,0129 0,012 В этом примере более ярко выражены неоднородно- сти деталей и рабочих, поэтому система выработки при- оритетов дала увеличение пропускной способности на 7,5%. Сравнение поведения коллектива автоматов и чело- века, располагающего полной априорной информацией (см. соответственно второй и четвертый столбцы табли- цы 4.2.15), показывает, что результаты, которых удается добиться человеку, не на много лучше, чем результаты, которых добиваются автоматы, априорной информаци- ей не располагающие. Следует отметить, что результаты, полученные при чистом моделировании системы на машине, статисти- чески более достоверны, чем результаты эксперимента с участием человека. В экспериментах с «мастером» бы- ло промоделировано 500 часов работы участка (10 ча- сов работы модели), в то время как все остальные экс- перименты моделировали не менее, чем по 10000 часов работы участка. Это объясняется тем, что без преры-
§ 4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА. 293 вания работы для вмешательства человека модель ра- ботает существенно быстрее. В рассмотренной модели сделан ряд допущений, при формализации процесса реальная производственная об- становка существенно идеализирована, однако получен- ные результаты позволяют считать, что рассмотренная система организации распределения нарядов может быть использована в оперативной системе внутрицехового управления. Следует иметь в виду, что реальный рабочий при выборе приоритетных номеров будет руководствоваться более тонкими оценками, чем рассмотренные в модели автоматы. Тонким вопросом в такой системе является число приоритетных номеров у каждого рабочего. Оптималь- ное число приоритетных номеров зависит от параметров системы, и в рассмотренных примерах увеличение числа автоматов (числа приоритетов) на канал не привело к существенным изменениям результатов. Ответ на этот вопрос для реальной производственной ситуации может быть получен только в результате эксперимента. § 4.3. Коллективное поведение в задаче о распределении ресурса Задача о распределении ресурса в ее классической постановке формулируется следующим образом. Имеется ресурс в количестве В качестве ресурса могут выступать сырье, оборудование, энергетические, финансовые или людские ресурсы, время.и т. п. Име- ется N потребителей ресурса, для каждого из которых задана функция ^(rj —эффект, который достигается /-м потребителем, когда количество используемого им ресурса равно г;. Требуется разделить наличный ресурс между потребителями так, чтобы максимизировать сум- марный эффект, т. е. требуется найти N max2 (4.3.1) N при условии 2 Я (гз^0, /=1, 2,..., N). ;=1
294 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Многочисленные содержательные трактовки этой за- дачи хорошо известны. Существуют другие разновидно- сти постановки задачи о распределении ресурса, из ко- торых мы укажем здесь только две. Требуется найти min max Ч'Дг,) (4.3.2) N при условии 2 /= 1, 2,..., N). Указанная постановка задачи возникает, например, при распределении скважностей на периоде в многока- нальной системе регулирования с временным разделени- ем каналов или в импульсной системе регулирования N объектов через один канал связи. Аналогичная задача может быть поставлена и для телеизмерительной систе- мы с временным разделением каналов. Для случая системы регулирования с временным разделением каналов R — период переключения кана- лов; rj — время, в течение которого канал связи работает на /-й контур регулирования; 'РДг,)—оценка возника- ющей при этом ошибки в /-м контуре регулирования. Распределение времен регулирования объектов на пе- риоде должно обеспечить минимизацию ошибки в наи- худшем канале. В следующем варианте требуется найти N шахПЧ'Дг;) (4.3.3) з=-л N при условии (г^О, 1, 2,. . ., А/). Такая постановка задачи связана с распределением средств по различным блокам системы, обеспечиваю- щим максимальную вероятность правильного решения поставленной перед системой задачи. Например, если R— время, которое может быть потрачено на решение задачи на ЦВМ, г,— время, выделенное на работу /-го блока программы (увеличение этого времени позволяет увеличить число итераций или кратность решения и тем самым повысить точность и вероятность получения пра- вильного решения), ТДг;)—получающаяся при этом вероятность правильного решения задачи /-м блоком, то
§4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 295 П Wj (fj)—вероятность правильного ответа при реали- у=1 зации программы. N Нетрудно видеть, что max У, In Wj (rj) обеспечивает j=i N max П (г,) и в этом смысле задача (4.3.3) эквива- i=i лентна задаче (4.3.1). Как уже отмечалось в § 2.4, если функции ^(rj) вогнутые, т. е. если ^<0 </ = 1,2. j то решение задачи (4.3.1) единственно и из условий на седловую точку функции Лагранжа следует, что иско- мое распределение ресурса является решением уравнений (/ = 1,2, аГу ' N %Г;-К = 0. /=1 системы (4.3.4) Здесь могут возникнуть два случая: 1) решение системы (4.3.4) существует и тогда в силу вогнутости функций 'РДг,) оно единственно, 2) решения системы (4.3.4) не существует. Последнее означает существова- ние доминирующих и рецессивных объектов. Объект на- зывается доминирующим (рецессивным), если производ- ная от функции пользы этого объекта во всем диапазоне изменения г, больше (меньше) произ- водных от функций пользы других объектов. В случае существования доминирующих объектов весь ресурс рас- пределяется между ними. Рецессивные объекты не по- лучают ресурса вообще. Ниже мы будем рассматривать случай существования решения внутри области допусти- мых значений распределяемого ресурса. Будет видно, что предлагаемые способы организации коллективного поведения обеспечивают выход на оптимальное распреде- ление даже в случае, когда решение имеется на краю. Как и при анализе игры в распределения в § 2.4, ес- ли функции? Tj(rj) убывающие, то решение задачи
296 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ (ГЛ. IV (4.3.2) единственно и искомое распределение ресурса определяется из решения системы уравнений = 0 (/=1, 2, ...Л), 1 £г,-Я = 0. 7=1 (4.3.5) Замечание о доминирующих и рецессивных объектах остается в силе и для этого случая. Из сравнения (4.3.4) и (4.3.5) следует, что N rj max У [ (x) dx обеспечивает min max Ту (ry) и, следовательно, способы решения задачи (4.3.1) одно- значно распространяются на решение задачи (4.3.2). Поэтому далее мы будем рассматривать только решение задачи (4.3.1). Решение задачи о распределении ресурса имеет два аспекта: вычислительный и управленческий. В случае, когда функции Ту(гу) известны, возникает чисто вычис- лительная задача нелинейного программирования, ряд способов решения которой хорошо известен. С другой стороны, если функции Ту(гу) априорно не известны, а известны лишь их текущие значения, причем сами функции, как это часто бывает на практике, изменяются во времени, то возникает задача оперативного перерас- пределения ресурса в процессе функционирования систе- мы, т. е. задача управления. Учитывая тот факт, что уравнения системы (4.3.4) являются частными производными от функции Лагран- жа, можно организовать децентрализованное поведение в задаче о распределении ресурса, основанное на гра- диентном методе решения этой задачи: <4.3.6)
§ 4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 297 Такой подход эквивалентен тому, что каждый потреби- тель ресурса максимизирует свою локальную функцию пользы вида (4.3.7) В этом случае множитель Лагранжа имеет смысл цены на ресурс, которая вырабатывается центральным устройством по разности между спросом и предложением [последнее уравнение в (4.3.4)]. Организованное таким образом децентрализованное поведение в задаче о распределении ресурса рассматри- валось в [138]. Однако непосредственно использовать предложенную в этой работе процедуру для организа- ции поведения коллектива потребителей невозможно, так как в процессе решения задачи могут нарушаться огра- ничения, что допустимо при реализации вычислительной процедуры, но совершенно не приемлемо для организа- ции поведения. Более приемлем с точки зрения органи- зации коллективного поведения проективный градиент- ный метод, в котором шаг по градиенту максимизируе- мой функции заменяется шагом по проекции градиента на границу области допустимых решений. Описываемый ниже способ организации коллективного поведения бли- зок к организации вычислительного процесса в проек- тивном градиентном методе. Пусть каждый потребитель ресурса вырабатывает запрос на количество ресурса, которое он желает полу- чить на следующем шаге (в следующий момент време- ни). В зависимости от суммы запросов ресурс распреде- ляется следующим образом. Если сумма запросов не превышает наличное коли- чество ресурса, то запросы удовлетворяются полностью. Если сумма запросов превышает наличное количест- во ресурса, то весь .ресурс делится между потребителя- ми пропорционально их запросам, т. е. Xj при Rx: /Н" ПРИ (4.3.8) где Xj — запрос /-го потребителя ресурса.
298 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Теперь рассмотрим локальные правила поведения, обеспечивающие максимизацию суммарного эффекта. Как следует из сказанного выше, требуемое распреде- ление ресурса определяется решением системы (4.3.4), а решение системы (4.3.4) соответствует максимумам локальных функций пользы (4.3.7), при условии, что спрос равен предложению. Тогда естественно изменять величину запроса на каждом шаге по следующим пра- вилам: Ху (t + 1) = ху (0 ч- kt - х (0 %(/+ 1) + (4.3.9) где цена на ресурс формируется в центральном устрой- стве по разности между спросом и предложением. Непосредственно из (4.3.9) следует, что точка равно- весия системы соответствует оптимальному распределе- нию ресурса. При этом возникает вопрос об устойчиво- сти и достижимости точки равновесия. Трудности, связанные с анализом устойчивости такой системы, заключаются в том, что точка равновесия лежит на ги- N пер плоскости г, — R = 0, по разные стороны которой ресурс распределяется по различным правилам (4.3.8), что приводит к разрыву производных на гиперплоскости ограничения. Эта трудность может быть преодолена изменением правил распределения ресурса между потребителями. Если сумма запросов не превышает наличного количест- ва ресурса, то, как и прежде, все запросы удовлетво- ряются полностью. Если сумма запросов превышает количество ресурса, то распределяется не весь ресурс, и доля ресурса, равная 8, остается нераспределенной, т. е. Ху При N 3*^ i=i ZR, Гу =• N N ' при 5 Xi: >R. >-=1 (4.3.10)
§ 4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 29g При этом оптимальное распределение мы будем искать не для ограничения 2 ri - R = О, j=i а для ограничения и 2 г} ;=1 В этом случае точка равновесия лежит под гиперплоско- N стью 2 = О внутри области, где получаемое /=1 потребителем количество ресурса совпадает с его запро- сом, и поведение системы уравнений (4.3.9) совпадает с поведением разностной схемы, реализующей градиент- ный метод. Тогда на устойчивость в малом системы (4.3.9) распространяются все результаты об устойчиво- сти в малом градиентных методов в этой задаче нели- нейного программирования. Устойчивость системы в целом требует, кроме устойчивости чистого градиентного метода, еще и следующей характеристики траекторий системы в пространстве параметров х/ любая траекто- рия после конечного числа пересечений гиперплоскости N 2 Xj — -R — 0 останется в области параметров, в кото- у=1 рой лежит точка равновесия. Рассмотрим устойчивость системы дифференциальных уравнений, эквивалентных системе разностных уравнений (4.3.9). При этом обо- значим через (pi (xi) функцию—-—.Параметр & можно рассматри- вать как точность распределения либо как некоторый резерв, который должен сохраняться при оптимальном распределении (при этом во время выхода на оптимальное распределение может использоваться весь ресурс, включая резерв е). Будем считать также, что цена X мо- жет принимать значения из отрезка [М, М> где ^1’ Х2 < %21 а %£ и можно получить из априорных оценок для функ- ции ф* (г.). Итак, рассмотрим систему xi = ^ifi (xi« хъ* • • •» (i = L 2, ..и), Xn_j.i kJп4-1 (*1 ’ ха • • • > хп)»
300 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV п 0, если xn,i = и 2 — 1 > 0, 7=1 /п+1 (*!’ п 0, если хп+1 = Лг и 2 xj ~ 1 + е <°> .3=1 п 2 — 1 + е в остальных случаях, U=1 где 8, А<2, k2 — некоторые постоянные (ее (0,1); Ач, &2>0); 0, если = 0 и Xn+1 — Hi < 0> fi =(*1. хг, •••. *„+1) = 0, если xi = 1 и > 0, Xn+1— Hi (*i. Х2, Хп) в ОС. тальных случаях. Здесь Н (х„ х2, ...,хп) = п <р4 (xz), если У xj < 1, 3=1 п \ п У Xj , если У Xj > 1. 3- 1 / з-1 Относительно чисел Z2 и функций (р. будем предполагать следу- ющее: 1) <Р1(0) = <р2(0) = ... = <рп(0), 2) существует /г>0 такое, что для любого 4=1, 2, . . . , п, *!-<Pi(0)<- h, Х2-Ф|(0)-а<2>>Л, 3) существуют+>0,а(2*;> 0(1 i п) такие, что для любых ge (0,1), г) е (-1, 1-g) о. № + D - ф. <а 2, I 7] ^1 * Замечание 1. Условие 3 выполняется, в частности, если функ- ции <Pj дифференцируемы на (0,1) и 0< inf q/ ($) = = sup (р-(;) <+ оо. (4.3.12) 56(0,1) ’ * 1 56(0,1) 1
§ 4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 301 Замечание 2. Если выполнены условия 2 и 3, то для любого [0,1] xi — TrOi) < — А, >.2 — <Pi(i])>A. Обозначим )* = max (|Хх|, |Х2|}, <Р* = min (-ф (0)—а(«), 1<1<я Далее будем предполагать, что система (4.3.11) имеет лишь одно состояние равновесия х*=(х*, х*, . ..,x*_^_J и такое, что х*— внутренняя точка области {п х|-Че[0, 1]......х„е[0, 1]; хп+1е [Хх, Х2]; 1 7=1 т. е. Ху — 1 — Ti (xj (Е Сч, ^2) > *{€=(0,1). 7=1 Из вида системы (4.3.6) следует, что любая траектория системы, начинающаяся в области Xi={x|x1(E[0, 1], ...,хде[0, 1]; хд+1е [*п Х2]}, при возрастании времени не покидает множества А',. Кроме того, лег- ко убедиться, что любая траектория системы (4.3.И), начинающаяся в множестве х = Х1/[{0, о, ...,о, MU {I, I, ... , 1, ML при возрастании времени не покидает множества X, и точка х* — единственное состояние равновесия в области G = Gt Г) X. Пусть е*, у — некоторые постоянные такие, что / ав* (е — е*)2 \ е*е(0,8), те [о, (ПА + Ф,) ) <4-313) Тогда при сделанных предположениях имеет место следующая тео- рема. Теорема 10. Если 8*, у выбраны согласно (4.3.13) и для и k2 выполнено неравенство *2 ( A J |Хх — <Р*| ____А,пк2________] a S> max I „_____ * , / /е____е*\2 \ Ь
302 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV то решение х = х* системы (4.3.11) асимптотически устойчиво с об- ластью притяжения X. Доказательство опирается на следующие леммы (доказательство которых мы опускаем). Лемма 1. Пусть 6>0 — произвольное число и к2 > Тогда никакая траектория х (t) системы (4.3.6), такая, что х(/*)е#= х = 1) л х, 7=1 J не может находиться в области X \ G при всех t е [/*, t* + 6]. Лемма 2. Пусть 8*>0 — некоторое число из промежутка (0, 8), ^2 1^1 — Ф*1 k± е — £* ’ функции дифференцируемы на (0,1) и удовлетворяется соотноше- ние (4.3.12). Тогда любая траектория х (/) системы (4.3.11), перехо- дящая в момент времени /♦ из области X \ G в G, при Г Е* 1 будет находиться в слое Gg* = <х п 7=1 П б(и, сле- дсвательно, не покинет области G). Лемма 3. Производная по времени функции п Ь v w = 2 (ъ -x‘) +% Кн -<н)2 7=1 в силу системы (4.3.11) на G неотрицательна, и при этом множество dv (х) dt не содержит целых траекторий системы (4.3.11). Лемма 4. При сделанных относительно k2 предположениях любая траектория х (/) системы (4.3.11) не может пересекать гипер- г у (6)) 1 плоскость 2 х- = 1 — е более Nx t = —---------F 1 +- 1 раз (здесь /=1 ’ L ? J [а] обозначает целую часть числа а). В заключение отметим, что если функции таковы, что <0, то при < 0, k2 < 0 имеет место утверждение, анало- гичное утверждению теоремы.
§4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 303 Для экстремальной проверки устойчивости и скоро- сти сходимости разностной схемы (2.5.9) рассмотрим результаты моделирования поведения системы на ЦВМ. Пусть в системе имеется десять потребителей с ло- кальными функциями пользы: Ф1(п) = 2,125 In (1 + Г1), фв(гв) = 2 sir./3, ф2(г2) = 2,125In(1 + г2), ф7(г7) = г7 (2,125 - г7), Фз(г3) = /2^, ф3(г8) =4Г^4-25 ~гв), Фз (г4) =1^4. ф9(гв)^2,25(1 — е~г’), Фа (г5) sin J г5> Фю (По) = 2,25 (1 - е“2г'°). (4.3.14) На рис. 4.6 приведен график изменения расстояния от точки текущего распределения ресурса до расчетной Г /<г°цг5 с kf=0,1Z5 7 kf-OflSZff kz^SZ5 kz=0,0625 kz=H0SZ5 Рис. 4.6. точки оптимального распределения от времени. В рас- сматриваемом примере Л=1. Различные кривые на
304 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV рис. 4.6 соответствуют различным значениям коэффици- ентов k\ и k2. Заметим, что потребители ресурса не знают вида своей функции (г?) и ориентируются только на те- кущее ее значение. Как видно из рис. 4.6, распределение ресурса быстро сходится к оптимальному. Рассмотренная выше модель коллективного поведе- ния оставляет некоторое чувство неудовлетворенности по ряду причин. Во-первых, если задача может быть решена градиент- ным методом и существует возможность локального оп- ределения частных производных от максимизируемой (минимизируемой) функции, то организация коллектив- ного поведения не представляет особого труда, и изу- чение таких моделей, кроме преодоления ряда специ- фических для каждой задачи трудностей, не дает су- щественного материала для продвижения в изучении коллективного поведения как такового. Во-вторых, использование множителей Лагранжа естественно, так как они, как правило, допускают удоб- ную содержательную трактовку, например, как цены, но определение значений множителей Лагранжа требует решения этой задачи в центральном устройстве. При изу- чении моделей коллективного поведения естественно желание максимально упростить функции центрального устройства, перенеся всю тяжесть решения задачи на совместное поведение членов коллектива. В сложных системах часто различают информацион- ные, энергетические и материальные потоки. При этом разумно помнить, что и энергетические и материальные потоки несут в себе информацию по крайней мере коли- чеством передаваемой энергии или материалов. На этом принципе осуществляется гуморальное регулирование в организме. Для управления таким сверхорганизмом, как муравейник в целом, информация, которая со дер' жится в потоках совместно перевариваемой пищи, по- видимому, важнее обмена сигналами между отдельными муравьями. Эти соображения явились побудительным мотивом к тому, чтобы попытаться при организации кол- лективного поведения в задаче о распределении ресурса использовать информацию, содержащуюся в количестве ресурса, поступающего каждому потребителю.
§4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 305 Рассмотрим сначала содержательное описание воз- никающей при этом модели коллективного поведения, отчетливо представляя себе всю условность используе- мых терминов. Для оценки эффективности своего поведения каждо- му потребителю необходимо знать, сколько он «зарабо- тал», т. е. разность между своим «производством» фДг,) и стоимостью израсходованного ресурса Из гра- диентного метода решения задачи о распределении ре- сурса следует, что потребителю надо знать цену на ре- сурс, т. е. С; тг~т,=>- <4315> Последнее наводит на мысль использовать в качестве параметра взаимодействия не запрос на требуемое ко- личество, а некоторую сумму денег Cj (еще раз заметим, что все используемые при описании организации пове- дения экономические термины сугубо условны), на ко- торую /-й потребитель просит выделить ему ресурс. Все заявки на ресурс в денежном выражении поступают в центр, где ресурс распределяется пропорционально при- сланным деньгам, т. е. = (4.3.16) 7—1 Тогда цена единицы ресурса равна N % (4.3.17) и легко восстанавливается у потребителя по количеству полученного ресурса Х = с^г^, Отсюда очевидна органи- зация поведения. Нетрудно видеть, что решение системы Wj __ci _ n dri ri r._^L (4.3.18) rJ N 2^- 7=1
306 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV совпадает с решением системы (4.3.4), причем Cj=A,r,. Следовательно, метод «наивного градиента», основан- ный на (4.3.18), должен иметь точку равновесия, совпа- дающую с оптимальным распределением ресурса. Для организации коллективного поведения, обеспе- чивающего оптимальное распределение ресурса, потре- буем, чтобы каждый потребитель на каждом шаге вы- давал в центральное устройство запрос на желаемое количество ресурса Cj. Центральное устройство распре- деляет ресурс пропорционально поступившим заявкам в соответствии с (4.3.17). При этом величина запроса Рис. 4.7. на каждом шаге формируется у потребителей следую- щим образом: Ci(t + 1) = Ci(/) + J^h) _ fL (4.3.19) Анализ устойчивости системы нелинейных разностных уравнений связан с рядом существенных трудностей, поэтому мы опять обратимся к результатам моделиро- вания системы на ЦВМ.
§4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 307 На рис. 4.7 приведены результаты моделирования поведения коллектива потребителей с локальным алго- ритмом поведения (4.3.19) и правилом распределения ресурса (4.3.16) для той же системы функций M’j(rj), что и в примере на рис. 4.6. Кривые на рис. 4.7 показы- вают зависимость расстояния от текущего распределе- ния ресурса до оптимальной точки от времени для раз- личных значений k. Во втором примере моделировалось поведение 10 потребителей ресурса со следующими ло- кальными функциями фДг,): Ф1 (И) = 0,505 In (1 + Г1), фа (г2) = г2 - О,5ег’-0,03, Фз (гз) = г3 “Т^з), ф4(г4) = 0,25(г4—О,8е-/°:П7<+0’4) ф6(г6) =1“г|(1 - 2/^), У Фе(/«) = 0,5re + cos |j-(re — 0,12) t ф, (r7) = 0,4]/0,02+ r7 +cos (r, - 0,14)], Фз (r8) = 0,25In(0,7 + 2r8), Фв(г9) ~ r9(3,7 —4]/r9 — 2,5r9), _r2 IQ04 Ф10 (r10) = 0,9rlo + e 10 (4.3.20) Результаты эксперимента приведены ца рис. 4.8. ю На рис. 4.9 приведены зависимости 2 W от арене- ни для тех же, что и на рис. 4.8, условий. При организации поведения во всех случаях значение запроса было ограничено снизу и не могло стать отри- цательной величиной. Аналогичное условие было введе- но и для множителя Лагранжа в первом способе. Чем характерен последний способ распределения ре- сурса? Потребители ресурса максимизируют локальную функцию пользы (4.3.7]\ а центральное устройство, рас- полагая лишь информацией., о текущих запросах и
308 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV ограничении на ресурс, организует распределение ресур- са по запросам таким образом, чтобы система выходила на оптимальное по глобальному критерию распределение. Попытаемся распространить подобный подход на бо- лее широкий класс задач о распределении ресурса. О 20 40 ОО ОО 100 120140160100 000220Z4O 260 200 Т Рис. 4.9. Рассмотрим задачу распределения ресурса R между W потребителями, обеспечивающего max2S %(f/) при ограничении Ф(Г1, /'2,..., rN)^0. (4.3.21)
§4.31 ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 309 /^(0) В случае, если функции —вогнутые —ту- \ drJ и Ф(гь г2, rN) —возрастающая функция г,- / дФ (г., г», . . ., \ I-------г--------- ?> 0, 7=1,2, ..., N , оптимальное \ drJ 1 J распределение единственно и определяется решением системы уравнений аГу J ’ ’ ’ ’ , Ф(п> rz, rN) = о. (4.3.22) При выполнении ряда условий эта система может быть решена градиентным методом: Аналогично предыдущему случаю каждый потребитель ресурса посылает в центральное устройство на каждом такте работы системы некоторую «сумму денег» Cj и по- лучает некоторое количество ресурса Потребитель должен выбирать свой запрос так, чтобы максимизиро- вать локальную функцию пользы ci- (4.3.24) Sj достигает максимума в точке, отвечающей условию dsi = (ri) dci _.А drj drj dfj При фиксированном X можно полагать, что где Xj — цена ресурса /-го потребителя. Заметим, что д$] dSj drj Условия экстремума Sy по г у и Cj совпа- _ л Cj дают. Локальная цена Лу = и может быть восста- 1 j новлена у потребителя. Таким образом, для выхода системы на условный эстремум необходимо, чтобы в
310 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ 1ГЛ. IV центральном устройстве ресурс распределялся так, чтобы ci _ о аФ(г1’ г*’ * г,- - Х дг} гы) Отсюда следует, что выделяемые потребителям количе- ства ресурса определяются в центре решением системы уравнений г _ с? _____________5_________, Г} ~ X аФ(^1, Г2, rN) § dri Ф(fl, Г2, Гы) = Ф*(X) = о' (4.3.25) а правила локального поведения в соответствии с (4.3.23) имеют вид (') = k (4.3.26) Нетрудно видеть, что ситуации равновесия (4.3.23) и (4.3.26) с учетом (4.3.25) совпадают. Возникает вопрос об условиях, при которых система разностных уравнений (4.3.26) является устойчивой. Этот вопрос из-за значительных аналитических трудно- стей нами не исследован. Однако решение ряда задач на ЦВМ показывает, что при разумном выборе коэф- фициента k решение системы (4.3.26) сходится с удов- летворительной скоростью. При этом еще раз заметим, что результаты экспериментов говорят только о том, что существуют случаи, в которых система (4.3.26) устойчива. Значительные трудности могут возникнуть при реа- лизации способа распределения (4.3.25). Рассмотрим два примера. N Пример 1. Пусть Ф (ri, г2, ..., г к) = 2 арф — R. i=l J Тогда нетрудно видеть, что с,/а3- \Х N П 2 «i/«i / i—1 / (4.3.27)
§ 4.3] ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 311 и распределение ресурса по запросам в центральном устройстве не вызывает каких-либо затруднений. Напри- мер, в случае а;=2 (/—1, 2,..., N) N Пример 2. Пусть Ф (гь г2, • • •» fn) = 5 аз In G — R- у=1 Подобные ограничения часто возникают при оптимиза- ции технологических процессов, например, процессов об- работки металлов резанием, в связи с принятыми эмпи- рическими зависимостями, описывающими связь Пара- 'г а- метров процесса вида F(xi, х2, ..., хп) = Пх . В этом ЗФ (гх, г2, ..., rN\ aj случае—-------и система (4.3.25) теряет смысл. Однако значение локальной цены Xj определено, аз иЛу = Небольшое изменение алгоритма локального 1 i поведения (4.3.26) Г Дф. (гЛ С; (Z) Ас> (') = k - 7^;- . (4.3.28) 3 ' ' ' j \Ч позволяет организовать коллективное поведение и в этом критическом случае. При этом правила распределения ресурса имеют вид % = ехр * с7 Г=1____} N Zai i=l (4.3.29) В заключение этого параграфа рассмотрим задачу о распределении многомерного ресурса в следующей по- становке. Имеется W потребителей М видов ресурса. Для каж- дого потребителя AJ (/=1, 2,..., N) задан рецептурный
312 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ 1ГЛ. IV вектор ||ад, <Zj2, • • •, <х,м||, определяющий потребление каждого вида ресурса на единицу продукции, произво- димой /-м потребителем. Если потребитель А-’ получил различные ресурсы в количествах a* (i=l, 2,..., Al), то он производит Xj единиц своей продукции, причем Xj = mln (fli/ад) и все неиспользованные ресурсы без- г возвратно утрачиваются. Поэтому имеет смысл распре- делять ресурсы между потребителями только комплект- но. Последнее означает, что выделяемый потребителю на каждом шаге работы системы вектор ресурсов пропор- ционален его рецептурному вектору, и коэффициент про- порциональности мы будем называть интенсивностью потребления. Наличие количества ресурса ограничены и, если г7 — интенсивность потребления /-го потреби- теля, то N 2 г>ац < Ri (i = l,2,..., М). (4.3.30) Как и выше, мы будем предполагать, что если /-и потре- битель потребляет ресурсы с интенсивностью Гу, то он добивается эффекта фу(гу) и функции ф}(г7) для всех потребителей измерены в одних и тех же единицах. Нас будет интересовать распределение ресурсов между по- требителями, обеспечивающее max У (гу) при огпани- чениях (4.3.30). Функция Лагранжа для этой задачи имеет вид N М / N \ Q = 2 (G) - 2 М - - Ri (4.3.31) W i=l \У=1 / Мы будем предполагать, что функции фу(гу) и Ri тако- вы, что экстремум Q единственный и в нем все наличное количество ресурсов распределяется полностью. Тогда оптимальное распределение ресурсов определяется ре- шением системы уравнений: v j i-=l AjOtji — 0, N ГjOLji Ri —— 0. 7=1 (4.3.32)
§ 4.31 ЗАДАЧА О РАСПРЕДЕЛЕНИИ РЕСУРСА 313 В этом случае Аг- имеет смысл цепы i-ro ресурса, а р;=- /И = S Хга;ч—цены /-го комплекта. i-_zl Будем считать, что потребители ведут себя так же, как и при распределении одного ресурса, т. е. на каж- дом шаге посылают в центральное устройство некоторую «сумму денег» (запрос), которую они изменяют в соот- ветствии с правилом (4.3.26) 9- Возникает вопрос о пра- вилах распределения ресурсов в центре, обеспечиваю- щих выход системы на оптимальное распределение. Цент- ральное устройство располагает при этом информацией о рецептурной матрице, ограничениях и, естественно, о запросах. Для правильной работы системы необходимо, чтобы м Cj — Гjpj = Гj 2 ^iCLji. i=4 Отсюда — м i—1 С другой стороны, " _ (4ЛЗЗ) Таким образом, имеется система из М уравнений с М неизвестными X/ (4.3.33), решая которую, мы можем на каждом шаге определить цены на ресурсы и соответству- ющие им цены на комплекты. Тогда П = р- = -ЙГ^—• (4.3.34) i=l !) Если потребитель располагает несколькими технологическими процессами, т. е. может использовать различные рецептуры, то та- кого потребителя мы будем представлять как нескольких потребите- лей, соответствующих различным технологическим процессам.
314 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV § 4.4. Коллективное поведение в задаче о регулировке мощности При построении и использовании радиотелефонных сетей связи возникает ряд существенных трудностей, свя- занных с высоким уровнем перекрестных помех. С ростом плотности радиостанций технические характеристики станций и частотно-временные характеристики эфира приводят к невозможности устранения взаимодействия между каналами. Величина помех для работающей пары радиостанций изменяется во времени и зависит от числа одновременно работающих радиостанций и используемых ими мощностей. Если мощности передатчиков могут из- меняться, то, вообще говоря, для каждой ситуации суще- ствует распределение мощностей, обеспечивающее в не- котором смысле оптимальную связь. Естественно, что за- дача о распределении мощностей может быть решена в центральном устройстве, которое для этой цели должно располагать полной информацией об обстановке в эфи- ре. Для большинства практических случаев организация центрального управления такого рода абсурдна, тем бо- лее, что необходимость дополнительных каналов связи для передачи управляющих сигналов и информации об условиях приема и используемой мощности приводит к возрастанию уровня помех. При независимой регулировке мощности каждым пе- редатчиком существует реальная возможность возникно- вения неустойчивых режимов. Действительно, увеличение мощности позволяет паре радиостанций улучшить каче- ство связи между собой, однако оно приводит к увеличе- нию уровня помех для других пар работающих радио- станций, для которых естественным способом борьбы с возрастающим уровнем помех является увеличение соб- ственной мощности. Возникающая при этом ситуация сходна с беседой за общим столом нескольких пар под- выпивших собеседников, когда все кричат, но никто ни- чего не слышит. Естественно рассмотреть вопрос о выработке правил локального поведения пар радиостанций, обеспечиваю- щих нормальные условия связи во всем коллективе. Рассмотрим N пар передатчик — приемник, временно предполагая связь односторонней. Пусть Е,-— мощность
§4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 315 /-го передатчика, связанного с /-м приемником. Сигнал f-го передатчика может восприниматься /-м приемником (/#=/) либо как сигнал, не несущий информации, либо как осмысленный сигнал, но «неинтересный» для этого приемника. В последнем случае мешающее действие сиг- нала резко возрастает. Например, хорошо известно, что прослушивающийся по телефону чужой разговор мешает больше, чем потрескивание и ровный шум. Обозначим через коэффициент ослабления мощности сигнала от /-го передатчика к /-му приемнику и через pi мощность аддитивного шума на входе /-го приемника; тогда отношение шум/сигнал на входе /-го приемника равно Pi “Ь 2 aijEj U М/ = 1 - 2 *> • • • > (4А1) aiiEi Мы будем рассматривать случай, когда коэффициен- ты а,ц не зависят от мощностей Ei, Е2, ..., EN. Заметим, что соотношение (4.4.1) сохраняется и в том случае, когда в системе используются I промежуточ- ных ретрансляторов с фиксированными коэффициентами усиления по мощности ks (s=l, 2, ..., /, ks<A для пас- сивных ретрансляторов, ks^\ для активных ретрансля- торов). Пусть tSj—доля мощности j-го передатчика, посту- пающая на s-й ретранслятор, a rt—доля мощности s-ro ретранслятора на входе /-го приемника (s=l, 2,..., /). Тогда коэффициенты усиления ktj при передаче сигнала от /-го передатчика к /-му приемнику через s-й ретранс- лятор, k\j — kstSjrt, различны для различных пар (/, /), что имеет место, например, в случае применения в рет- рансляторах направленных антенн1). Пусть —коэффициент, учитывающий «мешающее действие» единицы мощности сигнала /-го передатчика, прошедшего через s-й ретранслятор к f-му приемнику, a ws — аддитивный шум на входе s-ro ретранслятора2). !) Для частотно-разделенных каналов легко видны аналогичные примеры. 2) Коэффициенты bfj аналогичны коэффициентам (Г. и, как мы предположили, не зависят от передаваемой мощности.
316 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Тогда при условии, что отсутствует интерференция сиг- налов от передатчиков и ретрансляторов, полное отно- шение шум/сигнал на входе i-ro приемника равно Kt =-------(4.4.2) ' о—1 • При i аи — atj 2 bijkSiji s=l i p'i = Pi + 2 S=1 (4.4.3) (4.4.2) эквивалентно (4.4.1). Первое, что нам необходимо выяснить, — это вопрос об области возможных значений Хг*. Для этого запишем (4.4.1) в виде системы уравнений, линейных относитель- но Ei (i= 1, 2,..., Ai), — CL12E2 ... = pi, — &2lEi “I- ^2^22^2 — • • • CI2NEft — P2, (4.4.4) — aNiEi — a^2^2— ... — 'KnUnnEn = pN. Ограничения на возможные отношения шум/сигнал следуют из теоремы: каковы бы ни были положительные правые части системы уравнений (4.4.4), последняя имеет положительное решение Ег , Е2 ,.. •, EN в том и только в том случае, если все угловые главные миноры матрицы MN этой системы строго положительные (т. е. если для этой матрицы выполнен критерий Сильвестра). Для действительных матриц с неположительными не- диагональными элементами (матриц Метцлера) из поло- жительности единственной последовательности «окаймля- ющих» главных миноров следует положительность, всех главных миноров этой матрицы. Поскольку каждый глав- ный минор порядка т матрицы MN (m<^N) отвечает не- которому подколлективу исходного коллектива, состоя- щему из т членов, то из приведенной выше теоремы еле-
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 317 дует, что для того, чтобы вектор (Хь Х2,..., Х^) был достижим в коллективе из N радиостанций, т. е. для того, чтобы существовали конечные мощности £ь Е2,..., EN, при которых достигается X, необходимо, чтобы для лю- бого подколлектива рассматриваемого коллектива с чис- лом членов т (m<N) был достижим вектор (Xai, Ха2, . .. • • • ’ ^а/п) ’ составленный из тех координат вектора X, номера aj которых совпадают с номерами радиостанций, входящих в этот коллектив. При записи (4.4.1) и соответственно (4.4.4) мы суще- ственно использовали допущение об односторонности свя- зей. Заметим, что если при двухсторонней связи прямые и обратные каналы разнесены по частоте, то матрица для обратных каналов является транспонированной мат- рицей для прямых каналов и значения главных мино- ров при этом не изменяются, а следовательно, X, дости- жимые для прямых каналов, достижимы и для обратных. Назовем множеством AN множество всех достижи- мых наборов Х= (Xi, Х2,..., Xn) , для которых все глав- ные миноры матрицы MN (X) положительны, MN (X) = Х1#ц — #12 • • • — #1N I — #21 Х2#22 • • • #2N — aNt — aN2 • • • Xw#at;v (4.4.5) Нетрудно видеть, что AN зависит только от взаимо- действия радиостанций и не зависит от аддитивной по- мехи pi (i=l, 2,..., N). Это утверждение следует не только из (4.4.5), но и из (4.4.1), так как 6-к.ратное уве- личение аддитивной помехи компенсируется одновремен- ным 6-кратным увеличением мощностей всех пере- датчиков. Рассмотрим в качестве примера случай N = 2\ тогда £1 Р1Х2Д22 4~ Р2а12 XjX2^ 11^22 — ^21^12’ jg ___ Pla21 + РтА1а11 X1X2tZ116722 — ^21^12 (4.4.6) Для положительности Е{ и Е2 необходимо, чтобы Х^Х2 #21Д12 а11#22 (4-4.7)
318 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ IV На плоскости (М, ^2) множество Л2 есть часть положи- тельного квадранта, ограниченного ветвью гиперболы. При приближении к границе области 'мощности стремят- ся к бесконечности. Рассмотрим область достижимых векторов AN в про- странстве векторов К (A-пространстве). Область, соот- ветствующая множеству AN, связна. Это утверждение вытекает из следующих соображений. Пусть А и А*— два вектора с положительными ком- понентами такие, что А*’^А, т. е. А< > А{ (i= 1, 2,... ..., N). Всегда можно выбрать положительное число р, настолько большим, чтобы все элементы матрицы A* = рЕ-М^(А*) (4.4.8) были положительными. При этом очевидно, что элементы матрицы А ==рЕ-М*(X) также положительны. Пусть г* и г — максимальные ха- рактеристические числа матриц А* и А соответственно. Из свойств положительных матриц и условия ац^ац (cci, и «Г; — элементы матриц А и Л*) следует, что r*^r. С другой стороны, положительность всех угловых главных миноров Л^(А) является необходимым и доста- точным условием, при котором соблюдается неравенство г<ц. Следовательно, если teEAN, то г<ц и г*<р, отку- да 1*еЛх. Таким образом, если некоторый вектор Л достижим в коллективе радиостанций, т. е. k^AN, то достижимым является и любой вектор А*'^А. Связность области с очевидностью следует из последнего утверждения. На практике мощности радиостанций Ег- ограничены и, следовательно, достижимые в коллективе значения от- ношений шум/сигнал определяются не только принадлеж- ностью области Л7^, но и ограничениями вида Ei^.EiQ (4=1, 2,..., N). Дополнительные ограничения на мощ- ность выделяют из множества AN множество AlV (Ео), которое также связно. Пусть опять А*>А и h(=AN (Ео). Предположим, что векторы А* и А отличаются только одной координатой, т. е. Ai — А^, • • •, А$ = А» -j- х, ...»Ajv = Ajy. (4.4.9)
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 319 Как уже было показано выше, из условия ZeAw следует Х*еАА и, следовательно, система уравнений KjOjjEj 2 ajkEk ~ Pj {j — 1 > 2,..., N) (4.4.10) k £ j имеет положительное решение Ei , Е%, • • •, E*n. Диф- ференцируя (4.4.10) по x с учетом (4.4.9) и обозначая £>,• = —имеем hkOkkDk — 0, k -f— ’ (4.4.11) (Х{ -f- х) diiDi ^2 (ZijDj — a^Ei. jVi Аналогично сказанному выше, из условия AeAN (£0) следует, что система (4.4.11) имеет относительно вели- чин Dj единственное положительное решение, т. е. Dj>0 (j=l, 2,..., N), и, следовательно, при переходе от X к X* используемые мощности не возрастают. Из условий XeAw(£0) и следует (Ео) и область AN(E0) связна. Любой луч, выходящий из начала ко- ординат в положительный гипероктант, пересекает гра- ницу AN один и только один раз. Для случая двух пар радиостанций (А'=2), учиты- вая (4.4.6), получаем неравенства, определяющие об- ласть А2 (До): £ > Р1^2а22 ~Ь Рга12 Е Е1а21 4~ АЛ1а11 (44 12) Ю Х^А.2^11^22 а12а21> ~~ а12а21 Отсюда следует, что область А2(До) ограничена ветвями двух гипербол (Х^ацДю — рх) (ДюОа! 4" Pi)i и22 Xi (%2^22^20 — Р2) > ~ (-^20^12 + Р1) • а11 (4.4.13) Пример такой области приведен на рис. 4.10. При использовании предельных мощностей качество приема определяется точкой А на рис. 4.10. При этом одна из пар радиостанций имеет преимущество в ка- честве приема. Заметим, что точка А является ситу- ацией равновесия, так как увеличение собственных
320 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV мощностей радиостанций невозможно, а уменьшение мощности одной из радиостанций приводит для нее к ухудшению качества приема. Однако выход на пиковую мощность, обеспечивающий возможность хорошего при- ема для одной станции, может сделать невозможным прием для другой станции. Нас будет интересовать возможность организации локального поведения для обеспечения удовлетворительной связи между всеми парами радиостанций в коллективе (если это возмож- но). Из приведенного простейшего примера видно, что если критерием локального выбора мощности являет- ся величина А, то эта задача не имеет решения. Следо- вательно, для организации целесообразного поведения коллектива радиостанций необходимо изменить локаль- ные цели. Здесь возникает несколько возможностей. Пусть ki—оценка величины А/ для f-й пары радио- станций, такая, что &г-Аг имеет смысл убытков, которые несет i-я пара радиостанций, если отношение шум/сиг- нал в канале связи равно А/1). Тогда представляется *) Вообще говоря, в большинстве практических случаев зави- сит ст А|.
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 321 целесообразным введение единой платы за мощность. Если с — стоимость единицы расходуемой мощности, то каждой паре радиостанций естественно стремиться к минимизации величины k^i + CjEi *). Из (4.4.1) имеем Эл, 1. (4А14) д Тогда условие ^7 (ЛЛ/“г cEz) =0 выполняется при сЕ. (4.4.15) и распределение мощностей в точке равновесия опреде- ляется из решения системы нелинейных уравнений: с-^-Е\-а12Е2-...— Е* = Pl, f> г***) iJ>-kTE2-.---Ey=p.2, (4.4.16) — ащЕ1 — Qn2E.2 — ... Ч—г— Eiv = рх. rn Использованные локальные критерии наводят на мысль, что такой способ организации поведения близок в своей основе к минимизации средневзвешенного от- ношения шум/сигнал в коллективе при ограничении на суммарную мощность радиостанций* 2), причем измене- ние «цены» мощности должно приводить к изменению распределения мощностей в коллективе. Другая возникающая здесь возможность связана с организацией «достаточно хороших» условий функцио- нирования всех членов коллектива путем обеспечения min maxAj. Нетрудно видеть, что это достигается при к i равенстве всех Л; (точка В на рис. 4.10). Учитывая 0 Или + 2) Следует иметь в виду, что сказанное не является решением за- дачи и может рассматриваться лишь как возможный путь организа- ции коллективного поведения в этой задаче.
322 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV возможность различной важности каналов связи, можно говорить о достижении min max ajZj, где aj — коэффи- х j циент, отражающий важность различных каналов связи. Таким образом, задачу организации «достаточно хоро- ших» условий связи можно разделить на две части: установление заданного уровня шум/сигнал Х°=(Д1, ... , А#) и поддержание заданного отношения. При этом мы предполагаем, что вектор 2? принадлежит области An(Eq). Рассмотрим решение второй части задачи. Полагая, что ьй паре приемник — передатчик в каждый момент времени t известны «текущие» величи- ны А/(0, Е?(0» зададимся для каждого I числом Ai>0 —тем отношением шум/сигнал, которое надле- жит обеспечить в ьй паре. Подчеркнем, что z’-му пере- датчику неизвестны величины N, I, /=1, 2, ..., N, МО. . /#• Свяжем с каждым передатчиком автомат А\ состо- яние которого в момент t для простоты будем отож- дествлять со значением мощности Еi(t) t-ro передатчи- ка, <£’го. Каждому состоянию E\(0 автомата отвечает некоторое значение лг(0, величина которо- го зависит от состояний всех автоматов А\ i=l, 2, ..., .V, и определяется выражением (4.4.1). Рассмотрим простейшую тактику изменения состоя- ния автомата Дг, которая определяется лишь величи- нами Ei(t), л®. Выберем дискретную шкалу вре- мени с шагом At; тогда состояние автомата А1 в мо- мент /+Д/ определяется его состоянием в момент t и значением Z2(/) в соответствии с формулой Ei (О если ei-------- (4. 4. 17) Ei(t) в противном случае, где —некоторая константа, на выборе которой мы еще остановимся.
§ 4.4) ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 323 Из (4.4.17) следует, что изменение состояния авто- мата по абсолютной величине тем больше, чем больше рассогласование Выберем константу ег- пропорциональной времени Л/, т. е. ei = %i^t. Это значит, что при фиксированном рассогласовании приращение энергии тем больше, чем реже производится регулировка. Ясно, что тактике (4.4.17) при А/->0 соответствует следующая дифференциальная тактика: i = (4.4.18) Как легко видеть, величина 1/хг- играет роль памяти автомата А\ В дальнейшем будут изучены условия существова- ния устойчивых режимов работы в коллективе радио- станций, снабженных автоматами которые непре- рывно и независимо управляют выходными мощностя- ми передатчиков. Отметим, что мы неявно предполагаем, что приборы, которыми измеряются величины обладают достаточной инерционностью, так что на этих величинах не сказываются быстрые изменения, связанные с пере- дачей сигнала, несущего информацию от передатчика к приемнику. К этому вопросу мы вернемся несколь- ко позднее. Объединяя выражения (4.4.4) и (4.4.18), получим систему линейных дифференциальных уравнений пер- вого порядка, которая описывает изменение во времени мощностей в коллективе радиостанций, использующем автоматы А\ i = l, 2, ..., N, X? Ё1 (/) + — аУ2Е2 — • • • — QinEm — р1У Х2Ё2 (t) — а21Ег ^a22E2 — ... — a2NEN = Ръ, (t) - - aN.E. Ху . . — ру. (4.4.19)
324 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Определим диагональную матрицу DN =|47)||, du = aii^i = ——, dij = O, i=j£=j, i,/=1, 2, .. ., N. Тогда система xi уравнений (4.4.19) примет вид DN Е + 1№Е = Р. (4.4.20) Стационарное решение (4.4.20) будет устойчивым, если устойчиво нулевое решение однородной системы уравнений. Общее решение Ceat однородной системы устойчиво, если Rea<0, где a — корень уравнения (aDN + М»)С = 0, (4.4.21) где С — произвольный вектор. Для нахождения а име- ем уравнение det КО*)-1 MN + a£| = 0. (4.4.22) Здесь Е — единичная матрица. Отсюда следует, что регулировка мощности устой- чива (асимптотически) тогда и только тогда, когда спектр матрицы G=(DN)~XMN расположен в правой полуплоскости комплексной плоскости. Для матрицы G = имеем аи 8и = '^ gij = — xoa.. ’ (4.4.23) f ¥= /? h 1, 2, ..., N, т. е. G есть снова матрица Метцлера. Положительность элементов диагональной матрицы является необходи- мой и достаточной, чтобы устойчивая матрица MN, умноженная на эту диагональную матрицу, дала бы устойчивую матрицу. Таким образом, регулировка мощности по алгорит- му (4.4.18) в коллективе радиостанций устойчива тог- да и только тогда, когда Это утверждение вер- но при любых хг>0, так что коллектив не связанных между собой автоматов А* может решить задачу регу- лировки мощности — выбор Х°, если только VgAiV.
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 325 Мы предполагаем, что величины Ei(t), входящие в систему уравнений (4.4.19), измеряются приборами, которые сглаживают флуктуации этих величин, связан- ные с прохождением сигналов. В противном случае автоматы Лг’, как легко видеть, препятствовали бы пе- редаче полезной информации от передатчика к прием- нику. Далее считается, что величина отношения шум/сиг- нал определяется точно. А это возможно лишь при наличии фильтра с достаточно большой постоянной времени. Поэтому хотя статистическая природа сигналов и шумов непосредственно не сказывается на работе авто- матов из-за указанных усреднений, остается эффект, которым пренебрегать нельзя,— это запаздывание. Ниже будет рассмотрен случай, когда величина ХДО становится известной точно, но с некоторым запаздыванием т2\>0, £=1, 2, ..., А/, связанным с неизбежным интегрированием отношения шум/сигнал на входе приемника. Тогда дифференциальную так- тику (4.4.18) автомата Аг‘ следует записать в виде формулы 1=1,2,...,?/. (4.4.24) Для простоты положим тг-=т, i=l, 2, ..., N, а тактику (4.4.24) заменим на = x.£j (/ _ т) _ т) _ , i= 1, 2, ..., N. (4.4.25) Ясно, что тактика (4.4.25) описывает автомат, от- личный от А\ Этому автомату для работы требуется точное знание величины т. Однако физические сообра- жения и вид выражений (4.4.24) и (4.4.25) наводят на мысль, что вблизи стационарного режима (если он, конечно, существует) автоматы (4.4.24) и (4.4.25) ве- дут себя, грубо говоря, одинаково. Математический же анализ автомата, обладающего дифференциальной так- тикой (4.4.25), много проще.
326 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ (ГЛ. IV Объединяя (4.4.25) и (4.4.1), получим систему ли- нейных дифференциальных уравнений с запаздываю- щим аргументом DN4?E(t) + MNE(t — х) = Р. (4.4.26) Асимптотическая устойчивость стационарного режима определяется устойчивостью нулевого решения одно- родного уравнения DN^E(t) + M”E(t-x) = 0. (4.4.27) Решением (4.4.27) является экспонента Се^, причем для определения р имеем трансцендентное уравнение det (pDN + = 0. (4.4.28) Решение асимптотически устойчиво, если для всех р, являющихся корнями уравнения (4.4.28), выполня- ется условие Rep<0. Примеры. a) W = 1; тогда получаем р + хе" рт = 0. (4.4.29) Введем следующие обозначения: v = Р/х, г = хт, г > 0; (4.4.30) тогда (4.4.29) примет вид v + e'vr = 0. (4.4.31) Полагая v = х + ио и приравнивая нулю мнимую и действительную части, получим систему уравнений х + e~rx cos roj = 0, 1 (4.4.32) м—е sin гм = 0. ) Покажем, что при условии Г < -у (4.4.33) корни уравнения (4.4.31) расположены в левой полуплоскости на комплексной плоскости. Для этого покажем, что при условии (4.4.33) и х 0 система уравнений (4.4.32) решений не имеет. В силу х 0 решения первого уравнения возможны лишь при -у + 2&л < мг + 2fai, k = 0, ± 1. . . . (4.4.34)
^4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 327 Оказывается, что при выполнении (4.4.33) второе уравнение системы (4.4.32) в этой области решения не имеет. Действительно, у этого уравнения всегда есть решение со = 0, далее из рис, 4.11 видно, что Рис. 4.11. если тангенс угла наклона прямой £ к оси со шения возможны лишь в интервале меньше единицы, то ре- (4.4.35) Условием этого является неравенство или (4.4.36) е ГХ < е 2г • (4.4.37) Но так как х^О, то благодаря (4.4.33) это неравенство выполнено. Итак, все корни уравнения (4.4.29) расположены в левой полупло- скости. б) N=2, полагая для простоты Хр=Х2=х, получаем В \ 2 -£- + е-₽т) л0л0а11вм-е-2₽тл12а21 = 0, (4.4.38) или, используя (4.4.30), (v+e-°r)2 = e-2orA. Здесь величина А определяется выражением Л = а 11а22^1 ^2 (4.4.39) (4.4.40) Если (к®, XJ})gA2, равенство то, как легко отсюда видеть, для А имеется не- 0<Л<1, (4.4.41) “ 2 л 2 *
328 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV где правая граница соответствует наибольшему взаимодействию меж- ду станциями, при котором еще возможна их совместная работа, ле- вая — наименьшему. Извлекая корень и приравнивая мнимую и действительную части (4.4.39) нулю, получаем' систему уравнений [х Н- е~гх (1 + У А ) cos оуг = О, ~ Г _ (4.4.42) (.<» — е rx (1 i V А ) sin wr = 0. Повторяя рассуждения предыдущего примера, можно прийти к выводу, что совместные решения этой системы уравнений невозможны, если выполнено неравенство (1+/А) е~гх<~£- • (4.4.43) Тогда, учитывая (4.4.41), для х 0 имеем (1 ± У А ) e~rx max max (1 + У А ) е~гх < 2. (4.4.44) х А Если на величину г наложить условие 2г<4~, (4.4.45) то неравенство (4.4.43) соблюдается и, следовательно, при этом усло- вии все корни уравнения (4.4.39) лежат строго в левой полуплоскости. Из рассмотренных примеров видно, что при нали- чии запаздывания скорость регулировки мощности и следует выбирать не слишком большой — ограничения даются выражениями (4.4.33) и (4.4.45). Чем больше запаздывание, тем больше должна быть величина па- мяти автомата для того, чтобы при сохранялась устойчивость. Эти примеры наводят на мысль, что ограничения на скорость регулирования, связанные с запаздыванием, должны зависеть от полного числа пар радиостанций. Такой результат противоречил бы локальному подходу к задаче регулировки мощности, принятому в настоя- щей работе. Действительно, в этом случае пришлось бы каждому передатчику сообщать дополнительно чис- ло N. К счастью, это не так: существует фиксированное не зависящее от N число для заданного т — максималь- но допустимая скорость регулирования, при которой сохраняется асимптотическая устойчивость регулиров- ки мощности.
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 329 Чтобы изучить случай произвольного числа радио- станций, распишем подробно уравнение (4.4.28), пола- гая xi=x2=...=xw=x (далее будем писать А вместо Х°, так как путаница невозможна): — «i2e—рт • • • -aiNe~^ — #21^ —1“ ® РТ^2#22 . . — О.2Цв -— а^\е + е = 0. (4.4.46) Матрица, стоящая под знаком определителя, не есть матрица Метцлера, так как все элементы, вообще го- воря, комплексные. Умножив i-ю строку определителя (4.4.46) на e^/aiiki, получим (1 4-. \ * / ^1«11 ^2i Л +4-е₽^ . . Л2а22 \ / aiN Xjfln a2N Xa^22 -“Nt aN2 . ' . ^NaNN f'NaNN ' \ Х Таким образом, получено уравнение для собственных значений матрицы а12 Чаи в - а21 « ^2а22 aNi aN2 >NaNN kNaNN __ QiN ^ian • • • a2N • (4.4.48) ^•2^22 • • • 1 Каждый главный минор этой матрицы связан с соот- ветствующим главным минором MN (4.4.5) положи- тельным множителем, поэтому при АеЛя матрица
330 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Метцлера В устойчива. С каждым характеристическим числом Vi матрицы В связано некоторое число корней 01ц уравнения (4.4.46) соотношением 1=1,2........N, kt = 1, 2, ... (4.4.49) Будет доказано следующее утверждение. При вы- полнении условия 2хт<1 (4.4.50) действительные части всех корней трансцендентного уравнения (4.4.46) лежат в левой полуплоскости, если XeA;v, и, следовательно, регулировка мощности с за- паздыванием асимптотически устойчива. В обозначениях (4.4.30) уравнение (4.4.46) эквива- лентно уравнению [В4-ое®’-Е|=0, (4.4.51) а условие (4.4.50) примет вид 2г <1. (4.4.52) Докажем, что корни уравнения (4.4.51) при условии (4.4.52) расположены в левой полуплоскости, для чего рассмотрим величину z = — vevr = — (х + t©)er<*+<®). (4.4.53) Покажем, что эти точки расположены на комплексной плоскости так, что при выполнении (4.4.52), х^О и любых © ни одна из них не совпадает ни с одним ха- рактеристическим корнем матрицы (4.4.48). Дальнейшие рассуждения станут прозрачными, ес- ли отдельно рассмотреть случай чисто мнимых корней (4.4.51). Тогда имеем z(tco) =—iae~ia>T, (4.4.54) или г (t<i>) = ш cos ^<or —+ Zw sin (wr--<o 0, (4.4.55) г (jw) = — © cos (ar -|- -y j— ia sin (©r + -j-), © < 0. (4.4.56)
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 331 На рис. 4.12 изображена на комплексной плоскости кривая z(ia>) при некоторых фиксированных значениях Л Л Л у* г=—, -g-, -g-. Видно, что при со, меняющемся от —оо до +оо, кривая сначала спирально «наматыва ется» на начало координат, а затем «разматывается» проходя через начало ко- ординат при (о=0. Если при этом кривая z(t®) проходит через точку, изо- бражающую на комплекс- ной плоскости какое-ли- бо характеристическое чи- сло матрицы В, то у уравнения (4.4.51) появ- ляется чисто мнимое ре- шение. (Напомним, что при АеА"- матрица В ус- тойчива и все ее характе- ристические числа нахо- дятся в правой полуплос- кости.) Из рисунка также вид- но, что если все характе- ристические числа заклю- чены в области, образо- ванной двумя первыми от витками спирали, то чисто Рис. 4.12. начала координат четверть- мнимые корни (4.4.51) невоз- можны. В силу действительности матрицы В и зеркальной симметрии z(t(o) относительно действительной оси до- статочно рассмотреть область между действительной осью и первым четверть-витком спирали при <о>0, как это изображено в другом масштабе на рис. 4.13. Оказывается, если заранее известно, что характери- стические числа матрицы Метцлера расположены в правой полуплоскости, то они локализованы в некото- рой конечной области этой полуплоскости. Пусть Bw=||&,j|| есть матрица Метцлера порядка N, такая, что Ьц=\, i^j, i, j=l, 2, ..., N, и пусть действительные части Re v/ всех ее характеристических чисел Vi строго положительны, i=l, 2,..., АГ. Тогда все
332 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV характеристические числа этой матрицы лежат внутри единичного круга на комплексной плоскости, центр ко- торого помещен в точку 1. Рассмотрим неотрицательную матрицу (Е— BN). По теореме Перрона — Фробениуса для неотрицатель- ных матриц она имеет неотрицательное характеристи- ческое число р, такое, что модули всех характеристиче- ских чисел цг- матрицы (E — BN) не превосходят р, т. е. Р>|ц«|, i=l, 2, ..., АГ. (4.4.57) Характеристические числа матриц (Е—BN) и B1V связаны очевидным соотношением pi=l—Vi, i=l, 2,..., АГ. (4.4.58) Заметим, что р<1, так как все характеристические числа матрицы BN по условию высказанного выше утвер- ждения расположены в левой полуплоскости и от при- бавления к ней Е сдвигаются вдоль действительной оси на единицу. Учитывая это, из (4.4.57) и (4.4.58) имеем 1>р>|1-V{|, i = l,2.......N, (4.4.59) что и требовалось доказать. Из доказанного утверждения следует, что характе- ристические числа произвольной матрицы Метцлера HN порядка N, все характеристические числа которой имеют положительные действительные части, располо- жены в круге радиуса о с центром в точке о, где а = max ha. (4.4.60)
§ 4.4] ЗАДАЧА О РЕГУЛИРОВКЕ МОЩНОСТИ 333 На рис. 4.13 пунктиром изображена окружность еди- ничного радиуса, внутри которой заключены все харак- теристические числа матрицы В. Видно, что спираль- ная кривая z(ico) при любом фиксированном г<х/2 не пересекает эту окружность, следовательно, при этом условии чисто мнимых корней у уравнения (4.4.46) не будет. Но так как при г=0 (т=0) все корни (4.4.46) находятся в левой полуплоскости, то при выполнении условия г<.Ч2 они не выйдут за ее пределы. Это мож- но строго показать аналитически. Рассмотрим комп- лексную величину (4.4.53) и покажем, что при выполне- нии (4.4.52) точки z находятся вне единичного круга без границы с центром в точке 1, т. е. |z-l|>l, (4.4.61) и, следовательно, никакое 0 в силу доказанного утверж- дения не является корнем (4.4.46). Так как указанный круг находится в правой полуплоскости, то достаточно рассмотреть случай х^О. Имеем |z — 1| = V\+erxF (х, (О), (4.4.62) где F(x, (о) =со( —2 sin сог+соегх) 4-х(2 cos cor-|-xerx). (4.4.63) Вследствие четности этой функции по со достаточно рас- смотреть со^О. а) со = 0; тогда |z — 11 = V1 + 2хегх + х2е2™ > 1. (4.4.64) б) со>0; тогда заметим, что F(x, со) при любом фиксированном со монотонно растет с ростом х^О. Для случая х = 0 имеем F(0, со)=со(—2sincor+co). (4.4.65) Легко видеть, что при выполнении условия 2г< 1 при любом со>0 соблюдается неравенство Г(0, со)>0. (4.4.66) Из монотонности F (х, со) вытекает F(x, co)>F(0, со) >0. (4.4.67) Следовательно, всегда выполнено неравенство (4.4.61), что и требовалось доказать.
334 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Окончательно получаем следующее. Регулировка мощности, осуществляемая однородным коллективом автоматов, заведомо асимптотически устойчива, если только память автомата Ai выбрана так, чтобы выпол- нялось условие 1/х>2г. Таким образом, увеличение коллектива (увеличение^ не приводит к увеличению «трудности» решения за- дачи регулировки мощности. Сравнение (4.4.50) с (4.4.45) и (4.4.33) показывает, что каждому автомату Аг при М>3 уже неважно, сколько членов в коллективе. Полученные выше результаты говорят о том, что при заданном достижимом векторе X°eA2V(£’o) сущест- вует способ организации локального поведения, обес- печивающий устойчивое регулирование распределения мощностей в коллективе радиостанций. При этом ос- тается открытым вопрос о способе выбора Х°. Если вы- бор АЛ осуществляется в центральном устройстве, то центральное устройство должно располагать информа- цией о ситуации, сложившейся в коллективе. Желатель- но, чтобы эта информация была ограниченной. Из (4.4.1) следует, что пропорциональное увеличение всех мощностей снижает отношение шум/сигнал только за счет уменьшения влияния аддитивной помехи р. С дру- гой стороны, изменение X? приводит к различным из- менениям Ei у различных пар радиостанций. При этом, если Ej=EjQ, т. е. /-й передатчик достиг своей пиковой мощности, то увеличение мощностей других передатчи- ков может только ухудшить отношение шум/сигнал у /-го приемника. Учитывая сказанное, можно предло- жить следующий способ центрального управления, ориентированный на обеспечение min max Ху. Цент- ралыюе устройство уменьшает установочное значение = /=1,2,...,#) до тех пор, пока не будет по- лучен сигнал о выходе какого-либо передатчика на предельную мощность. С момента получения такого сигнала центральное устройство начинает увеличивать установочное значение Х° до тех пор, пока число полу- ченных сигналов о выходе на предельную мощность не станет равно числу сигналов о прекращении использо- вания предельной мощности. При этом центральное устройство не интересуется тем, какая из радиостанции
§ 4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 335 использует предельную мощность. Интерес представля- ет только тот факт, что существует радиостанция, ис- пользующая предельную мощность. Количество инфор- мации, поступающее при этом в центральное устройст- во, по-видимому, близко к минимальному. Изменение значений Х° может производиться не непрерывно, а по- шагово, и притом сравнительно редко. § 4.5. Децентрализованный способ управления установлением соединений в сети связи Современные сети связи, предназначенные обеспе- чить одновременный обмен информацией между боль- шим числом пар абонентов, охватывают огромные тер- ритории. Большое число узлов связи и значительные расстояния между ними не позволяют осуществить сое- динения каналами связи всех узлов по принципу «каж- дый с каждым». В силу естественной эволюции сети связи, экономических и технических ограничений сеть связи образована такой системой каналов связи, при которой установление связи между двумя пунктами, как правило, требует использования транзитных пунк- тов. Так, например, человек, разговаривающий по те- лефону из Комарова с абонентом в Переделкино1), ис- пользует два транзитных пункта, в которых осуществ- ляется коммутация каналов связи: Ленинград и Моск- ву. Заметим, что в случае повреждения канала связи Ленинград — Москва требуемая связь может быть ус- тановлена, например, по маршруту Ленинград—Ки- ев — Москва. При достаточно развитой сети связи су- ществует несколько возможностей для установления связи между двумя пунктами и выбор маршрута дол- жен определяться, исходя из ряда требований. Такими требованиями могут быть: наименьшее число транзи- тов, наибольшая надежность установления связи и т. п. Качество работы сети связи, как правило, оценивается вероятностью отказа в установлении связи, и маршру- ты в системе должны выбираться так, чтобы вероят- *) Такая связь устанавливается достаточно часто, учитывая, что в обоих указанных пунктах расположены Дома творчества Союза советских писателей.
336 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV ность отказа была наименьшей. В приведенном выше примере, если нагрузка в каналах Ленинград — Москва, Ленинград — Киев, Киев — Москва примерно одинако- ва, то установление маршрута Ленинград — Киев — Москва эквивалентно обслуживанию двух заявок и, следовательно, выбор такого маршрута заведомо уве- личивает вероятность отказа в системе по сравнению с маршрутом Ленинград — Москва. С другой стороны, выбор хотя и более длинного, но существенно менее загруженного маршрута может привести к уменьшению вероятности отказа. Задача о выборе маршрута может решаться цент- рализованно, для чего необходимо располагать в еди- ном центре всей информацией о сети связи, что приво- дит к явно ненадежной и неэкономичной системе управ- ления. Здесь мы рассмотрим возможность организации коллективного поведения узлов коммутации, порож- дающего, как будет видно из результатов эксперимен- тов, достаточно хорошее управление сетью связи. Опишем вначале модель коммутируемой телефонной сети. Такую сеть можно изобразить в виде связного ориентированного симметрического графа, вершинам и дугам которого соответствуют узлы коммутации и вхо- дящие и исходящие магистрали. Каждая магистраль со- стоит из ряда каналов, число которых определяет ее пропускную способность. По любому из каналов в каж- дый момент времени может передаваться лишь одно со- общение, вестись один разговор. Каждая магистраль мо- жет находиться в одном из двух состояний: исправном или неисправном. Если магистраль неисправна, то ни один ее канал не может быть использован для передачи сообщения, наоборот, любой незанятый канал исправной магистрали может быть предоставлен для установле- ния связи. Предполагается, что любой канал входящей в узел магистрали может быть скоммутирован с лю- бым каналом произвольной исходящей из этого узла магистрали. Магистраль 1ц, исходящая из некоторого узла и/ и ведущая в некоторый узел V;, характеризуется вероят- ностью Sij выхода из строя, средним временем восста- новления хы] и законом распределения этого времени. Поскольку ни один абонент Не может ни послать, ни
§ 4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 337 получить сообщения, минуя некоторый коммутационный узел, к которому этот абонент подключен, и поскольку нас будет интересовать управление потоками информа- ции лишь между узлами коммутации, можно считать, что источниками и приемниками нагрузки являются ком- мутационные узлы. Нагрузка, создаваемая узлом vt (г=1, 2, ..., N, где N— число узлов сети), характери- зуется вектором вероятностей {Тц} (/=1, 2, ..., N, i¥=j)> причем число представляет собой вероятность по- ступления заявки на установление связи узла Vi с узлом Vj. Каждый разговор продолжается в среднем некоторое время тр. Между парой узлов могут, вообще говоря, происходить одновременно несколько разговоров. Если в узле Vi возникает потребность в связи с уз- лом Vj, система управления должна обеспечить нахож- дение пути между этими узлами, состоящего из исправ- ных магистралей, в каждой из которых есть хотя бы один свободный канал. Число промежуточных транзит- ных узлов коммутации определяет обычно качество связи и является одним из параметров оценки оптималь- ности управления. С числом транзитных узлов комму- тации связан и другой критерий работы сети — вероят- ность благополучного окончания разговора, т. е. ве- роятность того, что разговор не будет прерван в результате повреждения одной из используемых магист- ралей. Основным же параметром оценки качества управ- ления является вероятность отказа в установлении свя- зи, обусловленного одной из трех причин: а) в результате повреждения магистралей сеть рас- палась на несвязанные между собой части, а узлы, нуждающиеся в связи, находятся в различных подсетях; б) путь отстутствует вследствие неэкономного заня- тия каналов поступившими ранее заявками, иначе го- воря, связь могла бы быть осуществлена, если бы пре- дыдущие заявки распределялись по-иному; в) путь реально существует, но либо из-за недостат- ка сведений о сети, либо из-за неправильной их обра- ботки система управления не может его найти. Очевидно, что первая из упомянутых причин опре- деляется лишь надежностью сети и не зависит от спо- соба управления. Следует заметить, что хотя вероят- ность разрыва сети на несвязанные части и невелика,
338 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV особое значение приобретает при этом сохранение оп- тимального управления внутри каждой из образовав- шихся подсетей, что, в частности, обусловливает непри- годность централизованных систем управления. Если магистрали и узлы сети не повреждаются и обладают неограниченной пропускной способностью, то для управления сетью достаточно раз и навсегда ука- зать кратчайшие маршруты, т. е. указать для каждого узла Vj первый транзитный узел при установлении связи узла Vj с узлом иг-. Рассмотрим простейший спо- соб установления такого перечня. Для этого поставим в соответствие каждому узлу Vj сети набор чисел hVp.if которые будем называть высотами. Высота hVjVi рав- на минимальному числу коммутационных узлов (тран- зитов) между узлом Vj и узлом vb Значения hv .?к бу- дем называть ^-рельефом сети. Пусть в каждом узле известны своя собственная высота и высоты ближайших соседей1). Тогда для обеспечения прохождения сиг- налов по кратчайшим путям достаточно в каждом пункте направлять маршрут в узел, имеющий среди ближайших соседей минимальную высоту. Заметим, что высоты ближайших соседей могут быть равны высоте узла или отличаться от нее на ±1. Легко видеть, что других возможностей не существует. Следовательно, вместо значений hv.z,k достаточно в каждом узле иметь набор чисел Д^. GE {— 1,0, -ф 1}, где Д.^. показывает, насколько изменится высота узла по отношению к узлу vf{ при переходе от узла Vj к узлу vt-. Замена высот приращениями существенно упрощает структуру релье- фа. Теперь для выбора направления в узле v, может быть выбран любой узел Vf, для которого Д^.. <0. При сделанных предположениях относительно ис- правности всех магистралей и их неограниченной про- пускной способности построение t’-рельефа не связано с какими-либо трудностями. Пусть из узла vj по всем направлениям послан сигнал, имеющий значение 1. Попав в первый транзитный узел, сигнал устанавлива- Ч Ближайшим соседом узлаУу будем называть узел соеди- ненный с узлом t’y магистралью без транзитных пунктов.
§ 4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 339 ет в этом узле высоту, равную 1. Значение сигнала уве- личивается на 1, после чего он отправляется по всем направлениям. В каждом узле устанавливается высота, соответствующая минимальному значению поступивше- го на него сигнала. Все сигналы, имеющие большее значение, чем минимальный, прекращают распростра- нение в данном узле. Нетрудно видеть, что указанная процедура приведет к достаточно быстрому установле- нию а,-рельефа. Проведение указанной операции для каждого из узлов позволяет построить полный и-рельеф сети. Если предположить, что задержки в распростране- нии сигналов определяются только узлами коммутации и все одинаковы, то легко построить процедуру форми- рования Д-рельефа. Пусть из узла Vj посылается по всем направлениям стандартный сигнал ajy снабженный меткой узла и?-. Если сигнал поступил на узел с»г- от 1 * узла Vk впервые, то &vivk = —I и далее он направляет- ся из узла Vi по всем направлениям, по которым на узел Vi не поступил сигнал а}. Для этих направлений Дг^=+1. Если на узел Vi вторично поступит сигнал а; от узла vs, то Д^л=0 (вместо Д^:.5 — +1) и сиг- нал aj прекращает свое распространение. Нетрудно ви- деть, что за время, равное max где т — за- держка в узле коммутации, будет сформирован Д- рельеф. При неизменной сети повторное применение указан- ных алгоритмов не приведет к изменению ни ^-релье- фа, ни Д-рельефа. Заметим, что на неизменной сети понятие управления теряет смысл, так как рельефы могут быть установлены однократно при проектирова- нии сети или в процессе ее эксплуатации. Естественно, что в случае выхода из строя одной из магистралей имеющийся в сети рельеф не будет отвечать действительному положению дел в сети. Если форми- рующие рельеф устройства продолжают работать, то рельеф изменится и будет соответствовать новой конфи- гурации сети. Пренебрегая возможностью занятости магистралей, т. е. предполагая их бесконечную про-
340 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV пускную способность, можно говорить, что система при- спосабливается к изменяющейся конфигурации сети. Потери вызовов при этом будут тем меньше, чем быст- рее устройства формирования рельефа реагируют на изменения в сети. Даже в весьма ненадежных сетях частота повреждений магистрали не превосходит пя- ти — шести раз в сутки. Среднее время, затрачиваемое на исправление, приблизительно равно в реальных се- тях 1—2 часам. Скорость формирования рельефа без особых усилий может быть доведена до 2—4 изменений рельефа в секунду, что обеспечивает практически мгно- венную реакцию рельефа на изменение сети. Как видно, относительно редкие повреждения ма- гистралей легко учитываются, и при достаточно высокой скорости работы управляющего уст- ройства рельеф почти всегда пра- вильный. Учет перегрузки направле- ний представляет более сложную задачу, так как частота занятия и освобождения отдельных магистра- лей сравнима с частотой работы управляющего устройства и рельеф не успевает подстроиться к быстро меняющейся ситуации. Поясним это на примере. Пусть каждую секунду все каналы ма- гистрали /51 (рис. 4.14) заняты с вероятностью рз> и в следующую секунду с вероятностью рога освобождает- ся хотя бы один из каналов. =3 — высота узла У5, полученная в момент t при условии полной занятости магистрали, оказывается неверной к моменту /-f-1 с ве- роятностью /?осв, высота, вычисленная при наличии сво- бодных каналов, равна hz,lV5 = l и неверна в произ- вольно взятый момент с вероятностью рз. Если среднее время, в течение которого магистраль полностью заня- та, и время, в течение которого свободен хотя бы один канал, одного порядка и не сильно отличаются от пе- риода работы управляющего устройства, то высота с большой вероятностью несет неверную информацию. По- кажем с помощью простых расчетов, что такие соотно- шения нагрузки и пропускной способности магистрали действительно возможны. Пусть магистраль состоит из шести (р = 6) каналов. Из узла поступает в среднем
§ 4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 341 48 заявок в час на установление связи с узлом Vi. Предположим, что другие заявки в сети не возникают, и будем интересоваться лишь загрузкой магистрали /5ь Будем считать, что один разговор длится в среднем 5 минут, и время длительности разговора распределено по экспоненциальному закону. За единицу времени при- мем 0,5 минуты, т. е. разговор может окончиться в те- чение 0,5 минуты с вероятностью 0,1. Среднее время обслуживания одного разговора равно т=10. [Пара- метр (интенсивность) потока в нашем случае равен Х= = —-— = 04] 120 ’ 1 Предполагая поток вызовов простейшим (поток ста- ционарный, ординарный, без последствия), воспользуем- ся для расчета вероятности полной занятости магистра- ли формулами Эрланга: Таким образом, вероятность отказа равна примерно 0,12. С такой же вероятностью высота ftV10„ может стать равной 3. Пусть высота ftOlo3 изменилась. Оценим время, в течение которого эта высота будет правиль- ной. Вероятность освобождения хотя бы одного канала полностью занятой магистрали равна РосВ=1-(0,9)в«0,47. Отсюда видно, что при периодичности 0,5 минуты рабо- ты управляющего устройства практически нет смысла изменять высоту узла: в следующий момент времени высота равновероятно может быть равна как 1, так и 3. Более того, до узлов, отстоящих от 05 на расстоянии нескольких транзитов, сведения об измененной высоте дойдут с тем большей задержкой и будут тем менее отражать реальную высоту, чем в более далекий от узел они передаются. Для учета статистических свойств сети разумно ввести в систему управления «инерцию» с тем, чтобы учитывать некоторую «среднюю» высоту узлов.
342 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Так, в рассмотренном примере средняя высота flvv = 3-0,12+1-0,88=1.24. Предполагая потоки вызо- вов ° стационарными, а изменения структуры сети отно- сительно редкими, естественно усреднять высоту за воз- можно большее число шагов. При усреднении за х ша- гов работы управляющего устройства высота имеет вид „ «> + «-') + - + %., «-•+!> \Ч — х (4.5.1) где hv,Vk(t — i) —мгновенное значение высоты, полу- ченное в момент t — i. В реальных сетях обычно не со- блюдается стационарность поступающих на одну и ту же магистраль потоков, например, из-за перераспреде- ления нагрузки, вызванного повреждением магистра- лей. Поэтому, чтобы система могла учитывать проис- ходящие в статистике вызовов изменения, требуется некоторая оптимальная инерция, некоторое компро- миссное значение х1). Но усреднение значения высоты за х шагов требует дополнительной памяти. Для эконо- мии памяти удобно ввести инерцию, вычисляя высоту по формуле 1)-(1-а)+а/Ш). (4.5.2) В этом случае высота в момент t зависит лишь от ус- редненной высоты в момент t—1 и мгновенной высоты в момент /. Параметр а играет роль инерции, не позво- ляя высотам «раскачиваться» под воздействием случай- ных кратковременных изменений нагрузок. Интересно отметить некоторые явления, связанные с перегрузкой отдельных направлений одновременно несколькими потоками. Рассмотрим сеть, изображенную на рис. 4.15. Ис- точниками нагрузки являются узлы Vi и v2, приемника- ми соответственно и} и v2. В частности, сообщения могут направляться в один узел I у} = v2 ). Будем считать, что все изображенные на рисунке магистрали ’) Точно так же, как существует оптимальная память для авто- мата с линейной тактикой, функционирующего в переключаемой случайной среде.
§ 4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 343 обладают бесконечной пропускной способностью. Ис- ключение составляет только магистраль /36, пропускная способность которой ограничена. Пунктирной линией между двумя узлами от- мечены подсети и (и5г4), в которых существу- ет путь с бесконечной про- пускной способностью, свя- зывающей соответствующие узлы. Пусть эти подсети та- ковы, что кратчайший путь от узла V\ (соответственно от v2) к узлу v\ (соответ- ственно к ) проходит че- рез магистраль /36, и пусть, кроме того, при отсутствии магистрали /36 кратчайшим путем является путь (V]V4 (и4и})) {v2^5 Т. е. Hv‘vu + 1 < Hvtv, и (соответственно Если при этом пропускная способность магистрали /Зв недостаточна, чтобы пропустить без потерь оба потока, высоты HV[V3 и Н будут повышаться. Так как в не- которые моменты времени магистраль будет пере- гружена, то HvtVi = Hv^ + 1 + A, Hv^ = + 1 + А, где А>0. Если, например, то при возрастании А, как только станет равной Hviv , поток узла v2 будет направлен по обходному пу- ти через узел и$. Если поток из узла V\ интенсивен и А остается достаточно большим, чтобы закрыть путь че- рез магистраль /36 потоку узла v2, то кратчайший путь оказывается предоставленным тому из потоков, обход- ной путь для которого был большим.
344 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV Если же поток узла недостаточно интенсивен, то после того как поток узла v2 будет направлен по об- ходному пути, А уменьшится и для потока v2 вновь от- кроется путь через магистраль Z36. Возникнут колебания А около некоторого среднего уровня, причем эти колебания никак, вообще говоря, не скажутся на выборе направления из узла иь но да- дут возможность использовать часть недоиспользуемой потоком v2 пропускной способности магистрали Z36. Аналогичные соображения легко формулируются и для А-рельефа. Обратимся к рис. 4.14. При построении А-рельефа для узла полагая вероятности быть занятыми для магистралей Z15, Zi2, Z23, Z33, Z54 и Z43 соответ- ственно P15, P12? P23, P53, P54 И p43, имеем Д^= + 1 с вероятностью (1—pi2) (1—Р23) и А„1зУз = — 1 с веро- ЯТНОСТЬЮ [1 —(1—р12) (1— р23)] (1— Р15)Х[(1— Рбз) + + (1—Р54) (1—Р4з)р5з], откуда легко вычисляется мате- матическое ожидание А^. Рассмотрим результаты моделирования поведения сети с описанным выше способом децентрализованного 4 Рис. 4.16. управления. Моделировалась сеть, содержащая 29 уз- лов (рис. 4.16). Все магистрали предполагались одинаково надеж- ными с вероятностью повреждения 0,3 в час и средним
§4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 345 временем восстановления 1,25 часа. Среднее время раз- говора задавалось одинаковым для всех узлов и равня- лось 5 минутам при экспоненциальном распределении. Результаты экспериментов приведены в таблице 4.5.1. В этой таблице: р — число каналов в магистрали, s — Таблица 4.5.1 Номер эк- сперимен- та Р s а ^ОТК ^бл.ок 1 Длит. ЭКСП. в часах 1 6 0,300 0,157 0,92 3,05 24 2 6 0,000 0,060 1,00 2,56 8 3 30 0,300 0,090 0,92 2,96 24 4 12 0,300 0,093 0,92 2,99 12 5 6 0,300 1 0,060 0,92 3,05 16 6 6 0,300 1/3 0,070 0,92 3,06 16 7 6 0,300 1/6 0,070 0,92 3,06 24 8 6 0,300 1/10 0,060 0,93 3,03 16 9 6 0,300 1/15 0,100 0,92 3,09 24 10 6 0,300 1/3 0,090 0,92 3,05 вероятность выхода магистрали из строя, ротк — веро- ятность отказа в соединении, рбл.ок —вероятность бла- гополучного окончания разговора, I — средняя длина транзита. Эксперимент №1. Ротк^ 0,157; рбл. ок= 0,92; / = 3,05. Отказы могут быть вызваны как повреждением магистралей, так и недостаточной их пропускной спо- собностью. Интересно оценить, какая доля отказов вызвана каждой из причин. С этой целью были проде- ланы два эксперимента. В эксперименте № 2 пропускная способность магистралей и нагрузка оставались прежними, а вероят- ность повреждения магистралей полагалась равной 0. В эксперименте № 3 пропускная способность магистралей увеличена в пять раз (Р = 30) при прежних надежности и нагрузке. Можно считать, что в экспери- менте № 3 все отказы обусловлены только повреждени- ем магистралей. Подтверждением этому может служить эксперимент № 4, который проводился в тех же условиях, что и эксперимент № 3, но при меньшем чис- ле каналов магистрали (р=12). Практическое совпаде-
346 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV нис результатов экспериментов № 3 и 4 позволяет ут- верждать, что дальнейшее увеличение пропускной спо- собности магистралей не улучшает качества работы сечи. Сравнивая данные экспериментов с бесконечной (№ 3) и ограниченной (№ 1) пропускной способностью, приходим к выводу, что примерно 6,4% из 15,7% отказов обусловлены недостаточной пропускной способностью при одной и той же частоте повреждения магистралей 5 = 0,300. В то же время сравнение результатов экспери- ментов № 1 и 2 показывает, что этот недостаток про- пускной способности появляется за счет уменьшения припускной способности сети в целом при повреждении магистралей. Эксперименты №№5—9 проведены при тех же нагрузках, пропускной способности и надежности, что и эксперимент № 1, но при различных значениях парамет- ра инерции а. Минимальная вероятность отказа Роткпип^ ^0,06. Сравнивая этот результат с вероятностью отказа, полученной в эксперименте № 2 при (3 = 30, видим, что для данного примера никакое увеличение пропускной способности магистралей не может обеспечить такое же количество работы, которое достигается при использо- вании предлагаемого способа динамического управле- ния. Моделирование показало слабую зависимость ротк от а в широких пределах. Зависимость качественно можно объяснить следую- щим образом. При небольших значениях а система быстро и хорошо учитывает повреждения магистралей, по в то же время неустойчива по отношению к случай- ным колебаниям нагрузки. При больших значениях а система управления реагирует на повреждение маги- стралей слишком медленно, хотя и хорошо распределя- ет потоки при неизменной структуре сети, так как хоро- шо учитывает статистику загрузки различных направле- ний. Учет этих двух различных процессов требует раз- личной инерции. Можно полагать, что при уменьшении нагрузки оптимальное значение а уменьшится, а при уменьшении вероятности повреждений, наоборот, увели- чится. Существование различных процессов, приспособ- ление к каждому из которых по-разному зависит от а,
§4.5] УСТАНОВЛЕНИЕ СОЕДИНЕНИЯ В СЕТИ СВЯЗИ 347 означает в принципе возможность наличия двух мини- мумов функции ротк(а). Оптимальное значение параметра инерции может быть получено только в результате эксперимента. По- скольку условия в реальной сети в процессе работы мо- гут меняться, то выработанное заранее аопг может че- рез некоторое время оказаться не наилучшим. Поэтому представляется важным ввести инерцию в систему та- ким образом, чтобы она менялась с изменением усло- вий работы сети. Заметим, что инерция при вычислении некоторой высоты H4vk должна быть тем меньше, чем ближе узел щ. расположен к узлу иг-. Это становится понятным, если учесть, что чем меньше расстояние между узлами, тем, вообще говоря, меньше возможных (по рельефу) путей из vk и Vi, тем быстрее сведения об изменении на этих путях дойдут до vk. Наоборот, в более далекий узел сведения об изменениях в сети доходят в среднем позже и менее отражают реальную обстановку. Отсюда ясно, что усреднение высот в этом случае должно про- водиться за большее число шагов, а инерция должна быть больше. Сказанное позволяет ввести параметр инерции а как монотонно возрастающую функцию вы- соты, например, как /А * // (/ — I) -I-//G) А * a (t) ~ о? —----, 0 <; ос*. Результаты экспериментов №№ 1—9 были получены в предположении, что в каждой магистрали существует специальный дополнительный канал, служащий для пе- редачи управляющей информации. Это означает, что соседние узлы не могли обмениваться управляющей ин- формацией лишь при повреждении связывающей их ма- гистрали. Данные, полученные при эксперименте № 10, который был проведен в тех же условиях, что и экспе- римент № 6, но без специального канала, показывают его значение в рассматриваемой ситуации. Эксперимент № 10. pOJK = 0,09; рбл. ок = 0,92; / = 3,05. Его результаты показывают, что при проекти- ровании сети, в которой предполагаются большие пере грузки, целесообразно выделить специальный канал под передачу управляющей информации. Для сетещ
348 МОДЕЛИ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ [ГЛ. IV в которых основную трудность для управления пред- ставляют частые изменения структуры и в которых не ожидается существенных перегрузок, отсутствие спе- циального канала мало скажется на качестве работы. Важной характеристикой качества работы системы яв- ляется изменение числа отказов в зависимости от рас- стояния между узлами. Из таблицы 4.5.2 видно, что Таблиц а 4.5.2 Количество транзитов Неуправляемая сеть, % отказов Управляемая сеть, % отказов 1 8,1 3,0 2 14,8 5,5 3 18,7 8,4 4 25,6 11,2 увеличение расстояния между узлами на единицу в не- управляемой сети приводит к возрастанию вероятности отказа примерно на 6%, в то время как для динамиче- ски управляемой системы эта величина равна при- мерно 3%.
ГЛАВА V ПОВЕДЕНИЕ СИСТЕМ ВЗАИМОДЕЙСТВУЮЩИХ автоматов § 5.1. Синхронизация в цепях автоматов В этом и следующем параграфах мы будем изучать поведение автоматов, решающих чисто логические за- дачи. Модели такого типа включены в работу потому, что на примерах этих моделей хорошо иллюстрируются возможности взаимодействия с огоаниченным числом соседей. Рассмотрим задачу Дж. Майхилла о синхронизации цепи автоматов. Формулировка этой задачи была впер- вые опубликована Э. Муром [134]. Задача Дж. Май- хилла, поставленная в связи с необходимостью обеспе- чения одновременного включения всех частей самовос- производящейся машины, формулируется следующим образом. Имеется цепь стрелков, каждый из которых может обмениваться информацией только с двумя своими не- посредственными соседями. Цепь состоит из конечного числа стрелков, два крайних стрелка имеют только по одному соседу. Один из крайних стрелков получает команду, после чего стрелки должны договориться и одновременно произвести выстрел. Каждый из стрел- ков, получив информацию от своих соседей, отвечает им с постоянной фиксированной задержкой; одинаковой для всех стрелков. Возникает вопрос о существовании локального алгоритма поведения отдельного стрелка (одинакового для всех стрелков цепи, за исключением, быть может, крайних), сложность и объем используе- мой памяти которого не зависит от числа стрелков в цепи и использование которого стрелками позволяет им произвести одновременный выстрел. Формально вопрос может быть поставлен так: су- ществует ли конечный автомат А такой, что цепь из 7V автоматов Я, в которой каждый автомат связан только
350 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V с двумя своими непосредственными соседями и слож- ность автомата не зависит от после подачи на край- ний автомат в момент времени t = 0 стартового сигнала синхронизируется в момент времени Г? Под синхронизацией здесь мы будем понимать су- ществование такого момента времени Г, в котором все автоматы находятся в отмеченном состоянии, называе- мом синхронным, причем в интервале времени (0, Г) ни один автомат ни разу не был в этом состоянии. Как сообщает Э. Мур [134], положительный ответ на этот вопрос был получен Дж. Мак-Карти и М. Мин- ским, а в 1962 г. Э. Гото опубликовал решение задачи о синхронизации с минимальным временем T = 2N — 2 [129]. Предложенный Э. Гото автомат имеет несколько тысяч состояний. В 1965 г. В. И. Левенштейн опублико- вал блестящее решение этой задачи для минимального времени синхронизации и числа внутренних состоянии автомата, равного 9 [69]. В 1966 г. А. Ваксман опубли- ковал сходное решение [145], в котором число внутрен них состояний автомата было равно 16. Рассмотрим решение, предложенное В. И. Левсн- штейном. Цепь состоит из автоматов Мура, внутренние состояния автоматов являются их выходными сигнала- ми, т. с. распространяющиеся по цепи сигналы совпада- ют с внутренними состояниями автоматов. В основу конструкции системы сигналов положена идея деления отрезка пополам. В результате деления отрезка цепи пополам автомат (или два автомата в случае четного числа автоматов в отрезке цепи), находящийся в сере- дине отрезка, переходит в состояние готовности, пред- шествующее синхронному состоянию. Автомат переходит в синхронное состояние, если он сам и два его соседа находятся в состоянии готовности (исключение состав- ляют случаи, возникающие в связи с разницей ситуаций для отрезков с четным и нечетным числом автоматов). Обратимся к рис. 5.1. Первое деление цепи автома- тов пополам производится следующим образом. Старто- вый сигнал переводит крайний автомат цепи в состояние готовности, и от него по цепи начинают распростра- няться два сигнала: Р\ п Рл. Первый сигнал распро- страняется по цепи со скоростью 1, а второй — со ско- ростью 1/3 (сигнал распространяется по цепи со ско-
§5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 351 ростыо 1/£, если до перехода к соседнему автомату он сохраняется в предыдущем k единиц времени). Сигнал Pi доходит до конца цепи, пе- реводит крайний автомат в со- стояние готовности и движется обратно с той же скоростью. Встреча отраженного сигнала Pi с сигналом Р3 происходит в середине цепи, и соответствую- щий автомат (или два автома- та в случае четного числа ав- томатов в цепи) переходит в состояние готовности. Если от- раженный сигнал Pi будет про- должать распространяться по цепи со скоростью 1, а первый автомат испустит в начальный момент времени сигнал Р7, рас- пространяющийся со скоростью 1/7, то эти сигналы встретятся на расстоянии 1/4 от начала цепи. Далее, если каждый ав- томат, находящийся в состоя- нии готовности, будет испус- кать последовательность сигна- лов, распространяющихся со скоростями l/(2Ji+l —1), и в точках встречи сигналов автоматы будут переходить в состояние готовности, то в цепи, как это видно из рис. 5.1, будет осуществляться последовательное деление попо- лам возникающих отрезков. Основная трудность, которую В. И. Левенштейн превосходно преодолел, состояла в организации ис- пускания последовательности сигналов, распространяю- щихся со скоростями 1/(2^+1 — 1) автоматом с фиксиро- ванным конечным числом состояний. Для дальнейшего изложения нам оказалось удобным несколько изменить автомат В. И. Левенштейна, уменьшив число его состоя- ний до 8. (Другая конструкция автомата с 8-ю состоя- ниями была предложена Р. Балзером [123].) На рис. 5.2, построенном аналогично таблицам 1 и 2 работы Левенштейна [69], приведен пример синхро- низации цепи из 22 таких автоматов. Правила смены состояний автомата приведены в таблице 5.1.1.
352 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V 7 Z 3 4 5 6 7 В 9 10 7/ JZ 13 74 73 16 17 18 79 277 г/ 2Z 0 • 7 • © Z • <3 © 3 • □ 0 © 4 • □ <1 © 5 • □ <3 О © 8 • 0 о Q 7 • □ о О о 8 • □ о < <3 о 9 □И □ <1 О о JO • □ □ <3 Q 77 • □ □ <3 <1 О © JZ • □ <1 о <3 <3 © J3 • □ <1 о <1 <1 > Q JO • о о <1 <1 <1 о 13 • □ о □ <3 <3 О G J6 • □ о □ <3 <1 <3 Q 77 • □ О □ <1 <3 О © IB • □ о <1 о <1 <1 <3 q JO • □ о <3 о <1 <1 <1 О © zo • □ о <3 о <1 <3 <1 <3 Q Z1 • □ □ □ <1 <1 <3 О е zz • □ □ □ <1 <1 <3 О © 23 • □ □ □ <1 <3 <1 Q > е Z4 e □ □ <1 о <3 <1 о <1 □ • Z5 © □ □ <1 о <3 <1 Q О □ • zs • □ □ <3 о <3 <1 О <1 > □ • Z7 • □ □ <1 □ <1 © > О г> • ZB • □ <1 о □ <3 о <1 > О □ Z9 • □ о о □ <3 о О > О □ е 30 • <3 о о <3 о Q <1 О □ □ © 3J □ о о <1 о о О О FJ □ G 3Z • □ о о <3 • • > О □ □ 33 • □ о о <1 о • о > о £> □ е 34 • □ о о <1 о О • <3 о О о > □ 2© 35 о □ о □ о <3 □ • • □ О О о о о i> а 38 • □ о □ © О □ • • □ <1 о □ о п • 37 • □ о • <1 > □ G • □ <1 > • о □ 38 • □ о © • О о > о <1 о о о © о □ • 39 • □ о © О • <3 о о □ • • □ о О О • <1 О О □ • 40 • □ • • □ • □ • • □ • • □ • о □ © □ • • □ © 41 • • • • • • • • 9 • © ID □ ID 9 • • • е • • [ В а к Обозначение состояний У с. Сг 7 • о □ > <3 И Рис. 5.2.
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 353 Т а б л п ц а 5.1.1 Номер Правило Условие 1 X Н н У л- <= {Н, 3. С,}; у е= {3, CJ или х е {//, С2}; У е {//, G} 2 X 3 н У х е {Н, К, 3, С,}; у — Н или хе {П, С2}; У е {К, 3} 3 ~з н У У е {н, Сг} 4 X н к У хе {К, Ч}- у s {Н. 3, С,. С,} 5 X 3 к ч х (= {Я, С2} 6 3 н 3 У у е= {Н, Сь Сг} 7 X к 3 У х = 3; у е {Н, Сг} или х е {Н, CJ; i/<={3.¥} 8 X 3 3 У хе{3, 7}; у = Н или х = 3; у — 3 9 X 3 3 3 X е {3, 4} 10 X Сг 3 3 х е {Я, 4} 11 Н 3 С1 Сг 12 Н Ci У ys{H,3, C2} 13 X 3 С2 У х е {X, 3, Ci}; у = Ч или х = Я; у — С\ 14 X С*2 с2 У х е {Я, 3, С\}; у=^Ч или х — Н\ у^=Н 15 Ч X Ч ч х е= {Я, 3, С2}
354 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V Таблица 5.1.1 (продолжение) Номер Правило Условие 16 К X Ч У х — С^ уе= {Н, 3, С2} или х = Н\ у~К или х=С2; уе={Н, 4} 17 X к ч У хе {3, Ч}\ у~С2 или х = 3; у — С\ 18 -> 3 3 ч У У {Ci, с2} 19 X ч ч У х<={Н.,3, 3, Ч}-, y<s{H, 3} или х=С2; у е {3, С2) 'Л или х=3; у=3 или х=К\ у е= {К, 3, 4} 20 Ч ч ж ч 21 Ж ж н ж В таблице 5.1.1 каждое правило перехода записано следующим образом: в верхней строке — текущее со- стояние автомата и состояния двух его соседей; в ниж- ней строке — состояние автомата в следующий момент времени. Назовем состояния 3 и 3 противоположными. Ос- тальные состояния противоположны сами себе. Если <р и ср*— противоположные состояния, то Фр ф;+1) = F* (фи-!, ф/, ф*-1)- (5.1.1) Поэтому в таблице 5.1.1 функция переходов задана только на половине наборов состояний автоматов. Зна- чения функции переходов для остальных наборов могут быть получены из соотношения (5.1.1). Рассмотрим вариант задачи Дж. Майхилла для слу- чая, когда стартовый сигнал подается на любой автомат цепи. (Эта задача одновременно с нами была постав- лена и решена в [135] аналогичным алгоритмом. Одна- ко построенный в [135] автомат имеет больше внутрен- них состояний).
§ 5.11 СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 355 На рис. 5.3 изображена общая картина распростра- нения сигналов в случае подачи стартового сигнала на произвольный автомат цепи. После подачи стартового сигнала от начального автома- та Н в обе стороны начинают распространяться сигналы Р[ и Pi со скоростями, равными 1. При этом начальный автомат не переходит в состояние го- товности за исключением слу- чаев, когда он является край- ним. Дойдя до краев цепи, сиг- налы Pi и Pi переводят край- ние автоматы в состояние готовности и порождают отра- женные сигналы, распростра- няющиеся с той же скоростью. Как было сказано выше, авто- мат, переходя в состояние го- товности, испускает последова- тельность сигналов, распро- страняющихся со скоростями l/(2/l+1 — 1). Если бы старто- вый сигнал был подан на авто- мат О, находящийся на бли- жайшем к начальному автомату Риг. 5.3. конце цепи, то картина распространения сигналов повторяла бы рис. 5.1 с на- чалом в точке О'. При этом сигнал Рз, идущий из точки О' со скоростью 1/3, встретился бы с отраженным сиг- налом Pi в точке А1 (середине цепи). Нетрудно видеть, что линия распространения сигнала Рз пересекается с линией распространения отраженного сигнала Pi в точке Д, соответствующей положению начального авто- мата. Следовательно, для осуществления первого деле- ния цепи пополам необходимо в точке А изменить ско- рость распространения отраженного сигнала Pi с еди- ницы на 1/3. Линия распространения сигнала, идущего из точки О' со скоростью l/(2k+1— 1), и линия распространения сигнала, идущего из точки со скоростью 1/(2,?-- 1),
356 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V пересекаются на прямой АС, образующей линию пере- ключения скоростей. Для осуществления правильной последовательности делений необходимо, чтобы каждый сигнал, идущий из точки О\ со скоростью 1/(2,г—1), изменял свою ско- рость на 1/(2/г+1—1) при пересечении линий переключе- ния скоростей. Наклон линии переключения скоростей соответствует скорости распространения сигнала, рав- ной 1. В остальном картина распространения сигналов на рис. 5.3 повторяет картину распространения сигна- лов на рис. 5.1. Необходимость организации переключения скоро- стей повлекла за собой введение двух дополнительных внутренних состояний автоматов и частичное изменение правил перехода. На рис. 5.4 приведен пример синхро- низации цепи из 26 автоматов при подаче стартового сигнала на девятый автомат цепи. Правила смены состояний автомата с десятью со- стояниями приведены в таблице 5.1.2. В этой табли- це противоположными состояниями считаются 3 и 3 К и К. Из сравнения рис. 5.1 и 5.3 видно, что в схеме на рис. 5.3 синхронизация осуществляется быстрее ровно на то время, которое требуется для прохождения сигна- ла, идущего со скоростью 1, от точки О до точки в случае подачи стартового сигнала на произвольный автомат цепи время синхронизации Т = 2V — 2 — amin, где amin — расстояние от начального автомата до бли- жайшего края цепи. Перейдем к рассмотрению вопроса о возможности решения задачи синхронизации для произвольных сетей взаимодействующих автоматов с двухсторонними без- инерционными межавтоматными связями. Под произ- вольными сетями понимаются конечные сети, в которых не накладывается никаких ограничений на способы соединения автоматов друг с другом и число соседей каждого отдельного автомата. Каждая такая сеть мо- жет быть интерпретирована как ориентированный граф, вершины которого соответствуют автоматам сети, а реб- ра — межавтоматным связям. Так как рассматривают- ся только сети с двухсторонними межавтоматными
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 357 1 г 3 4 5 6 7 В 9 10 11 12 13 14 15 16 17 18 13 20 fl 23 24 26 fl7 0 о j — © О о — г О 9 О О <3 G а 5 О — - 9 <3 g 9 О' О О О _<3 <3 о <3 < G е О О О <3 <3 <3 О 7 о О О о < <3 <3 9 0 • > О О о <1 <1 <1 <3 9 О • ► О О О <3 < < <3 9 10 • <3 ► > о о <3 <3 <3 <1 <3 9 11 • □ О ► О О <3 <1 <3 <3 <3 9 12 е □ <3 ► О 0 <3 <1 <1 <3 <3 <3 G /5 • □ <3 0 ► О <3 <3 < <3 <3 < G 14 • <0 о <3 ► о <3 <3 <3 <3 <3 <3 <3 9 15 • □ о <3 О ► <3 <3 <1 <3 <3 <3 <3 9 16 • □ О <3 <3 ► <1 <1 <3 <3 <3 <1 <1 <3 9 17 • □ □ <3 □ 0 <3 <3 <3 <3 <1 < < <3 9 18 • □ □ <1 □ <3 <3 < <3 <3 <3 <3 <3 <3 4 9 /9 ф □ □ <1 О о ► о <3 <3 <3 <3 <3 <3 4 <1 9 20 е □ о <1 о ► <3 <3 <3 <3 < <3 <1 4 <3 □ 9 21 • □ <3 о <3 о <3 ► О <3 <1 <3 <3 4 О □ • 22 • < о о <3 □ ► <1 <1 <3 <3 4 <1 О □ • 25 • D о □ □ <1 ► о <1 <3 ◄ <1 о О О 24 • □ о □ □ <3 ► <3 <3 ◄ <3 <3 о □ • 25 □ о □ <3 о <3 ► ◄ О О о □ • 26 о □ о □ <3 о <1 ◄ <1 О □ □ • 27 • □ о □ <3 о <3 ◄ О о о □ 28 • □ о □ <3 □ ◄ <3 о О □ □ □ □ □ □ □ о □ □ § □ □ □ 29 • □ О □ < □ ◄ [> о о О в зо__ о О <3 о • • О о о О 31 ® □ о <1 о ◄ • 9 ► О О о о о 32 • □ о <1 о 4 О • < к О □ ql г 33 • □ □ о 4 <3 • е- □ О ► о □ 61 К 34 в □ □ о 4 О □ 9 9 □ <3 о о i К Е 35 • О □ о 4 <3 О □ 9 9 □ <3 о > о О 36 □ □ о О о о 9 • <3 о < 9 о 1 1 в 37 • □ О 4 9 ► О о □ 9 • □ о <3 4 9 ► О о 38 9 □ □ 4 О 9 <3 О о □ • • □ о <1 ◄ О 9 <3 ► □ 39 9 а • <1 □ 9 а О • □ 9 • □ 9 <3 □ 9 □ 0 9 40 9 □ ◄ о ► □ 9 □ 4 • ► □ 9 9 □ 4 9 ► О 9 □ 4 9 ► 4! 9 • □ о 9 □ 9 □ • • • 9 9 9 9 9 • • 9 • • • • □ - ! ! И । » □ .±2 б а б □□□ □□□□ □□□□□□□□□□ S Обозначение состоянии 1Я0ЫЙИЙИЕ31 1.9 lal>l<H>|4[6| Рис. 5.4.
358 СИСТЕМЫ взаимодействующих автоматов [ГЛ. V Таблица 5.1.2 Номгр | Правило | Условие 1 X Н И У х=//; {II, 3, С|, С2} или X (= {К, CJ; у — 3 или х=С\; // = С| или х = С2; у=С2 —► <— или х~3; у—3 2 X К Н У х=Н-, у е {3, 3} или х <= {Ci, С2}; у=3 3 X 3 Н У х е {К, К, Ci}; у—Н или —> х=Сг\ у=К. или х=Н-, у<={Н,К} 4 к К Н к 5 X С1 н 3 X €= {Ht С2} 6 Н X К У х = К\ у—Н или х=Н\ у—К 7 X н к У х^{К, Ч}\ уе={Н,3, Clt С2) <S к -4- К к X х €= {Н, Сь С2} 9 X 3 к У у s {//, к, 3, 3} 10 X 3 к У хе {К, 3}; у=3 или х—Ч\ у—Н 11 Ч к к к 12 X н ч У х—К; у е {/С, К} или х=К; у=К 13 X к ч У хе {Ч, 3}; у — С2 или х—3\ у — Сх
§5.1) СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 359 Таблица 5.1.2 (продолжение) Номер Правило Условие 14 X Ч Ч У <- -> х=К\ у=К или х=К; у=К или х=¥; у €= {Я, К, 3, С2} или х е {Н1 3}; у е {Я, 3} или х=3; у е {Я, 3, 3} или х=С2; У = С2 15 X У Ч Z х=К; у=3; ге{Сь С2} или х=Ч; у е. <= {К, 3, 3, С2}; г=Ч 16 к X Ч У х=С\\ уе{Н, 3, С2} или х=С2; «е е {Я, 4} 17 X н 3 У х е {Л, 3}; у е {Я, Сь С2} или х=3, .7=3 18 Н к 3 X X s {К, 3} 19 X к 3 У х «= {Н, ~К, 3, С|}; у е {Ч, 3} 20 3 к 3 X х <= {Н, К, 3, С2} 21 X 3 3 3 х <= {Н, К} 22 X 3 3 У х е {К, 3}; уе{Н, К} или х=3; у е s {Сь С2} 23 3 9 3 У У е {Н, 4} 24 3 к С1 3 25 X 3 С1 ^2 х е {Я, 3} 26 X £1 Ci У х=Я; у е {Я, 3, С2} или х=К\ у—3
360 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V Таблица 5.1.2 (продолжение) Номер Правило Условие 27 X -> 3 Сг £1 х (= {Я, 3} । 28 X Сг ^2 У .V //<={//, К, 3, 4} или х—V; у е е {С,, 3} 29 X К Сг 4- 3 х е= {'/, 3} 30 X 1 С) Со! • ч х <= {К, С,} 31 ч ч ж ч 32 ж ж н ж связями, то в целях простоты изображения сетей удобно пользоваться неориентированными графами, в которых соседние вершины связаны только одним ребром. Не- трудно видеть, что если такие сети не содержат изоли- рованных автоматов или изолированных групп автома- тов, то соответствующие им графы являются связными, т. е. для любой пары вершин графа существует путь (маршрут), связывающий эти вершины. Пусть некото- рой сети поставлен в соответствие неориентированный граф G. Число ребер р(а), инцидентных одной вершине а графа G, называется локальной степенью, или просто степенью графа в вершине а. Очевидно, что число р(а) равно числу автоматов, непосредственно связанных с автоматом, соответствующим вершине а графа G, и, следовательно, должно характеризовать сложность ав- томата в этой вершине. Пусть имеется произвольное множество конечных связных неориентированных графов, каждому из ко- торых поставлена в соответствие сеть взаимодействую- щих автоматов с двухсторонними безынерционными (без задержек) межавтоматными связями. К автома- там предъявляются следующие требования:
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 361 1) каждый автомат, получая информацию от своих соседей, отвечает им с фиксированной задержкой, рав- ной одному такту; 2) автоматы, имеющие одинаковое число соседей, одинаковы, и их сложность не зависит от количества автоматов в сетях и сложности других автоматов. Всегда ли существуют автоматы, отвечающие этим требованиям, такие, что после подачи стартового сиг- нала на произвольно выбранный автомат некоторой се- ти в момент времени /=0 все автоматы этой сети син- хронизируются в некоторый момент времени Г? Основная трудность задачи заключается в том, что конструкции автоматов, имеющих одинаковое число соседей р, фиксируются, в то время как на число авто- матов в сети и способы их соединения друг с другом никаких ограничений не накладывается, кроме требо- вания двусторонности связей и связности графа се- ти. Следовательно, каждый автомат сети, получая ин- формацию от своих соседей, должен извлечь из нее необходимые для решения задачи синхронизации све- дения о строении всей сети. Рассмотрим сначала сети, которым соответствуют произвольные связные неориентированные графы, не имеющие циклов. Такие графы называются деревья- ми. Пусть некоторой сети из N автоматов соответству- ет граф, представляющий собой дерево. Представим каждый автомат сети состоящим из р/ изолированных подавтоматов Л, где А — автомат с восемью внутренними состояниями, предназначенный для решения задачи о синхронизации-цепи автоматов, a pj — число соседей автомата (Л. Структура автомата Ui для р/=5 изображена на рис. 5.5. На этом рисунке фигурными скобками указаны связи автомата Ui с подавтоматами соседних автоматов. Нетрудно видеть, что если сеть составлена из таких автоматов, то под- автоматы всех автоматов образуют цепь, замкнутую в кольцо. Граф, соответствующий этой цепи, представ- ляет собой простой цикл. На рис. 5.6, б для иллю- страции способа соединения подавтоматов приведен при- мер образования простого цикла по дереву сети, представленному на рис. 5.6, а. Кольцо, образованное из подавтоматов А автоматов сети, содержит 2 (N—1)
362 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ автоматов [ГЛ. V подавтоматов, что непосредственно следует из утверж- дений: 1) в простом цикле число вершин равно числу ребер, 2) дерево с N вершинами содержит (N— 1) ребер, 3) простой цикл, построенный по дереву приведен- ным выше способом, содержит в два раза больше ребер, чем это дерево (см. рис. 5.6). Напомним, что цепь без межавтоматных задержек из М автоматов А на во- семь внутренних состояний, решает задачу синхронизации, если стартовый сигнал подает- ся на крайний автомат цепи, и время синхронизации Т= = 2М — 2. Если такую цепь замкнуть в кольцо, то легко показать, что при некотором доопределении правил перехо- дов автомата А кольцо из М автоматов А тоже будет ре- шать задачу синхронизации за время Т—М, не зависящее от выбора начального автомата. Отсюда следует, что предло- женная выше конструкция ав- томатов сетей, графы которых представляют собой произ- вольные деревья, позволяет осуществить синхронизацию та- ких сетей с временем синхро- низации Т=2(М— 1), где W— число автоматов в сети. Стар- товый сигнал может быть по- дан на любой подавтомат про- извольного автомата сети. Теперь рассмотрим сети, графы которых имеют циклы. Из теории графов известно, что в произвольном связном неориентированном графе всегда могут быть выделены максимальные деревья (покрывающие все вершины гра-
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 363 фа). При этом число ребер, которые нужно удалить из конечного связного графа, чтобы получить макси- мальное дерево, равно его циклическому рангу (дипло- матическому числу). Выделение максимального дерева из графа сети может быть выполнено с помощью из- вестного простого алгоритма (см., например, [79]), за- ключающегося в следующем. Выберем в графе фикси- рованную вершину aQ и положим V=a0UAUAU-, где V — множество вершин графа, а Лг-— подмножество множества V, состоящее из всех вершин с расстоя- нием d(aQ, от ао. Для каждой вершины a^Ai из всех ребер, соединяющих эту вершину с вершинами подмножества Лг-ь оставим только одно любое ребро, а остальные удалим. Удалим также все ребра, связы- вающие вершины одного и того же подмножества. Оче- видно, что остающийся граф является связным и не имеет циклов. Технически этот алгоритм может быть выполнен с помощью автоматов, имеющих следующую конструк- цию. Пусть каждый автомат Ui(l^i^N) сети из N автоматов состоит из рг- подавтоматов А с восемью внутренними состояниями, рг- коммутационных подав- томатов К, одинаковых для всех автоматов (по одному подавтомату /( для каждого направления связей авто- мата Ui с соседними автоматами), и комбинационной схемы, через которую происходит обмен информацией между подавтоматами К. Всем подавтоматам К авто- мата Ui припишем произвольным образом номера от 1 до р/. Конструкция автомата Ui для рг=4 приведена на рис. 5.7. Коммутационный подавтомат К имеет три внутренних состояния: So, Si, S2. Состояние So являет- ся начальным. Назовем состояния So и S2 коммутаци- онными, a Si—сигнальным. Находясь в состояниях So и Si, подавтомат Kj(l^/^pi) автомата Ui связывает соответствующие ему подавтоматы А автомата Ui с подавтоматами А соседнего автомата. При переходе подавтомата Kj автомата Ui в состояние S2 эти связи обрываются в направлении, соответствующем подавто- мату Kj. Типы соединений, осуществляемых подавтома- тами К, показаны пунктиром на рис. 5.7. Связи, изо- браженные на этом рисунке, соответствуют случаю, когда подавтоматы /\2 и /<4 находятся в состоянии So
364 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ (ГЛ. V или Si, а подавтоматы Ki и Кз— в состоянии S2. Из рис. 5.7 видно, что подавтомат находясь в состоянии S2, осуществляет параллельное соединение соответствую- щих ему подавтоматов А автомата Ui. (Очевидно, что Рис. 57. параллельно соединенные подавтоматы А с точки зре- ния их функционирования можно рассматривать как один подавтомат Л, если перед началом работы они были установлены в одинаковые состояния.) Определим функцию переходов подавтомата Л. Под- автомат Kj автомата Ui 1) переходит из состояния So а) в состояние Si, если он получает от своего сосед- него автомата сигнал So и хотя бы один из других под- автоматов К автомата (7г- получает от своего соседнего автомата сигнал Sb б) в состояние S2, если он получает от своего сосед- него автомата сигнал Si и хотя бы один из других под- автоматов 7<, номер которого больше j автомата Ui, получает от своего соседнего автомата сигнал Si или если он получает от своего соседнего автомата сиг- нал S2, в) и сохраняет состояние So в остальных случаях;
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 365 2) переходит из состояния Si а) в состояние Sq, если он получает от своего сосед- него автомата сигнал Sr, б) в состояние So в остальных случаях; 3) сохраняет состояние S2. Пусть стартовый сигнал переводит все подавтоматы К начального автомата в состояние Si. С этого момента в сети по всем направлениям начинает распростра- няться сигнальное состояние Si подавтоматов Л, удаля- ясь с каждым тактом от начального автомата. За фрон- том распространения сигналов Si (а иногда и на фрон- те) подавтоматы К переходят в коммутационные состояния So или S2. При этом в графе сети выделяется максимальное дерево с корнем в вершине, соответству- ющей начальному автомату, за счет разрыва ребер в местах встречи сигналов Si. Иногда подавтоматы 7( могут переходить в коммутационное состояние S2 с за- паздыванием на два такта относительно фронта рас- пространения сигнала Si (см. правило переходов 16). Поэтому процесс синхронизации подавтоматов А мож- но начинать через два такта после перевода стартовым сигналом всех подавтоматов К начального автомата в сигнальное состояние Si. Для этого необходимо пере- вести один из подавтоматов А начального автомата в стартовое состояние. Будем считать, что сеть синхро- низируется в момент перехода подавтоматов А всех автоматов сети в синхронное состояние. Нетрудно ви- деть, что произвольная сеть из N автоматов после по- дачи стартового сигнала на произвольный автомат син- хронизируется за время T=2(N—1)+2=2ЛЛ Каждый автомат Ui сети имеет (3 X 8)Pl внутренних состояний. Таким образом, в приведенных выше рассуждениях по- казано, что задача синхронизации для произвольных сетей взаимодействующих автоматов с двусторонними связями может быть сведена к задаче синхронизации для двустороннего кольца и, следовательно, имеет ре- шение. Предложенная конструкция автоматов не пре- тендует на оптимальность как с точки зрения сложности автоматов, так и времени синхронизации. Однако до- стоинством этой конструкции является то, что все ав- томаты строятся регулярным способом из двух типов подавтоматов, А и К.
366 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V Рассмотрим еще одну постановку задачи о синхро- низации. Пусть имеется цепь объектов (устройств), об- ладающих различными пусковыми временами (латент- ными временами), т. е. j-й объект начинает работать через промежуток времени т;- после подачи на него пус- кового сигнала. Время предполагается дискретным, и Tj выражаются целыми числами. Возникает вопрос о существовании автоматов, отвечающих следующим тре- бованиям: 1) каждому объекту поставлен в соответствие один автомат; 2) автоматы образуют цепь, в которой каждый ав- томат связан только с двумя своими соседями (за ис- ключением крайних, связанных каждый только с од- ним соседом); 3) сложность каждого автомата зависит только от пускового времени своего объекта и не зависит от дли- ны цепи и времен пуска остальных объектов; 4) после подачи стартового сигнала в момент вре- мени / = 0 на некоторый автомат цепи объекты в момент времени Т должны одновременно начать работать. Относительно предлагаемого ниже решения этой задачи мы ничего не можем сказать ни о близости числа состояний автомата к минимальному, ни о близости времени синхронизации Т к минимально возможному. Однако предлагаемое решение представляет интерес, так как сам факт положительного ответа на поставлен- ный вопрос долгое время был сомнительным. Для того чтобы цепь автоматов решала поставлен- ную задачу, необходимо, чтобы /-и автомат выдавал па /-й объект пусковой сигнал за т;- тактов до момента синхронизации объектов. Допустим, что имеется цепь автоматов, решающая обычную задачу синхронизации, которая переходит в синхронное состояние одновременно с цепью объектов. Единица времени для автоматов и объектов при этом предполагается одинаковой. За один такт до перехода в синхронное состояние и только в этот момент време- ни любые три расположенные подряд автомата нахо- дятся в состоянии готовности. Состояния этих автома- тов в рассматриваемый момент времени зависят от их состоянии в предыдущий момент времени и состояний в
§ 5.1] СИНХРОНИЗАЦИЯ Б ЦЕПЯХ АВТОМАТОВ 367 предыдущий момент времени их правого и левого сосе- дей, т. е. от состояний в предыдущий момент времени пяти расположенных подряд автоматов. Вообще состоя- ния любых расположенных подряд автоматов в момент времени t определяются состояниями 2^+3 рас- положенных подряд автоматов в момент времени t—1. Следовательно, состояние любого автомата в момент времени t определяется его состоянием и состояниями т его правых и левых соседей в момент времени t — т>. Таким образом, наблюдая состояния цепочки из 2т5-{-1 автоматов, можно определить момент времени, предше- ствующий моменту синхронизации на т; тактов. Рассмотрим цепь из 2 2 + N автоматов, кото- >=1 рая решает обычную задачу о синхронизации цепи ав- томатов. Разобьем ее на цепочки длиной 2т;+1 авто- матов, и каждую такую цепочку будем рассматривать как отдельный автомат в предположении, что сохраня- ются условия работы отдельных исходных автоматов в цепи. Исходные автоматы будем называть подавтома- тами, а цепочку из 2tj+ 1 автоматов — автоматом. При этом входом каждого автомата являются со- стояния ближайших к нему крайних подавтоматов его соседей. Объединение 2т^+1 подавтоматов в один автомат позволяет одновременно наблюдать состояния всех 2tj;+1 подавтоматов. Из сказанного выше очевидно, что, наблюдая состояния автомата, образованного из 2tj+1 подавтоматов, можно определить момент време- ни, предшествующий на т, тактов моменту синхрониза- N ции всей цепи из 2 2i + N подавтоматов, решаю- i==i щих задачу о синхронизации всей цепи. Выявление со- стояний автомата, возникающих точно за tj тактов до момента синхронизации всей цепи, может быть осуще- ствлено логической схемой, входами которой являются состояния подавтоматов каждого автомата. Таким образом, существует решение задачи о син- хронизации цепью автоматов системы объектов с раз- личными пусковыми временами, которое сводится к следующему. В качестве автомата, поставленного в
368 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V соответствие /-му объекту, берется цепочка из 2tj+1 подавтоматов, решающих задачу о синхронизации об- щей цепи автоматов. Пусковой сигнал на объект выра- батывается логической схемой, входами которой явля- ются состояния подавтоматов данного автомата. Заметим при этом, что автомат продолжает рабо- тать и после выдачи пускового сигнала на объект и все подавтоматы переходят в синхронное состояние одно- временно с началом работы объектов. Предложенная конструкция удовлетворяет условиям задачи. Будем считать, что поданный на i-и автомат старто- вый сигнал поступает на его средний подавтомат. Тог- да время от подачи стартового сигнала до начала ра- боты всех объектов равно N Т — 4 V 2М — 2 — Ti— 2 £ т, + (У-1- 1) /-4+1 (5.1.2) При Tj = O для всех l^u^Af имеем T=2N—2—£min. Возникает вопрос о существовании простого описа- ния логической схемы, вырабатывающей пусковой сиг- нал на объект. Рассмотрим условия, которым отвечают состояния автоматов, предшествующие на тактов мо- менту синхронизации. 1. В момент времени, предшествующий на т, тактов моменту синхронизации, в цепочке подавтоматов дли- ной 2т;+1 по крайней мере один подавтомат будет находиться в состоянии готовности (в состоянии Ч\ см. рис. 5.4). При А-м делении цепочки подавтоматов, которое происходит за [(W—l)/2fe] тактов до момента синхро- низации, расстояние между двумя не расположенными рядом подавтоматами в состоянии Ч равно [(М—1)/2л]. Выберем такое k, что [^-1)/2^]^ь<[(^-1)/2^1]. (5.1.3) Пусть Af — 1=а2А+₽» гдер<2\ Тогда [(W—l)/2ft]=a,
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 369 а [(Af—l)/2ft-1] =2a+[p/2ft-1]. и [(^—l)/2»-1],<2a+l, т. е. [(Af—-l)/2ft_1] ^2[(W—l)/2ft]-|-l. (5.1.4) Из (5.1.3) и (5.1.4) следует 2ь+1>[(ЛГ-1)/2*->]. (5.1.5) Из (5.1.5) следует, что за [(N—l)/2ft-I]>xj тактов до момента синхронизации на отрезке длиной 2т j 4-1 по крайней мере один подавтомат перейдет в состояние Ч. Тогда из цепочки подавтоматов длиной 2tj+1 всегда можно выделить цепочку длиной tj+I, имеющую бо- лее, чем за т,- тактов до момента синхронизации по крайней мере один из крайних подавтоматов в состоя- нии Ч. Если в состоянии Ч находятся два расположен- ных рядом подавтомата, то в цепочку длиной т^4-1 включается лишь один из них. Далее будем рассмат- ривать только такие цепочки. 2. Если оба крайних подавтомата находятся в со- стоянии готовности Ч и между ними нет подавтоматов, находящихся в состояниях К,К,Ч, то до момента син- хронизации остается т,- тактов. Если крайний левый (правый) подавтомат находит- ся в состоянии готовности Ч, другой крайний подавто- мат находится в состоянии К (/f) и между ними нет подавтоматов, находящихся в состояниях то до момента синхронизации остается tj тактов. Эти утверждения непосредственно следуют из рис. 5.4. 3. Если цепочка подавтоматов длиной Tj+1 не от- вечает условию 2 и крайний левый (правый) подавто- мат находится в состоянии Ч, то в ней имеется подав- томат в состоянии К (к) и подавтомат в_состоянии или Сг между подавтоматом в состоянии К (к) и край- ним правым (левым) подавтоматом. Для доказательства обратимся к рис. 5.8. Подавто- мат в состоянии Ч, расположенный на левом конце це-
370 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V тит внутри цепочки Рис. 5.8. пи, испускает сигнал К, идущий направо со скоростью 1. Так как г,->[(AZ—1)/2^], то по пути сигнал /С встре- идущий ему навстречу сигнал или С2, и в месте встречи подав- томат перейдет в состояние Ч, Этот сигнал (Ci или С2) в момент времени, отстоящий от момента синхронизации на тактов, ле- жит внутри цепочки длиной Tj+1, так как он движется со ско- ростью, меньшей 1, и, следова- тельно, должен находиться левее фиктивного сигнала, проходящего из точки А в точку встречи со скоростью единица. Число подав- томатов, на которое сдвинется —> сигнал С] (С2) до встречи с К, рав- но числу сигналов 3, идущих по направлению к сигналу С\ (С2) и заключенных между этим сигналом Ci(C2) и идущим к нему сигналом /С. Таким образом, расстояние от точки встречи В до ле- вого крайнего подавтомата равно S=d(C, V)-n3, где d(C, Ч)—расстояние между подавтоматом в со- стоянии Ci или С2 и левым крайним подавтоматом, на- ходящимся в состоянии 7; Пз—количество подавтома- тов в состоянии 3. Время до синхронизации складывается из проме- жутка 6 и промежутка времени, который требуется для того, чтобы сигнал К достиг точки встречи, т. е. 6+ U-d(v,K)) =28-d(4,K} = =2d(C, £/)-2n.<-d(y,K), где d(lI, к)— расстояние между подавтоматом в со- стоянии Ч и подавтоматом в состоянии К.
§ 5.1] СИНХРОНИЗАЦИЯ в ЦЕПЯХ АВТОМАТОВ 371 Условие выдачи пускового сигнала на объект запи- шется как Т; = 2d (С, Ч) — 2n3 — d (ч, #). Рассмотрим еще один вариант задачи о синхрониза- ции цепи автоматов. Пусть между автоматами включе- ны задержки так, что сигнал от одного автомата к дру- гому распространяется за время т. Нас будет интересо- вать решение, в котором сложность каждого автомата не зависит от числа автоматов в цепи и величины за- держки. При этом предполагается, что задержки между всеми автоматами одинаковы. Идея, лежащая в основе способа решения этой зада- чи, состоит в следующем. Каждый автомат состоит из Рис. 5.9. двух подавтоматов (рис. 5.9). Подавтоматы С синхрон- но и синфазно генерируют сигналы с интервалом меж- ду ними т+1, а автоматы А решают обычную задачу синхронизации цепи автоматов, причем выходные сиг- налы автоматов С служат тактовыми сигналами для автоматов А. Следовательно, первая задача, которую мы должны решить, состоит в организации синфазной периодической работы автоматов С. Для того чтобы решить задачу организации син- фазной периодической работы цепи автоматов, доста- точно решить эту задачу для двух автоматов, связан- ных через линии задержки. Пусть стартовый сигнал подан на автомат Сь кото- рый в три последовательных момента времени посыла- ет автомату С2 три сигнала: а, b и с. Автомат С2 от- правляет сигналы обратно, задержав сигнал а на один такт, сигнал b — на два такта и сигнал с—на три так- та. Автомат Ci, получив сигналы обратно, возвращает их автомату С2 с теми же самыми задержками. Этот
372 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V ^=4
§ 5.1] СИНХРОНИЗАЦИЯ В ЦЕПЯХ АВТОМАТОВ 373 процесс продолжается до тех пор, пока сигналы а и с не поступят на один из автоматов одновременно. В этот момент времени на другой автомат поступит сигнал Ь. Начиная с этого момента, автоматы работают синфазно с периодом т+1. Пример фазировки двух автоматов че- рез линию задержки при т=5 приведен на рис. 5.10. Дальнейшая организация работы системы очевидна. Ав- томат, осуществляющий фазировку, имеет 12 внутренних состояний, правила переходов для него приведены в таб- лице 5.1.3. Рассмотренные примеры, особенно задача синхрони- зации цепи автоматов, характерны тем, что автоматы, связанные в цепь, могут решать локальные задачи, ко- торые они принципиально не могут решить в одиночку. Действительно, автомат с восемью внутренними состоя- ниями может осуществить задержку поступившего на него сигнала самое большее на восемь тактов, т. е. по цепи из таких автоматов сигнал может распространяться
374 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V со скоростью минимум 1/8. В то же время, как мы видели выше, взаимодействие обеспечивает возможность распространения по цепи системы сигналов со скоростя- ми распространения 1/(2к—1). Этот факт объясняется тем, что цепь из N автоматов имеет 8N состояний. Учет общего числа состояний цепи необходим при рассмот- рении вопроса о существовании решения задач такого типа. В заключение этого параграфа мы рассмотрим по- становку задачи, которую нам не удалось решить и ко- торая, возможно, не имеет решения. Эта задача нахо- дится, по-видимому, на границе возможностей цепей автоматов, о чем говорит оценка числа необходимых состояний цепи. Задача формулируется следующим об- разом. Существует ли автомат, отвечающий следующим условиям: 1) автоматы образуют цепь, в которой каждый ав- томат соединен с двумя ближайшими соседями (за ис- ключением крайних, имеющих по одному соседу), 2) сложность автомата не зависит от длины цепи, 3) каждый автомат цепи имеет внешний выход, причем на выходе /-го автомата сигнал, равный 1, по- является через каждые / тактов? Другими словами, ставится вопрос о существовании однородного делителя частоты на последовательность натуральных чисел от 1 до N. Оцепим необходимое число состояний такой цепи. Нетрудно видеть, что в стационарном режиме состоя- ния цепи повторяются с периодом, равным Х(М)— на- именьшему общему кратному чисел от 1 до N. Следо- вательно, если п— число состояний автомата, то для существования решения необходимо, чтобы Наименьшее общее кратное чисел от 1 до N равно про- изведению максимальных степеней простых чисел П/, лежащих в интервале от 1 до Af, таких, что ak.i<^N. Таким образом, *(N) [logfl X(AZ) = п 4 i J <^w, (5.1.6) j 1 J где n(2V) —число простых чисел в интервале от 1 до N
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИЙ ЛОГИЧЕСКИХ ФУНКЦИЙ 375 Известно [37], что л(А/) 2ЛНп2 In /V ’ (5.1.7) и, следовательно, ЦЛГ)<4\ (5.1.8) Таким образом, при числе состояний автомата, боль- шем четырех, общее число состояний цепи обеспечива- ет возможность решения задачи. Однако попытки по- строить автомат, решающий задачу о «гребенке частот», наталкивается на трудности, которые мы не смогли преодолеть. Возможно, что решения этой задачи не су- ществует, так как на отрезках сгущения простых чисел требуемое число состояний имеет скорость роста, близ- кую к факториалу, который растет быстрее показатель- ной функции. Несмотря на очевидные ограничения, из приведен- ных в этом параграфе примеров следует, что взаимо- действие в цепях автоматов обладает весьма широкими возможностями, иллюстрация которых будет продолже- на в следующем параграфе. § 5.2. Вычисление значений логических функций цепями взаимодействующих автоматов В связи с появлением новых направлений в техноло- гии производства электронных схем значительно воз- рос интерес к построению однородных структур дис- кретных вычислительных и управляющих устройств. Задачи, поставленные для однородных структур, пред- ставляют интерес и для моделей коллективного пове- дения. В этом параграфе мы рассмотрим два примера вычисления значений логических функций системами взаимодействующих автоматов. В качестве устройства, решающего задачу, как и выше, будем рассматривать цепь из N одинаковых ав- томатов, каждый из которых (за исключением крайних) связан только с двумя своими непосредственными со- седями. Цепь предназначена для вычисления значений логической функции Лг переменных. На /-й автомат це- пи подастся значение /*-й переменной. После подачи в
376 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V момент времени 1 — 0 стартового сигнала на крайний автомат цепи в момент времени Т на его выходе должен появиться сигнал, соответствующий значению вычисля- емой функции. Существенным является независимость сложности отдельного автомата от длины цепи. Назовем такую цепь линейной однородной схемой, а соответ- ствующее однопараметрическое (зависящее от числа переменных N) семейство логических функций — семей- ством линейно-однородных функций. Естественно, что такие семейства охватывают не все логические функ- ции. В дальнейшем функции, входящие в семейство ли- нейно-однородных функций, будем называть линейно- однородными функциями. (Линейные однородные схе- мы несколько отличаются от итеративных схем [57].) Очевидно, что сложность реализации линейных одно- родных схем возрастает линейно с ростом числа пере- менных. Заметим при этом, что с ростом N возрастает и время решения задачи. В связи с тем, что сложность отдельного автомата не зависит от N. естественно предположить, что для линейно-однородных функций существует способ зада- ния, также не зависящий от числа переменных. Так, например, задавая функцию «сумма по модулю два» N переменных, мы ограничиваемся указанием, что значе- ние функции равно единице каждый раз, когда чис- ло переменных, принимающих значение, равное 1, не- четно. Мажоритарная функция принимает значение, рав- ное 1, когда число переменных, принимающих значение, равное 1, больше числа переменных, принимающих ну- левое значение. Ряд таких примеров может быть про- должен, однако здесь мы только хотели обратить вни- мание на то, что изучение класса линейно-однородных функций представляется интересным. Рассмотрим линейную однородную схему (цепь ав- томатов), решающую задачу голосования. Определим ft-значную функцию голосования. Будем говорить, что значение i(l^f^ft) имеет / голосов, если / перемен- ных принимают значение i. Значение функции голосо- вания совпадает со значением переменных г, имеющим наибольшее количество голосов. При равенстве голосов у двух или более значений предпочтение отдается боль-
§ 5,2} ВЫЧИСЛЕНИЕ ЗНАЧЕНИЙ ЛОГИЧЕСКИХ ФУНКЦИИ 377 тему значению. Нетрудно заметить, что при k=2 функ- ция голосования совпадает с мажоритарной функцией. Опишем общий алгоритм взаимодействия автоматов в цепи. В связи с тем, что сложность отдельного авто- мата не зависит от числа автоматов в цепи (числа пе- ременных N), мы лишены возможности осуществить непосредственный подсчет числа переменных, прини- мающих одинаковые значения (числа голосов i-ro зна- чения переменных). С другой стороны, если мы образу- ем из равных значений переменных сплошные цепочки (голосующие коалиции), то можно сравнивать времена прохождения сигналов по цепочкам автоматов, обра- зующих голосующие коалиции. Пусть работа цепи состоит из трех фаз. Первая фаза — занесение значений переменных в автоматы (фаза считывания), вторая фаза — образо- вание голосующих коалиций (фаза перераспределения), третья фаза — попарное сравнение размеров голосую- щих коалиций (фаза сравнения). Рассмотрим организованную таким образом систе- му. Пусть в начальный момент времени все автоматы находятся в начальном состоянии Н. Кроме того, мно- жество внутренних состояний автомата имеет подмно- жество состояний Е! = {£1;} (l^i^ft). Стартовым сиг- налом может быть любой сигнал подмножества Еь Пусть начальным автоматом является крайний левый автомат. Тогда переход из начального состояния Н в состояния подмножества Ei определим следующим об- разом: если автомат А> и его правый сосед находятся в состоянии Н, а левый сосед — в состоянии подмноже- ства Еь то автомат Д3 переходит в состояние Ец, где i — значение переменной Xj. Таким образом, осущест- вляется считывание значений переменных в цепь авто- матов. Далее до окончания решения задачи состояния входов, на которые поступают переменные, не влияют на поведение автоматов. На этом заканчивается фаза считывания. Теперь рассмотрим процесс упорядочения состояний автоматов, соответствующих значениям переменных. Чтобы образовать голосующие коалиции, расположен- ные по убыванию значений переменных справа налево, необходимо осуществить обмен номерами внутренних
378 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ |ГЛ. V состояний между соседними автоматами каждый раз, когда номер внутреннего состояния правого автомата меньше номера внутреннего состояния левого автомата. Работа цепи автоматов иллюстрируется рис. 5.11 и таблицей 5.2.1. Будем говорить, что на автомат поступает сигнал £ь ес- ли его сосед находится в состоянии подмножества Е{. Фронт сигнала Е[ распространяется по цепи автома- тов со скоростью 1, и за ним про- исходит упорядочение состояний. Нетрудно заметить, что в процес- се упорядочения путем парного об- мена номерами состояний не может возникнуть логических противоре- чий, при которых автомат должен обмениваться номерами внутренних состояний сразу с обоими соседями. Состояние с максимальным номе- ром, возникнув на фронте сигнала Ei, продолжает двигаться за фрон- том сигнала со скоростью фронта этого сигнала, т. е. со скоростью 1, а состояние с минимальным номе- ром, возникнув на фронте сигнала Ei, движется в противоположную сторону со скоростью 1 (один ав- томат за один такт). Следовательно, если сигнал Еь дойдя до конца цепи, породит отраженный сигнал, то этот сигнал будет двигаться по цепи автоматов с упо- рядоченными номерами внутренних состояний и может быть использован для сравнения чисел автоматов в го- . лосующих коалициях. Сигнал Ei на краю цепи автоматов порождает отра- женный сигнал Е2, на фронте которого происходит пе- реход автоматов из состояний подмножества £] в со- стояния подмножества E2={E2i}. Состояния подмноже- ства Ei и подмножества Е2 поставлены в одноодно- значное соответствие. Идея, использованная для сравнения голосующих коалиций, ясна из рис. 5.11. Каждый раз, проходя гра- ницу голосующих коалиций, сигнал Е2 порождает сиг-
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИЙ 379 Таблица 5.2.1 № 1 2 3 4 5 6 7 8 9 10 11 12 xi 2 3 1 2 3 2 3 1 2 3 2 1 i Состояния автоматов 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 21 2, 2t 21 11 1, h 1. 1, 1, Ь 1. 11 1. h 11 h It li li li li It h 12 1з 1з 1з 1з 1з 1з 1з 1з 1з 24 3, 3, 1. 21 2. 21 2t 2. 2i 2. 2i 2, 1. 1. li li 11 h li li li li 12 15 h 1з 1з 1з 1з 1з 1з 1з 24 11 3. 21 2. 2| 2, 21 21 21 21 li 2, 2, 21 2, 2. 21 21 h li 12 1, 1з' 1. Il- 13 1з 1з 1.3 1з 2i 2i 3i 3i 31 2t 2i 2. 2i li 2, 2i 2! 2i 2t 2i 2t 1, 2i 2., 2; 2з 23 2з 2з 2з 2з 2з 2з 2, 31 31 2, 3[ 31 31 11 2, 2. 2, 21 2. 2, 21 1. 2! 2., 2: 2Z 2; 23 2.3 2з 2з 2з 21 з> 3, 31 11 3! 2t 21 2| 2> 2, 2, 11 2t 2. 2., 2^ 2; 2-> 23 2з 2з 23 23 21 3, 3> ll 31 2i 3, 3i 3i 2! 2, 1. 2. 2., 2“ 2; 2o 2. 2; 22 2з 23 23 2i 11 3. 2i 31 31 2i 3i h 9 -1 2o 2o 2., 2o 2o 2o 2o 2.; 2.‘ 2; 24 2, 3i 3! 31 2i 3, li 3i 3.. З; З3 Зз Зз Зз Зз 3j 31 31 31 2i 3! li 3i 3o 3; 3.“ 3; Зз Зз 3.1 3< 2i 3i li 3i 3o 3, 3“ 3: 3‘2 Зз Зз Зз 31 ll 3, 32 32 3., 3." 3; 3o 3“, 3; 31 нал Е3, движущийся в противоположную сторону. На фронте сигнала Е3 происходит переход автоматов из состояний подмножества Е2 в состояния подмножества £'з={£'3!}. Состояния подмножеств Е2 и Е3 поставлены в однооднозначное соответствие. Сигнал Е3 распростра-
380 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V няется только в пределах одной голосующей коалиции. На краю цепи сигнал £3 порождает отраженный сигнал Et, образуемый подмножеством состояний Е={Ец}. Сигнал Ei{ распространяется по цепи, не изменяя своего индекса t, до тех пор, пока он не встретится с автоматом, находящемся в состоянии, принадлежащем подмножеству Е2. В этом случае сигнал Ец прекращает распространение. Автомат находится в состоянии, при- надлежащем подмножеству £«, один такт, после чего возвращается в начальное состояние. Сигнал Е3 порож- дает отраженный сигнал £4 каждый раз, когда он встречает автомат, находящийся в начальном состоянии. Из сказанного, рис. 5.11 и таблицы 5.2.1 очевидна процедура сравнения размеров голосующих коалиций. Выходным сигналом на крайнем автомате цепи являет- ся сигнал Ец, индекс i которого является значением функции голосования. Правила смены состояний авто- мата приведены в таблице 5.2.2. Получившийся автомат имеет (4£-|-1) внутренних состояний. Время между подачей стартового сигнала и получением значения функции лежит в пределах 4ЛГ >T>2W+ 2(5.2.1) Точное значение Т складывается из удвоенного време- ни прохождения сигналом всей цепи и дополнительно голосующей коалиции максимальной длины. Для случая k=2, т. е. для случая реализации линей- ной однородной схемой мажоритарной функции, число внутренних состояний автомата может быть уменьшено за счет изменения алгоритма взаимодействия автоматов. Так как переменная принимает только два значения, то можно осуществить непосредственное вычитание чис- ла единиц из числа нулей (или наоборот) путем пере- вода в нейтральное состояние двух рядом стоящих автоматов, если один из них находится в состоянии, соответствующем единице, а другой — нулю. Алгоритм взаимодействия в этом случае поясняется рис. 5.12. Работа системы состоит из трех фаз: фазы считыва- ния, которая аналогична фазе считывания для преды- дущего алгоритма; фазы упорядочения и нейтрализа- ции, в течение которой происходит взаимная нейтрали-
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИЙ ЛОГИЧЕСКИХ ФУНКЦИЙ 381 Таблица 5.2.2 Номер Правило Условие 1 X У Хф {Ей},у*={К'), Н} 2 X и Ей У х е {£„}, у е {К, Н} 3 Е]а Еф Elb* Eic &* = тах {6 (с—6) max (b, а). (b-а) min (6, с)}, _ /1 прих>0, °w "" 10 при х <0 4 Eia Eib Eib* У у е {К, Н}; Ь* = тах(а, Ъ) 5 к Eib Etb* Eic b* =min (b, с) 6 X Ей Ей У х s {К, Eii, Ей}, у s {К, E2j, Ей}, i<i<l 7 X %’ ^2J У х {Eij,E2i}, у s {/С, Н, Ей,Ей>ЕйУ , 8 X W jo У xs {К, у s {К, И, Е2),Ез1,Еу} , i<j<l 9 X ...J co co У х <= {К, E2i,Ей,E3j}, у <= {Eij.EsjtEj }, i<i<l 10 X E3] Ей У х^ {К. EiitE^itEsj}, У^ {К, Н, Ей}, i<i 11 X Ей Ей Ей х {/С, Ег1,Ей,Ей}, i<j<l 12 X E±e H У х <= {К, Esi,E3i,E3j}, у <== {К, Н}. ч Сигнал К — сигнал края цепи. зация пар нулей и единиц и движение нейтральных состояний к концу цепи, а информационных — к ее на- чалу; фазы передачи, в которой отраженный от конца цепи сигнал передает на выход цепи информацию о на- личии в цепи не нейтрализованных нулей или единиц. В этом случае автомат имеет 6 внутренних состоя- ний, время реализации алгоритма равно 2N. Правила
00 СИСТЕМА ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ.
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИИ 333 Таблица 5.2.3 Номер Правило Условие 1 X 0 0 Z Л- е {0,6 ')}, г е {0, 2, 5} 2 X 2 0 0 х е {0, 1, 2, 6} 3 X 5 / Z х ен {0, 1), z е {5, 6} . __ j 0, если входная переменная равна 0, ~ U> если входная переменная равна 1 4 X V '1 Z хе{1, G}, z/=l, zefi, 2, 5} или хе е {0, 1, 2, 6}, z/ = 2, z= 1 5 X 0 2 Z х е {0, 6), г = 1 или х <= {1, 2} ге{2, 5} 6 X V 2 Z х е {1, 6}, у = \, z = 0 или х е {0, 2}, i/= 1, z е {2, 5} или х е {0, 1, 6}, */ = 2, г=2 7 X 0 3 2 х е {0, G), ге {3, 6} или х = 2, ге {3, 6} или х = 6, 2 = 4 8 X V 4 2 X е {0, 1, 2, 6}, ye {1, 2}, ZS {4, 6} или № 1, 1/ = 0, 2 Е {3, 6} 9 X у 5 2 х s {2, 3, 4, 5, 6}, у е {3, 4,5}. г <= {5, 6} или X Е {0,1}, у Е {3, 4}, 2 Е {5, 6} 9 Сигнал 6 — сигнал края цепи. смены состояний автомата для случая k=2 приведены в таблице 5.2.3. Рассмотрим теперь возможность реализации произ- вольной симметрической функции X переменных линей- ной однородной схемой. Симметрическая функция задается набором ее рабо- чих чисел. Будем использовать' автоматы, имеющие по два внешних входа каждый (не считая входов связи с соседними автоматами). Один внешний вход j-го авто- мата соответствует переменной Xj а вто- рой-рабочему числу fj Так как для
384 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ автоматов [ГЛ. v произвольной симметрической функции количество рабо- чих чисел равно то для подачи на схему всех рабочих чисел и переменных достаточно иметь цепь из W+1 автоматов. Работу схемы можно организовать следующим образом. После подачи на крайний авто- мат Л° пускового сигнала по цепи начинает распростра- няться сигнал Е\ (состояния 01 и li), который произ- водит считывание значений переменных в автоматы. За фронтом сигнала Ei происходит упорядочение зна- чений переменных, т. е. все единицы собираются к на- чалу цепи, а нули — к ее концу. Сигнал Е^ отражается от края цепи и движется обратно (состояние X). На границе между областями нулей и единиц формирует- Таблица 5.2.4 Номер Правило. Условие 1 X У Н z xe{H,02,l2,X,A1)}, y=H, zt={H, К} или #е{02, I2}, А} или ze{Оь li}, y=X, z^{H, A} о X V о. z xe{0i, li}, y=0i, ze(0, 0,} или x=0(, 0=11, 0i} 3 X V 11 z ,ve{0i, 1|}, 0 = 01, z—lj или хе{1ь /\}, У = 11, ге {А/, 01,11} 4 X 11 о2 02 vs {li, К} 5 X 11 1s 1г хе {li, К} 6 X V X z хе {Оь 1J, 0=O|, ze{,Y, К} или х=0|, z/=l,. г е {Л, К} 7 X Н it ' z X ЕЕ {01, 11}, Z (= {//, А} / . _ J 01, если х — 0, 1 (И, если х = 1. 8 X 11 Pi z хе{1|( К}, г<={К,Х} pi .—./Os, если г(=0, |]2, если гх-= 1. ‘) Сигнал К — сигнал края цепи.
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИИ 385 ся выходной сигнал, совпадающий со значением рабо- чего числа на граничном автомате (состояния 02 и 12). При использовании такого алгоритма каждый авто- мат имеет шесть внутренних состояний. Правила пере- ходов автомата задаются таблицей 5.2.4. Пример реа- лизации симметрической функции 12, переменных с ра- бочими числами 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1 для одного из наборов значений переменных приведен в таблице 5.2.5. В этой таблице начальное состояние (И) не обозна- чено. Вместо этого состояния оставлено чистое место. Таблица 5.2.5 xi 1 0 0 1 0 1 1 1 1 1 1 0 1 ri 0 0 0 0 1 0 0 1 0 0 1 1 0 t Состояния автоматов 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 •26 11 11 11 l: 11 11 11 11 h ll ll 11 I: ll 11 11 ll 11 11 11 11 11 'i 01 01 01 01 ll 11 ll 11 It ll 11 It ll 11 11 11 11 11 11 11 I: 02 01 0i 11 01 01 0i 11 I: 11 It ll 11 11 11 ll 11 11 11 11 11 o2 11 0i 01 01 11 01 II ll 11 11 ll 11 II 11 ll 11 11 11 11 0„ 01 01 1. 01 11 01 11 11 ll II II 11 11 11 h II ll o2 ll 0, 11 01 11 01 11 11 11 11 11 11 11 ll It 02 11 01 11 01 11 11 11 11 11 ll 11 0., II 01 11 01 11 01 11 11 11 11 11 02 11 ?! 01 11 01 01 02 11 0, ll 01 S: St II 01 01 01 5! ><>— о о и- , - J>
С£б СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V Рис. 5.13.
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИЙ ЛОГИЧЕСКИХ ФУНКЦИИ 387 Инвариантная функция получается из соответствую- щей симметрической функции инвертированием некото- рых переменных. Таким образом, для того чтобы опи- санная схема реализовала произвольную инвариантную функцию, необходимо добавить для каждого автомата еще один внешний вход Cj и схему, реализующую функ- цию yj=Xj^)Cj, где уз становится рабочей переменной для автомата 7U. Рассмотрим класс логических функций, которые мо- гут быть представлены как инвариантные функции N переменных, у которых рабочие числа в свою очередь являются инвариантными функциями тех же перемен- ных. Такие функции назовем функциями со вторичной инвариантностью. Нетрудно видеть, что схема, реализующая произ- вольную функцию со вторичной инвариантностью N пе- ременных, может быть построена из N линейных одно- родных схем, реализующих инвариантные функции N переменных (рис. 5.13). Отличительной особенностью схемы на рис. 5.13 яв- ляется необходимость синхронизации отдельных линей- ных однородных схем. В нашем случае такая синхро- низация может быть осуществлена автоматически. Пус- ковым сигналом для вертикальных цепочек является отраженный сигнал горизонтальной цепочки. Выходной сигнал схемы при этом формируется сигналами, отражен- ными от концов вертикальных цепочек. Для этого необ- ходимо добавить два внутренних состояния автомата. Схема, реализующая все функции со вторичной ин- вариантностью, обладает достаточно большими функ- циональными возможностями. Так, например, если до- пустить подачу переменных на входы рабочих чисел вертикальных цепочек, то схема из 26 автоматов (см. рис. 5.13) реализует любую функцию пяти переменных. Нахождение распределения переменных и констант по входам схемы разбивается на независимые построе- ния для каждого рабочего числа. Каждое рабочее чис- ло rj определяет /*-й ярус TV-куба (все вершины, рас- стояние по Хеммингу до которых от нулевой вершины равно /). Инвариантная функция, подаваемая в каче- стве рабочего числа г;-, осуществляет разбиение вершин
388 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ ГГЛ. V j-ro яруса Я? на два подмножества, соответствующих конституентам 0 и 1 реализуемой функции. Нулевой ярус Ям содержит только одну вершину гиперкуба (О, 0, 0) и не требует разбиения. То же самое спра- ведливо и для Ям- Первый ярус Ям содержит N вер- шин. Если функция принимает значение 1 на k верши- нах этого яруса, то при подаче сигнала на первую вер- тикальную цепочку инвертируются те переменные, которые равны 0 на всех конституентах единицы этого яруса, а рабочие числа этой цепочки равны 0, кроме rh+i==1. Таким образом, все 2х разбие- ний этого яруса допустимы. Аналогично допустимы все разбиения яруса Ям-1- Для остальных ярусов с ростом N Таблица 5.2.6 Номер Представитель Значения входов переменных Значения входов рабочих чисел Ря1РиР23РиР25 1 3 xr х2 0 0 0 0 10 0 0 2 3,5 х2 х3 0 0 0 Xj 0 0 0 3 3,12 xt х2 0 0 Х5 х.5 0 0 0 0 4 3,5,9 хг 1 0 0_Хб 1 0 0 0 0 5 3,5,10 Xi х2 хз Х4 0 х2 0 Хх 0 0 6 3.5,6 хг х2 хз 0 0 0 10 0 0 7 3,5,24 х1 х2 хз 0 0 1 0 0 0 0 8 3,5,9,17 0 0 _0 0 1 1 0 0 0 0 9 3,5,6,9 *1 хг х3 х, 0 Xj 0 10 0 10 3,5,9,18 -Ч х2 х3 х1 о 1 х2 0 0 0 11 3,5,10,12 0 х2 х3 0 ха 1 0 0 0 0 12 3,5,10,20 Xj Х2 Хз Х1 1 1 Xj 0 х2 0 13 3,5,6,24 хх х2 х3 1 0 10 10 0 14 3,5,6,9,17 Ху х2 х3 0 0 Xi 1 000 15 3,5,6,9,10 х± х2 1 0 х$ 110 0 0 16 3,5,6,9,18 хх х2 Хз хА 0 Xj х2 1 0 0 17 3,5,6,9,24 хг х2 х3 1 0 хч J 0 10 18 3,5,10,12,17 Xi х2 хз 0 Х5 1 Хб 0 0 0 19 3,5,10,20,24 Xj Х2 Хз Х4 1 1 х2 хз Xj 0
§5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИИ 389 В таблице 5.2.6 приведены все разбиения для fllt что и доказывает реализуемость всех функций пяти переменных схемой на рис. 5.13 (разбиение $1 полу- чается из разбиения fit инвертированием всех пере- менных). В таблице даны реализации разбиений для представителей классов эквивалентности разбиений яруса ^7®. В один класс эквивалентных разбиений сво- дятся разбиения, которые могут быть получены друг из друга путем перестановок переменных и инвертирова- ния функции в пределах данного яруса. Инвертирова- ние функции на ярусе достигается одновременным ин- вертированием всех рабочих чисел вертикальной цепоч- ки данного яруса. В заключение этого параграфа рассмотрим вопрос об эквивалентности колец из автоматов с односторон- ними связями и цепей из автоматов с двухсторонними связями. Предварительно введем ряд определений и обозначений. Однородная автономная двухсторонняя цепь [А0, А1, .... AN-1], составленная из N одинаковых экземпля- ров автомата Мура А, представлена на рис. 5.14. На Рис. 5.14. входы каждого автомата А> такой цепи поступают сиг- налы с выходов двух его непосредственных соседей А^-1 и А’+1. Крайние автоматы А° и Aw-1 имеют по од- ному соседу. Алфавит внутренних состояний автомата А {а}='{а1, а2, ..., aft) является одновременно входным и выходным алфавитом. На свободные входы крайних автоматов А° и А*'’-1 подаются постоянные граничные сигналы, принимающие значения из того же алфавита {а}. Состояние /-го автомата цепи в момент времени 7+1 определяется соотношением а](Н-1)=А[а,-1(0, аД/), aJ+1(/)], 0^/<N-1, (5.2.2) где а-ь aN—постоянные граничные сигналы.
390 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ автоматов (ГЛ. V Однородное автономное двухстороннее кольцо [В0, В1, Bw-1] из N экземпляров автомата Мура В пред- ставлено на рис. 5.15. Такое кольцо отличается от двух- сторонней цепи тем, что выход автомата BN-i подан на Рис. 5.15. вход автомата В0 (вместо граничного сигнала <х_] в двухсторонней цепи), а выход В0 подан на вход BN~l (вместо в цепи). Алфавит внутренних состояний ав- томата В {р} = {р1, р2, .... Р'} совпадает со входным и выходным алфавитом. Состояние Р; /-го автомата двух- стороннего кольца определяется выражением Р> (t + 1) = h [Po-i)mod N (0. ₽/ (0. ₽(Ж)той N (0]- (5.2.3) О < / < АГ — 1. Однородное автономное одностороннее кольцо [D0, D1, из N экземпляров автомата D изображено Рис. 5.16. на рис. 5.16. На вход каждого автомата Dj подается вы- ход только одного соседа ijmodN. Алфавит внутрен- них состояний автомата D {б} = {б1, б2, 6т} совпадает со входным и выходным алфавитом. Поведение /-го ав- томата одностороннего кольца описывается выражением б>(Г + 1) = /з[бО-1)то<1ЛГ(0.в>(0]. 0</<У-1. (5.2.4) Рассмотрим сначала моделирование поведения двухсторонней цепи двухсторонним кольцом. Будем говорить, что однородное автономное двух- стороннее кольцо моделирует поведение однородной автономной двухсторонней цепи, если по состоянию 0; автомата Bi кольца в произвольный момент времени
§5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИИ 391 /(/=0, 1, ...) можно определить состояние а3- автомата Аз цепи в тот же момент времени, т. е. аД/) =<р[₽ДО]- Поведение автоматов двухсторонней цепи и двух- стороннего кольца описывается одинаковыми выраже- ниями (5.2.2) и (5.2.3). Однако работа двухсторонней цепи зависит от граничных сигналов, которые отсутст- вуют в кольце. Поэтому для того, чтобы двухстороннее кольцо моделировало поведение двухсторонней цепи, необходимо ввести в кольцо информацию о граничных сигналах. Это может быть сделано следующим обра- зом. Двухсторонней цепи [Л°, А1, ..., X-v“‘] поставим в соответствие двухстороннее кольцо [В0, В1, ..., Вх-1] так, чтобы автомату Аз соответствовал автомат Вз для —1. Составим автомат В из двух подавтома- тов А и G {₽} = {а}Х{у}> где {у} = {0,1}. Зададим сле- дующие правила функционирования подавтоматов: _)0 при (1 при /=/=0, / = 0, (5.2.5) т. е. для автоматов В0 во все моменты времени уо=1, а для остальных автоматов кольца у_>=0, /#=0; f1 [а(; - l)mod N №' аз (0 > aO+Dmod N W] > если уу = T0-+i)mod N = 0; ау(/ + 1) = fi [a_t, аДО. «O+Dmod N (0] > если Io—Djnodjv = I(>+i)mOd jv — 0, ~ 1» fl [aO-l)modN(0, a, (Z), (%„], еСЛИ TO-IJmQdjy Tj = 0> T(j+l)mod N = (5.2.6) Из (5.2.5) и (5.2.6) следует, что существует функция гр такая, что аД/) =ф[0Д/)], причем <р проектирует {0} на {а}. В алфавите {у} символ 1 соответствует паре посто- янных граничных сигналов (a-i, aN). Для того, чтобы двухстороннее кольцо моделировало поведение двух- сторонней цепи при выборе в качестве граничных сиг- налов любой пары символов из {а}, необходимо для каждой новой пары граничных сигналов вводить хотя бы один дополнительный символ в {у}.
392 СИСТЕМЫ ВЗАИМОДЕЙСТВУЮЩИХ АВТОМАТОВ [ГЛ. V Теорема 5.1. Для каждого однородного автоном- ного двухстороннего кольца [В0, В1.... В*г-1] сущест- вует однородное автономное одностороннее кольцо [В0, В1, ..., Вк-1], моделирующее поведение двухсторон- ---------. него кольца в том смысле, что для j _____ | I ГЛ । = F [6U+Omodjv(20], । л I где 0ДО определяется выражением | । (5.2.3), 6,(2/)—выражением (5.2.4), а I г-*-| । F — некоторая функция. *1— а *-Доказательство. Построим авто- I мат В из двух подавтоматов (рис. 5.17): 1---------1 U и V. Тогда = Положим Рис. 5.17. {«} = {₽} и {o} = {«}Uo*; {«} является одновременно входным и выходным ал- фавитом автомата В. Состояния подавтоматов Uj и V,- автомата В> в момент времени t будем обозначать через «ДО и уДО соответственно. Тогда, как видно из рис. 5.17, 6, (f 4-1) = /з [«0--i)rood N (0. (0] • (5.2.7) Очевидно, что это выражение является частным случа- ем выражения (5.2.4). Зададим следующие правила функционирования подавтоматов: t»/U+l) = «ДО» если v*, если Vj (/) = у*, оДО =£»*; (5.2.8) «Д*+1) = "«-OmodwWi если /2[«W-I)modjv(0, «ДО. МО], если М0 = «*. МО =/=«*• (5.2.9) Тогда, если оД/=0)=о* (O^/^W—1), то: 1) в нечетные такты состояния подавтомата Uj /-го автомата одностороннего кольца передаются подавто- матам V, И ^(i+Dmoi N ’ т-е‘ уД2/ + 1) = иД2/), 1 «(j'+bmod N + 1) = Uj (2i)] | (5.2.10)
§ 5.2] ВЫЧИСЛЕНИЕ ЗНАЧЕНИИ ЛОГИЧЕСКИХ ФУНКЦИЙ 393 2) в четные такты переходы подавтоматов /-го авто- мата определяются как Vj (2t 4- 2) = и*, 1 ui (2f 4- 2) = fi [«(/—i)mod n (2/ 4-1) > «у (2< 4~ 1) > vi (2^ 4-1)1 • j (5.2.11) В силу (5.2.10) и (5.2.11) uj (2^ 4-2) = fi [W(J—2)mod N (20> w0'-l)mod N ’ UJ (20] • (5.2.12) Положим для /=0 Uj(O) =₽j(0), —1. (5.2.13) Индукцией no i(t=0, 1, ...) покажем, что 0/(0 = u0+0mod.N(20, 0</<V - 1. (5.2.14) Действительно, при t = Q из (5.2.14) следует (5.2.13). Пусть выражение (5.2.14) справедливо для t=k\ тогда согласно (5.2.3) k 0/ (^ 4" 1) = /з [0(7-l)mod N 0? W’ 0n+Dmod N W] ’ и согласно (5.2.14) и (5.2.12) fz [0(J-l>modW 0/(&), 0U’+l)mod W (k)] = =/з [W(;+fc-l)mod jv (2^)> uO’+fc)mod N (2^)> wO’+ft+i>mod N (2^)] = == Щ)+ lt+l)mnd N 2) • Следовательно, 0J (^ 4" 1) = u(j4 h+l)mod N № + 2) • Поскольку {«} есть проекция '{6} = {и}Х{4 на {«}, то u=F(8), где F — функция проектирования, Следова- тельно, 0/(0 = F [б(Ж)гаоа)у(20]. 0</<Af - 1, что и требовалось доказать. Следствие. Для каждой однородной автономной двухсторонней цепи [Д°, А1, .... Лл’-1] существует одно- родное автономное одностороннее кольцо [D°, D1, ... ..., DN~’], моделирующее поведение цепи в том смысле, что а; (0 = Т [6(J+Omod N (2/)], 0 < j < - 1, где Т — некоторая функция.
ПРИМЕЧАНИЯ Глава I § 1.1. Основные постановки задач и полученные результаты при- надлежат М. Л. Цетлину [101, 102, 105]. Отличие в изложении сво- дится лишь к представлению автомата в виде композиции двух ав- томатов. Использованное определение целесообразности принадлежит А. А. Милютину [76]. § 1.2. Описанные в параграфе конструкции автоматов были пред- ложены: автомат Ln> Л. Цетлиным [101, 102], автомат Dn* ftB. И. Кринским [61, 62], автомат Rn ftX. Роббинсом [137], автомат В. Ю. Крыловым [65], автомат Vn i В. А. Пономаревым [82], е-автомат М. Л. Цетлиным и С. Л. Гинзбург [108]. Анализ свойств «глубоких» автоматов принадлежит В. А. Волкон- скому [38]. Исследование спектра матрицы марковского процесса, описывающего поведение автомата в случайной среде, было проведено Г. Н. Церцвадзе [112]. § 1.3. Поведение непрерывных автоматов в случайных средах исследовалось автором совместно с А. М. Герштом [27], за исключе- нием автоматов с асимметрией скоростей. Оценка скорости обучения автомата H2cjk получена А. М. Герштом. § 1.4. Стохастические автоматы с переменной структурой были предложены и исследованы автором совместно с И. П. Воронцовой [23—25]. Ограничения на величины аир для автомата получе- ны И. П. Воронцовой [39, 40]. § 1.5. Модель переключаемой случайной среды предложена М. Л. Цетлиным [102, 105], ему же принадлежит анализ поведения автомата Lrn, г. Анализ поведения е-автоматов принадлежит М. Л. Цет- лину и С. Л. Гинзбург [108]. Поведение непрерывных автоматов в переключаемых средах исследовалось автором совместно с А. М. Герштом [27], стохастических автоматов с переменной струк- турой совместно с И. П. Воронцовой [23, 25]. Изучение асимптотиче- ских свойств поведения автоматов в несимметричных случайных сре- дах было начато Г. Н. Церцвадзе [ИЗ], однако Г. Н. Церцвадзе были получены приближенные решения, основанные на гипотезе мед ленности (см. § 2.3) при условии б->0 и б->1/2. Глава 11 § 2.1. Содержание этого параграфа представляет собой изложе- ние статьи И. М. Гельфанда, И. И. Пятецкого-Шапиро и М. Л. Цег- лина [42].
ПРИМЕЧАНИЯ 395 § 2.2. Результаты, относящиеся к играм конечных автоматов, бы- ли получены М. Л. Цетлиным [103, 105], В. И. Кринским и В. А. По- номаревым [62, 64]. Игры стохастических автоматов с переменной структурой изучались автором совместно с И. П. Воронцовой [24]. § 2.3. Основные определения, связанные с симметрическими игра- ми, принадлежат И. М. Гельфанду, И. И. Пятецкому-Шапиро и М. Л. Цетлину [42]. Результаты, изложенные петитом,— В. А. Волконскому [38]. § 2.4. Пример игры в размещения принадлежит М. Л. Цетлину и С. Л. Гинзбург [109]. § 2.5. Игра Гура исследовалась В. А. Боровиковым и В. И. Брыз- галовым [7]; В. А. Волконским [38] в предположении, что в каждый момент времени штрафуется только один автомат; Б. Г. Питтелем [81] в предположении, что в каждый момент значения входных сигна- лов для всех автоматов одинаковы и (для сохранения эргодичности) автоматы в случае смены действия выбирают новое действие случай- но; В. А. Боровиковым [6] в предположении, что при достаточно больших N, п и Nln = O (1) решение игры Гура имеет следующую асимптотику: с •••+*!+*-!) ?ькк Ф (х , ..., х п) = Ф (X , х , ..., х п\ = ----------—j--------’ \ п' ' ~п/ \ k' IV ’ —«/ X ...X J п —я где Ф (х^, ..., Х-^)—вероятность того, что в состоянии с номером j п п находится Ху автоматов х. = х. = а коэффициенты 3^ 7=-n J 1 подлежат определению. При этом финальное распределение, получен- ное Б. Г. Питтелем, имеет вид (2.5.12), а полученное В. А. Борови- ковым: где W (k, п, .V) = Используя стационарную вероятность смены действия, это распреде- ление легко преобразовать к виду Нетрудно видеть асимптотическую близость этого распределения и (2.5,10).
396 ПРИМЕЧАНИЯ Асимптотический анализ распределения (2.5.12) был проведен Б. Г. Питтелем [81]. Результаты, связанные с игрой непрерывных автоматов, принадлежат А. М. Гершту [44]. § 2.6. Результаты этого параграфа, за исключением игры Гура па окружности, получены М. Л. Цетлиным [105]. Глава III § 3.1. Оценка собственных чисел проведена по той же методике, что и в работе Г. Н. Церцвадзе [112]. § 3.2. На возможность использования случайного парного взаи- модействия для ускорения сходимости внимание автора обратил Л. И. Розоноэр. Глава IV § 4.1. Модель поведения автоматов в периодической случайной среде рассматривалась автором совместно с М. Л. Цетлиным и М. В. Мелешиной [34]. Возможность технической реализации син- хронизатора рассматривалась в дипломном проекте студентки ЛЭТИ Н. М. Кравченко, 1969 г.; при этом оказалось несколько удобнее оп- ределять вероятность штрафа для автоматов второго уровня не как средний штраф автоматов первого уровня за один период работы конструктора, а по формуле р U) = [Р (0 (Тгаах -1) + s (/)]. 1 max ' Модель двухуровневой организации в системе массового обслужива- ния (задача о распределении вычислительных средств) принадлежит М. Л. Цетлину и С. Л. Гинзбург [46], им же принадлежат приве- денные примеры. § 4.2. Модель коллективного поведения автоматов в задаче о выработке системы приоритетов изучалась автором совместно с М. В. Мелешиной и М. Л. Цетлиным [35], а задача о распределе- нии работ совместно с М. В. Мелешиной и А. И. Семеновым [143]. § 4.3. Задача о распределении ресурса с использованием мно- жителей Лагранжа исследовалась автором совместно с М. В. Меле- шиной и В. Т. Перекрестом [33], анализ устойчивости системы диф- ференцированных уравнений (4.3.9) был проведен В. Т. Перекрестом. § 4.4. Содержание этого параграфа с небольшими дополнениями совпадает со статьями В. Л. Стефанюка и М. Л. Цетлина [91] и В. Л. Стефанюка [90]. § 4.5. Результаты этого параграфа принадлежат А. В. Бутримеп- ко, М. Л. Цетлину, С. Л. Гинзбург и В. Г. Лазареву [9, 11, 12, 106]. Глава V § 5.1. Результаты этого параграфа получены автором совместно с В. Б. Мараховским и В. А. Песчанскнм [28, 29]. Решение задачи о синхронизации произвольного графа в отлич- ной от изложенной здесь постановки было получено В. И. Левен- штейном [70]. § 5.2. Результаты этого параграфа получены автором совместно с В. Б. Мараховским и В. А. Песчанскнм [30, 31].
ЛИТЕРАТУРА 1. Айзерман М. А. и др., Логика. Автоматы. Алгоритмы.— Физматгиз, 1963. 2. Белл м ан Р., Дрейфус С., Прикладные задачи динами- ческого программирования.— «Наука», 1965. 3. Беркс А., Предисловие к русскому изданию книги Дж. фон Неймана «Теория самовоспроизводящихся автоматов».— «Мир», 1970. 4. Бесконечные антогонистические игры.— Физматгиз, 1963. 5. Б л е к у э л л Д., Гиршик М., Теория игр и статистических решений. ИЛ, 1958. 6. Боровиков Б. А., Приближенное решение игры Гура.— Проблемы кибернетики, вып. 20, 1968. 7. Боровиков В. А., Брызгалов В. И., Простейшая сим- метрическая игра многих одинаковых автоматов.— Автоматика и телемеханика, XXXVI, № 4, 1965. 8. Брызгалов В. И., Пятецкий-Шапиро И. И., Ш и к М. Л., О двухуровневой модели взаимодействующих ав- томатов.—ДАН СССР, 160, № 5, 1965. 9. Б у т р и м е н к о А. В., О поиске оптимальных путей по изменя- ющемуся графу.— Изв. АН СССР, Техническая кибернетика, № 6, 1964. 10. Бутрименко А. В., Об играх автоматов, обладающих раз- личной активностью.— Проблемы передачи информации 3, вып. 4, 1967. И. Бутрименко А. В., Лазарев В. Г., Система поиска оп- тимальных путей передачи сообщений.— Проблемы передачи ин- формации 1, вып. 1, 1965. 12. Б у т р и м е н к о А. В., Лазарев В. Г. Игры автоматов и управление сетями связи.— Труды III Всесоюзного совещания по автоматическому управлению (технической- кибернетики), 1965, Самонастраивающиеся системы. «Наука», 1967. 13. Буш Р., Мосте л лер Ф., Стохастические модели обучаемо- сти.— ИЛ, 1962. 14. Вайсборд Э. М., Об игре двух автоматов с различной глу- биной памяти.—Автоматика и телемеханика, № 3, 1968. 15. Вайсбо*рд Э. М., Об игре многих автоматов с различной глу- биной памяти.—Автоматика и телемеханика, № 12, 1968. 16. Валах В. Я., О поведении автомата с избирательной тактикой в стационарных случайных средах.—Кибернетика, № 4, 1968. 17. Варшавский В. И., Об одном примере организации взаимо- действия в коллективе автоматов.— XXIII Всесоюзная научная сессия, посвященная 50-летию Советской власти и Дню радио, Тезисы, Секция бионики, НТОРЭ им. А. С. Попова, 1967.
398 ЛИТЕРАТУРА 18. Варшавский В. И., Синхронизация в коллективе автоматов при случайном парном взаимодействии.— Всесоюзная конферен- ция по теории автоматов и искусственному мышлению, аннотации докладов, Ташкент. Изд-во ВЦ АН СССР, 1968. 19. Варшавский В. И.. Взаимодействие в коллективах автома- тов.— IV Всесоюзное совещание по автоматическому управле- нию, Тбилиси, 1968, тезисы, книга 1. 20. В а р ш а в с к и й В. И., Синхронизация коллектива автоматов при случайном парном взаимодействии.— Автоматика и телеме- ханика, № 2, 1969. 21. Варшавский В. II., Коллективное поведение автоматов.— Экономика и математические методы, № 2, 1970. 22. Варшавский В. И., Случайное парное взаимодействие в коллективах автоматов.— Труды семинара по проблеме расши- рения возможностей автоматов, 1970. 23. В а р ш а в с к и й В. И., Воронцова И: П., О поведении стохастических автоматов с переменной структурой.— Автомати- ка и телемеханика, XXIV, № 3, 1963. 24. Варшавский В. И., Воронцова И. П., Использование стохастических автоматов с переменной структурой для решения некоторых задач поведения.— Со. «Самообучающиеся автомати- ческие системы», «Наука», 1966. 25. Варшавский В. И., Воронцова И. П., Стохастические автоматы с переменной структурой.— Со. «Теория конечных и ве- роятностных автоматов», «Наука», 1965. 26. Варшавский В. И:, Воронцова И. П., Цетлин М. Л., Обучение стохастических автоматов.— Сб. «Биологические аспек- ты кибернетики», Изд-во АН СССР, 1962. 27. Варшавски й В. И., Г е р ш т А. М., Поведение непрерыв- ных автоматов в случайных средах.— Проблемы передачи ин- формации 2, вып. 3, 1966. 28. В а р ш а в с к и й В. И., Мараховским В. Б., Песчан- с к и й В. А., Некоторые варианты задачи о синхронизации цепи автоматов.— Проблемы передачи информации 4, вып. 3, 1968. 29. В а р ш а в с к и й В. И., Мараховский В. Б., Песч эн- ский В. А., О задаче голосования в цепи автоматов.— Изи. АН СССР, Техническая кибернетика, № 4, 1968. 30. В а р ш а в с к и й В. И., Мараховский В. Б., Песч а н- с к и й В. А., Реализация инвариантных функций линейными однородными схемами.— Изв. АН СССР, Техническая киберне- тика, № 4, 1969. 31. Варшавский В. И., Мараховский В. Б., Песчан- ок и й В. А., О моделировании поведения однородных автоном- ных двухсторонних цепей и колец из автоматов Мура одно- сторонними кольцами.— Проблемы передачи информации 6, вып. 4, 1970. 32. Варшавский В. II., Мараховский В. Б., Песчан- ский В. А., Розен блюм Л. Я., Однородные структуры. Анализ. Синтез. Поведение.— «Энергия», 1972. 33. Варшавский В. И., М е л е ш и н а М. В., Перекрест В. Т., Организация коллективного поведения в задаче о распределении ресурсов.— Автоматика и телемеханика, № 6, 1969.
ЛИТЕРАТУРА 399 34. В а р ш а в с к и й В. И., М е л е ш и н а М. В., Ц е т л и н М. Л., Поведение «автоматов в периодических случайных средах и зада- ча синхронизации при наличии помех.— Проблемы передачи ин- формации 1, вып. I, 1965. 35. Варшавский В. И., М е л е ш и н а М. В., Цетлин М. Л., Организация дисциплины ожидания в системах массового обслу- живания с использованием модели коллективного поведения ав- томатов.— Проблемы передачи информации 4, вып. 1, 1968. 36. В а с и л ь е в Н. Б., Пятецк ий-П1апиро И. И., О времени приспособления автомата к внешней среде.— Автоматика и теле- механика, № 7, 1967. 37. В и н о г р а д о в И. М., Основы теории чисел. «Наука», 1965. 38. Волконский В. А., Асимптотические свойства поведения про- стейших автоматов в игре.— Проблемы передачи информации 1. вып. 2, 1965. 39. Воронцова И. П., Алгоритмы изменения переходных вероят- ностей стохастических автоматов.— Проблемы передачи инфор- мации 1, вып. 3, 1965. 40. Воронцова И. П., Поведение стохастических автоматов с пе- ременной структурой в случайных средах.— Диссертация на со- искание ученой степени кандидата физико-математических наук, 1966. 41. Гельфанд И. М., Г у р ф и н ке л ь В. С., Ц е т л и н М. Л., О тактиках управления сложными системами в связи с физио- логией.— Сб. «Биологические аспекты кибернетики», Изд-во АН СССР, 1962. 42. Г е л ь ф а н д И. М., П я т е ц к и й - Ш а п и р о И. И., Цет- лин М. Л., О некоторых классах игр и игр автоматов.— ДАН СССР 152, № 4, 1963. 43. Гельфанд И. М., Цетлин М. Л., О некоторых способах управления сложными системами.— Успехи математических наук 17, вып. 1, 1962. 44. Г е р ш т А. М., Об играх непрерывных автоматов.— Проблемы передачи информации 3, вып. 1, 1967. 45. Г е р ш т А. М., С т е ф а н ю к В. Л., Автомат для решения эмпи- рической задачи в марковски переключаемой среде. — Автоматика и телемеханика, № 11, 1968. 46. Гинзбург С. Л., Ц е т л и и М. Л., О некоторых примерах мо- делирования коллективного поведения автоматов.— Проблемы пе- редачи информации 1, № 2, 1965. 47. Гитис Э. И., Преобразователи информации для электронных цифровых вычислительных устройств.— ГЭИ, 1961. 48. Глушков В. М., Синтез цифровых автоматов.— Физматгиз, 1962. 49. Градштейн И. С., Рыжик И. М., Таблицы интегралов, сумм, рядов и произведений.— Физматгиз, 1963. 50. Г р и г о р е н к о В. П., Н е й м а р к Ю. И., Р а п о п о р т А. Н., Оптимизация коллективом независимых автоматов и игры авто- матов.— Изв. высших учебных заведений, Радиофизика 11, № 7, 1968. 51. Данциг Дж., Линейное программирование, его обобщения и применения.— «Прогресс», 1966.
400 ЛИТЕРАТУРА 52. Д ы н к и н Е. Б., Марковские процессы и связанные с ними за- дачи анализа.— Успехи математических наук 15, вып; 2, 1960. 53. Евреинов Э. В., К о с а р е в Ю. Г., Однородные универсаль- ные вычислительные системы высокой производительности.— «Наука», 1966. 54. Карлин С., Математические методы в теории игр, программи- рование и экономика.— ИЛ, 1964. 55. Кобринский И. Е., Т р а х т е н б р о т Б. А., Введение в тео- рию конечных автоматов.— Физматгиз, 1962. 56. Колмогоров А. Н., Об аналитических методах в теории ве- роятностей.— Успехи математических наук 56, вып. 5, 1938. 57. Колдуэлл С., Логический синтез релейных устройств.— ИЛ, 1962. 58. Корбут А. А., Ф и и к е л ь ш т е й и Ю. Ю., Дискретное про- граммирование.— «Наука», 1969. 59. Ко ф м а н А.» Кр ю о н Р., Массовое обслуживание. Теория и приложения.— «Сов. радио», 1965. 60. Красовский Н. Н., Некоторые задачи теории устойчивости и движения.—Физматгиз, 1959. 61. Кри некий В. И., Асимптотически оптимальный автомат с экспоненциальной скоростью сходимости.— Биофизика 9, в. 4, 1964. 62. К р и н с к и й В. И., Об одной конструкции последовательности автоматов и ее поведение в играх.— ДАН СССР 156, № 6, 1964. 63. К р и н с к и й В. И., Асимптотическое поведение автоматов.— Диссертация на соискание ученой степени кандидата физико- математических наук, 1965. 64. К р и н с к и й В. И., П о н о м а р е в В. А., Об играх вслепую.— Биофизика 9, в. 3, 1964. 65. К р ы л о в В. Ю., Об одном стохастическом автомате, асимпто- тически-оптимальном в случайной среде.— Автоматика и теле- механика, XXIV, № 9, 1963. 66. Крылов В. Ю., Цетлин М. Л., Об играх автоматов.— Ав- томатика и телемеханика XXIV, № 7, 1963. 67. Л а з а р е в В. Г., П п й л ь Е. И., Синтез асинхронных автома- тов.— «Наука», 1964. 68. Л а - С а л л ь Ж-» Л е ф ш с ц С., Исследование устойчивости прямым методом Ляпунова.— «Мир», 1964. 69. Л е в е н ш т е й н В. И., Об одном методе решения задачи син- хронизации цепи автоматов за минимальное время.— Проблемы передачи информации 1, вып. 4, 1965. 70. Л е в е н ш т е й и В. И., О синхронизации двухсторонних сетей автоматов.— Проблемы передачи информации 4, в. 4, 1968. 71. Л ь ю с Д., Р а й ф а X., Игры и решения.— ИЛ, 1961. 72. Мак-Кин си Дж., Введение в теорию игр.— Физматгиз, 1960. 73. М а р а х о в с к и й В. Б., Поведение систем взаимодействующих автоматов.— Диссертация на соискание ученой степени кандида- та технических наук, 1969. 74. Мелешина М. В., Автоматная модель организации взаимо- действия между клиентами в системе массового обслуживания с ожиданием.— Автоматика и телемеханика, № 5, 1969.
ЛИТЕРАТУРА 401 75. Me лешин а М. В., Применение моделей коллективного по- ведения в задачах управления.—Диссертация на соискание уче- ной степени кандидата технических наук, 1969. 76. М и л ю т и н А. А., Об автоматах с оптимальным целесообраз- ным поведением в стационарной среде.— Автоматика и телеме- ханика, XXVI, № 1, 1965. 77. Фон Нейман Дж., Теория самовоспроизводящихся автома- тов.— «Мир», 1970. 78. Н е м ы ц к и й В. В., С т е п а н о в В. В., Качественная теория диф- ференциальных уравнений.— Гостехиздат, 1947. 79. О ре О., Теория графов.— «Наука», 1968. 80. П и т т е л ь Б. Г., Одна простейшая вероятностная модель кол- лективного поведения.— Проблемы передачи информации 3, вып. 3, 1967. 81. Питте ль Б. Г., Об асимптотических свойствах одного вари- анта игры Гура. — Проблемы передачи информации 4, вып. 3, 1968. 82. Пономарев В. А., Об одной конструкции конечного автома- та, асимптотически оптимального в стационарной среде.— Био- физика 9, вып. 1, 1964. 83. Поспелов Д. А., Игры и автоматы. — «Энергия», 1966. 84. П р ангиш в и л и И. В. и др., Микроэлектроника и однород- ные структуры для построения логических и вычислительных устройств.— «Наука», 1967. 85. Робинсон Дж., Итеративный метод решения игр.— Сб. «Матричные игры», Физматгиз, 1961. 86. Р о м а н о в с к и й И. В., Дискретные цепи Маркова.— Гостех- издат, 1949. 87. Саати Т. Л., Элементы теории массового обслуживания и ее приложения.— «Сов. радио», 1965. 88. С р а г о в и ч В. Г., Ф л е р о в Ю. А., Построение класса опти- мальных автоматов.— ДАН СССР, 159, № 6, 1964. 89. С т е ф а н ю к В. Л., Пример задачи на коллективное поведение двух автоматов.— Автоматика и телемеханика XXIV, № 6, 1963. 90. Стеф ан юк В. Л., Поведение коллектива автоматов в задаче о регулировании мощности.— Проблемы кибернетики вып. 20, 1968. 91. Стеф ан юк В. Л., Цетлин М. Л., О регулировании мощ- ности в коллективе радиостанций.— Проблемы передачи инфор- мации 3, вып. 4, 1967. 92. С т р а т а н о в и ч Р. Л., Избранные вопросы теории флуктуа- ций в радиотехнике.— «Сов. радио», 1961. 93. Ул а м С., Некоторые автоматные проблемы, связанные с про- цессом роста фигур.— Сб. «Математические проблемы в биоло- гии», «Мир», 1966. 94. Управление и измерение на расстоянии.— Сб. переводов с ан- глийского, ИЛ, 1959. 95. Ф е л л е р В., Параболические дифференциальные уравнения и соответствующие им полугруппы преобразований.— Математи- ка 1, вып. 4, 1957. 96. Феллер В., Одномерные диффузионные процессы.—Матема- тика 2, вып. 2, 1958.
402 ЛИТЕРАТУРА 97. Ф л е р о в Ю. А., Многоуровневые динамические игры автома- тов.— Тезисы докладов на Всесоюзном симпозиуме по вероят- ностным автоматам, Казань, 1969. 98. Флеров Ю. А., Об играх стохастических автоматов.— Сб. «Исследования по теории самонастраивающихся систем», ВЦ АН СССР, 1967. 99. Хедли Дж., «Нелинейное динамическое программирование».— «Мир», 1967. 100. X и н ч и н М. Л., Работы по математической теории массового обслуживания.— Физматгиз, 1963. 101. Цетлин М. Л., Некоторые задачи о поведении конечных авто- матов.—ДАН СССР 139, № 4, 1961. 102. Цетлин М. Л., О поведении конечных автоматов в случайных средах.— Автоматика и телемеханика XXII, № 10, 1961. 103. Цетлин М. Л., Замечание об игре конечного автомата с парт- нером, использующим смешанную стратегию.—ДАН СССР 149, № 1, 1963. 104. Цетлин М. Л., Конечные автоматы и моделирование простей- ших форм поведения.— Успехи математических наук 18, №4, 1963. 105. Цетлин М. Л., Исследования по теории автоматов и модели- рованию биологических систем.— «Наука», 1969. 106. Цетлин М. Л., Бутрименко А. В., Гинзбург С. Л. Об одном алгоритме управления сетью связи.— Проблемы ки- бернетики, вып. 20, 1968. 107. Цетлин М. Л., В а р ш а в с к и й В. И., Коллективы автома- тов и модели поведения.— Сб. «Самонастраивающиеся системы. Распознавание образов. Релейные устройства и конечные ав- томаты».— «Наука», 1967. 108. Цетлин М. Л., Гинзбург С. Л., Об одной конструкции стохастических автоматов.— Проблемы кибернетики, вып. 20, 1968. 109. Цетлин М. Л., Г и н з б у р г С. Л., К р ы л о в В. Ю., Об од- ном примере игры многих одинаковых автоматов.— Автоматика и телемеханика XXV, № 5, 1964. НО Цетлин М. Л., Крылов В. Ю., Примеры игр автоматов.— ДАН СССР 149, № 2, 1963. 111. Цетлин М. Л., Крылов В. Ю., Игры автоматов.— Сб. «Тео- рия конечных и вероятностных автоматов», «Наука», 1965. 112. Церцвадзе Г. Н., Об асимптотических свойствах оптималь- ных автоматов в стационарной случайной среде.— Автоматика и телемеханика, № 8, 1968. 113. Це р цв а д зе Г. Н., О поведении асимптотически-оптимальных автоматов в переключаемых случайных средах.— Автоматика и телемеханика, № 8, 1971. 114. Це р ц в а д з е Г. Н., О времени установления стационарного распределения в переключаемой случайной среде.— Автоматика и телемеханика (в печати). 115. Цифровые методы в космической связи.—Под ред. С. Голомба, «Связь», 1969. 116. Цыпкин Я. 3., Адаптация и обучение в автоматических сис- темах.— «Наука», 1968.
ЛИТЕРАТУРА 403 117. Чандрасекар С., Стохастические проблемы в физике и ас- трономии».— ИЛ, 1947. 118. Ченцов В. М., Некоторые вопросы построения стохастических управляющих устройств.— Диссертация на соискание ученой степени кандидата технических наук, 1967. 119. Ченцов В. М., Об одном методе синтеза автономного стохас- тического автомата.— «Кибернетика», № 3, 1968. 120. Эрроу К., Гурвиц Л., Удзава X., Исследования по ли- нейному и нелинейному программированию.— ИЛ, 1962. 121. Я гл ом А. М., Введение в теорию стационарных случайных функций.— Успехи математических наук 7, № 5, 1952. 122. Якубайтис Э. А., Асинхронные логические автоматы.— «Зи- иатне», 1966. 123. Balzer R., Ап 8 — State Minimal Time Solution to the Firing Squad Synchronization Problem. — «Information and Control» 10, № 1, 1967. 124. Brandt R. N., Johnson S. M., Karlin S., On Sequential Design for Maximising the Sum of n Observation. — Ann. of Math. Statistics 27, № 4, 1956. 125. Brown G. W., Iterative Solution of Games by Fictitious Play, Activity Analysis of Production and Allocation.— Cowles Com- mission for Research in Economics, Monograph., Wiley, N.— Y., 1951. 126. E с с 1 e s J. С., E с с I e s R. M., Lundberg A., Electrophysiological Investigations on Renshaw Cells.— J. Physiol. 159, № 3, 1961. 127. Fu K. S., McLaren R. W., An Application of Stochastic Au- tomata to the Synthesis of Learning Systems.— Purdue University School of El. Eng., TR-EE65-17. 128. Fu K. S., McMurty G. J., A Study of Stochastic Automata as Models of Adaptive and Learning Controllers.— Purdue Universi- ty School of El. Eng., TR-EE65-8. 129. Goto E., A Minimum Time Solution of the Firing Squad Prob- lem.— Dittoed Course Notes for Applied Mathematics 298, Harvard University, 1962. 130. H e n n i e F. G., Iterative Arrays of Logical Circuits.— MIT Press, Cambridge, Mass, and Wiley, N.— Y., 1961. 131. M c L a r e n R. W., A Stochastic Automaton Model for the Synthe- sis of Learning Systems.— IEEE Trans. Syst. Sci. and Cybernet. 2, № 2, 1966. 132. McMurty G. J., Fu K. S., A Variable Structure Automaton Used as a Multimodal Searching Technique.— IEEE Trans, on Automatic Contr. 11, № 3, 1966. 133. Miller С. E., T u c k er A. W., Z e m 1 i n R. A., Integer Program- ming Formulation of Traveling Salesman Problem.— J. of ASM 7 № 4, 1960. 134. Moore E. E., The Firing Squad Synchronization Problem. — Se- quential Machines, Reading Mass. Palo Alto — London, Addison — Wesley Publ. Co., 1964. 135. MooreF. R., L a n g d о n G. G., A. Generalized Firing Squad Problem________Information and Control 12, № 3, 1968. 136. Nash J. E., Equilibrium Points in n — Person Games.—Proc. Nat. Acad. Sci. of USA 36, 1950.
404 ЛИТЕРАТУРА 137. Robbins Н., A Sequential Decision Problem with a Finite Me- mory.— Proc, of Nat. Acad, of Scince of USA 42, № 12, 1956. 138. Samuelson P. A., Market Mechanisms and Maximization.— RAND Corp. 139. T s e 11 i n M. L., Varshavsky V. I., Automata and Models of Collective Behaviour.— III Congress of IEAC, paper 350, London, 1966. 140. V a r s h a v s к у V. I., Collective Behaviour and Control Prob- lems.— Machine Intelligence III, Edinburhg University Press, 1968. 141. Varshavsky V. I., The Organisation of Interaction in Collec- tives of Automata.— Machine Intelligence, Edinburgh University Press, 1969. 142. Va rsh a vsky V. I., Mara ho v sky V. B., Pes chan- sky V. A., Synchronization of Interacting Automata.— Math. Sys- tems Theory 4, № 3, 143, 1970. 143. Varshavsky V. I., M e 1 e s h i n a M. V., Semenov A. I., Organizing collective Behaviour in the Job Distribution Problem.— Automatica 7, Pergamon Press, 1971. 144. V a r s h a v s к у V. I., V о г о n t s о v a I., P., Stochastic Automata with Variable Structure.— Translated Proceedings Symp. Relay Systems and Finite Automata, tape MT — 63 — 257, article 38, Burr. Corp. USA, 1964. 145. Waksman A., An Optimal Solution of the Firing Squad Syn- chronization Problem.— Information and Control 9, № 1, 1966. 146. Феллер В., Введение в теорию вероятностей.— ИЛ., 1952. 147. Линник Ю. В., Предельные теоремы для сумм независимых величин с учетом больших отклонений.— Теория вероятностей и се применения 6, № 2, 1961, 7, № 2, 1962.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Автомат глубокий 40 — конечный 18, 24 ---асинхронный 61 — Кринского («доверчивый авто- мат») 35 ---в переключаемой случайной среде 105 — Крылова 37 — марковский 63 — непрерывный 61 — памяти 31 — Пономарева (автомат со сравни- вающей тактикой) 57 — Роббинса 36 — симметрический 27 — с линейной тактикой 33, 104 — стохастический 24 --- с переменной структурой 72 — эргодический 64 — , е-автомат 58 Автомат-строка 75 Автоморфизм игры 143 ---на окружности 197 Антоса инвариантное множество 162 — партия 162 — точка 162 Вероятность перехода к партии 124 — стационарная смены действия 33 Взаимодействие парное случайное в игре Гура 207 ------в симметрических играх 229 ------, синхронизация коллектива автоматов 237 Время ожидания среднее 273 — синхронизации коллектива 245 — среднее до смены действия 41 Выигрыш 25 Вычисление значений логических функций цепями взаимодействую- щих автоматов 375 Гёльдера неравенство 81 Гипотеза медленности 149 Глубина автомата 39 — состояния 39 Граф состояний ориентированный 25 Группа автоморфизмов игры на ок- ружности 198 Действия 25 Децентрализация управления 11, 14 ---установлением соединений в сети связи 335 Дисциплина очереди 273 Длина очереди 273 Емкость памяти 33 — — на действие 67 Живучесть системы 12 Задание игры автоматов 112 Задача о распределении ресурса 159, 293 ---------многомерная 311 — о регулировке мощности в ра- диотелефонных сетях связи 314 — о фазировке при случайном пар- ном взаимодействии 252 Игра автоматов Н2 — в размещения 157 — в распределения 159 — Гура 21, 146, 169 --- на отрезке 206 ---со случайным парным взаимо- действием 207 - — Мора 146 — на окружности 142, 197 — Нэша 147, 157 ' — однородная 143 ---симметрическая 144 — с двумя соседями 199 — с зависимым штрафованием 118 — с независимым штрафованием 118 — с независимым исходным 113 — с нулевой суммой 118, 131 — с общей кассой 147, 163, 261 — с ограниченным взаимодействи- ем 142 — с одним соседом 201 — с природой 116 — симметрическая со случайным парным взаимодействием 229 — эргодическая 115 Игры эквивалентные 113 Исход партии 112
406 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Канал обслуживания 273 Коллектив автоматов 190 ----асимптотически-оптимальный 195 ----асимптотически Е-оптимальный 197 ----е-синхронизованный 238 Колмогорова уравнение 78 Кольцо однородное автономное двухстороннее 390 ------- одностороннее 390 Кринского автомат 35 Крылова автомат 37 Лагранжа множители 296, 304 Ланжевена уравнение 64 чески-оптимальное 195 ----целесообразное 27, 60 ----асимптотически е-оптимальное 197 — коллективное рабочих 283 Подавтомат 363, 367 Подсистема 10 Пономарева автомат 57 Последовательность автоматов асимпютически-оптимальная 32 ------ в последовательности игр Гура 222 — случайных величин с вырожден- ным распределением 122 Приоритет в системе массового об- служивания 274 Проигрыш 25 Матрица дифференциальная 51 — Метцлера 316 — состояний 24 Метод множителей Лагранжа 296, 304 — проективный градиентный 297 Множество инвариантное Антоса 162 ---партий, порожденных парти- ей 144 — Лагранжа 296, 304 — Мора 146 — Нэша 146 Модели с двухуровневой организа- цией 263 Моделирование на ЦВМ 98, 139, 158, 165, 168, 206, 212, 215, 216. 225, 233, 237, 248, 261, 270, 277, 287, 303, 306, 310, 346 Момент смены партий 124 Мора игра 146 — множество 146 — партия 146 Надежность 12 Неравенство Гёльдера 81 Нэша игра 146, 157 — партия 145, 157, 198 — теорема 145 — точка 145 Обслуживание массовое 267, 272 Объект доминирующий 295 — рецессивный 295 Оптимальность асимптотическая 32, 69 Организация двухуровневая 263 Отображение игры на себя 143 Паотия 112 — Антоса 162 — Мора 146 — Нэша 145. 157. 198 — d-доступная 123 -d-недоступная 123 Перрона — Фробениуса теорема 332 Поведение автомата в стационар- ной случайной среде 24 Поведение коллектива асимптоти- Распознавание периодического сиг- нала. передаваемого по каналу с шумами 264 Распределение ресурса 293 --- многомерного 311 Расстояние по Хеммингу 153 Реакция среды 25 Регулирование комбинированное 715 Регулировка мощности в радиоте- лефонных сетях связи 314 Роббинса автомат 36 Руше теорема 56 Семейство линейно-однородных функ- ций 376 Синхронизация коллектива автома- тов при случайном парном взаи- модействии 237 ------, е-синхронизация 239 — коммутатора и декоммутатора 264 --------- кадровая 265 --------- пословная 265 — цепи автоматов 349 Система большая 9 — массового обслуживания с ожи- данием 272 ------с отказами 267 — приоритетов в системе массового обслуживания 274 — регулирования импульсная объ- ектов через один канал связи 294 ---с временным разделением ка- налов 294 — телефонной связи 276 — управления очередью 273 Состояние коллектива автоматов 190 — множества глубокое 40 Среда внешняя 25 — детерминированная стационарная 59 — случайная переключаемая 84 --- периодическая 256 — — стационарная 25, 155 Стратегия доминирующая 160 — рецессивная 160 — смешанная 119, 145 — чистая 112 Схема линейная однородная 376
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 407 Теорема Нэша 145 — Перрона — Фробениуса 332 — Руше 56 Теория игр 112 — массового обслуживания 267, 272 — сложных систем 18 Точка Антоса 162 — Нэша 144 — седловая матрицы игры 138 Управление децентрализованное 11 — централизованное 11, 16 Уравнение Колмогорова 78 — Ланжевена 64 — Фоккера — Планка 63, 191 Фазировка при случайном парном взаимодействии 252 Фоккера — Планка уравнение 64, 191 Функции логические, вычисление цепями автоматов 375 Функция голосования 377 — линейно-однородная 376 Функция мажоритарная 376 — перехода автомата 24 — со вторичной инвариантностью 387 Целесообразность априорная 27 — поведения 60 Цена автоматная пары последова- тельностей 123 — за ресурс 297 — игры автоматов 115, 119 — инвариантного множества 144 — партии 144 Централизация 11 Цепь Маркова 49 — однородная автоматная двухсто- ронняя 389 Эквивалентность пар W автоматов и А лиц ИЗ е-автомат 58 е-синхронизация коллектива авто- матов 239
Виктор Ильич Варшавский Коллективное поведение автоматов (Серия: «Теоретические основы технической кибернетики) М., 1973 г., 408 стр. с илл. Редактор Д. А, Поспелов Техн, редактор И. Ш. Аксельрод Корректоры Е. А, Белицкая, Т. С. Вайсберг Сдано в набор 28/VI 1972 г. Подписано к печати 8/П 1973 г. Бумага 84Х1087з2- Физ. печ. л. 12,75. Условн. печ. л. 21,42. Уч.-изд. л. 19,47. Тираж 5600 экз. Т-00757. Цена книги 1 р. 47. к. Заказ № 92. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15_______ 4-ая типография изд-ва «Наука». Новосибирск, 77, Станиславского, 25.
Советские ТЕХНИЧЕСКИЕ УЧЕБНИКИ SHEBA. SPB.&U/DELO