Текст
                    А.М.ЯГЛОМ, И.М.ЯГЛОМ
ВЕРОЯТНОСТЬ i
и
ИНФОРМАЦИЯ

A. M. ЯГЛОМ и И. М. ЯГЛОМ ВЕРОЯТНОСТЬ И ИНФОРМАЦИЯ ИЗДАНИЕ ТРЕТЬЕ, ПЕРЕРАБОТАННОЕ И ДОПОЛНЕННОЕ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ Москва 1973
517.8 Я 29 УДК 519.21 Вероятность и информация. А. М.Я гл ом и И. М. Я г- л о м, Главная редакция физико-математической литературы издательства «Наука», 1973. Книга является общедоступным введением в новую область математики — теорию информации, тесно связанную с киберне- тикой и имеющую ряд приложений в технике связи, лингвистике, биологии и т. д. В третьем издании подвергся тщательному про- смотру весь текст и внесены многочисленные улучшения в изло- жение. Данные о теоретико-информационных характеристиках конкретных видов сообщений (письменная и устная речь, фото- телеграммы, телевидение и пр.) пополнены результатами, полу- ченными в разных странах на протяжении 60-х годов нашего века, в качество одного из примеров, иллюстрирующих общее понятно «линии (или капала) связи», рассмотрена «генетическая линия связи» и отвечающий ей «генетический код». Книга попол- нена двумя новыми параграфами, один из которых дает представ- ление о теории кодирования — большом направлении, выделив- шемся ив теории информации и сегодня иногда рассматриваемом как самостоятельная научная дисциплина. Для чтения книги достаточно математической подготовки в объеме школьного курса. Книга рассчитана на студентов вузов и втузов (а частично — даже и на учащихся старших классов средней школы), преподавателей средней и высшей школы, ин- женеров-связистов, специалистов в области физики, биологии, лингвистики. 0223—1772 „ _ 042 (02)-73 78~'2 Я © Издательство «Паука», 1973 г.
ОГЛАВЛЕНИЕ Из предисловия к первому изданию......................... 5 Из предисловия ко второму изданию.................. . 8 Предисловие к третьему изданию.......................... 12 Глава I. Вероятность.................................... 17 § 1. Определение вероятности. Случайные события и случайные величины............................ 17 § 2. Свойства вероятности. Сложение и умножение событий. Несовместимые и независимые собы- тия ............................................... 25 § 3. Условные вероятности.......................... 40 § 4. Дисперсия случайной величины. Неравенство Чебышева л закон больших чисел............. 47 § 5. Алгебра событий и общее определение веро- ятности ........................................... 59 Глава II. Энтропия и информация................. 68 § 1. Энтропия как мера степени неопределенности 68 § 2. Энтропия сложных событий. Условная энтро- пия ............................................... 87 § 3. Понятие об информации..................... . 104 § 4. Определенно энтропии перечислением ее свойств 128 Глава III. Решение некоторых логических задач с по- мощью подсчета информации.................... 137 § 1. Простейшие примеры .......................... 137 § 2. Задачи на определение фальшивых монет с по- мощью взвешиваний.......................... 146 § 3. Обсуждение .................................. 163 Глава IV. Приложение теории информации к вопросу о передаче сообщений по линиям связи .... 183 § 1. Основные понятия. Экономность кода .... 183 § 2. Коды Шеннона — Фано и Хафмана. Основная теорема о кодировании ............................ 198 § 3. Энтропия и информация конкретных типов сооб- щений ............................................ 236 Письменная речь.............................. 236 Устная речь.................................. 273 Музыка ...................................... 281 1*
4 ОГЛАВЛЕНИЕ Передача непрерывно изменяющихся сообщений. Телепизис ыо изображения............... 290 Фототелеграммы.............................. 301 Пропускная способность реальных линий связи 312 Общая схема передачи по линии связи. Пере- дача генетической информации........... 320 § 4. Передача Сообщений при наличии помех . . . 329 § 5. Коды, обнаруживающие и исправляющие ошибки ......................................... 392 И р и л о ж е и и е I. Свойства выпуклых функций . . . 441 Приложение II. Некоторые алгебраические понятия 458 Приложение Ill. Таблица величин —р log2 р . . . 483 Литература..................................... 487 Именной указатель.............................. 501 Алфавитный указатель........................... 506
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ За долгие годы сложилось такое положение, когда почти никакие сведения об интенсивной научной работе, ведущейся в области теоретической математики, не про- никают за рамки узкого круга математиков-профессио- налов; это обстоятельство вызывает даже иногда у неспеци- алистов совершенно неправильное представление об определенной «завершенности» математики, делающей исследовательскую работу в этой области почти невозмож- ной или, во всяком случае, очень трудной. Причина такого положения кроется в том, что подавляющее боль- шинство работ, печатающихся в математических журна- лах, относится к достаточно развитым разделам этой на- уки, с которыми трудно ознакомить лиц, не имеющих специальной подготовки; что же касается более элемен- тарных частей математики, вроде элементарной геомет- рии, то трудно рассчитывать, чтобы за многовековую историю науки здесь были не замечены какие-либо факты или теоремы, имеющие действительно большое принципиаль- ное значение’). Естественно, что и новые большие направ- ления, возникшие в математике за последние десятилетия, как правило, оперируют с достаточно сложными поня- тиями и представлениями, мало доступными для попу- ляризации. Тем более значительной представляется за- слуга замечательного американского математика и инже- нера Клода Шеннона, который в 1947—1948 гг. сумел указать новую важную область математики, истоки ко- торой связаны с совсем элементарными соображениями. ’) Однако даже в этих начальных разделах математики ос- таются нерешепными некоторые серьезные вопросы и появляются иногда интересные и глубокие работы (см., например, брошюру В. Г. Болтянского «Равновеликие и равносоставлен- ные фигуры», М., Гостехиздат, 1956, излагающую, в основном, исследования последних лет).
М3 ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ OciTonin.ui задачи, которые ставил перед собой Шеннон при создании тон» направления, которое в последующие годы получило название «теория информации», были свя- заны с чисто техническими вопросами электросвязи и радиосвязи1). Вообще говоря, новые применения мате- Maiiii.it и технике и естествознании обычно бывают свя- заны с п< по п.зонаипем сложного математического аппа- рат и, кроме того, чаще всего не могут быть объяснены без глубокого проникновения в суть запутанных проблем современной науки и техники; поэтому возможности попу- ляризации практических достижений математики сегод- няшнего дня также являются весьма скромными. Имен- но поэтому представления поспециплистов о прикладном значении математики зачастую ограничиваются заимст- ........мп из школьного курса сведениями о том, что геометрия еще в древнем Египте использовалась для восстановления границ земельных участков после раз- ливов Нила, и некоторыми другими того же рода. И в этом отношении изложение круга идей, связанных с тео- рией информации, представляется крайне заманчивым, так как простевшие практические прилсякеиия этих идей к современным техническим вопросам вполне могут быть обьясщ'пы читателям, обладающим минимальной мате- матической и технической подготовкой. Настоящая книжка, рассчитанная па широкий круг читателей (для понимания всего ее содержания достаточно впакомства с математикой в объеме курса средней школы), разумеется, пн в какой мере не претендует на то, чтобы служить хотя бы только элементарным введением в тео- рию информации как научную щсццплипу. Мы могли дать здесь ннпь поверхностное представление о важных практических* приложениях этой теории; также и глу- •) Благодари своему общему характеру работы Шеннона оказали большое стимулирующее влияние па всо исследования, отиося|циеся к передаче и сохранению какой бы то ни было ин- формации в природе в технике; линиями, по которым передает- ся эта информация, могут являться не только телеграфные и те- ......ле провода или среда, передающая радиосигналы, но и нервы, по которым передаются сигналы от органов чувств к мозгу и от мозги к мускулам, или те почти совсем еще не исследованные пути, какими передаются от зародышевой клетки указания о даль- нейшем ил пне построения живого организма.
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ 7 бокие чисто математические проблемы, связанные с тео- рией информации, никак не могли быть здесь раскрыты. Основная цель, которую поставили перед собой авторы, гораздо проще — она состоит в том, чтобы ознакомить читателя с некоторыми несложными, но весьма важными, новыми математическими понятиями и на примере этих понятий показать один из возможных путей использова- вания математических методов в современной технике. Первая глава книги посвящена разъяснению старого (введенного еще в XVII веке) понятия вероятности, знакомство с которым необходимо для понимания всего дальнейшего содержания. Во второй главе рассматрива- ются введенные Шенноном понятия энтропии и информации, общетеоретическое значение которых бы- ло оценено математиками лишь в самое последнее время. Третья и четвертая главы посвящены примерам и прило- жениям; в отличие от первых двух глав строгие доказа- тельства приводимых утверждений здесь зачастую лишь намечены или вовсе опущены, а в некоторых местах и сами утверждения сформулированы лишь в форме весьма правдоподобных предположений. При этом в третьей главе польза понятий энтропии и информации иллюстри- руется на примерах с загаданными числами, фальшивыми монетами и т. п., кое в чем напоминающих те «игрушеч- ные» задачи с игральными костями и картами, на кото- рых в XVII в. зародилась теория вероятностей; более со- держательные приложения технического порядка сосре- доточены в четвертой главе. Мы рассчитываем, что озна- комление с третьей главой поможет читателю лучше по- чувствовать смысл основных понятий, введенных в гла- ве II, и тем самым подготовиться к изучению наиболее сложной четвертой главы, использующей к тому же не- которые результаты третьей. Книга предназначена для всех любителей математики и в первую очередь для тех, кто ее в настоящее время пре- подает или изучает; наряду с этим мы рассчитываем, что она может быть небезынтересной и для многих читателей, имеющих по своей специальности дело с техникой связи, но не обладающих солидной математической подготовкой. В основу книги положена лекция, прочитанная одним из авторов московским школьникам — участникам школьного математического кружка при Московском
я III III I Д1Н IOIH1II КО ВТОРОМУ ИЗДЛНИЮ ни удпpi ин'ппом yniincpeincrc; содержание лекции здесь эничи i r 11.но риг ширено. Авторы выражают искреннюю признательность A. II Ко iMorop'iny, ценные сонеты которого способст- иоиилн тачите 11.пому улучшению книги. Они благодар- ны тптоко редактору книги М. М. Горячей, замечания Kotopoii помогли устранить некоторые дефекты изложе- и и я А. М. Иглом, Мосини, мпй 1950 г. И. М. Иглом ИЗ ПРЕДИСЛОВИИ КО ВТОРОМУ ИЗДЛНИЮ Второе издание книги «Вероятность и информация» по структуре почти не отличается от первого издания; читатель, вздумавший сравнить оглавления двух изданий книги, отметит, что различия здесь весьма незначитель- ны. Не изменился также и характер книги, предполагаю- щей у читатели весьма скромные математические знания (недостаток которых, впрочем, должен компенсироваться n iiiecnioii настойчивостью). При всем том частные раз- личия мопеду двумя изданиями настолько значительны, что смело можно говорить о поной книге. ('толь большие изменения частично связаны с тем, что эта книга посвящена очень молодой и бурно развиваю- щейся отрасли науки, для которой два года, прошедшие со дин выхода в свет первого издания,— это большой срок. Кое что стило за эти два года яснее авторам книги; мно- гое удвлос! почерпнуть из многочисленных новых книг и статей — и последнее время количественный рост лите- рптуры но теории информации происходите нарастающей ин।енсивнос 1ью. Но особенно необходимой стала перера- ботка первого издания из за одного просчета авторов. Эта киш в родилась из лекции, прочитанной москов- ским школьникам,— и авторы твердо запомнили ее про- исхождение, па которое читатели, по-видимому, обратили мало внимания. (’оотпегствсппо этому в предисловии к книге было указано, что опа «предназначается для всех любителей математики и в первую очередь для тех, кто ее в настоящее время преподает или изучает». При этом
ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ 9 мы, однако, просмотрели еще одну, весьма многочислен- ную категорию читателей — лиц, серьезно интересую- щихся именно теорией информации (а не математикой вообще), но не желающих начинать ее изучение со спе- циальной литературы, овладение которой требует и вре- мени и труда. Больше всего замечаний об этой книге мы получили от математиков и от инженеров-связистов — и наши уверения, что книга не рассчитана ни на тот, ни на другой круг читателей, не производили на них никакого впечатления. Удивившая авторов быстрота, с которой первое издание книги исчезло из магазинов, появление переводов на несколько иностранных языков (венгерский, немецкий, французский, японский) — все это вынуждало считать, что книга ответила какой-то насущной потреб- ности и заставило внимательно продумать вопрос о том, как эту потребность лучше удовлетворить. Мы и теперь склонны полагать, что наша книга мало подходит для изучения предмета специалистами по тео- рии вероятностей или по теории связи — первым естест- венно рекомендовать небольшую, но тщательно написан ную книгу А. Ф а й н с т е й н а [5] х); для читателей же второй категории наиболее подходящей книгой явится, по-видимому, интересная книга Ф.М. Вудворда [4]. Также и физикам или биологам, заинтересовавшимся идея- ми Шеннона, естественно обратиться не к нашей книге, а к книгам Л. Б р и л л ю э н а [2] (физика) и У. Р. Э ш- б и [111 (биология). Однако всем этим категориям чита- телей, возможно, будет небезынтересно ознакомиться и с настоящей, значительно более элементарной книгой. Лишь только филологам, которые уже на сегодняшний день представляют собой довольно значительную группу «потребителей» теории информации, нам нечего пореко- мендовать, что заставило нас при подготовке второго из- дания книги отнестись с большим вниманием к их воз- можным запросам. И если при подготовке нового издания мы по-прежнему отвергали любой материал, включение которого повысило бы уровень математической подготов- ки, необходимый для чтения книги, то при этом теперь уже имелись в виду не только учащиеся средней школы, но ]) Цифры в квадратных скобках указывают номера в списке литературы в конце книги.
10 ИЗ ШчСДИСЛОПИИ КО ВТОРОМУ ИЗДАНИЮ и биологи пли фило ки и, по знакомые с высшей матема- тикой. Попая точка зрения на круг читателей книги обусло- вила ряд с х шест но.. изменений в ее тексте. Так, нап- ример, и.) попого издания исчезли русские буквы Э (эн- тропия) и И (информация), которые, быть может, и об- легчали чтение книги некоторым совсем неопытным ни- ти гелям, ио зато, наверно, были неудобны для всех тех, к го имел (или пожелал бы иметь в дальнейшем) дело также и с другой литературой по этому предмету, использующей иные обозначения. Естественно также было уже в главе II уде hiгь достаточно внимания статистическому толко- ванию понятия энтропии, делающему его столь плодо- творным для всех практических приложений теории ин- формации. Заметно расширена последняя глава книги, имеющая наибольшее прикладное значение; объем книги увеличился также за счет напечатанного мелким шриф- том (и могущего быть опущенным при первом чтении) материала, где, учитывая интересы математиков, мы, в частности, привели строгие доказательства некоторых предложений, лишь сформулированных в основном тек- сте. Изменился и характер иллюстрирующих текст задач: в попом издании реже ист речи кис. я упражнения на урно- пую схему и математические развлечения, зато чаще— вопросы, в которых реально может быть использована теория информации. Однако мы не стали менять приня- тую в первом издании терминологию, в некоторых случаях отличающуюся от используемой в научной литературе заменой специальных терминов более «обыкновенными» словами (например «линия связи» вместо «капала связи», «энтропия опыта» вместо «энгропни распределения веро- ятностен» и т. и.). Мы сохрани ли также в книге целую гла- ву, специально посвященную «задачам па смекалку», по- скольку, по сущсствх, в этих задачах п повой (и довольно привлеките ii.iiiiii) форме рассматриваются достаточно серьезные попрей ы. непосредственно связанные с задача- ми нлиболес экономной передачи сообщений. Эту связь, которую как оказалось, просмотрели некоторые из чи- тателей первою издания книги, мы теперь осветили не- <icoii.no подробнее», чем раньше. К попом) изданию книги нрпло.ьепа библиография, отс) icIи) Kitiirtn в первом издании. Убедившись (в част-
ИЗ ПРЕДИСЛОВИЯ КО ВТОРОМУ ИЗДАНИЮ 11 ности, и на опыте пашей работы над книгой) в удобстве, которое представляет для любых расчетов, связанных с теорией информации, наличие таблицы значений функ- ции — р log р (где 0 р 1), мы поместили такую таб- лицу, заимствованную из сборника [46], в качестве треть- его приложения к книге. Мы сохранили в этой таблице двоичную систему логарифмов; в книге, однако, исполь- зуются более привычные большинству читателей десятич- ные логарифмы (тем более, что пам хотелось разрушить имеющееся у некоторых инженеров представление о том, что основой теории информации является использование именно двоичных логарифмов). Наконец, самым значительным изменением является добавление к главе IV специального § 3, содержащего сводку данных об информации, содержащейся в конкрет- ных типах сообщений (письменная и устная речь, музыка, телевизионные и фототелеграфные изображения); в конце этого параграфа кратко указаны также некоторые дан- ные о пропускной способности различных линий связи. Этот параграф является самым большим в книге; он мало связан с последующим текстом и вполне может быть опу- щен читателем, интересующимся лишь математической стороной теории информации. Нам, однако, кажется, что значительно больше будет таких читателей, для кото- рых этот параграф окажется как раз наиболее интерес- ным. По своему характеру § 3 гл. IV несколько отли- чается от остальной книги — фактически он представляет собой обзор большого числа сравнительно специальных работ, опубликованных за последние годы в различных научных и научно-технических журналах. Для удобства читателей, специально интересующихся той или иной областью приложений теории информации, мы во всех случаях точно указали источники, содержащие более подробное изложение упоминаемых нами результатов (основная часть приложенной к книге библиографии от- носится именно к этому параграфу), и постарались сде- лать наш обзор по возможности более полным (в той ме- ре, в какой это было возможно без уменьшения степени элементарности книги). Однако надо иметь в виду, что при той интенсивности, с которой в настоящее время во всем мире ведется работа по изучению статистических свойств сообщений и линий связи, можно опасаться, что
12 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ уже к моменту выхода книги в спет приведенный в ней обзор не сможет претендовать ни полноту, а еще через не- которое время собранные а нем данные и вовсе устареют. Пам том по менее кажется, что п тогда § 3 гл. IV не будет бесполезным: ведь основная его цель — дать представле- ние о порядке величин количества информации, встреча- ющихся в пауко и технике, и проиллюстрировать общее направление вдохновленных теорией информации техни- ческих, филологических и биологических исследований, а вовсе не служить основой для дальнейшей научной ра- боты специалистов. В заключенно нам хочется искренно поблагодарить всех читателей нашей книги, поделившихся с нами своими со- ображениями, способствовавшими улучшению нового из- дания, в том числе С. Г. Гилдикипа, А. И. Колмогорова, В. И. Левепштсйна, И. С. Новикова, И. А. Овсеевича, С. М. Рытова, В. А. Успенского, Г. А. Шестопал, М. И. Эйдельнанта и особенно — Р. Л. Добрушина и А. А. Хар- кевича. Мы признательны также В. А. Гармашу, Л. Р Зипдеру, Д. С. Лебедеву и I II Молошной за полезные беседы, которые мы имели с ними по вопросам, связанным с со держанием § 3 гл. IV книги. Л. М. Яглом, Москва, март 1051) г. //. М. Яглом ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ Первое падание настоящей книги вышло в свет в 1937 г., а второе — в I960 г.; настоящее же третье изда- ние но времени отстоит от второго на 13 лег. В таком большом перерыве между издппиимн виноваты в первую очередь мы сами Второе! издание этой книги давно пре- вратилось и библиографическую редкость, запросы же от читателей продолжили поступать — и издательство неодно- кратно обращало! ь к нам с предложением об ее переиз- дании; мы, однако, никак не могли па это решиться. Нам было ясно, что книгу нельзя оставить в том виде, который опа имела во втором издании, ибо необходимо было как-то откликнуться на существепныо изменения, происшедшие за эти годы в теории информации; коренная же перера-
ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ 13 ботка книги (сопровождаемая даже изменением ее назва- ния, как многие нам советовали) явно требовала слиш- ком большого труда и была нам, пожалуй, не под силу. В конце концов мы пошли по тому пути, который поч- ти всегда избирают люди, поставленные в затрудпитель- ' ное положение,— по пути компромисса. Настоящее, третье издание книги сохранило прежнее название и многое из первоначального ее облика; так, например, мы по-преж- нему не предполагаем у читателя никаких знаний, выхо- дящих за пределы школьного курса математики. Таким образом, книга эта все еще остается более простой, чем все имеющиеся учебные и монографические изложения теории информации. Мы, однако, не могли игнорировать и то обстоятельство, что, к нашему удивлению, второе изда- ние «Вероятности и информации» как в нашей стране, так и за рубежом в ряде случаев использовалось в качестве основного пособия при чтении курсов лекций в высшей школе — и при переработке и пополнении текста стре- мились сделать книгу более подходящей для такого, ра- нее не предвиденного нами, ее употребления. В частности, мы отказались, наконец, от использования в книге десятич- ных логарифмов и непривычных десятичных единиц изме- рения количества информации (дитов), уничтожив тем самым последнее прямое свидетельство происхождения этой книги из лекции, прочитанной много лет назад уча- щимся средней школы г). Наибольшей переработке подверглась последняя глава книги, являющаяся в ней самой важной, так как фактиче- ски главы I—III представляют собой лишь введение в основное содержание книги, сосредоточенное в главе IV. Имея в виду читателей, желающих ознакомиться по книге с основами математической теории информации, мы вклю- чили в § 2 гл. IV изложение оптимальных кодов Хафмана (более важных теоретически, чем рассматривавшиеся и в предыдущих изданиях коды Шеннона — Фано) и сущест- венно переработали доказательство основной теоремы *) В литературе, обращенной к школьникам, использование двоичных логарифмов производит впечатление некоторой вычур- ности; однако в книге по теории информации, рассчитанной на более опытных читателей, такое впечатление, напротив, может вызвать употребление десятичных логарифмов вместо общеупот- ребительных двоичных.
14 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ о кодировании при отсутствии помех, сделав его более крат- ким и математически четким; еще более изменен § 4, где, в частности, приведены два новых доказательства основ- ной теоремы о кодировании при наличии помех вместе с простым доказательством обратной теоремы о кодирова- нии. Той же цели служит и включение в первую главу книги закона больших чисел, позволившее сделать не- которые последующие выводы более строгими, а также заметное увеличение числа ссылок на серьезную научную литературу, к изучению которой естественно перейти после о&накомления с нашей книгой. Однако наиболее существенным обстоятельством, кото- рое нужно было учесть при подготовке книги к переизда- нию, было то, что за последние два десятилетия сама пробле- матика теории информации существенно изменилась: в на- стоящее время теория информации — это, в первую очередь, теория кодирования, бурное развитие которой невозможно было даже предсказать в период подготовки к печати пре- дыдущего издания. Поэтому сегодня даже популярная книга по теории информации, полностью игнорирующая то ее направление, которое вызывает наибольший интерес и у теоретиков, и у инженеров-практиков, и на котором сосредоточена львиная доля усилий специалистов по тео- рии информации во всем мире, представляется в чем-то неуместной. С другой стороны, общий характер теории кодирования и математические средства и методы, приме- няемые в этой важной и изящной области прикладной математики, очень существенно отличаются от основного содержания нашей книги; переориентация книги в сторо- ну теории кодирования вызвала бы необходимость всю ее переписать заново х). Поэтому мы и здесь ограничились полумерами: добавленный к главе IV совсем новый за- ключительный параграф дает лишь самое первое представ- ление о задачах и методах теории кодирования; с другой стороны, и в своем настоящем виде этот параграф заметно отличается от остального содержания книги. Это различие побудило нас пополнить книгу новым Приложением II, посвященным некоторым чисто алгебраическим понятиям х) Мы этого не сделали — однако не можем по выразить со- жаления по поводу отсутствия в русской учебной и научно-попу- лярной литературе доступной для начинающих книги по теории кодирования.
ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ 15 и предложениям (но зато мы смогли исключить имев- шееся в старых изданиях Приложение II, ставшее ненужным после внесения некоторого усовершенство- вания в изложение теоремы о кодировании при отсутст- вии помех). Строго говоря, новое Приложение II не не- обходимо для понимания содержания § 5 гл. IV, посвящен- ного теории кодирования; однако читатель, просмотрев- ший его до ознакомления с содержанием указанного па- раграфа, будет, по-видимому, лучше представлять себе возможности дальнейшего развития и обобщения резуль- татов этого параграфа. Особое место в книге занимает § 3 последней главы — об этом достаточно подробно говорилось в предисловии ко второму изданию. Содержащаяся в нем сводка данных, касающихся конкретных типов сообщений, является единственной известной нам сводкой такого рода в ли- тературе — последнее обстоятельство побудило нас по- стараться расширить и этот параграф, включив в него об- зор большого числа более новых работ. Разумеется, не- смотря на существенное увеличение относящейся сюда библиографии, мы не можем претендовать на то, что охва- тили всю литературу по рассматриваемым темам — бесспорно в ней упущено большое число работ, разбро- санных по огромному числу журналов самого разного профиля. Мы должны также предупредить читателя, что проверка имеющихся в отдельных исследованиях число- вых данных и анализ степени их статистической досто- верности никак не входили в паши задачи — в этом отно- шении, как нам кажется, вообще очень многое еще только предстоит сделать. Однако несмотря на то, что не все приведенные в § 3 данные вызывают полное доверие, включение всего этого материала в книгу является оправ- данным — оно позволяет читателю получить достаточно полное представление о достигнутых к настоящему вре- мени результатах в области конкретно-информационных исследований и об общей направленности ведущихся здесь работ. Разумеется, большое число связанных с теорией ин- формации направлений оказалось совсем не затронутым в нашей книге. Помимо естественной невозможности «объять необъятное», последнее отчасти связано со стремлением в какой-то мере сохранить в настоящем издании
16 ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ тот облик, который имела эта книга раньше. Так, например, мы по-прежнему почти полностью игнорируем в ней задачи, связанные с оценками энтропии и информа- ции опытов с бесконечным множеством возможных исходов (по поводу относящихся сюда общих понятий я опреде- лений см., например, [17]). Мы совсем по касаемся также так называемого «алгоритмического» подхода к понятию количества информации (о нем см., например, важные работы [15] и [16]) и лишь совсем вкратце упоминаем (в § 3 гл. IV) о комбинаторном определении соответствую- щих понятий. Наконец, целиком вне рамок этой книги остаются все, пока еще сугубо предварительные, попытки расширительного толкования понятия информации, вы- ходящего за рамки теории Шеннона (типа «семантической информации» или «тезаруса»; см., например, [18] — [19а]). Главным достоинством предисловий является, как из- вестно, то, что в них можно выразить благодарность всем, кто помог авторам в их работе. А. Н. Колмогоров любез- но предоставил нам свою рукопись, на основе которой было составлено описание принадлежащего ему сущест- венного уточнения шенноновского метода определения энтропии письменного текста при помощи опытов по отгадыванию; некоторые относящиеся сюда материалы передал нам также А. В. Прохоров. В. В. Иванов, И. А. Ов- сеевич, Н. В. Петрова, Б. С. Цыбаков и В. Эпдрес (Дарм- штадт, ФРГ) обратили наше внимание на некоторые ли- тературные источники, использованные при пополнении § 3 гл. IV. На содержании ряда мест книги отразились на- ши многочисленные беседы с Р. Л. Добрушиным на темы теории информации. Редактор третьего издания С. 3. Стамблср внимательно прочел весь текст и способст- вовал его улучшению; он также передал нам большой список дополнительной литературы, частично использо- ванный в работе над книгой. Нам приятно выразить всем перечисленным здесь лицам нашу искреннюю призна- тельность. Москва, май 1972 г. А. М. Яллом, И. М. Яглом
Глава I ВЕРОЯТНОСТЬ § 1. Определение вероятности. Случайные события и случайные величины На практике очень часто приходится сталкиваться с опытами (иначе — испытаниями, наблюдениями, процес- сами), могущими давать различные результаты в зависи- мости от обстоятельств, которых мы не знаем или не уме- ем учесть. Так, например, при бросании игральной кости (однородного кубика, грани которого занумерованы циф- рами от 1 до G) мы не можем знать заранее, какая из гра- ней окажется сверху, так как это зависит от очень мно- гих неизвестных нам обстоятельств (деталей движения руки, бросающей кость, положения игральной кости в момент броска, особенностей поверхности, на которую падает кость и т. д.). Нельзя также предсказать заранее, сколько выпускников средней школы подаст в определен- ный год заявления в тот или в иной институт, сколько бракованных изделий окажется в выпущенной партии или сколько дождливых дней будет в будущем году; нельзя знать, сколько ошибок сделает школьник в предстоящей ему контрольной работе или на какой билет выпадет главный выигрыш в предстоящем тираже лотереи (номера выигравших билетов определяются путем извлечения не- скольких бумажек с номерами из сосуда, в котором лежат тщательно перемешанные бумажки с номерами всех би- летов) и т. д. Число подобных примеров, разумеется, можно было бы значительно увеличить. Применение математики к изучению явлений такого рода опирается на то, что во многих случаях при много- кратном повторении одного и того же опыта в одних и тех же условиях частота появления рассматриваемого резуль- тата (т. е. отношение числа опытов, в которых этот ре- зультат наблюдался, к общему числу производимых опы- тов) остается все время примерно одинаковой, близкой к
18 ВЕРОЯТНОСТЬ [Гл. I некоторому постоянному числу р. Так, например, извест- но, что частота попадания и цель для данного стрелка в данных условиях стрельбы, как правило, почти всегда бывает примерно одинаковой, лишь изредка уклоняясь сколько нибудь значительно от некоторой средней цифры (с течением времени эта средняя цифра может, разумеется, изменяться — в таких случаях говорят, что стрелок совершенствуется в стрельбе, или, наоборот, разучива- ется стрелять). Также и .частота выпадения шестерки на игральной кости или процент бракованных изделий при данных условиях производства обыкновенно мало меня- ются при массовом повторения соответствующих «опытов» (бросания кости или изготовления данных изделий). Ис- ходя из этого ваключаюг. что в каждом случае сущест- вует определенное постоянное число, объективно харак- теризующее сам процесс стрельбы, бросания кости, про- изводства изделий ит. д., около которого и колеблется все время (не отклоняясь от него сколько-нибудь значи- тельно) средняя частота соответствующего результата (попадания в цель, выпадепия шестерки, появления бра- кованного изделия) в длинном ряду «опытов». Это постоян- ное число называют вероятностью рассматривае- мого события. Аналогично определяю г вероятность и в ряде других вопросов, относящихся к самым различным областям математики, механики, физики, техники, био- логии. Наука, изучающая свойства вероятностей и при- менения этого понятия, называется теорией веро- ятностей. Согласно сказанному выше вероятность того или иного события можно приближенно оцепить по результатам длинной серии опытов. Однако само существование ве- роятности, разумеется, нисколько нс зависит от того, производим ли мы опыты или пег. В связи с этим воз- никает весьма оствствеппый вопрос о методах, позво- ляющих. находить вероятности различных событий без предварительного проведения соответствующих опытов; владея такими методами, мы можем заранее делать опреде- ленные предсказания о результатах последующих опытов, что открывает большие возможности для естественно- научных применений понятия вероятности. Мы не будем здесь рассматривать этот вопрос во всей полноте, а огра- ничимся лишь одним простейшим примером, к которому,
§ 1] ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 19 однако, можно свести сравнительно широкий круг задач об определении вероятности х). Пусть мы имеем какой-то ящик (или, как чаще гово- рят в подобных случаях, урну), в котором лежат тща- тельно перемешанные 10 шаров, отличающиеся друг от друга только цветом: 5 шаров белых, 3 черных и 2 крас- ных. Вытащим не глядя из урны один шар; спрашивается, какова вероятность, что оп будет того или другого цвета? Совершенно ясно, что здесь мы имеем 5 шансов из 10 вытянуть белый шар, 3 из 10 — вытянуть черный шар и 2 из 10 — вытянуть красный шар; другими словами, вероятности вытянуть белый, черный и красный шар 5 13 2 1 равны соответственно pj='2'i щ и io = 1F‘ дей- ствительно, если мы попробуем много раз осуществить соответствующий опыт (каждый раз после осуществления опыта возвращая вынутый шар снова в урну и тщательно перемешивая все шары), мы убедимся, что примерно в 50% всех извлечений будет вынут белый шар, в 30% — черный шар и в 20% — красный шар. Естественно, что столь же просто решается задача о нахождении вероят- ностей и при любом другом количестве перемешанных шаров различных цветов в урне. Рассмотрим теперь еще несколько задач на определение вероятности, сводящихся к той же «задаче об урне». Задача 1. Какова вероятность того, что при бро- сании наугад монеты сверху окажется герб? Очевидно, что эта задача равносильна следующей. Пусть мы имеем урну с двумя шарами, на одном из кото- рых написано «герб», а на втором — «цифра» (разумеется, вместо надписанных шаров можно рассматривать шары двух разных цветов, например, белого и черного). Какова х) Читателю, желающему более основательно ознакомиться с теорией вероятностей и с путями ее применения к естествознанию и технике, можно порекомендовать рассчитанную на широкого читателя книжку Б. В. Гнеденко и А. Я. X и н ч и н а [25] или заметно большую по объему, но также доступно составленную книгу Ф. Мостеллера, Р. Рурке и Дж. Томаса [26] (к последней книге приложен обстоятельный список литературы, сопровождаемый краткими аннотациями указанных в нем книг и статей). См. также несколько более трудные статьи А. Н. К о л- могорова [33] и М. К а ц а [34] и другую литературу, указан- ную в списке литературы в конце настоящей книги.
20 ВЕРОЯТНОСТЬ [Гл, I вероятность, что при извлечении наудачу из урны одно- го шара мы вынем шар с падипсыо «герб»? Ясно, что ис- 1 комая вероятность здесь равна -л-. it Зада ч а 2. Какова вероятность того, что при бро- сании игральной кости // нас выпадет число очков, деля- щееся на 3? Вместо бросания кости мы можем говорить об извле- чении из урны одного из имеющихся там шести шаров, занумерованных цифрами 1, 2, 3, 4, 5 и 6. Если теперь закрасить черной краской 3-й и 6-й шар, оставив осталь- ные шары белыми, то мы придем к задаче об определении вероятности извлечения черного шара (числа 3 и 6 де- лятся на три, а остальные — не делятся). Очевидно, что 2 1 искомая вероятность здесь равна -g-=-g-. 3 а д а ч а 3. Известно, что на студенческом вечере при- сутствуют двести студентов из одного института, двести пятьдесят — из второго и триста — из третьего. Ка- кова вероятность того, что студент, с которым Вы слу- чайно заговорили, учится во втором институте! Очевидно, что эта задача равносильна следующей. Пусть мы имеем урну с 750 шарами; 200 из этих шаров — белые, 250 — черные и 300 — красные. Какова веро- ятность того, что при извлечении наудачу одного шара из урпы мы вынем черный шар. Ясно, что эта вероятность 250 1 равна 750 — з • Постараемся теперь уловить общие принципы реше- ния всех этих задач. В разобранном перед задачами при- мере условно, что шары в урне тщательно перемешаны и вынимаются по глядя, означает, что мы с равными осно- ваниями можем ожидать появления любого из заключен- ных в урна шаров пли, дру|имп словами, что извлечения всех шаров р а в п о в с р о я т и ы. А так как шаров всего у нас было 10, то естественно заключить, что для каждого из имеющихся шаров вероятность его извлече- пия равна Далее, белых шаров у пас имеется пять; - - 5 поэтому вероятность вынуть белый шар равна Совершенно такие ясс рассуждения приводили к от- вету в каждой из трех других задач. Так, например,
§ 1] ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 21 в случае с бросанием игральной кости мы считали, что ран невероятны выпадения любой из шести граней куба; именно поэтому мы могли заменить задачу о бросании кости задачей об извлечении из урны одного из шести шаров. Но из шести граней имеются ровно две такие, что их выпадение удовлетворяет условиям задачи; вероят ность выпадения какой-нибудь одной из этих двух гра- 2 ней равна -g-. Если предположить, что рассматриваемый опыт (из влечение шара из урны, бросание монеты или игральной кости, разговор с одним из участников студенческого вечера и т. д.) может иметь п равновероятных исходов, то вероятность каждого из этих исходов следует считать равной —. Рассмотрим теперь какое-либо событие (из- влечение белого шара из урны, выпадение «герба» при бросании монеты или четной цифры при бросании играль- ной кости, разговор со студентом, учащимся во втором институте и т. п.), определяемое результатами опыта. Если это событие осуществляется при т из п возможных равновероятных исходов опыта и не осуществляется при остальных п — т исходах, то вероятность его прини- мается равной-^-. Другими словами, вероятность некото- рого события равна отношению числа равновероятных ис- ходов, благоприятных для данного события, к общему числу равновероятных исходов. Набранное курсивом предложе- ние можно принять за определение понятия вероят- ности; при этом равновероятность отдельных исходов долж- на оговариваться в описании производимого опыта (имен- но эту цель преследует указание на то, что игральная кость имеет строго форму куба и изготовлена из однородного материала, или что шары перемешаны и не отличаются ничем, кроме цвета). Хотя такое определение и не охва- тывает некоторые важные случаи вычисления вероятнос- тей (см., папример, статьи [33] и (34], книги [27], [28] и [29], а также напечатанный мелким шрифтом § 5 этой главы), для нас опо в большинстве случаев будет до- статочным. Условимся теперь о терминологии, которую мы будем далее применять. События, которые могут произойти или
22 BKPOMTIIOCTb 1Гл. I нс произойти в результате произведенного опыта, мы бу- дем называть случайными с о б ы т и я м и; в том же смысле мы будем говорить об исходах данного опыта. Случайные события мы будем обозначать большими латинскими буквами, а вероятности случайных событий (или определенных исходов опыта) буквой р; вероятность события Л часто будет записываться как р (Л). Значи- тельную роль у нас будут играть опыты, которые могут иметь несколько различных исходов; в таком случае мы будем обозначать все эти исходы одной буквой с разными номерами (а сами опыты — чаще всего греческими бук- вами). Каждому опыту такого рода отвечает определенная таблица вероятностей: исходы опыта '* И2 вероятности Р(А) р(А2) ... р(А) Так, например, опыту, рассматриваемому в разобран- ном на стр. 19 примере, отвечает таблица .11 | /! | zli ± 2 1 2 10 Т (здесь Аг — извлечение белого шара, А2 — черного и Л3 — красного), а опыту, рассматриваемому в задаче 1,— простая таблица Bi В2 1 1 2 2 (здесь Я, — выпадение «герба», а В2 — выпадение «циф- ры»); бросание игральной кости связано со следующей и т. д.
§ И ОПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ 23 Следует отметить одно существенное отличие послед- ней таблицы от первых двух. Здесь результаты опыта можно записать с помощью определенных чисел (1, 2, 3, 4, 5 и 6) — возможность, которой мы не имели в пред- шествующих примерах. В этом случае мы можем сказать, что число очков, выпадаю- щих при бросании кости, является случайной величиной, могущей принимать одно из шести возможных значений в за- висимости от случая (т. е. в зависимости от не под- дающихся учету обстоя- тельств). Другими приме- рами случайных величин могут служить число бра- кованных изделий на сот- ню, число рождений в ка- ком-либо городе за год, число очков, выбиваемых каким-либо стрелком при Рис. 1. определенных условиях стрельбы с одного выстрела (ми- шень, на которой указаны числа очков, засчитываемых при попадании в каждую из ее частей, изображена на рис. 1) и т. д. !). Само название «случайная величина» обязывает нас как-то оценивать се значение. Нетрудно понять, как следует зто сделать. Рассмотрим, например, первую из перечисленных выше случайных величин (число брако- ванных изделий на сотню); пусть это число в определен- ных условиях производства не превосходит 6, причем соответствующая таблица вероятностей имеет вид* число бракованных изделий 0 I1 2 3 4 5 | 6 вероятности 0,1 0,15 0,2 0,25 0,15 0,1|0,05 г) Понятие случайной величины стоит в стороне от основной темы этой книжки, но в теории вероятностей оно является одним из центральных. По этому поводу см., например, вторую часть книги Б. В. Гнеденко и А. Я. Хинчина [25].
24 ВЕРОЯТНОСТЬ [Гл. I В таком случае из большого числа 7V сотен изделий при- мерно 0,17V не будут содержать бракованных изделий, 0,152V будут содержать ио одному бракованному изде- лию, 0,27V — по дна, 0,257V — по три, 0,157V — по четы- ре, 0,17V — по пяти и 0,057V — но шести бракованных из- делий. Следовательно, при большом 7V общее число а бракованных изделий можно считать равным а = 0,17V-0 + O.157V-1 + O,27V-2 + O,257V-3 + +O.157V-4 + O,17V-5 + O,O57V-6 и значит, среднее значение числа бракованных изделий на сотню (средний процент брака) будет равно ^-=0,1-0 + 0,15-1 -|- 0,2-2 + 0,25-3 + 0,15-4 + 0,1-5 + + 0,05-6=2,7. Вообще, если таблица вероятностей для случайной величины а имеет вид значения случайной величины | я, | Яа | Я8 | | Я) вероятности | />1 | Да I дз | ... | Pi, то среднее значение этой величины определя- ется формулой ср. зн. а = pYax + р2а2 + р3ая + . . . + ркак- Из этой формулы, в частности, следует, что среднее зна- чение случайной величины является именно средним, т. е. что оно всегда не превос одит наибольшего из возмож- ных значений случайной величины и не меньше наименьшего из ее значений. В самом деле, если — наибольшее зна- чение случайной величины а (г. о. а, л2, at а3, . . . ..., п, > а,,), а аЛ — наименьшее е<‘ значение (т. о. alt а1г аь < а........ ah < «„ J, то ср. зп. а = />,«, + р.м2 + . . . + phah < ргаг + р2ах + ... • • • + Phni — (Pi + Рг + • • • + Ph)ai = «1 и ср. зн. а = pInl F раа, + . . . + phah > PiO* + Piah + • • • • • F Pi,an — (Pi + Pi + • • + Ph)°k = ak (ибо Pi + p2 + . . . + рЛ = 1).
t 2J СВОЙСТВА ВЕРОЯТНОСТИ 25 3 а д а ч a 4. Пусть таблицы вероятностей, указываю- щие частоту попаданий в мишень для двух стрелков А и В, имеют вид: для стрелка А число очков 0 1 2 3| 4 5 6 7 О чН СТ Q0 вероятности 0,02|0,03 0,05 О,1|о,15 о* 0,2 0,1 0,07|0,05|0,03 для стрелка В число очков 0 1 1 2 1 31 я 5 | 6 | 7 | 8 9 | 10 вероятности 0,01 0,01|0,04| 0,1|0,25| 0,з|0,18|0,05|0,03 О,О2|о,О1 Кого из стрелков следует считать более метким? Здесь среднее число очков, выбиваемых одним выст- релом, для стрелка А равно 0,02-0 + 0,03-1 4- 0,05-2 + 0,1-3 + 0,15-4 + 0,2-5 + +0,2-6 + 0,1-7 4- 0,07-8 + 0,05-9 + 0,03 -10 = 5,24, а для стрелка В оно меньше: 0,01-0 + 0,01-1 + 0,04-2 + 0,1 -3 + 0,25 • 4 + 0,3 • 5 + + 0,18-6 + 0,05-7 + 0,03-8 + 0,02-9 + 0,01-10 = = 4,84 < 5,24. Поэтому более метким следует считать первого стрелка. § 2. Свойства вероятности. Сложение и умножение событий. Несовместимые и независимые события Из приведенного в предыдущем параграфе определения вероятности следует, что вероятность р (А) любого собы- тия А есть правильная дробь: 0 < р (Л) < 1. При этом вероятность может равняться 1: это будет озна- чать, что событие А осуществляется при любом исходе рассматриваемого опыта, т. е. что событие Лдостовер- н о (так, например, равна 1 вероятность вынуть белый шар из урны, в которой заключены только белые шары). Вероятность может также равняться 0: это означает, что
26 ВЕРОЯТНОСТЬ [Гл. I событие не осуществляется пи при каком исходе опыта, т. е. оно но в оз мо ж и о (нулю равна вероят- ность вынуть из урны с белыми шарами черный шар). Пусть теперь рассматриваемый опыт может иметь лишь два взаимно исключающих друг друга исхода А и В. В таком случае мы будем называть событие В проти- воположным событию А и обозначать ого через А (читать эту запись можно как «не Л»). Если событие А реа- лизуется при т из п равновероятных исходов опыта, то событие А реализуется при остальных п — т исходах; . .. т , -г, п — т , т поэтому р (Л) = — , р (Л) — ——— = 1------— и, следова- тельно, Р ('О = 1 — Р (Л). Таким образом, таблица вероятностей для опыта, имею- щего только два исхода, имеет простой вид: Л | А р(А) | 1 — р (Л) Рассмотрим теперь такие два события Л и Лх, что вы- полнение события Л с необходимостью влечет за собой и выполнение события А, (например, Л есть выпадение шестерки при бросании игральной кости, а Л1 — выпа- дение цифры, делящейся па 3). В таком случае событие Al заведомо должно выполняться при всех тех исходах опыта, при которых выполняется событие Л; поэтому ве- роятность события Аг не может быть меньше вероятности события Л. То обстоятельство, что выполнение Л влечет за собой выполнение Лп мы будем записывать в виде Л cz Aj (читается «А влечет Л^). Таким образом мы имеем следующее важное свойство вероятностей: если Л С А |, то р (Л) р (A j). Рассмотрим далее событие, которое состоит в том, что выполняется хоть о д н о из каких-то двух событий А и В; это событие мы будем называть суммой событий А и В и обозначать через Л 4- В. При этом могут иметь место два существенно различных случая. Если события Л и В н е с о в м о ст и м ы, т. е. сразу оба они не могут иметь места, то событие Л выполняется при каких-то тх
I 21 СВОЙСТВА ВЕРОЯТНОСТИ 27 из п равновероятных исходов опыта, а В — при т2 других исходах; в таком случае . ,. ПЦ / п, П1о , . , п. 1П1 + П12 Illi . W2 P(A) = —, p(B) = —чр(А + В) =—---------= —+—, т. e. p (A + В) = p (A) + p (B) (правило сложения вероятностей). Так в рассмотренном па стр. 19 примере вероятность того, что будет извлечен белый или черный шар, в силу правила сложения, равна 1,3 4 2 + 10 ~ 5 • Свойство вероятностей, составляющее содержание пра- вила сложения, может быть обобщено следующим образом. Пусть мы имеем к событий Аи Az,.. ., Ah, никакие два из которых несовместимы между собой; обозначим через 4* А2 -|- . . . 4- Ah собы- тие, которое состоит в том, что выполняется хоть одно из рассматриваемых к событий. В таком случае, оче- видно, р G41 + А2 4- • • • + л) — — Р Mi) 4* р(А^ 4-••+/> МО; этот более общий результат также иногда называют пра- вилом сложения вероятностей. В частности, если опыт может иметь к (и только к) различных взаимоиск- лючающих друг друга исходов, то ему отвечает таблица вероятностей At | А? | ... | А^ РМ0 | р(Аг) | ... | р(А%) в которой сумма стоящих в нижней строке чисел равна единице: P (A J 4- Р М2) 4* • • • + Р Мл) = 1; это следует из того, что р MJ 4" Р М2) 4* • • • + Р Мл)= = pMi +А2 4-. . . 4- Л/(), а событие Аг 4- А2 4-. . . 4- Ah достоверно (ибо какой-то один исход опыта осу- ществляется наверное).
28 ВЕРОЯТНОСТЬ [Гл. I Предположим теперь, что события А и В совмести- м ы, т. е. могут реализоваться одновременно. В таком слу- чае уже нельзя утверждать, что р (А + В) = р (Л) + 4- р (В). Действительно, пусть событие А выполняется при w, из п равновозможных исходов опыта, а событие В — при т2 из этих п исходов. Событие А 4* В выполня- ется, если имеет место один из первых или один из т2 вторых исходов; однако, так как эти исходы уже не обязательно все различны, то общее число их может оказаться меньшим, чем т1 + т2. Таким образом, в общем случае можно лишь утверждать, что вероятность суммы двух событий всегда не превосходит сумму их вероятностей-. р (Д + В) < р (А) + р (//) (но р (А 4- В) р (А) и р (А 4- В) > р (5), ибо в силу определения суммы событий А с A -J- S и В с А 4- В). Аналогично и для любого числа к (не обязательно взаи- моисключающих друг друга) событий имеем р (Aj 4- Аг 4~ • • - + Ah) р (А,) + р (А2) 4- ... 4~ Р М ь). Неравенство р (А + #)ч/> (Л) + р (В) можно не- сколько уточнить. Назовем произведением двух событий А и В событие, которое состоит в том, что вы- полняются оба события; обозначим его через АВ. Рас- смотрим тг равновероятных исходов опыта, при которых выполняется событие А, и т2 исходов, при которых вы- полняется событие В; предположим, что имеется точно I исходов, которые входят и в число mt первых исходов и в число т2 вторых. Очевидно, что если имеет место один из этих I исходов (и только в этом случае!), то выполня- ются сразу оба события А и В; поэтому р (АВ) = —. С другой стороны, если среди/щ первых исходов и т2 вторых исходов имеется ровно I одинаковых, то всего мы имеем тг -}- т2 — I исходов (в сумме тл 4" имеется I исходов, которые засчитываются дважды). Таким образом, здесь —I mi । /п2 1 п п ' п п и, следовательно, р (А 4- В) = р (А) 4- Р (В) - Р (АВ). р(А + В)
$ 2) СВОЙСТВА ВЕРОЯТНОСТИ 29 Мы видим, что задача определения вероятности с ум- мы А + В событий АпВ сводится к нахождению веро- ятности произведения АВ этих событий. Послед- няя задача, в общем случае не очень простая, будет рас- смотрена в следующем параграфе. Однако имеется один частный случай, когда нахождение вероятности события АВ не составляет труда. Это — случай, когда события А и В являются независимыми, т. е. когда ре- зультат опыта, с которым связано выполнение или не- выполнение события А, никак не отражается на условиях опыта, с результатом которого связано событие В. Так, например, независимы события, состоящие в извлечении черного шара из двух различных урн, содержа- щих белые и черные шары; однако два последовательных из- влечения черного шара из о д н о й урны (без возвращения вынутого шара обратно в урну) не представляют собой независимых событий (поскольку результат первого из- влечения влияет на число оставшихся в урне черных ша- ров и, следовательно, отражается на условиях второго опыта). Пусть событие А реализуется при из щ равнове- роятных исходов первого опыта, а независимое от него событие В — при т2 из п3 равновероятных исходов вто- рого опыта; в этом случае вероятность события А равна а вероятность В равна Рассмотрим теперь слож- ный опыт, состоящий в том, что производятся оба наши опыта. Очевидно, что этот сложный опыт может иметь различных равновероятных исходов, поскольку каждому из пг исходов первого опыта могут отвечать п3 различных исходов второго опыта. Из этих п1и2 равновероятных ис- ходов событию АВ будут благоприятствовать т1ш2 ис- ходов, которые получаются, если комбинировать тг ис- ходов первого опыта, благоприятствующих событию А, с т2 исходами второго опыта, благоприятствующими В. Та- ким образом, вероятность события АВ будет равна mi И1Н2 ^2 и, значит, р (АВ) = р(А)р(В) (правило умножения вероятностей).
30 ВЕРОЯТНОСТЬ [Гл. I Это правило можно обобщить следующим образом. Пусть Л15 А2, . . A ft — какие-то к в з а и м н о неза- висимых событий, т. е. условия опыта, с резуль- татом которого связано какое-либо одно из этих событий, пикак не зависят от выполнения или невыполнения ос- тальных событий. В таком случае р (AiA2 . . . Лй) = р (Л() р (Л2) . . . р (Ah). Доказательство этого соотношения совершенно аналогич- но выводу формулы р (АВ) = р(А)р(В), составляющей его частный случай. Если события А и В п е независимы, то правило умножения р (АВ) = р (А) р (В) уже но обязано вы- полняться; так, например, если В с А (скажем, А — выпадение четной цифры при бросании игральной кости, а В — выпадение двойки), то событие А В совпадает с событием В и, следовательно, р (АВ) — р (В). Пока мы можем лишь утверждать, что р (АВ) р (Л) и р (АВ) (В) (так как из определения произведения событий вы- текает, что АВ с В и АВ с Л). Более подробно на воп- росе о вероятности произведения двух событий мы оста- новимся в следующем параграфе. Для того чтобы пояснить применения выведенных про- стейших свойств вероятностей, рассмотрим несколько задач. Задача 5. Какова вероятность того, что при двух бросаниях монеты оба раза сверху окажется герб? Здесь ищется вероятность события АВ, где Л есть выпадение герба при первом бросании, а В — выпадение герба при втором бросании. События Л и В, очевидно, независимы; поэтому р (АВ) = р (А) р (В) = 4 • 4- = 4" (см. задачу 1 на стр. 19). Задача 6. Какова вероятность того, что взятое на- удачу целое положительное число, не превосходящее тысячи, окажется целой степенью (с показателем, большим еди- ницы) другого целого числа? Слово «наудачу» в условии этой задачи означает, что мы считаем появление любого числа от 1 до 1000
§ 21 СВОЙСТВА ВЕРОЯТНОСТИ 31 равновероятным. Далее, так как 2® < 1000 < 210, 3е < 1000 < З7, 54 < 1000 < 5Б, 6» < 1000 < 64, 7s < 1000 < 74, 10s = 1000 < 104, И2 < 1000 < 11s, 122 < 1000 < 12s, . . . .., 312 < 1000 < 313, 322 > 1000, то вероятность того, что число будет являться целой сте- g пенью 2, равна -10qq- (среди 1000 чисел от 1 до 1000 имеется 8 степеней двойки: 22 = 4, 2s = 8, 24, 2Б, 2®, 27, 2® и 2®); точно так же вероятность того, что наше число будет целой степенью 3, 5, 6, 7, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 22, 23, 24, 26, 28, 29, 30, 31 соответственно равна 5 322211 1, 1000 ’ 1000 ’ 1000 ’ 1000 ’ 1000 ’ 1000 ’ 1000 ’ • • • ’ 1000 'если число является целой степенью 4, 8, 9, 16, 25 или 27, то оно одновременно является и целой степенью меньшего числа; поэтому эти случаи мы из рассмотрения исключи- ли). Так как все соответствующие события попарно не- совместимы, то искомая вероятность равна 8 5 3 2 2 2 1000 -г ЮОО 'г 1000 1000 1000 юоо Д- 1 _1_ 4 _L Д_ 1 40 = 1— 1000 1000 Т . -Г 1000 1000 25 • 18 раз Задача?. В колоде 52 карты', одна из четырех мас- тей объявляется «козырной». Какова вероятность того, что взятая наудачу карта является тузом или козырем^ Пусть событие А заключается в том, что выбранная карта является тузом, а событие В в том, что она явля- ется козырем; в таком случае событие АВ состоит в том, что эта карта является козырным тузом и р (Л) — fg- (в колоде имеются карты 13-ти наименований: двойки, трой- 1 1 ки, ..., тузы), р (В) = р (АВ) = Отсюда вытекает, что искомая вероятность равна р (А + В) = р (А) + р (В) - р (АВ) = А- + - А. = JL-.
32 ВЕРОЯТНОСТЬ [Гл. I 3 а д а ч а 8. Шесть охотников увидели лису и одновре- менно выстрелили в нее. Предположим, что каждый из охотников на таком расстоянии обычно попадает в лису и убивает ее в одном случае из трех. Какова вероятность того, что лиса будет убита? Пусть события Alt А2, . . . ,Лв означают поражение лисы 1-м, 2-м, . . . , 6-м охотником. В условии задачи указывается, что р (Лх) — р (Лг) = . . . = р (Лв) = -д-; требуется найти р (5), где S = Лх + Л2 + . . . + Л6. События Лх, Л2, . . .,Лв, очевидно, независимы; это дает возможность при решении этой задачи воспользоваться формулой р (Л + В) = Р (Л) + р (С) - р (АВ) = = р (А) + р (В) — р (А)р (В) (см. ниже текст, напечатанный мелким шрифтом). Однако такое решение не очень просто, так как формула, выра- жающая вероятность суммы многих (совместимых) со- бытий довольно сложна. Более удобно ипое решение этой задачи. Будем искать вероятность р (S) того, что лиса уцелеет. Промах 1-го, 2-го, . . ., G-го охотника естественно обозначить через Ль Л2, • • чАв'> п силу формулы р (Л) = 1 — р (Л) имеем р (Jj = р (Л2) = ... = » (/Т6) = Для того чтобы о лиса уцелела, необходимо, чтобы все охотники промах- нулись,_т. е. здесь речь идет о вероятности события Л^а-.-Лв, где события Аг,А2, . . ., Лв — взаимно не- зависимы. Итак, /?(5) = р(Л1Ла...Лв)=р(Л1)- ... •р(4п) = 2 2 2 _ 2’ _ _6£ Т • 3 * • • • з — ЦТ “ 729 ’ —и в силу той же формулы р (Л) — 1 — р (Л), .... . (/. 665 /’(•S) 1 729 — 729 • Формулу р (А + //)' /<(•)+ р (В) — р (АВ) можно обобщить и па случай отыскания вероятности суммы произвольного числа к (возможно — совместимых!) событий Ai, А2, . . . , Л^. Имеем р (Л1 -f- А, + Л3) р {(zb + Л2) + Л3) = = р (Л1 -f- Л2) + р (А3) — р{(Л1 + Л2)Л3).
§ 21 СВОЙСТВА ВЕРОЯТНОСТИ 33 Здесь р (Л1 + А,,) — р (Л1) + р (А2) — р (Л1Л2). Сложнее раск- рыть смысл выражения р {(Л1 + Л2)Л3}. Согласно определению сум- мы и произведения событий событие (Ai + A^Ag состоит в том, что выполняется хоть од но из событий Ai и А2 и, к р о м е того, событие А3. Но это означает, что выполняется по крайней мере одно из событий Л1Л3 и Л2Л3, состоящих в выполнении Ai и А3, соот- ветственно А2 и А3. Таким образом, имеем (Ai + Л2)Л3 = Л1Л3 + Л2Л3 и, следовательно, Р {И1 + Л2)Л3} = р (Л1Л3 + Л2Л3) = = р (Л1Л3) + р (Л2Л3) — р {(Л1Л3) (Л„Л3)}. Далее, событие (AiA3) (А2А3) состоит в том, что выполняются сразу оба события Л1Л3 (т. е. и Ai, и Л3) и Л2Л3 (и А2, и Л3). Дру- гими словами, событие (Л1Л3) (Л2Л3) состоит в том, что выполня- ются три события Ai, А2 и А3,—т. е. оно не отличается от события Л1Л2Л 3. Таким образом, окончательно получаем р (-<41 + А2 + А3) = = Р И1) + Р Иг) ~ Р ИИ2) + р Из) — р (Л.Лз) — р (АгА3) + + р (АИ2А3) или, в другом порядке, Р (-41 + А2 + А3) = = р (Л1) + р (Л2) — р (AiA2) + р (Л3) — р (Л1Л3) — р ИИз) + + р (Л1Л2Л3). Аналогично этому для произвольного к имеем Р И1 + Л2 + . . . + Л/,) = = Р И>) + р Иг) + . . . + р (Лк) — — р (Л1Л2) — р (Л1Лз) — — р (Лк-лЛк) 4- + р (Л1Л2Л3) + р (AiA2Av) + . . . + р (Л^_3Л^_1Лк) — - р (АгА.АзА^) - . . . + р (ЛМ2 . . . Ак). Доказать эту формулу можно с помощью метода математической индукции подобно тому, как мы доказали ее для к = 3. Покажем, как с помощью приведенной формулы решить за- дачу 8. При к = 6 имеем: р (Л1 + Л2 + . . . + Ае) = = р (Л1) + р (А^ + . . . + р (Лс) — р (Л1Л2) — — р (Л1Л3) — ... — р (ЛзЛс) + + р (Л1Л2Лд) + р (Л1Л2Л«) + р (AtAsAe) — ... ... — р (AiA2AgAtAsAe). 2 А. М. Яглом, И. М. Яглом
34 ВЕРОЯТНОСТЬ [ГЛ, I По (события Ai, Аг, . . . ,А^ взаимно независимы!) Р ИО = Р И2) = • • • = Р И») = з"> р ИИ2) = Р ИИз) = ... = /> (AsAg) = р (41) р (zlj) = \з| ’ р (ЛИ2Л3) = ...=/> (АзАьАв) = р Иг) p(AJ) р(Аа) •= (jj , . . . • • -./> (AiAs . . . Ag) = р (Л1) р(Аг) . . . р (Ag) ==^з"^ откуда получаем; р (А + At + ... 4- Ag) = I 1У . 12 V 665 1 — V “ 3 ] “ 1 — \3 J - 729 — т, е. тот же результат, что и выше. Другие примеры применения этой общей формулы могут быть найдены, вапример, в книге (37]. Обратимся теперь к понятиям суммы и произ- ведения случайных величин, которые также будут полезны нам в дальнейшем. В качестве примера, иллюст- рирующего первое из этих понятий, рассмотрим следую- щую задачу: Задача 9. В цехе устане>влены два различных станка, производящих одинаковые изделия. Из опыта известно, что 1-й (более старый) станок может произвести в сутки до трех бракованных изделий, причем вероятности числа бракованных изделий здесь таковы? число браков, изделий (в сутки) 0 | 1 | 2 | 3 вероятности 0,3 1 0,4 | 0,2 | 0,1 2-м же (новый) станок производит не больше одного бра- кованного изделия в сутки, причем вероятность того, что хоть одно из произведенных за сутки изделий окажется бракованным, равна здесь всего 0,1: число браков, изделий (в сутки) | 0 | 1 вероятности | 0,9 | 0,1 Спрашивается, каково среднее число произведенных цехом в сутки бракованных изделий?
§21 СВОЙСТВА ВЕРОЯТНОСТИ 35 В этой задаче одновременно рассматриваются две слу- чайные величины аир, первая из которых принимает значения а0, at, а2 и а3 (а именно, 0, 1, 2 и 3) с вероят- ностями р0, рц р2 и р3 (в данном случае равными 0,3,0,4, 0,2 и 0,1; ясно, что р0 + рх + Pi + р$ = 1), а вторая принимает всего два значения Ъо и (а именно, 0 и 1) с вероятностями д0 и qt (равными 0,9 и 0,1; ясно, что qu 4- — 1). Средние значения этих случайных величин (среднее значение числа а бракованных изделий, произ- водимых за сутки 1-м стапком, и среднее значение числа р бракованных изделий, производимых за сутки 2-м стан- ком) соответственно равны ср. зн. а = роао + р^ + р2а2 + р3а3 = =0,3-0+ 0,4-1 +0,2-2 4-0,1-3 = 1,1 и ср. зн. Р = q0b0 + qlb1 — 0,9 -0 + 0,1 -1 = 0,1. Нас же интересует случайная величина а + р — число бракованных изделий, производимых за сутки обоими станками; эта величина может принимать значения а0 + Ьо> ао + bt; at + &0> ai а2 + fl2 + я3 + Ъо и а3 + fej (в нашем случае — значения 0, 1, 2, 3 и 4). Будем (пока!) считать, что случайные величины аир независимы, т. е что, скажем, величина а принимает зна- чения 0, 1, 2 и 3 с вероятностями р0, pt, р2 и р3 (т. е. 0,3, 0,4, 0,2 и 0,1) независимо от того, какое значение прини- мает (для тех же суток) величина р. В таком случае и со- бытия а = (где I = 0, 1, 2 или 3) и р = Lj (где / = 0 или 1) будут независимы, — и значит, р (« = и р = Ъ}) = р(а = яг) -р (р = Ьу) = р,д,. Исходя отсюда, мы приходим к следующей (детализиро- ванной) таблице значений случайной величины а + р: значения | а0 + Ьо (= 0) а0 -|- bi (— 1) ai + bo (=1) | ( = 2) вероятности | ро?о (=0,27) Poqi(= 0,03) | piq0 (=0,36) | piqi (=0,04) аг + b0 ( = 2) | aa+6i (= 0) | аз + b0 (= 3) | as + bi (= 4) /Wo (=0,18) I piqi (= 0,02) | /Wo(=0,09)| /ш(=0,01) 2*
I 36 ВЕРОЯТНОСТЬ [Гл. I Теперь по основной формуле для среднего значения случайной величины имеем: ср. зн. (а + Р) = />о7о(яо + &0) + p0<7i(a0 + Ьг) + + Pi<lo («I + 1>о) + 7'191 («1 + bj) Ч- p2q„ (а2 + Ьо) + + P-fli lb Ьх) + /<//,, (а, + fe0) + р3<71 («3 + Ьг) = = а0 (р0<70 + р0</,) + а, (ptfo + Р1дг) + а2 (p2q0 + р^) + + «з (РзЧо + Р191) + Ьо (Ро9о + Р1Яо + РзЧо + Рз9о) + + bt (р^ + Р& 4- p2qx + p2qj = = «оРо (9o + 9i) + «iPi (9o + 9i) + а2Ра (9o + 9i) + + азРз (9o + 9i) + bo9o (Po + Pi + P2 + Рз) 4- 4* brfi (p0 4- Pi 4- p2 + Рз) = = (a0Po 4- «iPi 4- a2p2 + a.,p.,) + (buqa + b^,) = = ср. зн. а |- ср. зн. p = 1,2 (браков, изделий/сутки). Таким образом мы видим, что среднее значение суммы двух случайных величин равно сумме их средних значений. Впрочем, надо заметить, что последнее заключение, полученное нами с помощью довольно утомительных пре- образований выражения для ср.ап.(а + Р), не является особенно глубоким. В самом дело, пусть в какой-то день, который мы назовем первым, 1 й станок произвел а<Р бракованных изделий (где «<*' равно 0, 1, 2 или 3), а 2-й станок — бракованных изделий (где Ь<Р равно 0 или 1). Аналогично этому пусть во второй, в третий, . . ., в «-й день 1-й станок производит а<2), а<3), . . ., а(п) брако- ванных изделий, а 2-й станок — 6<2>, ?/3). . . ., 6<п) брако- ванных изделий. Тогда общее число выпускаемых цехом бракованных изделий в первый, во второй, в третий, . . . . . . , в м-й день равно я(>) | ?/>), «(2) | //2), „(3) //з) f . Я(п) _(_ а среднее число выпускаемых за сутки бракован- ных изделий будет равно (Па) 4. 6(1>) -[- + />(2)) + (а<:|) + Ь(3)) + + (я(п) + 6(эт)) _ Я(О 4- д(2) + Я(3) + + д(п) Ь(1) + ь(2) + Ь(3) 4- ... 4- Ь(п} п п
СВОЙСТВА ВЕРОЯТНОСТИ 37 § 2] Но при большом п величина (flU) + b<D) + («(2) + Ь(2)) + («(3) + Ь(3)) 4- • • • + («(п) + Ь(п)) п будет очень близка к ср. зн. (а + 0), а величины д(1) + д<2) + д(3) + , , + д(п) п И -р ь<2) + ь<3) + • 4- ь(п) п — к ср. зн. а и ср. зн. 0, откуда и следует, что ср. зн. (а + Р) = ср. зн. а + ср. зн. 0. Замечательно, что устанавливаемый последним прос- тым рассуждением результат является более общим, чем тот, который был доказан ранее! В самом деле, в этом рас- суждении мы никак пе использовали независимость величин ос и р (которая ведь и на самом деле может не иметь места, ибо на работе обоих станков могут сказы- ваться некоторые общие факторы, связанные, например, с тем, что оба станка используют одно и то же сырье). Но в этом последнем случае мы уже не сможем утверж- дать, что Р (а = at и Р = Ь}) = р (а = af) -р (Р = Ь,) = рд}; поэтому вместо величин poqo, Ptfli и т. д. в таблице зна- чений случайной величины а + 0 будут стоять какие-то вероятности р00 (вероятность того, что а = а0 и 0 = Ьо), Poi (вероятность того, что а = а0 и 0 = Ь,) и т. д., чис- ленные значения которых зависят от неизвестной нам во всех деталях связи между величинами а и 0. Впрочем, это обстоятельство почти не отразится на про- веденной выше выкладке. В самом деле, теперь мы будем иметь ср. зн. (а + 0) = />00 (а0 + &о) + Poi (а0 + *>i) + + />10 («1+ Ьо) + ₽„(«! + fej) + />20(а2 + Ьо) + /?21(а2 + bt) + + Рзо (аз + &о) г Рзг («з + &1) = ао (Роо + Poi) + 4“ Й1 (Рю “4* Ри) 4~ (Рго 4” Рг1) 4“ Рз (Рзо 4- Рз1) 4- 4- Ьо (р00 4- р10 4- р2о 4- Рзо) 4- Ь± (р01 4- Ри 4- р214- p3i)-
38 ВЕРОЯТНОСТЬ [Гл. I Но Роо + />01 = Р (« = Во и Р = Ьо) + р (а = а0 и 0 = Ьг) = = р (а - а0 и 0 = Ьо или Ьг). Однако Ьо и Ъ1 — это все возможные значения случайной величины 0, так что р (а = а0 и 0 = Ьо или Ь±) есть не что иное, как просто р (ос = а0) = /?0! Точно так же устанавливается, что Рю “Ь Р11 = Pit Рю Р%1 ~ Pzi Рзв + Рз1 = Рз- Далее, Роо + Рю + р2о + Рзо = Р = «о и Р = &о) + + р (а = ал и р = Ьо) + р (а = а2 и Р = Ьо) + + р (ос = а3 и р = Ьи) = — р (а = ай, или «х, или о2, или аз и Р = &о) — = р (Р = b0) = q„ и аналогично Poi + Рп + Р21 + Рз1 = 71- Таким образом, в этом случае мы по-прежнему имеем ср. зн. (ос + Р) = = (аоро + а1р1 + а2р2 + а3р3) + (Мо + b^h) = = ср зн. ос + ср. ЗН. р. Разумеется, полученный нами результат можно рас- пространить и на л ю б о с число случайных величин, для которых тоже среднее значение их суммы равно сумме их средних значений. Обратимся теперь к ситуации, в которой возникает по- нятие произведения двух случайных величин: Задача 10. Фермер ежегодно отправляет на рынок а0, аг, а2 или а3 телят, причем вероятности (частоты) от- дельных значений числа проданных телят здесь таковы: число телят I яи I ai I аг I яз вероятности | ро | pi | рг | рз (разумеется, р0 + pt р2 + р3 — 1). С другой стороны, цена одного теленка е разные годы может равняться или Ьо или fej, причем вероятности этих цен равны соответст- венно q0 и qx (= 1 — </0): цепа теленка | Ьо | Ь± вероятность | ?о | 91
СВОЙСТВА ВЕРОЯТНОСТИ 39 I 2] Спрашивается, какова средняя годовая выручка фермера от продажи телят! Здесь мы снова имеем дело с двумя случайными вели- чинами а и р, причем для сохранения аналогии с задачей 9 мы обозначили возможные значения этих величин и соответствующие этим значениям вероятности теми ясе символами а0, щ, а2, а3; b0, blt и р0, рг, р2, р3; q0, qlf как и выше. Интересует же нас произведение ар этих двух ве- личин (произведение числа проданных телят па цену одного теленка), которое может иметь 8 значений а0Ь0, anbt; «260, a2^i? ®360, Яз^1- При этом если счи- тать величины а и р независимыми, то таблица вероятностей отдельных значений величины ар будет иметь вид значения | aab0 | aobi | aib0 | atbi | аг&о J ag&i | asb0 аУм вероятности | pn?o | Poqi | Piqo | Piqi I | Рз91 | рзЦо psqi Поэтому среднее значение величины ар в этом случае равно ср.зн.(аР) = poqoaobo + ро^1«о^1 + plqoalbo+ р&а^ 4- + Ргд»а2Ь0 + p2qi_a2b1 + p3q0a3b0 + p3qia3b1 = = Роао (<7<Л + Qibi) + P& (q^ 4- q^) 4- + P2tt2 (qobo + qJJ 4- p3a3 (q0b0 4- q^) = = (Poao 4- Pittj 4- p2a2 4- p3a3)(q0b0 -J- qtbr) = = (ср.зн.а)-(ср.зн.р). Таким образом мы видим, что для независимых случайных величин а и р среднее значение их произведения равно произведению средних значений этих величин. Так же и для большего числа взаимно независимых случайных величин среднее значение их произведения всег- да равно произведению их средних значений. Заметим, однако, что, в противоположность случаю суммы двух случайных величин, для их произведения независимость величин является существенным условием, без которого полученный нами результат монсет оказаться уже неверным. Для иллюстрации этого достаточно рас- смотреть случай, когда aL = а2 = а, где а характе- ризуется следующей таблицей вероятностей; значения величины а | Ц-1 | —1 вероятности | 0,5 | 0,5
40 ВЕРОЯТНОСТЬ [Гл. I В этом случае, очевидно, ср. зп. ocj — ср. зп. а2 = 0,5 (+1) + 0,5 (—1) = 0, так что (ср. зп. а,) (ср. зп. а2) = 0-0 = 0, в то время как величина aj-ag = а,2 всегда равна +1 (ибо Н I)2 = (—I)2 = + 1), так что ср. зн. (aja2) = 1 0 = (ср. зн. а,)-(ср. зн. а2). С установленным на этом примере неравенством ср. зн. (а2) > (ср. зп. а)2 мы снова встретимся в § 4 этой главы. § 3. Условные вероятности Два события А и В мы назвали независимыми, если ре- зультат опыта, с которым связано событие А, не влияет на условия опыта, с которым связано В. Однако это обстоя- тельство вовсе не всегда имеет место. Соответствующий пример мы уже приводили выше; повторим его здесь по- дробнее. Пусть А —событие, состоящее в извлечении чер- ного шара из урны, содержащей т черных и п — т бе- лых шаров, В — событие, состоящее в извлечении чер- ного шара из т о п же урны после того, как из нее уже вынут один шар. Очевидно, что если первый выну- тый шар был черным, т. е. если событие А имело место, то в урне после первого извлечения остается т — 1 черных и п — т белых шаров и поэтому вероятность события В будет равна Если же первый извлеченный шар был белым (имело место событие Л), то в урне останется т черных ии — т — 1 белых шаров, и искомая вероятность станет равной. Таким образом, вероятность события В меняется в зависимости от того, осуществляется или не осуществляется А, т. е. вероятность события В здесь / т — 1 т \ может принимать два различных значения ( и 1, для которых следует иметь и различные обозначения.
§ 3] УСЛОВНЫЕ ВЕРОЯТНОСТИ 41 Вероятность, которую имеет событие В в том с.мучае, когда известно, что событие А имело место, мы будем на- зывать условной вероятностью с о б ы- т и я В приусловии А и обозначать через р>А (В). Таким образом, в нашем случае рА (В) = . А-нало- гично определяется условная вероятность рА (В) собы- тия В при условии А (т. е. при условии, что А не про- изошло); в нашем случае P—(B) = Очевидно, что условная вероятность рА (В) какого- либо события В при определенном условии А может быть и меньше и больше безусловной вероятности р (В) этого события (т. е, вероятности, которую имеет В, если про результат опыта, с которым связано А, ничего неизвестно). Так, в рассмотренном выше примере р (В) — посколь- ку заранее мы можем с равной вероятностью ожидать, что при втором извлечении мы вынем любой из п содер- жащихся в урне шаров, а из этих п шаров ровно т чер- ных. Таким образом, здесь рА (В) = = Р (В), a (S) = ^>-^ = р (В). Если события А и В не- зависимы, то, очевидно, рА (В) = р(В). Последнее условие даже можно считать точным математическим о п- ре делением понятия независимости событий, поз- воляющим для любой пары событий А и В проверить, являются ли они независимыми или нет (см. по этому поводу пример, напечатанный мелким шрифтом в конце параграфа). Условные вероятности можно вычислять аналогично тому, как мы вычисляли в § 1 безусловные вероятности. Пусть событию А благоприятствуют' N равновероятных исходов опыта, позволяющего определить, выполняются ли или нет событие А и некоторое другое событие В, при- чем из этих N исходов М благоприятствуют также и В, а остальные N — М не благоприятствуют В. В таком слу- М I ,77ч У— М\ гр чае рА (В) = I и рл (В) = ——). Гак, например, в ра- зобранном выше примере опыт, состоящий в последова- тельном извлечении двух шаров из урны с п шарами, имеет п (п — 1) равновероятных исходов (в первый раз
42 ВЕРОЯТНОСТЬ [Гл. I мы можем вынуть любой из п имеющихся шаров, во вто- рой раз — один из п — 1 оставшихся), из которых собы- тию А благоприятствуют N = т (п — 1) исходов (в пер- вый раз извлекается один из т черных шаров, затем — любой из п — 1 оставшихся); из этих т (п— 1) исходов событию В благоприятствуют М = т (т — 1) исходов (в первый раз извлекается любой из т черных шаров, за- тем — любой из т — 1 оставшихся черных шаров) и, следовательно, здесь /ЕЛ М тп(т— 1) т — 1 рА т(п—1) “ п — 1 • Обозначим теперь общее число равновероятных исхо- дов опыта, с которым связано выполнение событий А и В, через К. Так как из этих К исходов выполнению и со- бытия А и события В благоприятствуют М исходов, то ве- роятность события АВ, состоящего в том, что имеют место и . _ М „ М N М М N ... А и В, равна Но = 7f л7 ’ а дТ = РА(В) n-g- = p(A) (из К равновероятных исходов опыта событию А благо- приятствуют N). Следовательно, мы имеем р (АВ) = р (4) Рл (В). Это и есть общее правило для определения вероятности произведения АВ двух событий; его также часто назы- вают правилом умножения вероятнос- тей (то правило, которое мы называли правилом умно- жения в § 2, является его частным случаем). Таким об- разом, для того, чтобы найти р (АВ), надо знать услов- ную вероятность рА (В), характеризующую зависимость, существующую между событиями А и В; одними веро- ятностями р (Л) и р (В) вероятность события АВ не оп- ределяется. В том случае, когда вероятность события В не меняется в результате наступления или пенаступления события А, т. о. когда события А и/? независимы, рл (В) = р (В) и р (АВ) = р (Л) р (В) — результат, кото- рый мы уже имели выше. Из определения условной вероятности сразу выводят- ся следующие свойства этой величины: а) 0 Ра (В) 1; рА (В) = 1, если А а: В (в част- ности, если В есть достоверное событие); рА (В) = 0, если А и В несовместимы (в частности, если В есть невозмож- ное событие);
§ 31 УСЛОВНЫЕ ВЕРОЯТНОСТИ 43 б) если В с: Bt, то рл (В) рА (BJ; в) если В и С несовместимы, то рА (В + С) = рА (В) 4- + Ра (С); если Вг, В2, ...,Bk попарно несовместимы, то Ра + ^2 + - • - + #*) = РА (®i) + РА (В2) + — + РА (Bk); г) РА (5) = 1 — Ра (В)- Доказательства этих свойств совершенно аналогичны при- веденным в § 2 доказательствам тех же свойств для обыч- ных (безусловных) вероятностей. Заметим еще, что из формулы р (АВ) = р (Л) рА (В) следует, что Рв (Л) рл (В) р(А)рА(В) = р(В)рв(А) или^-^^- (ибо события АВ и ВА, разумеется, не отличаются). От- сюда вытекает, в частности, что, зная вероятности р (Л) и р (В) двух событий Л и В и условную вероятность рА (В) события В при условии Л, мы можем определить также и условную вероятность рв (Л): Рв^ = Ра(ВУ р(В) • Так, в разобранном выше примере с извлечением шаров из урны р (Л) — р (В) — (вероятности того, что при пер- вом и что при втором извлечении будет вынут черный шар, обе равны -^); поэтому рв (Л) = рА (В) = (здесь рв (Л) — вероятность того, что неизвестный нам первый вынутый шар был черным, если известно, что при втором извлечении оказался вынутым черный шар). Наконец отметим, что поскольку одно из событий Л и Л обязательно имеет место, то сумма событий АВ («В и Л») и Л В («В и Л») совпадает с событием В. Л так как р(АВ) = = Р(А) Ра(В), pJAB) = р (Л) рА (В) и р (АВ + АВ) = = р (АВ) + р (АВ) (события АВ и АВ несовместимы, ибо несовместимы Л и Л), то Р (В) = р (А) рА (В) 4- р(А) рА (В).
44 ВЕРОЯТНОСТЬ (Гл. I Так, в случае того ясе примера, что и выше, рИ) = 7,р(4) = —- PA(fi) = ^T’ ^(В) = ^т и р(4)рА(В) + р(Л)р^(/?) = --;г=т+-г-^=т = = v = p^)- Совершенно аналогично, если какой-либо опыт а может иметь к (и только к) попарно несовместимых исходов An А2,. . . ,Ah, то любое событие В можно представить в виде суммы событий AJB + А2В + . . . + АкВ и p(B)~p(AJpA,(B) + р(Л2) pAi(B)+. . .+p(Ah)-pAli(B). Эта формула называется формулой полной ве- роятности. Задача 11. В трех урнах находятся соответственно’. 1) 2 белых и 4 черных шара’, 2) 4 белых и 2 черных шара; 3) 3 белых и 3 черных шара. Из одной урны (неизвестно из какой) вынут наудачу шар. Какова вероятность того, что шар извлечен из пер- вой урны, если он оказался: а) белым; б) черным? Пусть событие А состоит в том, что вынутый шар ока- зался белым, а событие А — в том, что оп оказался чер- ным; далее, пусть В есть событие, которое состоит в том, что шар вынут из первой урны. Наш опыт извлечения одного шара может иметь 3-6 = 18 исходов (по числу шаров во всех трех урнах), которые мы считаем равнове- роятными (другими словами, мы считаем равновероят- ным, что шар вынут из любой из наших урн). Из этих 18 исходов событию А благоприятствуют 9, а из них собы- тию В благоприятствуют 2. Событию .1 благоприятст- вуют тоже 9 из наших 18 исходов, по из них В благо- приятствуют улсе 4. Таким образом, имеем рА(В) = -$- и р_(В) = ±. Задача 12. Слово «папаха» составлено из букв разрез- ной азбуки. Затем карточки с буквами тщательно пере- мешиваются и из них извлекаются по очереди и расклады-
§ 3] УСЛОВНЫЕ ВЕРОЯТНОСТИ 45 ваются в ряд какие-то четыре. Какова вероятность по- лучить таким путем слово «папа»? Пусть событие А состоит в том, что первой извлекает- ся буква «и», событие В — в том, что второй извлекается буква «а», С — в том, что третьей извлекается снова «и» и D — в том, что четвертой буквой снова оказывается «а»; в таком случае то событие, вероятность которого нас ин- тересует, можно записать как ABCD. Далее, применяя последовательно несколько раз формулу для вероятности произведения двух событий, имеем , 2 1 РИ)=6 = Т; р (АВ) = р (А) рА (В) = |. А = А, 11 1 р (АВС) = р (АВ) рАВ (С) = 4 - 4 = i и, наконец, 1 ? 4 р (ABCD) = р (АВС) рАВС (О) = 4-4 = А- Задача 13. Имеется 5 урн, из которых две содер- жат по одному белому и по 5 черных шаров, одна урна — 2 белых и 5 черных шаров и, наконец, последние две урны — по 3 белых и по 5 черных шаров. Наудачу выбирается одна урна и из нее наудачу извлекается один шар. Какова ве- роятность того, что этот шар окажется белым? Обозначим через At, А2 и А3 события, состоящие в том, что шар извлечен из урны, содержащей один, или два, 2 или три белых шара; в таком случае р (At) = -у; р (Л2) = 1 2 = -у и р (Л3) = -у . Далее, если В есть событие, состоящее в том, что извлекается белый шар, то по формуле полной вероятности имеем: Р (В) = р (Аг) • pAt (В) + р (А2) - Ра2 (В) + Р(А3). рАз (В) = -Л 14.1 _3 _ 23 — 5’б + 5’7 + 5‘8 — 84 ‘ Приведем в заключение простой пример, иллюстрирующий при- менение данного па стр. 41 определения независимости случайных событий. Рассмотрим правильный тетраэдр из однородного мате- риала, на трех гранях которого нанесены цифры 1, 2 и 3, а на четвертой — все эти три цифры одновременно (рис. 2). Через А
46 ВЕРОЯТНОСТЬ [Гл. I обозначим событие, состоящее в том, что подброшенный кверху тетраэдр упал на грань, па которой имеется цифра 7; аналогично этому буквами В и С мы будем обозначать события, состоящие в падении тетраэдра па грань, имеющую на себе цифру 2, соответственно, 3. Г! таком случае ясно, что р (Л) = р (В) — 1 = р (С) = 2'. Действительно, тетраэдр может упасть па каждую из о оих г ап *й с одинаковой вероятностью, а каждая из цифр имеется ровно на двух из четырех граней. Если теперь мы знаем, что событие А произо- шло, то это значит, что тетраэдр упал или на грань, на которой нанесена одна цифра 1, или на грань, на которой име- ются три цифры, 1, 2 и 3; при этом и событие В и событие С будут выпол- няться во втором случае и не будут выполняться в первом. Следовательно, 1 здесь рл (В) — рА (С) = 2-, так что Ра (в) = Р(В) и рА (С) = р (С), и события А и С будут независимы- т. е. и события Л и В, м и; соответственно этому и р(ЛВ) = р(Л)р(») = 4, р(ЛС) Р(А)Р(С) = ^ (см. правило умножения вероятностей для независимых событий на стр. 29). Аналогично проверяется, что и события В и С явля- 1 ются независимыми: для них тоже рв (С) — р (С) — Из приведенного примера можно также сделать вывод, что из попарной независимости любых двух из трех событий А, В и С не вытекает еще независимость всех трех этих событий, т. е. вы- полнение равенства р (АВС) = р (Л) р (В) р (С) (ср. стр. 30). В самом деле, ясно, что в нашем примере одновремен- ное выполнение событий А и В уже влечет за собой выполнение со- бытия С, так что здесь РЛВ(С) = 1 и р(ЛВС) = р(ЛВ)рав(С)=4--1=Т’ в то время как 111 1 р (Л) р (В) р (С) — 2 • 2 ’ 2 ~ 8 ‘
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 47 § 4. Дисперсия случайной величины. Неравенство Чебышева и закон больших чисел Важнейшей характеристикой случайной величины, бесспорно, является ее среднее значение. С помощью сред- него значения мы можем сравнивать две случайные ве- личины: так, например, из двух стрелков (см. задачу 4, Рис. 3. стр. 25) лучшим естественно считать того, для которого среднее число выбиваемых им очков будет больше. Од- нако встречаются задачи, в которых знание одного лишь среднего значения случайной величины доставляет слиш- ком мало данных об этой величине. Рассмотрим, напри- мер, пушку, ведущую прицельный огонь по мишени, удаленной от нее на расстояние а км (рис. 3). Если обозначить дальность полета снаряда через ос (км), то среднее значение -величины а, как правило, будет равно а; отклонение среднего значения от а свидетельствовало бы о наличии систематической погрешности стрельбы (систематического перелета или педолета сна- рядов), которую можно было бы устранить, изменив со- ответствующим образом наклон пушечного ствола. Од- нако отсутствие систематической ошибки нисколько не гарантирует высокую точность стрельбы: чтобы оценить точность, нам необходимо еще знать, насколько близко ложатся снаряды к цели (ибо равенство ср. зн. а = а лишь означает, что перелет снаряда встречается в сред- нем столь же часто, как и недолет). Как же определить точность стрельбы (и сравнить ка- чество стрельбы по цели двух орудий)? Отклонение сна- ряда от цели задается числом ос — а; однако среднее значение величины а — а будет, оче«видно, равно нулюз ср. зн. (ос — а) = ср. зн. ос — а = а — а = О,
48 ВЕРОЯТНОСТЬ 1Гл. I что, впрочем, ясно, ибо в среднем положительные и от- рицательные значения величины а — а взаимно сокра- тятся. Разумеется, хорошей характеристикой «разброса» было бы среднее значение величины |а—а| (где верти- кальные черточки, как всегда, обозначают абсолют- ную в е л и чину числа); однако математики ие очень любят иметь дело с абсолютной величиной чисел, по- скольку она плохо поддается дальнейшим алгебраическим преобразованиям. Поэтому принято характеризовать раз- брос случайной величины средним значением квадрата ее отклонения от своего среднего значения', ведь квадраты и положительных и отрицательных чисел всегда поло- жительны, и никакого «сокращения» отклонений здесь не произойдет. Полученное таким образом число называется д и с п е речей случайной величины ос: дисп. ос = ср. зн. (ос — а)2 (= ср. зн. (ос — ср. зн. ос)2). Дисперсия случайной величины ос и является наибо- лее распространенной мерой «разброса» (или отклонения от среднего значения) рассматриваемой случайной вели- чины х). Ясно, что в случае орудий, ведущих прицельную стрельбу по мишени, лучшим следует считать орудие, для которого дисперсия величины ос — длины полета сна- I ряда — будет меньше (здесь мы считаем, что орудия уже отрегулированы так, что средняя длина полета снаряда совпадает с расстоянием а от орудия до цели). Нетрудно понять, что для случайной величины ос, ха- рактеризуемой таблицей вероятностей: значения | «i | az | | а% вероятности | pi | pz | ... | Рк ») Яспо, что если — как в нашем примере — случайная ве- личина а измеряется в км, то и ее среднее значение имеет размер- ность км, а дисперсия — размерность км2. Поэтому наряду с дис- персией часто рассматривают число, равное корню квадратному из дисперсии случайной величины. Это число называется сред- ним квадратичным уклонением случайной г еличины: _______ ср. кв. укл. а = Удисп. а; опо измеряется в тех же единицах, что и сама случайная величина а, и также служит мерой «разброса» ее значений.
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 49 среднее значение а равно а = ср. зн. а = ppij + рга.г + . . . + phak (ср. выше, стр. 24), дисперсия найдется по формуле дисп. а = ср. зн. (а — а)2 = = Pi («1 — «)2 + р2 («г — а)2 + • • • + Ph (ak — а)2. Последнюю формулу можно записать и в несколько ином виде. Заметим, что (а — а)2 = ос2 — 2аа + а2. Поэтому, поскольку среднее значение суммы (случайных) величин равно сумме их средних значений (см. стр. 38), дисп. ос = ср. зн. (а — а)2 = ср. зн. (ос2 — 2аос + а2) = — ср. зн. а2 + ср. зн. (—2аос) + ср. зн. а2. Но а2 — это не случайная величина, а число, имеющее вполне определенное значение 1); поэтому ср. зн. а2 = а2. С другой стороны, величина —2аос получается из слу- чайной величины а умножением всех ее значений на число —2а; поэтому и ее среднее значение получается с помощью умножения среднего значения величины а на —2а: ср. зн. (—2аос) — —2а-ср.зи. ос = —2а-а = —2а2. Таким образом, окончательно получаем: дисп. ос = ср. зн. ос2 + ср. зн. (—2аос) + ср. зн. а2 = = ср. зн. а2 — 2а2 + а2 = ср. зн. а2 — а2 - = ср. зн. (ос2) — (ср. зн. ос)2, *) Можно, конечно, понимать а2 как «случайную величину» со следующей «таблицей вероятностей»: значения а2 вероятности 1 отсюда также вытекает, что ср. зн. а2 = 1 - а2 = а2.
50 ВЕРОЯТНОСТЬ [Гл. I т. е. дисперсия случайной величины равна среднему значе- нию ее квадрата, уменьшенному на квадрат среднего зна- чения. Отсюда, в силу того, что дисперсия случайной величины всегда неотрицательна (ибо это есть среднее значение величины (а — а)2, все значения которой поло- жительны), вытекает, что среднее значение квадрата слу- чайной величины всегда не меньше квадрата ее сред- него значения (ср. выше, стр. 40). Задача 14. Двум однотипным станкам отвечают следующие таблицы вероятностей (частот) того или ино- го числа бракованных изделий (на тысячу изделий): 1-й станок', число браков, изделий (на тысячу) | 0 | 1 | 2 | 3 | 4 вероятности |o,l|o,2|o,4lo,2|o,l 2-й станок: число браков, изделий (на тысячу) | 0 | 1 | 2 3|4 вероятности |o,15lo,2|o,25 О,з|о,1 С равнить средние числа выпускаемых 1-м и2 м станками бракованных изделий и дисперсии тех же величин. Нетрудно видеть, что среднее число выпускаемых 1-м станком бракованных изделий (случайной величины а) и среднее число выпускаемых 2-м станком бракованных изделий (величины Р) будет одинаковым: ср. зн. а = 0,1-0 -J- 0,2-1 -j- 0,4-2 -J- 0,2-3 + 0,1-4 == 2 и ср. зн. р = 0,15-0 + 0,2-1 0,25-2 + 0,3-3 + 0,1-4 = 2; с этой точки зрения оба станка можно считать равноценны- ми. Однако дисперсия величины а меньше дисперсии рз дисп. а = 0,1-(0 -2)2 4- 0,2-(1-2)® 4- 0,4-(2-2)2 4~ 4-0,2 -(3—2)2 4- 0,1 -(4—2)2 = 1,2, а дисп. р = 0,15- (0—2)2 4- 0,2-(1—2)2 4-0,25-(2-2)2 4- 4-0,3-(3-2)2 4- 0,1-(4—2)2 = 1,5. Это значит, что продукция первого станка является более «стабильной»: здесь числа бракованных изделий в
ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 51 § 4] разных тысячах выпущенных изделий более плотно груп- пируются вокруг среднего значения 2, чем в случае вто- рого станка. Заметим теперь, что дисперсия, суммы двух независимых случайных величин всегда равна сумме их дисперсий. В самом деле, пусть аир — две независимые слу- чайные величины, т. е. такие, что вероятности отдельных исходов одной из них нисколько не зависят от того, какие значения приняла в этот момент другая величина. В та- ком случае, как мы знаем (см. стр. 34—39), если ср. зн. а = и и ср. зн. р = Ъ, то ср. зн. (а + Р) = = а + Ъ и ср. зн. (ар) = ab. Наряду сайр рассмотрим еще случайные величины а2 и Р2, значения которых равны квадратам значений вели- чин а и Р; для них также имеем: ср. зн. (а2 + Р2) = ср. зн. а2 + ср. зп. Р2. Далее, дисп. а = ср. зн. а2 — а2; дисп. р = ср. зн. р2 — Ь2 и дисп. (а + Р) = ср. зн. (а + р)2 — [ср. зн. (а + Р)]2 == — ср. зн. (а + Р)2 — (а + Ь)2 = — ср. зн. (а2 + 2ар + Р2)— (а2 + 2аЬ + Ь2). Но поскольку среднее значение суммы случайных вели- чин равно сумме их средних значений, то ср. зн. (а2 + 2ар + р2) = ср. зн. а2 + ср. зн. (2ар) -|- + ср. зн. р2. А так как случайная величина 2ар в два раза больше слу- чайной величины ар, то ср. зн. (2ар) = 2 ср. зн. (ар) = 2аЬ. Таким образом, окончательно получаем: дисп. (а + Р) = = (ср. зн. а2 -f- 2аЬ + ср. зн. Р2) — (а2+ 2аЬ + Ь2) = = (ср. зн. а2 + ср. зн. р2) — (а2 + Ь2) = = (ср. зн. а2 — а2) + (ср. зн. р2 — Ь2) = дисп. а + дисп. р.
52 ВЕРОЯТНОСТЬ [Гл. I Ясно, что и для произвольного числа п о- парно независимых случайных величин диспер- сия их суммы равна сумме их дисперсий. Однако для н е независимых случайных величин это будет уже не так. Пусть, например, at и а2 — это одна и та ж е случайная величина а со средним значением а; тогда (Xj 4- а2 = 2а. В этом случае, очевидно, ср. зн. (2а) = 2 ср. зн. а (т. е. ср. зн. (at + a2) = ср. зн. at + ср. зн. а2). Однако дисп. (2a) = 4 дисп. a (т. е. дисп. (aj + a2) = 2 дисп. at + 2 дисп. a2), поскольку дисп. (2a) = ср. зн. [2a — ср. зн. (2a)]2 = ср. зн. (2a—2а)2= = ср. зн. [4(а — а)2] = 4 ср. зн. (а — а)2 = 4 дисп.а. Задача 15. Предприятие выпускает какие-то из- делия, причем для каждого отдельного изделия существует определенная вероятность р оказаться бракованным (ска- жем, р = 0,002 = 0,2%). Считая, что все изделия из не- которой тысячи изделий независимо друг от друга могут оказаться бракованными с вероятностью р, найти сред- нее значение числа бракованных изделий на 1000 выпущен- ных изделий и дисперсию этой величины. Обозначим через аг (где i = 1, 2, 3, . . ., или 1000) случайную величину, равную 1, если i-e изделие окажется бракованным, и 0 в противном случае; в таком случае все 1000 величин а, имеют одну и ту же таблицу вероят- ностей: значения | 1 | 0 нсрон пюсти | р |1—р Поэтому ср. зн. аг = р-1 + (1 — р)-0 = р (= 0,002) и дисп. at = ср. зн. а| —(ср. зн. а,)2 = [р-1 + (1 — р)-0] — — Р2 Р — Р2 = Р (1 — р) (= 0,002-0,998 = 0,001996).
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 53 Интересующая же нас величина а равна сумме всех ве- личин а = а1 -f- а2 + а3 + . . . + а1000, причем, по предположению, все величины а, взаимно не- зависимы. Поэтому ср. зн. а = ср. зн. оц + ср. зп. а2 + . . . + ср. зн. а1000= = 1000 р (= 2) и дисп. а — дисп. at + дисп. а2 + . . . + дисп. а1ооп = = 1000р (1-р) (= 1,996). Приведенное решение задачи 15 использует то, что среднее значение и дисперсия суммы п взаимно независимых случайных величин at, а2, . . ., ап с одинаковым средним значением а и одинаковой дисперсией d равны п-кратным среднему значению и дисперсии одной величины ар. ср. зн. («! -f- а2 + . . . + ап) — п ср. зн. otj = па и дисп. («! + а2 + . . • + ап) = п дисп. at = nd. В частности, если а — число осуществлений некото- рого события А в последовательности п взаимно независи- мых испытаний, причем вероятность осуществления А при каждом испытании равна р, то ср. зн. а = пр и дисп. а = пр (1 — р). Из сказанного вытекает одно следствие, которое весь- ма часто оказывается полезным. Рассмотрим среднее арифметическое „ __ Щ + - • - + с<п “ср---------п п взаимно независимых случайных величин с одинаковым средним значением а и одинаковой дисперсией d. Так как все значения величины аср в п раз меньше соответствую- щих значений величины а, + а2 + . . . + ап, то сред- нее значение аср также в п раз меньше среднего значения
54 ВЕРОЯТНОСТЬ 1ГЛ. I суммы «1 + а2 + . . . + ап, т. е. ср. зн. осср = — (па) = а. Дисперсия же величины аср в п1 2 раз меньше диспер- сии величины + а2 + . . . + ап (ср. со сказанным на стр. 52 о дисперсиях величин а и 2а); поэтому nd d дисп. аСр _ — — —-. Таким образом, среднее значение среднего арифметического п взаимно независимых случайных величин с одинаковыми средним значением и дисперсией равно среднему значению каждой из этих величин', дисперсия же среднего арифмети- ческого в п раз меньше дисперсии каждой из рассматри- ваемых случайных величин. Приведенный вывод можно проиллюстрировать на следующем примере. Пусть нам надо с возможно боль- шей точностью определить значение какой-то физической величины а (для конкретности можно представлять себе, что речь идет, скажем, об опре елении i екоторого рас- стояния на плоскости). Результат а одного измерения ин- тересующей нас величины можно считать случайной ве- личиной, ибо всегда существует определенная вероятность ошибки, связанная с неточностью измерительных прибо- ров и недостаточной тщательностью измерения; при этом отсутствие систематической ошибки измерения означает, что ср. зн. а == а (ср. выше, стр. 47). Произведем теперь, скажем, 20 неза- висимых измерений и образуем среднее арифметическое аср результатов аь а2, . . ., а20этих измерений. При этом ср. зн. аср = ср. зн. а — а, т. е. значения величины аср, так же как и значения ве- личины а, группируются вокруг истинного значения а измеряемой величины. Однако, так как 1 дисп. аСр = дисп. а,
§ 4) ДИСПЕРСИЯ СЛУЧАЙНОЙ величины 55 то разброс значений аср является заметно меньшим, чем разброс значений а; поэтому приняв за а значение вели- чины аср, мы имеем все основания ожидать, что большая ошибка будет менее вероятной, чем в случае, когда за а принимается результат а одного измерения. Так, на- пример, если мы измеряем на плоскости расстояние поряд- ка 100 м, то ошибка в 1—2 м часто является вполне воз- можной; однако среднее арифметическое двадцати неза- висимых измерений здесь почти наверное будет отли- чаться от истинного значения заметно меньше чем на 1 м. Последнее замечание вплотную подводит нас к одному замечательному неравенству, вывод которого является основной целью этого параграфа. Так как дисп. аср <С < дисп. а, то мы предположили, что вероятность заметного отклонения величины аср от среднего значения а этой величины меньше вероятности большого отклонения а от числа а = ср. зн. а. Это заключение можно строго обосновать, базируясь на следующем фундаментальном результате: если а — это случайная величина со средним значением а и дисперсией d, то всегда Р(|а-а|>е)<4. (*) Здесь е — произвольное положительное число; запись же Р (| а — а | > е) означает вероятность того, что значение случайной величины а отклонится от сред- него значения а той же величины больше чем на е. Нера- венство (*) называется неравенством Чебы- шева; оно показывает, что чем меньше дисперсия d случайной величины а, тем меньше вероятность значи- тельного отклонения а от числа а = ср. зн. а. Неравенство Чебышева (*) представляет собой част- ный случай другого неравенства (также обычно называе- мого неравенством Чебышева), относящегося к произ- вольным случайным величинам р, принимающим только неотрицательные значения. А именно, если р принимает только неотрицательные значения и среднее значение р равно Ъ, то, каково бы ни было положительное число с,
56 ВЕРОЯТНОСТЬ Ггл. 1 где Р (р > с) — вероятность того, что случайная вели- чина 3 примет значение, большее с. Ясно, что неравен- ство (*) вытекает из (**) — для того, чтобы в этом убе- диться, надо только выбрать в качестве 3 неотрицатель- ную случайную величину (а — а)2 (среднее значение ко- торой но определению равно дисперсии d величины а) и заметить, что условие | а — а | е равносильно условию (а — а)2 >> е2. Поэтому нам достаточно доказать (**) Предположим, что таблица вероятностей величины 3 имеет вид значения I 6i | b2 I Ьз I ... Ьп вероятности | pi | Да | дз | ... рп в таком случае Ъ = ср. зн. 3 = ptbi + ргЪ2 + p3fe8 + . . . + рпЪп. Будем считать, что возможные значения величины 3 пе- речислены в нашей таблице в порядке возрастания, так что bt < b2 < Ь3 < . . . < Ьп. Пусть bh — первое из этих значений, которое превосходит с (т. е. значения Ъ{, bz, . . .jbk-! все меньше или равны с, a bh, Ък4Л, . . .,Ьп — больше с); так как все значения 3 неотрицательны, то сумма в правой части предыдущего равенства но может увеличиться от того, что мы отбросим в ней слагаемые Ptbi + р2Ь2 + . . . + Следовательно, & > Рк^к + Л+lfyi+l + . . . + РтРп. Заменим теперь в правой части полученного неравенства все значения bK, dft+1, . . .,Ьп меньшим, чем они, числом с; при этом наша сумма только еще больше уменьшится и, значит, Ъ > phc + ph+1c + . . . + рпс = = (Рк + Рм + • • • + Рп)с- Таким образом мы приходим к неравенству Рк + Рк+1 +----+ Рп <С "у , которое в точности совпадает с нужным нам неравенст- вом (**), поскольку сумма ph + рк+1 + • . . + рга вероятно- стей тех значений 3. которые превосходят с, как раз и равна Р (3 > с).
§ 4] ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 57 Вернемся теперь к случайной величине аср, представ- ляющей собой среднее арифметическое п независимых случайных величин а,, а2, . . ап с одним и тем же сред- ним значением а и одной и той же дисперсией d: _ + а2 + ... + ап «ср - ——-- —— . Выше мы видели, что d ср. зн. аср = а и дисп. аср = — . Применяя теперь к величине аср неравенство Чебышева (*), получаем 7’(|асР-а|>е)<А. Так, например, пусть мы имеем 20 независимых измерений расстояния в 100 м (так что и среднее значение а резуль- тата каждого из этих измерений равно 100 м)', предпо- ложим, что дисперсия каждого измерения близка к 2 (.ч2). Иначе говоря, мы предполагаем, что квадрат ошибки каждого измерения в среднем равен 2, т. е. что абсолют- ная величина ошибки каждого измерения обычно имеет порядок 1—2 м. В таком случае формула (***) при е — = 1 (м), дает Pflacp- 100|>1)<^ = 0,1. Таким образом, вероятность того, что среднее арифмети- ческое наших 20 измерений отклонится от истинного зна- чения расстояния больше чем на 1 м, будет здесь заве- домо меньше 0,1 г). Отметим еще специально, что если а — число осущест- влений при п независимых испытаниях некоторого события А, вероятность осуществления которого при одном ’) Следует еще иметь в виду, что неравенство Чебышева (*), так же как и следующее из него неравенство (***), являются весь- ма грубыми: реальная величина стоящих в левых частях этих неравенств вероятностей чаще всего оказывается намного меньшей стоящих справа значений. Так, например, применив более сложные методы, можно показать, что в рассмотренном нами примере ве- личина Р (| аср — 100 | > 1) на самом деле будет меньше, чем 0,002.
58 ВЕРОЯТНОСТЬ [Гл. I испытании равна р, то (поскольку на стр. 53 было пока- зано, что ср. зн. а — пр и дисп. а = np(i — р)) при любом е "> О Р (| а - пр | > пг) < пр (Jte)a р) или, что то же самое, а Р (****) Отсюда следует, что при любом (сколь угодно малом!) числе е 0 можно выбрать число п независимых испы- таний столь большим, что вероятность Р (| -р | е) того, что частота ~ осуществлений события Л в серии из п последовательных испытаний будет отличаться от вероятности р осуществления события А в одном испы- тании больше чем на е, станет сколь угодно ма- ло й. В самом деле, ведь при любых р и е отношение фигурирующее в правой части неравенства (****), стремится к нулю при и -* оо; значит, при достаточно большом п оно будет сколь угодно мало. Но в жизни мы обычно пренебрегаем событиями достаточно малой ве- роятности, считая их «практически невозможными» (при- чем от того, насколько важно нам, чтобы мы не ошиблись в своем выводе, зависит то, начиная со сколь малой ве- роятности мы склонны считать, что соответствующее со- бытие заведомо не произойдет). Поэтому последнее за- ключение означает, что при любом положительном е мы можем найти столь большое N, что неравенство п > N «практически гарантирует» то, что отклонение частоты — от вероятности р будет меньше е. Это заключение, которое обосновывает высказанное в начале настоящей главы отождествление вероятностей случайных собы- тий с их частотами, носит название закона боль- ших чисел (поскольку оно связано с выбором боль- шого числа N испытаний). Аналогичный вывод можно сделать и из более общего чем (****), неравенства (***). А именно, из (***) выте- кает, что для любого сколь угодно малого положитель-
АЛГЕБРА СОБЫТИЙ 59 § 5] ного числа е мы всегда можем выбрать столь большое число п случайных величин а1; а2, . . ап (иначе говоря, выбрать столь большое число наблюдений или испытаний), чтобы оно гарантировало нам достаточную малость веро- ятности Р ((аср — а | > е). В самом деле, ведь при любом е (и любом фиксированном значении d) правая часть ~ неравенства (***) также стремится к нулю при неогра- ниченном росте п. Таким образом, при любом е 2> 0 мы можем при помощи выбора достаточно большого числа п гарантировать «практическую достоверность» неравенства | аср — а | < е. Общее утверждение о том, что при до- статочно большом числе однотипных независимых испы- таний (т. е. независимых испытаний, приводящих к результатам, имеющим одинаковое среднее значение и оди- наковую дисперсию) среднее арифметическое их результа- тов alt a2, . . ., ап можно сделать сколь угодно близким к среднему значению а величин а1; аа, . . ., ап, также носит название закона больших чисел. На самом деле, мы можем далее не требовать, чтобы участвующие в определении величины аср взаимно неза- висимые случайные величины а2> аз, • • • все имели одинаковые средние значения и одинаковые дис- персии. Действительно, если средние значения этих ве- личин равны а2, а3, . . ., а все дисперсии dlt d2, d3,. . . ограничены (т. е. существует такое число D, что dt < D при всех г), то из неравенства Чебышева (*) следует, что Р(|«»-««р|>»)<;ЭГ. те + . Отсюда, в свою очередь, вытекает, что для любого числа е > 0 мы можем, выбрав число п достаточно большим, «практически гарантировать» выполнение неравенства I аср — яср | < е- Это утверждение представляет собой еще одну форму закона больших чисел. § 5. Алгебра событий и общее определение вероятности В предыдущих параграфах у нас играли значительную роль две операции, сопоставляющие двум событиям А и В некоторое третье событие; эти операции мы назвали суммой и произведением событий А и В и обозначили через А + В и АВ (см. стр. 26 и 28). Некото- рым основанием для этих названий служило то, что правила
60 ВЕРОЯТНОСТЬ Ira. i «сложения» и «умножения» событий во многом напоминают правила сложения и умножения чисел. Так, из самого определения суммы и произведения событий следует, что А + АВ = В А; в одном месте мы воспользовались также равенством (А + В)С = = АС + ВС (см. стр. 33). В настоящем параграфе мы более тща- тельно проанализируем сходство и отличие «алгебры событий» от «алгебры чисел». В арифметике и алгебре рассматриваются числа разной приро- ды — целые, рациональные, действительные (как рациональные, так и иррациональные), комплексные. Во всех случаях каждым двум числам а и Ъ можно поставить в соответствие два других чис- ла — их сумму а А Ь и произведение аЪ. При этом правила, отно- сящиеся к сложению, во многом напоминают правила, относящиеся к умножению; так, например, a A b = b А а и ab — Ьа, (а А Ъ) А с = а А (Ь А с) и (ab)c = a Эта аналогия между действиями сложения и умножения находит также отражение в существовании двух замечательных чисел 0 и 1, таких, что прибавление одного из них и умножение на второе не меняет никакого числа: й + 0 = о и с-1 = а. Однако аналогия между действиями сложения и умножения не простирается, к сожалению, особенно далеко. Причиной этого яв- ляется несимметричный распределительный (дистрибутивный) закон (а + Ь)с = ас А be, в записи которого сложение и умножение фигурируют совсем но-раз- ному. Действительно, если заменить в последней формуле всюду знак сложения па знак умножения н наоборот, то мы придем к не- лепому равенству а-Ь + с = (а + с) - (6 -f- с). Поэтому многие свойства сложения и умножения весьма далеки друг от друга. Так, например, число 0 играет совершенно особую роль по отношению к умножению: эта особая роль определяется за- мечательным равенством й-0 = 0 (из которого, в частности, вытекает, что деление отличного от нуля числа а на 0 невозможно); в противоположность этому аналогичное равенство, относящееся к сложению: a -f- 1 = 1, разумеется, не имеет места. Существуют, однако, и отличные от чисел объекты, для кото- рых можно определить операции сложения и умножения, обладаю- щие многими обычными свойствами сложения и умножения чисел. При этом в некоторых случаях мы получаем алгебраические сис- темы, в которых имеет место большая, чем в случае чисел, близость между определенными в этих системах действиями сложения и
§ 5] АЛГЕБРА СОБЫТИЙ 61 умножения. Для примера рассмотрим совокупность всевозможных множеств («фигур») плоскости. Сумму А + В двух множеств А и В естественно определить как их объединение (рис. 4, а). При этом, очевидно, будем иметь А + В = В + А и (А + В) + С = А + (В + С) (в последнем равенстве слева и справа стоит объединение трех множеств А, В и С, которое можно было бы обозначить и просто как А + В + С без скобок). Роль нуля здесь будет играть так назы- ваемое «пустое» множество О, вовсе не содержащее точек; для такого множества имеем А + О = А. Определим теперь произведе- ние АВ двух множеств А нВ как их общую часть или п е р е с е ч чае, очевидно, АВ = и (АВ)С = е н и е (рис. 4, б). В таком слу- ВА А (ВС) (в последнем равенстве слева и справа стоит общая часть трех мно- жеств А, В и С, которую естественно обозначить просто через АВС). Роль единицы здесь играет вся плоскость I. Действительно, для любого множества А имеем AI = А. Для определенной таким образом «алгебры множеств» имеет место также распределительный или дистрибутивный закон (А + В)-С = А-С+ В-С, для доказательства которого достаточно рассмотреть рис. 5, а, где заштрихованы двумя разными способами множества А + В и С, так что их произведение (пересечение) (А + В)-С оказывается покрытым двойной штриховкой; цифрой I обозначено произведе- ние А-С и цифрой II — произведение (В-С. Однако здесь имеет место также и «второй дистрибутивный закон» А-В + С = (А + С)-(В + С), получающийся из первого заменой сложения на умножение и на- оборот. Для доказательства этого закона достаточно рассмотреть рис. 5, б, где двумя разными способами заштрихованы множества А + С и В + С, так что их произведение (А + С)-(В + С) оказывается покрытым двойной штриховкой; цифрой I обозначено множество А-В и цифрой II — множество С.
62 ВЕРОЯТНОСТЬ [ГЛ. I Аналогия между этими двумя распределительными законами определяет полное сходство между правилами, относящимися к сложению множеств, и правилами, относящимися к их умножению. Так, например, здесь, очевидно, А-О = О и А + I — I; можно сравнить также равенства А-А = А и А + А = А, и п одно из которых не имеет места в алгебре чисел. В арифметике и алгебре значительную роль играет сравнение чисел по величине. Если считать основным знаком сравнения знак Рис. 5. (соотношение а Ь означает, что число а но бол ь ш е числа 6), то основные правила, относящиеся к сравнению чисел, примут сле- дующий вид: а С» (всякое число а не больше са- мого себя); если а b и Ь а, то а = Ь (если а не больше b и Ь не больше а, то числа а и b равны); если а С i и 6 С с, то а С (если число а не больше Ь и Ь не больше с, то а не больше с). Можно также ввести в рассмотрение сравнение множеств, условив- шись писать AQI) (этот знак С заменяет «составной знак» «С )> если А есть часть множества В (могущая и совпасть со всем мно- жеством В). Здесь тоже очевидно *), 1) Отметим одно существенное отличие между сравнением чисел и сравнением множеств. Для любых двух (действительных) чисел а и Ь имеет место одно из двух соотношений а Ь или b я (мо- гут даже выполняться оба эти соотношения, если числа а и Ь рав- ны). В противоположность этому для двух множеств А и В чаще всего не будет выполняться ни о д н о из двух соотношений А С В и А С Л. (Подобное положение будет иметь место и для ком- плексных чисел, если условиться, как это иногда делают, пи- сать а О в том случае, когда комплексные числа а и Ь имеют одинаковый аргумент и модуль числа а не больше модуля числа Ъ.)
ё si АЛГЕБРА СОБЫТИЙ 63 А С.А; если А С. В и В С. А, то А = В; если А С В и В С С, то A С С. Из других правил, относящихся к сравнению множеств, заслужи- вают упоминания правила: A CZA + В и АВ СД а также А С I и О а А (последнее соотношение означает, что пустое множество О пе содержит точек, отличных от точек множест- ва А,— это верно при любом А, ибо О вовсе не содержит никаких точек). Рис. 6. Существенное отличие алгебры множеств от алгебры чисел заключа- ется в наличии в алгебре множеств еще одной операции, ставящей в соответствие каждому множеству А новое множество А (допол- нение А). Эта операция определяется следующим образом: А со стоит из всех точек плоскости не принадлежащих мно жеству А. Основные правила, относящиеся к этой новой операции таковы; А + А = I и АА = О; и, наконец, О = I и I = О; А = А; если А С. В, то В С А- А + В = A-В и АТв = А + В (см. рис. 6, на котором по-разному заштрихованы множества А и Вт причем дважды заштрихованным оказалось множество А + В, а хоть один раз — множество А -В). Существует также много других совокупностей некоторых объек- тов, для которых естественно определяются понятия суммы, произ- ведения, а также «упорядочение» А С В и «дополнение» А, удовлет- воряющие всем перечисленным выше алгебраическим свойствам. Одним из примеров таких совокупностей является рассмотренная в §§ 1—3 совокупность случайных событий: алгебра событий, как легко видеть, обладает всеми теми же свойствами, что и алгебра множеств. Другие примеры можно получить, рассматривая вместо множеств точек плоскости множества элементов какой-либо другой природы, например, множества целых чисел. Если при этом под суммой и произведением множеств А и В по-прежнему понимать их объединение и пересечение (например, если А2 и А3 — множеств а
64 ВЕРОЯТНОСТЬ (Гл. I чисел, делящихся, соответственно, на 2 и на 3, то в множество А2 + А3 входят все четные числа и те из нечетных чисел, котерлт делятся на 3, а множество АгАз состоит из всех целых чисел, крат- ных 6) и считать, что А С. В, если А составляет часть В (например, Ai С А2, тр,е Ai — множество чисел, делящихся па 4), и что А — это множество всех целых чисел, и е и р и и а д л о ж а щ и х А (если А — множество всех простых чисел, то А содержит ппо составные числа и число 1), а под 1 и О понимать соответственно множество всех целых чисел и множество, не содержащее и и о д него числа, то сохранят силу все выписанные выше coonioiiioniiii В качестве еще одного примера можно рассмотреть множеств > всех делителей некоторого числа TV, не делящегося ии па какой пол ный квадрат, больший 1 (в частности, при Лг = 30— множество чн сел 1, 2, 3, 5, 6, 10, 15 и 30); если под А + В и АВ понимать <:<><« ветственно общее наименьшее кратное и общий наибольший дели тель чисел А и В, под Л СВ— соотношение «А есть делитель В» и обозначить через О и I — числа 1 и У (т е. 1 и 30) и черва А — число N/А (в нашем случае 30/Л), то по-прежнему А + В = В + А и АВ = ВА, (А + В)-С = А-С + В-С и А-В + С = (А + С)-(В + С), А С А + В и АВ С А, А + В = А-И и А-В = А + В и т. д. Наконец, весьма важный пример того же рода составляет мно- жество всех логических предложений (т. е. утверждений, относи- тельно каждого из которых имеет смысл говорить о том, что оно истинно или что оно ложно); это множество составляет предмет изучения математической логики. Здесь под суммой А + В и произведением^-В предложений Л и В следует понимать предложения «пли А, пли В» и соответственно «и А, и В», под А С. С В — то, что из истинности предложения Л следует_и истинность предложения В (короче: «из А следует В»), под А — отрицание предложения А (предложение «А неверно»), под I и О — предло- жение, которое заведомо истинно, и предложение, которое заведомо ложно. В таком случае снова выполняются все вышеописанные соотношения, которые выражают определенные анконы логики. Так, например, 1 И - / есть а а к о п пекл ю ч о и и ого т р о т ь е г о: во всех случаях предложение А либо истинно, либо ложно; соотношение А-А = О есть закон противоречия: ни в каком случае предло- жение А не может одновременно оказаться и истинным и ложным. Многочисленность и важность алгебраических систем, облада- ющих всеми перечисленными выше свойствами, заставила матема- тиков специально заняться их изучением. В настоящее время та- кие системы называются алгебрами Буля, по нмонн
§ 5] АЛГЕБРА СОБЫТИИ 65 известного английского математика и логика XIX в. Джорджа Буля, впервые применившего такую алгебру в своих исследова- ниях по логике г) Элементы алгебры Буля, вообще говоря, не являются числа- ми. Однако часто удается поставить в соответствие каждому эле- менту А число | Л | или р (Л), удовлетворяющее следующим условиям: 0<р (Л) <1; р (О) = О, Р (/) = 1; если A CZ 13, то р (Л) «С р (В); если А-В = О, то р (А + В) = р (Л) + р (В). Это число называют абсолютной величиной эле- мента Л пли его п о р м о й, а саму алгебру Буля в этом случае называют п о р м и р о в а п н о й. В качестве примеров можно привести семейство плоских фигур, принадлежащих квадрату со стороной единица (сам квадрат играет роль элемента I этой алгеб- ры Буля), где за абсолютную величину или норму фигуры А при- нята ее площадь, или множество всех делителей не делящегося ни на какой квадрат целого числа N (например, числа 30), где под нормой числа Л понимается logw Л (в нашем случае loggo Л); совокупность всех предложений математической логики также мо- жно рассматривать как нормированную алгебру Буля, если усло- виться считать абсолютную величину (норму) предложения равной 1, если это предложение истинно, и равной 0, если оно ложно. П римером нормированной алгебры Буля является и та алгебра собы- тий, которая изучалась в §§ 1—3; здесь роль абсолютной величины или нормы события Л играет вероятность р (Л) этого события. Связь теории вероятностей с алгебрами Буля может быть поло- жена в основу общего определения самого предмета этой науки. А именно, можно сказать, что теория вероятностей изучает сово- купности объектов, образующие нормированную алгебру Буля', эти объекты называются событиями, а норма р (Л) события Л называется вероятностью. Так, например, в «задаче об урне» (или в любой сводящейся к пей задаче) фактически рассматрива- ется нормированная алгебра Буля всевозможных множеств, х) Алгебру Буля можно охарактеризовать как совокупность элементов, в которой определены две операции Л и Л -|- В (сопо- ставляющие каждому элементу Л, соответственно паре элемен- тов А и В, какой-то элемент того же множества), обладающие свой- ствами: Л + В = В + А, (А + В) + С = Л + (В + С), А + В+ А+ В = А. Все остальные свойства алгебр Буля могут уже быть выведись! пз этих трех основных свойств, если определить «произведение» АВ как Л В, соотношение Л С равенством Л В = В, элементы I и О — равенствами Л + А = I и ЛЛ = О (где Л — любое). 3 А. М. Яглом, И. М. Яглом
66 ВЕРОЯТНОСТЬ [Гл. I которые можно составить из заданных п элементов («точек»). При этом сумма и произведение двух множеств здесь (как и во всех при- мерах ниже) определяются как их объединение и пересечение; норма же задается условием, что для всех множеств из одного элемента 1 (т. е. отдельных точек) опа равна одному и тому же числу —. Столь же законными, однако, с нашей новой точки зрения будут задачи, возникающие из рассмотрения той же алгебры Буля, но при более общем условии, что нормы отдельных точек равны произвольным положительным числам pi, р2, . . . , рп, удовлетворяющим единст- венному условию pi + р2 + . . . + рп = 1 (к алгебре Буля такого типа с п = 6 сводится, в частности, задача о «неправильной» играль- ной кости — имеющей искаженную форму или изготовленной из неоднородного материала). Ниже нам встретится также случай, в котором элементами алгебры Буля являются всевозможные части заданного отрезка АВ, а норма определяется как отношение дли- ны рассматриваемой части ко всей длине отрезка АВ (см. задачу 22 на стр. 112); аналогично этому иногда приходится рассматривать совокупность всех множеств, принадлежащих некоторой плоской фигуре или пространственному телу, и задавать норму, как отно- шение площади или объема соответствующего множества к пло- щади всей фигуры или объему всего тела (ср., например, «задачи на геометрические вероятности» на стр. 45—50 книги [37]). Можно также обобщить на все эти случаи «задачу о неправильной кости», т. е. и при рассмотрении алгебры Буля всох множеств, принадле- жащих заданному отрезку, фигуре пли телу, вводить норму совер- шенно произвольным образом, требуя лишь, чтобы они удовлетво- ряла условиям, наложенным выше па функцию р (/1); при этом мы придем к новому широкому классу интересных теоретико-вероят- ностных задач. Если принять набранное на стр. 65 курсивом утверждение в ка- честве определения предмета теории вероятностей, то отсюда выте- кает, что в любой относящейся к этой теории задаче исходная алгеб- ра Буля обязательно должна быть задана заранее (т. е. так или иначе указана в самом условии задачи). Основной задачей теории вероятностей при этом следует считать нахождение вероятностен составных событий, образованных из заданных нам основных или первоначальных событий А, В, С, Г), . . . при помощи операций булевской алгебры (например, событий АВ + ВС + СА или (А + В-С) (Л+О)) по вероятностям этих основных событии (по- добно тому, как основная задача геометрии состоит в высчпслении каких-либо расстояний или углов по другим, исходным, расстоя- ниям и углам, предполагающимся известными — например, длины гипотенузы прямоугольного треугольника по известным длинам катетов). При таком подходе к теории вероятностей (указанном впервые в 1917 г. С. Н. Бернштейном) очень важный вопрос о спо- собах, нахождения основных вероятностей р (Я), р (В) и т. д. ос- тается, разумеется открытым; однако для того, чтобы развиваемая теория имела практическое значение, эти вероятности обязательно должны задаваться так, чтобы они совпадали с эмпирическими частотами соответствующих событий в длинной серии опытов. Один возможный путь определения «основных вероятностей»,
§ 5] АЛГЕБРА СОБЫТИЙ 67 удовлетворяющий этому условию, дает приведенное в § 1 «класси- ческое определение вероятности», опирающееся на понятие о «пол- ной системе равновероятных исходов опыта»; в других случаях, когда такой полной системы не существует, для определения значе- ний р (Л) приходится привлекать другие соображения (например, непосредственно находить приближенное значение р (Я) с помо- щью многократного выполнения опыта, с которым связано осущест- вление события Л). Суть дела, однако, заключается в том, что мето- ды определения исходных вероятностей нисколько не отражаются на всех дальнейших операциях с ними, составляющих основное содержание теории. Заметим еще, что то обстоятельство, что во всох приведенных выше примерах алгобра Буля задавалась как совокупность мно- жеств, составленных из точек одного «наибольшего множества», не является случайным — такое задание этой алгебры возможно во всех теоретико-вероятностных задачах. Исходя отсюда, можно даже с самое начала считать основным объектом изучения теории вероятностей не нормированную алгебру Буля всевозможных со- бытий, а некоторое «полное множество элементарных событий», раз- личные части («подмножества») которого и отождествляются затем с «событиями». Для того, чтобы сделать эти рассуждения вполне за- конченными, падо только сопоставить еще подмножествам А на- шего «множества всех элементарных событий» определенную нор- му р (Л) и перечислить основные требования (аксиомы), которым должны удовлетворять сами рассматриваемые подмножества и их нормы, чтобы’мы действительно имели нормированную алгебру Буля. Такой метод аксиоматического построения теории вероятностей (предложенный в 1929 г. А. Н. Колмогоровым) обладает определен- ными преимуществами перед методом, изложенным выше в настоя- щем параграфе, при исследовании более сложных и тонких вопро- сов теории и поэтому он является в настоящее время наиболее рас- пространенным; более подробное его изложение увело бы нас, однако, слишком далеко в сторону от нашей основной темы. 3*
Глава II ЭНТРОПИЯ И ИНФОРМАЦИЯ § 1. Энтропия как мера степени неопределенности Главным свойством случайных событий, изучение ко- торых составляет основной предмет этой книжки, является отсутствие полной уверенности в их наступлении, создаю- щее известную неопределенность при выполнении связан- ных с этими событиями опытов. Однако совершенно ясно, что степень этой неопределенности в различных случаях будет совершенно разной. Если наш опыт состоит в опре- делении цвета первой встретившейся нам вороны, то мы можем почти с полной уверенностью рассчитывать, что этот цвет будет черным — хотя зоологи и утверждают, что встречаются иногда белые вороны, вряд ли кто-нибудь усомнится в исходе такого опыта. Несколько менее опре- деленен опыт, состоящий в выяснении того, окажется ли первый встреченный нами человек левшой или нет — здесь тоже предсказать результат опыта можно почти не колеб- лясь, но опасения относительно правильности этого пред- сказания будут более обоснованны, чем в первом случае. Значительно труднее предсказать заранее, будет ли пер- вый встретившийся нам на улице города человек мужчи- ной или женщиной. Но и этот опыт имеет относительно небольшую степень неопределенности по сравнению, на- пример, с попыткой заранее указать победителя в турнире с двадцатью совершенно незнакомыми нам участниками или определить помер лотерейного билета, на который вы- падет наибольший выигрыш в предстоящем тираже лоте- реи: если, скажем, предсказав, что первый встреченный нами на улице человек будет мужчиной, мы еще можем надеяться угадать, то вряд ли кто-нибудь рискнет сделать прогноз в предпоследнем или, тем более, в последнем случае. Для практики важно уметь численно оценивать с т е- пень неопределенности самых разнообраз- ных опытов, чтобы иметь возможность сравнить их с этой
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 69 стороны. Мы начнем здесь с рассмотрения опытов, имею- щих к р авновероятных исходов. Очевидно, что степень неопределенности каждого такого опыта опреде- ляется числом к', если при к = 1 исход опыта вообще не является случайным, то при большом к, т. е. при наличии большого числа разных исходов, предсказание результата опыта становится весьма затруднительным. Таким обра- зом, совершенно ясно, что искомая численная характери- стика степени неопределенности должна зависеть от к, т. е. являться функцией / (Л) числа к. При этом для к = 1 эта функция должна обращаться в пуль (ибо в этом случае неопределенность полностью отсутствует), а при возра- стании числа к она должна возрастать Для более полного определения функции / (к) надо предъявить к ней дополнительные требования. Рассмотрим два независимых опыта а и (3 (т. е. такие два опы- та, что любые сведения об исходе первого из них никак не меняют вероятностей исходов второго). Пусть опыт а имеет к равновероятных исходов, а опыт (3 имеет I равновероят- ных исходов; рассмотрим также сложный опыт аР, состоя- щий в одновременном выполнении опытов а и р. Очевидно, что неопределенность опыта ар больше неопределенности опыта а, так как к неопределенности а здесь добавляется еще неопределенность исхода опыта р. Естественно счи- тать, что степень неопределенности опыта ар равна сумме неопределенностей, характеризующих опыты а и р. А так как опыт ар имеет, очевидно, kl равновероятных исходов (они получаются, если комбинировать каждый из к воз- можных исходов опыта ас / исходами Р), то мы приходим к следующему условию, которому должна удовлетворять наша функция / (к): / (kl) = f(k)+f (I). Последнее условие наталкивает на мысль принять за меру неопределенности опыта, имеющего к равновероятных исходов, число log к (ибо log (kl) = log к + log I). Такое определение меры неопределенности согласуется также с условиями, что при к = 1 она равна нулю и что при воз- растании к она возрастает *). *) Нетрудно показать, что логарифмическая функция явля- ется единственной функцией аргумента к, удовлетворяю- щей условиям f (kl) — f (к) + f(l), /(1) — 0 и f (к) > / (Г) при к > I (ср. ниже § 4, стр. 134 — 135).
70 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Заметим, что выбор основания системы логарифмов здесь несуществен, так как в силу известной формулы logb/c = log ba-log ak переход от одной системы логарифмов к другой сводится лишь к умножению функции / (/с) = log к на постоянный множитель (модуль перехода log6a), т. е. рав- носилен простому изменению единицы измерения степени неопределенности. В конкретных применениях «меры степени неопределенности» обычно используются логариф- мы при основании два (другими словами — считается, что / (к) — log2/c). Это означает, что за единицу измерения степени неопределенности здесь принимается неопределен- ность, содержащаяся в опыте, имеющем два равновероят- ных исхода (например, в опыте, состоящем в подбрасыва- нии монеты и выяснении того, какая сторона ее оказалась сверху, или в выяснении ответа «да» или «нет» на вопрос, по поводу которого мы с равными основаниями можем ожидать, что ответ будет утвердительным или отрицатель- ным). Такая единица измерения псопределсвпости назы- вается двоичной единицей (сокращенно дв. ед.) или битом1); в немецкой литературе используется также выразительное ее название «Ja-Ncin Einlieit» («да- вет единица»). Подобная «да-нет единица» является в ка- ком-то смысле самой естественной; дополнительные сооб- ражения, указывающие, почему именно ей отдается пред- почтение в технике, станут ясны из содержания гл. IV этой книги. Мы тоже в дальнейшем будем все время пользоваться двоичными единицами (битами); таким об- разом запись log к (где мы, как правило, не будем указы- вать основания системы логарифмов) будет обычно озна- чать log, к. Заметим только, что в содержании книги прак- тически пичсго по изменилось бы, если бы мы использова- ли более привычные десятичные логарифмы; это лишь означало бы, что за единицу степени неопреде- ленности принимается неопределенность опыта, имеющего 10 равновероятных исходов (таким является, например, опыт, состоящий в извлечении шара из урны с десятью 3) Английское слово bit было образовано с помощью сжатия слов binary digit, означающих «двоичная цифра» или «двоичная единица».
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 71 перенумерованными шарами, или опыт но отгадыванию одной цифры, если любая из десяти цифр имеет одинаковую вероятность быть загаданной). Эта последняя единица степени неопределенности (которую называют деся- тичной единицей или д и т о м) примерно в 3 раза крупнее двоичной единицы (ибо log2 10 ~ 3,32 о ^з|). Таблица вероятностей для опыта, имеющего к равнове- роятных исходов, имеет вид: исходы опыта вероятности 1_ 1 к к к £ к Так как общая неопределенность опыта по нашему усло- вию равна log к, то можно считать, что каждый отдельный 1 исход, имеющий вероятность вносит неопределенность, 1 11 равную -77 log к =--J7 log -77 . Но тогда естественно счи- к к К тать, что в результат опыта, таблица вероятностей для которого имеет вид исходы опыта л, Л2 Аз вероятности 1 2 1 3 1 6 исходы А±, Л2 и А3 вносят неопределенность, равную соот- 1,1 1,1 4,1 ветственно — у log у , —g- log у и — log -g-, так что общая неопределенность этого опыта равна 1 , 1 1 , 1 1 , 1 “11О^2-3 10ST-610^’ Аналогично этому можно положить, что в самом общем случае, для опыта а с таблицей вероятностей исходы опыта 1 1 1 1 Аз | | Ак вероятности 1 Р (Л1)| 1 Р(Л2)1 Р(Л3)| .. IpHk)
72 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II мера неопределенности равна — р Их) log р (А) — р (Л2) log р (Л2) — — р (Л3) log р (А3) — . . . — р (Ак) log р (Ль) (см. также § 4 этой главы, напечатанный мелким шрифтом). Это последнее число мы, руководствуясь некоторыми глубокими физическими аналогиями, несущественными, впрочем, для всего дальнейшего, будем называть энтропи- ей опыта а и обозначать через Н(а) ]). Перейдем к изучению свойств энтропии Н (а). Отметим, прежде всего, что она не может принимать отрицательных значений: так как всегда 0 р (Л) 1, то log р (Л) не может быть положительным, а — р (Л) log р (Л) — отри- цательным. Заметим далее, что если р очень мало, то и произведение — р log р будет весьма малым, хотя — log р здесь и будет большим положительным числом. В самом деле, пусть, например, р = в таком случае log р — = — пи — р log р = а дробь при большом п 1 (что соответствует малому р = ^) будет очень маленькой (ибо с ростом п число 2" растет несравненно быстрее, чем само число п — так, например, число 264 состоит из 20 цифр* 2)!). Отсюда вытекает, что при р -> 0 произведе- ние — р log р неограниченно убывает, так что Пт (— р log р) = 0 р->0 (ср. ниже рис. 7 и 9, на которых изображен график функ- ции у — — р log р: из графика видно, что при р = 0 !) Относительно отношения введенного здесь понятия нитро- нии к термодинамическому понятию энтропии, играющему важную роль в физике, см., например, книги И. А. Полетаева [10] и, особенно, Л. Б р и л л ю э и a [2J. 2) С этим связана известная, видимо, многим из читателей этой книги легенда об изобретателе шахмат, который в качестве награды попросил, чтобы ему выдали столько хлебных зерен, сколь- ко получится, если положить иа 1-ю клетку шахматной доски одно зерно, на 2-ю —два и далее на каждую клетку доски вдвое больше зерен, чем на предшествующую. Эта награда первоначально по- казалась обещавшему ее шаху очень скромной; однако па самом деле соответствующее количество зерен (равное 2м — 1) намного превосходит все имеющиеся па земле запасы зерна.
§ 1] ЭНТРОПИЯ КАК КЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 73 значение этой функции равно нулю). Поэтому если вероят- ность р (Л,) исхода Ai равна нулю (т. е. исход Л, невоз- можен), то соответствующий член — р (Лг) log р (Л;) в вы- ражении для энтропии можно просто отбросить (строго го- воря, этот член не имеет смысла, так как log р (Л;) в этом случае не существует; именно поэтому нам и пришлось искать предел выражения — р log р при р -> 0). В об- ратном случае, когда р (Л/) очень велико (т. е. близко к 1), член — р (At) log р (At) также будет очень мал, так как log р при р -> 1 стремится к нулю; если вероятность р (Л г) точно равна единице (т. е. появление исхода Лг на- шего опыта является достоверным событием), то log р (A i) = = 0 и, значит, также — р (Л,) log р (Лг) = 0 (см. снова рис. 7 и 9). Так как — р log р равно пулю лишь при р — 0 или р = 1, то ясно, что энтропия Н(а) опыта а равна нулю лишь в том случае, когда одна из вероятностей р (Лг), р (Az), . . ., р (Л^) равна единице, а все остальные равны нулю (напоминаем, что р (Лл) + р (Л2) + . - . ... + р (Л ft) = 1; см. выше стр. 27). Это обстоятельство хо- рошо согласуется со смыслом величины Н (а) как меры сте- пени неопределенности: действительно, только в этом слу- чае опыт вообще не содержит никакой неопределенности. Далее, естественно считать, что среди всех опытов, име- ющих к исходов, наиболее неопределен- ным является опыт с таблицей вероятностей: исходы опыта Л| дг | Л3 ... Ль 1 1 1 1 вероятности ~к к к ... к который мы обозначим через а0: в этом случае предсказать исход опыта труднее всего. Этому отвечает то обстоятель- ство, что опыт а0 имеет наибольшую энтропию: если а — произвольный опыт, имеющий к исходов А1г Л 2, . • ., Ак, то И (а) = — р (A J log р (Лг) — р (А2) log р (Л2) — ... .. • — Р (A) log Р (Л,Э < 4 Л Л 4 11 <Iog — 2-log А _ 1 log 2. _ log т = Я (а0), к раз
74 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II причем равенство достигается только в том случае, когда р = р (Л2) = ... = /? (Л,.) = Полное доказа- тельство этого результата мы пока отложим (см. Прило- жение I в конце книги), здесь же мы ограничимся тем, что поясним соответствующую теорему на примере, когда к — 2. В этом случае она сводится к доказательству сле- дующего неравенства: — р (Лх) log р (Л х) — р (Л2) log р (Л2) < log 2 = 1. Как мы уже отмечали, значение функции F (т) = = — г log х при х -> 0 стремится к нулю; с другой сторо- ны, при гс = 1 ее значение также равно нулю, а при О < х < 1 эта функция положительна (ибо в этом случае log х отрицателен); при х 1 функция — х log х отрица- тельна. График рассматриваемой функции изображен на рис. 7, где ОЕ = 1, ОА = р (Лх), ОВ = р (Л2) и отрез- ки AM и BN изображают величины — р (Л t) log р (Лх) и —р (Л2) log р (Л2). Так как ОА + ОВ = р (Лх) + р (Л2) = 1 = ОЕ , то расстояние OS от начала до середины S отрезка АВ рав- ио -j’, поэтому на рис. 7 отрезок SP равен — у log у ~ у • Но полусумма отрезков AM и BN равна средней линии SQ трапеции ABNM, которая не превосходит SP; следо- вательно, у (—Р (А) Р (А) — Р (A) log р (Л 2)) С у , т. е. —Р (Лх) log р (Лх) — р (Л2) log р (Л2) < 1,
S 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 75 где равенство имеет место лишь в том случае, когда отрезки ОА и ОВ оба совпадают с OS. Итак, мы доказали, что функция h (р) = — Р log р — (1 — р) log (1 — р), определяющая энтропию опыта с двумя исходами (вероят- ности которых равны р и 1 — р), принимает наибольшее значение (равное log 2 = 1) при р = На рис. 8 изобр - жен график этой функции, показывающий, как меня- ется энтропия h (р) при изменении р от 0 до 1. В случае опыта с к воз- можными исходами энтро- пия задается формулой Н {рг, р2, . . pk) = = — Pi log Pi — p2 log p2 — — . . . — pfc log ph, где pi, p2, . . ., pk — ве- роятности отдельных исхо- дов, так что всегда рх + + р2 + ... + ph = 1. В этом более общем случае (ибо при к = 2 функция Н (ръ р2>-.-,Рь) обра- щается в Н (рь 1 — pj = h (рУ) также можно дока- зать, что функция Н (рь р2, . . ., pfe) принимает наиболь- шее значение (равное log к) при рг = р2 = ... = Ph = у 5 соответствующее доказательство приведено в Приложе- нии I (см. стр. 453). Для того чтобы представить себе ха- рактер зависимости функции Н (ръ р2, . . ., р;1) от отдель- ных вероятностей рь р2, . . ., pfc, рассмотрим более вни- мательно график функции — р log р, 0 < р < 1 (см. рис. 9, где в несколько большем масштабе воспроизведена часть рис. 7) х). Из этого графика видно, что при р < 0,1 величина — р log р растет чрезвычайно быстро; поэтому в этой области сравнительно небольшому уменьшению *) Таблица значений функции —р log р (логарифмы — двоич- ные!) составляет Приложение III к книге.
76 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II вероятности pt (i = 1, . . ., к — 1 или к) отвечает очень значительное уменьшение соответствующего слагаемого — pt log pt в выражении функции И (рх, р2, . . .,pk). Это приводит к тому, что обычно слагаемые — pt log р{, отве- чающие очень малым значениям вероятности рг, вно- сят много меньший вклад в выражение Н (р1; р2, . . pk), чем прочие члены, так что при вычислении энтропии срав- нительно маловероятные исходы часто можно без большой ошибки просто опустить (ср. текст, напечатанный на стр. 86—87 мелким шрифтом). Наоборот, в области между р = 0,2 и р = 0,6, где функция — р log р принимает наи- большие значения, она меняется сравнительно плавно, поэтому в этой области даже довольно значительное из- менение вероятностей р, сравнительно мало отражается на величине энтропии. Отметим еще, что из непрерывности графика функции — р log р следует, что энтропия Н (а) и е п р е р ы в и о зависит от вероятностей отдельных исходов опыта а, т. е. что при очень малом изменении этих вероятностей и энтропия изменится очень мало. Задача 16. Имеются две урны, содержащие по 20 шаров — 10 белых, 5 черных и 5 красных в первой и 8 белых, 8 черных и 4 красных во второй. Из каждой урны вытаски- вают по одному шару. Исход какого из этих двух опытов следует считать более неопределенным!
§ 11 ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 77 Таблицы вероятностей для соответствующих опытов (обозначим их через ах и а2) имеют вид: опыт ах (извлечение шара из 1-й урны): цвет вынутого шара белый черный красный вероятность 1 2 1 4 1 4 опыт а2 (извлечение шара из 2-й урны): цвет вынутого шара белый черный красный вероятность 2 5 2 5 1 5 Энтропия первого опыта равна . ill ill 111 Н(а1) = - уlog--TlogT-TlogT = = у -1 + у -2 = 1,5 бита, а энтропия второго несколько больше: . 2. 2 2. 2 1, 1 Н (а2) = - у log у - у log у - у log у ~ 4- • 1,32 4* 4- • 2,32 т 1,52 бита. О D Поэтому, если оценивать (как мы это условились делать) степень неопределенности исхода опыта его энтропией, то надо считать, что исход второго опыта является более неопределенным, чем исход первого. 3 а д а ч а 17. Пусть из многолетних наблюдений за погодой известно, что для определенного пункта вероят- ность того, что 15 июня будет идти дождь, равна 0,4, а вероятность того, что в указанный день дождя не будет, равна 0,6. Пусть далее для этого же пункта вероятность того, что 15 ноября будет идти дождь равна 0,б5, вероят- ность того, что 15 ноября будет идти снег, равна 0,15 и вероятность того, что 15 ноября вовсе не будет осадков, равна 0,2. Если из всех характеристик погоды интересо- ваться лишь вопросом о наличии и о характере осадков, то
78 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. И в какой из двух перечисленных дней погоду в рассматривае- мом пункте следует считать более неопределенной! Согласно тому, как понимается здесь слово «погода», опыты С1Х и аа, состоящие в выяснении того, какая погода имела место 15 июня и 15 ноября, характеризуются сле- дующими таблицами вероятностей? опыт аг. исходы опыта | | дождь | | отсутствие осадков вероятность | 0,4 | 0,6 опыт аг: исходы опыта дождь снег отсутствие осадков вероятность 0,65 0,15 0,2 Поэтому энтропии наших двух опытов равны Н (ai) = — 0,4 log 0,4—0,6 log 0,6 0,97 бита, И Н (а2) = — 0,65 log 0,65—0,15 log 0,15—0,2 log 0,2 ~ » 1,28 бита > II (aj. Следовательно, погоду 15 ноября в рассматриваемом пункте следует считать более неонределен- н о й, чем 15 июня. Полученный результат, разумеется, существенно зави- сит от того, как понимать слово «погода»; без точного разъ- яснения того, что под этим понимается, наша задача вооб- ще не имеет смысла. В частности, если интересоваться только тем, будут ли в рассматриваемый день осадки или нет, то исходы «дождь» и «снег» опыта а2 следует объеди- нить. При этом вместо а2 мы будем иметь опыт а2, энтро- пия которого равна Н (а0 = — 0,8 log 0,8—0,2 log 0,2 « 0,72 < II (аг). Поэтому при таком понимании погоды падо считать, что 15 ноября погода является менее неопределен- ной, чем 15 июня. Если же интересоваться не только осадками, но и, например, температурой воздуха, то решение задачи становится более сложным и требует при- влечения дополнительных данных о распределении значе- ний температуры в рассматриваемом пункте 15 июня и 15 ноября.
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 79 Соображения, развитые в решении задачи 17, представ- ляют интерес для оценки качества предсказания погоды по тому или иному методу (аналогично обстоит дело и в слу- чае любого другого прогноза). В самом деле, при оценке качества прогноза нельзя учитывать лишь его точность (т. е. процент случаев, в которых прогноз оправдывается); иначе нам пришлось бы высоко оценивать любой прогноз, имеющий большие шансы оказаться правильным — в том числе, например, и предсказание отсутствия снега в Москве 1 июня, не представляющее, разумеется, ника- кой ценности. При сравнении качества различных прогно- зов следует учитывать не только их точность, но и труд- ность удачного прогноза, которую можно характеризовать степенью неопределенности соответствующего опыта. К этому вопросу мы еще вернемся ниже (см. задачу 21 в § 3 этой главы, стр. 108). Исторически первые шаги к введению понятия энтро- пии были сделаны еще в 1928 г. американским инжене- ром-связистом X арт л и1), предложившим характери- зовать степень неопределенности опыта с к различными исходами числом log к. Разумеется, Хартли хорошо пони- мал, что предложенная им мера степени неопределенности, очень удобная в некоторых практических задачах, во мно- гих случаях оказывается мало показательной, поскольку она полностью игнорирует различие между характером имеющихся исходов (почти невероятному исходу здесь придается такое же значение, как и исходу весьма правдо- подобному). Однако он считал, что различия между отдель- ными исходами определяются в первую очередь «психоло- гическими факторами» и должны учитываться поэтому лишь психологами, но никак не инженерами или матема- тиками. Ошибочность точки зрения Хартли была показана Клодом Шенноном, предложившим принять в качестве меры неопределенности опыта а с возможными исходами А1} А2, . . ., Ак величину Н (а) = — р (ЛО log р (Л^ — р (Л2) log р (Л2) —... • • - — Р (Л ft) log р (Л ft), *) Русский перевод работы Хартли напечатан в сборнике «Теория информации и ее приложения», М., Физматгиз, 1969, стр. 5—35,
80 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II где р (Лх), р (Л2), . . р (Л,,)— вероятности отдельных исходов; он же предложил называть эту величину «энтро- пией». Иначе говоря, согласно Шейному, исходу Лг опыта а следует приписать неопределенность, равную —log р (А{) (подобно тому, как в случае к равновероятных исходов, 1 имеющих вероятность р = , за меру неопределенности, согласно Хартли, следует принять число log к = — log р). Далее в качестве меры неопределенности всего опыта а принимается среднее значение неопределенно- сти отдельных исходов (т. е. среднее значение случайной величины, принимающей значения — log р (Лх), —log р (Л2), . . ., —log р (Ак) с вероятностями р (Лх), р (Л2), . . ., р (Л,,); согласно приведенному па стр. 24 определению это среднее значение и равно Ща)). Таким образом, загадочные «психологические факторы» Хартли здесь учитываются с помощью использования понятия вероятности, имеющего чисто математический (точнее ста- тистический) характер. Использование величины Н(а) в качестве меры неоп- ределенности опыта а оказывается очень удобным для весьма многих целей; раскрытию этого обстоятельства и посвящена, в основном, последующая часть книги. Сле- дует, однако, иметь в виду, что мера Шеннона, как и мера Хартли, не может претендовать на полный учет всех фак- торов, определяющих «неопределенность опыта» в любом смысле, какой может встретиться в жизни. Так, например, мера Ща) зависит лишь от вероятностей р(Л]), р(Л2),... . . р (А различных исходов опыта, но вовсе не зависит от того, каковы сами эти исходы — являются ли они в некотором смысле «близкими» один к другому или очень «далекими». Поэтому наша «степень неопределенности» будет одинаковой для двух случайных величин, характе- ризующихся следующими таблицами вероятностей: значения 0,9 1 1,1 значения —200 1 1000 вероятности 1 4 1 2 1 4 И вероятности 1 2 1 4 _1_ 4 или для двух методов лечения больного, один из которых приводит к полному выздоровлению в 90 случаях из 100 и к заметному улучшению состояния больного — в осталь-
s 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 81 пых 10 случаях, а второй также вполне успешен в 90 слу- чаях из 100, но зато в остальных 10 случаях завершается смертельным исходом. Существенное различие между двумя опытами в этих случаях должно оцениваться сов- сем другими характеристиками, отличными от энтропии Шеннона. Отмеченная особенность энтропии Н{а), как и ряд других особенностей этой величины, естественно объяс- няется тем, что понятие энтропии первоначально было вве- дено специально для решения некоторых вопросов теории передачи сообщений по линиям связи и поэтому оно осо- бенно удобно именно для такого использования. То обстоя- тельство, что для определения времени, требующегося для передачи некоторого сообщения, или стоимости такой передачи, конкретное содержание самого сообщения совершенно несущественно, и проявляется в независимости энтропии Н(а) от значений Аг, А2, . . Ah самих исходов опыта. С другой стороны, вероят- ности отдельных сообщений вовсе не безразличны для теории связи; об этом подробнее мы еще будем говорить в гл. IV. И особенно важно то обстоятельство, что при работе линии связи основную роль играют статисти- ческие закономерности, так как по такой линии всегда передается большое количество разнообразных сообщений. Поэтому мера неопределенности, используемая в решении задач, касающихся работы линий связи, должна быть приспособлена, в первую очередь, для оценки степени неопределенности сложных «составных опытов», состоя- щих из целой совокупности следующих друг за другом испытаний. Любопытно, что с точки зрения исследователя, изучаю- щего степень неопределенности таких составных опытов, различие между взглядами Хартли и Шеннона оказывает- ся совсем не таким значительным, как это может показать- ся сначала. В самом деле, ведь даже с точки зрения Харт- ли нельзя совершенно игнорировать вероятности появ- ления исходов — иначе можно было бы произвольно уве- личить число к исходов нашего опыта, добавив к реально возможным исходам любое число фиктивных исходов, имеющих вероятность нуль. Поэтому при вычислении ме- ры неопределенности опыта по Хартли мы непременно должны отбросить все «невозможные» исходы, имеющие
82 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II нулевую вероятность. Но при этом вряд ли стоит учиты- вать и «практически невозможные» исходы, осуществление которых имеет столь малую вероятность,, что на практике ее можно считать нулевой. Заменим теперь оныт а, имею щий к различных исходов, другим опытом aw, состоящим в TV-кратном повторении (при одинаковых условиях) опы- та а. Число различных исходов этого последнего опыта будет равно kN\ эти kN исходов мы получим комбинируя к возможных исходов первого выполнения опыта а с к воз- можными исходами второго выполнения, к исходами третьего выполнения и т. д. вплоть до к исходов TV-го вы- полнения а. Поэтому степень неопределенности опыта aN по Хартли равна log kN = N log к, что снова приводит к выражению Jog к для степени неопределенности опыта а (ибо естественно считать, что степень неопределенности опыта, состоящего в TV-кратном повторении а, должна быть ровно в N раз больше степени неопределенности а; ср. аналогичное рассуждение на стр. 69). До сих пор, однако, мы ничего не говорили о в е р о- ятностях наших kN исходов опыта а,у. Ясно, что если к исходов а являются равновероятными, то равнове- роятными будут и все kN исходов опыта aN, так как здесь ни один из этих kN исходов ничем но выделяется среди других. Если же к исходов опыта а имеют разные веро- ятности р (Л^, р (Л2), . . ., р (Ah), то разные вероятности будут иметь и kN = 2wloBfe исходов составного опыта a«. Оказывается, что при больших значениях N подавляющее большинство из этих 2Л'1оь'/г исходов будет иметь настолько ничтожно малую вероятность, что даже суммар- ная вероятность всех таких маловероятных исходов бу- дет очень мала. Что же касается остальных (более веро- ятных) исходов опыта aN, то вероятности всех этих исхо- дов при большом N почти но отличаются друг от друга. Точнее говоря, можно показать, что при достаточно боль- шом N всегда можно отбросить некоторую (как правило,; очень большую!) часть исходов опыта так, чтобы общая вероятность всех отброшенных исходов была меньше лю- бого заранее выбранного очень малого числа (например, меньше чем 0,01, или чем 0,001, или чем 0,000001; при этом только, чем меньшим мы выберем это число, тем большим придется взять N) и чтобы оставшиеся исходы опыта аы имели бы уже все практически одинаковую веро-
§ 11 ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 83 ятностъ. Весьма важно при этом, что число оставшихся после такого отбрасывания исходов опыта аоказывается имеющим порядок 2NH<°\ гдеН(а) = —р (Лг) log р (Лг)—... . . . — р (Л h) log р (A k) — энтропия опыта а1). Поэтому ясно, что за меру степени неопределенности опыта aN даже с точки зрения Хартли естественно принять число log 2N Н(а) = N-Н (а) (ибо исходами, суммарная веро- ятность которых ничтожно мала, естественно пренебречь); при этом для степени неопределенности исходного опыта а получается значение N-H(a)/N = Н (а). Таким обра- зом, мы видим, что точка зрения Шеннона отличается от точки зрения Хартли в первую очередь привлечением длинных цепочек, составленных из повторных осуществ- лений одного и того же опыта а; рассмотрение подобных цепочек является характерным для теоретико-вероят- ностного (или статистического) подхода. Утверждение, выделенное курсивом, поясняет статисти- ческий смысл понятия энтропии; опо лежит в основе боль- шинства технических приложений этого понятия. Однако доказательство этого утверждения не очень просто; мы отложим его (а также и несколько более аккуратную фор- мулировку самого утверждения) до заключительной главы книги, непосредственно посвященной применениям по- нятия энтропии к теории передачи сообщений. Реальная ценность понятия энтропии определяется в первую очередь тем, что выражаемая им «степень неопре- деленности» опытов оказывается во многих случаях именно той характеристикой, которая играет роль в разнообраз- ных процессах, встречающихся в природе и технике и так или иначе связанных с передачей и хранением каких-либо сообщений. О некоторых технических применениях по- нятия энтропии мы будем сравнительно подробно говорить дальше; здесь же мы остановимся лишь на одном примере совсем другого рода. Одной из основных задач, с которыми имеет дело экспериментальная психология, является изучение Ч Отсюда, в частности, вытекает, что если только ие все ис- ходы опыта а равновероятны и, следовательно, Н (а) < log fc, то число отброшенных исходов составляет подавляющую часть исходов опыта (ибо отношение 2N‘Ч S^: kN = 2N'Htce>; 2Л’1С®Й= __ 2-A'-[tog?r—Н(а)] прИ большом N будет очень мало).
84 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. И психических реакций, т. е. ответов организма на какое-либо раздражение или воздействие. При этом раз- личаются простая реакция — какой-то опреде- ленный ответ на некоторый заданный сигнал,— и с л о да- на я реакция, важнейшей из которых является реакция выбора, состоящая в том, что на разные сигналы даются разные ответы. Известно, что время про- стой реакции у человека не зависит от подаваемого сиг- нала (для тренированных взрослых людей его минималь- ное значение близко к 0,1 сек). Значительно более слож- ным является вопрос о времени сложной реакции, сущест- венно зависящем от условий эксперимента и, прежде всего, от «степепи сложности» реакции. Еще в 80-е годы прошлого столетия психологами было выяснено, что средняя ско- рость, с какой человек может реагировать на последова- тельность беспорядочно чередующихся сигналов к различ- ных типов (при условии, что на каждый тип сигнала он должен реагировать по-разному) монотонно уменьшается с возрастанием к. Подтверждающие этот факт опыты по определению среднего времени реакции выбора производи- лись очень много раз и всегда приводили к примерно оди- наковым результатам; наиболее обычная постановка их заключалась в том, что па стенке перед испытуемым через определенные промежутки времени вспыхивала одна из к лампочек или появлялась одна из к цифр, и в зависимо- сти от номера сигнала он должен был нажать одну из к кнопок, на которых заранее лежали его пальцы, или же произнести одно из к заранее назначенных слов. Специ- альное устройство при этом отмечало время, проходящее между появлением сигнала и реакцией на пего испытуе- мого; зависимость получаемого среднего значения Т та- кого времени от числа к и изучалась. Естественно, что среднее время, требующееся для ре- акции на сигнал, можно также рассматривать как опре- деленную меру «степепи неопределенности» ожидаемого сигнала: чем большая неопределенность в исходе имеет место, тем больше требуется времени на уяснение того, какой именно сигнал был подан. Имеющиеся опыты пока- зывают, что среднее время реакции растет с увеличением числа к различных типов сигналов примерно как log к, т. е. как шенноновская знтропияН (а) опыта а, состоявше- го в подаче сигнала (во всех экспериментах, о которых
§ 1] ЭНТРОПИЯ КАК МЕРА СТЕПЕНИ НЕОПРЕДЕЛЕННОСТИ 85 здесь идет речь, вероятности сигналов различных типов всегда были одинаковыми). Для примера на рис. 10 (за- имствованном из работы американского психолога Р. X а й м а н а [38]) кружками отмечены данные восьми опытов, состоящих в определении среднего времени, тре- бующегося испытуемому, чтобы указать, какая из к лам- почек (где к менялось от 1 до 8) зажглась. Это среднее время определялось из большого числа серий зажиганий, в каждой из которых частоты зажиганий всех лампочек были одинаковыми, причем предварительно испытуемый специально тренировался в подобных опытах. По оси ординат па рис. 10 отложено среднее время реакции, а по оси абсцисс — величина log /с; при этом, как мы видим, все 8 кружков довольно точно укладываются на одну прямую. Исходя из этих данных, можно было бы предположить, что среднее время реакции во всех случаях определяется энтропией опыта а, состоящего в подаче сигнала. Из этого предположения следует, что уменьшение степени неопре- деленности опыта путем замены равновероятных сигналов
86 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II неравновероятными должно на столько же уменьшить среднее время реакции, на сколько оно уменьшается при уменьшении числа используемых типов сигналов, прив® дящем к такому же изменению энтропии Н (а}. Это утвер- ждение допускает прямую экспериментальную проверку, полностью его подтверждающую. Так, на том же рис. 10 квадратиками отмечены результаты восьми опытов (про- веденных с тем же испытуемым, что и раньше), в которых к лампочек (где к равнялось 2, 4, 6 или 8) зажигались с разными относительными частотами р (Лх), р (Л2), . . . ..р (Лй), причем предварительно испытуемый некото- рое время тренировался на сериях зажиганий с такими частотами. Здесь снова по оси ординат откладывалось среднее время реакции Т, а по оси абсцисс — энтропия Н (а) = — р (ЛЛ) log р (4J — р (Л2) log р (Л2) — ... — — р (Ak) log р (Ль); при этом оказывается, что квадрати- ки с большой степенью точности укладываются на ту же прямую, что и кружки. Мы видим, таким образом, что энтропия Н (а) действительно является именно той ме- рой степени неопределенности исхода опыта, которая ре- шающим образом определяет среднее время, требуемое для определенной реакции па появившийся сигнал. Причина изменения среднего времени реакции при из- менении относительной частоты различных сигналов, оче- видно, кроется в том, что испытуемый быстрее реагирует должным образом на более часто повторяющийся (т. е. более привычный для него) сигнал, но зато медленнее реа- гирует на редкий сигнал, являющийся для него неожи- данным. Разумеется, эти факторы носят психологический характер. Тем не менее мы видим, что и они могут быть количественно охарактеризованы величиной энтропии Н (а) опыта а, вопреки опасениям Хартли, предполагав- шего, что никакие «психологические факторы» (которые, впрочем, в его понимании имели гораздо более косвенное отношение к психологии, чем в настоящем примере) не могут быть количественно учтены. В заключение этого параграфа приведем некоторые данные, ха- рактеризующие незначительность роли, которую играют в опреде- лении энтропии опыта со многими исходами многочисленные ма- ловероятные исходы. Рассмотрим опыт, состоящий в выборе из печатного текста на- удачу одного слова из четырех букв; при этом наш теист мы будем считать написанным по-английски, что позволяет исполь-
§ Z] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 87 зовать данные, содержащиеся в известном «Словаре Торндайка» (Е. L. Thorndike «А Teacher’s Word Book», New York, 1932), в котором указаны частоты 20 000 наиболее распространенных апг лийских слов, полученные путем статистической обработки очень большого и разнообразного английского текста. Всего в этом сло- варе содержится 1550 четырехбуквенных слов; в соответствии с этим мы можем считать, что наш опыт а имеет 1550 различных ис- ходов. Вычислим теперь энтропию Н (а)= — р (Л1) log р (Лг) — р (А2) log р (Л2) — . . . . . Р (А 1550) log р (Л155о) этого опыта, приняв вероятность р (Лг) каждого исхода равной частоте tii/N соответствующего слона; здесь л, есть число повто- рений этого слова, указанное в словаре Торндайка, a N = ni-f- Н- п2 + • + i!i55o- Оказывается, что эта энтропия близка к 8,14 бит 1). Отбросим теперь все слова, для которых щ < 150; при этом остается лшпь 865 четырехбуквенных слов, т. е. немного больше 50% от их исходного числа (точнее говоря — 55,8%). В то же время отвечающая этим 865 исходам опыта а часть суммы Н (ос) равна примерно 8 бит, т. е. составляет более 98% от всей величины II (ос). Отбросим теперь все слова, для которых щ < 750; при этом у нас останется 395 слов, т. е. всего около четверти (25,5%) пер- воначального количества; однако этим 395 исходам будет отве- чать часть суммы Н (а), большая чем 7,47 бит, т. е. составляющая свыше 92% всей величины II (а). Если мы отбросим затем все сло- ва с щ < 1550, то у нас останется только 214 слов (13,8% от исход- ного количества); однако этим 214 исходам опыта будет отвечать часть суммы Н (а), близкая к 6,88 бит, т. е. составляющая около 85% ее первоначального значения. Наконец, если отбросить все слова с nt < 3150, то останется всего 119 четырехбуквенных слов (7,7% от первоначального количества); однако этим 7,7% исходов будет отвечать около 78% суммы Н (а) (эта часть суммы Н (ос) пре- вышает 6,44 бит). § 2. Энтропия сложных событий. Условная энтропия Пусть аир — два независимых опыта с таб- лицами вероятностей: опыт а исходы опыта 1л 1 |.. I вероятности 1 Р (А) | р(А2) 1 . 1рИи) 1) Это значение, как и все последующие численные данные, заимствовано из сборника [46].
88 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II ОПЫТ 0 исходы опыта | Bi | Вг | • • • | вероятности | р (Bj) | р (Bi) | ... | р (Bi) Рассмотрим сложный опыт сф, состоящий в том, что одновременно осуществляются опыты а и 0. Этот опыт может иметь kl исходов: А1В2, . . ., А2В1, А2В2г . . ., А2В}) . . . • • •! AhBx, AhB2, . . ., AhBj, где, например, A±B± означает, что опыт а имел исход Аг, а опыт 0 — исход Вг. Очевидно, что неопределенность опы- та «р больше неопределенности каждого из опытов и и 0, так как здесь осуществляются сразу оба эти опыта, каж- дый из которых может иметь разные исходы в зависимости от случая. Докажем равенство II (ар) = II (а) + II (0) (правило сложения энтропий), которое хо- рошо согласуется со смыслом энтропии как меры степени неопределенности. Согласно определению Н (а0) имеем: Ч (сф) = — р (А±Вг) logр (А^В^—р (АХВ^ logр (Л^)—. .. • • •- Р {A^Bi) log pI^Bt) - — р (А2Вг) log р (A2Bi)—p (А2В2) log р (А2В2)— .. . • • • — Р (A2Bi) log р (A2Bi) — — Р (A h4j) log р (A hBJ—p (A hB2) log р (А кВ2)— . . . • • • — Р (AkBi) log р (AkBi). Но так как опыты а и 0 независимы, то р (А^Б^ = = Р (А,) р (BJ, р (Л^) = р (Лх) р (В2) и т. д. (см. § 2 гл. I. Поэтому первая строка стоящего справа
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 89 выражения может быть записана такз — Р (А) Р (A) (log р (А) + log р (Bi)) — — Р (A) Р (В2) (log р (4j) + log р (В2)) — . . . • • • - Р (А) Р (Bi) (log р (Лх) + log р (А)) = = - Р (А) (р (в,) + р (в2) + ... + р (ВЦ) log р (Л0+ + р (Л) (- р (BJ log р (В.) - р (В2) log р (А) - . . . • • • — Р (Bi) log р (Bi)) = = - ИА) log Р (А) + р (А) Я(Р) (так как р (Вг) + р (В2) + • • • + р (Bi) = 1). Совершен- но аналогично 2-я, . . к-я строки в выражении для Н (сф) равны — Р Иг) log Р И2) + Р Иг) В (0), — Р И ft) log р И ь) + Р И ь) в (0) и, значит, В (ссР) = — р (A) log р Hi) — Р Иг) log Р Иг) — • • • • — Р Hr) log р (Ak) + + (Р (А) + Р Иг) + • • • Р (Ak)) Я (0) = Н(а) + Н (3) (так как и р (Лх) + р (Л2) + . . . + р (Л k) = 1). Предположим теперь, что опыты и и 0 н е незави- симы (например, что а и 0 — последовательные извлече- ния двух шаров из одной урны; ср. выше, стр. 40). В этом более общем случае мы не можем ожидать, что энтропия сложного опыта сф будет равна сумме энтропий а и 0. В самом деле, здесь может представиться такой случай, когда результат второго опыта полностью определяется результатом первого (например, если опыты а и 0 состоят в последовательном извлечении шаров из урны, содержа- щей всего два разноцветных шара). В этом случае после осуществления а опыт 0 уже не будет содержать ника- кой неопределенности; поэтому здесь естественно пред- полагать, что энтропия (мера степени неопределенности) сложного опыта «0 будет равна энтропии одного опыта сс, а не сумме энтропий опытов и и 0 (в дальнейшем мы убе- димся, что это па самом деле так). Постараемся выяснить, чему равна энтропия сложного опыта сф в общем случае. Повторим вывод формулы для энтропии Я(сф) слож- ного опыта «0, отказавшись от предположения о независи- мости опытов а и 0. Очевидно, мы, как прежде, будем
90 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II иметь Н («Р)= — р (АХВХ) log р (АхВх)—р (AxB„)log р(АхВ2)~. . . - • • — Р (AxBt) log р (AxBt) — — р (А2ВХ) log р (А2ВХ) — р (А2В2) log р (A2BJ —. . . • — Р {A2Bi) log р (A2Bt) — — Р (А hBx) log р (Л hBx)— р (Л bZ?2)log р (A hB2) — ... ... — р (AhBfi log р (AhBt), где снова через Лп Л2, . . Ah и Вх, В2, ..., Вг обозна- чены соответственно исходы опытов аир. Однако здесь уже нельзя заменить вероятности р (Л^), р (АХВ2) и т. д. просто произведениями соответствующих вероят- ностей: теперь р (Л^) равно не р (Лх) р (Вх), а р (Лх) рА1 (Вх), где рА, (Вх) — условная вероят- ность события Вх при условии Л! (см. § 3 гл. I). Это обстоятельство вносит существенные изменения в даль- нейшие рассуждения. Как прежде, рассмотрим сначала лишь члены, стоящие в первой строке выписанного выше выражения для П (аР). Очевидно, что их можно переписать в виде — р(Ах) pA,(Bx)(logp(At) + log Ра, (Вх)) — — Р (^i) Ра, (В2) (log Р (Лг) + log рА, (В2)) — ... ... — Р (Лх) Ра, (В,) (log р (Л^ + log рА, (Bt)) = = — р (Лх) (рА, (Вх) рА, (В2) .. + Ра, (Bi)) og р (Лх) 4* 4- р (Ах) (— рл, (Вх) log ра, (Вх) — рА, (В2) log рА, (В2) — ... ... — Ра, (В t) log рА1 (Bt)). Но Ра, (Bi) 4- Ра, (В2) 4* • • • + Pa, (Bt) = — Ра, (Вх 4- 4- ... 4- В{) = 1, ибо событие Вх 4- В2 4- . . • 4- Bt — достоверное (ка- кой-либо из исходов Вх, В2, ..., Вi опыта р наверное име- ет место). С другой стороны, сумма — ра, (Вх) log ра, (Вх) — рА1 (В2) log рА, (В2) — ... ...~Ра, (Bi) log ра, (Bi) представляет собой энтропию опыта р при условии, что имело место событие Ах (энтропия опыта р зависит от ис-
§ 21 ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ, УСЛОВНАЯ ЭНТРОПИЯ 91 хода опыта а, так как от исхода а зависят вероятности от- дельных исходов 0). Это выражение естественно назвать условной энтропией опыта 0 при условии и обозначить через Ял,(0). Таким образом, первая строка выражения для может быть переписанав следующем виде: - р СД) log р (А.) + р (Лх) ЯА, (0). Точно так же 2-я, . . /с-я строки этого выражения соот- ветственно равны — р (Л2) log р (Л2) + р (Л2) НАг (0), Р — G* й) log р (Л h) + р (А ь) Нлк (р). где НАг (0), • Нлк (0) — условные энтропии опыта 0 при условиях Aa, . . .,Ah. Отсюда вытекает следующая формула: Н (сф) = — р (Д) log р (Д) — — р (Л2) log р (Д) — ... — р (Ак) log р (Д) + + р (Д) HAt (₽) + р (Д) НАа (р) + ... + р (Д.) На* (Р) = = Я (а) + {р (Д) ЯЛ1 (0) + р (Д) НАг (₽) + ... ... + р(Д)Ялк (₽)}. Первый член последнего выражения представляет собой энтропию опыта а. Что же касается второго, то зто есть среднее значение случайной величины, принимающей с вероятностями р (Д), р (Д), . . -, р (A k) значения Ял, (0), Ял, (0), . . Нлк (0), т. е. значения, равные услов- ной энтропии опыта 0 при условии, что опыт а имеет ис- ходы Д, Д, . . ., Ак. Это среднее значение естественно назвать средней условной энтропией опыта 0 при условии выполнения опы- та а, или, короче, условной энтропией 0 при условии выполнения а; мы будем обозначать его через На (0): Яа (0) = р (Лх) Ял, (Р) + Р(А2) НАг^) + -..+Р (Ak)HAt( (Р). Таким образом, окончательно имеем Я (а0) = Я (а) + Яя(0).
92 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Это и есть общее правило для определения энтропии слож- ного опыта оф. Его тоже можно назвать правилом сложения энтропий, аналогично выведенному выше правилу, относящемуся к тому частному случаю, когда опыты аир независимы. Следует отметить, что именно средняя условная энтро- пия На (Р) играет существенную роль в рассматриваемых в этой книге вопросах. Дело в том, что коль скоро мы знаем заранее, какой именно исход А, опыта а имел место, то при последующем определении условной энтропии НА (Р) опыта Р мы можем полностью игнорировать все строки таблицы условных вероятностей Рл, (^i), Рл, (В2),..., pAi (В[), Рлг (51), Ра2 (52), ..., рАг (5(), Ра (5J, рА (52), ..., рА ft. ft. л кроме единственной строки, отвечающей исходу Л j. Поэто- му условная энтропия II Ai (Р) совсем по зависит от того, как изменяются вероятности отдельных исходов р при к — 1 исходах опыта а (из общего числа к исходов) и, сле- довательно, она лишь в весьма малой степени характе- ризует связь между опытами аир, полное выражение которой дается всей таблицей условных вероятностейх). Напротив того, средняя условная энтропия На (Р), вы- числение которой не предполагает известным исход а, глубоко отражает взаимную зависимость опытов а и р. Подробнее об этом мы будем говорить в § 3 настоящей главы. Укажем некоторые важнейшие свойства величины //а(Р). Очевидно, что это есть неотрицательное число. Ясно, что если все вероятности р (ЯД, р (Л2), . . ., р (Лй) отличны от пуля, т. е. если опыт а имеет действительно к исходов, то На (Р) = 0 е том и только в том случае, если J) Заметим, что знание этой таблицы (и таблиц вероятностей опытов а и Р) позволяет вычислить также и условные вероятности исходов Alt Аг, ..., Ah опыта а при условии, что опыт р имел ка- кой-либо определенный исход BIt или В2, ..., или Вр, об этом см. выше, стр. 43.
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 93 ЯЛ1 (Р) = НАг (Р) = . . . = Нлк (Р) — 0, т. е. если при любом исходе опыта а результат опыта Р становится полностью определенным (тривиальным образом зто условие выпол- няется в том случае, если опыт р с самого начала не являет- ся неопределенным). При этом мы имеем Н (ар) = Н (а) (см. выше, стр. 89). Если же опыты аир являются незави- симыми, то HAt (Р) = НА1 (Р) = . . . = Яд (Р) = Н (Р) и л. яа(Р) = ЖР). В этом случае формула Я(аР) = Я(а) + На (Р) переходит в более простую: Я(аР) = Н(а) + Я(Р) (см. выше, стр. 88). Очень существенно, что во всех случаях условная энтро- пия На (Р) заключается между нулем и энтропией Н (Р) опыта р (безусловной): О < Яа(Р) < Я (Р). Таким образом, случаи, когда исход опыта Р полностью определяется исходом а и когда опыты а и Р независимы, являются в определенном смысле крайними. Это утверждение тоже хоршпо согласуется со смыслом энтропии как меры неопределенности: совершенно ясно, что предварительное выполнение опыта а может лишь уменынить степень неопределенности р или, в крайнем случае (например, в случае независимости опытов а и Р), не изменить эту степень неопределенности, но никак не может ее увеличитьх). Полное доказательство сделанного утверждения (включающее также доказательство того, что На (Р) = Я (Р) т о л ь к о тогда, когда опыты аир независимы) мы отложим до Приложения I в конце книги; здесь же мы лишь проиллюстрируем его на примере случая когда опыт а имеет два равновероятных исхода *) Во избежание возможных заблуждений отметим, что ус- ловная энтропия Н 4 (Р) может быть и меньше и больше величи- ны Н (Р) (см., например, ниже задачи 18 и 19). Это связано с тем, что изменение таблицы вероятностей опыта Р, обусловленное тем обстоятельством, что другой опыт а имел определенный исход Ait может быть довольно произвольным (ср. выше, стр. 41).
94 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Аг и А2. В этом случае (Р) = р (А) На. (₽) + р (A) НА. (Р) = 4- НА. (р) + + 4-Яа2(Р). Итак, наша задача сводится к доказательству неравенства 4- #а. (Р) + 4-Яа2 (Р) < Н (Р), т. е. неравенства 4" I — Ра, (^1) log pa. (5t) — рА. (52) log рА. (5г) — ... ... — Ра, (A) log Ра, (5,) ] + + 4" Ра» (5i) log рА. (Вг) — рА. (52) log рА. (52) — ... • • • — Ра» (5() log рА» (5г)] < — р (BJ log р (5t) — — р (В2) log р (В2) — ... — р (5г) log р (5(), где, как всегда В17 В2, . . Вг означают исходы опыта р. Рассмотрим снова график функции F (.т) = — х log х, и пусть на рис. 11 О А = рл. (В^.ОВ = рлЛВ^); тогда от- резки AM и BN имеют длины —pAl (5j) log рА, (5J и — Pas (5Х) log рл. (5J. Сумма —-ipA1(5i) log (5J— — -^Ра» (5t) log—pa, (5i) равна средней линии SQ тра- пеции ABNM. С другой стороны, отрезок SP, превос- ходящий SQ, равен — р (Br) log р (5t), так как OS = 4- О А + 4- ОВ = р (Л,) РА. (51) + р (Л2) РА. (51) = = P(5i)
§ 21 ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 95 (см. формулу полной вероятности на стр. 44). Следова- тельно, — (A) log pAt (Bj) — рАг (Вг) log рАг < < —P(A)Iogp(A). Аналогично этому доказываются неравенства — 4" РА* log Ра' (В^-Г Ра‘ log Ра‘ (В^ < — P(B2)logp(B2), А- рА, (Bt) log рА, (В,)--------- ра2 (В{) log рАг ,(Bt) < < — Р (В t) log р (Bt). Сложив все эти неравенства, мы придем к требуемому ре- зультату. Заметим еще, что так как сложные события оф и flat не отличаются одно от другого, то Н (оф) = И (Ра), т. е. И (а) + Яа(Р) = Н (₽) + Я₽ (а). Отсюда следует, в частности, что, зная энтропии Н (а) и Н (Р) опытов а и р и условную энтропию На (Р) опыта Р при условии выполнения а, мы можем определить также и условную энтропию Нр(а) опыта а при условии выполне- ния Р: Яр(а) = Яа(Р) + {Я(а)-Я(Р)}. Поскольку 0 Яр (а) Я (а), то из формулы Яа (Р) = = Яр (а) + Я (Р) — Я (а) следует, что Я (р) - Я (а) < На (3) < Я (Р); при Я (Р) > Я (а) эта оценка величины условной энтро- пии На (Р) оказывается более точной, чем приведенная на стр. 93. Равенство На (Р) = Я (р) - Я (а) имеет место при Яр (а) = 0, т. е. если исход опыта Р пол- ностью определяет исход опыта а; при этом всегда будет Я (Р) > Я (а) (что, разумеется, также хорошо согласуется со смыслом слова «неопределенность опыта»).
96 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Задача 18. Известно, что некоторой болезнью в среднем болеют 2 человека из 100. Для выявления больных используется определенная реакция, которая всегда оказы- вается положительной в том случае, когда человек болен', если же человек здоров, то она столь же часто-бывает по- ложительной, как и отрицательной. Пусть опыт (5 со- стоит в определении того, болен или здоров человек, а опыт а — в определении результата указанной реакции. Спра- шивается, какова будет энтропия Н (р) опыта Р и услов- ная энтропия На($) опыта Р при условии осуществления а? Очевидно, здесь два исхода опыта р — исход Вг (чело- век здоров) и исход В2 (человек болен) — имеют вероятно- сти: р (Л\) = 0,98 и р (В2) = 0,02. Поэтому Н (Р) = — 0,98 -log 0,98 — 0,02 -log 0,02 ж 0,14 бита. Опыт а также имеет два исхода: (положительная реакция) и Л2 (отрицательная реакция). Вероятности этих исходов равны р (Л^ = 0,51 и р (Л2) = 0,49 (ибо исход имеет место в половине тех случаев, когда опыт Р имеет исход Bt, и во всех случаях, когда Р имеет исход В2, а исход Л2 — лишь в половине случаев, когда Р имеет исход В}). При этом, если опыт а имел исход (а таких случаев большинство!), то условные вероятности исходов р будут равны /о 2 РА,(ВГ)=^ И Ра,(В2) = ~ (ибо из 51 случая, когда реакция оказывалась положи- тельной, в 49 случаях человек оказывался здоровым и в двух случаях — больным); поэтому условная энтропия На, (Р) будет заметно больше безусловной энтропии Н (Р): Яа,(3)= —-gpJog-^p —^-log-^^0,24 бита. Зато если опыт а имеет исход А2, то мы с уверен- ностью можем утверждать, что опыт р имел исход Вх (человек здоров); следовательно, На2 (Р) = о. Таким образом, средняя условная энтропия опыта Р при
£ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 97 условии осуществления а будет все же меньше безуслов- ной энтропии Н (Р): Яа(Р) = 0,51 -77А(₽)+0,49.ЯЛг(0) ~ 0,51 -0,24— 0,12 бита. Иначе говоря, выполнение опыта а уменьшает степень не- определенности опыта Р примерно на 0,02 бита. Задача 19. Пусть опыты а и Р состоят в последо- вательном извлечении двух шаров из урны, содержащей т черных и п — т белых шаров (а — извлечение первого шара, Р — извлечение второго шара). Чему равны энтропии Н (а) и Н (Р) опытов а и Р и условные энтропии //а(Р) и H[i (а) тех же опытов? Решите ту же задачу при условии, что опыт а состоит в извлечении к шаров из урны, а опыт Р — в последующем извлечении еще одного шара. Начнем со случая, когда опыт а состоит в извлечении одного шара. Пусть события At и А2 состоят в появлении черного и белого шара при первом извлечении, а события Вг и В2 — в появлении черного и белого шара при вто- ром извлечении. Пока нам ничего не известно ни о пер- вом, ни о втором опыте, мы можем ожидать осуществления этих событий со следующими вероятностями: опыт а опыт р исходы опыта А1 л2 вероятности исходы опыта m п By п — пг п Bi вероятности in п п — m п эти опыта имеют одинаковую энтро- Таким образом, оба пию: ТТ . ч тт trw m . m п — m t п—m Я(а) = Я(Р) = - — log-------—log—— ft/ fL ft/ ft/ п Если нам известен исход опыта а, то вероятности от- дельных исходов опыта р будут иметь другие значения. А именно (ср. выше, стр. 40 и след.): Pa, (#i) = -7—р, Ра, (в2) = -т—г; /п \ m / п \ п —m — 1 Ра2 = - —г , рАг (В2) = п_{ - . А А. М. Яглом, И. М. Яглом
98 ЭНТРОПИЯ И ИНФОРМАЦИЯ 1Гл. II Отсюда следует, что ТТ /ГЛ П1 - m - 1 ^,(3)=--—Hog-^- n — m , n — m --—r-log-----J- n— 1 & n— 1 Яд,(3) = - m ! m ^гг1о^-^Т n — m — 1 . n — m — 1 n-1 ~ 10g »-T“ При этом, если m < n — m, to HAi (₽) < H (P), HAs (P) > H (₽) (ибо неопределенность опыта, состоящего в извлечении одного шара из урны с тп черными и mr = п — тп белыми шарами тем больше, чем близко к единице отношение Наконец, имеем на (Р) = р (ло нА1 (Р) + р (Л2) нА, (р) = m Г m m — 1 п — m . п — пг 1 , = —[-----^r!°g-7r^T-------г| + , п — m Г m 1 «I п —m — li " — "г — 11 + I-Г log -------------------log • n-1 -J (во всех случаях IIa (Р) <_ II (Р)) и Яр (а) = IIa (Р) + {Я (а) - Я (₽)} = На (₽). Перейдем теперь к поставленной во второй части усло- вия более общей задаче. Опыт а, состоящий в извлечении из урны к шаров, мы теперь будем обозначать через aft. Пусть число к не превосходит чисел тип — т. В таком случае опыт ah может иметь к + 1 различных исходов, соответствующих тому, что среди извлеченных шаров ока- жется О, 1, 2, . . ., к черных; обозначим эти исходы через Ао, Ai, А2, ...,Ak. Вероятность р (Лг) исхода Лг (г = 0, 1, . . .,/с) будет равна отношению —— : Сп общее число равновероятных исходов опыта ak равно Сп (числу всевозможных групп из к шаров, которые можно составить из имеющихся п шаров), а благоприятствовать исходу Л i из них будут Ст-Сп~т исходов (так как i чер- ных шаров из имеющихся т можно выбрать С1т способа- ми, а остальные к — i белых шаров — Cn-m способами).
S 21 ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИИ. УСЛОВНАЯ ЭНТРОПИЯ 99 Отсюда следует, что энтропия опыта ah равна fik rife /п1 f-ik—1 rrl zifc—1 rr / , х ^п-т 1___^п~т ^т^п-т i „ ^т^п-п Я (aft) = - log -----------------------log С? С* s~i2 s'ik—2 m log Ci zt2 2 ^ni ^n—m rR-l rl '~ym ^n-m ckn Zlfc —Izil 1_ bn ,og—гг ^7П lorv '^rn c* g C* * °П Опыт Р имеет два исхода Вг (извлечение черного шара) и В2 (извлечение белого шара). Вероятности этих исходов т п—т г. о соответственно равны — и—-—. Энтропия опыта р по-преж- нему равна Я(Р) = - —log-^ 7 п ° п п — т , п — т -------log п------п Пусть теперь мы знаем, что имел место исход Л,- опыта Это значит, что в урне после осуществления этого опыта осталось т — i черных и п — т — к + i белых шаров. Соответственно этому т — i п — к ’ РАг (ВД = PAi (В2) = п — т — к + i п — к И Яа4(Р) = п — т — к + i , -----Н—1о£ п — к п — т — к -f- I п — к Для вычисления Нак (₽) остается только воспользоваться формулой (₽) = (Р) + -^4=^ HAt (Р) + ... Сп Gn ...4-^ЯлДР)- Gn Наконец, условная энтропия Яр (а,,) определяется по фор- Я₽ (aft) = На* (Р) + Я (ай) - Я (р). 4*
100 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Аналогично рассматриваются случаи, когда к больше одного из чисел т и п — т, или даже больше обоих этих чисел. Мы здесь не будем разбирать все представляющиеся возможности, а ограничимся лишь несколькими замеча- ниями. а) Пусть к = п — 1. Опыт имеет всего два исхода А1 и А2, отвечающих тем случаям, когда последний ос- тавшийся в урне шар является черным и когда он является _ т п — т белым. Вероятности этих двух исходов равны — и —-— , ибо выбор п — 1 извлеченных шаров равносилен выбору одного остающегося шара и, следовательно, наш опыт ttn-j по существу не отличается от опыта а15 состоящего в извлечении из урпы с п шарами одного единственного шара. Таким образом, энтропия опыта an_j равна „ , . т . т п — т , п— т Н (an_r) =----- log —-------- log -^- , т. е. совпадает с энтропией опыта р. Что же касается услов- ной энтропии На^ (Р), то она, разумеется, равна пулю, поскольку исход опыта ап_, полностью предрешает исход опыта р. По аналогичной причине будет равна пулю и условпая энтропия Яр б) Пусть к — п — 2. Опыт an_2 имеет три исхода Ао, At и А2, отвечающих тем случаям, когда в урне остается два черных шара, или черный и белый шар, или два белых шара (мы считаем здесь, что ни одно из чисел т и п — т не меньше 2). Вероятности этих исходов равны m(m —1) ... Cm'Ch-m 2т (п — т) пп-1) > Р(А) = —-----------= п(п-1)’ '-'п 4 П . сп-т (п — т) (п — т — 1) Р А n (п — 1) Соответственно этому энтропия опыта an_2 равна m(m —1) . m(m —1) 2т (п — т) Я (an_2) - - n(n_1} log n(n_1}- - „(„STij- X . 2т (n — т) _ (п — т) (п — т — 1) , (п — т)(п — т — 1) X п(п — 1) п(п — 1) ё п(п — 1)
§ 2] ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 101 Условные энтропии опыта р при условии реализации опре- деленного исхода опыта ап_2 будут равны *) ЯлД₽) = 0, Ял,(Р) = 1, ЯаЛ₽) = 0, а условная энтропия опыта р при условии осуществления ап_2 есть TJ /п\_ 2т. (п — т) ««п_2ф; — п(„ — 1) • Наконец, условная энтропия опыта ап_2 при условии осуществления опыта р будет равна Яр (ап_2) = Нап_2 (₽) + Я (ап_2) - Я (₽). в) Если т = 1, то опыт ak имеет только два исхода А, и Л о, отвечающих тем случаям, когда единственный черный шар находится среди к извлеченных шаров или среди п — к оставшихся в урне; вероятности этих исходов равны Р(А1) = — , Р(А0)=—— . Условная энтропия опыта Р при условии, что опыт cxft имел исход Л1? равна нулю: Яа, (Р) = 0, ибо исход опыта ah, очевидно, однозначно определяет исход опыта р. Условная энтропия опыта Р при условии, что опыт ah имел исход Ло, равна „ 1 1 1 п — &— li п — к — 1. (Р) - n—fc log п -к ТГ^Тс °S п — к ’ она превосходит (безусловную) энтропию того же опыта ТТ ,п. 1 , 1 п — 1 . п — 1 Н “ —log Т-----------~ log ~Г~ (ибо если среди заключенных в урне шаров лишь один по цвету отличается от остальных, то степень неопреде- ленности опыта, состоящего в извлечении одного шара, ’) Здесь НА (р) > Н (Р), так как опыт р, имеющий два ис- хода, не может иметь энтропию, превышающую 1 бит.
102 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II будет тем меньше, чем больше общее число шаров). Сред- няя же условная энтропия опыта Р на (₽) = -1^ЛяА(3) меньше (безусловной) энтропии Н (Р). Если производить много раз пару опытов пир так, чтобы каждый раз опыт р следовал за опытом а, то услов- ная энтропия Яа(Р) будет характеризовать ту среднюю степень неопределенности исхода опыта р, которая остает- ся после того, как становится известным исход предшест- вующего ему опыта а. В частности, в опытах по определе- нию среднего времени реакции (см. выше, стр. 83 и след.) всегда производится целая серия подач сигнала, при- чем перед каладой пз них испытуемый знает, какие сиг- налы ему подавались ранее. Поэтому степень неопределен- ности подаваемого сигнала здесь равна у словной энтропии соответствующего опыта при условии, что исходы всех предыдущих опытов (т. е. предыдущих подач сигнала) являются известными. В описанных на стр. 83— 86 опытах последовательные подачи сигналов всегда выби- рались независимыми друг от друга; поэтому в этих
§ 21 ЭНТРОПИЯ СЛОЖНЫХ СОБЫТИЙ. УСЛОВНАЯ ЭНТРОПИЯ 103 опытах условная энтропия опыта а совпадала с его безус- ловной энтропией Н(а). Если, однако, время реакции дейст- вительно определяется степенью неопределенности пода- ваемого сигнала, измеряемой его энтропией, то из сказан- ного выше должно следовать, что изменение степени неоп- ределенности при помощи введения зависимости между последовательными подачами сигналов должно оказать то же самое влияние па изменение среднего времени реак- ции, как такое же изменение степепи неопределенности при помощи изменения общего числа используемых равно- вероятных сигналов или при помощи изменения относи- тельных частот этих сигналов. Результаты проверки этого заключения приведены на рис. 12, заимствованном из той же статьи [38], на которую мы ссылались на стр. 85. На этом чертеже нанесены 8 кружков и 8 квадратиков, кото- рые мы уже видели на рис. 10, и, кроме того, еще 8 тре- угольников, отвечающих результатам 8 опытов (прове- денных над тем же испытуемым, что и раньше), в которых требовалось по-разпому реагировать па зажигание каждой из к лампочек (опыт (3; в разных опытах к принимало значения 2, 3, 4, 5 и 8), зажигавшихся в среднем с оди- 1 наковой частотой р = т, но так, что частота зажига- ' к ния каждой лампочки существенно зависела от того, какая лампочка зажглась непосредственно перед ней (опыта). На рис. 12 по оси ординат по-прежнему откладывалось среднее время реакции Т (получаемое из длинной серии испытаний, проводимых после долгой предварительной тренировки испытуемого при фиксированных условиях зажигания отдельных лампочек), а по оси абсцисс — сред- няя условная энтропия Яа (3) = р( А) НА1 (3) + р (Л2) Яа2(₽) + ... + р(Ак) НА(3) = п. = 4- (3) + нА, (3) +... + нАу (3)1 (ylj, А2, . . ., Ah — исходы опыта а). То обстоятельство, что на рис. 12 треугольники с большой степенью точности попали на ту же прямую, вокруг которой группируются кружки и квадратики, показывает, что условная энтропия На (3) действительно является именно той мерой степени неопределенности, которая определяет время реакции человека на исход опыта.
104 ЭНТРОПИЯ И ИНФОРМАПИЯ 1Гл. II § 3. Понятие об информации Вернемся снова к величине 77(Р), характеризующей степень неопределенности опыта р. Равенство этой вели- чины нулю означает, что исход опыта р заранее известен; большее или меньшее значение числа /7(р) отвечает боль- шей или меньшей проблематичности результата опыта. Какое-либо измерение или наблюдение а, предшествую- щее опыту р, может ограничить количество возможных исходов опыта р и тем самым уменьшить степень его неоп- ределенности; так, степень неопределенности опыта, со- стоящего в нахождении самого тяжелого из трех грузов, уменьшается после сравнения на весах двух из них. Для того чтобы результат измерения (наблюдения) а мог ска- заться па последующем опыте р, разумеется, необходимо, чтобы этот результат пе был известен заранее; поэтому а можно рассматривать как вспомогательный опыт, также имеющий несколько допустимых исходов. Тот факт, что осуществление а уменьшает степень неопределенности р, находит свое отражение в том, что условная энтропия ZZa(P) опыта Р при условии выполнения а оказывается меньше (точнее — пе больше) первоначалi.iioii энтропии ZZ(P) того же опыта. При этом, если опыт р нс зависит от а, то осуществление а по уменьшает энтропии р, т. е. 77а(Р) = // (р); если же результат а полностью предоп- ределяет исход Р, то энтропия р уменьшается до пуля: 77И(Р) = 0. Таким образом, разность I (а, Р) = Н (Р) - Яа(Р) указывает, насколько осуществление опыта а уменьшает неопределенность р, т. е. как много нового узнаем мы об исходе опыта р, произведя измерение (наблюдение) а; эту разность называют количеством информа- ции относительно опыта р, содержа- щимся в опыте а, или, короче, информаци- ей о р, содержащейся в а. Таким образом, мы получаем возможность числен- ного измерения информации, что весьма полезно во многих случаях. Так, например, в условиях задачи 18 (стр. 95—97) можно сказать, что используемая реакция дает информацию о заболеваниях рассматривае- мой болезнью, близкую к 0,14—0,12 = 0,02 (где за еди-
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 105 ницу принята информация, доставляемая нам одним от- ветом «да» или «нет» на вопрос, в отношении которого мы заранее склонны были считать утвердительный и отрица- тельный ответы одинаково вероятными); цифра 0,02 и оце- нивает пользу реакции. Другие примеры использования понятия количества информации будут при- ведены в гл. III и IV. Соотношение между понятиями энтропии и информа- ции в известном смысле напоминает соотношение между физическими понятиями потенциала и разности потен- циалов. Энтропия есть абстрактная «мера неопределен- ности»; ценность этого понятия в значительной мере за- ключается в том, что оно позволяет оценить влияние на определенный опыт р какого-либо другого опыта а как «разность энтропий» I (а, Р) = Н (Р) — На(Р). Так как понятие информации, связанное с определенными измене- ниями в условиях опыта Р, является, так сказать, «более активным», чем понятие энтропии, то для лучшего уяс- нения смысла энтропии полезно свести это последнее поня- тие к первому. Энтропию Н (Р) опыта р можно определить как информацию относительно р, содер- жащуюся в самом этом опыте (ибо осу- ществление самого опыта Р, разумеется, полностью опре- деляет его исход и, следовательно, ZZp (Р) = 0), или как наибольшую информацию относитель- но р, какую только можно иметь («пол- ную информацию» относительно Р). Иначе говоря, энтро- пия Н (Р) опыта р равна той информации, которую мы получаем, осуществив этот опыт, т. е. с р е д н е й и н- формации, содержащейся в одном ис- ходе опыта р ]). Эти выражения, которые будут ’) Заметим,) что выражение для энтропии Я(Р) = —• ^(BJIog р(Ж) — p(B2)log р(В2) ... — p(Bt) . log p (В,) имеет вид среднего значения случайной величины, принимающей значения >— logp(2?)i, — logp(2?a), ..., — log p(Bi) с вероятностя- ми, равными соответственно р(ВР), р (В2), ..., р (В[)(ср. стр. 24). В связи с этим можно считать, что при осуществлении опреде- ленного исхода Bi нашего опыта мы получаем информацию, рав- ную —log р (Bi). В таком случае, если, например, опыт р имеет всего два возможных исхода Вг и В2 с вероятностями 0,99 и 0,01, то при осуществлении исхода Bt мы получим очень небольшую ин- формацию—log 0,99 ~ 0,017 бит. Это представляется вполне естест-
106 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II широко использоваться в гл. Ши IV, понятно, имеют тот Hie смысл, что и «мера неопределенности»: чем больше не- определенность какого-либо опыта, тем большую инфор- мацию дает определение его исхода. Подчеркнем еще, что информация относительно р, содержащаяся в опыте а, по определению представляет собой среднее значение случайной величины Я(Р) — Ла|(Р), связанной с отдельными исходами Лг опы- та а; поэтому ее можно было бы назвать также «средней информацией относительно Р, содержащейся в а». Часто может случиться, что, желая узнать исход какого-либо опыта р, мы можем с этой целью по-разному выбирать вспомогательные опыты (измерения, наблюдения) а; так, например, при нахождении самого тяжелого из определен- ной системы грузов мы можем в разном порядке сравни- вать отдельные грузы. При этом рекомендуется начинать с того опыта а0, который содержит наибольшую информацию относительно р, ибо при ином опыте а мы в е- р о ят н о, добьемся менее значительного уменьшения сте- пени неопределенности р (энтропии Н (Р)). Реально же впол- не может случиться, что опыт а окажется бочсс полезным, чем а0; может даже оказаться, что исход Л опыта ап будет настолько неудачей, что энтропия II д(Р) окажется б о л ь- ш е первоначальной энтропии //(Р). Такое положение дела является вполне естественным, так как случайный характер исходов опыта Р, разумеется, не позволяет за- ранее указать кратчайший путь к выяснению результата этого опыта: самое большее, на что мы можем рассчиты- венным: в самом деле мы и до опыта зналп, что почти наверное осу- ществится исход Вг, так что результат опыта мало что изменил в имеющихся у нас сведепиях. Наоборот, если осуществится ис- ход В2, то полученная информация будет равна —log 0,01 = = 6,6 бит, т. е. будет гораздо больше, чем в первом случае; это естественно, так как сведения, полученные в результате опыта, здесь много более интересны (осуществилось событие, которое трудно было ожидать). Однако такое большое количество инфор- мации при многократном повторении опыта мы будем получать очень редко; поэтому среднее количество инфор- м а ц и и, содержащееся в одном исходе, оказывается здесь мень- шим, чем в том случае, когда вероятности обоих исходов равны. Заметим еще, что в практических задачах нас всегда интересует только это среднее количество информации; представление же о количестве информации, связанном с отдельными исходами опыта, по 1ти никогда не употребляется.
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 107 вать — это указать путь, который вероятнее все- г о окажется кратчайшим; именно эту возможность и предоставляет теория информации 1). Отдельные же вели- чины И (₽) — На1 (Р) фактически даже не являются харак- теристиками опыта р, поскольку если нам известен ре- зультат Ai опыта а (и опыты аир не независимы), то мы тем самым теряем право говорить о первоначальном опыте Р, а должны учитывать те изменения в условиях этого опыта, которые вытекают из того, что а имеет исход Ар, таким образом На^ (Р) это есть просто энтропия некото- рого нового опыта, к которому сводится опыт р при условии, что реализуется событие А(. Задача 20. Пусть опыт Р состоит е извлечении одного шара из урны, содержащей 5 черных и 10 белых шаров, опыт аь — в предварительном извлечении из той же урны (без возвращения обратно) к шаров. Чему равна энтропия опыта Р и информация об этом опыте, содер- жащаяся в опытах аг, а2, а13 и а14? Энтропия опыта р, очевидно, равна Н (В) =-----к- log -1---log 0,92 бита. ' ' о о О о Далее, согласно формулам, полученным в ходе реше- ния задачи 19, имеем (в битах): 1 4 2 2 I (аъ р) = Н (р) - Hai (Р) = - — log -т ~ Hrlog ~Г + +^(4log4+4-log4-)+ + 2 ( 5 i 5 9 j 9\ 0,004; 3 \ 14 14 14 14 I ’) He следует думать, что методы теории информации ни в ка- ких случаях не позволяют получить такую оценку, скажем, для числа вспомогательных опытов а, необходимых для определения результата определенного опыта [1, которая имела бы а б с о л го т- п ы й характер, а не являлась бы лишь наиболее вероятной. Так, например, если информация Ца, Р) равна энтропии Я(Р) опыта Р, то мы можем быть уверены, что при любом исходе о п ы т а а результат р становится полностью определенным (и ана- логично этому — если информация I (а, Р) равна нулю, то при любом исходе Допытав энтропия -Нд.(Р) равна пер- воначальной энтропии И (р)). См. по этому поводу гл. III настоя- щей книги.
108 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II I (а2, Р) = Н (Р) - Яа2 (₽) = - 4- log 4" “ 4log 4 + +-^(41«^+41»в4)+ (4log 4 + 13 log 13 ) + --ELp-iogA С2 I 13 ё 13 15 1 /013,Р) = Я(Р)-Яаи(Р) = 1 . 1 = --r1°g 2 . 2 2-5-10 n -r-log -5------... .. • ss 0,44 3 3 15-14 3 и, наконец, I (ам, P) = H (P) - Hau (P) = H (P) 0,92). Задача 21. Пусть для некоторого пунмтп вероят- ность того, что 15 июня будет идти дождь, равна 0,4, а вероятность того, что дождя не будет, равна 0,6. Пусть далее для этого же пункта вероятность дождя 15 октября равна 0,8, а вероятность отсутствия дождя в этот день — всего 0,2. Предположим, что определенный метод прогноза погоды 15 июня оказывается правильным в 3/5 всех тех слу- чаев, в которых предсказывается дождь, и в 4Д тех случаев, в которых предсказывается отсутствие осадков; в приме- нении же к погоде 15 октября этот метод оказывается правильным в 8/ю теж случаев, в которых предсказывается дождь, и в половине случаев, в которых предсказывается отсутствие дождя (сравнительно большой процент оши- бок в последнем случае естественно объясняется тем, что предсказывается маловероятное событие, предугадать ко- торое довольно трудно). Спрашивается, в какой из двух указанных дней прогноз дает нам больше информации о ре- альной погоде? Обозначим через р4 и р2 опыты, состоящие в определе- нии погоды в рассматриваемом пункте 15 июня и 15 октяб- ря. Мы считаем, что эти опыты имеют всего по два исхода— В (дождь) и В (отсутствие осадков); соответствующие
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 109 таблицы вероятностей имеют вид: исходы опыт 31 в В _ исходы ОПЫТ Р2 в В вероятн. 0,4 0,6 вероятн. 0,8 0,2 Следовательно, энтропии опытов Pj и р2 равны Н (pj = — 0,4 log 0,4 — 0,6 log 0,6 ~ 0,97 бита, Н (р2) = — 0,8 log 0,8 — 0,2 log 0,2 ж 0,72 бита. Пусть теперь и к2 — предсказания погоды па 15 июня и на 15 октября. Опыты аг и а2 также имеют по два исхода: А (предсказание дождя) и А (предсказание сухой погоды); при этом пары опытов (alt PJ и (а2, Р2) ха- рактеризуются следующими таблицами условных вероят- ностей: пара (оц, ₽1) лара («2, За) Р<? № рТ В) Р{В(В) Р$(В) 0,6 0,4 0,2 0,8 Р^(В) Р^(В) р^>(В) Р^(В) 0,9 0,1 0,5 0,5 (напомним, что рА (В) + рА (в) = рА (В) + рА(В) = 1). Эти таблицы позволяют определить также и неизвестные нам вероятности рг(А) и pt (А), р2 (Л) и р.2 (Л) исходов Л и А опытов а} и а2. В самом дело, по формуле полной ве- роятности (см. выше, стр. 44) имеем для опыта р, 0,4 = р (В) = Р1 (Л) Р<£ (В) + Р1 (А) р(В (В) = =0,6-р1(Л) + 0,2.р1(/1) и для опыта Р2 0,8 = р (В) = р2 (Л) р<? (В) + р2 (Л) р^ (В) = = 0,9 р2 (Л) 4- 0,5 • р2 (Л). Так как Р1 (Л) = 1 — рх (Л), р2 (Л) = 1 — р2 (Л), то от- сюда получаем Р1 (Л) = Р1 (Л) = 0,5, р2 (Л) = 0,75, р2 (Л) =0,25.
110 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Подсчитаем теперь энтропии На (Рх)» #j(Px), Ла (Р2) и Ид (Р2) (в битах): Ял(Рх) = _ 0,6 -log 0,6 — 0,4 -log 0,4 як 0,97, Я- (рх) = _ 0,2 -log 0,2 - 0,8-log 0,8 як 0,72 и НА (р2) = — 0,9 -log 0,9-0,1 -log 0,1 як 0,47, Я- (р2) = — 0,5 -log 0,5—0,5 -log 0,5 = 1. Следовательно, На, (Рх) = Р1 (Л) НА (Рх) + р, (-4) Н^ (pj) як 0,84, Па. (р2) = р2 (Л) На (Р2) + р2 (Л) Н^ (р2) як 0,60. Таким образом, мы видим, что информация, содержа- щаяся в прогнозе погоды на 15 июня (опыт aj о реальной погоде в этот день (об опыте Рх), равна I (а1т Рх) = Я (Рх) - На, (Рх) як 0,97 - 0,84 = 0,13 бит, что несколько больше, чем информация о реальной ною ie 15 октября (об опыте Р2), содержащаяся в прогнозе погоды на этот день (в опыте а2): 1 (а2, р2) = Я (Р2) - На, (р2) як 0,72 - 0,60 = 0,12 бит. Этот результат позволяет считать прогноз погоды на 15 июня более ценным, чем прогноз на 15 октября, не- смотря на то, что последний прогноз чаще оказы- вается правильным: действительно, в силу формулы полной вероятности, для прогноза погоды на 15 июня вероятность оказаться правильным равна Рх (Л) р(Г (Я) + рх (Л) р£’ (В) = 0,5 0,6 + 0,5 0,8 = 0,7, в то время как для прогноза погоды на 15 октября эта ве- роятность равна р2 (Л) р(А (В) 4- р2 (Л) р^’ (В) = 0,75 • 0,9 + 0,25 • 0,5 = 0,8. Вообще, количество информации I (а, Р), содержащее- ся в предсказании а исхода некоторого случайного собы- тия (или опыта) р, является объективной характеристикой ценности прогноза. Оно равно нулю, если На (Р) = Н (Р), т. е. если события а и р независимы (так что «прогноз» а
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ Ц£ никак не связан с событием Р) или если Н (Р) = 0 (так что исход Р известен заранее и не нуждается в предсказании); во всех остальных случаях количество информации поло- жительно, но не больше степени неопределенности Н (Р) опыта Р (причем 7 (а, р) = Н (Р), лишь если На (Р) =0, т. е. если «прогноз» а однозначно определяет исход Р). Отме- тим, впрочем, что подобный способ оценки качества л ю б с- г о прогноза уже по самой своей универсальности не мо- жет охватить все возможные аспекты вопроса. В частно- сти, наша характеристика ценности прогноза полностью игнорирует содержание различных исходов про- гнозируемого опыта р, а оперирует лишь с вероятно- стями этих исходов. Между тем вполне реальна такая ситуация, когда в силу различного характера разных ис- ходов Р один из них значительно важнее предсказать без- ошибочно, чем другие. Так при предсказании какого-либо стихийного бедствия В (землетрясения, наводнения; в бо- лее скромном варианте — заморозков) обычно крайне важно не ошибиться, предсказывая, что В и е насту- пит, в то время как ошибка в предсказании наступ- ления В чаще всего является значительно более без- обидной (она влечет за собой лишь необоснованное приня- тие мер предосторожности). Подобные различия между ис- ходами опыта р должны учитываться иными численными характеристиками, отличными от информации I. В этой связи мы можем повторить относительно инфор- мации I то же самое, что было сказано выше (см. стр. 80— 81) об энтропии Н. Понятие информации возникло непо- средственно из задач теории связи и специально было по- добрано так, чтобы отвечать запросам этой теории. По- скольку передача по линии связи (например, телеграфной) сообщения определенной длины требует в случае совер- шенно несущественного или даже лживого сообщения и в случае сообщения о величайшем открытии примерно оди- накового времени и одинаковых затрат, то с точки зрения теории связи приходится считать, что и количество инфор- мации в этих сообщениях является одинаковым. Разу- меется, подобное определение количества информации, полностью отвлекающееся от смыслового содержания рас- сматриваемого сообщения, не может быть годным во всех случаях, в которых в обыденной жизни употребляется слово «информация». Ясно, однако, что ценность любого
112 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II д е । I I | I I I I I Г1 I I I '^1 ‘| Г"| | | 'Г I I I "б I м научного понятия определяется никак не количеством слу- чаев, не обслуживаемых этим понятием, а един- ственно лишь важностью и распространенностью кон- кретных задач, при решении которых данное понятие оказывается полезным. В отношении же по- нятия информации таких задач оказывается множество (см., в частности, ниже гл. III и IV). Задача 22. Пусть опыт Р состоит в определении положения некоторой точки М, относительно которой заранее известно толь- ко, что она расположе- на на отрезке АВ длины L (рис. 13), а опыт а — в измерении длины от- резка AM с помощью не- рис 4з которого измерительно- го прибора, бающего нам значение длины, с точностью до определенной «ошибки из- мерения» А (например, с помощью линейки, на которой нанесена шкала с делениям и длины А). Чему равна пн формация /(а, Р), содержащаяся о результат/ измере- ния, относительно истинного положения точки M't С первого взгляда может показаться, что эта задача нс может быть решена с помощью приведенных выше фор- мул: ведь в этих формулах речь все время шла об опы- тах, могущих иметь лишь конечное число исходов, а те- перь у нас р может иметь бесконечно много ис- ходов (точка М может совпасть с любой точкой отрезка АВ). И действительно, мы не можем здесь приписать опы- ту р никакой конечной энтропии; тем не менее оказывает- ся, что информация I (а, Р) (являющаяся разностью двух энтропий Н (Р) и На (Р)) в рассматриваемом случае имеет вполне определенное конечное значение. Чтобы по- яснить это предположим сначала, что длины L и А соиз- меримы между собой и разобьем весь отрезок АВ на маленькие отрезки длины е, выбранной так, чтобы и на всем отрезке АВ и на отрезке длины А уложилось целое число таких малых отрезков (т. е. чтобы отношения L/e и А/е оба выражались целыми числами). Поставим за- дачу об определении положения точки М с точно- стью до величины е. Так как заранее нам было извест-
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ ИЗ но только, что точка М располагается где-то на отрезке АВ, то мы можем считать, что опыт ре, состоящий в опре- делении ее положения с точностью до с, имеет L/e равнове- роятных исходов, так что его энтропия равна Н (Ре) = = log -А После того как мы произвели опыт а, т. е. из- мерили длину AM с помощью нашего измерительного при- бора, мы выяснили, что на самом деле точка М помещается внутри меньшего интервала длины Д (определяющего точ- ность измерения); поэтому при известном исходе а опыт |Зе будет иметь уже всего Д/е равновероятных исходов, так что Яа(ре) = log -А Следовательно, I (а, Ре) = Н (Ре) - На (Ре) = log А _ I°g А = log А . При неограниченном уменьшении 8 (т. е. при опреде- лении положения пашей точки со все большей и большей точностью) обе энтропии Н (₽е) и На (Ре) будут неограни- ченно возрастать; однако информация I (а, ре) при этом вовсе не меняется, оставаясь все время равной log -д-. Естественно поэтому, что информацию I (а, Р) (которую мы можем определить, например, как предел I (а, ре) при е —>- 0), надо считать также равной log -д — это и есть информация относительно истинного положения М, со- держащаяся в результате измерения с точностью Д. При неограниченном увеличении точности прибора (т. е. не- ограниченном уменьшении Д) эта информация неограни- ченно возрастает, однако возрастание это сравнительно мед- ленное: при увеличении точности в п раз мы получаем до- полнительно лишь log п единиц информации (например, при увеличении точности в 2 раза мы выгадываем 1 бит информации, а при увеличении точности в 1000 раз — меньше 10 бит информации). В наших рассуждениях мы предполагали, что длины L и Д являются соизмеримыми. Ясно, однако, что это пред- положение не является существенным; если выбрать 8 достаточно малым, то предположение о том, что на отрез- ках АВ и Д укладывается целое число малых отрезков длины е, всегда будет выполняться с большой степенью
114 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. П точности, так что полученный нами результат не может измениться и в случае несоизмеримых L и А. Более подробное обсуждение затронутого в этой задаче вопроса об информации, содержащейся в результате изме- рения, можно найти в книге Л. Бриллюэна [2]. Отметим еще, что при решении задачи 22 мы встрети- лись с новой для нас ситуацией. Нам пришлось здесь иметь дело с опытом р, имеющим бесконечное число исходов, так что соответствующую энтропию II ((3) мы должны были считать бесконечной. Для того чтобы подсчитать информацию об этом опыте, содержащуюся в другом опыте а, мы рассмотрели вспомогательный опыт ре, получаемый при помощи объединения в один- единствепный исход целой группы исходов Р, отличаю- Ш.ИХСЯ друг от друга не больше чем на малую величину е. При этом оказалось, что как энтропия Н (ре) этого нового опыта, так и условная энтропия На (Ре) имеют уже конеч- ное значение; так как их разность к тому же оказалась не зависящей от выбора с, то эту разность мы и приняли за информацию I (а, Р). Подобного рода обстановка постоянно •встречается при рассмотрении опытов р, имеющих непрерывное множество исходов. Во всех таких случаях энтропия JI (Р) оказы- вается бесконечной; однако вместо нее часто можно рас- сматривать конечную энтропию Я(Ре) = Яе(Р), получае- мую при объединении исходов р, отличающихся не более чем на некоторое малое е, в один исход. В практических задачах обычно только энтропия Яе(Р) (называемая 8-энтропией опыта Р) и имеет смысл, так как мы вообще не можем различить между собой исходы Р, отли- чающиеся меньше чем на некоторую малую величину (оп- ределяемую точностью имеющихся в нашем распоряжении измерительных приборов). К этом вопросу мы еще вер- немся ниже (см. стр. 290—292). Приравняв энтропию Н (а) средней информации, со- держащейся в исходе опыта а, мы можем, в частности, дать новое истолкование результатам психологических экспери- ментов, описанных на стр. 183—186 и 102—103. А именно, мы видим теперь, что согласно этим результатам среднее время, требующееся для четкого уяснения значения не- которого сигнала и правильной реакции на него, возра-
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ Ц5 стает пропорционально средней информации, содержа- щейся в этом сигнале. Исходя отсюда, можно предполо- жить, что в случае достаточно регулярно происходящих событий, характеризующихся определенной статистиче- ской устойчивостью (т. е. подчиняющихся законам теории вероятностей), сообщение о возникновении такого собы- тия передается через органы чувств и нервную систему в среднем за время, пропорциональное содержащейся в этом событии информации. Иначе говоря, можно пред- положить, что передача сообщений в живом организме во многих случаях происходит так, что за одинаковое время е среднем передается одинаковое количество информации. Отметим здесь же, что, как будет видно из содержания гл. IV, такой же закономерностью характеризуется пере- дача сообщений по всем техническим линиям связи. Из сделанного предположения вытекает простое след- ствие, которое может быть проверено экспериментально. В самом деле, пусть при проведении опыта по определе- нию среднего времени реакции мы предлагаем испытуемо- му реагировать очень быстро — быстрее чем он может пол- ностью уяснить себе, какой именно сигнал перед ним появился. Пусть, например, рассматриваемые сигналы состоят в зажигании одной из п лампочек и требуется при зажигании г-й лампочки нажать г-ю кнопку. При умень- шении времени реакции Т испытуемый, естественно, бу- дет все чаще и чаще ошибаться — нажимать вместо г-й кнопки какую-нибудь другую, например, у-ю. Это означа- ет, что из-за необходимости очень быстро реагировать он становится не в состоянии полностью воспринять всю ин- формацию, заключающуюся в появлении определенного сигнала. Если, однако, время Т не слишком мало, то не- которую полезную информацию о сигнале испытуемыйвсе же успеет уловить; это будет проявляться в том, что реак- ция его не будет совершенно беспорядочной, а в среднем он будет при зажигании г-й лампочки все же чаще нажи- мать i-ю кнопку, чем какую-либо другую. Опыт а, состоя- щий в нажимании испытуемым одной из п кнопок, здесь будет содержать определенную информацию об опыте р, состоящем в зажигании одной из п лампочек; это и будет та средняя информация, которую способен воспринять за время Т испытуемый. Согласно нашему предположению эта информация должна так же зависеть от времени
116 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. И реакции Т, как зависит от Т энтропия Н (Р) в том слу- чае, когда Т определяется как наименьшее время, доста- точное для безошибочной реакции. Проверка последнего заключения была проведена английским психологом У. X и к о м [39]; полученные им результаты мы изобразили на рис. 14. Кружками здесь обозначено среднее время реакции, определенное из опыта, совпадающего с описанным на стр. 83—85; перед испы- туемым (которым в данном случае являлся сам исследо- ватель) зажигались с равными частотами п различных лампочек (где п в разных опытах менялось от 1 до 10) и измерялось среднее время требующееся для правиль- ной реакции на поступивший сигнал. Как мы уже знаем, Т при этом линейно возрастает с ростом энтропии Н (Р) = = I (Р, Р); это проявляется в том, что на нашем рисунке, где по оси ординат отложено время Т, а по оси абсцисс I (Р, Р), все кружки со значительной степенью точности попадают на одну прямую. Крестиками же здесь обозна- чены результаты опытов, в которых использовались все 10 лампочек, зажигавшихся с одинаковой частотой, но время реакции Т заранее устанавливалось столь малым, что реакция испытуемого в ряде случаев поневоле оказы- валась ошибочной. Для того чтобы оценить среднюю информацию, содержащуюся в опыте а (нажимании ис- пытуемым одной из 10 кнопок) относительно опыта Р (по- явления одного из 10 сигналов), производилась большая
§ з] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 117 серия из N испытаний с одним и тем же Т и подсчитывалось общее число nitj всех тех случаев, в которых в ответ на зажигание i-й лампочки была нажата j-я кнопка (i и j принимают всевозможные значения от 1 до 10; при этом сумма всех пи равна Я, а общее число всех случаев, в ко- торых испытуемый реагировал правильно, равно п1Л + + и2,2 + - • • + тИо,ю)- Ясно, что вероятности 10 исходов опыта Р здесь можно приближенно считать равными ”1,1 + ”l,2 Н--Ь ”1.10 71- ту ’ „ _ ”2.1 +”2.2 "1---+П2,10 „ __ ”10.1+”10.2“1-И10.10 ^2 уу J у 10 уу 9 а вероятности 10 исходов опыта а — равными „ _ ”1.1 + ”2,1 Н---+”10,1 Л--------------уу _ ”1,2 + ”2.2 ”1 Ь ”10.2 „ _ ”1,ю+ ”2.10-1-+ ”10,10 . Р2 — уу I Р10 — уу ’ сложный опыт ар здесь будет иметь 102 = 100 различных исходов, вероятности которых приближенно равны соот- ветствующим частотам _ ”1.1 _ ”1.2 _ ”10,10 Р1,1 — N > Pl,2 — N • -1 Р10Д0------------уу Отсюда для энтропий опытов р, а и оф получаются вы- ражения: Н (Р) = — qt log q± — q2 log q2 — . . . — ?10 log £10, H (a) = — log px — p2 log p2 — . . . — Pio log Рю, Я(сф) = — Pi.llogPi,!—p1>2 log p1>2—. . . —Pio,iologp10,io. позволяющие приближенно подсчитать эти энтропии по определяемым из эксперимента числам щ,]. После этого из формулы Н (aP) = Н (а) + Яа(Р) (см. стр. 91) мы можем определить среднюю условную энтропию На (Р): Яа(Р) = Я (оф) - Я(а),
118 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II а по Н (Р) и На (Р) можно найти и информацию I (а, Р) об опыте р, содержащуюся в опыте а: I (а, Р) = Н (Р) - Яа (Р). Это значение информации I (а, Р) и откладывалось по оси абсцисс па рис. 14 при нанесении на него крестиков. Отметим, что постановка опыта здесь в некотором смыс- ле обратна той, которая рассматривалась на стр. 83—86 и 102—103: если раньше мы задавали заранее информацию 7 (Р, Р) = Н (Р) и исследовали зависимость от нее времени реакции Т, то теперь заранее задается время Т (т. е. тре- буется, чтобы испытуемый реагировал через определенное время Т после появления сигнала) и изучается зависи- мость от этого времени информации I (а, Р). То обстоя- тельство, что крестики на рис. 14 группируются вокруг той же прямой, что и кружки, подтверждает предположе- ние о линейной зависимости времени реакции именно от информации, содержащейся в сигнале. Разумеется, было бы неоправданным распространять результаты этих нескольких опытов, проводившихся в весьма специфической обстановке, па все вообще процес- сы передачи информации в живом органнямо. На самом деле простая линейная зависимость между временем ре- акции и информацией, содержащейся в подапом сигнале, наблюдается не во всех опытах; кроме того, даже в тех случаях, когда такая зависимость имеет место, коэффи- циенты соответствующей линейной функции могут прини- мать весьма разные значения (см., например, сводный рис. 15, заимствованный из статьи В. И. Н и к о л а е в а [40]; ср. также книгу [41], включающую список литературы, содержащий более 500 названий). Факторы, от которых за- висят эти коэффициенты, изучались многими авторами (см., например, обзорные статьи [42] — [44]); однако в этой области остается еще очень много открытых вопро- сов. Тем не менее имеющиеся данные (по поводу которых см. также книгу [45] и сборник [46]) определенно показы- вают, что введенное выше понятие информации часто мо- жет быть с успехом использовано для количественного описания процессов восприятия и усвоения живыми ор- ганизмами сигналов разного рода, поступающих к ним из внешнего мира.
§ з] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 119 Докажем теперь, что информация относительно опыта Р, содержащаяся в опыте а, всегда равна информации отно- сительно а, содержащейся в р. Это непосредственно следу- ет из результатов предыдущего параграфа: так как Н (а) + Яа(Р) = Я(р) + ЯР(а) (см. выше, стр. 95), то I (а, Р) = Я (Р) - Яа(Р) = Я (а) - Яр(а) = /(р, а). Таким образом, информацию I (а, Р), которую содержит Рис. 15. опыт а относительно опыта Р, можно также назвать взаимной информацией двух опытов а и Рдруг относительно друга. Равенство информаций I (а, Р) и I (Р, а) подчеркивается следующей простой формулой, которая во многих случаях оказывается
120 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. 11 весьма удобной I (а, ₽) = Н (а) + Н (₽) - Н (а₽) (ср., например, выше, стр. 117—118). Эта формула вытека- ет из того, что Яа(Р) = Н («Р) — Н (а) (ибо Я(оф) = =Я(а) + Яа(₽)); в ее правую часть опыты а и р входят совершенно симметрично. Приведенную здесь симметричную формулу для коли- чества информации можно преобразовать так, чтобы ее правая часть непосредственно выражалась через вероят- ности р (Лг), . . ., р (Ак) и р (BJ, . . ., р (Bi) различных исходов опытов а и Р и через вероятности р (Л^), р (Л^), . . ., р (AhBt) исходов сложного опыта ар. В самом деле, согласно определению энтропии Н (а) = — р (Л-,) log р (Лг) — р (Л2) log р (Л2) — . . . —— Р (^й) log? (Лп), н (Р) - - Р (В.) log р (BJ - р (В2) log р (В2 ) - ... ...— р (Bl) log р (В,) И Н (аР) = - р (ЛTZ?,) log Р (A'Bi) - р (AJU) logр(Л iB2) - ... ... — р (AhBt) log р (AhBi). С другой стороны, согласно правилу сложения вероятно- стей (см. стр. 27) Р (Лг) = р (AiBi) + р (AtB2) + . . . + p(AiB[), i = 1,2, . . к и р (В}) = р (АГВ}) + р (А2В}) + ... + р (АкВ}), так что — Р (Ai) log р (Л г) = — р (AfiJ log р (At) — — р (AtB2) log р (Л г) — • • • — Р (AiBt) log р (Лг), — Р Uh) log р (В}) = — р (А^В]) log р (Bj) — — р (А2В}) log р (В}) — . . .— р (AkBj) log р (Bj).
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 121 Подставив все эти выражения в исходную формулу, получим I (а, Р) = - р (ЛА) [log р (Л,) + + log р А) — log р (ЛАЯ — — р (АХВ£ [log р (Лт) + log р (В2) — log р (ЛА)] — — р (AhBt) [log р (Л й) + log р А) — log Р (AkBi)] или, окончательно, /(«,P) = PM1S,)log7A^Wy + + р (л1^) 1ог + • • + р<л,В|) logр р ,р;) . Эта формула, очевидно, также симметрична относительно опытов аир. Формулу I (а, Р) = I (Р, а) можно также записать в следующем виде! I (а, Р) = Н (а) — Яр(а). Из нее следует, что информация /(«, Р), содержащаяся в опыте а относительно опыта Р, не превосходит энтро- пии Н (а) опыта а — обстоятельство, которое часто ока- зывается полезным. Впрочем, последнее предложение, разумеется, нельзя считать неожиданным: естественно, что информация, которую содержит опыт а о другом опыте Р, не превосходит информации, содержащейся в а относительно самого себя — энтропии II (а) этого опыта. Таким образом, энтропия Н (а) может быть также определена как наибольшая информация, которая может содержаться в опыте а («полная информация», содержащаяся в а). Из формулы I (а, Р) = Н (а) — Нр{а) вытекает также, что информация I (а, Р) точно равна энтропии Н (а) опы- та а в том и только в том случае, когда условная энтропия IIг, (а) равна нулю, т. е. когда результат опыта Р полно- стью определяет исход вспомогательного опыта а; именно так будет обстоять дело, например, в задачах, разбира- емых в следующей главе. Если же //р(«) =f= 0, то
122 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II информация I (а, р) будет ровно на величину Нр (а) меньше энтропии Н (а). В частности, если опыты аир независимы (и только в этом случае) информация I (а, р) будет равна нулю. Заметим еще, что если условная энтропия Нр[а) равна нулю и, следовательно, информация I (а, Р) относитель- но р, содержащаяся в а, является наибольшей (т. е. ни про какой другой опыт Pj опыт а не содержит большей информации), то информация относительно любого неза- висимого от Р опыта у, содержащаяся в а, равна нулю — это дает основание говорить, что опыт а «прямо направ- лен» к выяснению исхода Р и не содержит никакой «посто- ронней» информации. В общем же случае информация отно- сительно любого независимого от Р опыта у, содержащаяся в опыте а, не превосходит величины II р (а) = I (а, а) — — I (а, Р); если Нр(а) = 0, то это утверждение обращается в более частный результат, указанный выше. Доказатель- ство сделанного утверждения требует введения одного важного вспомогательного понятия; оно будет приведено (вместе с доказательством других сформулирован пых ниже утверждений) в самом конце параграфа. Пусть теперь а, Р и у — три произвольных опыта. В таком случае всегда / (Ру, а) > 7 (Р, а); иначе говоря, сложный опыт Ру (т. е. пара опытов Р и у) всегда содержит не меньшую информацию относительно любого опыта а, чем простой опыт р. Этот факт представ- ляется вполне естественным с точки зрения наших нагляд- ных представлений об «информации»; строгое доказатель- ство этого и подобных ему предложений и делает закон- ным употребление слова «информация» в применении к величине I (а, Р). При этом равенство I (Ру, а) = 7(Р, а) будет иметь место лишь в том случае, когда условная ве- роятность любого исхода опыта а при условии, что опыты Р и у имеют некоторые определенные исходы, не изменяет- ся при изменении исхода у (т. е. зависит лишь от исхода Р). В этом последнем случае совершенно естественно счи- тать, что сложный опыт Ру не содержит никакой дополни- тельной информации относительно а по сравнению с опы- том р, так что равенство I (Ру, а) = I (Р, а) здесь также
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 123 находится в полном соответствии с наглядными представ- лениями о понятии «информация». Предположим теперь, что равенство I (Ру, а) = I (Р,а) имеет место. Можно доказать, что в этом случае всегда I (у, а) I (Р, 00. Таким образом, если сложный опыт Ру не содержит ника- кой дополнительной информации об а по сравнению с опы- том Р, то информация об а, содержагцаяся в опыте у, не может быть больше информации об а, содержащейся в опыте р. При этом знак «меньше или равно» в последнем неравенстве можно заменить знаком равенства в том и только в том случае, когда I (Ру, с0 = / (у, а), т. е. когда сложный опыт Ру не содержит дополнительной информа- ции об а также и по сравнению с опытом у. Неравенство I (у, а) I (Р, а), о котором здесь идет речь, играет в теории информации значительную роль (см., например, [8] и [47], а также гл. IV этой книги). Оно по- казывает, что при последовательной пере- даче информации об опыте а, осуществля- емой посредством цепочки опытов Р, у, б, . . ., где толь- ко опыт р непосредственно связан с а, а у всю содержа- щуюся в нем информацию об а получает из связи с опы- том р (так что Ру уже не содержит об а дополнительной информации по сравнению с Р), б всю информацию об а получает из связи с опытом у и т. д., информация об а может лишь уменьшаться: Н (а) = I (а, а) > I (Р, а) > I (у, а) > I (б, а) > ... Наглядной иллюстрацией этого положения может слу- жить известная детская игра в «испорченный телефон», при которой первый играющий тихо произносит на ухо своему соседу некоторое слово (опыт а); сосед тихо пере- дает расслышанное им слово (которое может и отличаться от первоначально произнесенного) следующему играю- щему (опыт Р); этот играющий также передает услышан- ное слово соседу (опыт у) и т. д.; в конце игры все говорят услышанные ими слова, и проигравшим считается тот из участников, кто первым неправильно услышал передавае- мое слово. В этой игре может случиться так, что второй играющий передает первоначально сказанное слово неправильно, а третьему в результате повторной ошибки покажется, что он услышал то же слово, которое
124 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II передавалось вначале; однако при большом числе повто- рений той же процедуры второй играющий, разумеется, в среднем будет чаще передавать дальше слово, которое на самом деле произнес первый игрок, чем третий играющий. Но наше понятие информации I как раз и является статистическим понятием, характеризующим соотношения, имеющие место «в среднем»; поэтому для него всегда будет выполняться выписанная выше цепь не- равенств. Ясно, что с точки зрения наглядных представ- лений о передаче информации это обстоятельство также можно считать очевидным. Неравенства I (РУ. а) > I (Р, а) и I (Ру, а) > I (у, а) (см. стр. 22) можно дополнить еще одним неравенством, несколько менее очевидным с точки зрения интуитивно ожидаемых свойств величины, получившей название «информации». Ясно, что, вообще говоря, вполне может иметь место неравенство I (РУ. (Р, а) + I (у, а); так, например, если Р = у, то и Ру = р, — и потому в таком слу- чае, вообще говоря, 7 (Ру, а) = I (р, а) < I (Р, а) + 1 (у, а) 2/ (р, а). Однако если опыты р и у и о з а п и с и м ы (т. о. / (р, у) = = I (у, Р) = 0), то неравенство I (Ру, а) < I (р, а) + I (у, а) является невозможным: в этом случае обязательно I (РУ. а) > 1 (Р. «) + I (у, а). Невозможность неравенства I (Р, а) + I (у, а) > I (Р у, а) Здесь объясняется тем, что независимость опытов Р и у гарантирует отсутствие «общей части» величин I (Р, а) и I (у, а): ведь здесь опыты р и а доставляют существенно разную информацию об опыте а и связанная с выполнением сразу обоих опытов р и у информация / (Ру, а) не может оказаться меньше суммы информаций I (р, а) и I (у, а). Это можно сравнить с неравенством площадь (Fi + F2) < площадь Fi -f- площадь F2, где Fi 4- F2 — объединение фигур Fi и F2, которое, оче- видно, невозможно, если Fi и F2 не имеют общей части. Однако здесь, казалось бы, можно ожидать равенства I (Ру, а) = I (Р, а) + I (у, а), ибо неясно, за счет чего информация I (Ру, а) может оказатьс я больше суммы информаций I (Р, а) и I (у, а). Дело, однако, заключается в том, что даже в случае незави- симости опытов р и у их совместное осуществление (т. е. опыт Ру), позволяющее сразу узнать и исход р, и исход у, вообще говоря,
§ 3] ПОНЯТИЕ ОБ ИНФОРМАЦИИ 125 может доставить больше информации, чем раздельное осуществле- ние р и у (с которым связана величина I (Р, а) + I (у, а)). Проил- люстрировать это можно на примере, изложенном мелким шрифтом на стр. 45—46. Рассмотрим опять изображенный на рис. 2 тетраэдр, и пусть а (соответственно р и у) — опыт, состоящий в проверке того, имеется ли или отсутствует па той грани, на которую упал тетраэдр, цифра 1 (соответственно 2 и 3); таким образом, опыт а может иметь исходы А и А, опыт р — исходы В и В, а опыт у — исходы С и С. Из приведенных на стр. 46 подсчетов сразу следует, что все три опы- та а, Р и у являются попарно независимыми; таким образом, здесь I (Р, а) = 0 и I (у, а) = 0, так что I (р, а) + I (у, а) = 0. С другой стороны, результат сложного опыта Ру уже полностью определяет исход а (опыт а имеет исход А, если р и у имеют «оди- наковые» исходы, т. е. и р и у имеют «положительные» исходы В и, соответственно, С или же и р и у имеют «отрицательные» исходы В и, соответственно, С; опыт а имеет исход А, если Р и у имеют «различные» исходы, т. е. В и С пли В и С). Таким образом, здесь I (ру, а) = Н (а) = 1 бит, т. е. I (₽Т, а) > 1 (Р, а) + I (?, «) (= 0). Более того, здесь опыты р и у пе содержат и и к а к о й информации об а, а опыт ₽т содержит об а «полную» информацию, т. е. наи- большую информацию, какую только об а можно иметь. Доказательство приведенных выше утверждений может быть получено на основе изучения величины 7р (?, а) = 7/р (а) — Н^у (а), которую мы будем называть средней условной инфор- мацией двух опытовуиадруг относительно друга при условии выполнения опыта р или, короче, просто условной информацией опытов у и а при условии р. Прежде всего отметим, что условная ин- формация /р (у, а) всегда неотрицательна. Этот факт немедленно вытекает из неравенства (а) < //р (а), означающего, что предварительное осуществление сложного опыта Ру (т. е. двух опытов Р и у) всегда уменьшает степень неопределен- ности опыта а не в меньшей степени, чем осуществление одного опыта Р (строгое доказательство этого неравенства см. в Приложе- нии I в конце книги). Так как, кроме того, всегда II,,у (а) 0 (ибо /7ру (а) — это некоторая условная энтропия), то 0 < (у, а) < Яр (а). При этом /р (у, а) = 7/р (а) лишь если Н$у (а) = 0, т. е. если слож- ный опыт ру однозначно определяет исход опыта а; /р (у, а) = 0
12G ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II лишь если (а) = (а), а следовательно, и I (Ру, а) = I (Р, а), т. е. если условные вероятности всех исходов опыта а при усло- вии, что опыты Р и у имеют некоторые определенные исходы, не зависят от исхода у (см. конец Приложения I). Докажем теперь, что условная информация симметрична:, (у. «) = (а> у) (это обстоятельство подчеркивается и самим названием «условная информация опытов -у и а друг относительно друга»). В самом деле, по определению (У> «) = (а) —Н^у (а), /р (а, у) = Яр (?) — Н&а (у). Но так как сложный опыт ару, состоящий в осуществлении трех опытов а, р и у, можно с одинаковым правом рассматривать как объединение сложного опыта ар и опыта у или же как объединение опыта а и сложного опыта Ру J), то Н (ару) = II (ар) + Яар (у) = Н (р) + Яр (а) + ЯаР (у) Н (ару) = Н (ру) + Яру (а) = Н (р) + 7/р (у) + Я₽у(а). Следовательно, Нр (а) + Яар (у) = Яр (у) + 7/Py (а), т. е. (у, а) = Яр (а) — IlpY (а) = II& (у) — 11^ (у) = 7р (а, у). Равенство 7р (у, а) = /р (а, у) вытекаот также из следующей «симметричной записи» условной информации /р (у, а), легко про- веряемой непосредственно: если Л, (где i = 1,2, . . .,Z), Bj (где 7 = 1,2 , . . .,т) и С* (где к — 1,2, . . . ,п) — всевозможные исходы опытов а, Р и у, то 7р (У, «) = Р (Bi) 1В1 (у, а) + р (В2) 1Вг (у, а) + . . . • • • + Р (вт) 1Вт (У> «)> где рв (AiCi) Ч (Т, а) = PBj MiG) log р^(л1)Рв (С1) + • • • PBi(Afin) +PBj (А ic п) log Рв i (At) PBj (Сп) г) Символически это можно записать равенствами «₽У = (а₽)У = а (РУ) (ср. с «ассоциативным законом» умножения событий на стр. G1 § 4 гл. I).
§ 3] ПОНЯТИЕ ОВ ИНФОРМАЦИИ 127 — взаимная информация опытов а и у при условии, что опыт р имел исход Bj. Такая запись хороню поясняет смысл условной ин- формации /р (у, а); нам она, однако, не понадобится. Из формулы /р(у, а) = Яр(а) — Яру (а) легко получается важное соотношение 7 (Ру, а) = I (Р, а) + (у, а), близкое по форме к равенству И (Ру) = 7/ (р) + 7/р (у) (это соот- ношение следует из того, что I (Ру, а) = II (а) — (а) и 7 (Р, а) = =7/(а)—(а)). Ясно, что наши утверясдеиия, касающиеся величины информации I (Ру, а), являются автоматическими следствиями это' го соотношения и свойств условной информации. В дальнейшем нам будет полезна еще следующая формула тройной информации: 7 (Р?, а) + 1 (Р, Т) = 1 (а?, Р) + I (а, ?)• Для доказательства этой формулы надо только поменять местами сныты р и у в полученном выражении для I (Ру, а) и использовать аналогичное выражение для 7(ау, Р), после чего для правой и ле- вой частей нашей формулы получаются одинаковые выражения I (Р?, а) + I (Р, ?) — I (у, а) + 7у (Р, а) + I (Р, у) I (а?, Р) + I (а, у) = I (у, Р) + /у (а, Р) + I (а, у). Из формулы тройной информации сразу следует указанный выше результат о содержащейся в третьем опыте а информации относительно опыта у, независимого от некоторого другого опыта р. В самом деле, независимость опытов Р и у означает, что I (3, у) = 0; с другой стороны, мы знаем, что всегда I (ay, Р) ^>7 (а, р). В силу формулы тройной информации отсюда вытекает, что в случае не- зависимости опытов р и у I (а ,у) = I (Ру, а) — I (ау, р) < I (Ру, а) — I (а, Р) = 7р (у, а), а 7р (у, а) всегда не больше, чем (а). С другой стороны, вос- пользовавшись «симметричностью» информации (т. е. равенством I (а, Р) = I (Р, а)), мы можем переписать формулу тройной инфор- мации так: I (ру, а) + 7 (р, у) = 7 (р, ау) + 7 (у, а), а неравенство 7 (ау, Р) > 7 (а, Р) заменить следующим: 7 (Р, ат) > 7 (Р, а), откуда сразу следует, что в случае независимости опытов Р и у (т. е. если I (Р, у) — 0) 7 (Ру, а) > I (Р, а) + 7 (у, а) (ср. выше, стр. 124). Неравенство 7 (у, а) I (Р, а) для случая, когда 7р (у, а) = 0, также может быть получено из формулы тройной информации.
128 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II Для его вывода надо лишь заменить в этой формуле I (ау, 6) на / (у,£) + (а, Р) и учесть, что в нашем случае I (Ру, а) = I (р, а),; и что информация всегда симметрична; после этого мы придем к соотношению / (Р, а) = I (у, а) 4.(а, Р), сразу показывающему, что паше неравенство имеет место. Мы видим также, что это неравенство обращается в равенство тогда и только тогда, когда (а, Р) = 0. В этом случае I (у, а) — I (Ру, а), т. е. сложный опыт ру не содержит никакой дополнительной информации относительно а и по сравнению су — обстоятельство, которое тоже было отмечено выше. В заключение обратим еще внимание на то, что неравенство I (Ру, а) I (Р, а) («сложный опыт Ру содержит о любом опыте а не меньшую информацию, чем простой опыт Р») можно в известном смысле сопоставить неравенству для энтропий If (Ру) J>. Н (Р) («сте- пень неопределенности сложного опыта Ру всегда не меньше сте- пени неопределенности простого опыта Р»), Однако в случае эн- тропий существует еще и оценка величины Н (Ру) с другой сторо- ны: Н (Ру) Н (Р) + Н (у) («степень неопределенности сложно- го опыта Ру всегда не больше суммы степеней неопределенности опытов Р и у»). В случае информации положение оказывается совсем иным: зная количество информации об опыте а, содержа- щееся в двух опытах р и у, мы ио можем оцепить сверху инфор- мацию об а, содержащуюся в сложном опыте Ру. Так, в случае, разобранном па стр. 125 (где опыты а, Р и у состояли в выяснении того, имеется ли на грани, па которую упал изображенный на рис. 2 тетраэдр, цифра 1, соответственно, 2 и 3) мы имели I (Р, а) = I (у, а) = 0, а I (Ру, а) = 1 (= Н (а)); поэтому из того, что информации I (Р, а) и I (у, а) обе малы, еще никак нельзя заключить, что также и информация I (Ру, а) будет малой. § 4. Определение энтропии перечислением ее свойств Основным понятием этой главы является введенное в § 1 по- нятие энтропии или меры степени неопределенности опыта а, мо- гущего иметь в зависимости от случая тот или иной исход. Целе- сообразность принятого определения энтропии в § 1 как-то мо- тивировалась; однако приведенная там аргументация имела лишь наводящий характер и настоящим оправданием такого определе- ния меры степени неопределенности явился лишь весь ряд тео- рем, доказанных в этой главе, а также в гл. IV и в Приложении I к книге. Сейчас мы снова вернемся к определению энтропии и покажем, что оно с необходимостью вытекает из простейших тре- бований, которые естественно наложить на величину, призванную служить количественной характеристикой степени неопределен- ности.
§4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 129 Естественно считать, что энтропия (мера степени неопределен- ности) Н (а) опыта а, которому отвечает таблица вероятностей исходы опыта | Ах | вероятности | р (Л1) | р (Л2) Р (А) зависит лишь от величин р (AJ, р (Л2), • • • , Р Mr) (является функцией этих величин). Мы обозначим здесь вероятности р MJ, р М2), . . -,р MJ через pi, р2, . . . ,р1с, а энтропию Н (а) — через И (pi, р2, . . . ,Р1с) (ср. выше, стр. 75). Сформулируем теперь те условия, выполнения которых естест- венно требовать от функции Н (р,, р2, . . .,Pr). Прежде всею ясно, что эта функция не должна зависеть от порядка чисел ръ р2, . . . . . . ,р1с: ведь изменение порядка этих чисел означает лишь изме- нение столбцов в таблице вероятностей и не связано с каким бы то ни было изменением самого опыта а. Таким образом первое усло- вие гласит: 1°. Значение функции Н (рг, р2, . . ., pj не меняется при лю- бой перестановке чисел рг, р2, . . .,р%. Столь ясе естественно и второе условие: 2°. Функция Н (рп р2, . . ., р J является непрерывной, т. е. мало меняется при малых изменениях вероятностей pt, Ра, . . .,р[;—ведь при малых изменениях вероятностей и степень неопределенности опыта должна мало изменяться. Третье условие, которое мы введем, является несколько более сложным. Для того чтобы яснее понять, в чем оно заключается, предположим сначала, что рассматриваемый опыт а имеет всего три исхода Аг, А2, As, т. е. что его таблица вероятностей имеет вид исходы опыта I Ах I Л2 I Лз вероятности I pi | р2 | р3 Мера неопределенности Н (а) этого опыта, равна Н (plt р2, р3); неоп- ределенность здесь возникает из-за того, что мы не знаем, какой именно из трех исходов опыта а будет иметь место. Будем теперь выяснять, какой из исходов опыта а на самом деле имел место, в два этапа. А именно выясним прежде всего, имел ли место один из первых двух исходов Ах и Л2 или же последний исход А3; это оз- начает, что наш опыт а мы заменим новым опытом Р с таблицей вероятностей исходы опыта I В I Аз вероятности | pi+ р2 | р3 Мера неопределенности этого нового опыта, очевидно, равна Н (Р) = Н (рх р2, р3). Ясно, что мера неопределенности а должна быть больше, чем мера неопределенности Р — это связано с тем, что знание исхода Р еще не определяет полностью исхода а, так как и 5 А. М. Яглом, И. М. Яглом
130 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. II после определения исхода Р может остаться еще некоторая неоп- ределенность в исходе а. Нетрудно ответить и на вопрос о том, на сколько имен- н о мера неопределенности а должна быть больше меры неопреде- ленности р. Ясно, что если мы будем повторять опыт а многократно и каждый раз будем сначала выяснять, имел ли опыт Р исход В или А3, то в некоторых случаях — в тех, когда опыт а имеет исход А3,— это выяснение решит вопрос и об исходе а. В других слу- чаях — а именно, когда опыт а имеет исход Аг или А2,— нам после установления исхода Р придется определить, какой именно из этих двух исходов имел опыт а, что равносильно выяснению исхода нового опыта Р' с таблицей вероятностей исходы опыта А' Лг вероятности pi Р2 Р1+Рз Pl + Р2 Мера неопределенности этого опыта Р', очевидно, равна Н (Р') = = Я (~Р Ц-р ’ РхТ^Р )-А ТЙК КаК веРоятность(т‘ с> сРеДняя частота) случаев, в которых приходится после выполнения Р дополнительно выяснять еще и исход опыта Р', равна рг + р2, то естественно считать, что мера неопределенности Н(а) опыта а должна пре- восходить меру неопределенности If(f>) опыта Р па величину (Pi + p2).ff(P'), т- °, что должно выполняться равенство И (Pi, Рз. рз) = Il (pi + Р2, рз) + (Pi + Рз) II ( Pi Рз \ \ Pl + Р2 ’ Pl + Р2 )' Те же соображения, примененные к опыту а с таблицей вероят- ностей исходы опыта I Ai I А3 I А3 I ... I Ау вероятности | рп | рг | рз | ... | р,с приводят к третьему свойству функции Н (р1У р2, . . . ,РуУ- 3°. Функция И (Pi, р2, . . . ,Pjc) удовлетворяет соотношению Н (Pl, Рч. :Р1;) = Н (Р1 + Р2. Рз> - • -,РК) + +<”+₽->й <*> Это соотношение означает, что неопределенность Н (Р) опыта Р с таблицей вероятностей исходы опыта л3 I ... I 4 В вероятности Р1+Р2 рз | ... | РК
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 131 получаемого отождествлением двух первых исходов опыта а, меньше неопределенности Н (а) этого последнего опыта на умно- женную на р7 + Р2 меру неопределенности опыта Р', состоящего в выяснении того, какой именно из первых двух исходов опыта а имел место, если известно, что осуществился один из именно этих двух исходов. Можно доказать, что условия 1°, 2° и 3° уже полностью опре- деляют вид функции Н (pj, р2, . . .,Pfc): единственная функция, ко- торая удовлетворяет всем этим условиям, имеет вид *) Н (Pi, Р2, > > ^Pk) = с (—Pi log Pi — р2 log р2 — . . . — pR log Рк).(*) Однако доказательство этого факта не очень просто (впервые оно было получено Д. К. Фаддеевым [48]). В дальнейшем было также показано, что условие 2° на самом деле можно даже еще значительно ослабить (например, его можно заменить условием 2са: функция Н (р, 1 — р) непрерывна в точке р = 0 (т. е. II (р, 1 — р) —♦ —» Н (0, 1) при р —» 0), или условием 2°б: функция Н (р, 1 — р) не меняет знака и ограничена на интервале 0 «CZ р 1 — формула (*’ при этом все равно будет однозначно вытекать из условий 1° и З6 (некоторые другие допустимые варианты ослабления условия 2° и ссылки на относящуюся сюда довольно большую литературу мо- гут быть найдены, например, в статье 3. Д а р о ц и [49]). Но мы не будем здесь гнаться за наибольшей общностью, а, следуя Шен- нону [1], не только будем считать справедливыми все три усло- вия 1° — 3°, но и дополним их еще одним условием, справедливость которого из них в действительности вытекает, но введение которого заметно упрощает все рассуждения. В дальнейшем значительную роль будет играть функция Н (1/к, 1/к, . . 1/к) — мера неопределенности опыта а0, имею- щего к равновероятных исходов. Очевидно, что в силу равновероятности всех исходов опыта а0 степень его неопределен- ности Н (а0) зависит лишь от числа к исходов, т. е. является функцией одного аргумента к: II (1/к, 1/к, .., 1/к) = f (к). Ясно также, что степень неопределенности опыта а0 должна быть тем больше, чем больше число к его исходов. Таким образом, можно утверждать, что 4°. Функция Н (1/к, 1/к, . . . , 1/к) = / (к) растет с увеличением числа к. Покажем теперь, что функция Н (pt, р2, . . ., рк), удовлетво- ряющая условиям 1° — 4°, обязательно имеет вид (*) (где с — какое-то положительное число). Для этого нам придется не- сколько обобщить равенство (1), выполнение которого составляет 2) Если требовать положительности коэффициента с, то при- дется еще оговорить, что функция Н (pt, р2, . . ,,р^) должна быть неотрицательна (разумеется, достаточно включить в число основ- ных условии требование неотрицательности, например, одной ве- /1 1 \\ личины Н —, 11. Заметим еще, что если не фиксировать заранее основания системы логарифмов, то в формуле (*) можно отбросить множитель с (ибо с loga р = logbp, где b = ax,lc). 5*
132 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. н содержание условия 3°. Понадаем преяеде всего, что Н (pi, . -рк) = Н (pi 4- . .. + рр pi+1, ..pfc) + + (Pi + • + Pj) X i<^k (смысл этого равенства, очевидно, аналогичен смыслу первоначаль- ного соотношения (1) с той лишь разницей, что здесь речь идет об объединении i исходов Alt А2, . . ., Ai опыта а в один исход В). При г = 2 это равенство совпадает с (1) и, следовательно, справед- ливо в силу условия 3°. Предположим теперь, что справедливость его для некоторого значения i уже доказана; в таком случае, ис- пользуя также справе ушвость его для г = 2, имеем Н(Р1, П...Рк) = Н (pi + Р2 + . . . + Рр pi+1..pfc) + + (Pl + Р2 + . . • + Pi) Н (n+/.1 + p..р1 + .Л+рг) = = {# (Pl + Р2 + • + Pi + Pi+1, Pi+2, . •pk)4- + (Pl + • • + Pi + Pi+1) nlpi + ... + p1+i • p14-... + pi+Jf + + (pi + ... + p^ «(pi + ^ + p.. p1 + .P2 + p..A+“+pi+1)- С другой стороны, поскольку для значения i наше равенство счи- тается доказанным, то н f______Pl Pi РЖ = \Pi + ... + pi+1 ’ pi + ... 4- pi+1 ’ fn + ... + pi+1) ==п[ Pl + --- + Pj Pi+i \ Pi + --- + Pt \Pi + ... + pl+1 ’ pi + .. + pi+J + pi + . -. + pi+1 x ______El_____ ________P* ______El_____ \Р14-.- +р, ’ Pi + .-. + Pj ’ • Pi + + Pi / ’ Отсюда сразу следует справедливость доказываемого равенства для значения г + 1: H(pi,P2,.... Рк) = Я (Р14-ра +... + Pi+1, pi+2,...( Pk) + + (Pi4-P2 4-.. +Pi+1) Я(^+..₽ + Рж’ Pi+1 pi 4- • • • 4- Pi+iJ‘
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 133 В силу принципа математической индукции мы можем теперь быть уверены в том, что требуемое равенство выполняется при любом;. Так как фу 1Кцня Н (рх, р2, . . ,,pj£) не зависит от порядка своих аргументов р15 р2, . . . , р/£ (условие 1°), то из доказанного также следует, что Н (р1? р2,. .. , рг.г р., pi+1, ... ,Рр pjH, ...,рк) = = Н (Pv Рг.....Pi-г Pi + ₽i+i + • + Рр 6+г..6-) + + (Pt + Pi+i + • • + Pj) X xH(______p-i___________________ __________РЛ______'j \рг + • + Pj ’ Pi + • • + Pj ’ ' Pi + + Pj I' 1 i < / k, и вообще H (Pl,..., Pii, pii+1,.. ., piz, pi2+1,.. ., pis,.. . , pis+1, ...,Pk) = = 11 (Рг + • + Р;,, Pj,+1 + - + Pi2,.... Pig+1 + ... + p/;) -h + (рг + + Pi,) н (Pi _|_ + pit..pt + ... + pj + + (pii+1 +... + pjH (р.+1+гН1.+р. ........ Pi,+1+Pt.2. + pJ + + (Pis+1 + • • + Pj£)H I ' i ii ______Ргя+1__________ __________Pfr_______\ As+i + + Pfc ’ ‘ ’ Pi^+i + • • • + Pit / ’ г'г < is < . . . < is < It. (2) Это довольно сложное по форме равенство выражает в весьма общей форме правило сложения эптроппй из § 2 1). Обобщение (2) соотношения (1) нам будет нужно не само по себе, а лишь в применении к функции / (7с). Предположим, что к = 1т, где I и т — какие-то целые числа, и что к = 1т вероятно- стей Pi, р2, . . ,,рк, фигурирующих в формуле (2), все равны между . . , 1 собой (и следовательно, равны — в таком случае левая часть г) Нетрудно убедиться, что если гх = г, г2 = 2г, г3 = Зг, . . . ...,k=(s+ 1)г и величины рх, р2, . . ., р^, pit+1, pij+2 , . . , p{J . .. суть вероятности исходову4хВх, AtB2, . . ., A1Bl,A2B1, А2В2, ...,A2Bi", . . . сложного опыта оф (так что суммы рх + р2 + . . . + рх Р?1+г + Р,1+9 + • + Pj2 I - будут равны вероятностям исходов А^ А2, . , . опыта а), то равенство (2) перейдет в правило сложе- ния антропип.
134 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл. П этого равенства будет равна f (1т). Далее предположим, что группы (Л, • Pit), (Pit+i.....Pi)....... (Pis+i....Pfc)> фигурирую- щие в том же равенстве (2), состоят из I чисел каждая; в таком случае число таких групп будет равно т. При этом мы будем иметь Pi + , . . + pit = pii+1 + . . . + pi2 - • . , - pij+1 + • . . + pfc = 1 1 = I-T~ = — , Im m и, следовательно, первая строка в правой части равенства (2) об- 111 ратитсяв Н (— , — , . . — ) = f (т). Что же касается до осталь- ных членов правой части равенства (2), то число этих членов будет равно т и все они будут равны . , , , , „ ( Pi Pi, _ (7--1 + • • Pi) \р± + . . . + ръ ’ ’ ’ ’ ’ рх + . . . + р{ J __1_ ll/ml l/ml\ 1 /_1_ _1_\ 1 ~ т Н \\jm ’' ' ’ ’ 1/m / т \ I ’•••’ I ) т ? Таким образом, в рассматриваемом случае равенство (2) примет следующий простой вид: 1 / (Im) = f (т) 4- т- — /(Z) = / (т) + I (I). (2а) Из (2а), в частности, следует 1 (7с2) = / (к.к) = f (к) 4- / (к) - 2f(k), f (F) = f (k*-k) = f (7c2) 4- f (*) = ЗДЛ), f (7c4) = / (k3-k) = ij(k) и вообще / (*n) = nf(k). (26) Мы зпаем, что соотношение (2а) выполняется для функции f (к) = с log к. Нетрудно показать также, что функция с log 7с яв- ляется е д и и с т в е и н о и функцией, удовлетворяющей соотно- шению (2а) и условию 4°. В самом деле, пусть к и I — два произ- вольных целых положительных числа. Выберем еще какое-либо большое целое число N и найдем такое число п, что Zn</cN<Zn+1. Согласно условию 4°, /(Zn)</(fcJV)</(Z’l+1)
§ 4] ОПРЕДЕЛЕНИЕ ЭНТРОПИИ ПЕРЕЧИСЛЕНИЕМ ЕЕ СВОЙСТВ 135 или, в силу (26), nf(i) < W) < (п+1)Я0; отсюда вытекает, что п / (к) п + 1 “/v“ Заметим теперь, что из равенства ln ^kN Zn+1 следует п log I < N log к < (п + 1) log I или n log к п + 1 "W logT < ~N~ ' гг * f W к Таким образом, отношения у и р~уу заключаются же пределах, и, следовательно, должны быть близки между собой: в одних и тех /Ж _ 7(0 log 1с I log / I 1 Л • А так как последнее неравенство имеет место при любом значе- нии IV, то 7 (7с) log к f(l) ~logZ или /(fc) _ 7(0 log к log I Это соотношение имеет место для каждых двух чисел к и Z; следовательно, Н'с) 7(0 log к log I С’ где с не зависит от 7с и Z, и, значит, f (к) = с log 7с. А так как функция / (7с) — возрастающая, то с > 0. Пусть теперь рх, р2, . . ., р}; — произвольные дроби: -7/с <71 <?2 = . Р2=-у — (р — общий знаменатель всех этих дробей), меньшие единицы и такие, что рх + р2 + . . . + р^ = 1. Согласно формуле (2)
136 ЭНТРОПИЯ И ИНФОРМАЦИЯ [Гл II (стр. 133) имеем /11 1 \ 1 Ср) = Н р , р ’’ р) — W ** = н 1 1 р ' р ; «1 раз р раз 1 ’ ’ Р 1 1 1 Р ’ Р......... Р д2 раз 1 1 _1_\ Р ’ Р ’ ’ pj <1к раз / <71 <72 \ Р ’ Р 91 раз + .................... Р \<72 <72 ’<72/ Р \9t </к’ <1к. <й раз qk раз = Н (Pl, Р2, - . • , Pft) + pij (91) + рг/ («2) 4- . . . + pkf (qk). Отсюда следует, что Н (Р1, Рг, • • ;Рк) = / (Р) — Pi/ (91) — Ра/ (9г) — • • • — Pkf (9к) = = (Pi + Рг + • • • + Pfc)/ (Р) — Pif (9i)— Ра/ (9а)— • • • — Рк I (9h) = = Pi (/ (Р) — f (9i)) + Ра (/ (Р) — / (9а)) + • • + Рк (/ (р) — / (9К))- А так как / (р) — / (91) = с log р — с log</1 = — clog — = — clog pi, — f (92) = — c log pa,. .. , f (p) — f (qk) = — c log pk, то окончательно получаем H(pi, P2........ pk) = c (— pi log pi — P2 log p2 — . . . —pfclogpfe). Последнее равенство доказано пока только для рациональ- ных значений рп р2, . . рк. Но в силу непрерывности функции (Ры Рг, - • > Р/г) отсюда следует, что оно верно для любых Pi, Р2, • • • , Р/г- Этим и завершается рассуждение.
Глава III РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ С ПОМОЩЬЮ ПОДСЧЕТА ИНФОРМАЦИИ § 1. Простейшие примеры Для иллюстрации применимости понятий и предло- жений, введенных в гл. II, мы разберем здесь несколько занимательных задач, типа собранных в книге Б. А. Ко р- демского «Математическая смекалка» [50] х). При этом в §§ 1 и 2, посвященных конкретным примерам та- ких задач, мы часто будем пользоваться «наглядными пред- ставлениями» об информации, отложив более аккуратное обсуждение приведенных здесь рассуждений до заключи- тельного § 3. Начнем с довольно популярных в школьных матема- тических кружках логических задач о «городах лжецов и честных людей». Задача 23. Пусть известно, что жители некоторо- го города А всегда говорят правду, а жители соседнего го- рода Б всегда обманывают. Наблюдатель Н. знает, что он находится в одном из этих двух городов, но не знает в ка- ком именно. Путем опроса встречного ему требуется оп- ределить, в каком городе он находится, или в каком городе живет его собеседник (жители Л могут заходить в Б и на- оборот), или то и другое вместе. Спрашивается, каково наи- меньшее число вопросов, которые должен задать П. (на все вопросы Н. встречный отвечает лишь «да» или «нет»)? Пусть Н. надо определить, в каком городе он находит- ся. Здесь опыт р, результат которого нас интересует, мо- жет име ь два исхода (этот опыт состоит в выяснении того, в каком из двух городов А и Б находится наблюда- тель Н.). Если считать, что заранее Н. не имеет никакой информации о том, в какой из двух городов он попал, то эти исходы следует считать равповозможными; следователь- но, энтропия Н (р) опыта р (т. е. «полное» количество информации, которое содержится в исходе этого опыта) 1) В дальнейшем мы будем цитировать эту книгу как «М.с.»
138 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш равна одному биту. Далее, опыт а, состоящий в том, что Н. задает встречному один вопрос, также может иметь два исхода (собеседник может ответить утвердительно или от- рицательно); поэтому энтропия Н (а) этого опыта (равная «полному» количеству информации, содержащейся в отве- те па поставленный вопрос) самое большее равна одному биту. В задаче спрашивается, можно ли так поставить опыт а, чтобы информация I (а, Р), содержащаяся в опыте а относительно опыта р, равнялась энтропии И (р) = 1 опыта р, т. е. чтобы исход а полностью опре- делял исход р. Так как единственная связь между информацией I (а, р) и энтропией II (а) заключается в том, что I (а, Р) II (а) (ибо I (а, Р) = II (а) — Яр (а)), a Н (а) может равняться 1, то, вообще говоря, можно на- деяться, что при удачном выборе опыта а будет иметь место равенство I (а, р) = Я(₽). Для этого необходимо только, чтобы вопрос а был таким, чтобы утвердительный и отрицательный отпет на пего были равновероятны х) (только в этом случае будут иметь место равенства II (а) =1 = Я (Р)), и чтобы исход опыта р оп- ределял исход а (только при этом условии имеет место равенство I (а, Р) = II (а) или Яр (а) = 0, указывающее, что вопрос а «прямо направлен» к выяснению исхода р и ответ на этот вопрос не содержит никакой «посторонней» информации). Всем этим условиям удовлетворяет вопрос «.Живете ли Вы в этом городе?», полностью решающий за- дачу (положительный ответ на этот вопрос может быть дан только в городе А, а отрицательный — только в Я). Еще проще видеть, что II. может с помощью одного во- проса установить, в каком городе живет его собеседник! для этого достаточно задать любой вопрос, ответ на кото- рый Н. знает заранее (например, «Нахожусь ли st в городе?» или «Равно ли 2-2 четырем?»). Если же Н. должен узнать, и в каком городе он нахо- дится и в каком городе живет его собеседник, то ему тре- буется определить исход сложного опыта ptp2, где опыт Pi *) При условии равновероятности того, что Н. находится в А и в Ь' п что ого собеседник живет в А и в Б.
§ 1] ПРОСТЕЙШИЕ ПРИМЕРЫ 139 состоит в выяснении того, где находится Н., а опыт р3 — в выяснении места жительства его собеседника. Энтропия 77 (Pi р2) этого опыта больше энтропии Н (PJ опыта pt: Я (р4р2) = Н (Pi) 4- ЯР1 (Ра) (см. § 2 гл. II). Иначе говоря, в этом случае требуется получить информацию большую, чем 1 бит (напомним, что Н (Р^ = 1). Так как энтропия Н (а) опыта а с двумя исходами, состоящего в постановке вопроса, не может превосходить 1, то один опыт а не дает возможности получить информацию, равную II (PiP2), т. е. не позволяет полностью определить исход опыта р.2 (за исключением того мало интересного случая, когда ус- ловная энтропия ЯР1 (р2) равна 0, т. е. когда исход р4 оп- ределяет исход р2 — так будет обстоять дело в том случае, когда жители А не могут попасть в Б, и наоборот). Таким образом, оценки количества информации дают нам строгое доказательство того, что один вопрос (как бы он пи был поставлен!) не позволяет выяснить сразу и то, в каком го- роде находится Н., и то, в каком городе живет его собе- седник. Если же Н. задаст два вопроса (т. е. произведет сложный опыт cqc^, имеющий 4 возможных исхода), то он, разумеется, может выяснить исход опыта pfP2 (с по- мощью вопроса cq можно определить исход р4, а затем с помощью вопроса а2 — исход р2). Усложним теперь несколько условия задачи 23. Задача 24. Пусть имеются три города А, Б и В, причем жители А во всех случаях говорят правду, жители Б — только неправду, а жители В через раз отвечают на вопросы верно и неверно. Наблюдатель II. хочет выяснить, в каком городе он находится и в каком городе живет встреченный им человек. Сколько вопросов ему потребуется, задать этому встречному, если на все вопросы его собеседник отвечает лишь «да» или «нет»? Здесь требуется определить, какой из д е в я т и воз- можных исходов имеет интересующий нас опыт [3 (Н. мо- жет находиться в одном из трех городов А, Б и В а, не- зависимо от этого, его собеседник может проживать в од- ном из этих же трех городов). Если полагать, что заранее у Н. нет никаких сведений, относящихся к опыту р, то все эти девять исходов можно считать равновероятными и эн- тропияЯ(р) опыта [3 (а, следовательно, и количество инфор- мации, получаемой при выяснении исхода этого опыта) будет равна log 9. Пусть сложный опыт = ata2 .. .ah состоит
140 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III в том, что Н задает к вопросов. Так как на каждый вопрос он может получить утвердительный или отрицательный от- вет, то энтропия каждого из опытов cq, а2, ..., cch не пре- восходит одного бита. С другой стороны, Я (сца2) = Я (cxj) + Яа, (а.,) < Я (oq) + Я (а,) (ибо Яа,(а2) (кг)) и аналогично Я (АЙ)=Я (oqa2...<xft) <Я («0 + Я(а2) + ... + H(ah)^k (строгое доказательство этого неравенства легко полу- чить, воспользовавшись методом математической индук- ции). Иначе это можно выразить так: если ответ на каждый вопрос дает нам информацию, пе превосходящую одного бита, то, задав к вопросов, мы можем получить информа- цию не большую, чем к бит. Поэтому, если к = 3, то по- лученная информация будет меньше чем log 9 (она может быть, самое большее, равна 3 = log 8 < log 9) и, значит, три вопроса не могут обеспечить выяснения и местонахож- дения Н. и места проживания его собеседника. Четыре же удачно поставленных вопроса, может быть, позволят вы- яснить все, что требуется (ибо можно лишь утверждать, что Я (А4) 4 = log 16). II действительно, легко видеть, что следующие 4 вопроса: 1) Нахожусь ли я в одном из городов А и Я? 2) Нахожусь ли я в городе Я? 3) Живете ли Вы в городе Я? 4) Нахожусь ли я в городе А? обеспечивают выяснение всего, что интересует Н. В самом деле, утвердительные или отрицательные ответы на оба вопроса 1) и 2) сразу указывают, что собеседник Н. живет в В. Пусть, например, ответы на оба эти вопроса являются утверди- тельными (аналогично разбирается и случай, когда оба ответа — отрицательные). В этом случае отрицательный (неправильный) ответ на вопрос 3) означает, что ответ на вопрос 2) был верен, и четвертый вопрос уже не нужен; положительный (правильный) ответ на вопрос 3) означает, что верен ответ на вопрос 1), и для того, чтобы выяснить, в каком городе находится Н., требуемся за- дать вопрос 4) (ответ на который будет заведомо неверен). Утвер- дительный же ответ на вопрос 1) и отрицательный — на вопрос 2) или обратная ситуация указывают, что собеседник Н. живет в А или Б. При этом отрицательный (правильный) ответ на вопрос 3) означает, что отвечающий живет в А и вопрос 4) оказывается нужным лишь в том случае, если ответ на вопрос 2) был отрицатель-
§ 1] ПРОСТЕЙШИЕ ПРИМЕРЫ 141 иым; положительный (неправильный) ответ на вопрос 3) означает, что собеседник Н. живет в Б и вопрос 4) оказывается нужным лишь в том случае, если ответ на вопрос 2) был положительным. Вот еще одна задача подобного рода (см. «М. с.», за- дача 283): Задача 25. Сколько вопросов надо задать, чтобы отгадать задуманное собеседником целое положительное число, не превосходящее 10 (или 100, или ООО, или произволь- ного целого положительного числа п), если спрашиваемый на все вопросы отвечает лишь «да» или «нет»? Пусть известно, что задуманное число не превосходит 10. В таком случае опыт р, состоящий в выяснении этого числа, может иметь 10 различных исходов. До ответа на первый поставленный вопрос все эти исходы можно считать рав- новероятными, так что энтропия Н($) опыта р (т. е. тре- буемая информация) равна log 10 3,32 бита. Рассмот- рим сложный опыт Ah — ata2 . . . ah, заключающийся в том, что спрашивающий задает к вопросов. Энтропия опы- та а1т заключающегося в постановке одного вопроса, не превосходит одного бита, так как at может иметь два ис- хода (положительный и отрицательный ответы на вопрос); энтропия опыта АЛ не превосходит к бит (см. предыду- щую стр.). С другой стороны, информация I (АЛ, р) от- носительно опыта р, содержащаяся в опыте А^, не может превосходить полной информации, содержащейся в исхо- де последнего опыта — энтропии Н (Ah). Для того чтобы исход опыта Аь полностью определял исход р, необходи- мо, чтобы имело место равенство I (Ah, Р) = II (Р). Отсю- да заключаем, что в этом случае log 10 = Н (Р) = I (Afe, Р) < Н (Aft) < к т. е. к > log 10 3,32, или, так как к — целое число, к 4. Покажем теперь, что с помощью четырех вопросов дей- ствительно можно полностью определить исход Р, т. е. обнаружить загаданное число х. Легко понять, как для этого следует поступать. Прежде всего естественно доби- ваться, чтобы информация, содержащаяся в ответе на
142 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ 1Гл, III первый вопрос (т. е. энтропия Н (af)), была возможно боль- шей, т. е. чтобы она действительно равнялась одному би- ту; для этого надо, чтобы оба исхода нашего опыта cq бы- ли равновероятны. Далее следует потребовать, чтобы ин- формация I (а1( |3) относительно (3, заключенная в а4, равнялась эптропии Н (а() опыта сс15 а не была бы мень- ше зтой величины. Для этого надо, чтобы ответ на первый вопрос не содержал «посторонней» информации, т. е. что- бы условная энтропия Нр (осД равнялась нулю (другими словами: чтобы исход опыта J3 полностью определял ис- ход ссД. Эти соображения ясно указывают, как следует по- ставить первый вопрос. Разобьем множество всех возмож- ных значений х (т. е. множество целых положительных чи- сел от 1 до 10) па две р а в и ые по численности ча- сти (так как исходы опыта должны быть равновероятны) и спросим, относится ли х к одной или к другой из них; так, например, можно спросить, будет ли х больше 5. Оче- видно, что в этом случае /(аъ ₽) = Я(р) - Яа1(р) = 1, т е. Я«. (р) = р (AJIIд, (р) + р (ЛД //а, (Р) = II (Р) - 1 (At и Л2 — исходы опыта ар, р (ЛД = р (Л2) = -^-); кро- ме того, HAi (Р) = Яа,(Р) = я(Р)-1, так что при любом исходе опыта а, энтропия интересу- ющего нас опыта Д уменьшится на 1 бит. Далее следует точно таким же образом разбить новое множество допусти- мых значений х на две возможно более близ- кие по численности части и выяснить, к какой из них х принадлежит (если обнаружилось, что х больше 5, то можно спросить, больше ли это число, чем 7; если же х не превосходит 5, то можно спросить, больше ли х, чем 3) и т. д. Если каждый раз разбивать множество допусти- мых значений х на возможно более близкие по численности части, то мы, наверное, опреде- лим х с помощью четырех вопросов *). ') Разумеется, после того как уже выяснено, что число х имеет одно из т значений, где т нечетно (например, т — 5), мы не можем добиться строгой равновероятности исходов последу-
§ 1] ПРОСТЕЙШИЕ ПРИМЕРЫ 143 Совершенно так же показывается, что наименьшее чи- сло к вопросов, позволяющее определить загаданное чи- сло х, которое может иметь 100 или 1000 значений, опреде- ляется неравенствами к log 100 st; 6,64 и, соответственно, к log 1000 » 9,97; так как во всех случаях к — целое число, то отсюда получаем fc 7 и fc > 10. Вообще наименьшее число к вопросов, позволяющее найти загаданное число х, имеющее одно из п допустимых значе- ний, определяется неравенствами к — 1 log п к (или 2,с-1 < п 2/;). (1) Заметим еще, что независимо от значения п к log п; при этом к — log п только в том случае, когда число п является целой степенью числа 2 и, следовательно, log п есть целое число. Однако при весьма больших п разница между числами к и log п оказывается очень малой по срав- нению с самими этими числами (ибо при больших п и ве- личина log п будет большой, а разность к — log п всегда не превосходит единицы). Таким образом, можно считать, что при больших п отношение log п энтропии рассматри- ваемого опыта р к (равной 1 биту) информации относитель- но Р, содержащейся в опыте а, состоящем в выяснении от- вета на один вопрос, весьма точно указывает число к опы- тов, требующихся для того, чтобы определить исход р. Задача 25 на первый взгляд представляется столь же искусственной, как и две ей предшествующие; впос- ледствии, однако, мы увидим, что она имеет серьезные ющего опыта ai+1, поскольку т возможных значений х здесь нель- зя разбить на равные по численности части; следовательно, энтро- пия И (ai+1) опыта ai+1 будет меньше 1. Это означает, что наш опрос не будет наиболее выгоден с точки зрения полученной ин- формации, т. е. что с помощью того же числа вопросов можно пайтп загаданное число и тогда, когда множество его возможных значе- ний имеет большую численность (так, с помощью 4 вопросов можно обнаружить загаданное число, имеющее не одно из 10, а даже одно из 24 — 16 возможных значений).
144 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III технические приложения х). Более подробное обсуждение приведенного здесь решения этой задачи (включающее так- же и более общую формулировку ее условия) мы отложим до § 3 этой главы. Очень близка к задаче 25 и следующая Задача 26. Некто задумал два (различных) числа, не превосходящих 100. Сколько надо задать ему вопросов для того, чтобы определить эти числа, если на каждый во- прос спрашиваемый отвечает лишь «да'» или «нет»? В этом случае опыт [3, исход которого нам требуется определить, может иметь Ci00 = 4950 различных исходов; если, как всегда, считать все эти исходы равновероятны- ми, то энтропия Н (|3) опыта |3 (т. е. информация, которую мы получим, определив исход (3) будет равна log 4950. А так как информация, которую может дать ответ на один вопрос, не превосходит одного бита (ибо опыт а, состоя- щий в постановке одного вопроса, может иметь два исхода: «да» и «нет»), то наименьшее число вопросов, с помощью которых всегда можно определить исход |3, никак не мо- жет быть меньше чем log 4950 12,27 (ср. с решением задачи 25). Таким образом, если мы зада- дим меньше тринадцати вопросов, то наверное может слу- читься, что оба загаданных числа нам определить не удастся. Нетрудно видеть также, что 13 удачно поставленных вопросов всегда позволяют найти загаданные числа. Для того чтобы достичь этого, надо добиваться, чтобы информа- ция I (а, |3) относительно исхода опыта [3, содержащаяся в исходе опыта а — ответе па один вопрос (точнее — на каждый из задаваемых вопросов), была как можно ближе к одному биту. Отсюда ясно, что вопросы надо ставить так, чтобы оба ответа «да» и «нет» имели возможно более близ- кие вероятности. А для этого достаточно разбить сначала 4950 исходов [3 на две возможно более близкие по числен- ности части (так, чтобы каждая часть содержала 2475 исходов) и выяснить, к какой из этих частей относится тот *) Следует, впрочем, указать, что на самом деле и за шуточ- ными формулировками задач 23—24 скрывается достаточно серь- езное содержание (ср. стр. 163—165).
S и ПРОСТЕЙШИЕ ПРИМЕРЫ 145 исход |3, который имеет место (т. е. прежде всего следует спросить, принадлежат ли или не принадлежат загадан- ные два числа к первой группе, содержащей 2475 пар чи- сел). Вслед за этим надо точно так же разбить на две по возможности близкие по численности части ту группу ис- ходов Р, к которой оказался принадлежащим интересую- щий пас исход, и выяснить, к какой из этих двух меныпих частей он относится, и т. д. Ясно, что при этом мы всегда определим загаданную пару чисел с помощою не более чем тринадцати вопросов. Заметим еще, что отличие задачи 2G от задачи 25 мож- но считать чисто словесным. Ясно, что в решении задачи 25 играет роль только общее количеством тех чи- сел, одно из которых загадано. При этом, разумеется, все- гда можно считать, что эти п чисел являются номерами каких угодно объектов — например, номерами п каких-то предметов, или п пар чисел, или п каких-то других групп чисел и т. д.— на решение задачи это никак не повлияет. Но если считать, что число п в задаче 25 равно 4950 и что соответствующие 4950 чисел — это номера всевозможных пар чисел, каждое из которых не превосходит 100, то мы придем к задаче 26. Точно так же показывается, что наименьшее число во- просов, с помощью которых можно определить загаданные т чисел, не превосходящих п, равно наименьшему целому числу к, такому, что к log С™- Если же, например, мы знаем, что загадано или одно число, не превосходящее п, или ни одного числа, то для того, чтобы выяснить, было ли число загадано и если да, то какое именно, требуется пе меньше чем log (п + 1) и пе больше чем log(n + 1) + 1 вопросов: ведь в этом случае число возможных ис- ходов соответствующего опыта |3 равно п + 1 (единица в этой сумме соответствует случаю, когда никакое число не было загадано). Наконец, если предположить, что было - „ п загадано не более т чисел, где ткаждое из ко- торых не превосходит п, то число вопросов, нужных для выяснения того, сколько чисел было загадано и какие имен- но, будет заключено между log^ + C^ + .-. + ^ + l) и log Ifin + Сп -f- . . . Ч- Сп + 1) 4- 1.
146 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III В самом деле, рассматриваемый здесь опыт р может иметь С™ + СТ-1 + + Сп + 1 разных исходов (поскольку могут оказаться загаданными: или одна из С” групп из т чисел, или одна из С™ 1 групп из т— 1 чисел, ..., или од- но из Сп - п отдельных чисел, или же вообще ни одно из чисел). Перенумеровав эти N = С™ + С™-1 + ... ... + Ch +1 исходов опыта р числами от 1 до N, мы придем к задаче 25 (в которой лишь число п заменено на N). Ни- же мы еще воспользуемся этим замечанием. § 2. Задачи на определение фальшивых монет с помощью взвешиваний Этот параграф мы начнем со следующей задачи, весьма близкой к задаче 25. Задача 27. Имеется 25 монет одного достоинства', 24 из них имеют одинаковый вес, а одна — фальшивая — несколько легче остальных. Спрашивается, сколькими езве- шисаниями на чашечных весах без гирь можно обнаружить эту фальшивую монету (ср. «М. с.», задачи 277, 1) и 2)). Опыт Р, результат которого требуется определив, име- ет в этом случае 25 возможных исходов (фальшивой может оказаться любая из 25 монет); эти исходы естественно счи- тать равповер яти м т, т к что И (Р) = log 25. Иначе го- воря, определение фальшивой монеты в данном случае связано с получением информации, измеряющейся числом log 25. Опыт а1; состоящий в одном (каком угодно) взве- шивании, может иметь три исхода (может перевесить левая или правая чашка весов и весы могут остаться в • авнове- сии); поэтому Н (а4) log 3 н информация I (at, Р), по- лучаемая при проведении такого опыта, не превосходит log 3. Рассмотрим теперь сложный опыт Aft = ata2 ... ah, заключающийся в к последовательных взвешиваниях; он дает информацию, не превосходящую к log 3 (ср. выше, стр. 40). Если опыт Aft позволяет полностью определить исход опыта Р, то должно быть Н (Aft) I (Aft, P) H (P) или к log 3 log 25. Отсюда заключаем, что 3ft 25, т. e. *>logl25=-!®-
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 147 пли, так как к — целое число, 3. Нетрудно показать, что с помощью трех взвешиваний всег- да можно определить фальшивую монету. Для того чтобы информация, получаемая при проведении опыта сц, была возможно большей, надо, чтобы исходы этого опыта имели возможно более близкие вероятности. Предположим, что на каждую чашку весов нами положено по т монет (яс- но, что не имеет смысла класть на чашки разнос число мо- нет: в этом случае исход соответствующего опыта будет заранее известен и полученная информация будет равна нулю); не положены на весы будут 25—2т монет. Так как вероятность того, что фальшивая монета окажется в дан- ной группе из п монет, равна ~ (ибо все исходы опыта Zu мы считаем равновероятными!), то три исхода опыта а, _ т т 25 — 2т - будут иметь вероятности к?, и —; наиболее ZO Zu Zu близки одна к другой эти вероятности будут в том слу- чае, когда m = 8 и 25 — 2т = 9. Если мы положим на каждую чашку весов по 8 монет, то первое взвешивание (опыт сц) позволит нам выделить группу в 9 монет (если весы окажутся в равновесии) или в 8 монет (если одна из чашек перетянет), в которой находится фальшивая моне- та. В обоих случаях при втором взвешивании (опыт а2) для получения наибольшей информации на обе чашки ве- сов следует положить по 3 монеты из этой группы; при этом сложный опыт а,а2 позволяет выделить группу в 3 (или в 2) монеты, среди которых находится фальшивая. При третьем взвешивании (опыт ос3) мы положим на обо чашки весов по одной из оставшихся подозрительными мо- нет и легко обнаружим фальшивую. Точно так же показывается, что наименьшее число к взвешиваний, позволяющих обнаружить одну фальшивую (более легкую!) монету, имеющуюся в группе из п монет, определяется неравенствами 3й-1 < п С 3'“' или к - 1 < -^4 ^к. (2) log 3 ' Если п — большое число, то это число к с большой сте- log п пенью точности дается отношением т. е. отношением log 3
148 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш энтропии опыта |3, состоящего в определении фальшивой монеты, к наибольшей информации, которую можно полу- чить при одном взвешивании (ср. стр. 143). В дальнейшем нам будет полезен также аналогичный результат, относящийся к несколько более .общей поста- новке задачи. Прежде всего ясно, что если мы имеем п мо- нет, одна из которых является фальшивой — несколько более тяжело й, чем остальные,— то наименьшее чи- сло к взвешиваний на чашечных весах без гирь, позволяю- щее обнаружить эту фальшивую монету, определяется теми же неравенствами (2): замена более легкой монеты более тяжелой практически не меняет наших рассужде- ний. Рассмотрим теперь более общий случай, когда наши п монет разбиты на две группы — группу А из а монет и группу В из Ъ = п — а монет, причем известно, что одна из этих п монет является фальшивой и что, если эта мо- нета принадлежит к группе А, то она легче остальных, а если она принадлежит к группе В, то тяжелее остальных, и покажем, что и здесь нименъшее число к взвешиваний, позволяющих обнаружить (фальшивую монету, дается ш равенствами (2) х); при Ъ = 0 это утверждение переходит в сделанное выше. В самом деле, так как интересующий нас опыт р, оче- видно, может иметь п различных исходов, го 3А п — в противном случае опыт Aft = a1a2---®h, состоящий в Ar-кратном взвешивании, никак не может однозначно определить исход опыта р (ибо в этом случае I (A h, |3) <2 Н (Аь) к log 3 = log 3,с < log n = H(P); исходы P мы, как и всегда, считаем равновероятными). С другой стороны, при п Зк фальшивую монету всегда можно выделить к взвешиваниями; это легко показать, восполь- зовавшись, например, методом математической индукции. В самом деле, если к = 1, т. е. п = 1.2 или 3, то наше ут- верждение почти очевидно (с одним ограничением, указан- ным в подстрочном примечании на этой странице): при п = = 1 фальшивая монета известна заранее, а при п = 2 (и а — 2 или Ъ = 2) и при п = 3 для ее определения до- статочно сравнить вес двух монет из одной группы. Пред- х) Это утверждение имеет одно очевидное исключение: если п = 2, а = Ъ = 1, то фальшивую монету, разумеется, вовсе не- возможно выделить.
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 149 положим теперь, что мы уже доказали, что при п 3* фальшивую монету всегда можно выделить при помощи не больше чем к взвешиваний и пусть 3fc<;n<^3,r+1. Легко видеть, что при этом всегда можно будет отобрать четное число 2х монет из группы А и четное число 2//. монет из группы В так, чтобы числа х и у удовлетворяли условиям: 2х 4- 2у < 2-3*, п - (2т + 2//) < 3*, т. е. 3 > х + у > —2— Поместим теперь на каждую чашку весов по х монет из группы А и по у монет из группы В', не использованными у нас останутся nt — п — 2х — 2у 3,с монет. Если весы при таком взвешивании (опыт aj останутся в равновесии, то значит фальшивая монета находится среди nt отложен- ных монет (т. е. среди = а — 2х не участвующих в первом взвешивании монет группы А или среди bi = Ъ — — 2у не использованных монет группы В)-, если одна из чашек перетянет, то фальшивая монета находится средн х монет группы А, лежащих на более легкой чашке, или сре- ди у монет группы В, лежащих на более тяжелой чашке. Но так как 3* иг + у Зк, то согласно сделанному предположению мы в обоих случаях сможем выделить фальшивую монету, произведя еще не более чем к взвеши- ваний г); следовательно, из наших п 3'“’+1 монет одну фальшивую, наверное, можно выделить при помощи не больше чем к 4- 1 взвешиваний. Это рассуждение и завер- шает доказательство сделанного выше утверждения. Рассмотрим теперь следующую, несколько более слож- ную задачу такого же типа, пользующуюся большой попу- лярностью в школьных математических кружках: Задача 28. Имеется 12 монет одного достоинства-, 11 из них имеют одинаковый вес, а одна — фальшивая — 1) Если п > 2, то случай, когда х — у = 1 или Е теперь уже не представляет исключения: ведь помимо одной со- мнительной монеты из группы А и одной — из группы В мы имеем теперь еще некоторое число заведомо не фальшивых («настоящих») монет; сравнив вес одной их них с весом одпой из сомнительных монет, мы сможем одним взвешиванием выделить фальшивую монету.
150 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III отличается по весу от остальных {причем неизвестно, легче ли она или тяжелее настоящих). Каково наименьшее число взвешиваний на чашечных весах без гирь, которое позволяет обнаружить фальшивую монету и выяснить, легче ли она, чем остальные монеты, или тяжелее! Решить тот же вопрос для случая 13 монет (ср. «М. с.», задача 277(3) или Д. О. Ш к л я р с к и й, Н. Н. Ч е и ц о в, И. М. Я г- л о м [51], задача 6а)). Здесь рассматривается опыт (3, имеющий 24 (или 26) воз- можных исходов (каждая из 12 или из 13 имеющихся монет может оказаться фальшивой, причем она может быть или легче или тяжелее настоящих). Если считать все эти исхо- ды равновероятными, то энтропия Н (|3) опыта [> будет рав- на log 24 или log 26. Таким образом, требуется получить log 24 или, соответственно, log 26 единиц информации. Так как, произведя сложный опыт А& = ... ah, со- стоящий в к взвешиваниях, мы можем получить информа- цию, не большую, чем к log 3 = log 3\ а З3 = 27, то с первого взгляда кажется правдоподобным, что и в случае 12 и в случае 13 монет трехкратное взвешивание может по зволить найти фальшивую монету и выяснит! леи • о ли опа или тяжелее других. 11а самом доле, однако, л случае 13 монет трех взвешиваний может оказаться недостаточно; этот факт весьма просто доказывается с помощью несколь- ко более тщательного вычисления информации, доставляе- мой первым взвешиванием. В самом деле, первое взвешивание может заключаться в том, что на обе чашки весов кладется по 1, по 2, по 3, по 4, по 5, или, наконец, по 6 монет; соответствующие опы- ты обозначим через а*1', где i может быть равно 1, 2, 3, 4, 5 или 6. Если i равно 1, 2,3 или 4 и весы в результате пер- вого взвешивания остаются в равновесии, то опыт а,'1 указывает, что фальшивой является одна из 13—2г отло- женных монет; так как это число не меньше 5, то остаются возможными 10 (или еще больше) исходов и два последую- щих взвешивания не могут гарантировать выявления фаль- шивой монеты и выяснения того, легче ли она или тя- желее остальных (ибо 2 log 3 = log 9 < log 10). Если i равно 5 или бив опыте одна (например, правая) чаш- ка весов перевесила, то опыт указывает, что либо фальшивой и более тяжелой является одна из г «правых»
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 151 монет, либо же фальшивая и более легкая — одна из I «левых» монет. Таким образом, и здесь у нас остается еще I i = 2г 10 возможных исходов опыта р — и опять двух взвешиваний недостаточно для того, чтобы выяснить, какой из них на самом деле имеет место. Перейдем теперь к случаю 12 монет. Пусть при первом взвешивании мы положили па обе чашки по I монет (опыт с4Д. Если при этом чашки весов остались в равновесии (исход Р опыта подобные обозначения мы будем упот- реблять и в дальнейшем), то фальшивой является одна из 12—2г отложенных монет, что отвечает 2 (12—2г) равнове- роятным исходам рассматриваемого опыта р (из общего чи- сла 24 исходов). Если перевесила правая чашка (исход П), то либо фальшивой и более тяжелой является одна из I «правых» монет, либо фальшивой и более легкой явля- ется одна из г «левых» монет — эти случаи отвечают 2г исходам Р; точно так же случаю, когда перевесила левая чашка (исход Л) отвечают еще 2г исходов р. Таким обра- зом, три исхода опыта сх/Д имеют вероятности 2 (12 — 21) 6 — i 2i i _ i 24 = 6 ’ И ~ '12' И 12 • Отсюда сразу следует, что из шести опытов с/Д, ai3\ ai4), aiS) и ai6> наибольшую энтропию имеет опыт о44), три исхода которого равновероятны; поэтому в этом случае мы получим наибольшую информацию и наиболее целесообразно начинать именно с пего. Далее рассмотрим отдельно два случая. А. При первом взвешивании чашки весов остались в равновесии. В таком случае фальшивой является одна из 4 отложенных монет. Нам надо при помощи двух взве- шиваний определить, какая именно из них является фаль- шивой, и выяснить, легче ли она или тяжелее остальных; так как у нас осталось 2-4 = 8 возможных исходов опыта Р, а 2 log 3 = log 9 log 8, то можно ожидать, что это возможно. Если, однако, положить па каждую чашку ве- сов по одной из наших четырех монет, а две монеты отло- жить (опыт а^) и чашки весов останутся в равновесии, то последним взвешиванием нам надо будет определить, какой именно из четырех исходов, остающихся еще
152 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш возможными, имеет место — а этого сделать нельзя (ибо 4 3). Если же положить на каждую чашку по две из на- ших четырех монет (опыт а®) и одна из двух чашек пере- тянет, то у нас снова остаются возможными еще четыре исхода опыта р—и опять нам будут нужны по крайней мере еще два взвешивания, чтобы полностью определить, какой из них имеет место. Таким образом, создается впечатление, что и в случае 12 монет трех взвешиваний недостаточно для решения задачи. Однако это заключение является преждевременным. Ведь у нас в запасе есть еще 4 Ц- 4 = 8 заведомо настоя- щих мопет, которые могут участвовать во втором взвеши- вании; поэтому у пас имеется значительно больше двух возможных вариантов опыта сс2. Обозначим через а2’х) опыт, состоящий в том, что на правую чашку весов кладут- ся I из наших четырех подозрительных монет, а на левую 7 г из этих монет и еще г — у заведомо настоящих монет (разумеется, не имеет смысла класть настоящие монеты на обе чашки весов); в таком случае а21, х> и а22,2) — „то те опыты и а2г\ которые рассматривались пмпю. *h рез р (Р), р (П) и р (Л) мы обозначим соогвеи iiieniio не роятности того, что при опыте а2'^ чашки весов останутся в равновесии и что перетянет правая или левая чашка ве- сов. Эти вероятности легко подсчитать; они равны отноше- нию числа тех исходов р, при которых а2’х) имеет исход Р, соответственно П или Л, к общему числу оставшихся возможными исходов р (это число равно 8). Так как, оче- видно, i + 7 4, то все опыты легко перечислить; отвечающие им значения вероятностей р (Р), р (Л) и р (Л) собраны в таблице на следующей странице, в которой указана также энтропия (в битах) Н (сс2‘’з)) опыта а2 ’ Я (рав- ная — р (Р) log р (Р) — р (П) log р (Л) — р (Л) log р (Л)). Из этой таблицы видно, что наибольшую энтропию име- ют опыты а22'х) и сс23’0); поэтому для получения наиболь- шей информации следует в процессе второго взвешивания либо положить на одну чашку весов две из четырех сомни- тельных монет, а на вторую чашку — одну из сомнитель- ных монет и одну заведомо настоящую, либо положить на одну чашку три сомнительные монеты, а на вторую — три заведомо настоящие. Нетрудно видеть, что в обоих
§ 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 153 Р (Р) Р (П) V (Л) Н (а20- .’>) 1 1 2 2 2 3 3 4 1 О 2 1 О 1 О о 2 2 _3 т о 2 т 2 ~2 о 2 Т о 2 4 8 2 2 8 2 4 2 2 2 8 2 2 2 4 2 8 2 Y 2 8 2 4 2 2 2 8 2 2 1,50 1,06 1,00 1,56 1,50 1,00 1,56 1,00 случаях мы можем затем третьим взвешиванием полностью определить исход р. Действительно, если опыт сс^2’х) или опыт сс^* о) имеет исход Р, то фальшивой является един- ственная сомнительная монета, не участвующая во втором взвешивании; при этом для того, чтобы выяснить, легче она или тяжелее остальных, надо сравнить вес ее с весом одной из 11 заведомо настоящих монет (3-е взвешивание). Если опыт с42’П имеет исход П, то либо фальшивой явля- ется одна из двух «правых» монет, причем эта монета тя- желее остальных, либо фальшивой является единствен- ная сомнительная монета, лежащая на левой чашке, при- чем она легче настоящих; сравнив вес двух «правых» монет (3-е взвешивание), мы узнаем исход р (если эти мо- неты имеют одинаковый вес, то фальшивой является третья из подозреваемых монет; в противном случае — более тя- желая из двух взвешиваемых). Если опыт с^3, 0) имеет ис- ход П, то фальшивой является одна из трех лежащих на правой чашке монет, причем она тяжелее настоящих; сравнивая вес двух из этих монет (3-е взвешивание), мы узнаем исход р (фальшивой является более тяжелая из
154 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III сравниваемых монет, а если они одинаковы, то третья мо- нета). Аналогично разбираются и случаи, когда опыты cd2,1) или сД3,0> имеют исход Л. Б. При первом взвешивании одна из двух чашек весов (например, правая) перетянула. В таком случае либо одна из четырех «правых» монет является фальшивой и более тяжелой, чем остальные, либо одна из четырех «левых» монет является фальшивой и более легкой. При втором взвешивании мы можем на правую чашку весов положить ii «правых» монет и i2 «левых», а на левую чашку — /х «правых» монет, /2 «левых» и (4 4- г2) — (р 4- 7г) заведомо настоящих монет из числа не участвующих в первом взвешивании (опыт а21,г1’,1’?г); мы считаем, что Ч + г2 > 71 + 7 г). Здесь тоже можно было бы составить таблицу энтропий опытов а2г'’**’ при всевозможных зна- чениях ч, г2, 71 и /2; однако, так как число возможных вариантов тут довольно велико, то некоторые из них целесообразно исключить с самого начала. Заметим, что так как информация, которую можно по- лучить об исходе р, произведя третье взвешивание (опыт ос3), не превосходит log 3 (ибо II (а3) log 3), то поело двух взвешиваний у нас должны остаться и о б о л и о трех возможных исходов опыта р в противном случае опыт сс3 не даст возможности однозначно определить ис- ход р. Отсюда, прежде всего, следует, что число сомни- тельных монет, не участвующих во втором взвешивании, не должно превосходить 3, так как в случае исхода Р опыта сс2 под подозрением останутся именно эти монеты. Таким образом, имеем 8 — (ч г2 Д 72) 3, т. е. ч + i2 4~ р 4" /2 > 3 или, так как ч + Ч > 71 + /2, Ч + Ч > 3, /1 4- /2 > 5 — (ч 4- i2). Далее, если опыт а(21,1*: имеет исход П, то либо од- на из ч «правых» монет, лежащих на правой чашке, явля- ется фальшивой и более тяжелой, либо одна из /2 «левых» монет, лежащих слева, является фальшивой и более легкой. Совершенно так же в случае исхода Л можно подо- зревать, что фальшивой является одна из ч «левых» мо- нет, лежащих справа, или одна из «правых» монет,
S 2] ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 155 лежащих слева. Отсюда получаем еще два неравенства: г1 + 7а 3 и г2 + 71 3, выполнения которых естественно требовать. Наконец, ясно, что должны выполняться также неравенства Ч + 71 га + 7а 11 (*1 + га) — (71 + 7г) 4. Перечислим теперь все случаи, удовлетворяющие на- шим условиям: 11 г2 Л J2 Р(Р) Р (Л) Р(Л) Н (а2(й> h, id) 2 1 2 1 1 4 3 8 3 8 1,56 2 1 2 0 _3 1 3 1,56 8 4 8 2 1 1 1 3 3 1 1,56 8 8 4 1 2 1 2 1 3 3 1,56 4 8 8 1 2 0 2 3 3 1 1,56 8 8 4 1 2 1 1 3 1 3 1,56 8 4 8 3 1 1 0 3 8 3 8 1 1,56 1 3 0 1 3 1 3 1,56 8 4 8 2 2 1 1 1 3 3 1,56 4 8 8 2 2 1 0 3 1 3 1,56 8 4 8 2 2 0 1 3 3 1 1,56 8 8 4 3 2 1 0 1 3 3 1,56 4 8 8 2 3 0 1 1 3 3 1,56 4 8 8
156 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. 111 Таким образом, мы видим, что здесь имеются уже не 2, как в предыдущем случае, а целых 13 вариантов опыта а2, при которых этот опыт содержит одну и ту же наибольшую информацию относительного опыта р (совершенно ясно, что здесь информация I (а2, Р) равна энтропии Н При любом выборе опыта а2 этой информации оказывается достаточно для того, чтобы иметь возможность полностью определить исход р с помощью еще одного, 3-го, взвешива- ния. Так, например, в случае исхода Р опыта с42,1;2,1) фальшивой является одна из двух не участвующих во вто- ром взвешивании «левых» монет; так как мы знаем, что эта монета легче настоящей, то для того, чтобы найти ее, до- статочно сравнить вес этих двух монет (или сравнить одну из них с заведомо настоящей). В случае исхода П того же опыта либо фальшивой и более тяжелой окажется одна из двух лежащих па правой чашке «правых» монет, либо фальшивой и более легкой будет единственная «левая» мо- нета, лежащая на левой чашке; для того чтобы найти фаль- шивую монету, нам достаточно сравнить вес двух подо- зреваемых «правых» монет. Точно так же исследуется случай, когда опыт а22’1,2,1) имеет исход Л. Этим полностью завершается исследование случая 12 монет. Теперь мы можем вернуться к случаю 13 монет и доказать, что в этом случае достаточно четырех взвешива- ний (ранее мы показали только, что трех взвешиваний в этом случае может не хватить). Положим на обе чаши ве- сов по 4 монеты; пять монет отложим в сторону. Если одна из двух чашек весов перетянет, то мы будет иметь ту же си- туацию, с которой встретились, разбирая случай исхода Л первого взвешивания в задаче о 12 монетах (с той несу- щественной разницей, что теперь у пас имеются уже не 4, а 5 заведомо настоящих монет); в этом случае уже тремя взвешиваниями можно обнаружить фальшивую монету и узнать, легче ли опа или тяжелее остальных. Если же ве- сы окажутся в равновесии, то нам надо будет выделить фальшивую монету не из 4, а из 5 сомнительных. Здесь мы можем начать со сравнения веса какой-нибудь одной из подозреваемых монет и заведомо настоящей: если их ве- са окажутся различными, то наша задача сразу будет разрешена; в противном случае мы снова придем к случаю 4 сомнительных монет, при котором двумя взвешиваниями можно определить фальшивую монету и выяснить, легче
g 21 ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 157 ли она или тяжелее остальных (см. случай А на стр. 151 и след.). Обобщим теперь условия предыдущей задачи: Задача 29. Имеется п монет одного достоинства; одна из этих монет — фальшивая, более легкая или более тяжелая, чем остальные. Каково наименьшее число к взве- шиваний на чашечных весах без гирь, которое позволяет найти фальшивую монету и определить, легче ли она или тяжелее, чем остальные (ср. Д. О. Ш к л я р с к и й и др. [51], задача 66)). Прежде всего, поскольку энтропия рассматриваемого здесь опыта р (все исходы которого мы, как всегда, считаем равновероятными) равна log 2п, а энтропия опыта Aft = = ага2 ... aR, состоящего в /«-кратном взвешивании, не превосходит k log 3 = log 3ft, то должно быть о 3* 2тг^3 , т. е. или, так как п и к — целые числа и 3* — нечетно, 3ft— 1 2 Следовательно, можно утверждать, что fc>log3(2n + l) = -ggg3+1) Так, например, если п —=13, то фальшивая монета не может быть определена менее чем тремя взвешиваниями. Нетрудно видеть также, что даже и в том случае, когда ЗА-_1 п =—г,—, к взвешиваний не всегда позволяют обнаружить фальшивую монету и определить, легче ли она или тяжелее остальных (так, при п = 13 фаль- шивая монета не во всех случаях может быть определена тремя взвешиваниями). Доказательство этого в общем слу- чае принципиально не отличается от приведенного выше доказательства для частного случая п = 13 и к = 3
158 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III (см. начало решения задачи 28). Действительно, при оценке энтропии опыта A/: = aja2 «к мы до сих пор исходили из того, что энтропия каждого отдельного взвешивания мо- жет равняться log 3; в нашем случае, однако, из-за того, 3*__________1 что п — —g— не делится на 3, уже энтропия первого взвешивания (опыт cQ не может достигнуть этого значе- ния (ибо три исхода первого взвешивания никак не могут 3 [З^-1____________________________________________1) быть равновероятны). Поскольку п — 1=—S - Де- лится на 3, то ясно, что выгоднее всего при первом взвеши- вании на каждую чашку весов положить по л—1 З*-1 —1 3 ~ 2 монет, а остальные п + 2 3fc 1 + 1 3 — 2 монет отложить в сторону; в этом случае вероятноеiи трех / я - 1 1 1 п I исходов опыта ctj ( равные —— « = \ о «) 3/1 3 1 1 л+2 1 . 2\ _ _ = у — з^и ——: п = у + jj-,, I будут ближе всего друг к другу и, следовательно, энтропия Н (aj соответствую- щего опыта будет больше, чем в любом другом случае. Но легко убедиться, что остающаяся после этого степень неопределенности такова, что она не может быть полностью уничтожена при помощи к — 1 взвешиваний. Проще всего это показывается так: предположим, что при первом взвеши- вании чашки весов окажутся в равновесии; в таком случае п 2 3lC~i I 1 фальшивая монета находится среди —монет, отложенных в сторону при этом взвешивании, так что у нас останутся еще 3R_1 + 1 равновероятных исходов ин- тересующего нас опыта р (фальшивой может оказаться лю- 3К-1 I J бая из —g— отложенных монет и она может быть или легче или тяжелее настоящих). Выяснив, какая из этих возможностей на самом деле имеет место, мы получим ин- формацию, равную log (3,L1 -f- 1), что превосходит наи-
S 21 ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 119 большую информацию log — (к — 1) log 3, которую можно получить в результате к — 1 взвешиваний. Анало- гично показывается, что при любом другом выборе опыта 04 (первого взвешивания) этот опыт может иметь такой ис- ход, при котором оставшихся к — 1 взвешиваний будет недостаточно для однозначного выяснения исхода опыта р. Итак, мы видим, что если то к взвешиваний может оказаться недостаточно. Пока- . 3* —1 , . 3* —3 жем теперь, что если п 5— (т. е. если л %—=—; Ct Ci другими словами, если к log3 (2гг + 3) = log ^3^), то к взвешиваний уже будет достаточно*); этим реше- ние нашей задачи будет завершено. Начнем со следующей вспомогательной задачи: пусть, кроме п монет, одна из которых фальшивая, у пас имеется по крайней мере одна заведомо настоящая мо- нета; требуется выделить фальшивую монету и определить, легче ли она или тяжелее остальных. В этом случае мы . 3»-1 по-прежнему можем утверждать, что если п , то к взвешиваний будет недостаточно (ибо степень неопре- деленности исходного опыта от добавления настоящих мо- нет, разумеется, не изменится). Однако теперь мы уже ЗА:_| не можем быть уверены, что и при п = —%— фальши- вую монету заведомо нельзя определить при помощи к взвешиваний. В самом деле, использовав дополнительную настоящую монету, мы можем добиться большей, чем рань- ше, близости вероятностей трех исходов первого взвешива- ния и, следовательно, получить при этом взвешивании большую информацию; для этого надо только положить п - 2 3й-1 1 , на каждую чашку весов по —~щ— монет (одна О Ct из использованных 3fc_1 + 1 монет — имеющаяся у нас 1) Это утверждение имеет два очевидных исключения: если п = 1, то нельзя определить, легче или тяжелее фальшивая моне- та настоящих (которых в этом случае нет совсем); если п = 2, то фальшивую монету невозможно выделить.
160 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ 1Гл. III ч п — 1 3* 1 — 1 настоящая монета), а остальные —=— = т— сомни- «j Z тельных монет отложить в сторону. В таком случае веро- ятности отдельных исходов первого взвешивания будут, как легко видеть, равны и п — 1. „ 1 1 —:?г —у —3^-, т. е. они действительно будут несколько более близки друг к ДРУГУ1 чем раньше; следовательно, и энтропия Н (aj опыта Ил здесь будет больше. Этой небольшой разницы уже оказывается достаточно для того, чтобы обеспечить возможность выделения фальшивой монеты иопределения того, легче ли она или тяжелее других, при помощи к взвешиваний. Для доказательства того, что при наличии и пашем распоряжении хоть одной заведомо настоящей мопегы при 3*_______i п —g— можно обойтись к нлпешипапиями, удобно воспользоваться методом математической индукции. Это утверждение совершенно оченидно при к = 1 (т. е. при п = 1). Предположим теперь, что оно уже доказано для некоторого значения к и покажем, что в таком случае 3^_______3&+1_________। при -—=— к оказывается достаточно к + 1 взвешиваний; отсюда уже будет следовать справедливость нашего утверждения во всех случаях. При первом взве- шивании на одну чашку весов положим какое-то число х из наших п монет, а па вторую х — 1 из п монет и еще одну заведомо настоящую монету; неиспользованными при атом окажутся п, — п — (2х — 1) монет. Число х выбе- рем так, чтобы было 2х — 1^3* и __I я — (2х — 1)< — т. е. 3* 2х — 1 п 3/£ —1 2
§ 21 ЗАДАЧИ НА ОПРЕДЕЛЕНИЕ ФАЛЬШИВЫХ МОНЕТ 161 3К+1 _ j ясно, что при п ------------g— это сделать можно (ибо 3|г — 1 . З'с+1 — 1 3|г — 1 Qfc\ п-----5— =---------5— = 3 . Если при первом Z ! взвешивании чашки весов окажутся в' равновесии, то в дальнейшем нам останется только выделить д/с__________________________________1 фальшивую монету из числа —5— отложенных монет; так как у нас имеются, кроме того, заведомо настоя- щие монеты, то (в силу предположения индукции) это мо- жно сделать к взвешиваниями. Если же одна из чашек пе- ревесит, то у нас останутся 2ж — 1 Зк сомнительных монет; при этом мы будем энать, что если фальшивой яв- ляется одна из некоторых а монет, то она является более легкой, чем остальные, а если одна из Ъ остальных (а + + Ъ З'с), то более тяжелой (если перетянула первая чашка, то а = х — 1, b — х; если перетянула вторая, то « = х, Ъ = х — 1). В этом случае также к последующими взвешиваниями всегда можно выделить фальшивую моне- ту (см. выше, стр. 148—149). Вернемся теперь к нашим первоначальным п —2— монетам, одна из которых является фальши- вой. При первом взвешивании положим на обе чашки ве- З'с“’ — 1 сов по 2— монет; неиспользованными при этом оста- нутся gfc-i-l 3ft — 3 3/с-1 — 1 пг = п — 2----2----—2--------— *) ~-----------2--- монет L). Если весы останутся в равновесии, то сомнитель- 3S-1___________________1 ными будут —2 неиспользованных монет; так как, кроме того, мы будем иметь еще 3fe_1 — 1 заведо- мо настоящих монет, то, согласно доказанному выше, при помощи последующих к — 1 взвешиваний мы сможем вы- делить фальшивую монету и определить, легче ли она или х) В том случае, когда п р а в н о —--> информация I (ах,Р) относительно Р, содержащаяся в нашем опыте (1-е взвешивание), будет точно равна log3. 6 A. M. Яглом, И. M. Яглом
1G2 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш тяжелее настоящих. Если же одна из двух чашек перетя- нет, то мы будем иметь — 1 < 3fc_1 фальшивых монет и будем знать, что если фальшивой является одна из опре- 3^1-1 деленных а = —% монет, то она легче настоящих, 3^-1___________________1 а если одна из Ъ —-------(= а) Других, то тяжелее; в силу сказанного на стр. 148 здесь мы тоже при помощи к — 1 последующих взвешиваний сможем выделить фаль- шивую монету. Тем самым доказательство сделанного ра- нее утверждения о требующемся числе взвешиваний пол- ностью завершено. Отметим еще, что при большом п число к, определяе- мое из неравенств log^2n + 3) log 3 с большой степенью точности можно заменить отношением log2n , , log2n , а „ (в том смысле, что отношение к : -.-—щ при воз- log 3 ' ’ log 3 растании п быстро стремится к единице). Условия задач, связанных с определенном фальшивых монет с помощью взвешиваний на чашечных весах без гирь, можно, разумеется, весьма разнообразить. До сих пор мы всегда считали, что лишь одна из имеющихся монет является фальшивой (имеет вес, отличающийся от веса остальных монет); можно, однако, также предполо- жить, что среди заданных монет имеются две или большее число фальшивых; еще более трудны задачи, в которых само число фальшивых монет предполагается неизвест- ным х). Можно также считать, что фальшивые монеты мо- гут быть двух или более различных весов; представление о возникающих при этом новых задачах может дать сле- дующая проблема, поставленная польским математиком Г. Штейпгаузом ([56], стр. 42): -1) По поводу случая двух или более фальшивых задач см., найример, [52] (ср. также [53]); общему случаю посвящены статьи [54] и [55], в последней из которых подробно обсуждаются несколько разных вариантов задачи о фальшивой монете (с ука- занием на их возможное прикладное значение) и приведена обширная библиография.
ОБСУЖДЕНИЕ 163 6 3] Задача 30. Имеется 4 предмета разного веса и ча- шечные весы без гирь, на которых можно сравнивать веса любых двух предметов. Укажите способ, позволяющий с по- мощью самое большее пяти взвешиваний установить после- довательность весов этих предметов. Докажите, чт.о не су- ществует способа, гарантирующего возможность установ- ления очередности весов предметов при помощи не более чем четырех взвешиваний. Для 10 предметов попарно разного веса существует спо- соб установления очередности весов предметов с помощью не более 24 взвешиваний (найдите его); можно ли это число взвешиваний уменьшить? Полное решение этой задачи (в которой, разумеется, число предметов на самом деле может быть произвольным) до сих пор неизвестно; некоторые частные относящиеся сюда результаты можно найти, например, в работах [571 и [581 х). Существует и ряд других задач подобного рода (об этом будет подробнее сказано в следующем пара- графе); как правило, они являются весьма трудными, но теория информации помогает отыскать хотя бы общий под- ход к их исследованию. § 3. Обсуждение В §§ 1 и 2 этой главы понятия энтропии и информации, введенные в гл. II, применялись к анализу некоторых ло- гических задач типа «математических развлечений». Из дальнейшего будет видно, что рассуждения того же рода оказываются полезными также и при решении ряда до- статочно серьезных вопросов. Тем более целесообразно обсудить здесь подробнее общую идею всех рассмотренных примеров; при этом мы, естественно, придем также к не- сколько более общей постановке задач, весьма важной для следующей главы. Все примеры в §§ 1 и 2 были построены по одной схеме. Во всех этих примерах нас интересовал некоторый объект из конечного множества М однотипных объектов; так, в *) Ср. также рассчитанную на учащихся средней школы статью: Г. М. Адельсон-Вельский, И. Н. Бернштейн, М. Л. Г е р в е р, Кто поедет в Рио?, журнал «Квант», № 8, 1972, стр. 2—8, посвященную близкой тематике. 6*
164 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III задачах 23—24 множество М состояло из нескольких го- родов — и требовалось определить, в каком городе нахо- дится наблюдатель Н.; в задаче 25 множество М состояло из целых положительных чисел, а в задаче 26 — из Cl0(j — = 4950 пар чисел', в задачах 27—29 множество М состоя- ло из монет — и нам требовалось выделить одну из этих монет, а именно, фальшивую монету; наконец, в за- даче 30 множество М состояло из всевозможных упорядо- ченных наборов имеющихся в нашем распоряжении пред- метов (так что в случае 4-х предметов множество М со- держало 4! = 24 всевозможных упорядочиваний наших предметов) — и задача состояла в том, чтобы выяснить, какой из этих порядков соответствует последовательно- сти весов предметов, начиная с самого тяжелого из них и кончая самым легким. Употребляя привычную нам из пер- вых двух глав книги терминологию, можно сказать, что мы говорили об о п ы т е Р, могущем иметь п различных исходов Вг, В2, ..., Вп; множество всех этих исходов мы и обозначили через М. Для выделения интересующего нас объекта (исхода опыта Р) использовались вспомога- тельные о п ы т ы а; каждый из этих опытов мог иметь т < п возможных исходов (этими опытами а бы- ли либо вопросы, могущие иметь 2 разных ответа: «да» и «нет», либо взвешивания на чашечных весах без гирь, мо- гущие иметь 3 разных исхода В, ПиЛ)—и эти исходы вы- деляли те или иные подмножества множества М исходов Р, позволяя отбрасывать ряд из исходов Вх, В2, ..., Вп как «ложные» или «не выполняющиеся». Требовалось указать наименьшее число вспомогательных опытов а, необходимых для выяснения правильного ответа на интересующий нас вопрос (т. е. для установления исхода опыта р) и описать, как именно можно быстрее всего най- ти этот ответ. Сходную с описанной структуру имеют пе только «иг- рушечные» задачи 1—2, но и многие жизненно важные проблемы; к ним относятся, например, в первую очередь интересующие пас в этой книге задачи рационального ко- дирования сообщений (см. гл. IV), задачи сортировки пред- метов по тем или иным критериям, задачи отыскания сло- ва в словаре или требуемой книги в большой библиотеке, задачи составления рациональных программ контроля тех или иных объектов, например станков на фабрике и т. д.
t 3] ОБСУЖДЕНИЕ 165 Такая широта возможных приложений вызвала в наше время большой интерес к тематике §§ 1 и 2 и привела к со- зданию разработанной терминологии. Системы опытов а, приводящие к обнаружению интересующего нас объекта (исхода опыта |3), называются вопросниками, а сами опыты а — вопросами; при этом вопросы могут различаться как числом возможных ответов г), так и — в ряде случаев — «ценой вопроса», характеризующей за- траты, которых требует соответствующий опыт а, или усилия, которые надо приложить для «получения ответа» (т. е. для выяснения исхода а). Задача состоит в том, что- бы отыскать такую процедуру «постановки вопросов» (т. е. такую последовательность опытов а), которая при- водит к требуемому ответу (к исходу опыта (J>) с по- мощью наименьшей (по числу или по общей «цене») цепоч- ки «вопросов». Теории вопросников посвящена сегодня огромная литература, из которой мы назовем только моно- графии (59] французского математика К. Пикара и обзорную статью |60|. Ясно, что во всех задачах рассматриваемого рода фак- тически требуется наиболее целесообразно использовать ту информацию об исходе опыта (3, которая содержится в результатах вспомогательных опытов а. Однако представ- ляется, что слово «информация» здесь употребляется в обычном, «житейском» смысле, а вовсе не в том более спе- циальном смысле, которое мы придавали ему в гл. II. В самом деле, введенная в гл. II величина I имела чисто статистический смысл — ведь само ее опреде- ление базировалось на понятии вероятности. В наших же задачах не фигурируют никакие многократно повторяю- щиеся испытания и пе участвуют никакие вероятности; поэтому возможность применения к этим задачам разви- той в гл. II теории на первый взгляд может показаться удивительной. 1) В принципе пе исключена также и ситуация, когда раз- ные опыты а имеют разное число возможных ответов; так, например, можно представить себе такой вариант задачи об отга- дывании фальшивой монеты, когда ищущее эту монету лицо мо- жет либо задавать вопросы человеку, знающему, какая монета является фальшивой (такой опыт может иметь два ответа: «да» и «нет»), либо прибегнуть к взвешиванию монет (этот опыт может иметь три ответа: Р, П и Л).
166 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш Выход из создавшегося положения, которым мы фак- тически все время пользовались, состоит в следующем. Предположим, что мы много раз решаем одну и ту же задачу (т. е. ищем правильный ответ на один и тот же вопрос), причем правильные ответы оказываются в раз- ных случаях различными и каждый из ответов имеет определенную вероятность оказаться правильным; соот- ветствующие вероятности р (В^), р (В2), ...,р(Вп)мы счи- таем произвольными, но заданными нам заранее. В таком случае мы можем говорить об «опыте Р, состоящем в вы- яснении правильного ответа», употребляя слово «опыт» в точности в том самом смысле, в каком употреблялось это слово в предыдущей главе. Опыту р отвечает таблица ве- роятностей исходы сны га 1 * 1 Z?2 | . •. | вп вероятности 1 р (#1) 1 Р (#г) 1 - ... I Р(Вп) и энтропия — р (В,) log р (Bi) — р (В2) log р (Вг) — ... ... — р (Вп) log р (Вп), которую мы, как обычно, обоз- начим через Н (Р). Так как вспомогательные опыты и у пас всегда были «прямо направлены» к выяснению ис- хода р в том смысле, что знание исхода р полностью определяло и исход а, то задание вероятностей п исхо- дов опыта Р позволяет определить и вероятности т исходов любого -такого опыта ах; поэтому и в примене- нии к слово «опыт» можно употреблять в том же смыс- ле, что и в гл. II. Далее, из того, что исход Р полностью определяет исход ах, следует, что условная энтропия 7/р (ai) равна нулю, а условная энтропия J/a, (Р) — разности Н (Р) — Н (ах) энтропий опытов Р и (см. стр. 95). Но условная энтропия Hai (Р) равна средне- му значению энтропий II д^ (Р), ..., Нлт (Р) опыта р, отвечающих различным возможным исходам Ai, ..., Ат опыта ах. Поэтому хоть при одном исходе А, из числа этих т исходов энтропия I! a,-l (Р) окажется не меньше, чем Н (Р) — Н («Д; таким образом, наверное возможны случаи, когда после выясне- ния результата испытания ах остающаяся энтропия (сте- пень неопределенности) опыта р будет не меньше разности Н (Р) Н (ах).
ОБСУЖДЕНИЕ 167 § 3] Ясно, как можно обобщить последнее рассуждение. Выберем какую угодно последовательность вспомогатель- ных опытов (испытаний) аь а2, ah, т. е. рассмотрим некоторый сложный опыт Л/; = а1а2 ••• аь- Бу- дем считать при этом, что отдельные опыты аъ a2, ..., ak не должны быть независимы, т. е. что результаты предше- ствующих испытаний могут отражаться на условиях про- ведения последующих; возможно даже, что при некото- рых специальных исходах нескольких первых опытов а все последующие опыты становятся ненужными, т. е. могут пониматься как опыты, имеющие единственный строго определенный исход (это означает, что сложный опыт A;i состоит из не более чем к опытов а, но не обяза- тельно точно из к таких опытов). В рассмотренных выше примерах знание исхода р всегда определяло исход слож- ного опыта Aft, так что по вероятностям отдельных исхо- дов р можно было найти и вероятности различных исходов сложного опыта AJt; поэтому употребление слова «опыт» в применении к At также не может вызвать недо- разумений. Заметим еще, что если каждый из опытов аь а2, ..., ah может иметь не более чем т исходов, то общее число различ- ных исходов Аь не превосходит тк. Из того, что исход р определяет исход Aft, Следует, что средняя условная энт- ропия На^ (Р) опыта р при условии осуществления слож- ного опыта Aft равна разности Н (Р) — Н (Aft) энтропий опытов р и Ah; поэтому хотя бы при одном исходе Aft (т. е. при каких-то определенных исходах к испытаний а15 а2, ..., аь) «остаточная энтропия» Р будет не меньше, чем Н (Р) - Н (Аь). Предположим теперь, что разность И (Р) — Н (А;.) больше нуля. В таком случае хотя бы при одном исходе сложного опыта Aft у нас будет оставаться еще некоторая неопределенность в исходе опыта Р; другими словами, при многократном повторении всей серии из к опытов а и выделении лишь тех случаев, когда эти опыты имели не- которые определенные заранее результаты, правильным будет оказываться иногда один, а иногда другой из отве- тов на наш основной вопрос. Отсюда вытекает, что в слу- чаях, когда сложный опыт Aft имеет указанный исход, мы не сможем по этому исходу однозначно выяснить, ка- кой именно из ответов на рассматриваемый в задаче вопрос
168 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III является правильным; значит, к опытов а здесь не хвата- ет для такого выяснения. Именно это рассуждение и использовалось выше для решения задач 23—29. При этом учитывалось еще то об- стоятельство, что подобного рода вывод о невозможности выяснения исхода [1 по исходам к опытов а может быть сде- лан всегда, когда хотя бы при одном выборе вероятностей р (77J, р (В2), ..., р (Вп) исходов |3 имеет место неравенство Н (|3) — 77 (Aft) 0. Обычно оказы- вается достаточно рассмотреть лишь «самый невыгодный» случай, когда энтропия опыта (5 принимает наибольшее значение, т. е. когда все исходы этого опыта являются 1 равновероятными: р (7?t) = р (Т?2) = ... = р (Вп) — именно так мы и поступали выше, когда говорили, что «из-за отсутствия каких либо сведений о возможных исходах р мы будем считать все эти исходы равновероят- ными». Ясно, что при таком выборе вероятностей исходов Р будет справедливо равенство: Н (р) = log п. Что же ка- сается сложного опыта А&, то точный подсчет его энтро- пии в конкретных задачах часто нс прост; однако но мно- гих случаях удается ограничиться простейшей оценкой Н (Afe) log тп = к log т, вытекающей из гою факта, что число различных исходов А,, не может превосходить тк. В более сложных случаях мы точно подсчитывали наи- большую «остаточную энтропию» опыта (3, отвечающую наиболее «неудачному» исходу первого опыта а15 и лишь после этого в отношении последующих опытов a2i •••, ап просто использовали то, что энтропия каждого из них пе превосходит log т (ср. выше, стр. 150—151 и 157—158). Отметим еще, что оценка 77(АЙ) к log т сразу приво- дит к важному неравенству ь log п ‘ log т ’ которое, разумеется, можно вывести и пе используя поня- тий теории информации: оно означает лишь, что при нали- чии п разных возможностей нельзя однозначно выделить одну из них при помощи сложного опыта, могущего иметь меньше чем п различных исходов х). Выше наша оценка Ч Подчеркнем, что подсчет числа имеющихся возможностей здесь равносилен использованию простейшего понятия степени неопределенности «в смысле Хартли» (ср. стр. 79). (1)
ОБСУЖДЕНИЕ 169 § 3] нужного числа опытов а часто сводилась к использованию лишь этого простейшего неравенства. Наш основной вывод о невозможности однозначного определения исхода р по исходу сложного опыта Ай в случаях, когда Н (р) — Н (Ай) 0, можно обосновать и несколько иначе. Если исход нашего сложного опыта Ай во всех случаях однозначно определяет исход р, то /7А( (Р) — 0 и, значит, в силу равенства I (Аь, Р) = = Н (Р) — (Р) ипфорамация I (А/(, Р) об опыте р, содержащаяся в опыте Ah, должна быть равна степени неопределенности р, т. е. J (Лй, Р) = И (Р). С другой сто- роны, так как в наших случаях исход опыта р однозначно определял исход сложного опыта Ай, то одновременно I (Р, Ай) = Н (Ай). Таким образом, если сложный опыт Ай (состоящий не более чем из к испытаний а) позволяет во всех случаях однозначно указать правильный ответ на по- ставленный вопрос (т. е. найти исход опыта Р), то должно иметь место равенство = //(Р). Например, в усло- виях задачи 29 легко видеть, что = log 3 1,58бит (все исходы первого взвешивания у пас были равно- вероятны); далее, при любом исходе первого взвешивания второе из них (опыт а2) выбиралось так, что его три исхода 13 3 имели вероятности , -g- и и, следовательно, Hat(a2) = = — у log-^- — log-|- — log1,58 бит (см. стр. 153и 155); наконец,третье взвешивание (опыт а3) в случае,когда а2 1 имело исход с вероятностью , сводилось к сравнению па чашечных весах двух монет заведомо разлого веса, т. е. 3 имело энтропию log 2 = 1, а в остальных — всех случаев з (при любом из двух исходов а2 с вероятностями -) оно могло иметь три равновероятных исхода, т. е. имело энт- ропию log 3. Поэтому здесь На,а, («3) = log 2 + log 3 х 1,44 бит, и так как Н (Р) = log 24 4,58 бит, то Н (А3) = Н (с^а-Щз) = Н (aj + Яи, (а2) + Яа[Й2 (а3) 1, 58 + 1,56 + 1,44 = 4,58 бит = Н (р),
170 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. III как это и должно быть. Если же равенство Н (Aft) = Н (Р) не выполняется, а имеет место неравенство Н (Aft) <; < Н (Р), то это означает, что опыт Ah наверное не позво- ляет однозначно указать правильный ответ- Легко понять также, что предположение о том, что ис- ход Р полностью определяет исходы испытаний а, не яв- ляется необходимым для справедливости последнего вы- вода. Если это предположение не выполняется, то задание вероятностей отдельных исходов р не позволяет однознач- но судить о вероятностях всех исходов вспомогательных опытов а. Поэтому, предполагая, что опыты по определе- нию исхода Р с помощью испытания а производятся мно- гократно, здесь следует дополнительно задать и эти последние вероятности (разумеется так, чтобы их значе- ния не противоречили заданным раньше значениям веро- ятностей исходов Р). При этом по-прежнему, если сложный опыт Ah = а1а2 ... «ь, состоящий не более чем из к ис- пытаний а, полностью определяет исход р, то информация / (Ah, Р) = Н (Р) — (Р) равна энтропии Н (Р); с другой стороны, поскольку всегда I (Ah, Р) — II (AJ — — Яр (Aft) «С Н (Aft), то должпо иметь место неравенство Я (Р) Н (Aft). Таким образом но прежнему, tc.iu II (А„) < II (р), то исход сложного опыта Ah = «1и2 ak не может во всех случаях однозначно определить исход Р; отсюда уже можно получить определенную оценку наименьшего чи- сла к испытаний а, позволяющих определить исход р. Однако в рассматриваемом здесь случае получаемая таким путем оценка оказывается заметно менее точной, чем в слу- чае, когда исход Р однозначно определяет исходы всех ис- пытаний а. Это связано с тем, что теперь испытания а уже не направлены прямо к выяснению исхода р и,- следова- тельно, информация I (Ah, Р) относительно р, содержащая- ся в к испытаниях alt a2, ..., ak, уже пе равна энтропии Н (Aft), а меньше этой энтропии. Для примера предположим, что в условии задачи 29 (см. стр. 157) нам пе требуется выяснить, является ли фаль- шивая монета более тяжелой или более легкой, чем на- стоящие (надо лишь указать эту фальшивую монету). Будем считать, что каждая из п имеющихся монет с опре- деленной вероятностью может оказаться фальшивой; в
§ 3] ОБСУЖДЕНИЕ 171 таком случае мы можем подсчитать вероятности всех ис- ходов опыта р. Если кроме того, считать, что фальшивая монета имеет определенную вероятность оказаться более тяжелой или более легкой, чем остальные, то можно будет определить и вероятности всех исходов любых испытаний а, что позволяет с полным правом говорить об энтропии опытов а и р и об информации, содержащейся в одном из них относительно другого. В частности, если считать все исходы опыта Р равновероятными (т. е. считать, что каж- дая из п монет имеет одинаковую вероятность оказаться фальшивой), то энтропия II (Р) опыта р будет равна log п; с другой стороны, энтропия каждого из опытов а не превосходит log 3 (ибо подобный опыт по-прежнему мо- жет иметь 3 разных исхода: Р, П и Л), а энтропия слож- ного опыта Aft = ага2 ... ah не превосходит к log 3. От- сюда вытекает, что наименьшее число к взвешиваний, не- обходимое для определения фальшивой монеты, должно удовлетворять неравенству I. log п =^log3 (2) Эта оценка приводит к меньшему числу к, чем аналогич- ная оценка наименьшего числа взвешиваний, необходи- мых для обнаружения фальшивой монеты и выясне- ния того, легче ли она или тяжелее остальных, имеющая вид: , log 2п (3) (ибо здесь опыт р имеет 2п разных исходов, так как каждая монета может оказаться и легче и тяжелее остальных). Но оценка (3) является довольно точной: так, при к = 3 она дает п 13, а на самом деле, как мы знаем, наиболь- шее число монет, из которых можно тремя взвешиваниями выделить фальшивую монету и обнаружить, легче ли она или тяжелее остальных, равно 12 (см. выше задачу 28). В противоположность этому оценка (2) очень неточная из нее вытекает лишь, что при к = 3 число п 27; на самом же деле, однако, можно проверить, что наибольшее число монет, из числа которых можно тремя взвешивания- ми выделить фальшивую монету, пе выясняя, легче ли она или тяжелее остальных, равно лишь 13. Причина
172 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш этого кроется в том, что здесь опыты а (т. е. взвешивания монет) не будут прямо направлены к определению исхода Р (они будут содержать «постороннюю» информацию, а именно информацию о весе фальшивой монеты); поэтому каждый такой опыт вносит заметно меньший, чем log 3, вклад в накапливаемую информацию об исходе Р и, сле- довательно, число опытов а должно быть-б б л ь ш и м, log/i чем Y-2-. Iog3 Обратимся теперь к вопросу о том, как можно доказать, что при помощи не более чем к вспомогательных опытов а действительно можно однозначно определить исход интересующего нас опыта Р; до сих пор мы говорили лишь ([доказательствах невозможности вы-t яспепия исхода Р с помощью слишком малого числа испы- таний а. Подобное «доказательство возможности» требует явного указания наиболее целесообразной цепочки а17. а2, ..., ah вспомогательных опытов, или, другими слова- ми, указания соответствующего сложного опыта Afe. Ра- зумеется, получаемое при этом «решение» не содержит не- посредственно понятий энтропии и информации. Однако эти понятия играют важную эвристическую роль, помогая быстрее всего отыскать соответствующую цепочку испы- таний. П самом деле, цель наших ясны гании состоит в определении исхода опыта р, т. е. в получении полной ин- формации об этом опыте; поэтому естественно подбирать эти испытания таким образом, чтобы они содержали воз- можно большую информацию об исходе р. Строгий метод решения задачи заключается в перечислении всех воз- можных сложных опытов Ah — ct|O.2 вычислении для каждого из них информации I (Aft, Р) и отборе тех Аь, для которых I (Ak, Р) = Н (Р); в случае, когда ис- ход р однозначно определяет исход всех испытаний а, вычисление информации значительно облегчается тем об- стоятельством, что здесь I (А,„ р) = Н (Ай). Так как, однако, оперировать сразу со сложными опытами Ай довольно неудобно, то практически обычно начинают с определения того из вспомогательных опытов ах (1-е ис- пытание), который содержит наибольшую информацию / (ar, Р) об исходе опыта Р; далее подбирают второе испы- тание а2 (зависящее, вообще говоря, от исхода ctj) так, чтобы информация I («i«2j Р) была возможно большей и
ОБСУЖДЕНИЕ 173 § 3] т. д.; именно так мы и поступали выше при решении за- дач 23—29 х). В §§1 и 2 все время предполагалось, что все исходы опы- та (3 являются равновероятными. Это предполо- жение означает, что все исходы (3 считаются равноправ- ными; оно является вполне естественным, так как нам надо, чтобы обнаружение исхода (3 не требовало большого числа испытаний, каким бы пи был этот исход. Ясно, что удовлетворяющий этому условию путь опреде- ления исхода Р приводит, вообще говоря, к сложному опыту Aft, состоящему во всех случаях (т. с. при любом исходе Р) примерно из одного и того же числа отдельных испытаний а. Вспомним, например, задачу 25 из § 1, в кото- рой требовалось с помощью наименьшего числа вопросов установить, какое из чисел от 1 до 10 загадало некоторое лицо. В решении этой задачи предлагалось выяснить пре- жде всего, не превосходит ли загаданное число х числа 5 (испытание а,); затем, в зависимости от исхода а,, реко- мендовалось установить, не больше ли х чем 7 или чем 3 (испытание а.2); далее, учитывая исход а2< можно было спросить, не больше ли х, чем число 8, или чем 6, пли чем 4, или чем 1 (испытание а3); наконец, если три испытания а15 а2 и а3 не приводили к выяснению значения х, следовало 9 Приведем один поучительный пример, иллюстрирующий осложнения, которые могут встретиться при осуществлении этой программы в тех случаях, koi да Н& (а) =/= 0 и испытания а не направлены целиком к выяснению исхода опыта р. Пусть пам тре- буется при помощи взвешиваний па чашечных весах без гирь опре- делить, является ли имеющаяся среди данных четырех монет одна фальшивая монета более легкой или более тяжелой чем остальные (но не требуется найти эту фальшивую монету!). Ясно, что здесь любое взвешивание щ будет содержать нулевую информацию относительно интересующего нас опыта Р (так как при любом ис- ходе опыта cij вероятности того, что фальшивая монета легче и что опа тяжелее настоящих никак не изменятся), т. е. любой выбор а, приводит к одному и тому же на первый взгляд малоутешитель- вому результату. Однако на самом деле то обстоятельство, что всег- да I (щ, Р) = 0, вовсе не означает, что вспомогательные опыты а вообще бесполезны: опыт ах не доставляет непосредственно ни- какой информации об р, но он зато увеличивает пригодность после- дующих испытаний для этой цели. В самом деле, легко видеть, что, положив на чашки весов по одной или по две монеты (т. е. выбрав опыт щ произвольно), мы сразу же придем к положению, когда при помощи еще одного взвешивания (опыт а2) уже можно однозначно определить исход р.
174 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш еще спросить, не больше ли ж чем 9 или чем 2 (испытание а,,). Во всех случаях для обнаружения числа х здесь при- ходится использовать не более четырех вопросов; при этом, если х равно одному из чисел 2, 3, 9 или 10, то число во- просов будет точно равно 4, а в остальных шести случаях оно будет равно 3. Ясно, что если бы мы с самого начала спросили, пе равно ли число х, скажем, 10, то мы имели бы определенные шансы обойтись одним единствен- ным вопросом; однако в большинстве случаев нам при- шлось бы затратить больше четырех вопросов, что делает такой путь выяснения исхода [5 менее выгодным. Заметим теперь, что если бы мы начали с вопроса о том, не превосходит ли загаданное число х числа 8, то мы имели бы шансы обнаружить х при помощи всего двух во- просов (если это число х равнялось 9 или 10), и в то же вре- мя нам пи в каком случае не потребовалось бы использо- вать более четырех вопросов (ибо если после первого во- проса окажется, что число х не превосходит 2® = 8, то да- лее мы можем обнаружить его при помощи трех вопросов; см. решение задачи 25). Таким образом, на первый взгляд представляется, что такой путь обнаружения загаданного чпсла х даже более удобен, чем предложенный в § I <>i нако это заключенно является слишком поспешным. В самом дело, если мы но будем считать длину самой длинной цепочки испытаний единственным критери- ем, определяющим ценность какого-либо метода обнаруже- ния х, а будем учитывать также и то, что в некоторых слу- чаях этот метод приводит к цели быстрее, то и в отношении старого метода мы должны будем считаться с тем, что он во многих случаях позволяет найти х с помощью трех, а не четырех вопросов. Для того чтобы сравнить «выгодность» обоих методов решения задачи 25 при таком новом подходе к ней. предпо- ложим, что мы многократно повторяем попытку обнаружить загаданное число х, причем вероятность быть загаданным для всех десяти чисел по-прежнему предпола- гается одинаковой. При первом методе решения задачи 6 3 нам примерно в = у всех случаев придется задать три вопроса и в всех случаев (когда х равно 2, 3, 9 пли 10) — четыре вопроса; таким образом, сред-
ОБСУЖДЕНИЕ 175 § 31 нее значение числа заданных вопросов здесь будет равно 3 о , 2 , 17 о , уЗ + -5--4 = у=3,4. Второй метод решения задачи обеспечивает нахождение х 2 1 , с помощью двух вопросов в Jo = 5" °т общего числа всех g попыток (когда х равно 9 или 10), зато в остальных = 4 = случаев придется задать четыре вопроса; поэтому здесь среднее значение числа заданных вопросов будет равно 1 9 , 4 . 18 о Р _ ,2 + у .4 = у=з,е. Таким образом, в среднем второй метод обнаружения х несколько менее выгоден, чем первый. Это обстоятель- ство имеет общий характер — можно показать, что ка- ково бы ни было число п, не существует метода решения за- дачи 25, который был бы в среднем выгоднее метода, наме- ченного на стр. 142—143. Последнее заключение позволяет подойти по-новому к задачам, рассмотренным в §§ 1 и 2; оно проливает также до- полнительный свет на смысл использования при решении этих задач понятий энтропии и информации. Ясно, что применение этих понятий, носящих существенно статисти- ческий характер, является вполне уместным лишь в тех случаях, когда и сама решаемая задача имеет статистиче- ский характер, т. е. связана с многократным повторением одного и того же испытания. Все дело в том, что именно так можно понимать и приведенные выше задачи 23—29, если интересоваться не точным числом испытаний а, тре- бующихся для однократного выяснения исхода какого- либо опыта (3, а средним значением этого числа при многократном повторении указанного опыта. Если при этом еще условиться считать все исходы (> равнове- роятными, то при выборе испытаний at, a2, ..., ah так, чтобы среднее значение их числа было наименьшим, число этих испытаний для всех исходов (3 оказывается примерно одинаковым; поэтому и наибольшее значение
176 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ш требуемого числа испытаний здесь будет, вообще говоря, наименьшим возможным. Попробуем теперь отказаться от условия равноверо- ятности исходов р. Для примера вернемся снова к той же задаче 25, но теперь осложним несколько ее формулиров- ку. Предположим, что некто задумал определенное число х, которое может принимать одно из п значений; нам тре- буется отгадать это число, задавая задумавшему его ка- кие-либо вопросы, на которые он отвечает «да» или «нет». При этом будем считать, что мы заранее имеем определен- ную информацию о числе х, заставляющую нас считать, что что п возможных значений этого числа не являются равно- вероятными, т. е. что одни из них вернее окажутся зага- данными, чем другие х). Как в этом случае следует задавать вопросы? Ясно, что если пи одно из п значений х не исключается полностью имеющейся у нас информацией (в противополож- ном случае следовало бы говорить не о п, а о меньшем чи- сле возможных значений .г), то наименьшее число вопро- сов, которое во всех случаях гарантирует нахож- дение загаданного числа г, по прежнему онредел яс гея неравенствами (1) § 1 (стр ИЗ), причем вопросы л ieci. пи и» задавать так же, как указано iii.iiiki. Деист ни голыш, если бы существовала последовательность из меньшего числа вопросов, позволяющая во всех случаях (т. е. независимо от ответов на эти вопросы) однозначно определить число х, то это противоречило бы результату задачи 25. Отсюда, од- нако, еще не следует, что всегда целесообразно поступать точно так же, как в случае равновероятности всех значе- ний х; после сказанного выше это должно быть совершенно ясно. Так, например, если имеется весьма большая вероят- ность того, что загаданное число имеет какое-то определен- ное значение х0 (скажем, если эта вероятность равна 0,99 или еще больше), то, разумеется, прежде всего сле- дует спросить, по равно ли х этому числу ж0, несмотря на то, что в случае отрицательного ответа мы потратим одип ’) Для конкретности можно представить себе, что загаданное число было записано, а отгадывающий подсмотрел эту запись, по не вполне уверен в том, что он увидел (однако, разумеется, строгий смысл этого условия связан с предположением о том, что в процес- се многократного повторения процедуры отгадывания одни числа оказываются загаданными чаще, чем другие).
6 3] ОБСУЖДЕНИЕ 177 вопрос с очень малой пользой для себя (множество возмож- ных значений х уменьшится всего лишь на единицу). В общем же случае следует каждый раз разбивать множе- ство возможных значений х на две такие части, чтобы вероятности того, что загаданное число принад- лежит к одной и к другой из этих частей, были возможно более близки. Такое разбиепие обеспечивает наибольшую возможную энтропию опыта а, состоящего в постановке вопроса о том, не принадлежит ли х к одной из этих ча- стей, а следовательно, и наибольшую возможную информа- цию, содержащуюся в а относительно интересующего пас опыта [>. Правда, при этом мы не сможем уже обеспечить минимум наибольшего числа вопросов, которое нам может понадобиться в самом неблагоприятном случае, но зато среднее значение общего числа вопросов здесь будет, вообще говоря, меньше (или во всяком слу- чае — не больше), чем при любой другой постановке во- просов. Вместо строгого доказательства последнего утвержде- ния мы ограничимся тем, что немного позже проверим его на одном простом частном примере (см. текст, напечатанный мелким шрифтом в конце этого параграфа). Что же каса- ется до самого общего случая, то для него сравнительно легко доказывается лишь, что среднее значение I числа требуемых для определения х вопросов всегда будет н е меньше чем Н (Р) (где Н (Р), как обычно,— энтропия интересующего нас опыта Р) х). Этот результат представ- ляет собой обобщение неравенства k log п, относящегося к случаю равновероятности всех возможных значе- ний х; он может быть обоснован при помощи рассуждений, близких к тем, которые привели нас к указанному неравенству. В самом деле, информация, доставляемая ответом на один вопрос, очевидно, во всех случаях не мо- жет превосходить одного бита; поэтому, задав к вопро- сов, мы получаем информацию, не превосходящую к бит. Если теперь мы многократно (скажем, 10 000 раз) будем определять загаданное число, задавая вопросы в ]) Для случая, когда число п очень велико, а вероятность каждого отдельного значения х мала, можно показать также, что это среднее значение будет весьма близкок Я(Р) (ср. гл. IV).
178 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ 1Гл. 111 соответствии с каким-то выбранным нами методом, и при атом вероятности того, что загаданным оказывается то или иное из п чисел, будут иметь заданные значения, то с р е д- н я я информация, получаемая при одном определении числа х, будет равна 7/ ([>), а общая информация, получен- ная после 10 000 повторений отгадывания, будет близка к 10 000 Н (Р). При этом число задаваемых вопросов здесь может существенно меняться от случая к случаю в зави- симости от того, какое именно число х было загадано (до- статочно вспомнить про случай, когда существует опре- деленное число ж0, для которого очень велика вероятность быть загаданным). Однако, по самому определению сред- него значения I общее число вопросов, заданное во всех 10 000 опытов по обнаружению х, будет близко к 10 000 I (это означает, что всреднем одно обнаружение х тре- бует как раз I вопросов). Отсюда можно заключить, что должно выполняться неравенство 10 000 Н (Р) < 10 000 Z, т. е. I > Н (Р), (V) —что нам и требовалось доказать. Учитывая большую важ- ность неравенства (4') для теории передачи сообщений (см. по этому поводу § 2 гл. IV), мы в дальпейпюм приводом также совсем другое, очень изящное его доказательство, являющееся более формальным, но идейно более простым (см. заключительную часть параграфа). Все сказанное относительно задачи 25 может быть без труда перенесено и на задачу 27 (стр. 146). Здесь также можно несколько обобщить условия задачи, считая, что разные монеты имеют различные вероятности оказаться фальшивыми (это можно понимать, например, в том смыс- ле, что внешний вид различных монет внушает подозрения в различной степени). В таком случае наиболее целесооб- разным будет при каждом взвешивании делить подозри- тельные монеты на три части так, чтобы вероятно- сти для фальшивой монеты оказаться в двух равных по числу монет частях, положенных на правую и на левую чашки весов, и в третьей части, отложенной в сторону, бы- ли все время возможно более близки одна к другой- Правда, при таком образе действий общее число взвешиваний, нужное для определения фальшивой
§ 31 ОБСУЖДЕНИЕ 179 будет не меньше чем состоящего в опре- монеты, может в неудачном случае оказаться и большим того, которое дается неравенствами (2) из § 2 (стр. 147); од- нако среднее значение требуемого числа взвешива- ний при этом будет наименьшим. Можно показать также, что это среднее значение I всегда Я(₽) TJ /дх гДе Н (Р) — энтропия опыта, делении фальшивой монеты: log3 (см., в частности, заключительную раграфа); при большом числе монет и малой вероятности того, что каждая из них окажется фальшивой, это среднее значение I всегда оудет весьма близко к (4") часть настоящего па- Приведем теперь простой пример, иллюстрирующий тот факт, что при обнаружении загаданного числа х (не превосходящего не- которого п) выгоднее всего каждый раз разбивать множество п возможных значений х па две части так, чтобы вероятности для х принадлежать к той или к другой части были возмож го более близки одна к другой. Пусть число п возможных значений х равно 4; в этом случае число А-, определяемое неравенствами (1) (стр. 143), равно 2. Пред- положим теперь, что у нас есть основание считать одно значение гг0 числа х более вероятным, чем остальные три хг, х2 и jr3; пусть р есть вероятность того, что х равно jr0, a q — вероятности того, что х равно xi (здесь I — любое из чисел 1, 2, 3; р > q, р -J- Зд = 1). В качестве первого вопроса можно спросить, совпадает ли х с од- ним из чисел к0 или a?t; можно также сразу задать вопрос о том, не равно ли х числу jr0. Опыты, состоящие в постановке этих двух воп- росов, обозначим через а<1) и так как исходы опыта а^ имеют вероятности р + q и 2q, то Н (а)1)) = — (р + q) log (р + q) — — 2q log (2g)); два же исхода опыта а® имеют вероятности р и Зд, так что Н — — р -ogp — Зд log (Зд). Если р > у, то, ра- зумеется, исходы опыта имеют более близкие вероятности, чем (1) 1 исходы опыта ар; если же > р > д, то следует сравнить раз- ности (р + д) — 2д = р — д и Зд — р вероятностей двух исходов для опытов а|Й и а®. Так как р — д > Зд— р, если р > 2д, т. е. 2 / ’ 1 —р 2 2\ если р > -g- ( ибо д — —3—, а р > (1 — р) при р > -g-1, то мы 2 заключаем, что при р >-g- следует начать с опыта ар, а при
180 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. HI р •< -g- с опыта при р = -g-, по-видимому, безразлично, с ка- кого из этих двух опытов мы начнем. Если мы начинаем с вопроса «Не равно ли х одному из чисел х0 и ж-j?», то тем самым мы разбиваем множество возможных значений х на две равные по численности части;, в таком случае при любом ответе на первый вопрос мы находим х с помощью двух вопросов. Если же мы начинаем с вопроса «Не равно ли х числу ж0?>>, то мы имеем определенные шаисы обнаружить х одним вопросом; вероятность, что зто будет именно так, равна вероятности того, что х совпадает с jr0, т. е. равна р. Однако если х не равно хв, то мы уже не можем гарантировать возможность обнаружить х следующим вопросом; на вопрос «Не равно ли х числу aj?» может последовать положительный ответ (вероятность этого равна q), но может после- довать и отрицательный ответ (вероятность этого равна вероятности того, что х совпадает с х2 или ся:3, т. е. равна 2q),—и в этом послед- нем случае нам понадобится еще один, третий вопрос. Таким обра- зом, в том случае, когда мы начинаем с опыта мы имеем веро- ятность р определить х одним вопросом, вероятность q того, что нам потребуется два вопроса, и вероятность 2q того, что надо будет задать три вопроса. Отсюда видно, что среднее значение числа вопросов здесь равно Р’1 + q’2 + 2^*3 = р + Ъу. 2 { Нетрудно проверить, что р + 8у < 2, если р > I ибо р I _8 —5р 1 — р\ — —3-----, поскольку у =—g—); таким образом, мы убеждаемся, что действительно с опытп а*2) целеч иобрпзпп начинать в том слу- 2 чае, когда р > -g-. В заключение параграфа приведем еще строгое доказательство неравенств (4') и (4"), не использующее никаких результатов гл. II, кроме определения энтропии опыта. При этом нам понадобится сле- дующий факт. Пусть рх, р2, . . ., рп — какие-то п положительных чисел, сумма которых равна 1, a qr, q2, . . ., qn — какие угодно дру- гие п положительных чисел, сумма которых не превосходит 1; в таком случае всегда — Pi log Pi — р2 log р2 — — рп log рп < — Pi log qi — — p2 log q2 — . . . — Pn log qn. (*) Полное доказательство неравенства (*) мы отложим до Приложения I в конце книги (см. стр. 454); здесь же заметим лишь, что при п = 2, 1 Pi = р2 = + 92 = 1. это неравенство принимает вид — у log VI —-g-log 72 >1,
§ 3] ОБСУЖДЕНИЕ 181 или иначе 1 1 1 1 01 + 02 log 01+ у Log os < — 1 = log у, т. е. 0172 < =------2— • 1 Таким образом, если рх — р2 = у и oi + 0г = 1, то оно сводится к известному неравенству между средним арифметическим и средним геометрическим двух чисел. Вернемся теперь снова к опыту 0 с п исходами В^, В2, , , ., Вп и таблицей вероятностей исходы опыта । Bi | В2 J ... | Вп вероятности | pi | рг | ... | рп Пусть для выяснения того, какой из псходов 0 осуществился па самом деле, производятся последовательные испытания (вспомога- тельные опыты) а, каждое из которых может иметь т различных исходов; наибольшее число испытаний, которое может потребо- ваться для определения исхода 0, мы, как и раньше, обозначим через к. Пусть далее пх — число тех исходов 0, которые могут быть обнаружены при помощи одного испытания cq, п2 — число исходов 0, которые могут быть обнаружены при помощи двух испы- таний «1 и as,..., наконец, —число исходов 0, которые могут быть обнаружены лишь при помощи к испытаний alt о^, . . ., а1с; оче- видно, ЧТО Wj + П2 + . . + — п. Заметим, что число п исходов 0, которые могут быть обнару- жены с помощью одного испытания очевидно, не превосходит числа т исходов о^: nt + т; при этом nj = т лишь в том (разумеется, мало интересном) случае, когда п — т и каждому исходу испытания отвечает единствен- ный исход 0 (например, когда в условии задачи 25 число возмож- ных значений загадаппого числа равно 2). Если же существуют такие исходы alt которые не определяют однозначно исход 0, т. е. если имеются случаи, когда оказывается необходимым произвести последующее испытание а2, то, наверное, пг <С т. При этом число исходов опыта а(, не определяющих однозначно исход 0, будет равно т — пг; так как число исходов опыта <z2 равно т, то число п2 тех исходов 0, которые могут быть обнаружены с помощью двух испытаний at и а2, наверное удовлетворяет неравенству п2 + (т — т = т2 — прп. Аналогично этому, если в некоторых случаях требуется произвести еще и третий вспомогательный опыт а3, то п2 < (т — nt) т, причем не более чем при (т — nt)m — исходах опыта <z2 тре- буется произвести опыт а3. Так как к тому же сам опыт а3 имеет всего т разных исходов, то очевидно «з + [(т — П1)т — n2]-m = т? — пАт2 — п2т. Точно также показывается, что nt + [(иг3 — — n2m) — п3]т = т1 — npns — п2п? — п3т
182 РЕШЕНИЕ НЕКОТОРЫХ ЛОГИЧЕСКИХ ЗАДАЧ [Гл. Ill и т. д.; наконец, для числа njc исходов 0, обнаружение которых тре- бует ровно к испытаний, по индукции легко получаем [(лгЛ-1 — И!»?"2 — ад/?-3 — ... — nk_jn) — т — = тк — щт1'1 — n2/nft~2 — ... — nits™2 ~ nic_1,n- Перенесем адесь все члены правой части, кроме первого члена т/с, влево и разделим обе части полученного неравенства на тк\ тогда будем иметь: пк пк-1 п2 щ т,! + т*'1 + ‘ + т* + т Г Обозначим через Ц (где I — 1,2, ... , п) число испытаний а, которые приходится произвести для обнаружения исхода 0 в том случае, когда оказывается, что этим исходом является исход Bi. В таком случае пг из п чисел li будут равны 1, п2 из этих чисел будут равны 2, ..., njr из этих чисел будут равны к. Поэтому послед- нее неравенство можно переписать также в следующем виде: Напомним теперь, что для справедливости выписанного выше неравенства (*) надо лишь, чтобы сумма всех чисел pi была раина 1, а сумма всех чисел qi (г = 1,2, . . ., п) не превосходила 1. Полому мы можем положить в этом неравенстве, в частности, рапным вероятности i-ro исхода В\ опыта 0, a qi риппым —— , тик что т‘1 — />110g pi — Р2 log Р2 — . . . — рп log рп < 1 1 . 1 ^-^log—-pdog-^-...- В левой части последнего неравенства, очевидно, стоит энтропия 1 Н (0) опыта 0. Заменив теперь в правой части —. log —j- (где t in i равно 1, 2, . . ., n) на Zplog m, получим kJ (0) Ipi^i "I” 4” • • 4” Pn^nl log m. Но по самому определению среднего значения (см. стр. 24) сумма Pih 4* Рг^2 4" ••• 4" Рп^п равна как раз среднему значению I числа требуемых испытаний а. Таким образом, мы получаем основное неравенство Это и есть тот результат, который мы хотели доказать; при т = 2 (например, в случае, когда опыты а — это вопросы, на кото- рые отвечают лишь «да» или «нет) он переходит в неравенство (4') (ибо log 2 = 1), а при т == 3 (например, в случае, когда а — это взвешивания на чашечных весах без гирь) « в неравенство (4").
Глава IV ПРИЛОЖЕНИЕ ТЕОРИИ ИНФОРМАЦИИ К ВОПРОСУ О ПЕРЕДАЧЕ СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ § 1. Основные понятия. Экономность кода Для того чтобы проиллюстрировать пользу введенных в гл. II понятий энтропии и информации, мы разобрали в главе III ряд «занимательных задач» типа тех, которые обычно рассматриваются в школьных математических кружках. В настоящей главе мы рассмотрим некоторые простейшие, но сами по себе достаточно серьезные прило- жения тех же понятий к практическому вопросу о переда- че сообщений по линиям связи. При этом окажется, что применения эти имеют очень много общего с рассмотрен- ными выше «игрушечными задачами» об отгадывании за- думанного числа или об определении фальшивой монеты с помощью взвешиваний, так что ряд приведенных в преды- дущих параграфах рассуждений может быть непосредст- венно перенесен на решение практических вопросов техни- ки связи. Рассмотрим прежде всего общую схему передачи сооб- щений по линиям связи; для определенности будем гово- рить, например, о телеграфии. На одном конце линии от- правитель подает некоторое сообщение, записанное при по- мощи 33 букв русского алфавита (исключая букву ё, но включая сюда и «нулевую букву» — пустой промежуток между словами), или 27 букв латинского алфавита, или при помощи 10 цифр (числовое сообщение), или при помо- щи букв и цифр вместе взятых. Для передачи этого сооб- щения в случае обычного проводного телеграфа исполь- зуется постоянный ток, некоторые характеристики кото- рого телеграфист может менять по своему усмотрению; при этом он. создает определенную последовательность сигналов, воспринимаемых вторым телеграфистом на при- емном конце линии. Простейшими различимыми сигнала- ми, широко используемыми на практике, являются п о- сылка тока (т.е. включение его на некоторое впол- не определенное время) и отсутствие посылки — пауза
184 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ И’л. IV (выключение тока на то же время); при помощи одних только этих двух сигналов уже можно передать любо» сообщение, если условиться заменять каждую букву или цифру определенной комбинацией посылок тока и пауз. В технике связи правило, сопоставляющее каждому по редаваемому сообщению некоторую комбинацию сигна- лов, обычно называется кодом (в случае телеграфии, например, телеграфным кодом), а сама операция перевода сообщения в последовательность различимых сигналов — кодированием сообщения. При этом коды, неноль зующие только два различных элементарных сигнала (па пример, посылку тока и паузу), называются д в о и ч п ы ми кодами; коды, использующие три различных эле- ментарных сигнала — троичными кодами и т. д. В телеграфии, в частности, применяется целый ряд различных кодов, важнейшими из которых являются код Морзе («азбука Морзе») и к о д Б о д о. В коде Морзе каждой букве или цифре сообщения сопоставляется некоторая последовательность кратковременных посылок тока («точек») и в три раза более длинных посылок тока («тире»), разделяемых кратковременными паузами roil жо длительности, что и «точки»; пробел между буквами (или цифрами) при этом отмечается специальным рпадглип*ль иым знаком — длинной паузой (гой же длительности, что и «тире»), а пробел между слонами — еще в 2 раза более длинной паузой. Хотя этот код использует лишь посылки тока и паузы, его можно считать троичным, гак как каж- дое закодированное сообщение здесь естественно разлага- ется в совокупность следующих трех сравнительно крупных «элементарных сигналов» — точек, к каждой из которых добавляется всегда следующая за точкой кратко- временная пауза, тире со следующей за каждым тире крат- ковременной паузой и длинных пауз, разделяющих от- дельные буквы. В настоящее время код Морзе обычно ис- пользуется лишь при повреждении основных телеграфных линий, а также в коротковолновой радиотелеграфии, име- ющей многие важные применения. В обычных же букво- печатающих телеграфных аппаратах, стоящих на всех больших телеграфных линиях, чаще всего применяет- ся двоичный код Бодо, сопоставляющий каждой букве некоторую последовательность из пяти простейших эле- ментарных сигналов — посылок тока и пауз одинаковой
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 185 длительности. Так как при этом все буквы передаются ком- бинациями сигналов одной и той же длительности (коды, обладающие этим последним свойством, называются рав- номерными), то в коде Бодо не требуется специального знака, отделяющего одну букву от другой —и без того из- вестно, что через каждые пять элементарных сигналов кончается одна буква и начинается следующая (в приемных аппаратах такое разделение на комбинации из пяти сигна- лов обычно производится автоматически). Поскольку комбинируя две возможности для первого сигнала с двумя возможностями для второго, двумя — для третьего, двумя — для четвертого и двумя — для пятого, мы можем составить всего 2Б = 32 различных комбинаций, то код Бодо в его простейшей форме позволяет передавать 32 различные буквы 1). В некоторых телеграфных аппарата^ кроме простого включения и выключения тока можно тйкже изменять его направление на обратное; при этом появляется возмож- ность вместо посылок тока и пауз использовать в качестве основных сигналов посылки тока в двух различных на- правлениях или же использовать сразу три различных эле- ментарных сигнала одной и той же длительности — по- сылку тока в одном направлении, посылку в другом направ- лении и паузу. Возможны также еще более сложные теле- графные аппараты, в которых посылки тока различаются не только по направлению, но и по силе тока; тем самым мы получаем возможность сделать число различных эле- ментарных сигналов еще большим. Увеличение числа раз- ных элементарных сигналов позволяет сделать код более сжатым (т. е. уменьшить число элементарных сигналов, требующихся для передачи данного сообщения или же передавать при помощи сигналов той же длительности зна- чительно больше различных «букв»). Однако вместе с тем оно усложняет и удорожает систему передачи, так что в х) Так как 32 комбинаций для передачи всех букв и цифр оказывается недостаточно, то в аппаратах, работающих на коде Бодо, имеются два регистра; после перевода регистра та же комби- нация используется для передачи еще одного знака. При этом число возможностей почти удваивается, что позволяет передавать все буквы, цифры и знаки препинания. В случае одного регистра такие же возможности предоставляют коды, сопоставляющие каждой букве или цифре комбинацию шести элементарных сигналов; подобные коды также иногда используются в телеграфии.
186 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Пл IV технике все же предпочтительно используются коды с ма- лым числом элементарных сигналов. В радиотелеграфе вместо изменений силы тока измо* нениям подвергаются некоторые параметры радиоволпь'1 — синусоидального колебания высокой частоты,— т. е. зле ментарные сигналы здесь имеют другой смысл; однако и в этом случае каждая передаваемая буква заменяется не- которой последовательностью элементарных сигналов, вос- принимаемых на приемном конце линии. Аналогично об стоит дело и в большинстве других линий связи; подроб нее об этом мы еще будем говорить ниже (см. §§ 3 и 4). Отвлечемся теперь от технических подробностей и сформулируем основную математическую задачу, с кото- рой приходится иметь дело в технике связи. Пусть имеет- ся сообщение, записанное при помощи некоторого «алфа- вита», содержащего п «букв» (например, 33 русские бук- вы, или 10 цифр, или 43 буквы и цифры, или буквы, цифры и знаки препинания и т. д.). Требуется «закодирован.» это сообщение, т. е. указать правило, сопоставляющее каждому такому сообщению определенную последопптсль- ность из т различных «элементарных сигналов», состпп in ющих «алфавит» передачи. Как выгоднее всего ятог (< пггь* Прежде всего надо объяснить, в каком смысле и in ь по нимается слово «выго дное». Мы три-м считать т Пирова- ние тем более выгодным, чем меньше элементарны г сигна- лов приходится затратить на передачу сообщения. Если считать, что каждый из элементарных сигналов продол- жается одно и то же время, то наиболее выгодный код по- зволит затратить на передачу сообщения меньше всего времени. Так как сооружение и содержание линии связи обычно обходится очень дорого (а в случае радиосвязи, где дело обстоит несколько иначе, чрезмерное увеличение числа линий связи является невозможным, поскольку при этом такие линии начинают мешать друг другу), то пере- ход к более выгодному коду, позволяющий увеличить эф- фективность использования данной линии связи, имеет несомненное практическое значение. Постараемся теперь несколько подробнее разобраться в том, какие вообще бывают коды. Будем для определенно- сти пока считать, что т — 2 (т. е. что наш код — двоич- ный). Кроме того ограничимся лишь случаем побуквеп- пого кодирования, т. е. случаем кодов, приспособленных
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 187 для передачи каждой буквы сообщения по отдельности (о возможностях, доставляемых отказом от этого послед- него условия, будет говориться позже). В таком случае кодирование, очевидно, состоит в том, что каждой из п «букв» нашего «алфавита» сопоставляется какая-то после- довательность двух элементарных сигналов — кодо- вое обозначение соответствующей «буквы». От- влекаясь от физической природы используемых элементар- ных сигналов, мы можем заменить их цифрами 0 и 1, т. е. рассматривать все кодовые обозначения как некоторые последователности этих двух цифр. Для задания кода на- до перечислить п таких последовательностей, которые со- поставляются п имеющимся «буквам». При этом не всякие п различных последовательностей цифр 0 и 1 определяют пригодный для практического использования двоичный код; требуется еще, чтобы закодированное сообщение мо- жно было однозначно декодировать, т. е. чтобы в длинной последовательности цифр 0 и 1, сопостав- ляемой многобуквенному сообщению, всегда можно было понять, где кончается кодовое обозначение одной буквы и начинается обозначение следующей. Проще всего до- биться этого, если, как в коде Морзе, ввести специальный разделительный знак (в технической литературе такой знак иногда называют «запятой»), отличающийся от всех других кодовых обозначений и легко различимый, и пере- давать этот знак между кодовыми обозначениями каждых двух «букв». Ясно, однако, что этот путь вряд ли может быть выгодным, так как здесь число «букв» в передаваемом со- общении практически удваивается (за счет добавления (п + 1)-й разделительной «буквы», вставляемой между ка- ждыми двумя другими буквами); поэтому ниже мы будем интересоваться лишь однозначно декодируемыми кодами без разделительного знака (т. е. «кодами без запятой»). Примерами таких кодов являются, в частности, те, в кото- рых кодовые обозначения всех букв имеют одну и ту же длину (т. е. равномерные коды; ср. выше описание кода Бодо). Кроме того, существуют также и многие неравно- мерные коды (содержащие кодовые обозначения различ- ной длины), которые могут быть однозначно декодирова- ны и поэтому не требуют разделительного знака. Так, на- пример, в случае двухбуквенного алфавита (при п = 2) простейшим кодом без запятой является равномерный код
188 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV с кодовыми обозначениями 0 и 1; если, однако, мы заме- ним кодовое обозначение 1 совокупностью двух цифр И, или 10, или 01 (но, разумеется, не 00), то такой код все рав- но будет без труда однозначно декодироваться (во всех этих случаях кодовые обозначения второй буквы легко идентифицируются в длинной последовательности кодо- вых обозначений обоих типов по входящей в них цифре 1). Общее необходимое и достаточное условие, выделяю- щее однозначно декодируемые коды сре- ди всех других совокупностей п последовательностей цифр 0 и 1, может быть найдено в статье А. С а р д и н а с а и Дж. Паттерсона [61] (см. в этой связи также работу [62], посвященную общей теории двоичных неравномер- ных кодов) Для нас здесь, однако, достаточно будет лишь отметить, что неравномерный код наверное может быть однозначно декодирован, если никакое кодовое обозначение не совпадает с началом какого-либо другого более длинного кодового обозначения (так что, например, если «101» — это кодовое обозначение какой-то буквы, то уже пе может быть букв, имеющих обозначение «1», «10» или же «10110»). В самом деле, если это условие выполняется. го чш <> но i ряд кодовую запись сообщения и имея niqic i собой < ппгок всех кодовых обозначения, шегдп можно точно cKuanti. в каком место кончается <16(1.111.1*1011111* одной Гц kih.i и иачп иается обозначение следующей (гак как здесь после щиа тельпость элементарных сигналов, начинающаяся вслед за окончанием очередного кодового обозначения, сама будет образовывать кодовое обозначение только в случае, если мы оборвем ее в одном-единствепном строго определен- ном месте)]). Заметим еще, что равномерный код также, ра- 1) Коды, удовлетворяющие указанному условию, иногда на- зываются мгновенными (или мгновенно декоди- руемым и), поскольку в случае других однозначно декодиру- емых кодов для того, чтобы установить, что мы дошли до конца очередного кодового обозначения, иногда (или даже всегда) при- ходится ознакомиться и с несколькими последующими элементар- ными сигналами (т. е. декодирование осуществляется с запазды- ванием по сравнению с передачей сообщения). В рассмотренных выше трех примерах неравномерного кода для двухбуквепного алфа- вита с кодовыми обозначениями 0 и 11, или 0 и 10, или 0 и 01, первые два, очевидно, являются примерами мгновенных кодов, а третий — нет (в этом третьем случае для выяснения смысла цифры 0 в длинной последовательности цифр 0 и 1, образующей закодиропаи- пое сообщение, необходимо зпать также и следующую цифр}).
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 189 зумеется, удовлетворяет напечатанному курсивом усло- вию. Коды же, не удовлетворяющие этому условию, мы, как правило, вообще не будем рассматривать; поэтому в дальнейшем всюду, где не оговорено обратное, под «кодом» будет пониматься такая совокупность п кодовых обозна- чений, сопоставляемых п буквам алфавита, для которой выполняется указанное выше условие. Перейдем теперь к вопросу о связи двоичного кодиро- вания с условиями задачи 25 об отгадывании загаданного числа, не превосходящего п, при помощи вопросов, па ко- торые отвечают только «да» или «нет». Связь эта является самой непосредственной. В самом деле, пусть мы имеем некоторый двоичный код; будем считать, что п «букв», ко- торым сопоставляются наши кодовые обозначения, это всевозможные числа от 1 до п. Пусть нам надо отгадать какое-то загаданное число. В качестве первого вопроса спросим: «Является ли первой цифрой кодового обозна- чения задуманного числа цифра 1?», в качестве второго — спросим: «Является ли второй цифрой этого кодового обо- значения цифра 1?» и т. д. При этом мы последовательно определим все цифры кодового обозначения задуманного числа: поскольку никакое из этих обозначений не сов- падает с началом другого из них, то как только мы при- дем к комбинации цифр, являющейся одним из исполь- зуемых кодовых обозначений, мы с полной уверенностью сможем остановиться и назвать загаданное число. Таким образом, каждому двоичному коду для п-буквенного алфа- вита отвечает некоторый метод обнаружения одного из п задуманных чисел при помощи вопросов, на которые от- вечают только «да» и «нет». Обратно, любой метод обнару- жения загаданного числа позволяет сопоставить каждому из п чисел последовательность цифр 1 и 0, где первая циф- ра показывает, будет ли в случае, когда загадывается дан- ное число, ответ на первый вопрос гласить «да» или «нет», вторая цифра точно так же указывает ответ на второй во- прос, третья цифра — ответ на третий вопрос и т. д., т. е. приводит к двоичному коду. Сформулированное выше условие здесь, очевидно, всегда выполняется, так как из того, что наш метод позволяет по ответам па поставлен- ные вопросы однозначно указать загаданное число, сразу следует, что никакое из полученных кодовых обозначений не может являться продолжением другого обозначения
190 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл IV (например, наличие среди кодовых обозначений послодщип- тельности «101» означает, что ответы «0а», «пеш» и •«»<!• уже полностью определяют число, и исключает возмож ность существования обозначения «10110»). Итак, мы видим, что возможные двоичные коды для «-буквенного алфавита точно соответствуют всевозможным методам определения одного из п задуманных чисел при по мощи вопросов, на которые отвечают только «0а» и ш «нет». Теперь нетрудно уже понять, какой код будет пом более выгодным. Будем пока измерять выгодное г ь (или, лучше сказать, экономность) данного дпонч ного кода при помощи максимального числа элементар- ных сигналов (иначе — цифр 1 и 0), требующегося для па- редачи (или записи) одной буквы: чем меньше это макси малыше число, тем более экономен паш код (более точное определение «степени экономности» кода, исходящее hi подсчета среднего числа элементарных сигналов, приходящихся на одну букву, будет рассмотрено в след> ю щем параграфе). В таком случае вопрос о построении пан более экономного кода будет совпадать с содержанием за дачи 25. Согласно решению этой задачи ианбо п.нио «ни 11 к элементарных сигналов, приходпщеоси пл одну Л)миу, не может быть меньше, чем log п, г. о u < пчи« оно определяется пераиеисiпамп (I) ил стр. I >1. lor факт, что всегда к log п легко обьпснягк-л coo jpumenuii пн теории информации: одна буква л-букнен.....о алфаинга может содержать информацию, равную log п (для этого надо только, чтобы все «буквы» сообщения были пеан ан симыми друг от друга и каждая из них могла принимать все значения с одинаковой вероятностью), а каждый пере- даваемый элементарный сигнал, принимающий одно ил двух значений (например, являющийся или посылкой тока, или паузой), может содержать информацию, не большую, чем 1 бит; поэтому для передачи одной буквы надо не мень- ше чем log п элементарных сигналов. Для построения наиболее экономного двоичного кода мы можем воспользоваться решением зн дачи 25. А именно, разобьем наши п «букв» на две возмож- но более близкие по своей численности группы и для нсох букв первой группы примем за первую цифру кодового обозначения цифру 1, а для всех букв второй группы — цифру 0; далее, каждую из этих двух групп снопа рн.то
§ 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА J 191 бьем на две возможно более близкие по численности груп- пы и примем за вторую цифру кодового обозначения циф- ру 1, если соответствующая буква входит в первую из двух полученных более мелких групп, и цифру 0, если она входит во вторую из этих групп; затем разобьем каждую из четырех уже имеющихся групп на две еще более мелкие группы по возможности близкой численности и в зависи- мости от этого разбиения выберем третью цифру кодового обозначения и т. д. Согласно сказанному в § 1 гл. III при этом мы придем к двоичному коду, для которого максимальное число к цифр в одном кодовом обозначе- нии определяется неравенствами (1) па стр. 143, так что никакой код не может быть более экономным, чем этот. Разумеется, это еще не означает, что не существует так- же и других столь же экономных кодов, т. е. что наиболее экономный код может быть только один. В ча- стности ясно, что, оценивая экономность кода количеством цифр 0 и 1 в наиболее длинном кодовом обо- значении, мы можем вовсе не рассматривать неравномер- ных кодов; добавив, например, в каждом из них в кон- це кодовых обозначений, длина которых меньше макси- мальной, некоторое число произвольно выбранных цифр (например, одних лишь цифр 0), мы придем к равномерно- му коду, имеющему ту же максимальную длину кодового обозначения, что и исходный неравномерный код. Это обстоятельство существенно для приложений, так как рав- номерные коды имеют заметные практические преимуще- ства: они значительно проще декодируются, причем деко- дирование здесь легко может быть автоматизировано. От- метим еще, что и равномерных кодов с наименьшей воз- можной длиной кодовых обозначений может быть не- сколько. В связи с их большой практической важностью мы опишем здесь еще один метод построения такого кода, по существу довольно близкий к описанному выше. Метод, о котором пойдет речь, связан с использовани- ем двоичной системы счисления. Обыч- но мы пользуемся десятичной системой счисления, в кото- рой каждое число представляется в виде суммы степеней числа 10: п = ah -10k -j- •10'1'-1 -J- ... -J- al ‘10 -J- ci0, где ah, ah-!, ..., щ, a0 — цифры числа, могущие прини-
192 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV мать значения от 0 до 9; число п при этом обозначается по- следовательностью своих цифр, т. е. как ahah^ ... ata0. Аналогично этому число п можно представить и в виде суммы степеней числа 2: п = bt -21 + -2'-1 + ... + Ъ± -2 + Ьо; здесь «цифры» Ь(, Ь(_1? ..., Ъо уже должны быть все меньше 2, т. е. могут принимать лишь значения 1 и 0. В двоичной системе счисления число обозначается по- следовательностью соответствующих «двоичных цифр»; так, например, поскольку 6 = 1 -22 + 1 -21 + 0 -2°, 9 = 1-23 + 0 -22 + 0 -21 + 1 -2°, то в двоичной системе счисления числа 6 и 9 будут обо- значаться, соответственно, как 110 и 1001. Можно, разу- меется, представлять числа и в виде суммы степеней лю- бого другого числа т; при этом мы придем к m-и ч н о й системе счисления, в которой «цифры» могут принимать т значений 0, 1, 2, ..., т — 1 (такие системы нам еще понадобятся ниже). Число к цифр в обычной («десятичной») записи чн< ы п, очевидно, определяется нерввенствпмн 10*-* SS п < 10*; так числа в промежутке между 101 = 10 и 102 — 1 — 99 будут двузначными, числа между 102 = 100 и 103 — 1 = = 999 — трехзначными и т. д. Аналогично этому в дво- ичной системе счисления число к «цифр» в записи числа п определяется неравенствами 2*-1 < п < 2* (отсюда, в частности, сразу следует, что число 6 — «трех- значное», а 9 — «четырехзначное»). Поэтому, если мы вы- пишем первые п целых чисел, начиная с числа 0 (т. е. числа 0, 1, 2, ..., п — 1), то окажется, что при 2*'1 < п С 2* двоичная запись всех этих чисел содержит не более к зна- ков, причем точно к знаков нам, наверное, хоть раз пона- добится. Добавив теперь в начало двоичной записи всех
§ 1J ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 193 менее чем fc-значных чисел некоторое число нулей, мы придем к равномерному двоичному коду для п-буквепного алфавита с минимальной возможной длиной кодовых обо- значений. Так, например, при п = 10 соответствующими кодовыми обозначениями будут следующие комбинации, представляющие собой запись в двоичной системе счис- ления всех чисел от 0 до 9, дополненную, если надо, до четырех знаков нулями в начале: 0000, 0001, 0010, 0011, 0100, 0101, ОНО, 0111, 1000, 1001. Столь же просто стро- ятся по этому методу все кодовые обозначения и при любом другом п; никакого предварительного разбиения сово- купности п чисел на мелкие группы здесь не требуется 1). Выше было показано, что в случае /г-буквенного алфа- вита длина кодовых обозначений (т. е. число входящих в них элементарных сигналов) для самого экономного рав- номерного двоичного кода равна наименьшему целому чис- лу удовлетворяющему неравенству к log п. Отме- тим теперь, что если число log п пе является целым, то ко- довые обозначения такой длины могли бы быть, вообще говоря, использованы для передачи большего ко- личества информации, чем то, которое реаль- но передается в случае кодирования сообщений, записан- ных с помощью «-буквенного алфавита. Рассмотрим для примера случай п = 10 (скажем, случай передачи число- вого сообщения). Каждая цифра передаваемого сообще- ния (записанного в обычной десятичной системе счисления) может принимать одно из десяти значений, т. е. может со- держать информацию, равную самое большее log 10 ~ « 31/3 битам — такое значение информации будет дости- гаться в случае, когда все цифры сообщения являются независимыми друг от друга и каждая из них может при- нимать все значения с одинаковой вероятностью. Каж- дая цифра закодированного сообщения (т. е. каждый пе- редаваемый элементарный сигнал — например, посылка !) Нетрудно видеть, что в случае, когда п является целой сте- пенью числа 2 (скажем, при п = 8, п = 16, или п = 32), код, по- лучаемый с помощью двоичной системы счисления, точно совпадает с тем, который задается решением задачи 25. [При п = 10 «дво- ичный код» приводит к решению задачи 25, начинающемуся с вопроса «не превосходит ли вагаданное число восьми?»’, ср, выше, стр. 174.] 7 А. М. Яглом, И. М. Яглом
194 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV тока или пауза) может принимать одно из двух значений, т. е. может содержать информацию, самое большее равную 1 дв. ед. (одному биту). Но при использовании равномер- ного двоичного кода мы затрачиваем на передачу одной цифры сообщения 4 элементарных сигнала, а на переда- чу сообщения из 7V цифр — 4N элементарных сигналов. Между тем при помощи 47V двоичных сигналов мы могли бы передать информацию, равную 47V битам, т. е. ипфор- 2 мацию, примерно на -gJV бит большую, чем наибольшая информация, которая только может содержаться в числе из N цифр (равная N десятичным единицам информации). Нетрудно попять, чем это объясняется. Дело в том, что при п — 10 в закодированном сообщении все знаки нико- гда не будут взаимно независимыми и принимающими оба возможных значения с одинаковой вероятностью: эти условия могут выполняться лишь при п = 2К. В ча- стности, если пользоваться кодом, построенным с помощью разложения чисел от 0 до 9 по двоичной системе счисле- ния, то в случае, когда в исходном сообщении все цифры встречаются одинаково часто, и закодированном сообще- нии цифра 0 будет встречаться в “ *г Рала чаще чем цифра 1 (так как легко проверить, что н выписанных на предыдущей странице десяти кодовых обозначениях цифра О встречается 25 раз, а цифра 1 — лишь 15 раз). Между тем для того, чтобы последовательность из данного числа цифр 0 и 1 содержала наибольшую информацию, требует- ся, чтобы все цифры этой последовательности принимали оба значения с одинаковой вероятностью (и были взаимно независимы). Для передачи длинных числовых сообщений можно по- строить, однако, и более выгодный двоичный код. Для этого надо только отказаться от побуквенного кодирова- ния (под «буквами», из которых состоят наши сообщения, разумеется, понимаются цифры 0, 1, ..., 9), а вместо этого использовать так называемые блоковые коды, в которых кодовые обозначения сопоставляются «блокам», состоящим из фиксированного числа последовательных «букв». Начнем со случая простейших блоков из двух «букв», т. е. разобьем наше сообщение на последователь-
g 1] ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 195 ные пары цифр1) и будем переводить в двоичную си- стему счисления не отдельно каждую цифру, а каждое из двузначных чисел, полученных при таком разбиении. Чи- сло двоичных знаков, требуемых для записи всех двузнач- ных чисел (от 00 до 99 включительно), равно числу вопро- сов, нужных для отгадывания задуманного числа в преде- лах первой сотни, т. е. равно 7 (см. Задачу 25, стр. 143). Таким образом, при такой системе кодирования па две цифры сообщения тратится 7 элементарных сигналов (а не 2-4 = 8, как рапыпе), т. о. для передачи числа из 7V цифр (будем для простоты считать N четным) надо передать 3,5-TV элементарных сигналов — на -?-N сигналов мень- ше, чем при первоначальной системе кодирования. При необходимости передавать много цифр (случай большого N) выгода оказывается весьма ощутимой. Еще выгоднее было бы разбить передаваемое число на блоки из трех цифр и переводить в двоичную систему счисления лишь получаемые при этом трехзпачпые числа. Для передачи трехзначного числа, очевидно, надо затра- тить 10 элементарных сигналов (ср. стр. 143), так что при таком способе кодирования число из N цифр (в случае N 10 1 кратного трем) передается при помощи -я- N = 3 -я- N О О элементарных сигналов. Выгода от перехода к разбиению сообщения на еще более крупные блоки и перевода в дво- ичную систему каждого из этих блоков в отдельности практически оказывается уже совсем небольшой (при пе- реходе от блоков из трех цифр к блокам из четырех цифр экономность кодирования даже уменьшается: на переда- чу четырех цифр, как легко видеть, требуется 14 = =3,5-4 элементарных сигналов). Тем не менее интересно отметить, что, применяя разбиения на достаточно крупные блоки, мы можем еще более «сжать» наш код и сделать отношение числа элементарных сигналов в закодированном сообщении к числу цифр в исходном (обыкновенном, т. е. десятичном) числе сколь угодно близким к предельному зна- чению, равному log 10 = 3,32193 ... В самом деле, восполь- зовавшись разбиением на блоки, скажем, из N цифр, мы г) Такое разбиение сообщения на последовательные пары цифр, очевидно, равносильно переводу его в стоичную систе- му счисления. 7*
196 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV придем к коду, в котором на каждые N цифр сообщения приходится к элементарных сигналов, где к — целое чи- сло, удовлетворяющее неравенствам 7с — 1 < log 10* < к, или, что то же самое, N log 10 + к < N log 10-j-l. к Отсюда видно, что среднее число элементарных сиг- налов, приходящихся на одну десятичную цифру, в та- ком коде не может отличаться от величины log 10 больше, чем на выбрав N достаточно большим, мы всегда мо- жем сделать эту разницу сколь угодно малой (ср. стр. 143). Разумеется, в приведенных рассуждениях почти ни- чего не изменится, если исходное сообщение не является числовым, а состоит из «букв» произвольного п-буквеппого «алфавита» (например, из обычных русских букв, или из латинских букв, или из букв и цифр или из букв, цифр и знаков препинания и т. д.). В этом случке, воспользовав- шись кодированием сразу крупных блоков из N таких «букв» (для чего надо только разложить но двоичной си- стеме счисления первые nN чисел), можно добиться того, чтобы среднее число элементарных сигналов, приходящихся на одну букву сообщения, стало сколь угодно близким к величине log п (меньше этой величины наше среднее число никогда быть не может, как это следует из простого под- счета количества информации). Лишь, в том случае, ко- гда п является целой степенью 2 (скажем, равно 2fc), та- кое разбиение на крупные блоки оказывается ненужным: здесь уже код, сопоставляющий некоторое кодовое обо- значение каждой отдельной букве, может быть сделан пре- дельно экономным, так что переход к кодированию по бло- кам не дает никакой выгоды. Отметим в этой свя- зи, что в некоторых отношениях «кодирование по блокам» всегда является менее удобным, чем «кодирование по от- дельным буквам»: при кодировании по блокам декодиро- вание, естественно, оказывается более сложным и громозд- ким (в тем большей степени, чем длиннее соответствующие блоки) и, кроме того, оно производится здесь всегда с не-
§ и ОСНОВНЫЕ ПОНЯТИЯ. ЭКОНОМНОСТЬ КОДА 197 которым запаздыванием (получив закодированное сообще- ние, мы не имеем возможности выяснить, какой была пер- вая переданная буква, пока не будут переданы следующие N — 1 букв). Все приведенные рассуждения без труда переносятся и на случай, когда при передаче используются не 2, а т элементарных сигналов (случай m-ичпого кода); толь- ко здесь при построении наиболее экономного равномерно- го кода надо пользоваться пе двоичной, а m-ичпой систе- мой счисления. Если п равно целой степени т, то вполне можно ограничиться кодированием каждой буквы сообще- ния в отдельности; уже при этом число элементарных сиг- налов, требующихся для передачи одной буквы, может быть сделано равным наименьшему возможному значению, а именно — значению -og п . Если же п не является це- log т лой степенью т, то при сопоставлении кодового обозна- чения каждой букве сообщения в отдельности нам при- дется затратить на каждую букву к }> log п log т элементар- ных сигналов; здесь к — наименьшее целое число, log п превосходящее )о| w. В этом случае мы можем построить более экономный код, перейдя к кодированию сразу це- лых TV-буквенных блоков; выбрав TV достаточно большим, мы всегда можем добиться того, чтобы среднее число эле- ментарных сигналов., затрачиваемых для передачи одной , , * log п буквы сообщения, стало сколь угодно близким к В частном случае т = 3 соответствующие рассуждения бу- дут близки к тем, которые приводились в § 2 гл. Ill при определении числа взвешиваний на чашечных весах без гирь, нужного для нахождения фальшивой монеты (см. стр. 146 и след.): так как каждое взвешивание может иметь три исхода, то результат последовательности та- ких взвешиваний можно представить в виде последова- тельности цифр, каждая из которых принимает одно из трех значенийг), т. е. в виде некоторого числа, записанно- го в троичной системе счисления. *) Эти значения можпо обозначить, как это принято в троич- ной системе счисления, цифрами 0,1 и 2, а можпо также вместо этого писать, например, буквы Р, П и Л (ср. с § 2 гл. III).
198 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV § 2. Коды Шеннона — Фано и Хафмана. Основная теорема о кодировании Основной результат предыдущего параграфа заключа- ется в следующем: если число букв в «.алфавите» равно и, а число используемых элементарных сигналов равно т, то при любом методе кодирования среднее число элементарных сигналов, приходящихся на одну букву алфавита, не может быть меньше чем п; однако оно всегда может быть log т ” сделано сколь угодно близким к этому отношению, если только отдельные кодовые обозначения сопоставлять сразу достаточно длинным «блокам», состоящим из боль- шого числа букв. С идейной точки зрения этот результат, очевидно, примыкает к простейшим соображениям, вы- сказанным в свое время Хартли: он никак не связан с теоретико-вероятностными рассмотрениями (слово «ве- роятность» в § 1 даже ни разу не упоминалось) и факти- чески опирается лишь на элементарный подсчет числа «различных последовательностей из N букв «-буквенного алфавита» и «различных последовательностей из /V, алемсп- тарных сигналов». Поэтому вряд ли можно считнть, что результаты предыдущего параграфа доказывают важность теории информации для технической задачи лере дачи сооб- щений, о чем говорилось в предисловии к настоящей книге. На самом деле, однако, результаты § 1 могут быть зна- чительно улучшены, если воспользоваться введенным в гл. II понятием энтропии и учесть статистические свойства реальных сообщений. В самом деле, ведь в § 1 эконом- ность кода мы весьма грубо характеризовали лишь наи- большим числом элементарных сигналов, прихо- дящихся на одну букву кодируемого сообщения, и в связи с этим рассматривали только простейшие коды — равно- мерные. Если в конце параграфа мы и говорили о сред- нем числе сигналов, приходящихся на одну букву сообщения, то это было связано лишь с тем, что там рас- сматривались равномерные коды сразу для многобуквен- ных блоков и отношение числа элементарных сигналов в кодовом обозначении к числу букв в соответствующем блоке (которое мы и называли средним числом элементар- ных сигналов, приходящихся на одну букву) могло пе быть целым числом. Между тем на практике обычно приходится
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 199 иметь дело с сообщениями, в которых относительные ча- стоты различных букв значительно отличаются друг от друга (достаточно сравнить, например, частоты букв о и щ в любом русском тексте; подробно об этом мы еще будем говорить в следующем параграфе). Поэтому основное зна- чение здесь должно играть теоретико-вероятностное среднее значение числа элементарных сигналов, приходящихся па одну букву сообщения, определяемое в соответствии с реальными статистическими закономер- ностями, характеризующими передаваемые сообщепия. Посмотрим теперь, что же можно сказать о кодировании сообщений, подчиняющихся определенным статистическим закономерностям. Мы рассмотрим здесь лишь простейший случай сообщений, записанных при помощи некоторых п «букв», частоты появления которых на любом месте сооб- щения полностью характеризуются вероятностями рг, р2,... ..., рп, где, разумеется, р± + р2 + ... +pn = 1. Упро- щение, которым мы при этом пользуемся, состоит в том, что вероятность pt появления i-й буквы па любом месте сообщения предполагается одной и той же, вне зависи- мости от того, какие буквы стояли на всех предыдущих местах; иначе говоря, последовательные буквы сообщения предполагаются независимыми друг от друга. На самом деле в реальных сообщениях это чаще всего бы- вает не так; в частности, в русском языке вероятность появления той или иной буквы существенно зависит от предыдущей буквы (см. пиже, стр. 240 и след.). Однако строгий учет взаимной зависимости букв сделал бы все дальнейшие рассмотрения очень сложными; в то же время естественно думать, что он пе должен изменить приведен- ные ниже результаты, так как, если угодно, под «буквами» мы можем сразу понимать блоки из многих букв, зави- симость которых друг от друга является уже сравнитель- но слабой х). Мы будем пока рассматривать только двоичные коды; обобщение полученных при этом результатов на коды, использующие произвольное число т элементарных сигналов, является, как всегда, крайне простым и о нем 1) Действительно, можно доказать, что все эти результаты сохраняются для весьма широкого класса случаев, в которых по- следовательные буквы сообщен я являются зависимыми друг от друга (ср. ниже, стр. 216—217).
200 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV будет достаточно сказать лишь несколько слов в самом конце параграфа. Начнем с простейшего случая кодов, со- поставляющих отдельное кодовое обозначение — после- довательность цифр 0 и 1 — каждой «букве» сообщения. Выше мы уже отмечали, что каждому двоичному коду для /г-буквеипого алфавита может быть сопоставлен некото- рый метод отгадывания загаданного числа х, не превосхо- дящего п, при помощи вопросов, на которые отвечается лишь «5а» или «нет»; обратно — любой метод отгадыва- ния такого числа приводит нас к определенному двоич- ному коду. При заданных вероятностях рг, р2, ..., рп от- дельных букв передача многобуквенного сообщения соот- ветствует как раз положению вещей, описанному на стр. 176 и след.; наиболее экономный код здесь будет сопоставляться тому методу отгадывания числа х, для ко- торого при этих именно вероятностях п значений х сред- нее значение числа задаваемых вопросов оказывается наи- меньшим. Само это среднее значение может рассматривать- ся также как среднее значение числа двоичных знаков (цифр 0 и 1) в одном кодовом обозначении; иначе говоря, оно точно равно среднему значению числа элементарных сигналов, приходящихся па одну его букву при передаче мпогобуквеппого сообщения. Мы можем теперь понос роде гнои по применить к пашей задаче результаты, изложенные па стр. 176 и след. Соглас- но этим результатам прежде всего среднее число двоичных элементарных сигналов, приходящихся в закодированном сообщении на одну букву исходного сообщения, не может быть меньше Н, где Н — — рх log рг — р2 log р2 — .. ... — Рп Рп — энтропия опыта, состоящего в распозна- вании одной буквы текста (или, короче, просто энтропия одной буквы). Отсюда сразу следует, что при любом методе кодирования для записи длинного сообщения из М букв тре- буется не меньше чем МН двоичных знаков. Эти факты немедленно вытекают из того, что информация; содержа- щаяся в отрывке текста, содержащем М букв, в нашем слу- чае равна МН (напомним, что отдельные буквы мы счи- таем взаимно независимыми); в то же время информация, содержащаяся в одном элементарном сигнале (двоичном знаке), никак не может превосходить одного бита (ср. стр. 177—178; другой вывод того же самого результата указан мелким шрифтом на стр. 180—182).
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 201 Если вероятности рг, р2, рп не все равны между со- бой, то Ж log /г; поэтому естественно думать, что учет статистических закономерностей сообщения может поз- волить построить код более экономный, чем наилучший равномерный код, требующий, согласно результатам § 1, не менее М log п двоичных знаков для записи текста из М букв. Как именно следует поступать для получения наибо- лее экономного кода, ясно из сказанного па стр. 176—177. Удобно при этом начать с того, что расположить все имею- щиеся п букв в одни столбик в порядке убывания вероят- ностей. Затем все эти буквы следует разбить на две груп- пы — верхнюю и нижнюю — так, чтобы вероятности для буквы сообщения принадлежать к каждой из этих групп были возможно более близки одна к другой; для букв первой группы в качестве первой цифры кодового обозна- чения используется цифра 1, а для букв второй группы — цифра 0. Далее, каждую из двух полученных групп снова надо разделить на две части возможно более близкой сум- марной вероятности; в качестве второй цифры кодового обозначения мы будем использовать цифру 1 или 0 в за- висимости от того, принадлежит ли наша буква к первой или ко второй из этих более мелких групп. Затем каждая из содержащих более одной буквы групп'снова делится на две части возможно более близкой суммарной вероятности и т. д.; процесс повторяется до тех пор, пока мы не придем к группам, каждая из которых содержит по одной-един- ствепной букве. Такой метод кодирования сообщений был впервые предложен в 1948—1949 гг. независимо друг от друга Р. Фано и К. Шеппоном; поэтому соответствую- щий код обычно называется кодом Шенпона — Фа- fl о (иногда также просто кодом Фано1)). Так, на- пример, если наш алфавит содержит всего шесть букв, вероятности которых (в порядке убывания) равны 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05, то на первом этапе деления букв на группы мы отщепим лишь одну первую букву (1-я группа), оставив во 2-й группе все остальные. Далее, вто- рая буква составит 1-ую подгруппу 2-й группы; 2-я же подгруппа той же группы, состоящая из оставшихся че- тырех букв, будет и далее последовательно делиться на *) На самом деле точно этот метод кодирования был предло- жен лишь Р. Фано; К. Шенноном же был предложен несколько другой метод, близкий к описанному здесь.
202 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV части так, что каждый раз 1-я часть будет состоять из одной лишь буквы (см. таблицу ниже). Аналогично в при- веденной на следующей странице таблице разобран случай более богатого буквами «алфавита», включающего 18 букв, имеющих следующие вероятности: 0,3; 0,2; 0,1 (2 буквы); 0,05; 0,03 (5 букв); 0,02 (2 буквы); 0,01 (6 букв). № Буквы вероят- ность разбиение на подгруппы (римские цифры обозначают номера групп и подгрупп) кодовое обозначение 1 0,4 I 1 2 0,2 Ц 1 01 '3 0,2 1 } 1 001 ‘4 0 1 И 1 тт 1 } I 0001 5 0,05 [ 11 1 II 1 тт } I 00001 6 0,05 J / ) 11 } П 00000 Основной принцип, положенный в основу кодирования по методу Шеннона — Фано, заключается в том, что при выборе каждой цифры кодового обозначения мы <тарисмгн, чтобы содержащееся в пой количество информации было ‘наибольшим, т. о. чтобы повависимо от значений п< ех пре- дыдущих цифр зга цифра принимала оба возможных для нее значения 0 и 1 по возможности с одинаковой вероят- ностью. Разумеется, количество цифр в различных обозначениях при этом оказывается различным (в част- ности, во втором из разобранных примеров оно меняет- ся от двух до семи), т. е. код Шеннона — Фано яв- ляется неравномерным. Нетрудно понять, однако, что никакое кодовое обозначение здесь не может оказаться на- чалом другого, более длинного обозначения (это ясно, в частности, и из того, что такой код фактически совпадает с описанным па стр. 176 и след, методом решения задачи об отгадывании загаданного числа; ср. стр. 189—190); поэтому закодированное сообщение всегда может быть однозначно декодировано. Весьма существенно, что бук- вам, имеющим большую вероятность, в коде Шеннона — Фано соответствуют более короткие кодовые обозначения, чем сравнительно маловероятным буквам (ибо при после- довательном делении на группы буквы, имеющие большую вероятность, быстрее оказываются выделенными в от-
§ 21 КОДЫ ШЕННОНА — ФАНО II ХАФМАНА 203 № буквы вероят- ность разбиение на подгруппы кодовое обозначение 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,3 0,2 ОД 0,1 0,05 0,03 0,03 0,03 0,03 0,03 0,02 0,02 0,01 0,01 0,01 0,01 0,01 0,01 и 10 он 0101 0100 00111 00110 00101 00100 00011 000101 000100 000011 0000101 0000100 000001 0000001 0000000 дельную группу из одного элемента; ср. приведенные выше примеры). В результате, хотя некоторые кодовые обозначения здесь и могут иметь весьма значительную длину, среднее значение длины такого обозна- чения все же оказывается лишь немногим большим ми- нимального значения Н, допускаемого соображениями сохранения количества информации при кодировании. Так, для рассмотренного выше примера 6-буквеппого алфавита наилучший равномерный код состоит из трохзначных ко- довых обозначений (ибо 22 6 < 23), и потому в нем на каждую букву исходного сообщения приходится ровно 3 элементарных сигнала; при использовании же кода Шеннона — Фано среднее число элементарных сигналов, приходящихся на одну букву сообщения, равно 1-0 4 + 2-0,2 4- 3-0,2 4- 4-0,1 4- 5- (0,05 4-0,05) = 2,3. Это значение заметно меньше, чем 3, и не очень далеко от энтропии Н = — 0,4 log 0,4 — 2-0,2 log 0,2 — 0,1 log 0,1 — - 2-0,05 log 0,5 — 2,22.
204 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV Аналогично этому для рассмотренного примера 18-бук- венного алфавита наилучший равномерный код состоит из пятизначных кодовых обозначений (так как 24 18 < 25); в случае ясе кода Шеннона — Фано имеются буквы, кодируемые далее семью двоичными сигналами, но зато среднее число элементарных сигналов, приходящихся на одну букву, здесь равно 2-0,5 + 3-0,1 + 4-0,15 + 5-0,15 + 6-0,06 +7-0,04 = 3,29. Последнее значение заметно меньше, чем 5, — и уже не намного отличается от величины Н=— 0,31og 0,3—0,2 log 0,2— —6-0,0,01 log0,01 ж 3,25. Особенно выгодно бывает кодировать по методу Шен- нона — Фано не отдельные буквы, а сразу целые блоки из нескольких букв. Правда, при этом все равно невоз- можно превзойти предельное значение Н двоичных знаков на одну букву сообщения (ибо для случая независимости отдельных букв энтропия А-буквенпого блока будет рав- на NH и, следовательно, при любом методе кодирования на один блок никак пе может прийтись в среднем меньше, чем Nil двоичных знаков); однако далее в сравнительно неблагоприятных случаях кодирование целыми блоками позволяет весьма быстро приблизиться к этому минималь- ному значению. Рассмотрим, например, случай, когда имеются лишь две различные буквы А и Б, имеющие веро- ятности р (А) = 0,7 и р (Б) = 0,3; тогда Н = —0,7 log 0,7—0,3 log 0,3 = 0,881... Применение метода Шсппопа — Фано к исходному двух- буквеппому алфавиту здесь оказывается бесцельным: оно приводит пас лишь к простейшему равномерному коду буква вероятность кодовое обозначение А 0,7 1 Б 0,3 0 требующему для передачи каждой буквы одного двоичного знака — на 12% больше минимального достижимого зна-
КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 205 § 2] чения 0,881 дв. зн./букву. Применяя же метод Шеннона — Фано к кодированию всевозможных двухбуквенных ком- бинаций (вероятности которых определяются правилом умножения вероятностей для независимых событий; см. стр. 29), мы придем к следующему коду: комбинация букв вероятность кодовое обозначение АЛ 0,49 1 АГ. 0,21 01 Г,А 0,21 001 ББ 0,09 000 Среднее значение длины кодового обозначения здесь равно 1-0,49 + 2-0,21 + 3-0,30 = 1,81, так что на одну букву алфавита здесь приходится в сред- 1 81 нем -у- = 0,905 двоичных знаков — лишь па 3% больше значения 0,881 дв. зн./букву. Еще лучшие результаты мы получим, применив метод Шеннона — Фано к кодирова- нию трехбуквенных комбинаций; при этом мы придем к следующему коду: комбинация букв вероятность кодовое обозначение ААА 0,343 11 ААБ 0,147 10 АБА 0,147 011 БЛА 0,147 010 АББ 0,063 0010 БАБ 0,063 ООН ББА 0,063 0001 БББ 0,027 0000 Среднее значение длины кодового обозначения здесь рав- но 2,686, т. е. на одну букву текста приходится в среднем 0,895 двоичных знаков, что всего на 1,5% больше значе- ния Н х 0,881 дв. зн./букву. В случае еще большей разницы в вероятностях букв А и Б приближение к минимально возможному значению Н дв. зн./букву может быть несколько менее быстрым, но оно проявляется не менее наглядно. Так, при р (4) = = 0,89 тир (Б) — 0,11 это значение равно — 0,89 log 0,89—
206 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [ГЛ. IV — 0,11 log0,11^0,5 дв. зн./букву, а равномерный код 4->1, Б -+• 0 (равносильный применению кода Шеннона — Фано к совокупности двух имеющихся букв) требует затраты одного двоичного знака на каждую букву — в два раза больше. Нетрудно проверить, однако, что применение кода Шенпона — Фано к всевозможным двухбуквенным комби- нациям здесь приводит к коду, в котором на каждую бук- ву приходится в среднем 0,66 двоичных знаков; приме- нение того же кода к блокам из трех букв позволяет пони- зить среднее число двоичных знаков, приходящихся на одну букву, до 0,55; наконец, кодирование по методу Шеннона — Фано всевозможных четырех буквенных бло- ков требует затраты на каждую букву в среднем 0,52 дво- ичных знаков — всего па 4% больше минимального зна- чения 0,50 дв. зн./букву. Близок к коду Шеннона — Фано, по еще выгодней, чем этот последний, так называемый код Хафмана (см. 1631), к описанию которого мы сейчас и перейдем. Построение этого кода опирается на простое преобразо- вание того алфавита, па котором за и псы паю ген пере- даваемые по линии связи сообщения называемо»1 сжатием алфавита. Пуп. мы имеем алфаипг А, содержащий буквы щ, н2, ..., ап, вероятности появления которых в сообще- нии соответственно равны рх, р2, ..., рп; при этом мы счи- таем буквы расположенными в порядке убывания их вероятностей (или частот), т. е. полагаем, что Pi > Рг > Рз > ••• ^Рп-1 Р п' Условимся теперь не различать между собой две наименее вероятные буквы нашего алфавита, т. е. будем считать, что ап-у и ап — это одна и та же буква Ъ нового алфа- вита Ах, содержащего, очевидно, буквы с1, н2, ..., сп_2 и Ь (т. е. ап_х или ап), вероятности появления которых в со- общении соответственно равны рг, р2, ..., рп~2 и рп-± + 4- рп. Алфавит Ах и называется полученным из алфавита А с помощью сжатия (или однократного сжатия). Прилагательное «однократное» в скобках в конце по- следней фразы имеет следующий смысл. Расположим бук- вы нового алфавита Ах в порядке убывания их вероятно- стей и подвергнем сжатию алфавит Ах; при этом мы придем к алфавиту А2, про который естественно сказать, что он
§ 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 207 получается из первоначального алфавита А с помощью двукратного сжатия (а из алфавита Ах — с помощью простого или однократного сжатия). Ясно, что алфавит А2 будет содержать уже всего п — 2 буквы. Продолжая эту процедуру, мы будем приходить ко все более корот- ким алфавитам; после (п — 2)-кратного сжатия мы придем к алфавиту Ап_2, содержащему уже всего две буквы. Вот, например, как преобразуется с помощью после- довательных сжатий рассмотренный выше алфавит, со- держащий 6 букв, вероятности которых раины 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05: № буквы Вероятности ИСХОДНЫЙ алфавит А сжатые алфавиты А, Аг А3 1 2 3 4 5 6 0,4 0,2 0,2 0,1 0,05 1 0,05 Г 0,4 0,2 0,2 0,1 1 _1-0,1 ]- 0,4 0,2 0,2 1 —1-0,2 J~ 0,4 1- 1—0,6 | 0,4 Условимся теперь приписывать двум буквам послед- него алфавита Ап_2 кодовые обозначения 1 и 0. Далее, если кодовые обозначения уже приписаны всем буквам алфавита Ау, то буквам «предыдущего» алфавита Ау_х (где, разумеется, А(_г = Ао— это исходный алфавит А), со- хранившимся и в алфавите Ау, мы припишем тс же кодовые обозначения, которые они имели в алфавите Ai-X; двум же буквам а' и а" алфавита Ау, «слившимся» в одну букву b алфавита Ау_х, мы припишем обозначения, получающиеся из кодового обозначения буквы Ь добавле- нием цифр 1 и 0 в конце (см. таблицу на следующей стра- нице). Легко видеть, что из самого построения получаемого таким образом кода Хафмана вытекает, что он удовлет- воряет указанному на стр. 188 общему условию: никакое кодовое обозначение не является здесь началом другого, более длинного кодового обозначения. Заметим еще, что кодирование некоторого алфавита по методу Хафмана (так же, впрочем, как и по методу Шеннона — Фано) не
208 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ ГГл.IV вероятности и годовые обозначения S И к» ю ИСХОДНЫЙ алфавит А сжатые алфавиты At Аг Аз а4 1 0,4 0 0,4 0 0,4 0 0,4 0 1-0,6 1 2 0,2 10 0,2 10 0,2 10 1-0,4 111 1 0,4 0 3 0,2 111 0,2 111 0,2 1111 Ц 0,2 ЮГ 4 0,1 1101 0,1 1101] |-0,2 НОГ 5 0,05 110011 1-0,1 1100 г 6 0,05 НОООГ является однозначно определенной процедурой. Так, па- пример, на любом этапе построения кода можпо, разу- меется, заменить цифру 1 па цифру 0 и наоборот; при этом мы получим два разных кода (отличающихся, правда, весьма несущественно друг от друга и имеющих то жо длины всех кодовых обозначений). Но помимо того в не- которых случаях можно построить и несколько суще ственно различающихся кодов Хафмана; так, например, в разобранном выше примере можпо строить код и и гонг ветствии со следующей таблицей: 1 № буквы ППРОПТИОСТН И 1«1Д<>11ЫО 1>а<Ы11ПЧи1Ш|| исходный алфавит А < ждтые плфапнты Ai Аа А, а4 1 2 3 4 5 6 0,4 11 0,2 01 0,2 00 0,1 100 0,05 1011 0,05 1010 - 0,4 11 0,2 01 0,2 00 »0,1 1011 | 0,1 юор- 0,4 11 >0,2 10 0,2 011 1 0,2 ОО]*- .—>0,4 0 0,4 И) | 0,2 10]*- .-0,6 1 1 0,4 0 Получаемый при этом новый код также является кодом Хафмапа, по длины имеющихся кодовых обозначений те- перь уже оказываются совсем другими. Отметим, однако, что среднее число элементарных сигналов, при- ходящихся на одну букву, для обоих построенных кодов Хафмана оказывается точно одинаковым: в первом слу- чае оно равно 1-0,4 + 2-0,2 + 3-0,2 + 4-0,1 + 5- (0,05 + 0,05) 2,3,
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 209 а во втором — равно 2-(0,4 + 0,2 + 0,2) + 3-0,1 + 4-(0,05 + 0,05) = 2,3. Далее, оба кода явно относятся к числу весьма эконом- ных (в данном конкретном случае средняя длина кодового обозначения здесь совпадает с той, которая получилась выше при использовании кода Шеннона — Фано). Более того, можно показать, что код Хафмапа всегда является самым э к о п о м и ы м из всех возможных в том смысле, что ни для какого другого метода кодирования букв некоторого алфавита среднее число елементарных сигна- лов, приходящихся на одну букву, не может быть меньше того, какое получается при кодировании по методу Хаф- мана (отсюда, разумеется, сразу вытекает и то, что для любых двух кодов Хафмана средняя длина кодового обоз- начения должна быть точно одинаковой — ведь оба они являются наиболее экономными). Доказательство этого свойства оптимальности кодов Хафмана совсем несложно. Рассмотрим снова какой-то п-буквеп- ный алфавит (обозначим его, например, через 13), содержащий буквы Ь2, . , ,,bn-i, Ьп, вероятности которых равны qi,q2, > • qn-i, qn, где 9i > > • • > 9n-i > In, (*) и получающийся из него сжатием (п — 1)-буквенный алфавит (ал- фавит Bi), содержащий буквы Ъ±, Ь2, ..., с> вероятности появ- ления которых соответственно равные, q2, . . ., qn^2, qn-i + = S'- Предположим’ теперь, что мы имеем какую-то систему кодовых обозначений для букв алфавита В,; эту систему кодовых обозна- чений мы перенесем затем и в алфавит В, сохранив обозначения всех букв, входящих одновременно и оба алфавита, а буквам Ъп-г и Ьп приписав обозначения, получающиеся пл обозначения бук- вы с прибавлением в конце соответственно цифр 1 и 0. Покажем теперь, что если код для алфавита Bj был оптимальным, то и по- лученный таким путем код для алфавита В будет оптимальным. Выделенное курсивом утверждение мы будем доказывать от противного. А именно, мы предположим, что полученный код для Вне является оптимальным, и покажем, что в таком случае не мог быть оптимальным и исходный код для Вр В самом деле, обозначим среднюю длину кодового обозначения буквы (т. е. среднее число приходящихся на одну букву элементарных сигналов) для рассматриваемых кодов, отвечающих алфавитам Bj и В, через и L; при этом, очевидно, £ = £1+вэ (**) Действительно, алфавиты Bi и В отличаются лишь тем, что имею- щая вероятность q буква с алфавита Bi заменяется в алфавите В двумя буквами бп_1и Ьп с той же самой общей вероятностью
210 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ 11 I IV появления q (= qn_i + gn); отвечающие же этим алфавитам д (ины кодовых обозначений отличаются лишь увеличением па единицу длин, отвечающих буквам bn_i и Ьп, по сравнению с дипнон, <п - вечающей букве с алфавита Вх. Отсюда и из определения средней длины кодового обозначения сразу следует соотношение (**). Мы предположили, что отвечающий алфавиту В код и е о н- т и м а л е н; другими словами — что существует отличный от рас- сматриваемого код, сопоставляющий буквам Ьъ b2, . . .,bn-lt Ьп кодовые обозначения длин (в элементарных сигналах) kL, кг, . . > • ,АП_1ДИ, такой, что для него средняя длина кодового обо пН'ЧО ния одной буквы L' = ki-qi + кг-qz + . . . + k^-q^ + kn-qn меньше L. При этом мы можем считать, что ki (♦••) В самом деле, если bi и bj (где I и j — какие-то два из иомероп 1, 2, . . ., п) — такие буквы, что д-г < qj (откуда в силу (*) следует неравенство i > j), а кг < kj, то мы просто поменяем кодовые обоз- начения букв bj и bj, после чего средняя длина кодового обошп чения буквы еще уменьшится; поэтому если <?i > q)t то обязан и > ki ‘С kj. Ну а в пределах группы буки bu, bu i, , ft, (i о I < v и) такой, что qu — qu->\ " . . . " q,, мы n< 01 1* м< -ы | я» • положить буквы в таком порядке, чю Л„ к, Из неравенств (♦♦♦), и ча< morin сл цп, чя> чает кодовоо обозначение, iimimoiuoc самую Ло г |<| у *> | ищу кп. Далее, мы можем быть уверены n cyuu-riuouuunil твкоо оуквы bi алфавита В, кодовое обозначение которой п>мрч<ится и< я >о еого обозначения букоы Ьп вам/нои поел <)нее» ыемвнтирн—о еиенала <— 1 на 0 или 0 на 1. В самом дело, если бы такое кодовое ooo.iihi чение вовсе отсутствовало, то мы могли бы просто oiKiinyu. по следний элементарный сигнал в кодовом обозначении буквы Ьп, не придя при этом в противоречие с основным условием, определяю щим коды без разделительного знака (напомним, что букв, имею щих более длинные, чем Ъп, кодовые обозначения, у нас пот). По при этом мы снова уменьшили бы среднюю длину кодового обо- значения одной буквы, что противоречит предположению об опти- мальности рассматриваемого кода. Но из неравенств (»**) и равенства ki = кп следует, что не- избежно ki — fcn_i (по при этом не обязательно I = п — 1). Номе няем теперь кодовые обозначения букв i>t и Ьп1, если I =/= п — 1 (если I = п —1, то этот этап рассуждения является лишним); при этом величина L', очевидно, пе изменится. А теперь перейдем от рассматриваемого кода для алфавита В к коду для алфавита By, сохранив кодовые обозначения всех букв Ьь Ь2, ..., Ьп2, а буки* с приписав кодовое обозначение, получающееся из кодовые обо шк чений букв Ьп х и Ьп отбрасыванием последней цифры (которой nil кодовые обозначения лишь и отличаются). Очевидно, что средина длина Lj полученного таким путем кода для алфавита By cnn.unin
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 211 со средней длиной L' кода для В аналогичным (**) соотношением L' = + q, откуда, в силу неравенства L' < L, следует, что ь; < Li. Но это и доказывает, что исходный код для Bi не был опти- мальным. Мы, по существу, у ко завершили доказательство оптималь- ности кодов Хафмана. Действительно, ясно, что принятый нами код для последнего алфавита Лп_2< приписывающий двум буквам, из которых этот алфавит состоит, кодовые обозначения 1 и 0, яв- ляется оптимальным: отвечающая ему средняя длина 1 ко- дового обозначения буквы никак не может быть уменьшена. Но отсюда, в сиду только что доказанного, следует, что и код для ал- фавита Ап-,»" является оптимальным, откуда, в свою очередь, выте- кает оптимальность кода для алфавита Ап_4 и т. д.— и так до пос- леднего кода (кода Хафмана), отвечающего исходному алфавиту Аг т = Ао, т. е. алфавиту А. Достигнутая в рассмотренных выше примерах степень близости среднего числа двоичных знаков, приходящихся на одну букву сообщения, к значению Н может быть еще сколь угодно увеличена при помощи перехода к кодиро ванию все более и более длинных блоков. Это вытекает из следующего общего утверждения, которое мы будем в дальнейшем называть основной теоремой о кодировании1): при кодировании сообщения, раз- битого на N-буквенные блоки, можно, выбрав N достаточно большим, добиться того, чтобы среднее число двоичных элементарных сигналов, приходящихся на одну букву ис- ходного сообщения, было сколь угодно близко к II (други- ми словами — сколь угодно близко к отношению количе- ства Н информации, содержащейся в одной букве сообще- ния, к 1 биту, т. е. к наибольшему количеству информа- ции, могущему содержаться в одном элементарном сигнале). Иначе это можно сформулировать еще так: очень длинное сообщение из М букв может быть закодировано при помощи сколь угодно близкого к МН (но, разумеется, ни в каком случае не меньшего!) числа элементарных сигналов, если только предварительно разбить это сообщение на х) Точнее следовало бы сказать: основной теоре- мой о кодировании при отсутствии помех Обобщение этого результата на случай наиболее выгодного кодиро- вания, учитывающего влияние помех, будет рассмотрено в § 4.
212 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ П'л. IV достаточно длинные блоки ueN букв и сопоставлять отдгл^ ныв кодовые обозначения сразу целым блокам. Отметим * щи, что мы не случайно ничего не говорим здесь о том, как имен- но следует производить кодирование TV-буквенных блоков: как будет видно из дальнейшего, методы кодирования бло- ков могут быть весьма различными (так, например, здесь можно — хоть это, разумеется, далеко не единственны» имеющиеся здесь возможности — следовать методу ко- дирования Шеннона — Фано или методу Хафмапа). Таким образом, основную роль при получении наиболее эконом- ного кода играет именно разбиение сообщения на весьма длинные блоки. В § 4 мы увидим, что кодирование сразу длинных блоков имеет значительные преимущества и при наличии помех, препятствующих работе линий связи (хотя сами методы кодирования при этом требуют суще- ственного изменения). Ввиду большой важности сформулированной здесь основной теоремы о кодировании мы приведем ниже д л а совершенно разных ее доказательства (оба они фактически принадлежат К. Шеннону). Первое из них, но с\шепну, опирается на использование метода кодирования Шец нона—Фано, хотя, как мы увидим ин ке, прямой uhiip.t.ik ции к этому методу доказательство во содержит Вредно ложим сначала, что при составляющем основу метода Шен- нона— Фано последопаюльиом делении совокупное i и кодируемых букв (под которыми могут пониматься также и целые «блоки») на все меньшие и меньшие группы паи каждый раз удается добиться того, чтобы вероятности двух получаемых групп были точно равны между со- бой. В таком случае после первого деления мы придем к группам, имеющим суммарную вероятность 1/2, после второго — к группам суммарной вероятности 1/4,..., поело Z-го деления — к группам суммарной вероятности 1/21. При этом Z-значпое кодовое обозначение будут иметь те буквы, которые оказываются выделенными в группу из одного элемента ровно после I делений, т. е. буквы, вероят- ность которых равна 1/21; иначе говоря, при выполнении этого условия длина It кодового обозначения будет связана с вероятностью pt соответствующей буквы формулой 1 1 Рг = — , = 10g— = — log/?;. 2» Р1
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 213 На самом доле, иашо условно может быть точно выпол- нено лишь в некоторых исключительных слу- чаях: из последних формул сразу следует, что вероят- ности pt всех букв алфавита здесь должны равняться еди- нице, деленной на целую степень числа 2. В о б щ е м же случае величина— log plf где pt — вероятность i-й буквы алфавита, как правило, целым числом не будет; поэтому длина 1г кодового обозначения i-й буквы пе сможет быть равна — log pi. Поскольку, однако, при кодировании по методу Шеннона — Фано мы последовательно делим наш алфавит па группы по возможности близкой суммарной вероятности, то длина кодового обозначения i-й буквы при таком кодировании будет близка к —log pt. Обозначим, в этой связи, через lt первое целое число, не меньшее чем —logpf, т. е. такое, что — logpi < It < — logjOj 4-1. (А) Последнее неравенство можпо переписать еще так: — h < logpi < — (li — 1), или 1 2'i 1 2<r (Б) Докажем теперь, что существует такой метод коди- рования, при котором длина кодового обозначения i-й бук- вы точно равна этому числу lt; только этот факт (а не опи- сание соответствующего метода кодирования х)) понадо- бится нам для доказательства основной теоремы. Покажем прежде всего, что в случае любых п чисел ^2» удовлетворяющих неравенству (1) существует двоичный код, для которого эти числа являются длинами кодовых обозначений, сопоставляемых п буквам некоторого алфавита. В самом деле, пусть пг — число тех из чисел 1Г, 12, ..., 1п, которые равны 1; п2 — число тех 4 О нем см. текст, напечатанный мелким шрифтом на стр. 231 и след.
214 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ 1Гл IV ме м, из них, которые равны 2; ... ; наконец, nk —число т»« этих чисел, которые равны к (где п± -f- /г2+ ... + лл так что к — это значение наибольших из чи< • i li, l2i ..., Zn). В таком случае неравенство (1) можно иерО- писать в виде откуда сразу следует, что «2 4 п3 8 П1 2 П1 па или < 2 (2 — п,); или п3 < 2 (4 — (2/гл + п2)]; 2* ^2 Из ~2 4 8" п1с—I ыРТ или 2 4 *~1 _ (2к-’,г, + 2|,-Ч + • (ср. выше, стр. 181—182). Но ясно, что условие л( 2 га- рантирует возможность выбрпп. я, различных кодовых обозначений длины 1. Аналогично этому неравенство 2 (2 — rij) указывает на возможность выбрать допол- нительно пг кодовых обозначений длины 2, пачипающи си с двоичных цифр, отличных от тех, которые уже «заняты» кодовыми обозначениями длины 1» ведь число таких «сво- бодных» начальных цифр равно 2 — пг и к каждой из них можно приписать в конце или цифру 0, или цифру 1. Точно так же неравенство п3 2 [4 — (2яг 4- я2)| га- рантирует возможность выбирать п8 кодовых обозначении длины 3, первая цифра которых отлична от nt цифр, «за- нятых» кодовыми обозначениями длины 1, а первые две цифры — от п2 двузначных чисел, «запятых» кодовыми обозначениями длины 2 (так как 2пх + я2 — это число двузначных двоичных чисел, или начинающихся одной из цифр, являющихся кодовыми обозначениями длины 1, или же совпадающих с одним из п2 обозначений длины 2, а 4 — это число всех возможных двузначных двоичных чисел, с которых в принципе может начинаться кодовое
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 215 обозначение длины 3). Последнее рассуждение может быть продолжено и дальше; при этом неравенство пк 2 [2fc 1 — (2k 2nY 2 Зтг2 + • • 4" пк—i)L относящееся к числу пк, обеспечивает возможность выбо- ра пк кодовых обозначений длины к, первая цифра кото- рых не совпадает ни с одним из кодовых обозначений длины 1, первые две цифры не совпадают пи с одним из п2 кодовых обозначений длины 2, первые три цифры не сов- падают ни с одним из п3 кодовых обозначений длины 3 ит. д., так что из 2/с-1 в принципе возможных начальных комбинаций к — 1 двоичных цифр 2к—2лгх + 2fc-sH2 + ... ... + н/£_г комбинаций являются «занятыми» (ср. выше, стр. 181—182). В результате как раз и получается резуль- тат, согласно которому выполнение неравенства (1) гарантирует возможность выбора п кодовых обозначений длин Zr, Z2, ..., Zn, удовлетворяющих условию, напечатан- ному на стр. 188 курсивом; эти-то обозначения мы и можем сопоставить имеющимся п буквам алфавита. Для завершения доказательства существования тре- буемого кода нам остается только заметить, что в силу неравенства (Б), определяющего длины lt кодовых обоз- чений, —г-pi при всех i — 1, 2, ..., п, где рг — ве- 2» роятность г-й буквы алфавита. Таким обравом, -^7* 4- + • • • 4—у- Pi 4- Pi 4- • • • 4- А» = 1J 2 1 2* 2П поэтому числа Ц действительно удовлетворяют неравен- ству (1), нужному для того, чтобы они могли быть длинами кодовых обозначений двоичного кода. Теперь уже совсем легко доказать основную теорему о кодировании. В самом деле, среднее число Z двоичных сигналов, приходящихся на одну букву исходного сооб- щения (иначе говоря, средняя длина кодового обозна- чения), по определению, дается суммой Z = p^li 4* Рг^з “Ь 4” Рп^п‘ Умножим теперь задающее величину Ц неравенство (А) на Pi, сложим все полученные таким образом неравенства,
216 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл IV отвечающие значениям i — 1, 2, ..., п, и учтем, что н = —PilogPi — jo2logA — ... — pniogpn, где Н = II (а) — энтропия опыта а, состоящего в онр<« делении одной буквы сообщения, и что рг + р2 + ... ...+дп = 1. В результате получаем, что I < Н + 1. Применим это неравенство к случаю, когда описанный выше метод используется для кодирования всевозможных N- буквенных блоков (которые можно считать «буквами» нового алфавита). В силу предположения о не- зависимости последовательных букв сообщения энтропия опыта ... a/у, состоящего в определении всех буки блока, равна Н (aia2 ••• aw) = Н (ax) + II (a2) + ... +/Z (ccjv) = = Nil (a) = Nil. Следовательно, средняя длина 1^ кодового обозначении JV-буквенного блока удовлетворяет нерп пенсiним Nil <lN <NIi | 1 Но при кодировании сразу N буквенных блоков <ре jure число I двоичных элементарных сигналов, приходящихся на одну букву сообщения, будет равно сроднен длине кодового обозначения одного блока, деленной па число N букв в блоке: Поэтому при таком кодировании //</<//4-_Lf т. е. здесь среднее число элементарных сигналов, прихо- дящихся на одну букву, отличается от минимального зна- чения Н не больше, чем на Полагая N —> оо, мы сразу приходим к основной теореме о кодировании. Прежде чем идти дальше, отметим, что приведен поп здесь доказательство может быть применено также и к
§ 2] КОДЫ ШЕННОНА ФАНО И ХАФМАНА 217 более общему случаю, когда последовательные буквы текста являются взаимно зависимыми. При этом придется только неравенство для величины lN пи- сать в виде n<N> < lN < Н™ + 1, где //(W) = и (а1а2а3 ... aN) = II (ctj + Яа, (а2) + + Ища, (а3) + ... +Па,а,... av i (адг) — энтропия ^буквенного блока, которая в случае за- висимости букв сообщения друг от друга всегда будет меньше чем NH (ибо Н (аД = Н и Н (аг) Hai (a2) > >Haia2 (a3) > ... > На,аг... (aN)). Отсюда следует, что Н™ _. . , 1 /у /у + TV ’ где I есть среднее число элементарных сигналов, приходя- щихся на одну букву сообщения, и, значит, в этом более общем случае при N -> оо (при безграничном увеличении длины блоков) среднее число элементарных сигналов, за- трачиваемых на передачу одной буквы, неограниченно при- ближается к величине На,, где На= 1114 —лГ- Л’—со А есть «удельная энтропия», приходящаяся на одну букву многобуквенного текста (об этой последней величине мы еще будем подробнее говорить в следующем параграфе) ’). Перейдем теперь ко второму доказательству па- шей основной теоремы о кодировании; последовательные буквы сообщения мы при этом снова будем считать вза- имно независимыми. Доказательство, которое будет дано ниже, является несколько более длинным, чем первое, но х) Существование предела сразу следует из неравенств Н (щ) > На^а2) На.,а2(аз) > •••» показывающих, что после- ,п и(2) и® Нт довательность Н (а) = Н®, - -, -у- , ..., является Z о xv монотонно невозрастающей последовательностью положительных (т. е. больших нуля) чисел.
218 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯ.ЛГ 1Гл IV зато оно более поучительно, так как хорошо numим»г смысл самого понятия энтропии (см. выше, стр. 82 83) Кроме того, это новое доказательство покажет нам, цо даже и в случае резко отличающихся вероятностей р»» личных букв при кодировании очень длинных блоков псп равпо можно пользоваться «почти равномерным» кодом, сопоставляющим всем блокам, кроме некоторой части их, имеющей ничтожно малую суммарную вероятность, ко- довые обозначения одинаковой длины. Что же киснетен последних «маловероятных» блоков, то легко попить, что их мы можем кодировать уже почти «как попало»: так как вероятность появления какого-либо из них очеш. мала, то метод кодирования этих блоков не будет играть существенной роли. Для большей наглядности мы начнем наше доказатель- ство с подробного рассмотрения простейшего случая, когда весь «алфавит» состоит всего из двух букв я и б, имеющих вероятности рг — р и р2 = 1 — р = q. Будем кодировать всевозможные цепочки («блоки») состоящие иа N после» довательных букв а и б. Общее число различных твкпх ТУ-члспных цепочек будет раппо 2N (гр, с гр. 82). О inn КО большинство ИЗ ЭТИХ ^4.114111141 Ц|'111>*И>К <>V IVT NMa'tk ничтожную вероятность: так как оикгип ii.iuin ч«<го та появления двух букв расхматршишмого «алфавита* равна р и q, то при достаточно большом N апмешук» вероятность будет иметь лишь совокупность тех цепочек, в которых из общего числа N букв примерно Np раз встре- чается буква а, а остальные примерно N — Np и Nq раз —буква б. Выражаясь точнее, можно сказать, что при очень большом N все цепочки, в которых относительная частота появления буквы а не заключена в пределах между р — г и р-(-е, где е — произвольно выбранное очень маленькое число (например, О,(МЛ или 0,0001, и in 0,000001; за е можно принять любое из этих чиа-1 и даже любое еще меньшее число, если только N будет достаточно велико), имеют крайне малую суммарную вероятность, так что их можно вообще не принимать в рас чет. Что же касается цепочек, в которых буква а встр<' чается от N (р — е) до N (р + е) раз, то каждая такая цепочка в отдельности также, разумеется, будет очень маловероятной (при большом N общее число возможных цепочек очень велико, а вероятность каждой пл них в иг-
S 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 219 дельности очень мала), но суммарная вероятность всех этих цепочек будет весьма близка к 1. Заметим теперь, что число A-буквенных цепочек, в которых буква а встречается ровно Np раз г), равно числу СкР сочетаний из N элементов по Np. Поэтому нам надлежит теперь оценить величину См (см. сноску 1)) в зависимости от N и К. Для того чтобы идея приведенного ниже рассуждения стала более ясной, напомним сначала (не нужный нам для дальнейшего!) вывод формулы для числа С«- Предположим, что мы имеем N (бумажных) жетонов и N различных красок, которыми мы хотим окрасить эти жетоны — каждый своей краской. Так как первый жетон мы можем окрасить любой из имеющихся N красок, второй — любой из N — 1 оставшихся, третий — любой из неиспользованных ранее N — 2 красок и т. д., наконец, последний жетоп — единственной оставшейся в пашем распоряжении краской, то общее число возможных окрасок жетонов равно N-(N — !)• (N — 2)- (N — 3)-...-1 = N\. Назовем теперь какие-то К красок «первыми», а остав- ите N — К красок — «вторыми»; далее выберем какие-то К жетонов, которые мы будем считать «первыми» (а прочие N — К жетонов —«вторыми»). В таком случае мы будем иметь К! способов окраски К «первых» жетонов К «пер- выми» красками и (N— /<)! способов окраски оставшихся N— К жетонов N — К «вторыми»*красками. Комбини- руя дыбой из способов окраски К «первых» жетонов с любым из (N — К)\ способов окраски оставшихся жето- нов, мы получим всего К\- (N — К)\ способов окраски N жетонов, при которых «первыми» К красками окрашены выбранные К «первых» жетонов. А так как, кроме того, К «первых» жетонов можно выбрать из общего числа N жетонов способами, то общее число *) Если Np не целое, то это число мы заменим ближай- шим целым числом К: при большом N различие между Np и К будет весьма малоощутимым. Аналогичное замечание можно сделать и относительно числа Ne.
220 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл IV различных окрасок должно быть равным C$Kl (N — К)\. Следовательно, М = С$К! (N - К)\, откуда и следует искомая формула Хорошо известная формула (*) дает точное выражений для числа С% через числа N и К; однако при большом N (а ведь нас в дальнейшем только и будет интересовать слу чай большого N) опа малоудобна. В самом деле, NI есть произведение N р а з л и ч и ы х множителей; оценить его величину при большом N совсем пе просто. Поэтому в дальнейшем мы будем пользоваться пе этой формулой, а приближенной оценкой для величины С^, отлпчающейгп от правой части формулы (*) глазным обрп.шм тем. что в ней будут фигурировать степ о н и чисел А, А и N — К, которые легко оценки, с пожнцыо книрифмир» вания. Вот как получпегсл .<>« оценки чш in (‘Д. Рассмотрим ту жо задачу об <>кpiuiiiiiuiiiiiii A' ta.i ioiiuii Д красками, которая iiciioabaoiia.iaci. (.in выподи формулы (*); только теперь мы откажемся от условии, чтобы к«.» дый жетон был обязательно окрашен своей краской. В га ком случае первый жетон мы ио-прежнему сможем окра сить любой из N красок; однако также и второй, и гр< тий, ..., и последний жетон мы также сможем покрасить любой из N красок, так что общее число возможных раскра сок будет в этом случае равно N -N . . N N сомножителей Если теперь мы снова выберем какие-то К «первых» кра сок и К «первых» жетонов, то эти К жетонов К красками можно будет окрасить Кк способами; оставишеся же N — К жетонов можно будет (А7 — K)N~K способами окра сить 7V— К «вторыми» красками. Комбинируя каждую из возможных Кк окрасок «первых» жетонов с каж «он из (N— K)N~K окрасок оставшихся жетонов, мы получим
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 221 всего Кк • (7V - K)N~K различных способов окраски всех N жетонов. Это послед- нее число надо еще умножить на поскольку С^, равно числу способов, каким можно выбрать К «первых» жето- нов из общего числа N жетонов. Заметим теперь, что получившееся число C“KK(N- K)n~k не равно общему числу NN возможных окрасок N же- тонов, а меньше этого числа: в самом деле, -Ккх. X (N—K)N~K — это число таких окрасок, в которых К «первых» красок используются ровно К раз (а ведь суще- ствуют и окраски, в которых эти К красок, например, используются N раз или не используются вовсе!). Таким образом, окончательно получаем Cn Кк (N- K)N~K < Nn, откуда и следует нужная нам оценка величины Cn<Kk(N-K)n-k • ( ) Заменим теперь в неравенстве (**) К на Np; при этом N — К обратится в N — Np -- N (1 — р) = Nq. По- этому для числа С^р «наиболее вероятных» N буквенных цепочек, т. е. таких, в которых буква а встречается ровно Np раз (а буква б — оставшиеся Nq раз), мы получаем оценку „Np NN_____________Nn = N (Np)Np (Ng)Nq NNp+N^pNPgNq Nn _ 1 “ NNpNpgNq ~ pNpgNq • Примерно, столько же будет цепочек, в которых буква а встречается Np + 1, Np + 2, ..., Np + Ne раз или же Np — 1, Np — 2, ..., Np — Ne раз (так как во всех этих случаях отклонение частоты появления буквы а от той,
222 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл IV для которой мы производили наш расчет, будет очень н<» большим). Поэтому, не делая большой ошибки, можно считать, что общее число «вероятных» цепочек (т. е. таким цепочек, что все остальные цепочки вместе взятые имеют ничтожно малую вероятность, которой можно пренебречь) не превосходит значения М — 2Ne • 1 pNPqNq ~ pNPqNQ • где е — некоторое малое число. Воспользуемся теперь для кодирования наших Mt (или менее Mi) «вероятных» цепочек наилучшим равномерным кодом х). Так как число таких цепочек очень велико, то длина кодового обозначения при этом будет практически совпадать с двоичным логарифмом числа цепочек (ср. стр. 143), т. е. будет пе больше чем log Mi = Iog2e + log TV — TV (p logp + q log q). Поэтому среднее число двоичных знака*, приходя щихся на одну букву сообщения, вдссь не п|>< мн е цн ш>*ц* чины тт । 1,“''N । 2" " № н-—дт—. где Н = —р logp — <7 log <7. При TV —> со оба члена в предпоследней формуле, СЛ( дующие за Н, стремятся к нулю (напомним, что отношение log Л’ 1,1 ———--------log неограниченно убывает при возра- стании TV; см. стр. 72), откуда и вы га книг, что <и piititt чившись одними лишь «вероятными» цепочками, можно сделать среднее число двоичных знаков, приходящих) я на одну букву сообщения, сколь угодно близким к 11 ). Отметим, что применение к этим «вероятным» цепочкам неравномерного кода не может дать существенной выгоды, так как вероятности всех таких цепочек сравнительно мало отличаинся друг от друга (поскольку относительная частота отдельных Gjk» во всех их примерно одна и та же). 2) Меньше Н это число быть не может (см. выше, стр. 2(Х>).
I 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 223 Что же касается оставшихся «маловероятных» цепочек, то если даже мы потратим на кодирование каждой буквы этих цепочек в несколько раз больше чем Н двоичных знаков, то все равно среднее значение числа таких зна- ков, приходящихся па одну букву сообщения, при этом почти не изменится (так как суммарная вероятность всех таких цепочек ничтожно мала). Поэтому при кодировании фактически надо лишь позаботиться, чтобы ни одно из соответствующих кодовых обозначений но совпало с про- должением какого-либо из прочих используемых обозна- чений. Для этого можно, например, с самого начала до- бавить единицу к общему числу «вероятных» цепочек (замена на Mi + 1, разумеется, не повлияет на даль- нейшие оценки) и воспользоваться тем, что в таком слу- чае мы, наверное, будем иметь по крайней мере одно «незанятое» кодовое обозначение той же длины, что и все обозначения для «вероятных» цепочек. Если теперь мы поместим в начало всех обозначений для «маловероятных» цепочек это «незанятое» кодовое обозначение, то том са- мым уже будет гарантировано, что ни одно из новых обо- значений не будет продолжением одного из старых. Вслед за этим обозначением мы можем добавить, например, ре- зультат применения к «маловероятным» цепочкам какого- либо наиболее экономного равномерного кода, после чего для всех «маловероятных» цепочек окончательно полу- чаются обозначения одной и той же длины, удовлетворяю- щие требуемым условиям. Общий случай п-буквеппого алфавита, в котором от- дельные буквы имеют вероятности plt рг, ..., рп, где Pi + Р2 + + Рп — 1» разбирается почти так же. В слу- чае длинных цепочек из N букв наибольшую вероятность будут иметь цепочки, в которых первая буква встречается около Npt раз, вторая — около Np% раз, ..., п-я — около 7Vpn раз. Число цепочек, в которых первая буква встре- чается ровно Npi раз, вторая — ровно TVp2 раз, ..., п-я — ровно Npn раз, равно числу разбиений N элементов на п групп, содержащих соответственно Npl, Np2, Npn элементов. Рассмотрев теперь задачу об окрашивании N жетонов N красками так, чтобы каждая краска была использована ровно один раз, и разбив краски на п групп, содержащих, соответственно, Npi, Np2i ..., Npn красок, мы сможем
224 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV совершенно аналогично выводу формулы (*) доказать, что число таких разбиений N элементов на п групп равно _________7V!_______ (TVpi)! (TVp2)! - . • (Wpn)! (эта формула обобщает обычную формулу для числа со- четаний *)). Рассмотрев далее задачу об окрашивании N жетонов N красками (по-прежнему разбитыми на п групп, первая из которых содержит Npi красок, вторая — Np2 красок, ..., последняя — Npn красок), в которой уже не требуется, чтобы каждая краска была использована ровно один раз, мы аналогично выводу неравенства (**) убедимся, что интересующее нас число разбиений N элемен- тов на п групп меньше величины 1 Р^Р^.-.Р^п • Применив этот результат к «вероятным» цепочкам, у ко- торых частота появления первой буквы заключена между Pi — е и pi -f- е, частота появления второй — между р2 — ей р2 + е, ..., частота появления п п буквы —меж- ДУ Рп — е и рп + е, получим, что общее число таких це- почек, наверное, по превосходит числа (27Ve)n________1 = 2П^П - } Р^'Р^.-.Р^п Р^'Р^. Р^ • Что касается остальных цепочек, у которых частота по- явления хоть одной из букв не укладывается в указанные пределы, то суммарная вероятность всех этих цепочек будет ничтожно мала, так что пх можно вовсе не прини- мать во внимание. Теперь уже совсем легко показать, что закодировав все паши «вероятные» цепочки с помощью наиболее эко- номного равномерного кода, мы придем к кодовым обоз- начениям, длина которых не больше чем NH + wIogTV п /og2e, где н = —Pi log Pi — Р2 log Р2 — ... — PnlogPn- Вывод этой формулы имеется также в книге [26], стр. 75.
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 225 Следовательно, среднее число двоичных знаков, требую- щихся для записи одной буквы, здесь не превосходит w । „ 1о£Л’ । "log2e 11 N ‘ При N —> со это число стремится к Н, что и дает предель- ное среднее число двоичных знаков, приходящихся на од- ну букву сообщения при кодировании по такому методу. Это и есть тот результат, который мы стремились доказать. В заключение стоит еще раз подчеркнуть принципи- альную основу приведенного доказательства. Если мы будем рассматривать все цепочки из N букв п-буквенного «алфавита» (или, что то же самое, все цепочки из N по- следовательных исходов многократно повторяющегося опыта, могущего иметь п различных исходов), то общее число различных таких цепочек будет равно = 2iv1<wi. Однако вероятность каждой отдельной такой цепочки и да- же некоторых значительных совокупностей таких цепочек при большом N будет совершенно ничтожной. Нами было доказано, что если мы разрешим исключить из рассмотре- ния часть наименее вероятных цепочек, но только так, чтобы суммарная вероятность всех отброшенных цепочек была достаточно мала (скажем, не превосходила некото- рого заранее выбранного очень малого числа 6), то при любом (сколь угодно малом!) 6 в случае достаточно большого N можпо добиться Toi о, чтобы оставшееся число цепочек имело порядок /JxlVPi / 1 . / 1 XNPn _ 2^11 kpl J к Ра) \Р„) где Н — энтропия J). Отметим тут же, что поскольку Н меньше, чем log п (за исключением случая равной х) Выражение «имело порядок» здесь означает, что на самом деле перед 2NH может стоять еще некоторый множитель, пропорци- ональный конечной степени N (т. е. пропорциональный 2A10eJV. где А — фиксированное число); ясно, что при очень большом 7V втот множитель будет во много раз меньше основного члена 2ЛН и не будет играть существенной роли. Отметим в этой связи, что в приведенном выше выводе мы доказали только, что число 8 А. М. Яглом, И. М. Яглом
226 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV вероятности всех букв или всех исходов), то число на- ших «вероятных» цепочек при очень большом N будет несравненно меньшим общего числа цепочек (отношение 2NH 5 2N10g n = 2~N (fogn-н) числа «вероятных» цепочек к числу всех цепочек быстро стремится к нулю при 7V-> -> со). Кроме того, мы доказали, что при большом N можно добиться того, чтобы относительные частоты появ- ления отдельных букв в наших «вероятных» цепочках сколь угодно мало отличались от наиболее вероятных частот р2, рп. Так как вероятность той или иной цепочки зависит лишь от количества встречающихся в ней отдельных букв (вероятность цепочки, в которой первая буква встречается Nr раз, вторая — N2 раз, ..., п-я — Nn раз, равпа ... рпп), то отсюда видно, что при большом N можно добиться, чтобы все «вероятные» це- почки очень мало отличались по своим вероятностям. Иначе говоря, мы доказали здесь утверждение, выделенное кур- сивом на стр. 82—83; именно это утверждение и опре- деляет основную роль понятия энтропии в теории коди- рования. Ввиду особой важности указанного утверждения имеет смысл задержаться на нем немного больше и привести еще одно простое ого доказательство. Выше мы исходили из подсчета общего числа Л^-буквоппых цепочек, в которых частоты отдельных букв алфавита мало отличаются от соответствующих вероятностей р1} р2, ..., рп. При этом было также отмечено, что вероятности всех таких цепочек близки между собой и практически не отличаются от ве- роятности piP1 р2Рг ... р^п цепочки, в которой Ni — «вероятных» цепочек не превосходит значения (2e)nJVn.2iVH. Легко попять, однако, что оно во всяком случае не меньше, чем число цепочек, в которых первая буква встречается ровно 7Vpt раз, вто- рая — ровно Np2 раз, ..., п-я — ровно Npn раз, а последнее число, как было показано, всегда больше, чем ________1_________ 2nh Npi NPn Pl P2 • • • Pn Таким образом, с точностью до множителя порядка конеч- ной степени N число «вероятных» цепочек действительно совпа- дает с 2nh.
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 227 = Npt, N2 = Ар2> •••» Nn = Npn, т. е. частоты появления каждой из п букв алфавита точно совпадают с вероятно- стями pi, р2, ..., рп. Последнюю вероятность, очевидно, можно переписать в виде (2fogPi)frPi (210gP!)JVp2... (210gpn)iVpn = _ 2л/(Р11°йР1 + p2iogp2 + ... + ₽niogpn) _ 2~hn (так как Н = — pjogpj — p2logp2 —...—pnIogpn — это фик- сированное конечное число, a N очень велико, то ясно, что 2~HJV — это очень малая вероятность). Заметим теперь, что полученная формула сразу влечет за собой также и нужную нам оценку общего числа различных «вероятных» цепочек. В самом деле, ведь суммарная вероятность всех таких цепочек очень близка к единице (она отличается от единицы лишь на какое-то очень малое число); поскольку вероятность суммы несовместимых событий равна сумме соответствующих вероятностей, ясно, что общее число рассматриваемых цепочек должно бы:ь близко к единице, деленной на вероятность отдельной цепочки, т. о. к числу 2HJV. Таким образом, интересующее нас утверждение будет доказано, если только мы сможем показать, что из сово- купности всех nN цепочек из N букв можно выбросить какую-то совокупность «редких» цепочек (суммарная ве- роятность которых при достаточно большом N может быть сделана сколь угодно малой) так, чтобы все оставшиеся цепочки имели уже практически одинаковую вероят- ность, равную 2rHN. Заметим теперь, что вероятность любой цепочки из N букв п-буквеплого алфавита (характеризуемою всроят ностями 1-й, 2-й, ..., п-й букв, равными соответственно pit р2, ..., рп) такой, что эти N букв выбираются после- довательно одна за другой независимо от ранее выбранных букв, равна произведению pt, pis ... piN, где i,, г2, ..., iN — номера последовательных букв нашей цепочки. Сле- довательно, логарифм этой вероятности равен log Pi, + log ри -]-4- log piN = log Pi, + log Pit + • • • + log piN = ft N- Но величины pt„ pit, ..., piN все определяются резуль- татами опытов, состоящих в выборе одной из букв среди п 8*
228 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV букв алфавита; поэтому все они представляют собой слу- чайные величины, могущие принимать п значе- ний logjDj, logp2, logpn с вероятностями, равными, со- ответственно, Pi, рг, ..., рп. Применив к такой случайной величине доказанный на стр. 57—59 закон больших чисел, мы найдем, что с вероятностью, которую при достаточно большом Аг можно считать сколь угодно близкой к едини- це, среднее арифметическое log pit + log pi2 +-h log pijv ' TV будет отличаться от cp.3H.logp = pIlogp1+ p2Iogp2 + ...+PnlogPn = — н не больше, чем на заданное очень малое число е. Но это и значит, что из числа всех N-буквенных цепочек можно выбросить какую-то совокупность «редких» цепочек очень малой суммарной вероятности так, чтобы вероятность всех оставшихся цепочек была уже примерно одинаковой и весьма близкой к 2~HN. Последнее утверждение в есть го, которое мы стремились дока шть Остановимся еще вкратце па вопросе о роли предполо- жения, согласно которому последовательные буквы со- общения выбираются каждый раз и о з а в и с и м о от всех предшествующих букв. Па стр. 216—217 мы уже указы- вали, что первое из рассматривавшихся доказательств основной теоремы о кодировании на самом деле не зависит от выполнения этого условия, причем в общем случае взаимно зависимых букв значение энтропии Н одной буквы должно быть заменено приходящейся на одну букву удельной энтропией = lim (где //(А) — энтропия блока из N букв). Исходя отсюда ка- жется естественным предположить, что и второе доказа- тельство, в ходе которого существенно использовалось предположение о независимости букв сообщения, на самом деле должно быть применимо и к общему случаю сообщений со взаимно зависимыми буквами. Иначе говоря, можно думать, что и в случае сообщений, буквы которых зависят друг от друга, среди всех цепочек из N букв, еде N доста- точно велико, также можно выделить совокупность «ве- роятных» цепочек, суммарная вероятность которых будет
§ 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 229 лишь очень мало отличаться от единицы, причем число этих вероятных цепочек будет иметь порядок 2IIo°N ~ 2a(N\ а вероятность каждый из них будет близка к 2-ПооГ'~2-я<л>. Выделенное курсивом утверждение играет в теории ин- формации очень важную роль; однако его доказательство не очень просто, и, кроме того, оно вообще не может быть получено для всех без исключения случаев, а требует, чтобы распределения вероятностей для последователь- ных букв сообщения удовлетворяли бы некоторым до- полнительным условиям (весьма общим и па практике всегда выполняющимся, по по могущим даже быть сфор- мулированными без привлечения ряда совсем новых тео- ретико-вероятностных понятий). Отметим еще, что сами эти условия могут выбираться по-разному; так, для од- них таких условий сделанное выше утверждение было до- казано еще Шенноном ([1], теорема 3), в то время как позже совсем другие очень общие условия его справедли- вости были указаны В. М а к м и л л а и о м [64]. Мы здесь не будем более подробно задерживаться па этом вопросе, а ограничимся лишь ссылкой па книги [5] — [7] и [22], в которых он разбирается во всех деталях. Все предыдущее содержание этого параграфа легко переносится также и на случай m-ичных кодов, исполь- зующих т элементарных сигналов. Так, например, для построения т-ичных кодов Шеннона — Фано надо лишь разбивать группы символов по па две, а па т частей по воз- можности близкой вероятности, а для построения пг-ичпо- го кода Хафмапа надо использовать операцию сжатия алфавита, при которой каждый раз сливаются по две, а т букв исходного алфавита, имеющих наименьшие ве- роятности. Ввиду важности кодов Хафмана, остановимся на последнем вопросе чуть подробнее. Сжатие алфавита, при котором т букв заменяются на одну, приводит к уменьшению числа букв на т — 1; так как для построе- ния m-ичного кода, очевидно, требуется, чтобы последо- вательность «сжатий» в конце концов привела нас к ал- фавиту из т букв (сопоставляемых т сигналам кода), то необходимо, чтобы число п букв первоначального ал- фавита было представимо в виде п — т + к (т — 1), где к — целое число. Этого, однако, всегда можно добиться, добавив, если нужно, к первоначальному алфавиту еще
230 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV несколько «фиктивных букв», вероятности которых счита- ются равными нулю. После этого построение m-ичного кода Хафмана и доказательство его оптимальности (среди всех ш-ичных кодов) проводятся уже точно так же, как и в случае двоичного кода. Так, например, в случае уже рас- сматривавшегося выше алфавита из 6 букв, имеющих вероятности 0,4, 0,2, 0,2, 0,1, 0,05 и 0,05 для построения троичного кода Хафмана, надо присоединить к на- шему алфавиту еще одну фиктивную букву нулевой ве- роятности и далее поступать так, как указано ниже: вероятности и кодовые обозначения № буквы исходный алфавит сжатые алфавиты 1 2 3 4 5 6 7 0,4 0 0,2 2 0,2 10 0,1 11 0,05 120 1 0,05 121 — ° — J 0,4 0 0,2 2 0,2 10 1 0,1 И Ь- р0,1 12 J 0,4 0 .—0,4 1 0,2 2 Столь же просто переносиц я на случаи т нчиых ко- дов и оба приводе....лх выше доказательства основной теоремы о кодировании. В частности, соответствующее видоизменение первого доказательства основывается на том факте, что любые п чисел 1Л, 12, ..., 1п, удовлетворяющих неравенству (2) являются длинами кодовых обозначений некоторого т-ичного кода для п-буквенного алфавита. Доказательство этого факта точно повторяет рассуждения, приведенные на стр. 213—215 для случая т — 2; поэтому на нем здесь можно не задерживаться. Используя неравенство (2) так же, как на стр. 215—216 использовалось неравенство (1), легко получить следующий результат (называемый основ- ной теоремой о кодировании для m-ичных кодов): при любом методе кодирования,
§ 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 231 использующем т-ичный код, среднее число элементарных сигналов, приходящихся на одну букву сообщения, никогда не может быть меньше отношения -^т' (где Н — энтро- пия одной буквы сообщения)' однако оно всегда может быть сделано сколь угодно близким к этой величине, если коди- ровать сразу достаточно длинные «блоки» из N букв. Отсю- да ясно, что если по линии связи за единицу времени мож- но передать L элементарных сигналов (принимающих т различных значений), то скорость передачи сообщений по такой линии не может быть большей, чем Llogm - , п v =----— букв) ед. времени,', однако передача со скоростью, сколь угодно близкой к v (но меньшей г!), уже является возможной. Величина С = L log т, стоящая в числителе выражения для v, зависит лишь от самой липни связи (в то время как знаменатель Н харак- теризует передаваемое сообщение). Эта величина указы- вает наибольшее количество единиц информации, которое можно передать по нашей линии за единицу времени (ибо один элементарный сигнал, как мы знаем, может содер- жать самое большее log т единиц информации); она назы- вается пропускной способностью линии связи. Понятие пропускной способности играет важную роль в теории связи; мы к нему еще вернемся в дальней- шем (см. стр. 312—320 и § 4 этой главы). Сделаем еще одно замечание по поводу приведенного на стр. 212 и след, первого доказательства основной теоремы о кодирова- нии. Центральную роль в этом доказательстве играл факт сущест- вования двоичного кода, в котором длина Z; кодового обозначения г-й буквы удовлетворяет неравенствам — log Pi < li < log Pi + 1 (A) или, что то же самое, В случае произвольного m-ичного кода эти неравенства принима- ют вид log Pi log Pi — т----</.< —;-----! +1 (A') log m г log m '
232 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV или, что то же самое, (Б') Выше мы доказали существование такого двоичного кода, опираясь на неравенство (1) на стр. 213, но не выписывая явным образом сами кодовые обозначения; в случае т-ичного кода совершенно также может быть использовано неравенство (2) на стр. 230. Сей- час мы опишем один метод построения самого соответствующего кода; при этом, для простоты, мы ограничимся случаем десятичного кода, сопоставляющего каждой из п букв алфавита какую-то по- следовательность цифр 0, 1, . . ., 9*). Для такого десятичного кода неравенства (А') и (Б'), очевидно, принимают вид — —IgPi + l (А") (логарифмы — десятичные!) и 1 1 ю'1 ^P1<io'rl (Б") Расположим все буквы «алфавита» в порядке убывания их ве- роятностей:) Pi р2 р.ч ^ . . . рп. Среди этих вероятностей, разумеется, могут встречаться и одинаковые; поэтому верши ши-и. сама по себе не может однозначно характеризовать соотвевн^юви и буквы. Если, однако, мы составим суммы: Л =0. Рг = Р1, Рз — М + Р». Р* — Pi I Pi + Ри, . • • • • , Рп “ Р1 + Ри + • • • + Рп ,, то эти суммы будут уже все различны; таким образом, п ч и с е л Pi, Р2, . . ., Рп можно рассматривать как своеобразный «алфавит», однозначно соответствующий исходному алфавиту из и б у к в. Нам надо теперь только закодировать этот новый «алфавит», т. е. сопо- ставить каждому ив п чисел Pi определенную последовательность элементарных сигналов (или цифр) — этим одновременно будет ре- шена и задача кодирования первоначального алфавита. Нетрудно указать путь решения этой задачи. Представим каждое из (меньших единицы!) чисел Pt в виде (вообще говоря, 1) Общин случай будет отличаться от этого, в основном, тем, что там нам придется разлагать фигурирующие ниже числа Pi в (бесконечные) т-ичные дроби, т. е, представлять каждое число Р4 в виде суммы Щ 02 Оз где псе «цифры» а±, а„,..., о?1-,. ( . в записи этой дроби принимают какие-то из значений 0, 1, , . „ т — 1. Мы рекомендуем читателю самостоятельно продумать соответствующее построение.
§ 2] КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 233 бесконечной) десятичной дроби'. Р j - . а • Ojf • • ь, где Oj, «2) а3, , . . — какие-то цифры (если Pi выражается в виде конечной десятичной дроби, то все цифры а%, начиная с не- которой, будут равны 0). Тем самым каждому Pi сопоставляется бесконечная последовательность а1о2я3 . . . цифр (т. е. элементар- ных сигналов); при этом полученные таким образом п последова- тельностей цифр будут, разумеется, все различны, ибо никакие два числа Pt не равны между собой. Заметим теперь, что различие между последовательностями а^аз ... не может проявляться лишь в очень далеких от начала цифрах. В самом дела, поскольку Pi+1 -pi = Pv Рг+2 - Pl = Pi + Pi+1 И Т' Д- то в силу неравенств (Б") все числа Pi+1, Pi+2t • • чРп отличаются 1 от числа Р{ не меньше, чем на ------; поэтому разложения всех 10 li этих чисел в десятичную дробь отличаются от десятичной дроби, выражающей число Pi, ио позже чем в Zj-й цифре: все десятичные дроби Pi+i, Pi+w • • 'iP-n отличаются от десятичной дроби Pi хоть в одной ив первых цифр. Поэтому, если мы оставим в отвечающей Pi (где i = 1, 2, . . ., п) десятичной дроби лишь первые I, цифр, то мы получим п (конечных!) десятичных дробей, которые все раз- личны и ни одна из которых не является началом другой. Соответ- ствующие п последовательностей ага2а3 . . . цифр (сопоставляе- мые п буквам первоначального алфавита) и образуют требуемый десятичый код. Выше уже указывалось, что любые п чисел 11г 12, . . . 1п, удовлетворяющие неравенству 1 1 (2) являются длинами кодовых обозначений для некоторого т-ичного кода, сопоставляющего п буквам алфавита п последовательностей элементарных сигналов, принимающих т возможных значений. Про- ведя соответствующие рассуждения в обратном порядке, нетрудно доказать и что длины l±, k, . . ., 1п кодовых обозначений любого т-ичного кода для п-буквенного алфавита обязательно удовлетворяют неравенству (2) — фактически это было уже установлено в конце предыдущей главы (см. стр. 181—182), правда, без использования принятых в этой главе терминов. Таким образом, выполнение неравен- ства (2) необходимо и достаточно для того, чтобы числа Zj, Z2, , . Zn могли являться длинами кодовых обозначений некоторого т-ичного кода. Это утверждение впервые было доказано в 1949 г. американским ученым Л. Крафтом в его неопубли- кованной диссертации (см., например, книги [6] и [20]), а позже
234 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [ГЛ. IV было еще обобщено Б. Макмилланом [65]; поэтому неравен- ство (2) часто называют неравенством Крафта или н е- равенством Макмиллана. Обобщение Макмиллана свя- зано с тем обстоятельством, что до сих пор мы рассматривали толь- ко коды, удовлетворяющие общему условию, выделенному курси- вом на стр. 188 (и названные мгновенными или мгновен- но декодируемыми в подстрочном примечании на той же странице); только к этим кодам и относились все приведенные вы- ше рассуждения. Макмиллан доказал, однако, что условие (2) необ- ходимо и достаточно также и для существования однозначно деко- дируемого (но не обязательно мгновенного!) т-ичного кода с дли- нами кодовых обозначений, равными 1г, Is, . . ., 1п. Так как любой мгновенный код одновременно является и однозначно декодируе- мым, то доказательства, очевидно, требует только необходи- мость указанного неравенства для однозначно декодируемых кодов, т. е. тот факт, что в случае любого однозначно декодируемого zn-ичного кода для п-буквеппого алфавита длины 1^, l-i, . . ., 1п кодовых обозначений обязательно удовлетворяют неравенству (2). Это последнее утверждение наиболее просто было доказано Дж. К а р у ш е м [66], которому мы и будем следовать в пашем изло- жении. 1 1 1 Обозначим сумму -г- + —у- + .. . 4- —г~ , , где I., !а, . . , I п т1 т1г ,п‘п — длины кодовых обозначений некоторого однозначно (вколи। у< мого m-ичного кода, сопоставляемых п бук ним алфавит, чо(>«« > I и образуем выражение Раскрыв в последнем произведении скобки, мы получим сумму и1 1 слагаемых вида где каждый показатель степени Л' равен ка- кой-то сумме вида lit + lis+ . . . + lit (номера Zt, is, > . ., if здесь принимают значения 1,2,..., п, причем они, разумеется, не дол- жны быть все различными). Если предположить, что длины п кодовых обозначений для однозначно декодируемого т-ичного кода упорядочены так, что 1 Z* «С Za «^ . . . <1 Zn, то для каждой суммы *=А+М-*.-+\
§ 21 КОДЫ ШЕННОНА — ФАНО И ХАФМАНА 235 будет справедливо двойное неравенство t < N < tln (ясно, пто N = t, если Z{] = = . . . == Z,f = 1, и № = tln, если kt = k,~ • • • = ht = Zn). Обозначим теперь число различных сумм Z^ + Z4j + . . . + Z1(, принимающих значение N, через Тогда легко видеть, что, раскрыв скобки в выражении А<, мы получим ,/11 1 V 1 1 1 А + —Ч = Kt U + • • • + Knn~iQ X^ifl III til’ til ‘1ЦЪ "* (где, вообще говори! некоторые ил коэффициентов Kj, Kt+i, . . . .... Ktln будут равны нулю). Замшим теперь, что число KN различных суми Zti + Z1b + . . + Zj(, принимающих значение N, равно чис- лу разных Z-буквеппых слов 6^6, . . . bft (где Ь±, Ь2, . . .,Ьп — буквы нашего алфавита), кодируемых последовательностями из N элементарных сигналов. Так как рассматриваемый кед является однозначно декодируемым, то ясно, что KN < niN; действительно, mN —• это общее число различных последователь- ностей из N сигналов, каждый из которых может принимать одно пз т значений, а если бы какие-то два разных слова кодировались бы одинаковыми последовательностями элементарных сигналов, то это значило бы, что код не является однозначно декодируемым. Поэтому при любом (натуральном) I 11 11 А1 — Kt ~~t + ” "+ K"n tl т* Г 1 tl 4 +^+1—i+r+-’- + m " — m m n А отсюда ужо и следует, что А <1 (т. е. что справедливо неравенство (2)1): в самом деле, при любом А > 1 величина росла бы при возрастании t быстрее, чем ct, где е — какое угодно фиксированное число х) (например, число Zn), и поэтому при достаточно большом t обязательно выполнялось бы неравенство А1 > lnt. *) Обозначим 1/: через р; тогда log (Л() = «log Л =———, a log (ct) — log с + log t = log c —< log p. Ясно, что при малом р (т. е. при большом <) первое из этих чисел гораздо больше второго, ибо logo =« постоянное (не зависящее от р) число, log zl>0 (так log А 1 как Л>1), а отношение (—log р): (-^ р leg р) стремится к нулю при р —> 0 (ср.) стр. 72).
236 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV Из того, что и для мгновенных и для любых однозначно деко- дируемых кодов необходимое п достаточное условие существования кода с кодовыми обозначениями данных длин 1±, Z2, . . ,,1п имеет один и тот же вид (2), следует, что для любого однозначно декодируемого т-ичного кода существует мгновенный код с кодовыми обозначениями букв, имеющими те же длины, что и в случае исходного однозначно декодируемого кода. А отсюда, в свою очередь, в частности выте- кает, что коды Хафмана являются оптимальными (т. е. имеющими наименьшую среднюю длину кодового обозначения одной буквы) не только среди всех мгновенных кодов (а именно это и было нами доказано на стр. 209—211; ср. также стр. 230), но и среди всех вооб- ще однозначно декодируемых кодов. § 3. Энтропия и информация конкретных типов сообщений В предыдущих двух параграфах мы занимались вопро- сом о кодировании и передаче абстрактных «сообщений», записанных на некотором «языке», «алфавит» которого содержит п «букв». Здесь мы скажем о тех выводах, ко- торые можно сделать отсюда в применении к конкретным типам сообщений — в первую очередь к сообщениям ни русском языке или на каком-либо на шкм гранных я<ы ков (см. также 167], IG81). II и с ь м и и п а я р о ч ь Основной результат § 1 этой главы состоял в том, что для передачи ^/-буквенного сообщения (где М считается достаточно большим) по линии связи, допускающей т различных элементарных сигналов, требуется затратить Л/ log п с- пе меньше чем -—сигналов, где п — число букв «ал- log т ’ фавита», с помощью которого записано сообщение; при этом существуют методы кодирования, позволяющие сколь М log п log т угодно близко подойти к границе Так как русский «телеграфный» алфавит содержит 32 буквы (мы здесь не различаем букв е и ё, ъ и ъ, которые в большинстве теле- графных кодов передаются одной и той же комбинацией элементарных сигналов, но причисляем к числу букв и «нулевую букву» — пустой промежуток между словами), то согласно этому результату на передачу Л/-буквеп- ного сообщения надо затратить М 1 = М ^т'
§ з] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 237 элементарных сигналов. Здесь Но = log 32 5 бит — энтропия опыта, заключающегося в приеме одной буквы русского текста (информация, содержащаяся в одной бук- ве), при условии, что все буквы считаются одинаково вероятными. На самом доле, одпако, появление в сообщении на русском языке разных букв совсем не одинаково вероятно. Так, например, в любом текс го буквы о и е встречаются много чаще, чем буквы ф пли щ", поскольку средняя длина слова в русском языке значительно меньше 31 буквы, то вероятность появления пробела («нулевой буквы») на много превосходит значение 1/32, которое мы имели бы, если бы все 32 буквы были равновероятны. Поэтому ин- формация, содержащаяся в одной букве любого осмыслен- ного русского текста, всегда меньше, чем log 32 — 5 бит. Отсюда ясно, что для получения текста, в котором каж- дая буква содержит 5 бит информации, нельзя просто взять отрывок из какой-либо русской книги; для этого требуется выписать 32 буквы на отдельных билетиках, сло- жить все эти билетики в урну и затем вытаскивать их по одному, каждый раз записывая вытянутую букву, а би- летик возвращая обратно в урну и снова перемешивая ее содержимое. Произведя такой опыт, мы придем к «фразе» вроде следующей; СУХЕРРОБЬДЩ ЯТЛХВЩИЮЛШКТЛФВНЗАГФОЕН- ВШТЦР 11ХГБК У ЧТЖ ЮРИИ11ЬКП XI *ыс Разумеется, этот текст, хоть он и составлен из русских букв, имеет очень мало общего с русским языком! Для более точного вычисления информации, содержа- щейся в одной букве русского текста, надо знать веро- ятности появления различных букв. Эти вероятности можно приближенно определить, взяв достаточно большой отрывок, написанный по-русски, и рассчитав для него относительные частоты отдельных букв. Строго говоря, эти частоты могут несколько зависеть от характера тек- ста (например, в учебнике по высшей математике частота обычно очень редкой буквы ф будет заметно выше средней из-за частого повторения слов «функция», «дифференциал»»
238 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV «коэффициент» и некоторых других; еще больше отклоне- ния от нормы в частоте употребления отдельных букв можно наблюдать в некоторых художественных произве- дениях, особенно в стихах1)); поэтому для надежного определения «средней частоты» буквы желательно иметь набор различных текстов, заимствованных из различных источников. Как правило, однако, подобные отклонения будут все же сравнительно небольшими и в первом прибли- жении ими можно пренебречь. Ориентировочные значе- ния частот отдельных букв русского языка собраны в сле- дующей таблице (ср. А. А. Харкевич [69], Д. С. Л е- бедевиВ. А. Гармаш! 70]; тире здесь означает про- бел между словами): буква относ, частота 0,175 О 0,090 е, ё 0,072 а 0,062 и 0,062 т I 0,053| н 0,053 с 0,045 буква относ, частота Р 0,040 е 0,038 Л 0,035 к 0,028 м 0,026 д 0,025 п 0,023 У 0,021 буква относ, частота я 0,018 ы 0,016 3 0,016 ъ, ъ 0,014 б 0,014 е 0 013 ч 0,012 й ОДИН буква относ, частота 0,009 ж 0,007 10 0,006 ш 0 (ИЮ ч 0 (И »ч 0,<И1,[ • 0,ООЛ 0 О.НН Приравняв эти частоты вероятностям ноли к пни соотне! ствующих букв, получим ДЛЯ энтропии ОДНОЙ буКНЫ рус- ского текста приближенное значение '*): Hi = Н (cq) = —0,175-log 0,175-0,090-log 0,90— —0,072-log 0,072 — ... — 0,002-log 0,002 ж 4,35 бит. x) В качестве примера вдесь можно назвать, скажем, некогда знаменитое стихотворение К. Д. Бальмонта «Камыши» (Полноч- ной порою в болотной глушм/?уть слышно, бесшумно шуршат камыши...), все построенное на обыгрывании шипящих звуков ч и ш. Другие, еще гораздо более выразительные примеры того лее рода, заимствованные из немецкой, английской и португаль- ской художественной литературы, читатель может найти в гл. 3 книги [3]. 2) Так как значения частот отдельных букв в отрывке, содер- жащем конечное число N букв, не совпадают точно с соответству- ющими вероятностями, то ясно, что значение энтропии, получаю- щееся при замене вероятностей частотами, не будет точным. Воп- росу о степени точности получаемых таким образом значений эн- тропии и о поправках, которые целесообразно вводить в них при недостаточно большом 7V, посвящена статья Г. П. Б а та а р и- н а (71]; те же поправки рассматриваются и в статье Дж. Мил- лера (G. A. Miller) в сборнике [-46], стр. 95—100,
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 239 Из сравнения этого значения с величиной Но = — log 32 = 5 бит видно, что неравномерность появления различных букв алфавита приводит к уменьшению ин- формации, содержащейся в одной букве русского текста, примерно на 0,65 бит. Воспользовавшись этим обстоятельством, можно уменьшить число элементарных сигналов, необходимых для передачи Л/-буквепного сообщения, до значения М , log т (т. е. в случае двоичного кода — до значения 1ЦМ ~ ж 4,35 М‘, для сравнения укажем, что II01\Т — ЬМ — это значение, достигаемое при кодировании по методу Бодо, сопоставляющему ./^-буквенному сообщению цепочку из 57И элементарных сигналов). Сокращение числа требую- щихся элементарных сигналов может быть достигнуто, например, кодированием отдельных букв русского алфа- вита по методу Шеннона — Фано (см. выше, стр. 201 и след.). Нетрудно проверить, что применение этого ме- тода к русскому алфавиту приводит к следующей таблице кодовых обозначений: буква код. обозп. буква код. обозн. буква код. обозн. - ш К 01000 X 0000100 а 1010 л 01001 ч 00000010 б 000101 м 00111 ч 000011 в 01010 н 0111 га 00000011 г 000100 О по щ 00000001 д 001101 п 001100 ы 001000 е, ё 1011 р 01011 ь, ъ 000110 лс 0000011 с ОНО D 000000001 a 000111 т 1000 10 00000010 и 1001 У 00101 Я 001001 й 0000101 ф 000000000 Среднее количество элементарных сигналов, требую- щихся для передачи одной буквы сообщения при таком методе кодирования, будет равно 0,265-3 + 0,347-4 + 0,188-5 + 0,150-6 + 0,032-7 + + 0,013-8 + 0,005-9 ^4,4, т. е. будет весьма близко к значению ГЦ х; 4,35 1). х) Впрочем, значительная сложность расшифровки закодиро- ванного таким способом сообщения делает этот код практически
240 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл. IV Но и равное значение среднего числа элемента рпы х сигналов, приходящихся на одну букву передаваемого со общения, также не является наилучшим. В самом деле, при определении энтропии 1Ц = Н (о^) опыта alt. состоящего в определении одной буквы русского текста, мы считали все буквы независимыми. Это значит, что для со- ставления «текста», в котором каждая буква содержит Hi 4,35 бит информации, мы должны прибегнуть к по- мощи урны, в которой лежат тщательно перемешанные 1000 бумажек, на 175 из которых не написано ничего, на 90 — написана буква о, на 72 — буква е, ..., наконец, па 2 бумажках — буква ф (см. таблицу частот русских букв на стр. 238). Извлекая из такой урны бумажки по одной, мы придем к «фразе» вроде следующей * * * * * * * х): ЕЫНТ ЦИЯЬА ОЕРЕ ОДНГ ЬУЕМЛОЛЙК ЗБЯ ЕНВТША. Эта «фраза» несколько более похожа па осмысленную рус- скую речь, чем предыдущая (здесь иго и«> ннГыю ничей сравнительно правдоподобное р.к'нро w.ii iiiw ни in i • вых и согласных п близким к обычной < pi< iiuni rm • «слова»), — по и они, разумеется, еще очень да ien.i <>i pa зумпого текста. Несходство пашей фразы с осмысленным гекс юм «•» го ственно объясняется тем, что на самом деле иоследопп тельные буквы русского текста вовсе не независимы друг от друга. Так, например, если мы знаем, что очередной буквой явилась гласная, то значительно возрастает веро- ятность появления на следующем месте согласной буквы; мало удобным. Это можно проверить, например, попытавшие i декодировать, скажем, следующую «фразу»: 010100101100100100- 1101111010011001111010001100011011110000000000000000010 111110111001010011011100001010111101110111110100011000 • 11011010111000101110001101110 (декодирование заметно облегча- ется, если предварительно выписать все кодовые обозначения в порядке убывания вероятностей соответствующих букв). х) Этот и последующие примеры «искусственных фраз» заим- ствованы из статьи Р. Л. Добрушина [72]. (Как объяснено в этой статье, вместо вытаскивания бумажек из урны с 1000 бумаж- ками можно поступить значительно проще: воспользоваться любой русской книгой и выбрать из нее ряд букв наудачу.)
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 241 буква «ь» никак не может следовать пи за пробелом, ни за гласной буквой (в явном противоречии с тем, как обстояло дело во втором и пятом «словах» нашей «фразы»); за буквой «ч» никак пе могут появиться буквы «ы», «я» или «ю», а скорее всего будет стоять одна из гласных «и» и «е» или согласная «т» (слово «что») и т. д. Наличие в русском языке дополнительных закономер- ностей, не учтенных в нашей «фразе», приводит к даль- нейшему уменьшению степени неопределенности (энтро- пии) одной буквы русского текста. Поэтому при передаче такого текста по линии связи моэкпо еще уменьшить сред- нее число элементарных сигналов, затрачиваемых па передачу одной буквы. Нетрудно понять, как можно оха- рактеризовать количественно зто уменьшение. Для этого надо лишь подсчитать условную энтропию Н2 — На1 (а2) опыта а2, состоящего в определении одной буквы русского текста, при условии, что пам известен исход опыта состоящего в определении предше- ствующей буквы того эко текста (заметим, что при приеме очередной буквы сообщения мы всегда знаем уже предшествующую букву). Согласно сказанному па стр. 91, условная знтропия определяется следующей формулой: Н2 = Яа, (а2) = Н (а^) — И (ocj) = = — Р (----) ]og Р (----) — Р (— a) bg р (— а) — — Р (— б) logp (— б) — . . . — р (яя) log р (яя) + 4- Р (—) log р (—) + Р («) log р (а) 4- 4- р (б) log р (б) 4- ... 4- Р (я) log р (я), где через р (—), р (а), р (б), ..., р (я) обозначены вероят- ности (частоты) отдельных букв русского языка (их зна- чения были нами указаны на стр. 238), а через р (---), р (— а), р (— б), ..., р (яя) — вероятности (частоты) все- возможных двухбуквенных сочетаний. Для приближен- ного определения таких «двухбуквенных вероятностей» надо лишь подсчитать частоты появления различных ком- бинаций двух соседних букв в каком-либо длинном рус- ском отрывке; при этом, разумеется заранее моэкпо ска- зать, что вероятности р (----), р (яъ) и многие другие (например, р (ъь), р (— ъ), р (чя) и т. д.) будут равны нулю. Существенно подчеркнуть, что в силу результатов § 2 гл. II
242 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ [Гл. IV мы можем быть уверены, что условная энтропия Пг = На, (а2) окажется меньше безусловной энтропии //,. Величину Н2 можно конкретизировать как «среднюю информацию», содержащуюся в определении исхода сле- дующего опыта. Имеется 32 урны, обозначенные 32 бук- вами русского алфавита; в каждой из урн лежат бумажки, на которых выписаны двухбуквенные сочетания, начи- нающиеся с обозначенной на урне буквы, причем коли- чества бумажек с разными парами букв пропорциональны частотам (вероятностям) соответствующих двухбуквеи- ных сочетаний. Опыт состоит в многократном извлечении бумажек из урн и выписывании с них последней буквы. При этом каждый раз (начиная со второго) бумажка из- влекается из той урпы, которая содержит сочетания, на- чинающиеся с последней выписанной буквы; после того как буква выписана, бумажка возвращается в урну, со- держимое которой снова тщательно перемешивается. (Можно также (что заметно удобнее практически) вместо урны воспользоваться какой-либо русской книгой, в ко- торой надо лишь, начиная каждый раз с выбранного на- удачу места, отыскивать первое неявленно последней у и • выписанной нами буквы и следующую ан hci'i букву киши дописывать к уже имеющемуся гексту.| <hiui итого рода приводит к «фразе» вроде следуюпр.’й: УМАРОНО КАЧ ВСВАННЫЙ РОСЯ ПЫХ КОПИРОВ НЕДАРЕ. По звучанию эта «фраза» заметно ближе к русскому язы- ку, чем «фраза», выписанная на стр. 240 (например, здесь мы имеем не только правдоподобное соотношение числа гласных и согласных букв, но и близкое к привычному чередование их, благодаря чему фразу уже можно «про- изнести»). Разумеется, и величина не дает еще окончательной оценки наименьшего значения среднего числа элементар- ных сигналов, требующихся для передачи одной буквы русского текста. Дело в том, что в русском языке (как и любом другом) каждая буква зависит не только от непо- средственно предшествующей ей, но и от ряда предыду- щих букв. Например, известно, что сочетание ее является
§ 3.1 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 243 довольно частым, так что после буквы е мы свободно можем ожидать появления еще одного е; однако если также и предпоследней буквой является е, то появление еще од- ного е становится уже почти невероятным (ибо сочетание еее встречается крайне редко); после сочетания — и (бук- ва и после пробела) весьма часто следует еще один пробел (союз «и»), а после сочетания тс естественно ожидать бук- ву я (глагольное окончание «тел») и т. д. Поэтому знание двух предшествующих букв еще более уменьшает не- определенность опыта, состоящего в определении следую- щей буквы, что находит отражение в положительности разности II2 — II„ где Я3 — «условная энтропия второго порядка»: Я3 = Яа,а2 (а3) = Я(а1«2а3) — Я(а1а2) = = — Р (------) log р (----)— р (--a)logp (----а) —... ... — р (яяя) log р (яяя) + + Р (---) logp (---) + Р (— а) logp (— а) + - ... + /> (яя) logp (яя). Наглядным подтверждением сказанного является то об- стоятельство, что опыт, состоящий в вытаскивании бу- мажек с трехбуквенными сочетаниями из 322 урн, в каж- дой из которых лежат бумажки, начинающиеся на одни и те я^е две буквы (или, что то же самое, опыт с русской книгой, в которой много раз наудачу отыскивается первое повторение последнего уже выписанного двухбуквенного сочетания и выписывается следующая за ним буква), приводит к «фразе» вроде следующей: ПОКАК ПОТ ДУРНОСКАКА НАКОНЕППО ЗНЕ СТВОЛОВИЛ СЕ ТВОЙ ОБНИЛЬ, еще более близкой к русской речи, чем предыдущая. Аналогично этому можно определить и энтропию Я4 = Яа,а2а3(а4) = Я (а1а2аз«4) — Н (а^а^) = = — Р (---------) bgp (-------) — — Р (-----а) log /Д-----а) — ... ... — р (яяяя)й^ р(яяяя) + + Р (------) log Р (---) + Р (----a) log р (--а) + ... ... + р (яяя) log р (яяя),
244 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл. IV отвечающую опыту по определению буквы русского текста при условии знания трех предшествующих букв. Соот ветствующий этой величине опыт, состоящий в извлечении бумажек из 323 урн с четырехбуквенными сочетаниями (или — аналогичный описанному выше эксперимент с русской книгой), приводит к «фразе» вроде следующей: ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО, составленной уже из «почти русских» слов. Еще лучшее приближение к энтропии буквы осмысленного русского текста дают величины П N = Н ... ! (<Z;v) — Н (otjCZa ••• ®jv) 77 (tti<X2 ... OC/V—1) при N — 5,6, .... Нетрудно видеть, что с ростом N энтро- пия II n может только убывать (ср. выше, стр. 125). Если еще учесть, что все величины IIn положительны, то отсюда можно будет вывести, что величина На.,а.2... aN_r(<ZN) = Hn при N -> сю стремится к определенному пределу IIто, очевидно, совпадающему с пределом о котором шла речь в предыдущем параграфе (см. с гр. 217) *). *) Равенство рассмотренною в § 2 iipw in 77<zv) Я(«|Н Нв((аа) |-.. И ( ('%> lim ~7T ” lil"------------------7?----------------- N-»oo ;v JV—eu ” введенной здесь величине IIследует из того, что при большом H<.N) If почти все слагаемые в числителе дроби - будут близки к исключение составят лишь первые слагаемые, вклад которых в общую сумму при очень большом If будет незначителен. Таким образом, и последовательность «удельных энтропий» hN = - и последовательность «условных энтропии» — 11 a,aS... (ajv) сходятся при If -» оо к одному и тому же пределу Н^. При этом h± = Н1 = Н (at), но HN < hN при N > 1 (так как hN равно сред- нему арифметическому N чисел, лишь последнее из которых равно HN, а все остальные больше); поэтому величины HN, If = 1, 2, 3... будут заметно быстрее приближаться к предельному значению Н^, чем величины hN (ср. сноску на стр. 303).
§ 3) КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 245 Из результатов § 2 следует, что среднее число элементар- ных сигналов, необходимое для. передачи одной буквы русского текста, не может быть меньшим с другой стороны, возможно кодирование, при котором это среднее число н будет сколь угодно близко к величине —(сп. выше, log т ' г стр. 217). Разность И = 1—jy- , показывающую, насколько меньше единицы отпошопие «продельной энтропии» к величине Но = log п, характеризующей наибольшую информацию, которая может содержаться в одной букве алфавита с данным числом букв, Шеннон назвал избы- точностью языка (в рассматриваемом случае — рус- ского). Данные, о которых мы будем говорить ниже, за- ставляют предполагать, что избыточность русского языка (как и избыточность других европейских языков) заметно превышает 50%. Говоря по совсем точно, мы можем ска- зать, что выбор следующей буквы осмысленного текста более, чем на 50% определяется самой структурой языка и, следовательно, случаен лишь в сравнительно небольшой степени. Именно избыточность языка позволяет сокра- щать телеграфный текст за счет отбрасывания некоторых легко отгадываемых слов (предлогов и союзов); она же позволяет легко восстановить истинный текст дажо при наличии значительного числа ошибок в телеграмме или описок в книге. Для того чтобы ясное представить себе смысл величины R, предположим, что русский текст кодируется при по- мощи 32-ичпого кода, в котором элементарными сигна- лами служат те же русские буквы. Такой «код» будет представлять собой некоторый способ сокращенной записи русской речи при помощи обычных букв. В слу- чае наиболее экономного кодирования для записи Af-бук- венного сообщения нам понадобится в среднем н н М — М —(1—R) М элементарных сигналов(букв), т. е. по сравнению с обычной записью текст удается сокра- титьнабукв. Этот результат, разумеется, пе означает, что мы можем произвольным образом отбросить RM букв и по оставшимся безошибочно восстановить исходное сообще- ние! для сокращения сообщения на RM букв необходимо
246 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV воспользоваться специальным «самым лучшим» методом кодирования, после применения которого все буквы сооб- щения становятся взаимно независимыми и равноверояг ными. Отсюда ясно, что закодированный текст при этом будет иметь тот же характер, что и «фраза» на стр. 237, т. е. будет казаться совершенно бессмысленным; «про- честь» такой текст будет много труднее, чем прочесть «фра- зу», приведенную в подстрочном примечании на стр. 239— 240 (так как теперь кодовые обозначения сопоставляются уже не отдельным буквам, а сразу длинным «блокам»). От- метим еще, что при таком кодировании любая описка будет «роковой»: при декодировании она приведет к новому осмысленному тексту и мы ее не заметим, а если и заметим, то не сможем понять, что же было написано на самом деле. Что же касается до сокращения текста при помощи непо- средственного пропуска части букв, выбранных наудачу, то заранее можно лишь утверждать, что при отбрасывании более чем RM букв мы заведомо не сможем безо- шибочно восстановить первоначальный текст. Специаль- ные опыты (относящиеся к английскому языку) показы- вают, что обычно такое восстановление удается лишь гор- да, когда число отброшенных буки но превосходит 25% or общего их числа. Избыточность II является весьма важной спинегичес- кой характеристикой языка; однако ее численное значении пока ни для одного языка не определено с удовлетворитель- ной точностью. В отношении русского языка, в частности, как будто имеются лишь данные о значениях величин Я2 и Н3, полученные в Институте проблем передачи информа- ции Академии наук СССР (см. Д. С. Лебедев, В.А.Гармаш [70]). В этой работе для нахождения относительных частот (т. е. приближенных значений веро- ятностей) всевозможных двухбуквениых и трехбуквен- ных сочетаний был использован отрывок из романа «Вой- на и мир» Л. Н. Толстого, содержащий около 30 000 букв; подсчет числа повторений различных двухбуквенных и трехбуквенных комбинаций в этом отрывке осуществлялся с помощью счетно-аналитических машин. В результате были получены следующие значения (в битах)! я0 нг я2 я3 log 32 = 5 4,35 3,52 3,01
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 247 (для полноты мы здесь привели также и значения энтро- пий Но и Нг, указанные ранее на стр. 237 и 238). Строго говоря, отсюда можно только вывести, что для русского языка R 1 — тг ~ 0,4; естественно думать, однако, "fl что на самом деле величина R значительно больше этого числа (энтропия Пя равна средней информации, содер- жащейся в букве «фразы», приведенной на стр. 243, а эта «фраза» является заметно менее «упорядоченной», чем ос- мысленный русский текст). Последнее заключение подтвер- ждается также и имеющимися в настоящее время (весьма неполными) данными об избыточности других языков. Ясно, что для всех языков, использующих латинский алфавит, максимальная информация Но, которая могла бы приходиться на одну букву текста, имеет одно и то же значение: Но = log 27 ~ 4,76 бит (латинский алфавит содержит 26 различных букв, к ко- торым мы добавляем 27-ю «букву» — пустой промежуток между словами). Дальнейшие подсчеты, однако, должны производиться отдельно для каждого языка, так как ча- стоты появления тех или иных букв или многобуквенных сочетаний не одинаковы в различных языках. Так, на- пример, расположив все буквы в порядке убывания вероятностей (начиная с самой частой из них), мы придем к последовательности букв, начинающейся с — ETAONRI... в случае английского языка, с — ENISTRAD... в случао немецкого языка и с — ESANITUR... в случае французского (см. [73]; «—» во всех случаях обозначает пробел между словами); средняя длина слова, определяющая вероятность «про- бела» в немецком языке заметно больше, чем в английском или французском; буквы W и К сравнительно часто встре- чаются в немецком и английском языках, но имеют прак- тически нулевую вероятность во французском; сочетание TH очень распространено в английском языке, а сочета- ние SCH — в немецком, но в других языках эти соче- тания весьма редки; за буквой С почти всегда следует бук- ва Н в немецком языке, но не в английском или во фран- цузском и т. д. Использовав таблицы относительных
248 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ 11 1 IV частот различных букв в английском, немецком, француз- ском и испанском языках, можно показать, что энтропии Нг для этих языков равна (в битах): язык | англ. | немецк. | франц. | испанск. Hi | 4,03 | 4,10 | 3,96 | 3,98 (ср. Барнард [74]). Мы видим, что во всех случаях величина Нх заметно меньше, чем Но — log 27 ~ 4,76 бит, причем ее значения для различных языков не очень сильно разнятся между собой. Что же касается «условных энтропий» Нн (где N > 1), то они основательнее всего изучены для английского языка, которым мы, в основном, и ограничимся в даль- нейшем. Величины II2 и IIз для этого языка были еще в 1951 г. подсчитаны Ш е н и о п о м [75]; при этом он ис пользовал имеющиеся таблицы частот в английском язы- ке различных двухбуквенных и трехбуквенных сочета- ний. Учтя также и статистические данные о частотах появ- ления различных слов в английском языке, Н1< пион с мел приближенно оцепить и значения величин //а и //,*). *) Зиня частоты (вероятны in) щ, />а, ..., рк отдельных стоп (здесь К — общее число слои, встречающихся a рассып tpuiuu них текстах), можно определить «энтропию первого порядка» //)'Jl<luu' *»: = — щ log Pi — p2 logp2 — ... —pK log рк. Разделив получен- ную величину на среднее число w букв в слове, мы получим оценку для условной энтропии Hw порядка w. А именно, нетрудно попять, ^у(слова) что w— < Hw, ибо связи между w буквами одного слова за- метно сильней связей между w произвольными последовательными Щслова) буквами осмысленного текста. С другой стороны, отношение ———, наверное, больше средней информации Н = Ято, содержащей- ся в одной букве текста, поскольку величина д<СЛОБа) совсем не учитывает зависимостей, существующих между словами (ср. ниже, стр. 263 и след.). [Ср., впрочем, работу В. Ю. У р б ах а [76], в которой критикуется методика Шеннона и приводятся несколько иные чём в [75] значения энтропий HN (в работе [76] пробел меж- ду словами пе включался в число букв, что, однако, само по себе учитывается очень просто —- см. ниже, стр. 260 и след.).]
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 249 В результате он получил следующий ряд чисел: Но Hi Н% Нз Но Но 4,76 4,03 3,32 3,10 —2,1 «1,9 Отсюда можно заключить, что для английского языка из- 1 9 быточность R во всяком случае не меньше, чем 1-~ » 0,6, т. е., наверное, превосходит 60%. Для более точной оценки величины R надо еще выяс- нить, насколько отличается величина ZZ8 — средняя ин- формация, содержащаяся в букве текста при условии, что нам уже известны предыдущие 7 букв, от предельного значения 11 Иначе говоря, нас интересует вопрос о том, насколько существенно ограничивает произвол в выборе очередной буквы английского текста знание той части пред- шествующего текста, которая удалена от этой буквы более чем на 7 букв (при условии, что и последующие 7 букв нам также известны). Поскольку средняя длина английского слова равна всего лишь 4—5 буквам, т. с. заметно меньше 7 букв, то речь здесь может идти лишь о влиянии стати- стических закономерностей, определяющих порядок сле- дования отдельных слов друг за другом (или даже еще более общих закономерностей, касающихся целых фраз). Непосредственное решение интересующего нас вопроса при помощи подсчета величин Нъ, Н10 и т. д. по приведен- ной на стр. 244 формуле невозможно, так как уже для вы- числения ZZS требуется знание вероятностей всех 9-бук- венных комбинаций, число которых выражается 43-значным числом (триллионы1). Поэтому для оценки ве- личин HN при больших значениях N приходится ограни- чиваться косвенными методами. На одном остроумном методе такого рода, предложенном Ш е н н о н о м [75J, мы здесь вкратце остановимся. «Условная энтропия» ZZ/v представляет собой меру сте- пени неопределенности опыта аы, состоящего в опреде- лении N-й буквы текста, при условии, что предшествую- щие N — 1 букв нам известны. Естественно, что эта вели- чина определяет степень трудности отгадывания N-й бук- вы по N — 1 предыдущим. Но эксперимент по отгадыва- нию N-й буквы легко может быть поставлен: для этого достаточно выбрать (N — 1)-буквенный отрывок осмыс- ленного текста и предложить кому-либо отгадать
250 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СНЯЛИ 1Гл. ГУ следующую букву1). Подобный опыт может быть повторен многократно; при этом трудность отгадывания N-ii буком может быть оценена с помощью среднего значения Q числа попыток, требующихся для нахождения правиль ного ответа. Ясно, что величины Qn, определенные для разных значений N, являются определенными характер» стиками статистической структуры языка, в частности, его избыточности: в случае нулевой избыточности знание сколь угодно длинного отрывка текста не увеличит вероятность правильно угадать следующую букву (эта вероятность во всех случаях будет равна — , где п — число 1 букв алфавита); равенство же избыточности величине — можпо весьма огрубление описать как утверждение о том, что каждая т-я буква текста является «лишней», одно значно восстанавливаемой по т—1 предыдущим. Очевидно, что среднее число попыток Qn с возраста- нием N может только уменьшаться; прекращение этого уменьшения будет свидетельствовать о том, что соответ ствующие опыты имеют одинаковую степень пеопр щ ленности, т. е. что отвечающая Им «условная нирогшп* Hn практически ужо досгнгл пн щлгшно паленин // Исходя из этих соображений Шеннон upon пк i ряд по добных экспериментов, в которых Л принимало зннчшгия 1, 2, 3, ..., 14, 15 и 100. При этом он обнаружил, чю от гадывание 100-й буквы по 99 предшествующим является заметно более простой задачей, чем отгадывание 15 й буквы по 14 предыдущим. Отсюда можно сделать вывод, что Н15 ощутимо больше, чем Н100, т. е. что Н15 никак еще нельзя отождествить с предельным значением Нт. Впослед- ствии такие же опыты были проведены на несколько боль- шем материале Н. Б е р т о н о м и Дж. Л и к л а й д е- р о м [77] для N = 1, 2, 4, 8, 16, 32, 64, 128 и 7V ~ ~ 10 000; из их данных можно заключить, что величина На2 (так же как и Нм и Н12а) практически не отличается от Н10000, в то время как «условная энтропия» Н1в еще 1) Шеннон предлагает задавать вопросы ряду лиц и остановить- ся на том из них, ответы которого окажутся наиболее удачными, поскольку здесь считается, что отгадывание происходит наиб <>- лее рациональным образом, т. е. с полным знанием всех присущих языку статистических закономерностей.
§ 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 251 заметно больше этой величины. Таким образом, можно предположить, что при возрастании N величина II к убы- вает вплоть до значений N, имеющих порядок 30, но при дальнейшем росте N она уже практически не меняется; поэтому вместо «предельной энтропии» Яоо можно говорить, например, об условной энтропии Hs0 или Н№. Эксперименты но отгадыванию букв не только позволя- ют судить о сравнительной величине условных энтропий HN при разных N, по дают также возможность оценить и сами значения Нм- Эта возможность связана с тем, что по данным таких экспериментов можно определить нс только среднее число Qk попыток, требующихся для отгадывания N-й буквы текста по N — 1 предшествующим, но и веро- ятности (частоты) qn, c/n, ..., q^i того, что буква будет пра- вильно угадана с 1-й, 2-й, 3-й, ..., n-й попытки (где п — = 27 —число букв алфавита; очевидно, что <?w = 9n-1 + + • 2 + ... -\-qN-n). Нетрудно понять, что вероятно- сти q{, qi, ..., равны вероятностям р(ах), р(а2), ... ...,р (ап) букв а1г а2, ..., ап алфавита, расположенных в по- рядке убывания частот. В самом деле, если ни одна из букв, предшествующих отгадываемой букве х, нам не известна, то естественно прежде всего предполо- жить, что х совпадает с самой распространенной буквой щ (причем вероятность правильно угадать здесь будет равна р (щ)); затем следует предположить, что х совпадает с аг (вероятность правильного ответа здесь будет равна р (а2)) и т. д. Отсюда следует, что энтропия Н1 равна сумме 111 212 П П — Ji log <h — 9i log 9i — ... — 9i log 9!- Если же N 1, то можно показать, что сумма — 9n log 9w — qn log qx — ... — q^ log qb (*) не будет превосходить условную энтропию IIк (это связано с тем, что величины qlN, q^, ..., qN представляют собой оп- ределенным образом усредненные вероятности исходов опыта cqv). С другой стороны, несколько более сложные соображения, на которых мы здесь не будем останавли- ваться, позволяют доказать, что сумма (9лг — 9jv)'log 1+2 (qff — <Д) log 2 + ... ... + (n — 1) (q™'1 — 9jy)log (n — 1) + nq^ log n (**)
252 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЛИ 1Гл. IV при всяком N будет не больше условной энтропии HN, Таким образом, выражения (*) и (**) (составленный на -12 П вероятностей qN, qN, qu, которые можно оцепить по данным эксперимента) определяют границы, между ко торыми должна заключаться величина Нм- Надо только еще иметь в виду, что обе оценки (*) и (**) получаются в предположении, что qh, q2^, ..., <y’v — это те вероятности угадывания буквы по N — 1 пре p.i дущим буквам с первой, второй, третьей и т. д. попыток, которые получаются в предположении, что отгадывающий всегда называет очередную букву наиболее цел с сообразно — с полным учетом всех статистически< закономерностей данного языка (ср. сноску па стр. 250). В случае же реальных опытов любые ошибки в стратегии отгадывающего (т. о. отличия называемых им букв о г тех, которые следовало бы назвать, исходя из точной ста- тистики языка) будут неизбежно приводить к завышению обеих сумм (*) и (**); именно поэтому целесообразно учи тывать лишь данные «наиболее успешного отгадыпающш-о», так как для него это завышение будет панмепыпим •). Поскольку, однако, каждый oi г|1дып11Ю1Ц|1и ниогди <нии бается, то оценку (**) па нршпике не и.ан гни in mm пт падежной оценкой спилу нгишноп .iiiiponiiii (и ш ni*iu> or оценки сверху (*), которая u.i за ошибок он и (ып иощек! может только стать еще больше). Кроме того, значения сумм (*) и (**), к сожалению, не сближаются неограниченно при увеличении N (на чиная с 30 эти суммы вообще перестают зависеть от А); поэтому полученные на этом пути оценки избыточности х) Ясно, что большая или меньшая удачливость отгадывающею характеризует степень (обычно — интуитивного) понимании им статистических законов языка, т. е. присущее данному лицу «чу в- ство языка» (или «чувство стиля» данного автора, тексты которого используются для предсказания букв,— ср. замечание и нерпой из работ [15] о «телепатической связи с авторами» одного из ирнин мавших участие в подобных опытах лиц, видимо, обладавшего особо развитым литературным' чутьем). В соответствии с .ним предпринимались попытки использования результатов опытов по предсказанию букв для объективной характеристики степени владения иностранным языком ([78]; ср. также [79]) или родным языком (см. [80], где описаны опыты по отгадыванию буки сугуЬм специального текста несколькими группами лиц, имеющими nr. l ма разную практику в чтении текстов подобного eojV'p>i<niinii>.
КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 253 § 3] языка не будут особенно точными х). В частности, опыты Ш е н н о н а [75] показали лишь, что величина /7100, по-видимому, заключается между 0,6 и 1,3 бит. Отсюда можно заключить, что избыточность 7?=i-.j^i Яо log 27 для английского языка по порядку величины должна быть близка к 80%. Эксперименты II. Бертона и Дж. Ликлайдера [771 привели к близким резуль- татам: по их данным истинное значение избыточности ан- глийского языка лежит где-то между 2/3 (т. е. 67%) и 4/5 (т. е. 80%). Аналогичное (но несколько менее полное) исследование избы- точности немецкого языка было выполнено известным немецким специалистом в области электросвязи К. Кюпфмюллером [82]. Использовав имеющиеся даппыо о частотах появления раз- личных слогов и слов в немецком языке и произведя некоторые опыты по отгадыванию последующих слогов или слон немецкого текста по известному предшествующему отрывку, Кюпфмюллер пришел к выводу, что для немецкого языка Н^ « 1,3 биг. Отсюда 1,3 вытекает, что избыточность/? этого языка близка к 1 — /рд} я; 0,7 —• значение, которое имеет тот же порядок величины, что и приведен- ные выше оценки избыточности для английского языка. Значение Я2 для немецкого языка может быть найдено, в частности, в работе [115], о которой подробнее мы будем говорить в разделе, посвящен- ном устной речи. Для французского языка наиболее полное исследование его энтропии и избыточности было выполнено Н.П. Петровой [83]. Для нахождения величии Jf N, где IV невелико, Петрова обра- ботала совокупность текстов общим объемом в 30 000 букв, исходя из которой вычислялись вероятности (частоты) отдельных букв, а также их двухбуквенных и трехбуквенных сочетаний. При этом она пришла к следующим результатам: Но Hi Hz Нз pg 27 л 4,76 3,95 3,17 2,83 (ср. выше, стр. 249). Для определения величин НN при больших А использовались опыты по отгадыванию букв, причем частично J) Ср. работу А. П. С а в ч у к [81], в которой сконструиро- ваны совершенно искусственные «языки», для которых шеннонов- ские оценки (*) или, соответственно, (**) энтропии являются точ- ными.
254 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1> I. IV применялась предложенная А. Н. Колмогоровым методика, о кого рой мы еще скажем ниже; при этом было получено, что «1,40 би < а следовательно, R «71%. Сходные результаты были поту- чены также для итальянского, шведского и ряда других языкпп (см., например, [67], [84], [85]). Разумеется, тот факт, что оценки избыточности нескольких европейских языков, использующих одинаковый алфавит, при- водят к заключению, что эти величины имеют примерно одинако- вые значения, не позволяет еще распространить этот вывод также и на очень далекие по лингвистической структуре языки или па язы- ки, резко различающиеся своими алфавитами. В этой связи пред- ставляет интерес исследование Е. НьюманаиН. Во [86], по- пытавшихся сравнить энтропии Ни избыточности R для трех язы- ков с заметно различающимся числом букв в алфавите: полине- зийского языка Самоа, алфавит которого содержит всего 16 букв (около 60% которых являются гласными), английского языка и рус- ского языка, причем в последнем случае специально выбирались тексты, напечатанные по старой орфографии (принятой в России до 1917 г), использующей 35-буквепный алфавит: кроме знако- мых нам букв оп содержал еще буквы 'Ъ («ять»; читалась как бук- ва е), i («и десятеричное»; читалась как и), 0 («фита», читалась как ф) и очень редко употребляемую букву V («ижица», также чита лась как и). Естественно, что величины Йо для этих трех изыкеш имеют очень разное значение (см. таблицу ниже). Еще более сильно различаются приведенные в той же таблице значения //, дли тре» языков, подсчитанные Ньюманом и Ио нее тика» пияти п ми к того же отрывка (длинои около 10 000 нт n) I трем ui-pnu. |оя Библии. Грубо говоря, пто О.1НИЧП0Г, что реи ире lonniiuo iiijxniiiKM' 1еП ОТДеЛЬНЫХ буКП В руГСКОМ Я ПЛСП ПИЛИ ПСП I I н е pull 1OMI рным а в языке Самоа — самым нерпиномериым (и ипчип и пои степени это объясняется тем, что в я паке Самоа среднии длина слови очень мала: она составляет всего около 3,2 буквы против 4,1 буквы для английского языка и 5,3—для русского языка; поэтому пробел и язы- ке Самоа имеет очень большую вероятность, в английском языке — меньшую и в русском >— еще меньшую). Однако уже величины Я, для трех языков оказываются более близкими, чем значения Я4: двухбуквенные связи в русском языке являются более жесткими, чем в английском и тем более — чем в языке Самоа. К сожалению, оценки последующих значений HN указываемые! Ньюманом и Во, являются менее падежными (они были получении авторами с помощью разработанной Е. НьюманомиЛ. Гор- ст м а н о м [87] методики, вызывающей известные сомнении); однако их выводы, касающиеся сравнительных значений HN для трех языков, являются довольпо правдоподобными: Самоа Английский Русский (старая орфография) Но log 17 «4,08 log 27 «4,76 log 36«5,17 Я, 3,40 4,08 4,55 я2 2,68 3,23 3,41
§ 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 255 Согласно этим выводам величины HN убывают в русском языке быстрее всего, а в языке Самоа—'медленнее всего; в результате, начиная примерно с N = 10, величины HN (а следовательно,—и ве- личины Н^) для трех языков оказываются довольно близкими друг к другу. Это означает, что среднее количество информации, при- ходящейся на одну букву текста, для трех языков с заметно раз- личающимся количеством букв алфавита оказывается примерно одинаковым. Если этот вывод является справедливым, то из него, разумеется, следует, что избыточность для языков с большим чис- лом различных букв будет заметно большей, чем для языков с бо- лее бедным алфавитом. Заметим также, что во всех европейских языках гласные буквы являются гораздо более частыми, чем согласные; это обстоятель- ство создает значительные различия в частотах отдельных букв, заметно отражающиеся уже на значении «энтропии 1-го порядка» Hi (а также на «предельной энтропии» Н = II и на избыточ- ности Н) языка. Иным будет положение в ряде восточных языков, например, в арабском и древнееврейском (иврит): в этих языках гласные отсутствуют — они опускаются в письменном тексте и восстанавливаются читателем «по смыслу» (что возможно в силу избыточности языка). Ясно, что статистическая структура записан- ного на этих языках текста будет резко отличаться от той, с какой мы сталкиваемся в случае европейских языков, в силу чего и зна- чения всех теоретико-информационных характеристик языка здесь могут принимать совсем другие значения (в частности, избыточ- ность будет заметно меньше). В качестве иллюстрации к этому замечанию можно сослаться на работу немецкого лингвиста Г. Б л ro- ti е [88], который сравнил статистические характеристики совокуп- ностей трехбуквенных слов иврита и английского языка и нашел, что для этой совокупности д<ивр) ~ 3>73 (бит/букву) и /?<ивр> = 1 — — ТА 0,16, в то время как ^(англ) х Q,g3 ^бит/букву) и 7/(3n,,1'J1) ss 0,82. Обстоятельно исследовался в 60-годах и вопрос об энтропии отдельных индийских языков, в первую очередь—распространенных в южной Ипдии дравидских языков, принадлежащих к числу древ- нейших на земле [89]; в этих работах, исходя из данных стати- стики языка (и с учетом введенной в [71] поправки), находились значения энтропий невысокого порядка, а также использовал- ся «метод отгадывания» К. Шеннона, позволяющий оценить значения НN, где N сравнительно велико. При этом новые — по сравнению с относящимися к европейским языкам работами — за- труднения возникали здесь в силу некоторой неопределенности ал- фавитов большинства из рассматриваемых языков (ср. со сказан- ным ниже, стр. 265 и 278). Так, например, в языке тамили (исследо- ванию которого посвящена работа Г. С и р о м о н и .— см. [89]) имеется старинный алфавит и современный алфавит; в современном
256 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV алфавите (близком к алфавитам ряда других индийских языков) имеется 12 гласных, 18 согласных, 216 слитных согласных-гласных и еще один не произносимый знак (Aitham) специального назначе- ния. В работе Сиромони Aitham игнорировался вовсе, а «соглас- ные-гласные» рассматривались как пары букв; однако такой подход к языку тамили не является единственно возможным. Кое что о конкретных результатах исследований, посвященных индийским языкам, будет еще сказано ниже (см. стр. 271). Наконец, укажем, что различия в имеющихся оцен- ках значения энтропии Н = Щ (или даже величин 11^, где N сравнительно невелико), найденных для раз- ных европейских языков с помощью «метода отгады- вания», являются, как правило, заметно меньшими, чем точность соответствующих оценок, определяемая разли- чием между выражениями (*) и (**) для энтропии N-ro порядка. Таким образом, метод Шеннона оказывается явно недостаточным для определения различий в удельной энтропии (приходящейся на одну букву) для различ- ных языков, хотя существование различия в средней дли не слов для разных языков и различия в длине inipn.i- лельных текстов на разных языках, имеющих ицн<> и то ч.и содержание (ср. Б. 1’ и м н к р и ш и н и I*. у б р и м а н и а н [90], а гакжо последнюю на риГкн |К'.)| *)), соз- дают впечатление, чю :>ги различии и у дольной нитронии вполне могут иметь порядок 10—20% То же самое можно сказать и о различиях в энтропии текстов различного ха- рактера (в частности, принадлежащих различным авто- рам), написанных на одном и том же языке: представляет- ся довольно очевидным, что различия эти могут быть до- вольно большими, — но и они могут быть обнаружены с помощью метода Шеннона только в самых крайних ис- ключительных случаях (вроде того, к которому относятся работы Фрика и Самби или Фрица и Грайера, указанные на стр. 268). т) Впрочем, указанные две работы на самом деле представля- ют интерес лишь с точки зрения постановки вопроса, но не с точки зрения полученных здесь конкретных результатов, так как для оценки «эффективности» различных языков здесь используется толь- ко сравнение относящихся к этим языкам «энтропий первого по- рядка» Пг, совершенно не учитывающих крайне важные для струк- туры языка статистические связи между последовательными бук- вами текста.
§ 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 257 В этой связи представляются крайне желательным иметь более точные методы определения энтропии языка. А. Н. Колмогоров указал не так давно, что такие более точ- ные методы могут быть сравнительно просто получены с по- мощью дальнейшего развития метода отгадывания. Преж- де всего Колмогоровым было отмечено, что в принципе метод отгадывания (в предположении, что отгадывающий всегда будет следовать «оптимальной стратегии», выте- кающей из полного учета всех присущих даппому языку статистических закономерностей) позволяет получить не только оценки энтропии сверху и снизу, но и т о ч и у ю оценку значения этой величины. В самом деле, пред- положим, что отгадывающему предлагается каждый раз не перечислять по порядку те буквы, которые, как он дума- ет, должны появиться, а сразу назвать все условные ве- роятности Pl, Pi , ..., Рп того, что появится 1-я, 2-я, ... .., п-я из букв алфавита (при условии, что предшествую- щие N — 1 букв текста ему известны). Пусть теперь этот опыт повторяется много раз и каждый раз подсчитывается величина —log р[-, где к — порядковый номер той буквы, которая появилась на самом деле (таким образом, в каж- дом отдельном опыте из названных «отгадывающим» п чисел ру , ..., рп, где п — число букв алфавита, на самом деле учитывается лишь одно, но какое именно — заранее неизвестно). Тогда нетрудно показать, что если условные вероятности всегда будут указываться точно, то среднее значение подсчитываемой величины — log р^ (т. е. сумма всех таких величин, определенных в большом числе М опытов, деленная па М) при неограниченном увеличении М будет неограниченно приближаться к истинной энтро- пии Нм одной буквы текста. Разумеется, этот метод является совершенно непрак- тичным: немыслимо требовать от отгадывающего, чтобы он каждый раз указывал весь набор условных вероятно- стей всевозможных букв — и при этом никогда не оши- бался. Существенно, однако, что любые ошибки в назван- ных значениях условных вероятностей приведут лишь к возрастанию соответствующей суммы значений — log р^ (это обстоятельство, как нетрудно показать, следует из неравенства (*) на стр. 251). Поэтому вполне до- пустимо заранее ограничить множество распределений 9 А. М, Яглом, И. М. Яглом
253 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл.IV вероятностей, которые может называть отгадывающий, и тем существенно облегчить его работу; при этом сумма полученных таким образом значении —log рх, разделен- ная на число М опытов, все равно будет оценкой сверху истинной энтропии Нм- В реальных опытах, проводившихся под руководством Колмогорова над русскими литературными текстами, отгадывающему позволялось делать следующие предска- зания (см. [91]): 1) следующей буквой наверное будет одна определен- ная (скажем, к-я) буква алфавита; 2) следующей буквой наверное будет одна из указы- ваемых отгадывающим двух или трех букв алфавита; 3) следующей буквой вероятно (но но наверное!) будет одна определенная (скажем, /с-я) буква алфавита; 4) следующей буквой вероятно будет одна из указы- ваемых отгадывающим двух или трех букв; 5) кроме того, отгадывающему позволялось сказать, что он не знает, какой будет следующая буква. При этом считалось, что каждое из .них yniepanu-iiiiii равносильно выбору следующего услипного рпспрсдн- ления вероятностей дли последу к щей буквы H’kiih 1) /с-я буква имеет некоторую внрншю фикспропииную большую вероятность /'; для i-it же буквы, гдо i-j*k, неро- ‘ .. . ятность появиться принимается равной Pi=Pi- -773—, гДе 1 рк Pi и ph — безусловные вероятности i-й и к-& букв рус- ского языка, указанные в таблице на стр. 238; 2) выбранные две или три буквы имеют одинаковую условную вероятность Р/2 или Р/3; остальные буквы по- прежнему имеют вероятности pi, пропорциональные их бе- зусловным вероятностям pt; 3) /с-я буква имеет некоторую фиксированную вероят- ность Q (меньшую, чем Р!), а i-я буква при i =f= к имеет 1 — Q вероятность р. = р. ; 4) выбранные две или три буквы имеют одинаковую вероятность Q/2 или Q/3, а остальные буквы — вероятно- сти, пропорциональные их безусловным вероятностям; 5) условная вероятность появления i-й буквы алфа- вита при всех i принимается равной ее безусловной веро- ятности pi.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 259 Вероятности Р и Q пока остаются неопределенными; так как, однако, любая неточность в предсказываемых условных распределениях вероятностей может лишь уве- личить получаемую оценку для Н^, то вполне допустимо подобрать эти две вероятности по известным результатам опытов так, чтобы сумма всех величин —log (где — предсказанная условная вероятность реально появившей- ся буквы) была возможно меньшей. Нетрудно подсчитать, что при таком определении ве- роятностей Р aQ окончательная оценка энтропии Ни будет даваться формулой Hn M2h.2 + Мг 4- Af23 5], где М — общее число опытов; Mt — число предсказаний типа 1) или 2); М2 — число предсказаний типа 3) или 4); Afj — число предсказаний типа 2) или 4), в которых пред- сказывается одна из двух букв; М2 — число предсказа- ний типа 2) или 4), в которых предсказывается одна из трех букв; h2 = log qr — (1 — qY) log (1 — qj, где = ST? a — число ошибок в предсказаниях типов 1) и 2); h2 = — q2 log q2 — (1 — <?2) log (1 — q2), где q2 = = — средняя доля ошибок в предсказаниях типов 3) и 4); наконец, S — распространенная по всем случаям ошибок в предсказаниях типов 1) — 4) и всем «отказам» (предсказаниям типа 5)) сумма выражений —log pt, где p'l — или «безусловная вероятность» рг реально появив- шейся буквы (в случае предсказаний типа 5)), или же «предсказанная вероятность» р[г разделенная на 1 — Р (в случае предсказаний типов 1 и 2)), или, наконец, она же, разделенная на 1 — Q (в случае предсказаний типов 3) и 4)). Выписанная здесь формула на первый взгляд кажется сравнительно сложной, по на практике она оказывается довольно удобной и приводит к не слишком громоздким расчетам. Опыты подобного рода, проводившиеся в стати- стической лаборатории Московского государственного уни- верситета, позволили получить для классической русской прозы С. Т. Аксакова («Детские годы Багрова-внука») и 9*
260 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV И. А. Гончарова («Литературный вечер»), оценку удель- ной энтропии Пх (не отличающейся, например, от ЯБ0) порядка 1—1,2 бит, являющуюся, по-видимому, довольно точной (вероятно, превышающую истинное значение не больше, чем па 10—15%). Соответственно этому для избыточности литературного языка русской классической прозы отсюда получается значение, по порядку величины близкое к 80%. Напомним, что во всем предыдущем к числу «букв» мы причисляли и пустой промежуток между словами, что совершенно естественно с точки зрения телеграфии. Иног- да, однако, представляет интерес также рассмотрение обыч- ного алфавита, пе учитывающего пробелов; так, например, может встать вопрос об информации, содержащейся в од- ной напечатанной букве текста. Естественно, что при этом приведенные выше результаты претерпят неко- торые изменения. Так, например, русский алфавит теперь придется считать 31-буквенным (буквы ь и ъ мы отождг ствляем по-прежнему), так что II0 = log 31 « l.'.l.» биг; частоты отдельных букв также илмеияг спои .inii’h'itnii (i м. таблицу этих частот и книге А А. X и р к о и и ч и |Г>!)|), что приводит к новому aiiiviiHiino .ниронин //,, и именно Hi ~ 4,46 бит. Латинский алфавит при гаком рассмотре- нии надо будет считать 26-буквеппым, так что для всех языков, использующих этот алфавит, Но = log 26 «; 4,7 бит. Значения (в битах) энтропий 77,, Н2 и Н3, а также приближенные значения энтропий Нъ и Нв для англий- ского языка, полученные в пренебрежении пробелами между словами, приведены в следующей таблице (ср. Шеннон [75]): Но Hi Н2 Н3 Н5 Н8 4,70 4,14 3,56 3,3 «2,6 «2,3 Сравнив эту таблицу с приведенной на стр. 249, мы убе- димся, что учет пробелов между словами в английском языке приводит к увеличению энтропии Но и уменьшению всех последующих энтропий Н^. То, что для всех языков п₽об) Н^ез проб) совершенно очевидно: ведь всегда log п log (и — 1). Далее, учет пробела при- водит к появлению дополнительной «буквы», имеющей
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 261 сравнительно с другими очень большую вероятность, что облегчает предсказание исхода опыта а15 а следовательно, уменьшает степень его неопределенности Я1. Аналогично объясняется уменьшение при учете пробела и для других значений N. В частности, при достаточно большом N (превышающем среднюю длину слова) исход опыта, состоящего в определении N-й буквы текста по известным N — 1 предшествующим буквам во всех тех случаях, когда этой N-й буквой оказывается «пробел», будет прак- тически однозначно определяться самой структурой языка (легко понять, что при большом N ошибки при отгады- вании исхода этого опыта обычно будут иметь место лишь тогда, когда N-я буква оказывается первой или, в крайнем случае, второй буквой нового слова). Отсюда вытекает, что учет пробела заметно уменьшает неопределенность этого опыта, и, значит, . Можно получить даже точную зависимость, связываю- щую два значения избыточности /? — вычисленное при условии пренебрежения пробелами между слонами и при учете этих пробелов. В самом деле, рассмотрим дна оди- наковых достаточно длинных текста, отличающихся лишь тем, что в одном из них мы не отмечаем промежутков между словами. Каждый из текстов однозначно восстанав- ливается по другому: разумеется, мы можем отбросить все промежутки между словами в обычном тексте и почти столь же просто восстановить пробелы в написапном «вплотную» (без интервалов между словами) тексте па знакомом языке. Отсюда можно заключить, что «полная информация» (произведение «удельной информации» или «информации, приходящейся на одну букву текста» на число букв), содержащаяся в том и другом тексте, должна быть одной и той же. А так как число «букв» в тек- сте с пробелами превосходит число букв написанного s +1 «вплотную» текста в —-— раз, где s — средняя длина слова (ибо в среднем один пробел приходится на s букв текста), то Я (с проб) гДбез проб) . S + 1 ОО - ОО • ч . 1 Учитывая еще, что вероятность р0 пробела равна s f (один пробел приходится на s + 1 «букв» текста с
262 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИН ИЯМ СВЯЗИ [Гл. IV пробелами) и, следовательно, s = —— 1, мы можем пе- реписать эту формулу так х): 1 Я (с проб) £/(без проб) . ро ОО - л! оо • 7----- или Н<£ проб) = (1 - р0) н£ез проС). Но если общее число букв алфавита (включая пробел) равно п, то проб) = log п, Н{™3 прс6) = log (п - 1) и гг(с проб) /т(без проб) °° = °° . /л _ \ . log и jy(c проб) проб) ' ^0/ • log (П — 1) ИЛИ (1 _ Д(с проб)) = (1 _ д(без проб)) . (1 _ log(n-l) logn Это и есть формула, связывающая значения избыточности языка, полученные при пренебрежении пробелами и при учете пробелов. Х) Последним рияультпт можно |Н'< 1.МП lipin III Дико Ill'll. 11 HIS ссылаясь па постоянство «полной информации». В самом деле, пусть aN — омыт, состоящий и отгадыпапин N и «букпы» текст с пробелами между словами по N — 1 предшествующим буквам. Выяснение исхода aN мы будем производить в два этапа: прежде всего проверим, не является ли TV-й «буквой» пробел (опыт Р); если же это не так, то мы дополнительно выясним, какая именно эта буква (опыт aN). Если р0 — вероятность пробела, то второй опыт aN нам, очевидно, придется производить лишь в (1 — р0)-й части всех случаев. Отсюда вытекает, что II (aN) = II (3) + (1 - Ро) II (a'w), где II{nN), H(aN), И (Р) — средние условные энтропии со- ответствующих опытов при условии, что нам известны N — 1 предшествующих букв (ср. с § 4 гл. II). А так как при большом Л' можно считать, что Н (Р) = 0 (пробел восстанавливается по пред- шествующим N — 1 буквам однозначно) и Н (а^т) = пРо6)^ ^(“N) = ^e3nP06), то мы получаем проб) = (1 — /?о) Н@ез ПР°6).
S 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 263 Сходные соображения могут быть использованы и для определения среднего количества информации Я^лова), содержащейся в одном слове текста. Энтропию нулевого порядка одного слова /7<слова) — ]Og можно оценить, подсчитав число К слов в каком-либо достаточно полном словаре данного языка; энтропию //<слова) = —]Og рг— — Р2 log р2 — ... — Рк log Рк можпо подсчитать с по- мощью «частотного словаря», указывающего частоты (ве- роятности) рг, р2, . . ., рк отдельных слов *). Однако не- посредственное вычисление «условной энтропии первого порядка» #<слова) требует уже знания частот всевозмож- ных сочетаний из двух слов, определить которые практи- чески невозможно, так как общее число таких сочетаний громадно. Еще менее перспективна задача вычисления по- следующих «условных энтропий» /7зСлова), /у(слова) и Т- д. При этом надо иметь в виду, что статистические связи между отдельными словами зачастую являются заметно бо- лее жесткими, чем связи между буквами (появление в тек- сте слова «дифференциальный» сильнее ограничивает веро- ятности следующих за ним слов, чем, скажем, появление буквы «г» — вероятности последующих букв) и что связи эти заметно более «дальнодействующие» (появление в на- чале сколь угодно толстой книги слова «лемма» резко уменьшает вероятность встретить слово «любовь» в ее конце). Все зто делает вопрос об определении «предельной энтропии» («удельной информации») 77^лова) как будто бы чрезвычайно трудным. Сопоставим теперь друг другу два текста — паписап- ный обычным образом с помощью букв и «иероглифиче- ский», в котором за единую «букву» принимается целое слово (иероглифическая письменность как раз и характе- ризуется тем, что в ней отдельные знаки обозначают целые слова). При этом каждый из двух текстов, разумеется, однозначно, восстанавливается по другому — зная все буквы какого-либо текста, мы знаем тем самым и все входя- щие в него слова, а знание всех слов равносильно знанию буквенной записи. Поэтому и здесь «полная информация», а) Вроде известного словаря Торндайка, о котором мы гово- рили на стр. 87 (см. также [92] и другие статьи на тему о частот- ных словарях, напечатанные в том же сборнике).
264 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV содержащаяся в двух текстах, будет одна и та же, т. е. у^(слова).числ0 слов текста = Я^уьвы) • число букв текста. А так как отношение числа букв к числу слов равно сред- ней длине слова, то, следовательно, Я(елова) = Я(без проб) . g или я(слова) = д(с проб) . + где s — средняя длина слова (и, значит, s + 1 — среднее число приходящихся на одно слово «букв», к числу кото- рых причисляется также и пробел между словами). Из последней формулы вытекает соотношение ц (слова) ОО ««(слона) О ^(буивы) ОО >, (буквы) . log К log" или (1 - 7?<слова>) = (1 _ ^(бупвы)) . (S + t где, как и выше, s — средняя длина слона, А оГншч число слов, встречающихся п рассматриваемы* т«ч<« tax, п — число «букв» алфавит, к к>>гирым ирн'ив ни к и и пробел между слонами; под м /^пук><ы> , в,,|(лк и почти всюду выше, попимаен'я il“ и /А1 В частности, дли русского языка мы имеем п 32 и 1 1 s + 1 = — = л 5,7; положив К = 50 000 (га- р0 0,175 ково примерное число слов в довольно полных слова- рях) ’), мы получим Ц ___ я<слова)} _ ц ____ я(буквы)) _ g у log 32 log 50 000 ж 1,85 (1 — л<п?к"ы>). Таким образом, мы видим, что избыточность для слон заметно меньше избыточности для букв, т. е. что «исро глифическая» письменность в известном смысле является *) Так как число слов К входит в предыдущую формулу под знаком логарифма, то неточность определения этого числа лишь незначительно отражается на результате (если положить К 100 000, то множитель 1,85 в нижеследующей формуле за- менится па 1,74).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 265 более «выгодной», чем буквенная. Это обстоятельство тес- но связано с выгодой кодирования сразу длинных блоков из большого числа «букв», о которой много говорится в этой главе; слова как раз и являются подобными «бло- ками» (причем «блоками», вероятности появления которых сравнительно высоки). Ясно, что сходные соображения позволяют также связать отнесенные к одной букве текста значения эн- тропии (информации) Н = и избыточности R с теми же величинами, определенными для какой-либо другой лингвистической единицы (слога, фразы, морфемы и т. д.; ср. со сказанным на стр. 280 относительно фонем). Это обстоятельство поясняет причины, в силу которых подав- ляющее большинство теоретико-информационных иссле- дований языка исходит из буквенного его алфа- вита: связь отнесенных к одной букве, слогу, слову и т. д. значений энтропии позволяет ограничиться рассмо- трением какой-либо одной из этих величин; с другой стороны, буквенный алфавит обладает преимуществами привычности, однозначной определенности (ибо для боль- шинства других лингвистических единиц вроде слога, морфемы или даже слова не существует точных определе- ний, не допускающих разных толкований самого опреде- ляемого понятия) и ограниченности (поскольку «алфавит» слов или, тем более, фраз языка является практически необъятным). Укажем еще, что связь между значениями //(буквы) и //(слова) может быть использована двояким образом! она позволяет свести определение величины //(слова) к (предполагаемой известной) величине //(буквы). с дру- гой стороны, эти же соображения позволяют оцепить эн- тропию //(буквы), опираясь на полученные тем или иным способом приближенные значения //(слова) . Приближенное значение //(слова) (точнее говоря, значение энтропии первого порядка /Дслова)) можно вычислить, например, воспользовавшись так называемым законом Цип- ф а, утверждающим, что при упорядочивании слое языка, в порядке их частот (т. е. вероятностей) частота п-го по порядку слова для всех не слишком больших значений п оказывается примерно пропорциональной 1/п. Этот закон был сформулирован и проверен на большом лингвистиче- ском материале в книге Дж. Ц и п ф а [93]; в дальнейшем
2G6 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV он многократно обсуждался и уточнялся целым рядом авторов1). Широко обсуждается, в частности, закон Ципфа в гл. 5 и 12 книги [3], в ч. I книги [94] и в статьях [95] — [96], где, в частности, воспроизведены заимствован- ные из книги [93] графики, демонстрирующие приложи- мость закона Ципфа к текстам, написанным на разных язы- ках и имеющих разный характер (скажем — к тексту ро- мана «Улисс» Дж. Джойса и к «среднестатистическому» американскому газетному тексту). Первые применения закона Ципфа к определению энтропии слова (и оценке, исходя отсюда, также и энтропии одной буквы) указал еще Шеннон [75]; дальнейшие относящиеся сюда данные могут быть найдены в статьях Е. Н ь ю м а н а и Л.Гер- с т м а н а [87], Дж. Миллера [95] и М. Г р иг- нет т и [971. Приближенная оценка энтропии первого порядка Делова) по формуле ^Делова) = _ log pi_p2 ]og pe—... • • • — Рк log рк была получена (в применении к ру- мынскому языку) И. В о и н е с к у, Л. Ф р п д и с о м и Л. Михайлеску (см. третью из рабо1 Ц1Я|). Фактически, однако, эта работа поспящонп ошронин но письменной, а устной речи (частоты plt pt...рк пдксь определялись из анализа магнитофонной паписи отпогоп на длинную серию стандартных вопросов десяти разных испытуемых); поэтому болсо уместно о ной говорить в сле- дующем разделе нашей книги (см. пиже, стр. 279). Заме- тим, кроме того, что основная цель исследования Воипеску и др. заключалась вовсе не в определении величины Делова) дДя обычного румынского языка, а в сравнении значений /Дслова\ отвечающих речи здоровых людей, с соответствующими значениями, отвечающими речи дру- гих десяти испытуемых, больных афазией (т. е. расстрой- ством речи вследствие частичного поражения головного мозга). Поэтому оно примыкает и к исследованиям стати- стических характеристик «специальных языков», к рас- смотрению которых мы теперь и перейдем. *) Так, еще сам Ципф заметил, что в некоторых случаях более точно считать, что частота n-го слова на самом деле пропорциональ- на 1/п“, где пос эянная а близка к единице, но все же нс равна точно единице (см. по этому поводу также работы [94], [96]).
S з] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 267 Данные об энтропии одной буквы текста, о которых речь шла выше, относились, как правило, к «среднему литера- турному языку», поскольку материалом для эксперимен- тов по определению эптропии служили чаще всего л и- т е р а т у р и ы е тексты: так А. Н. Колмогоров и его сотрудники использовали произведения С. Т. Акса- кова и И. А. Гончарова (см. стр. 259—260), а К. Шеннон [75], работавший в сотрудничестве со своей жепой Бетти Шеннон, анализировал отрывки пз книги Дюма Малона «Вирджинец Джефферсон». По на стр. 237—238 уже указы- валось, что частоты появления различных букв могут зави- сеть от характера рассматриваемого текста; точно так же и значения энтропий HN или избыточности В будут различ- ными для текстов, заимствованных из разных источников. При этом любой «специальный язык» (например, научный или технический текст по определенной специальности, деловая переписка, какой-либо жаргон) будет, как прави- ло, иметь избыточность выше средней из-за меньшего ко- личества употребляемых слов и наличия часто повторяю- щихся специальных терминов и оборотов — весьма благо- приятное обстоятельство, очень облегчающее просмотр научной литературы по определенной специальности или чтение такой литературы на недостаточно знакомом языке. Исключение в этом отношении могут представлять жар- гоны, специально преследующие своей целью уменьшение избыточности языка, например, воровской жаргон, на котором весьма краткие выражения могут иногда заменять длинные и содержательные фразы, или некоторые научные жаргоны с широко разработанной терминологией, вроде того, который употребляется в математике французской школой Бурбаки х); еще более яркий пример в этом па- правлении доставляет символический язык современной математической логики, характеризующийся исключи- тельной смысловой насыщенностью. Вопрос о влиянии характера текста на значения энтропии и избыточности, приходящиеся на одну букву текста, исследовался ленинградским лингвистом Р. Г. Пиотровским и его] уче- никами, в частности— Н. В. П е т р о в о й, сравнившими теоре- тико-информационные характеристики разных типов русской *) Более общедоступный пример разобран в статье [80],'о ко- торой мы уже говорили выше (стр. 252).
268 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV и французской речи (см. [67], [83], [98]) *). При этом в соответствии со сказанным выше избыточность «деловых» текстов оказалась за- метно больше «средней» избыточности языка и избыточности ли- тературных текстов. В противоположность этому избыточность разговорной речи, найденная в этих работах, оказалась немного ниже средней — видимо, в первую очередь в силу большей «воль- ности» разговорной речи, меньшей стесненности ее правилами сти- листики и даже просто грамматики. Полученные Р. Г. Пиотров- ским и его группой результаты собраны в следующей таблице: (в бит/букву) R * (в процентах) русск. яз. франц, яз. русск. яз. франц, яз. Язык в целом 1,37 1,40 72,6 70,6 Разговорная 1,40 1,50 72,0 68,4 речь Литературные 1,19 1,38 76,2 71 ,0 тексты Деловые тексты 0,83 1,22 83.4 71.1 Более частный характер iixn-ei и<-< к- t<i>iiiuit< пчппп рп щеп О. Л. С м и р н о в а и А. В. Б к и м < и и [‘.Г-Н. кзуииппкх лирик теристнкн случайно пинтой выборки гелегрпфпых нчссюн обьгмом в 15 000 букв; при этом использопплся метод угадывания Шеннона (и идущее от А. II. Колмогорова его уточнение; ср. стр. 256 и след.). Полученный Смирновым и Екимовым результат: ^(телегр. русск. языка) ~ 4. дХлитература, русск. языка) естестве1|1|() связан с намеренным уменьшением избыточности телеграфных тек- стов (например, за счет пропуска союзов). Другой «специальный язык» — язык переговоров по радио между дежурным на аэродроме и пилотами находящихся в воздухо самолетов, был изучен американскими учеными Ф. Фриком и У. С а м б и [100], а также Э. Ф рицем и Дж. Грайером [101]. Естественно, что рассматриваемые в этих работах переговоры очень стандартны по своей формо и ограничиваются несколькими постоянно повторяющимися узкими темами. Неудивительно по- этому, что избыточность соответствующей речи (оцениваемая или с помощью «опытов по отгадыванию», или же с помощью непосредст- венного изучения статистики небольшого числа стандартных обо- J) Р. Г. Пиотровский и Н. В. Петрова использовали метод угадывания Шеннона в уточненном А. Н. Колмогоровым его ва- рианте (ср. стр. 257—259). Указываемые этими авторами значения избыточности J! ниже приведены в соответствие с взятыми из тех же работ значениями Н.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 269 ротов, из которых складываются эти переговоры) оказалась за- метно превышающей избыточность «литературного языка». В част- ности, ограничившись еще более узким классом сообщений, пере- даваемых дежурным пилоту приземляющегося в определенных условиях самолета, Фрик н Самби получили для избыточности значение, близкое к 96% (почти то же значение избыточности, близкое к 93%, можно получить, исходя из результатов Фрица и Грайера). Столь большая избыточность здесь имеет вполне ясные основания — из-за наличия значительных помех (связанных с соз- даваемым самолетами шумом) меньшая избыточность могла бы привести к ошибкам при приеме, могущим и рассматриваемом слу- чае иметь самые тяжелые (даже трагические) последствия. Высокая избыточность, хпршсгерпля для любого «специаль- ного языка», учигынаегся, например, при составлении кодов для деловой переписки больших американских фирм. В настоящее вре- мя такие коды разрабатываются с непременным участием специалис- тов по теории информации, и наличие в ведущихся фирмой пере- говорах частых повторений отдельных слов и целых оборотов поз- воляет весьма значительно повысить экономность кодов. Со сказанным связан также интересный, но пока мало изученный вопрос о различиях в избыточности языка разных литературных текстов. Можно предпола- гать, что разные литературные жанры отличаются разной избыточностью, связанной с присущей именно этому типу произведений манерой изложения; можно думать также, что и внутри одного литературного произведения в разных отрывках (диалог, описание и т. д.) избыточность будет разной. Высокая избыточность может характери- зовать избитый, шаблонный язык литературного произ- ведения, по может также служить лишь свидетельством неторопливой манеры ппторп (так, высокая избыточность была обнаружена в упомянутых па стр. 259—260 экспери- ментах по определению энтропии одной буквы текста в «Литературном вечере» И. А. Гончарова, написанном спо- койным, плавным языком, характеризующимся большим числом достаточно естественных подробностей). Низкая избыточность может служить свидетельством богатства и яркости (неожиданности, нестандартности) литературной речи (возможно, здесь примером может служить язык У. Фолкнера) — однако слишком низкая избыточность языка литературного произведения неизбежно будет вос- приниматься как нарочитая усложненность речи. Еще более низкую избыточность будет иметь «заумь» типа той, которую употреблял русский поэт В. Хлебников (напомним, что нулевая избыточность характеризует
270 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ ГГл. IV приведенную на стр. 237 «фразу», которую вряд ли можно считать отличающейся «хорошей» литературной формой). Примыкает сюда и широко обсуждавшийся в 60-х годах вопрос о сравнении избыточности прозаической и поэти- ческой речи (см. [102] — [104] и ряд статей в сборнике [105]; ср. также включенные в ссылку [84] статьи Л. Д о- лежеля и Е. Николау, К. Сала, А. Роче- р и к). Ясно, что поэтическая форма (ритм, рифма) накла- дывает па язык некоторые дополнительные ограничения, т. е. повышает его избыточность. Можно даже пытаться оценить численно, скажем, влияние ритма стиха, опреде- лив количество словосочетаний, удовлетворяющих задан ной ритмической схеме, и сравнив его со всем богатством словосочетаний; удобно при этом исходить из словаря, определенного по прозаическим произведениям того же автора х). Несколько сложнее учесть влияние рифмы, но и здесь вполне возможны грубые оценки. Ориентир» вочные оценки, проведенные А. Н. Колмогоровым для классического русского четырехстопного ямба (этим стн хом написан, например, «Евгений Онегин» Л. <’. Пушап на * 2)), показали, что выполнение трсбопппий, нп к лид мп по мых поэтической формой, снижает «неонро кипим и.» Н . одной буквы текста па доп»н.п» :iiiii*irrrc;ii.iiyi<> не шикну, порядок которой срапним с полопиной величины II., под- считанной для «сродиелнторатурного» текста. И и самом деле, проведенный А. 11. Колгогоровым опыт но угады ванию последующих букв показал, что для «плохого» стиха, в котором уменьшение содержащейся в одной букве информации не компенсируется свойственными «хорошим» стихам повышенной эмоциональностью, яркостью речи и богатством словаря, «предельная информация» 77тс, при ходящаяся па одну букву текста, существенно (примерно вдвое) меньше величины Нх, определенной для класси х) См., например, работу А. М. Кондратова [103], в которой подсчитывается энтропия невысокого порядка, определяе- мая ритмической схемой русского стихотворного и прозаического (научного, делового, художественного и разговорного) текста (в битах/слог); ср. также статью Г. Л ю д т к е (Н. Liidtke) «Срав- нение метрических схем в отношении их избыточности» в сбор- нике [105]. 2) Четырехстопный ямб характеризуется строфой, теоретиче- ски состоящей из восьми правильно чередующихся ударных и бел ударпых слогов (на практике некоторые ударения иногда выпадают).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 271 ческой русской прозы г). Однако в произведениях больших поэтов уменьшение информационной насыщенности одной буквы текста, связанное с соблюдением известных фор- мальных правил, по-видимому, в очень большой степени компенсируется повышенной яркостью и нестандартностью речи, так что вполне можно ожидать, что здесь избыточ- ность языка имеет тот же порядок, что и избыточность про- заических литературных текстов. Обсуждению влияния различных связанных с литературным стилем факторов на значение энтропии и избыточности речи посвя- щена работа У. Пейсли [106] (в которой, к сожалению, исполь- зовалась не особенно надежи я методика Е. Ньюмапа и Л. Герстмана [87] и Е. Ньюмана и Н. Во [86]). Пейсли проанализировал 39 разных отрывков английского текста и сравнивал между собой энтропии: а) двух стихотворных переводов «Илиады», принадлежащих разным авторам; б) четырех переводов двух различных отрывков из той же «Илиады», а также четырех (современных) переводов двух отрывков из одной главы евангелия от Матвея (в обоих случаях выбирались заметно отличающиеся по содержанию отрывки); в) четырех прозаических и четырех стихо- творных переводов «Илиады», г) девяти разных переводов евангелия от Матвея, относящихся к разным эпохам. В ряде случаев обна- руженная У. Пейсли разница между значениями энтропии, при- ходящейся на одну букву текста, оказалась ощутимой, причем здесь можно было заметить даже некоторые общие закономерности (вроде уменьшения избыточности литературных текстов е приближе- нием времени написания к современному); впрочем, все эти выводы еще нуждаются в дополнительной проверке. Близкий характер имеют упоминавшиеся выше исследования [89], посвященные ряду индийских языков; в этих работах также сопоставляются значения энтропии, вычисленные для текстов раз- ного характера (например, прозаических и поэтических) и разного времени написания. Некоторые из полученных в работах [89] резуль- татов определенным образом перекликаются с полученными У. Пей- сли на материале английского языка; впрочем, сопоставление здесь затрудняется существенно разными алфавитами английской и индийских письменностей (ср. со сказанным на стр. 255—256). Из работ, более непосредственно связанных с сопоставлением прозаической и поэтической речи (вопрос, не обойденный внима- нием также в статьях [106] и [89]), з первую очередь назовем ис- следования Л. Долежеля и Е. Николау, К. Сала, А. Рочерик (см. [84]), подсчитавших энтропии равных поряд- ков для прозаической и поэтической чешской и румынской речи и даже для отдельных прозаиков и поэтов; впрочем, полученные этими авторами предварительные оценки явно еще нуждаются в *) Сопоставлялись «Поединок» А. И. Куприна и напечатан- ное на обороте одного из листков отрывного календаря стихотво- рение весьма скромного литературного достоинства.
2 72 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV уточнении. С. Маркус [104] предпринял рискованную попытку перенести в поэтику связи между понятиями «энтропии» и «опер гии»; на этой базе он рассмотрел некоторые содержащиеся в работ» Е. Николау, К. Сала и А. Рочерик результаты, касающиеся под счета энтропии для произведений Эминеску, относящихся к раз- личным периодам творчества поэта. Более частный характер имеет работа Т. Т а р п о ц и [102], в которой подсчитан ряд теоретико- ипформационных характеристик венгерской прозы и поэзии. Укажем в заключение, что само применение к (уникальным но самому определению!) литературным текстам стандартных тооре тико-информационных представлений, возникших в связи с чисто прикладными задачами техники связи и игнорирующих вопрос о смысловом содержании передаваемого сообщения, а базирующих- ся лишь на чисто статистических понятиях (типа частот букв в «статистическом ансамбле» некоторого «среднего текста»; одпако какое содержание можно вложить в понятие «статистического ан Самбля» стихов А. С. Пушкина?), вызывало и вызывает пзвестпыо сомнения. Для А. И. Колмогорова (см. [15]) оти соображения] по служили поводом для широкой постановки вопроса о возможности разных подходов к самому понятию «количества информации» и для пропаганды «чисто комбинаторного» подхода к этому понятию, в частности, в применении к изучению энтропии языка и, особенно, литературных текстов. Сущность комбинаторного подходи к определению энтропии заключается в следующем. ///гпноплвгяую И приходящуюся на одну букву TOKl'IU, МОЖНО <>пр«'(|1 ЦП). у< loBlleM. что для п-буквепиого алфавит чш hi А бунпсииых пч<< ion ( до N достаточно ИСЛВКо), уД11НЛ1'П1пр>1»1|Ц11Х VI UUIIH-IM 1 IIHIH rll'll'1'КИМ огранпченнвм, равно по nN a1"**'1 N ( 2",N). кик бы ю бы, если бы мы вмели право брать л ю б ы о ниборы ii.i N Носл1’д<п>втель ныхбукв, а всего лишь М = 2пл(ср. стр. 82 —83 и 225). В еооничтт вии с этим, владея понятием «осмысленного» текста, мы можем определить энтропию Н как Нкомб = (тГ10 8 М ’ где М (N) есть число всевозможных осмысленных тексте в длины А'; это последнее определение уже не зависит ни от каких теоретико-вероятностных представлений. Пытаясь численно оценить значение «комбинаторной эит роппи» .Н1(Омб> число М (N) можно оценивать с помощью подсчета числа возможных продолжений текста. А именно, пусть * — «пустое» слово, вовсе не содержащее букв; далее через I (* ajOj . . . а^) (или через I (а^а2 . . . а^), где а±, а2, . . ., —пек<> торые буквы рассматриваемого языка) обозначим число всевоз можных «осмысленных продолжений» последовательности букв . . а%, т. е. число таких букв х, что отрывок а±а2 . . . а^х может быть продолжен до осмысленного текста. В таком случае значение М (n) = I (*)1 (*а±)1 (*а±а2) . . . I , aN_x),
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 273 осредненное ио ряду цепочек букв, можно рассматривать как оценку интересующей нас величины М (JN). Сказанное намечает путь к чисто комбинаторным расчетам энтропии и избыточности «грамматически правильного» текста. Пер- вые попытки такого рода были выполнены А. Н. Колмогоровым и его со грудниками (см. первую из работ [15]); при .этом число возможных продолжений текста здесь определялось по списку слов, включенных в «Словарь русского языка» С. И. Ожегова. Получен- ная при этом оценка Н= (1,9 ± 0,1) бпт/букву, естественно, замет- но превышает указанные на стр. 260 оценки энтропии «литератур- ных текстов» (так как «степень неопределенности» буквы литера- турного текста ограничена отнюдь пе одними лишь требованиями грамматической правильности). К сожалению, более подробное описание этих исследований, а также результатов аналогичных исследований, начатых в Ленинграде Р. А. Зайдмапом, пока не опубликовано. Устная речь Перейдем теперь к затронутому уже на стр. 2G8—2G9 вопросу об энтропии и информации устной речи. Ес- тественно думать, что все статистические характеристики такой речи будут еще более зависеть от выбора разговари- вающих лиц и от характера их разговора, чем это наблю- далось в случае речи письменной — ведь письменная речь, как правило, является более «сглаженной», чем устная. И хотя по данным Р. Г. Пиотровского и его сотрудников «в среднем» энтропия устной речи несколько выше энтро- пии письменных текстов, для некоторых типов устной речи (см., скажем, пример в конце стр. 2(58) эго будет безусловно не так. Пониженное значение энтропии устной речи может быть связано с тем, что в разговоре мы зачастую употреб- ляем больше повторений одних и тех ясе слов (меньше за- ботимся о «красоте стиля») и нередко добавляем довольно много «лишних» (т. е. не несущих содержательной инфор- мации) слов — это делается как для облегчения восприятия речи, так и просто затем, чтобы говорящий имел время обдумать, что он хочет сказать дальше. В частности, очень высока избыточность разговоров при высоком уровне помех (например, в гудящем самолете, вагоне электрички или в метро), а также разговоров пьяниц, упрямо повторяю- щих одни и те же (как правило, далекие от «высокой» ли- тературы) слова и выражения — последнее связано с тем,
274 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл, IV что в этом случае затруднено и само произнесение речи, а не только ее восприятие. Определив среднее число букв, произносимых за еди- ницу времени, можно приближенно оценить количество информации, сообщаемое при разговоре за 1 сек; обычно оно, по-видимому, имеет порядок 5—6 бит (это количество информации,естественно, сильно зависит от «скорости разго- вора», которая может меняться весьма значительно: «очень быстрая» речь почти в 5 раз скорее «очень медленной» ’)). Эти данные согласуются с данными физиологической аку- стики, позволяющими оценить общее число произнесен- ных человеком в единицу времени «различимых звуков» (ср. обзор Дж. Миллера [95]). Однако эта оценка скорости передачи информации при разговоре относится лишь к «смысловой информации», ко- торую можпо извлечь и из записи сказанных слов. Па са- мом деле живая речь всегда содержит, кроме того, еще довольно значительную дополнительную информацию, которую говорящий сообщает нам иногда добровольно, а иногда и прямо против своего желания; эта допоишь i ная информация может и протпнорочш ь «:ы|. . >r a in формации», причем в таких случаях опа, кпк правя ю, заслуживает большего доверия. Гак, па pn.ii«пора ми мо жем судить о настроении гопоряпщго и об ого oriioiiicinni к сказанному; мы можем узнать говорящего, если Д1 л никакие другие источники информации (включая сю pi и «смысловую информацию») не указывают нам его; мы мо жем во многих случаях определить место рождения не- знакомого нам человека по его произношению (последнее обстоятельство играет основную роль в завязке действия пьесы Б. Шоу «Пигмалион»); мы можем оценить громкость устной речи, которая в случае передачи голоса по липни связи (телефон, радио) во многом определяется чисто тех- ническими характеристиками линии передачи, и т. д. Количественная оценка всей этой информации представ- ляет собой очень сложную задачу, требующую значитель- *) Мы не говорим здесь, разумеется, о разговорах с особо вы- сокой избыточностью, типа обсуждавшихся выше: так, в случив переговоров между пилотом и дежурным на аэродроме скорость передачи информации не превосходит 0,2 бит/сек, т. е. пампою меньше, чем для самого медленного разговора на общие темы.
§ 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 275 но больших знаний об языке, чем имеется в настоящее время; в частности, здесь нужны весьма обширные и раз- нообразные статистические данные, пока почти полностью отсутствующие. Исключением в этом отношении является сравнительно узкий вопрос о логических ударениях, подчеркивающих в фразе отдельные слова; эти ударения также несут опре- деленную информационную нагрузку, которую (для част- ного случая разговоров по телефону) можно оценить коли- чественно. Необходимые для этого статистические данные были получены английским связистом Дж. Берри [107], проанализировавшим ряд «типичных английских теле- фонных разговоров»; в частности, согласно данным Берри ударение чаще всего падает на наиболее редко употреб- ляемые слова (что, впрочем, довольно естественно — ясно, что вряд ли кто будет выделять логическим ударением наиболее распространенные слова — например, предлоги или союзы). Если вероятность того, что данное слово WT находится под ударением, мы обозначим через qr, то сред- няя информация, заключающаяся в сведениях о наличии или отсутствии ударения на этом слове, будет равна —9r log qr — (1 — qr) log (1 — qr). Пусть теперь p2, . . рк — вероятности (частоты) всех слов Wlt W2, . . Wk (здесь К — общее число всех упо- требляемых слов; вероятности рг, р2, . . . рк, играющие основную роль во всех статистических теориях языка, приводятся в так называемых «частотных словарях» — ср. выше, стр. 263). В таком случае для средней информа- ции Н, заключенной в логическом ударении, можно написать следующую формулу: Н = рг [—ft log ft — (1 — ft) log (1 — ft)] + + рг [— 9г log 9з — (! — 9г) log (1 — 9з)1 + • • • . • • + Рк i—дк log 9к — (1 — 9к) log (1 — ftr)L Подставив сюда данные Берри, французский ученый Б. Мендельброт Г108] подсчитал, что средняя информация, которую мы получаем, выяснив, на какие слова падает логическое ударение, по порядку величины близка к 0,65 бит/слово. Что же касается всей вообще разнообразной «несмыс- ловой» информации, содержащейся в устной речи, то
276 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV имеющиеся данные позволяют дать лишь весьма грубую и несовершенную оценку ее суммарной величины. Такая оценка была получена немецким связистом Кюпфмюл лером в интересном исследовании [82] об устной и пись менной немецкой речи, о котором мы уже упоминали рапыпе. В своей работе Кюпфмюллер и не пытался учи- тывать сложные статистические закономерности инто- наций, тонов голоса и других особенностей речи; но су- ществу он ограничился лишь «нулевой энтропией» //0, связанной с числом различных возможностей, а затем гр\ бо ориентировочно принял соответствующую избыточное п> равной 50%. Наряду с информацией, содержащейся в ни тонации, Кюпфмюллер отдельно оценил информацию, связанную с индивидуальными особенностями голоса го- ворящего человека, а также информацию, доставляемую громкостью речи; сумма трех полученных при этом вели чин сопоставлялась с содержащейся в той же речи «смы еловой информацией». Для оценки общего числа рас по знаваемых степеней громкости и общего числи «речевых мелодий» (типов интонации, определяемых небольшими изменениями основной частоты io.ii» оных колебн ни *) были привлечены данные <[>ii.iiii>.i<h ической ni(\rnii it *); общее число различаемых человеком пп tittuiв iьных голосов определялось, так сказан., «па глаз». I.rirrx пенно, что найденные па этом пути оценки «общего чш i.i возможных исходов» по могут претендовать на особенно большую точность; однако, так как информация онреде ляется логарифмом этого числа, то далее грубые оценки позволяют подсчитать информацию с весьма приличной точностью (ведь при общем числе возможных исходен порядка 1 000 для того, чтобы преувеличить информацию в два раза, пришлось бы преувеличить это число возмож- ностей в 1000 раз!). Подобные подсчеты привели Кюнф- мюллера к выводу, что дополнительная информация, го держащаяся в интонации, громкости и особенностях и иди видуального голоса при нормальном разговоре но должна *) Может показаться, что громкость и интонация могут менять- ся непрерывным образом, так что здесь должно иметься бесконеч- но много разных возможностей. На самом деле, однако, челово ческое ухо различает лишь конечное число разных степевнй гром- кости и конечное число интонаций; подробнее об этом мы еще бу- дем говорить ниже (см. стр. 290 и след.).
3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 277 превосходить 75% от «смысловой информации»; при очень быстром разговоре она составляет не более 30% от смы- словой информации, а при очень медленном — пе более 150% (существенное различие этих чисел частично может объясняться тем, что при быстром разговоре мы можем распознать заметно меньше разных голосов и меньше раз- личаем интонацию) 1). В работе Кюпфмюллера указаны также «удельная» эн- тропия и информация устной речи, отнесенные к одной произнесенной букве. Фактически, однако, эти цифры имеют лишь условный характер (они нужны только для сравнения устной речи с письменной); в действительности же во время разговора отдельные буквы никогда не про- износятся, а произносятся звуки, существенно отличаю- щиеся от букв. Поэтому основным элементом устной речи (в том же смысле, в каком буква является основным эле- ментом письменной речи) надо считать отдельный звук — фонему. Осмысленная устная речь составляется из фонем точно так же, как осмысленная письменная речь составляется из букв; при передаче устной речи по линии связи мы должны только проследить, чтобы все фонемы передавались правильно — тогда и смысл всей речи будет передан правильно, т. е. никакая часть «смысловой инфор- мации» не будет потеряна. Поэтому во всех случаях, когда нас интересует лишь передача «смысловой информации» устной речи (а таких случаев—большинство), наибольший интерес представляет пе энтропия и информация одной «произнесенной буквы» (являющейся чисто условным по- нятием), а энтропия и информация одной реально произ- несенной фонемы. Список фонем данного языка, разумеется, но совпадает со списком букв алфавита. Общее число фонем заметно превышает число букв, так как одна и та же буква в раз- ных случаях может звучать по-разному (например, про- изношение гласной существенно зависит оттого, находится *) По-видимому, это обстоятельство связано с тем, что веду- щие от органов слуха к головному мозгу нервные каналы могут пропускать за определенное время лишь строго определенное ко- личество информации (см. ниже, стр. 318—320). Поэтому увеличе- ние скорости передачи «смысловой информации» неизбежно влечет за собой уменьшение скорости передачи по тем же каналам инфор- мации другого типа.
278 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ) [1Л IV ли она под ударением или не находится; одна и тп жо согласная может произноситься и твердо и мягко и т. д.). При этом приходится иметь в виду, что если даже в отно- шении числа букв алфавита возможны разные точки зрения (так, например, не совсем ясно, следует ли считать ей# или и и й одной или двумя буквами русского алфавита; далее, в относящихся к телеграфии исследованиях обычно принимают ъ и ъ за одну букву, что, разумеется, вовсе нс всегда можно считать оправданным1)), то в отношении «ал- фавита фонем», по поводу самого определения которых (см., например, В. А. Успенский [109]) лингвисты пока не пришли к согласию, расхождения между отдельными авторами являются неизбежными. В частности, американ- ские ученые Е. К. Ч е р р и, М. X а л л е и Р. Я к о б- с о и [110] (ссылающиеся на ряд авторитетных советских лингвистов) выделили в русском языке 42 различные фо- немы и подсчитали частоты отдельных фонем (а также различных комбинаций двух и трех следующих друг за другом фонем), воспользовавшись, в ос поп ном, доводьио старыми и неполными данными известного русскою i|ni ’io- лога А. М. П е ш к о в с к о г о [ 1111 *). !! »<» mi n I .них данных, они определили виачепил «максимальной шммож пой энтропии» //„ « log 42 одной фонемы, тыроппи первого порядки Jft в —/>, log pt — pt log pt . . . . . — p42 log p12 (где pt, p2, ., p4l —относительные частоты различных фонем) и «условных энтропий» //2 и //(| (определяемых в точности так же, как и для письменной речи). Полученные результаты (в битах) сведены в сле- дующую таблицу: На Hi Hz Нз log 42 « 5,38 4,77 3,62 0,70 *) Это отождествление смазывает существенное различие меж- ду частотой букв ь и ъ (первая из которых встречается в тексте много чаще, чем вторая; напротив, при использовании «старой орфографии», принятой в нашей стране до 1917 г., буква ъ ока- зывается гораздо более частой, чем ь). 2) Гораздо более широкое исследование частот отдельных фо- нем и их парных комбинаций (проведенное на обширном совре- менном материале) было выполнено на кафедре фонетики Ленин- градского государственного университета (см. Л. Р. 3 и и д о р [112]); в этом исследовании общее число фонем было принято рав- ным 48 (в первую очередь за счет более детального разграничения гласных звуков).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 279 Поучительно сравнить эти значения с приведенными на стр. 246 значениями величин Но, Hlt Н2 и Н3 для пись- менной русской речи (ср. также стр. 254 и др.). Сравнение показывает, что если только данные работы [110] являются обоснованными *), то убывание ряда условных энтропий для фонем происходит заметно быстрее, чем в случае букв письменного текста. В отношении английской устной речи некоторые ре- зультаты были получены Дж. Блэком и П.Дье- н е ш е м (см. [113]). Первый из этих авторов подсчитал энтропии Но, Ht и Н2 одной фонемы по статистическим данным, относящимся к совокупности одно- и двусложных английских слов (которая, разумеется, не характеризует еще весь английский язык в целом), причем число фонем он считал равным 41. Второй автор определил относитель- ные частоты фонем и всех их парных сочетаний («ди- грамм» по данным, относящимся к «среднему английскому языку», и приняв число фоном равным 45 (энтропия одной диграммы, следующая из данных Дьеноша, при- ведена в работе [115]). Родственные статистические ре- зультаты о фонемах и парах фонем французской речи опубликованы Ж. Гатоном м М. Ламоттом [114]. Немецкий ученый В. Эндрес [115] попытался оценить суммарную избыточность одной фонемы немецкой и английской речи, воспользовавшись спектрограммами фонем (дающими представление фонемы в виде некоторой фигуры на плоскости) и применив затем методы прибли- женного определения избыточности соответствующих ри- сунков, родственные использованным в заключительной части работы [135] (о которой см. ниже, стр. 303 и след.) для оценки избыточности изображений букв в машинописном тексте; согласно его данным для обоих языков избыточность фонем имеет порядок 80 — 85% (т. е. близка к избыточ- ности букв письменной речи). Изучению энтропий низких порядков в устной румынской речи (и сравнению полу- ченных данных с теми, которые относятся к письменной г) К сожалению, в работе [110] не указан точно объем материа- ла использованного для определения частот различных фонем и их двойных и тройных сочетаний. Поэтому можно опасаться, что значение Н3 оказалось сильно заниженным из-за недоста- точности статистических данных (ср. ниже сноску на стр. 289).
280 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ CB1I.HI ||‘л IV речи) посвящена работа А. Ф р а д и с а, Л. М и х л Л леску и И. Воинеску [116]; относящиеся к тч тарскому языку данные имеются в работе Т. И. И б р и г и м о в а [117]. Отметим, наконец, работы И. Вон и < • с к у, А. Фрадиса и Л. Михайлеску |118|, посвященные сравнению теоретико-информационных ха- рактеристик (энтропий Нг и Н2 одной фонемы, разностей Но — Н1У а также энтропии /^спова); см. выше стр. 263) устной речи здоровых людей и людей больных афазией (т. е. расстройством речи). При этом оказалось, что для речи больных афазией энтропии Н2 и Н1СЛ|О1,Л) цСе принимают заметно меньшие значения, чем для речи здо- ровых людей (т. е. избыточность речи здесь заметно попы шается), а кроме того указанные энтропии еще, как пра- вило, и гораздо сильнее меняются при переходе от одного больного к другому, чем при переходе от одного здорового человека к другому (особенно резкий характер преобре тают указанные явления в применении к величине j/'CJI,,,w\ существенно зависящей от объема словаря гопорящею и от степени равномерности испитьяонаняп им с.юн шло словаря). С помощью соображений, нгпоп.лопанных ними ныше для определения избыточности II....."1>, можно шк к<> ус- тановить связь между избыточное гимн устной и письмен ной речи. Из того, что устная речь может быть записана, а письменная — прочитана, следует, что «полная ннфор мация», содержащаяся в определенном тексте х), не за ви- сит от того, в какой форме — устной или письменной — этот текст представлен, т. е. что ПтеУ1<вы).числ0 букв == 77«°"смм)-число фонем (ср. выше, стр. 264). Отсюда вытекает, что гг(фопемы) _________________ тчТбуквы) *-* оо оо * COj где (о есть среднее число букв, приходящихся па одну фонему («средняя длина фонемы»); эта величина явля- ется важной статистической характеристикой языка, *) Разумеется, в случае устной речи здесь учитывается шик. содержащаяся в ней «смысловая» информация (ср. выше, стр. 274).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 281 связывающей устную и письменную речь. Из последней формулы следует также, что (ср. стр. 262 и 264) Я(фо„емы) „(буквы) . logA „(фонемы) „(буквы) ’ 03 ‘ log и или __ „(фонемы)) __ ц _ „(буквы)) , ю l°g п где к — общее число фонем, л п — число букв; за /?(6у1,вн> здесь естественнее принимать проб) Однако исполь- зование этой формулы затрудняется отсутствием стати- стических данных, позволяющих определить величину со (даже по поводу числа фонем к мы не имеем пока едино- душного мнения филологов) ’). Музыка Исследования того же рода могут быть проведены и в отношении музыкальных сообщений. Естест- венно думать, что связи между последовательными зву- ками некоторой мелодии, выражающимися отдельными нотными знаками, достаточно сильны: так как одни соче- тания звуков будут более благозвучны, чем другие, то первые будут встречаться в музыкальных произве- дениях чаще вторых. Если мы выпишем ряд нот на- удачу, то информация, содержащаяся в каждой ноте этой записи, будет наибольшей; однако с музыкальной точки зрения такая хаотическая последовательность пот пе будет представлять никакой ценности. Для того чтобы получить приятное на слух звучание, необходимо внести в наш ряд определенную избыточность; при этом, однако, можно опасаться, что в случае слишком большой избыточности, при которой последующие ноты уже почти однозначно ’) Сопоставив фонемы английской речи 43-м фонетическим знакам, употребляющимся в англо-русских словарях, мы сможем приближенно определить «среднюю длину фонемы» ю из сравнения длины буквенной записи английских слов и их фонетической тран- скрипции. При этом получается а~1,2, что дает (1 _ л (фонемы)^ _ ц _ „(буквы)) , 1,05 (1 — /?<буквы)).
282 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл IV определяются предшествующими, мы получим лишь крл* не монотонную и малоинтересную музыку. Какова м<и га избыточность, при которой может получиться «хорошая» музыка? Весьма правдоподобно, что избыточность простых мело дий никак пе меньше, чем избыточность осмысленной речи; представляло бы интерес специально изучить вопрос об избыточности различных форм музыкальных произведении или произведений различных композиторов. К сожалению, в настоящее время мы имеем еще мало конкретных дан ных такого рода. Одни из первых результатов в этом на правлении были получены в 1956 г. американским учепым Р. Пинкертоном [119], проанализировавшим с точ ки зрения теории информации популярный в Америке альбом детских песепок. Для простоты в этой работе предполагалось, что все звуки находятся в пределах одной октавы; так как к тому же в рассматриваемых мелодиях не встречались так называемые хроматизмы, то все эти мелодии могли быть приведены к семи основным звукам: до, ре, ми, фа, соль, ля и си (которым на фортепьяно соот ветствуют белые клавиши). Все гнали.шругмыо п< < > пкн записывались как последовательности пк «осноннык элементов», каждый длительностью в одну восьмую; унч звуков, длительностью болен одной во ьмой, осуществлял ся с помощью добавления к семи нотам восьмого «основ пого элемента» О, обозначающего продление нредшестпую щего звука еще на промежуток времени в одну восьмую (или же паузу в одну восьмую). Таким образом, «макси мальная возможная энтропия» Но одной поты здесь равна Но = log 8 = 3 бита. Подсчитав частоты (вероятности) отдельных нот по всех 39 анализируемых песенках, Пинкертон нптпол, что Hi = — р (О) log р (О) — р (до) log р (до) — р (ре) log р (ре) — — р (ми) log р (ми)— р (фа) log р (фа)— р (соль) log р (соль) — —р (ля) log р (ля) — р (си) log р (си) ~ 2,73 бит; здесь, например, р (до) означает вероятность поты до Воспользовавшись найденными Пинкертоном вероятно стями сочетаний из двух нот, можно подсчитать также условную энтропию она оказывается близкой к 2,42 бит (впрочем, в статье Пинкертона указываются лини
S 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 283 определенным образом осредненные вероятности двух- нотных сочетаний, так что полученное значение Н2 яв- ляется завышенным). Разумеется, по одним только зна- чениям Н1 и Н2 еще очень мало что можно сказать о сте- пени избыточности рассматриваемых мелодий (можно лишь сказать, что, по-видимому, она заметно выше, чем 1 — ж 0,2). Некоторые косвенные данные, под- О тверждающие этот вывод, будут приведены ниже. Еще до появления работы Пинкертона на конференции по теории информации в Лондоне (осень 1955 г.) было сооб- щено о работе Ф. и К. А т т и и в, подсчитавших часто- ты отдельных нот и двунотных комбинаций в ряде аме- риканских ковбойских песен. Значительно более деталь- ное исследование такого рода было выполнено в 1957 г. в лаборатории вычислительных машин Гарвардского уни- верситета (см. Ф. Брукс и др. [120]). Здесь были про- анализированы отрывки из 37 гимнов различных компо- зиторов и эпох, имеющих одну и ту же метрическую струк- туру- Применение быстродействующей электронной вы- числительной машины позволило авторам отказаться от упрощения, заключающегося в отнесении всех нот к одной и той же октаве; в качестве различных «основных элемен- тов» здесь рассматривались все ноты четырех октдв хроматической гаммы (включающей также и пять проме- жуточных звуков, соответствующих черным клавишам фортепьяно) — всего 49 различных элементов, пе считая специальных обозначений для звуков, продолжающихся из предыдущего временного интервала. За единицу дли- тельности одного основного элемента была снова выбрана длительность в одну восьмую, так как более короткие по- ты ни в одном из рассматриваемых гимнов не встречались. С помощью современных средств вычислительной тех- ники Брукс и др. подсчитали частоты всех отдельных «основных элементов», всех комбинаций из двух соседних таких элементов, из трех элементов ит. д., вплоть до ком- бинаций из восьми соседних элементов включительно. Полученные результаты в принципе дают возможность написать приближенные выражения для всех условных энтропий от 770, НА, Н2 и до Нв включительно. Правда, при этом надо иметь в виду, что использованный стати- стический материал (состоящий из 37 небольших отрывков
284 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ С1Я1.П1 ll-я IV из различных гимнов) заведомо недостаточен дли нс» «у чения сколько-нибудь надежных оценок верой с нос i » сочетаний из большого числа нот; поэтому найденпып п« этом пути значения энтропий высоких порядков (знгро пий Нв, Н7 и Нв, во всяком случае) были бы очень ми к» обоснованы. Тем не менее уже и значения первых нес коль ких условных энтропий могут иметь определенный ин терес; поэтому можно только пожалеть, что ангоры рабо ты [120] не произвели таких вычислений (и не npim.iii никаких данных, позволяющих как-нибудь оцепить root ветствующие энтропии). Аналогичный анализ мелодий известного амернькн ского сочинителя песен Стефана Фостера (182(5—1К(>4) был выполнен (правда, в более скромных размерах) Г. О л с о н о м и Г. Б е л а р о м [121]. Эти ангоры рассмотрели 11 наиболее популярных песен Фостера и положив в основу музыкальную шкалу из 12 разных ног (охватывающих полторы октавы), подсчитали частоты (т. е. эмпирические значения вероятностей) кпя (он <»т дельной ноты и всевозможных групп из них и трех п>и щ довательных нот. Ясно, что псхо <и и.с ho i i <нны ie»»>*w* можно без труда оцопип. так кг и ус ни ны<< нпронми И Ни Н2 и Ня одной поты и песенках Ф<»< i< рп (xoui »«<• и пе было сделано и статье1 | 1211) (a.ibiieiHiiiir с n« |c<uii)i о исследованиях с гатистических закономерное сен музы кальных произведений могут быть найдены я lUiiitr Р. X. Зарипова [122], содержащей обширную биб л иографию. Примеры непосредственного вычисления теоретике» информационных характеристик различных музыка п.пых произведений имеются в статьях Дж. И) п г б л и д а [123], Дж. К о э и а [124|, !’. С и р о м о и и и К. Р. Рад ж а г о п а л а н а 11251, Л X и л л < р а и Дж. Бише м a [12G], М. Роланд а [1271 и некой» рых других (см. также обзор этого направлении и гл 11 книги [3]). Так, например, в статье [124| (в которой нс пользованы также и результаты Юпгблада и Кроули) значения энтропий Нг и Н2 и соответствующих избыгоч ностей Я, = 1 — - и R-> = 1 — первых tnyx 1 logre z logn 1 порядков, отнесенные к одной ноте, вычислены (и ерапии ваются между собой) на материале музыки отдельных ком
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 285 позиторов-романтиков XIX в. (Шуберта, Мендельсона, Шумана) и всей немецкой романтической музыки XIX в. в целом, а также на материале католических религиозных гимнов и современного американского рок-энд-рола. В статье [127] сравниваются значения избыточности для классической музыки Гайдна и модернистской музыки Шенберга (естественно, что у Шенберга избыточность ока- залась меньшей, чем у Гайдна). В работе [126] приведены некоторые результаты анализа одного из произведений близкого к Шенбергу композитора Веберна, а в [1251 под- считаны значения 11х для ряда произведений южпо индий- ской музыки XVIII—XIX столетий. В статьях [124] и [126] приводятся также и некоторые данные относительно «ритмической избыточности» различных музыкальных про- изведений (аналогичной избыточности «стихотворных рит- мов» в поэзии). Однако до сих пор все полученные оценки информационных характеристик музыкальных произве- дений все же должны рассматриваться как предваритель- ные и методы их вычисления требуют еще дальнейшего обсуждения (об этом говорится, в частности, в заклю- чительной части статьи [124]). Заметим также, что основная цель статистических под- счетов различных вероятностей, описывающих музыкаль- ную структуру, во многих случаях состояла вовсе не в оп- ределении энтропии и избыточности. Дело в том, что вы- сокая степень избыточности хорошей музыки позволяет дать совсем другое, довольно неожиданное, применение статистическим таблицам, задающим вероятности и ус- ловные вероятности различных пот. Для того чтобы по- дойти к этому применению, вспомним приведенные па стр. 237,240, 242, 243и244 «моделирусских фраз» — после- довательности букв русского алфавита, в которых в боль- шей или меньшей степени учитывались имеющиеся в рус- ском языке внутренние связи между соседними буквами. Мы видели, что чем дальше простирались те зависимости, которые учитывались при составлении наших фраз, тем «более русскими» становились эти фразы, т. е. тем более приближались они по звучанию к обычной русской речи. Ясно, однако, что вряд ли молено надеяться получить па этом пути полностью осмысленные выражения — всегда в наших фразах будет иметься некоторый элемент случай- ности, путающий их смысл. Попробуем теперь применить
286 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гя IV эти же методы к музыке. При этом мы будем получать «музыкальные* фразы» — последовательности пот, а<е более и более близкие по своей статистической структур» к тем источникам, которые использовались для вычисли ния частот различных нот и их комбинаций. Как и в слу чае «моделей русских фраз», эти новые «музыкальные фразы» не будут точно повторять ни одну из последопа тельностей, положенных в основу при вычислении частот; однако в то время как в случае языка это обстоятольстпп делает наши «фразы» бессмысленными, в случае музыка именно оно делает их заслуживающими внимания — водь они будут представлять собой новые, оригинальные му зыкальные произведения! Разумеется, трудно сказать заранее, насколько инти ресными могут быть такие «моделимузыкальных мелодий»; неясно также, сколь глубокие связи должны быть учтены для получения сочетаний, близких «по духу» к исходному материалу (т. е., например, имитирующих произведении определенного жанра или определенного автора). Суще ственно заметить, однако, что в силу зппчптелыюЛ и»'>ы точности музыки мы уже па одном из ранних кннои они санного на стр. 237 и след, нроцоссл мошим при A i и к ,<> статочно гармоничным иаучаиинм. <>к> было убедиюльно показано еще в первых чисто любительских «кспсрнмсп тах, произведенных II и н к с р т о н о м 11191. В .них экспериментах учитывались только вероятности отдельных нот и двухнотных комбинаций, которые к тому же очень сильно округлялись; для нахождения последовательных нот «искусственных музыкальных фраз» использовалось последовательное извлечение бумажек с записанными на них двумя нотами из нескольких «урн» (точнее говори, просто кучек), каждая из которых содержала всего 12 бу- мажек, или даже еще более простая и грубая процедура. Накладывая, кроме того, дополнительные связи, обссно чивающие сохранение определенного ритма «музыкаль ных фраз», Пинкертон смог получить несколько новых мелодий, которые, по утверждению автора, иногда по уступали мелодиям исходных детских песенок из исполь зованного им альбома. Запись одной из таких «случайно получившихся» мелодий приведена ниже»
6 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 287 Избыточность этой мелодии может быть сравнительно просто подсчитана, исходя из статистических закономер- ностей, положенных в основу при ее получении; опа ока- залась превышающей 63%. По словам Пинкертона, «эта мелодия довольно монотонна, но все же менее монотонна, чем некоторые из настоящих детских мелодий»; отсюда можно заключить, что и в «настоящих» детских песенках избыточность, вероятно, имеет тот же порядок. Аналогичные попытки получения новых мелодий с по- мощью опытов типа извлечения билетиков из урны про- изводились Ф. и К. Аттиив в применении к ковбойским песням. При этом также учитывались лишь вероятности отдельных нот и двухнотных комбинаций (т. е. строились «фразы» типа приведенной на стр. 242) и также дополни- тельно требовалось, чтобы сохранялся определенный ритм. Единственным отличием от работы Пинкертона было то, что ковбойские мелодии оказалось удобнее составлять «с конца», используя подсчитанные условные вероятности того, что заданной ноте будет предшествовать та или иная нота. Как было указано па Лондонской кон- ференции по теории информации, среди нескольких де- сятков «случайных музыкальных фраз», составленных Аттнив, две оказались удачными — похожими на настоя- щие ковбойские мелодии. Сравнительно малый процент удач естественно объясняется тем, что во внимание при- нимались лишь самые простые статистические закономер- ности рассматриваемых песен. Той же самой была и основная цель работы [1201 Брукса и др.— составление новых мелодий с помощью «случайных экспериментов». В данном случае только «из- влечение билетика из урны» автоматически осуществлялось электронной машиной; операции такого типа оказываются весьма полезными при многих вычислениях на таких машинах (так называемые «методы Монте-Карло»)— и в на- стоящее время существуют хорошо разработанные методы их автоматического выполнения. Громадные возможности современной быстродействующей вычислительной техники были продемонстрированы, в частности, тем, что Брукс и др. сумели составить всевозможные «модели музыкальных фраз» — от «фраз первого порядка», в которых учитыва- лись лишь относительные частоты появления отдельных нот (типа «русской фразы», приведенной на стр. 240), и
288 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV вплоть до «фраз восьмого порядка» включительно, в кото- рых принимались во внимание частоты всевозможных по- следовательностей из восьми нот. При составлении «фразы n-го порядка» (где п в разных опытах принимало значе- ния 1, 2, 3, 4, 5, 6, 7 или 8) каждый раз заранее задава- лась определенная «ритмическая схема» (касающаяся рас- пределения длительностей нот и пауз), а затем все ноты последовательно выбирались «наудачу», но в соответствии с подсчитанными частотами различных сочетаний из п нот. Если при таком выборе заданная «ритмическая схема» оказывалась не удовлетворенной, то соответствующая нота браковалась и машина автоматически повторяла процедуру «случайного выбора»; если 15 последовательных попыток приводили к «бракованным потам», то машина останавливалась и составление всего ряда нот начиналось
S 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 289 с самого начала. Всего таким образом было составлено около 600 «новых гимнов» (при общем числе попыток порядка 6000); большой процент неудач объясняется тем, что при некоторых значениях п (в частности, при п = 5 и п — 7) оказалось очень трудно удовлетворить ритмиче- ской схеме. На стр. 288 приведены примеры построенных мелодий с п = 1,2, 4, 6 и8. При п = 1 и и = 2 построенные «мелодии» содержат много странных сочетаний нот и не- естественных интервалов; несмотря на наличие жесткой ритмической схемы, эти «мелодии» нелегко пропеть. При п — 4 и п = 6 они заметно более приближаются к обычным гимнам. В случае же п — 8 «творчество» элек- тронной машины свелось к малооригипалыгым компиля- циям: целые куски полученных «мелодий» полностью совпадают с отрывками из одного из гимнов и лишь иногда (в местах, где два или более из рассмотренных 37 гимнов имеют одинаковые группы из 7 нот) происходит переход от одного гимна к другому (в частности, записанный выше отрывок составлен из частей трех разных гимнов; места перехода обозначены фигурной скобкой снизу). Это об- стоятельство связано с малым объемом материала, исполь- зованного при составлении таблиц частот, что, естественно, приводило к чрезвычайно высокой избыточности *). Дело в том, что многие комбинации из 8 нот встречались в про- анализированных отрывках гимнов лишь по одному разу; поэтому при п = 8 много нот подряд оказывались выбранными из одного гимна. Родственные попытки были описаны и в статье Ол- сона и Бела р а [1211, также использовавших анализ частот отдельных нот, их пар и троек в песнях С. Фостера для создания специальной «машины композитора», сочи- няющей (а затем даже и проигрывающей) простенькие музыкальные композиции, аналогичные (с точки зрения своей статистической структуры) мелодиям Фостера. В по- следующие годы опыты по сочинению искусственных г) Заметим, что в любом отрывке, в котором никакие Л' сосед- них нот (или букв, или фонем) но повторяются, энтропия HN будет равна нулю, т. е. подсчитанная по HN избыточность будет равна единице. Поэтому надежное определение условной энтропии HN при большом N требует использования громадного статистическо- го материала. 10 А. М. Яглом, И. М. Яглом
290 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV музыкальных композиций с помощью вычислительных машин, использующие данные статистического анализа различных музыкальных произведений, получили бол! шое развитие в ряде стран; при этом, например, в США мелодии, «сочиненные машиной», многократно передава- лись по радио и были записаны на пластинки, поступив- шие в продажу. Мы здесь, однако, не будем задерживаться па обсуждении указанных опытов, лишь косвенно связан- ных с непосредственным изучением теоретико-ипформа ционных характеристик музыкальных текстов, а отошлем интересующихся читателей к книге Р. X. 3 а р и п о в а [ 122 J, в которой все эти опыты рассмотрены весьма подробно. Передача непрерывно изменяющихся сообщений. Телевизионные изображения Прежде чем идти дальше, подчеркнем одно обстоятель- ство, имеющее очень большое значение и для теории и для практики передачи информации по линиям связи. Ясно, что устная речь или музыка прнпциниа ii.iio «>т пг«пип<• и от письменной речи и том отношении «ио ж ь «iioimo ><* ными сообщениями» ян ппоггн уже но нос in loiiine и пост символов («букв»), могущих принимать к о п о ч и о о число значений, а совокупности звуковых колебаний, могущич меняться непрерывным образом. Поэтому, строго говоря, следовало бы считать, что каждый звук может иметь бесконечно много «значений»; однако в таком случае все формулы нашей книги становятся неприменимыми. Выше мы вышли из этого затруднения, воспользовавшись разбиением всех звуков русского языка на конечное число фонем, а всех музыкальных звуков — па конечное число нот. Но законно ли это? Для ответа па этот вопрос надо будет разобраться в истинном смысле использованного разбиения. Дело заключается в том, что если нас интересует лишь «смысло- вая информация», содержащаяся в устной речи, то можно не обращать внимания на любые изменения звуков речи, не препятствующие пониманию сказанного и не меняющие его смысла. Поэтому мы вполне можем объединить боль- шое число схожих между собой звуков, если только за- мена одного из них другим не изменяет смысла сказанного .
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИ 291 Но фонема фактически и представляет собой как раз такую совокупность близких между собой звуков, имею- щих одно и то же смысловое значение (наоборот, замена одной фонемы в устной речи другой может изменить смысл слова; это свойство часто кладется в основу при опреде- лении фонемы). Отсюда ясно, что при рассмотрении во- проса о содержащейся в устной речи смысловой информа- ции мы должны считать «основными элементами» речи не все вообще различные между собой звуки (число которых, разумеется, бесконечно), а лишь всевозможные «осмыс- ленные звуки», имеющие различный смысл — фонемы. Точно так же в случае музыки, если интересоваться лишь информацией, содержащейся в самом исполняемом про- изведении, а не в трактовке его данным исполнителем, то следует отождествить все звуки, выражаемые одной и той же последовательностью нотных знаков, т. е. рассма- тривать лишь конечное число различных «основных зву- ков», соответствующих конечному числу имеющихся нот. По ведь можно поставить вопрос и шире: в случае речи помимо «смысловой информации» можно рассматри- вать также и информацию, содержащуюся в интонации и в тоне голоса, а в случае музыки можно специально ин- тересоваться особенностями данного индивидуального ис- полнения (передача эт*их особенностей является весьма важной задачей техники связи). Надо ли в этом случае считать, что каждый звук может принимать бесконечное множество значений и поэтому имеет бесконечную энтро- пию? На этот вопрос мы фактически уже один раз ответили отрицательно — на стр. 276—277, где были указаны кон- кретные оценки энтропии устной речи с учетом различных форм «несмысловой» информации. Сейчас мы несколько подробнее остановимся на разъяснении этого обстоя- тельства. Верно, конечно, что громкость звука или высота тона могут меняться непрерывным образом, т. е. могут при- нимать бесконечное число различных значений; к тому же в принципе эти значения могут сколь угодно быстро сме- нять одно другое. Однако наше ухо может различать только не слишком быстро следующие друг за другом звуки; поэтому можно считать, что все звуки, которые мы слышим, имеют определенную минимальную длитель- ность. Кроме того, мы можем различить лишь звуки, ю*
292 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл. IV отличающиеся по громкости и по высоте не меньше чем на некоторое определенное конечное значение, и не воспри- нимаем ни слишком высокие, ни слишком низкие, ни слиш- ком тихие, ни слишком громкие звуки (громкие звуки нас оглушают). Отсюда вытекает, что на самом деле различимо лишь конечное число градаций громкости и высоты тона. Отолсдествив на этом основании все звуки, громкость и вы- сота тона которых находятся в пределах одной градации, мы снова придем к привычному для нас случаю последова- тельностей сигналов, могущих принимать лишь коноч- ное число разных значений. Рассмотренная здесь весьма общая ситуация очень близка к той, с которой мы столкнулись при решении за- дачи 22 из § 3 гл. II (стр. 112). Там нам также встретился случай опыта 0, имеющего бесконечное число возможных исходов; однако оказалось, что при решении задачи опыт 0 вполне молено заменить новым опытом 0Е, полу- чающимся из 0 при помощи отождествления всех его ис- ходов, отличающихся друг от друга меньше чем па неко- торое малое число е. Энтропию IIЕ этого нового опыта 0, (в отличие от энтропии самого опыта 0 являющуюся уже конечной величиной) мы назвали е-э н т |> о н н е н опы- та 0. Во всех вопросах, касающихся нсредачп сообще- ний, представляемых йен рерывно меняющимися величина- ми, е-эптропия играет весьма важную роль. При передаче таких сообщений совокупность всевозмолспых значений передаваемого сигнала всегда разбивается на конечное число градаций («ячеек» в пространстве значений) и все значения в пределах одной градации отождествляются между собой (например, считаются совпадающими с «цен- тром» соответствующей ячейки). Эта операция замены непрерывного сообщения новым сообщением, принимаю- щим лишь конечное число возможных значений, называ- ется в технике связи квантованием сообщения. Квантованное сообщение всегда имеет конечную энтропию (представляющую собой один из вариантов е-энтропии исходного непрерывного сообщения), зависящую от вы- бора применяемого метода квантования, но характери- зующую также и степень неопределенности исходного непрерывного сообщения; это последнее обстоятельство как раз и определяет возможность использования соот- ветствующей величины в технике связи.
§ з] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 293 Важным классом таких непрерывно меняющихся сооб- щений являются изображения, передаваемые по телевизионным или фототелеграфным линиям связи. Легко понять, что принципиально здесь мы имеем то же положе- ние, что и в случае передачи звука — наш глаз способен различить лишь конечное число степеней яркости изо- бражения и лишь не слишком близкие его участки; по- этому любое изображение можно передавать «по точкам», каждая из которых является сигналом, принимающим лишь конечное число значений. В случае фототелеграфа во многих случаях можно считать, что каждый «элемен- тарный сигнал» (т. е. мельчайший элемент изображения — «точка») принимает лишь одно из двух значений — явля- ется либо «белым», либо «черным»; в телевидении же не- обходимо учитывать значительное число (несколько десят- ков) градаций степени почернения («яркости») каждого элемента. Кроме того, фототелеграфные изображения являются неподвижными, а па телеэкране ежесекундпо сменяется 25 кадров, создавая впечатление «движения». В обоих случаях, однако, по линии связи фактически пере- дается не исход опыта а0, состоящего в определении зна- чения непрерывно меняющейся от точки к точке (а в слу- чае телевидения — и во времени) окраски или яркости изображения, а исход совсем другого «квантованного» опыта аг, состоящего в определении цвета (белого или черного) или градаций яркости в конечном числе «точек». Этот новый опыт aL может иметь уже лишь конечное число исходов, и мы можем изморить его энтропию II (являю- щуюся, по существу, одним из вариантов е-энтропии исходного опыта а()). Общее число элементов («точек»), па которые следует разлагать изображение, определяется в первую очередь так называемой «разрешающей способностью» глаза, т. е. его способностью различать близкие участки изображения. В современном телевидении это число обычно имеет поря- док нескольких сотен тысяч (в советских телепередачах изображение разлагается на 400 000—500 000 элементов, в американских — примерно па 200 000—300 000, в пере- дачах некоторых французских и бельгийских телецен- тров — почти на 1 000 000). Нетрудно попять, что по этой причине энтропия телевизионного изображения имеет огромную величину. Так, если даже считать, что
294 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV человеческий глаз различает лишь 16 разных градаций яркости (значение явно заниженное) и что изображение раз- лагается всего на 200000 элементов, то мы найдем, что «эн- тропия нулевого порядка» здесь равна Но — log 16200000 = = 800 000 бит. Значение истинной энтропии Н, разумеется, будет меньше, так как телевизионное изображение имеет значительную избыточность R = 1 —~ . Действительно, ведь при вычислении величины Но мы предполагали, что значения яркости в любых двух «точках» изображения являются независимыми между собой, в то время как на самом деле яркость обычно очень мало меняется при пере- ходе к соседним элементам того же (или даже другого, но близкого по времени) изображения. Наглядный смысл этой избыточности R заключается в том, что среди наших 16200 000 возможных комбинаций значений яркости во всех точках экрана осмысленные комбинации, которые можно назвать «изображениями», будут составлять лишь ничтожно малую часть. Подавляющее же большинство этих комбина- ций будет представлять собой совершенно беспорядочную совокупность точек разной яркости, весьма далекую от какого бы то ни было «сюжета». Между том реальная си пень неопределенности» Л lejicjiH.iiioiinoio ii.n>fipioKi*>iii>i, разумеется, должна учитывать лишь и комбинации апл чепий яркости, которые имеют хоть какие го шансы быть переданными, а нс все вообще комбинации значений яр- кости х). х) Не следует только думать, что из крайней редкости «ос- мысленных изображений» автоматически вытекает, что избыточ- ность R обязательно очень велика. В самом деле, предположив, например, что человеческий глаз различает всего 10 различных градаций яркости (так что общее число возможных комбинаций яркости равно 10200 °00) и что «осмысленные изображения» (кото- рые для простоты мы будем считать все равновероятными) состав- ляют всего 0,00...01% (где вслед за запятой стоит 1997 нулей!) от всех возможных комбинаций яркости, мы легко найдем, что „ _ 200 000—2000 избыточность И близка к 1 — 200000 = 1%, т- е- весьма мала (если бы мы увеличили число различаемых градаций яркости, то она бы стала еще меньше). Этот как будто бы неожи- данный результат объясняется крайней медленностью изменения функции log п при больших значениях п, о которой мы уже упо- минали на стр. 264 (в связи с оценкой избыточности «иероглифи- ческой» письменности) и на стр. 276 (в связи с оценкой «несмысло- вой» информации устной речи).
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 295 Для определения точного значения энтропии Н (или избыточности R) телевизионного изображения нужно детально изучить статистические зависимости между яр- костями различных точек экрана. Эта задача весьма труд- на, и в настоящее время мы имеем лишь несколько отно- сящихся сюда частных результатов. Так, американский инженер У. Ф. Шрейбер [129] нашел значения энтропий Но, Нг, II2 и П3 для двух конкретных телеви- зионных изображений, первое из которых (изображение А — парк с деревьями и строениями) было более сложным, а второе (изображение 1> — довольно темная галерея с прохожими) было более однотонным по цвету и содержа- ло меньше деталей. Шрейбер различал при этом 64 разных градаций яркости элемента телевизионного изображения; поэтому энтропия Но (отнесенная к одному элементу, а не ко всему изображению в целом) здесь оказалась рав- ной Но = log 64 = 6 бит. Далее с помощью специального радиотехнического устройства оп подсчитал для обоих рассматриваемых изображений относительные частоты (вероятности) рг, р2, , Pet всех различимых градаций яркости и определил «энтропию первого порядка» = II (аД = — Pi log pr — р2 log р2 — . . . — p64logp64 (заметим, что непосредственный подсчет частот р15 р21 . . . . . ., рв4 без привлечения радиотехники при общем числе элементов экрана порядка 200 000 вряд ли мог бы быть осуществлен). То же самое радиотехническое устройство было применено затем для вычисления относительных частот ptj пар соседних (по горизонтали) элементов, в ко- торых первый элемент имеет i-e значение яркости, а вто- рой /-е, а также относительных частот pljh троек соседних (также лишь по горизонтали) элементов, в которых первый элемент имел i-e значение яркости, второй /-е, а третий к-е (числа i, /, и к пробегали все значения от 1 до 64). Эти частоты позволили определить «энтропии сложных опытов» Н (а1а2) = —PulogPn — p12logj>i2 — ••• — P6t,et log pei,et и H (otjOCgO-a)------Pill log Pill ]••• Рв4)в4»в4 10gPfl4>e4»64t
296 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл IV а затем и «условные энтропии» (ср. выше, стр. 241 243) Н2 = Нал (а2) =Я(а1а2) — Н (аД и Н3[= Haias (а3) = = Н (ар^аз) — Н (архг), последняя из которых, впрочем, была подсчитана лишь для изображения Б. Полученн ле результаты сведены в сле- дующую таблицу: 7/о Hi Hz Нз Изображение А 11 з с Сражение В 6 5,7 3,4 — 6 4,3 1,9 1,5 Из таблицы видно, что энтропия Н} лишь немного отли- чается от максимальной энтропии Яо, причем для изобра- жения А она заметно больше, чем для Б (это, очевидно, связапо с большей однотонностью изображения Б по сравнению с изображением Л). Условная энтропия Н2 (т. е. средняя «степень неопределенности» яркости элемен- та экрана при известной яркости соседнего по горизонтали элемента) уже гораздо больше отличается от 7/0; для изо- бражения Б она также и заметно меньше, чем для 1, что соответствует меньшему обилию деталей n изображении Б. Избыточность Я, оцененная по величине //a(i е разноси, 1----тр-) ДЛЯ изображения 1 равна • •"и, а для п.кх’ра- женил /> — Г>8%; деве I няtcji ьвое значение избыточности может быть только больше этого. Что же касается услов- ной энтропии Н3 при известных яркостях двух предыду- щих элементов той же строки, то она сравнительно мало отличается от Н2 (ей соответствует значение избыточности изображения Б, равное 75%); отсюда можно заключить, что знание яркости самого близкого элемента определяет весьма большую часть общей избыточности. Близкий характер имеют также работы Д. С. Лебе- дева и Е. И. Т[ и й л ь [1301 (см. также книгу 11281) и Дж. О. Лимба [131]. В статье [130] и книге 1128] приведены результаты вычислений (опирающихся на ис- пользование несколько более бедного, чем в работе [129], статистического материала и на разбиение возможных значений яркости элемента телевизионного изображения на 8, а не на 64 градаций) энтропий Но и Н1 и ряда услов- ных энтропий Н2, Н3 и одного элемента изображения для следующих четырех спортивных телевизионных сю-
КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 297 § 31 жетов; А — быстро бегущие баскетболисты, Б — лицо одного зрителя на трибуне стадиона крупным планом, В — панорамирование вида зрителей на трибуне и Г — быстро бегущие футболисты. Будем обозначать циф- рами 1 и 2 соседние с данным по горизонтали и по вер- тикали элементы изображения, цифрой 3 — соседний по диагонали элемент, цифрой 4 — тот же, что и рассматри- ваемый, элемент на предшествующем кадре телевизионной передачи, цифрой 5 — элемент на той же горизонтали, Рис. 16. соседний с элементом 1, и, наконец, цифрой 6 — тот же элемент на кадре, предшествующем тому, который содер- жит элемент 4 (см. рис. 16, а), и будем указывать в обозна- чениях условных энтропий сверху в скобках номера эле- ментов изображения, степень яркости которых считается известной. В таком случае найденные в [130] (см. также [128]) значения энтропии (в битах) могут быть сведены в следующую таблицу; н0 771 7/<1) //^ //«> //<;) А 3 1,96 0,69 0,98 — 1,77 Б 3 1,95 0.36 0 39 — В 3 2,78 1,34 1,95 2 78 .—- Г 3 2,45 — — 2,00 2,08 Н$- S) Н<4- в) 77<ь « 2. з) Д(1. 2, 4) А 0,68 — 0,56 — — Б 0,35 — 0,27 0,26 — В — — 1,22 1,18 1,19 Г — 1,83 — — — (черточки в энтропии не таблице^ означают, были сосчитаны). что соответствующие В работе [131] были
298 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV проанализированы следующие четыре части (содержащие по 5000 отдельных элементов каждая) двух телевизионных изображений: А — покрытая травой и кустами поверх- ность земли средним планом, Б — примыкающая к части А и аналогичная ей часть того же пейзажа, В — часть неба, покрытого сравнительно однородными светлыми об- лаками, и Г — травянистая растительность крупным пла- ном. Изображения были разбиты на 16 градаций яркости; при вычислении условных энтропий элемента изображения с номером 0 использовались данные, относящиеся к эле- ментам 1, 2, 3, 4 и 5 той же и предыдущей строк того же кадра (см. рис. 16, б). Полученные в [131] результаты приведены ниже в виде таблицы: По /А п™ zz<n 1/(1. *) Л(1. 2. 3) //(1. 4.6) А 4 2,85 2,24 2,38 1,82 2,10 1,46 1,47 Б 4 2,51 1 99 1,96 1,66 1,66 1,15 1,28 В 4 1,32 1,04 0,99 0,94 0,97 0,90 0,92 Г 4 3,72 2,70 3 10 2,01 2,23 0,87 0,86 А и Б 4 2 90 2,27 — 2,03 — 1,54 В и Г 4 3 29 — 2,17 — 1,65 0,91 А, Б,ВиГ 4 3,52 — 2,31 — 2,00 — 1,49 Содержащиеся в [128], |130|, [131] дпниые кпчсстпспно близки к результатам работы [12!)| (количественное гран пение здесь затруднено различиями в числе используемых уровней квантования, влияющим на численные значения энтропий), но заметно более полны. В частности, вывод Шрейбера (относящийся к сравнительно однотонному и бедному деталями изображению Б) о том, что при извест- ном одном предшествующем элементе изображения знание еще каких-то других элементов уже мало меняет степень неопределенности (т. е. энтропию) данного элемента теле- визионного изображения, прекрасно согласуется с данны- ми, относящимися к однотонным и бедным деталями изоб- ражениям лица крупным планом (изображение Б работ [130], [128]) и облачного неба (изображение В работы [131]). Заметим, однако, что согласно приведенным в [128] данным указанный вывод неплохо выполняется и для всех других исследованных изображений (включая и наиболее «пестрое» изображение В), в то время как резуль- таты [131], относящиеся к изображениям А, Б и Г, его не подтверждают. Анализ данных Лимба позволяет также
§ S] [КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 299 заключить, что использование вероятностей (т. е. частот), подсчитанных для большого и весьма неоднородного изо- бражения (моделью которого можно считать объединение разнородных частей A, Б, В и Г двух разных кадров), приводит лишь к небольшому увеличению значений ус- ловных энтропий (при известных значениях яркости одного, двух или трех предшествующих элементов) по сравнению со средними значениями условных энтропий, подсчитанных для каждой из частей большого изображе- ния в отдельности. Далее, результаты работ [1301, [128], относящиеся к условным энтропиям при известных зна- чениях яркостей того же элемента изображения на одном или двух предыдущих кадрах, показывают, что для рас- сматривавшихся быстро меняющихся изображений эти условные энтропии оказываются заметно превосходящими условную энтропию при известной яркости предшествую- щего (вдоль строки) элемента того же кадра; поэтому учет связи между значениями яркостей на последователь- ных кадрах телевизионной передачи здесь не может при- вести к значительному возрастанию избыточности, опре- деленной из анализа распределения яркостей на одном кадре. Последний вывод, разумеется, не может быть спра- ведлив для телевизионных сюжетов, при которых изобра- жение мало меняется во времени; однако надежные коли- чественные данные, относящиеся к таким случаям, пока еще отсутствуют (некоторые оценки влияния временных связей, основанные на косвенных соображениях, могут быть найдены в книге [132]). Общая избыточность телеви- зионных изображений но данным работы [131] и в случае богатого деталями изображения («растительность круп- ным планом»), и в случае бедного деталями однотонного изображения («небо») оказывается не меньшей, чем 80% (но для «средних» изображений А и Б она почему-то ока- зывается не столь высокой, хотя все же не меньшей, чем 65%). В то же время результаты [130], [128] приводят к выводу, что для бедного деталями изображения («лицо») избыточность не меньше, чем 90%, а для изображения, богатого деталями («зрители»), она не меньше, чем 60%. Заметим, что большие, чем найденные Шрейбером [129], значения избыточности в работах [128], [130], [131] могут естественно объясняться более грубым делением на градации яркости; что же касается расхождения в выводах
300 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗ It [Гл. IV Лебедева и Лимба о различиях избыточности «однотон- ных» и «пестрых» изображений, то они отражают ужо отмеченное выше расхождение в выводах этих авторов о характере убывания ряда энтропий Но, Hi, Н2, Hs, для всех не слишком бедных деталями изображений (при- чины этого расхождения пока неясны, но в целом резуль- таты работ [128], (1301 кажутся все же более правдопо- добными, чем результаты статьи [1311). Ясно, что подсчеты того типа, который описан в рабо- тах [128] — [131], не могут быть использованы для опре- деления влияния на избыточность изображения связей между большим числом его элементов: уже в случае энтро- пии число различных комбинаций значений яркости в четырех точках оказывается огромным (папомним, что в работах [128], [1301, [131] применялось сравнительно грубое деление па градации яркости), а при дальнейшем возрастании порядка условной энтропии это число стре- мительно возрастает и трудности вычислений становятся непреодолимыми. Поэтому заслуживает внимания попыт- ка американского ученого Н. Ц а и и е с и и его сотруд- ников [133] применить для оценки условной ни ронин изображения с учетом также и далеких спи. < и м« кц • н> ментами «метод угадывания», предложенный 1П< пионом [75] для оценки эн тропий ni.icoi.oi о порядка нп< i.Meinioii речи и описанный выше па стр. 249 п след. В опытах Цаннеса в качество исходного материала были выбраны 20 фотографий частей лунной поверхности, каждая из которых была представлена в виде совокупности 50 X 50 = 2500 отдельных элементов, принимающих одно из восьми возможных значений в зависимости от своей «яркости» (т. е. степени почернения). Далее эти фотогра- фии были разбиты на 4 группы родственных по своему характеру фотографий. Одна из фотографий (вместо с со числовой формой, представляющей собой квадратную таблицу из 2500 чисел от 0 до 7) давалась отгадывающему лицу (студенту старшего курса университета), которому предлагалось внимательно ее изучить (достигаемое таким путем «ознакомление с изображением», разумеется, мало сравнимо с присущим каждому грамотному человеку знанием структуры родного языка, использовавшемуся в опытах по отгадыванию письменных текстов, но здесь уж ничего поделать нельзя), после чего тот же человек
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 301 начинал последовательно отгадывать элементы другой фотографии из той же группы. При отгадывании разре- шалось после каждого уже отгаданного элемента двигать- ся в любом направлении; на каждую догадку давался от- вет «да» или «нет», который считался содержащим один бит информации (на самом деле он часто содержал замет- но меньшую информацию, так как оба возможных ответа вовсе не были равновероятны). Таким образом, среднее число вопросов, приходящихся на один элемент изобра- жения, доставляло довольно грубую оценку сверху (т. е. сильно завышенную) средней энтропии одного элемента изображения. В описанных в 1133] двух опытах по отга- дыванию эта средняя оценка оказалась примерно равной 1,8 бит в одном случае и 1,3 бит во втором; авторы отме- чают, что специалист в области изучения фотографий лунной поверхности, предварительно потренировавшись, мог бы, вероятно, получить заметно лучшие результаты (т. е. мепыпую оценку энтропии). Во всяком случае и так обе полученные оценки оказались заметно меньшими, чем значение //0 = 3 бита; истинная энтропия 11, но-внднмому# еще значительно меньше, чем эти оценки. Если, следуя предложению Шеннона, приведенному в сноске па стр. 250, использовать только результат более удачливого из двух отгадывающих лиц, то соответствующая оценка снизу избыточности изображения лунной поверхности будет близка к 60%. В последнее время в связи с появлением цветного теле- видения возникла также потребность в оцепко ипформа-' ции, содержащейся в окраске изображения. Первые грубо' ориентировочные расчеты такого рода показали, что для цветных телевизионных изображений, приближающихся по качеству к хорошим цветным иллюстрациям в журна- лах, информация по порядку величины сравнима с удвоен- ( ной информацией, содержащейся в соответствующем черно- белом изображении (ср. 1132]). t Фототелеграммы ; Перейдем теперь к данным, касающимся ф о т о т е - ! л е г р а ф а. Общий принцип передачи изображений здесь ; близок к принципу телепередач: изображение разлагается , на мельчайшие квадратики («растровые элементы»)#.
302 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV после чего по линии передается информация о цвете каж- дого такого элемента (черный он или белый). Таким об- разом, по сравнению с черно-белыми телевизионными изо- бражениями рассматриваемые сейчас изображения более просты: для них не существует градаций яркости (т. е. степени почернения), а цвет может принимать лишь два значения. Естественно, что максимальная информация (т. е. энтропия Но), содержащаяся в сведении о цвете одно- го элемента, равна Но — log 2 = 1 бит; эта информация достигается, когда черные и белые элементы встречаются одинаково часто и цвет каждого элемента независим от цвета всех остальных. На самом деле два цвета обычно встречаются с разной частотой (число белых элементов, как правило, значительно превосходит число черных) и между цветами отдельных элементов существует заметная зависимость; поэтому истинное значение энтропии одного элемента фототелеграммы заметно меньше, чем 1 бит. Чему же оно равно? Можно подсчитать, что при передаче по фототелеграфу обычного книжного или журнального печатного текста относительная частота р0 белых элементов близки к 0,8, а частота pt черных элементов — к 0,2. Оггюди с ищущ, что энтропия Н, здесь равна II t = — 0,2- log 0,2-0,« log 0,8 « 0,7.3 биг, О 73 что соответствует избыточности R = 1------= 0,27 = = 27%. Однако это значение избыточности сильно зани- жено, так как оно не учитывает зависимости между цве- тами соседних элементов. К сожалению, точный количе- ственный учет этой зависимости (простирающейся на боль- шое число соседних элементов) весьма сложен; поэтому представляют интерес и приближенные методы оценки энтропии II х и избыточности R. Одна из первых, весьма мало совершенных попыток оценить энтропию Нх = Н фототелеграфных сообщений описана в работе американского связиста С. Дейча 1134]. В этой работе анализировался небольшой отрывок английского текста (порядка нескольких строк), напеча- танного сравнительно крупными буквами. Так как запи- санный па бумаге текст совсем не просто непосредственно
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 303 разбить на мельчайшие «растровые элементы», исполь- зуемые в фототелеграфии, и при таком разбиении анализи- руемый отрывок оказывается состоящим из громадного числа элементов, что необычайно усложняет арифметиче- ский подсчет частот различных комбинаций, то Дейч использовал разложение анализируемого текста на срав- нительно большие квадратики, состоящие из многих раст- ровых элементов каждый. Такой квадратик он считал белым или черным в зависимости от того, какой цвет имеет большая часть квадратика (т. е. если более 50% площади квадратика оказывалась белой, то весь квадратик считал- ся белым; в противном случае он считался черным). Есте- ственно, что в таком случае для «квадратика», как п для растрового элемента, Но = log 2 = 1 бит. Далее Дейч подсчитал условные энтропии Hlt Н2 и Н3 для вертикаль- ных «блоков», состоящих из нескольких соседних квадра- тиков (для горизонтальных «блоков» была подсчитана лишь величина Н2, которая оказалась немного большей соответствующей величины для вертикальных «блоков»). Энтропия Hi оказалась равной 0,67 бит, что соответствует избыточности R, равной 33%; энтропия Нв имела уже значение 0,57 бит, т. е. отвечала избыточности R = 43% *). При помощи некоторых косвенных соображений в рабо- те 1134] было также показано, что энтропия одного «квад- ратика» на самом деле должна быть заметно меньше, чем 0,5 бит, так что избыточность R здесь должна значительно превышать 50%. Заметим, впрочем, что все эти цифры не заслуживают особенно большого доверия, так как ис- пользованное в работе [134] разбиение текста па сравни- тельно большие квадраты заметно искажает его стати- стическую структуру. Значительно более детальное исследование того же рода выполнил немецкий ученый Г. Кайзер [135]. Он уже *) Для вертикальных блоков была подсчитана еще энтропия блоков из N соседних элементов для N = 1,2, 3 и 7. Любо- пытно, что отношение —при N = 7 оказалось равным всего 0,58 бит, т. е. даже несколько большим, чем На. Этот факт нагляд- но показывает, насколько медленнее приближается к величине последовательность величин hN — ———, N = 1, 2, 3, чем последовательность HN (ср. сноску на стр, 244).
304 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV разбивал напечатанные на пишущей машинке тексты на гораздо более мелкие квадратики со стороной 0,2 мм (один печатная страница при этом оказывалась разбитой при- мерно на миллион отдельных элементов). Для того чтобы сделать возможными расчеты со столь большими статисти ческими совокупностями, Кайзер сконструировал специ- альную измерительную аппа- ратуру, автоматически выде- ляющую последовательные «блоки» из небольшого числа N соседних элементов и ре гистрирующую на счетчиках число блоков различного со- става. Эта аппаратура была затем применена к блокам различного направления (го- ризонтальным, вертикальным и расположенным под углом к печатному тексту), причем оказалось, что нее резуль- таты подсчетов мало мепикн- си при изменении itniipnii и* ння. 11с.\оди отсюда, h nt.iep, и основном, oi раничи.к и ана- лизом данных дли горизон- тальных блоков, в примене- нии к которым он изучил зависимость удельных энтро- н пий hN = —где N — 1, 2, 3, 4, 5 и 6, от следующих факторов: а) степени «жирности» (т. е. толщины букв) текста, б) расстояния между строками и в) размера маши- нописи (т. е. степени увеличения машинописной конин). Полученные им результаты, относящиеся к нормальному по «жирности» и размеру тексту и пяти разным расстоя ниям между строками (от наиболее густой машинописи «через один интервал» и до наиболее редкой — «через три интервала»), показаны на рис. 17. Из него видно, что избыточность наиболее «густого» (но нормального во всех других отношениях) машинописного текста наверное пре- восходит 50%, в то время как для наиболее «редкой» машинописи она уже не меньше, чем 80% (причем, но-
i :il КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 305 видимому, цифры эти сильно занижены, так как й6 явля- ется весьма грубой оценкой величины Нх). В случае топко напечатанного текста все энтропии, естественно, оказываются меньшими, а избыточности — большими, причем особенно заметно уменьшается значение ht = IIi, с ростом же N значения для тонкого шрифта постепенно приближаются к значениям для обычного шрифта. Для тек- ста, напечатанного очень «жирно», наоборот, все энтропии оказываются большими, чем для нормального текста, причем самая большая разница снова наблюдается при N = 1, а самая маленькая — при N = (5. При подобном увеличении машинописной копии значения /ц = /Д, ра- зумеется, не меняются (так как пе меняется доля белых и черных элементов), но статистические связи между соседними элементами при этом возрастают, и потому все энтропии Ajv с JV > 1 здесь уменьшаются, а избыточности возрастают. В отношении значений hN с TV 6 в работе 1135] приведены лишь некоторые довольно грубые оценки, согласно которым, например, для напечатанного через один интервал нормального машинописного текста htl sss 0,40 — 0,45 бит. Ясно, что величины hN при небольших TV никак но ха- рактеризуют полной избыточности машинописного текста, обусловленной всеми существующими в таком тексте ста- тистическими зависимостями. Это видно, в частности, из того, что, применив совсем другой метод, Кайзер сразу же получил результаты, сильно отличающиеся от описанных выше. Дело в том, что сконструированная им измеритель- ная аппаратура, конечно, по могла как следует учесть то, что все черные элементы в ее поле зрения на самом деле представляли собой части 26 немецких букв вполне опре- деленной формы. Поэтому Кайзер попытался дополни- тельно выяснить, какова наименьшая доля квадрата, плотно охватывающего одну букву, по виду которой гра- мотный человек может уже догадаться, какая же это бук- ва. Поставленные с этой целью опыты показали, что если для каждой буквы выбирать наиболее характерную ее часть, то достаточно показать лишь около 15% площади квадрата. Отсюда можно заключить, что избыточность двумерного рисунка отдельных букв (а значит, и очень тесно напечатанного буквенного текста) в среднем близка к 85% (белые же промежутки между буквами, словами и
306 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV строками в напечатанном тексте вообще можно счпгпть целиком избыточными). Кроме того, надо учесть, что пи назывались лишь части одной изолированной буквы; но ведь если заранее знать весь предшествующий этой букве текст, то очень часто букву можно будет угадать, даже но видя никакой ее части. Поэтому ясно, что доля одной буквы текста, нужная для ее угадывания, в среднем дол- жна быть заметно меньшей, чем 15%. Исходя из данных работы [82], о которой говорилось на стр. 253, Кайзер за- ключил, что знание предшествующих букв немецкого машинописного текста должно еще примерно втрое умень- шить предельную степень неопределенности Н№; поэтому он пришел к выводу, что истинная избыточность тесного машинописного текста, по-видимому, близка к 95%. Эта оценка избыточности уже учитывает очень сложные и охватывающие одновременно много «растровых элемен- тов» статистические связи, порожденные и правилами на- писания букв, и грамматикой, и структурой языка; ис- пользование всех их в технике фототелеграфии пока еще остается делом далекого будущего. В дальнейшем мы больше пе будем учтмиать < мысли- вую и грамматическую избыточность фонт* нч рш|п hi текстов, а будем рассматривать лини, стик пческпс за- кономерности простого чередовании черных и белых рас- тровых элементов. В таком случае сравнительно непло- хую оценку энтропии II одного растрового элемента можно получить с помощью представления каждой строки фото- телеграммы в виде последовательности чередующихся белых и черных участков различной длины. Подсчитав относительные частоты появления всех таких участков, можно определить соответствующую «энтропию первого у част) порядка» _Н}участ); при этом отношение —, где ил- среднее число элементов в одном участке, будет, пвверное, больше, чем истинное значение энтропии И одного эле- мента (ср. сноску1)] на стр. 248). С помощью этого метода У. М а й ч е л 1136] показал, что при передаче текста, густо напечатанного («через один интервал») на пишущей машинке с крупным шрифтом, энтропия Н будет меньше, чем 0,3 бит, т. е. избыточность R будет превышать 70%; близкий вывод получен с помощью того же метода и в ра- боте 1135]. Более детальное исследование такого рода было
§ 3] КОНК РЕТНЫЕ ТИПЫ СООБЩЕНИЙ 307 выполнено на очень большом статистическом материале для русского печатного (книжного или журнального) текста В. А. Гармашем и Н. Е. Кирилло- вы м [137]. Эти авторы подсчитали не только частоты одноцветных участков различной длины, но и частоты всевозможных пар подобных участков и определили по этим данным для участков энтропию первого порядка ^(участ) и эытр0ПИ|0 второго Порядка 77^участ). Под- купает) считав отношение —------, они выяснили, что при пере- даче печатного текста /7^0,33 бита, т. о. П > С>7% ; ^(участ) неравенство II — позволило еще уточнить эту оценку и показать, что II 0,28 бита и, соответствен- но, 7?> 1-0,28 = 72%. Иной метод оценки энтропии Н и избыточности R для фототелеграмм был использован Р. Р. Васильевым [138] и В. Г. Фр о лушкипым [139]. Ясно, что точ- ный подсчет энтропии /1<7V) опыта, состоящего в опреде- лении цвета N последовательных растровых элементов, при большом N будет очень сложен из-за того, что общее число 2Л' исходов этого опыта крайне велико. Разобьем поэтому соответствующие 2N исходов на какие-то п групп, содержащих соответственно Mt, М2, . . ., Мп исходов (где М± + М2 + . . . + Мп = 2N) и будем опре- делять лишь вероятности git q2, . . ., qn того, что после- довательные А элементов принадлежат 1-й, 2 и, . . ., п-а группе. Предположим теперь, что внутри каждой из групп все исходы являются равновероятными (невыполнение этого предположения может только уменьшит ь эн- тропию jf(7V>!), и при этом предположении определим значение Н<№. В таком случае исходам, принадлежащим г-й группе (где i может быть равно 1, 2, . . ., п) в выраже- нии для НМ будут отвечать Mt одинаковых членов 1оё пГ’ откуда следует, что Ju 2 JU i H<v)< - qx log-^ - q2 log-^ — ... — ?„log-^- (*) (знак связан с тем, что наш подсчет даст, вообще гово- ря, завышенное значение Подобным же образом
308 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СИЯЛИ Вл. IV предположив, что один из исходов г-й группы имеет иероиг пость 1, а все остальные имеют вероятность 0, т. е. neno.i- можны (невыполнение этого предположения может лишь увеличить энтропию 7JW!), мы получим Я(^> > — log <7i — ?2 log & — . . . — qn. log qn. (**) Р. Р. Васильев [138] исходил из того, что при передаче печатного текста весьма значительная часть из- быточности связана с большой частотой сравнительно длинных участков из N белых элементов (возникающих из-за наличия междустрочных пространств и нолей). Соответственно этому у него 1-я группа исходов состоит из единственного исхода — того, при котором все N эле- ментов являются белыми; остальные же 2Л' — 1 исходов составляют 2-ю группу. При этом формулы (*) и (**) дают — q log q — (1 — q) log g) > > A — 1 > — q log q — (1 — q) log (1 <?), где q — вероятность «белого» блоки на .V рас i репы х не ментов. Учитывая еще, что при больным Л выражение 2Л'— 1 почти по отличатся or 2N, тик что log(2v—1) можно заменить па log2v = 2V, найдем, что + (1 _ 0 > hn > — д log д — (1 — д) log (1 — д) ' N ’ где ~ ----приолиженное значение «удельной энтро- пии» одного растрового элемента. Чтобы получить удовле- творительные оценки для Н =11^ = Um hN здесь надо брать N—*oo N порядка одного или нескольких десятков; при этом q для газетного текста оказывается близким к 0,5 (или даже большим), а для машинописного текста, отпечатанного обычным образом («через два интервала») — близким к 0,7 (или большим). Отсюда ясно, что при передаче га- зетного текста Н + 0,5 = 0,6 и 7? > 1—0,6 = '<()%;
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 309 при передаче обычного машинописного текста Н < — 0.3 log 0,3 —0,7 log 0,7 + 0,3 _ 0.33 и п 1_0>33 = = 67%. Достоинством такой сравнительно грубой оценки энтропии Н является то, что здесь легко указать конкретный метод кодирования, позволяющий вести передачу со скоростью _ С _________________________NC________________ V ~ Н ~ — q log q — (1 — q) log (1 — g) + TV (1 — q) (в растр, элем./ед. времени), где С — пропускная способ- ность используемой линии связи (см. [138]). В работе [139] всевозможные блоки из N растровых элементов разбивались на большое число групп, характе- ризуемых определенными значениями «насыщенности» и «детальности». Под «насыщенностью» здесь понимается просто общее число входящих в состав блока черных элементен (так что дли блоков п.з N элементов «насыщен- ность» может принимать N + L значений: 0, 1, 2, . . ., N), а под «детальностью» — число одноцветных участков, па которые разбивается данный блок («детальность» блока из N элементов может равняться 1, 2, 3, . . ., или N, т. е. может иметь N различных значений). Подсчет зна- чений «насыщенности» и «детальности» отдельных блоков производился автоматически, с помощью сконструирован- ной Фролушкиным очень удобной специальной аппара- туры. Значение N в работе [139] принималось равным 100, т. е. оценивалась величина и энтропия // одного //(W0) элемента приравнивалась к hi00 = . В связи с таким выбором числа N измерительная схема была снабжена устройством, автоматически включающим ее на промежу- ток времени, соответствующий передаче по линии 100 растровых элементов фототелеграммы; вслед за тем схема выключалась, значения «детальности» и «насыщен- ности» записывались и лишь после этого на схему снова подавался другой отрывок фототелеграммы. Исследованию подвергались отдельно фототелеграммы с рукописным, машинописным и печатным (газетным) текстом, причем во всех случаях бланк фототелеграммы заполнялся текстом максимально плотно — так, как он
310 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (1*«. IV обычно заполняется при реальных передачах. Каждый щ трех типов текста был представлен 10 образцами, и из каждого образца выбиралось 400 различных блоком ип 100 элементов. По полученным данным определял не 1» частоты (приближенные значения вероятностей) различных значений «насыщенности» и «детальности», а также ча- стоты различных комбинаций значения «насыщенности» и значения «детальности». Подсчитав далее число Л/п'пс) блоков, имеющих заданную «насыщенность» п, число Мтет) блоков, имеющих заданную «детальность» tn и, наконец, число Мп,т блоков, имеющих одновременно «насыщенность» п и «детальность» т (определение всех этих чисел может быть осуществлено с помощью неслож- ных комбинаторных рассужденийх)) и, воспользовав- шись формулой (*) (стр. 307), мы получим три различные оценки энтропии Н (а следовательно, и избыточности R = 1 —^). Ясно, что все эти оценки будут давать не- сколько завышенное значение Н (и заниженное значе- ние Я), причем третья из них (отвечающая делению пп наи- большее число групп), в принципе должна быть точной, чем первые две. В результате проведенного исследовмиим <>ы hi полу- чены следующие оценки ниачеиий // и Н для трех типов текста (см. таблицу па следующей странице). Мы видим, что оценка II по данным о «насыщенности» оказывается заметно более грубой, чем оценка по данным о «детальности». Отсюда можно заключить, что предпо- ложение о равновероятности всех блоков с одинаковым значением «детальности» лучше соответствует действитель- ности, чем предположение о равновероятности блоков одинаковой «насыщенности» — блоки с одинаковой «де- 4) Легко понять, что в общем случае блоков из N элементов /VI дл(нас) _ (т------------------1------ д./(дет) _ ог™-1 2(7V —1)1 (т —1)1 (N — m)lj (последняя формула следует из того, что в этом случае т — 1 «границ» между различными одноцветными участками можно выб- рать разными способами, а после этого можно еще по произ- волу выбрать первый одноцви ныи участок либо белым, либо чер- ным). Что же касается числа Mn,m, то оно задается более сложной формулой, которую мы здесь не приводим.
§ з] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ ЗН Оценка по данным о «насыщенности» Оценка по данным о «детальности» Н (в битах) R Н (в битах) R Рукописный текст Машинописный текст Газетный текст . . . 0,37 0,53 0,43 63% 47% 57% 0,22 0,30 0,34 78% 70о/0 66% Среднее . . . 0,44 56% 0,29 71% тальпостыо» образуют более однородные группы, чем блоки с одинаковой «насыщенностью». Оценка энтропии Н по данным о вероятностях все- возможных комбинаций «насыщенности» и «детальности», требует значительного увеличения объема использованного материала. В самом деле, нетрудно подсчитать, что для блоков из 100 элементов всего можно составить около 5000 (точнее говоря, 5001) различных таких комбинаций. Следовательно, все множество различных блоков (содер- жащее 2100 1030 элементов, т. е. число элементов, вы- ражающееся 31-значным числом!) здесь разбивается па 5001 отдельную группу. Ясно, что вероятности всех этих групп никак нельзя оценить по данным о частотах, полу- ченным при исследовании 400 X 10 = 4000 различных блоков. Поэтому третья оценка энтропии в работе Ц391 дается только для «среднего русского текста» (па основа- нии данных о частотах отдельных групп во всей совокуп- ности исследованных блоков без отношения к тому, из текста какого типа они извлекаются). Эта оценка, получен- ная с помощью формул (*) и (**), имеет вид 0,23 > Я > 0,06, т. е. 77% < R < 94%. Истинные значения энтропии Н и избыточности R по-ви- димому должны заключаться где-то между указанными здесь пределами. До сих пор, говоря о фототелеграммах, мы рассматри- вали только случаи передачи по фототелеграфу текстового материала (рукописного, машинописного или печатно- го). Однако фототелеграф может использоваться и для
312 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл IV передачи ряда других типов черно-белых сообщений и дли многих из них значения средней энтропии (на одни рш-| ровый элемент) и избыточности могут оказаться совсем другими, чем для буквенного текста. Так, например, яс но, что в случае чертежей следует ожидать заметно боль- шей избыточности, чем в случае текста (в первую очередь из-за того, что на чертежах «черное» занимает гораздо меньше места, чем на листе с буквенным текстом). Этот вывод подтверждается уже первыми (весьма грубыми, а именно — заметно завышенными) оценками энтропии Н для чертежей, полученными (на основе данных о /распре- делении длин одноцветных участков) в уже цитировавшей- ся выше работе М а й ч е л а [136]. Согласно оценкам Май- чела в случае сложных радиосхем с рядом надписей с уве- ренностью можпо утверждать, что 77 0,12 бит, т. е. R >88%, в то время как для простых чертежей энтропия Н вполне может оказаться еще более чем вдвое меньшей (т. е. избыточность будет превосходить 95%). Более акку- ратный (но и заметно более сложный) метод приближенной оценки энтропии и избыточности простых чергекеп (гос тоящих из ряда непрерывных липни) предложил У >1' о Л [140]. В случае разобранного п работе 11 И>| одною чш' пого модельного примера учет лишь or iiriini oriioi irre.ii. пой частоты р, черных элементов or f/2 приводи.i к оцен кам 77^0,08 биг, Н > 92% (лначенпо рх здесь было близко к 0,01), в го время как использование предложен- ного автором более точного метода позволяло получить следующий результат: ^7^0,015 бит, R >98,5%. Что же касается до передаваемых по фототелеграфу рисупкои и фотографий, то эти типы сообщений фактически мало от- личаются от черно-белых телевизионных изображений; поэтому на данных об их энтропии и избыточности мы можем специально не останавливаться, отослав читателя к предыдущему разделу настоящего параграфа. Пропускная способность реальных линий связи В заключение этого параграфа мы остановимся еще на вопросе о практической ценности оценок энтропии и информации реальных сообщений для техники сня.ш. Голь энтропии в теории передачи сообщений определяется
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 313 основной теоремой § 2 (стр. 230—231): максимальная до- стижимая скорость v передачи по линии связи опре- деляется формулой С v — -fj элементов/ед. времени, где Н — энтропия одного элемента сообщения (будет ли это буква, фонема, нота, элемент телеизображения или растровый элемент фототелеграммы — безразлично), а С — пропускная способность этой линии связи. Поэтому для того, чтобы найти предельную скорость передачи, надо знать не только энтропию II, определению которой для разных случаев была посвящена предшествующая часть настоящего параграфа, но еще и пропускную спо- собность С. Чем же определяется пропускная способность? В § 2 мы видели, что С = L log т, где через L обозначено число элементарных сигналов, которые можпо передать по линии за единицу времени, а через т — общее число используемых различных сигна- лов. На практике число т часто выбирается из условия, чтобы для соответствующей линии связи можно было соз- дать достаточно простую и дешевую передающую и при- нимающую аппаратуру. Так, например, очень часто при- меняются всего 2 элементарных сигнала (обычно — посыл- ка тока и пауза): дело в том, что задача различения таких двух сигналов на приемном конце является технически наиболее простой и основанные па этом принципе прием- ные аппараты наиболее дешевы и надежны. В тех случаях, однако, когда нам необходимо передать как можпо больше сообщений за единицу времени, естественно пренебречь простотой и дешевизной оборудования линии и стремиться максимально увеличить значения L и т. И здесь на пер- вый взгляд кажется, что возможности совершенно без- граничны: ведь обычно сигналы, передаваемые по линии связи, могут изменяться непрерывно, так что их как будто можно выбирать сколь угодно краткими по длительности и сколь угодно мало отличающимися друг от друга. Но это означает, что числа L и т могут быть сделапы сколь угодно большими и, следовательно, пропускная способность любой линии, передающей непрерывные сигналы, факти-
314 П ЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Im iv чески безгранична. Какую же роль в таком случая играть большее или меньшее значение энтропии h На самом деле, однако, приведенное здесь рассужд п.< неверно: любая линия связи, передающая непрерывны» сигналы, также имеет строго ограниченную пропускную способность. Прежде всего мы никогда не можем мгпопепно изменить значение передаваемого сигнала — на это вс<ч да требуется определенное время. В используемых hi практике линиях связи минимальное время, требующееся для ощутимого изменения сигнала, строго регулируени техническимихарактеристикамисамойлинпп. Этопрнпо jur к тому, что для каждой линии лишь значения сигналя, разделенные определенным минимальным промежутком времени т0, могут выбираться более или менее произвольно' после того как эти значения выбраны, все значения сиг- нала в промежуточные моменты времени будут ужо один i пачно определены. Иначе говоря, максимальное число / 1 = — различных элементарных сигналов, которое можно передать по линии связи за единицу времени, ли теп и некоторой технической характеристикой >11111111 к«п»| •> нельзя изменить, не внося нам о.пи и о&мую iinin обстоятельство, играющее осиоииую роль no nri>* при» нениях теории информации к вопросу о нередачп тир.' рывпых сигналок, впервые было чоки сформулировано еще до возникновения современной теории ипформпцнв (и 4933 г.) В. А. Котельниковым. В работе Котелышкипп число L было выражено также через привычные для тех ников характеристики линии связи (через так иааыпие мую «ширину полосы пропускания»); полученное вы ра 1 •> ние показывает, что, например, в случае радиосвязи по рестройка линии с целью увеличения значения L но мож< • принести выгоды, поскольку опа сделает невозможной работу радиолиний, ведущих передачу на близкой д ши" волны (см , например, [4], [13] или 169J). По, может быть, хотя бы число т можно выбрать ско п. угодно большим — ведь этого уже достаточно для того, чтобы добиться сколь угодно большой пропускной способ ности С? К сожалению, это тоже неверно. Прежде всего мы не можем использовать сигналы сколь угодно большом интенсивности, так как при этом нам придется затригн > ь ни их создание громадную мощность. Существует строго он
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИИ 315 ределенная средняя мощность Р передаваемого сигнала, однозначно определяемая энергетическим питанием нашей линии связи. Кроме того, мы не можем различить и сиг- налы, значения которых слишком близки друг к другу. С этим обстоятельством мы уже встречались на стр. 290— 292, где максимальная степень близости, при которой сиг- налы еще можно различить, определялась чисто физиоло- гическими факторами («разрешающей способностью» гла- за или уха). В случае технических линий связи прием осу- ществляется специальными аппаратами, и ценой услож- нения и удорожания этих аппаратов их разрешающую способность можпо сделать практически сколь угодно высокой, т. е. можно добиться, чтобы наши аппараты различали даже очень близкие между собой сигналы. Но существует еще одна причина, препятствующая разли- чению близких сигналов — помехи. Дело в том, что в любой линии связи существуют помехи, которые никак не могут быть устранены; эти помехи искажают значение передаваемого сигнала. В случае электросвязи, например, эти помехи могут вызываться малыми колебаниями на- грузки в сети, электрическим полем соседней линии, или даже просто тем обстоятельством, что электроны во всех проводниках всегда находятся в случайном «тепловом» движении (зависящем от температуры проводника и вполне аналогичном хаотическому движению молекул газа); в случае радиосвязи они могут создаваться грозо- выми разрядами в атмосфере или электрическими разря- дами, создаваемыми промышленными или транспортными установками (например, искрением дуги проходящего неподалеку трамвая). Если мы обозначим через W среднюю мощность этих помех (т. е. мощность тех искажений, которым подвергаются наши сигналы в процессе передачи), то те сигналы, разность которых имеет много меньшую чем W мощность, на приемном конце нельзя будет раз- личить никакими аппаратами — небольшая разница меж- ду ними будет полностью «смазана» значительно большими «случайными» искажениями. Поэтому различными здесь оказываются лишь сигналы, отличающиеся не меньше, чем на некоторое определенное значение; так как, кроме того, максимальный уровень наших сигналов (определяю- щийся средней мощностью сигнала Р) также не может быть безгранично велик, то может существовать лишь
316 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ II . IV конечное число т различных между собой градации эппчп ния сигнала. Количественный анализ возникающей «ч« • ситуации был произведен Шенноном [1] (см. так « [4] или [13]), показавшим, что, вообще говоря, число т можно определить формулой т = V1 + . Таким об разом, мы приходим к следующему выражению для про пускной способности С произвольной линии, передающей непрерывно изменяющиеся сигналы: C = L1Iog(l+-J-) , М=4- (*) (где £х — некоторая «универсальная» характеристика ли нии связи, не зависящая от передаваемого сообщения) *) Вывод этой замечательной формулы представляет собой один из важнейших вкладов теории информации в общую теорию связи. Приведенная формула позволяет без труда подсчитан, пропускную способность каждой конкретной линии синаи; кроме технических характеристик самой липни, при >тпм /’ надо еще только знать отношение ц, средних нышии ««« сигнала и помех. Оказывав гея, что Д1н и i iputn ищи и ных линий С обычно имеет порядок viiiiuhi мп и i >н бит/сек.; для телефонных, финне.нч рифных и раиинрн) сляционпых линий С измеряется многими тысячами и in ;v- сятками тысяч бит/сек., а для телеграфных линий со i ними или несколькими десятками бит/сек. (см., например, |б'.Ц [132] или [141]). Существенно при этом, что имеющаяся про пускная способность во всех случаях (кроме, быть может, телеграфа) теоретически позволяет передавать пнформа цию с гораздо большей скоростью, чем та, которая до стигается при обычных технических передачах. 'Гак на пример, по телеграфу информация обычно передается со скоростью, не превышающей 75 бит/сек.; во телефону — со скоростью, не превышающей 2500 бит/сек; по гелепи дению— со скоростью, не превышающей 500000 бит/сек. Таким образом, все реально используемые в настоящее *) Мы говорим здесь лишь о пропускной способности линии, передающей непрерывные сигналы, поскольку случай uepi'au'iii дискретных сигналов при наличии помех будет специально ра< сматрпваться в следующем параграфе.
§ 31 КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 317 время способы передачи сообщений, как правило, исполь- зуют лишь небольшую часть пропускной способности су- ществующих линий связи. Более полное использование пропускной способности требует применения значительно более совершенных методов кодирования и декодирования; в этой связи возникает много трудных и научных, и чисто технических проблем, занимающих в настоящее время умы большого числа исследователей во всех странах мира (подробнее об этом будет говориться в заключительном параграфе настоящей главы). Заметим, что достижения последних лет в области теории и практики кодирования и декодирования в принципе позволяют уже сейчас сущест- венно повысить эффективность использования линий свя- зи: так в экспериментальных передачах, специально ор- ганизованных американскими учеными и инженерами, удалось достигнуть скорости передачи информации по телефону порядка 7500—8000бит/сек. (см., например, 113], стр. 415, [142] или же [176], стр. 18), а по телевидению — порядка 20 000 000 бит/сек. (см. [142]). Однако и такие скорости передачи информации кажутся все же недостаточ- ными для нужд будущего — общее количество информа- ции, передаваемое по имеющимся линиям связи, в боль- шинстве стран мира стремительно возрастает с каждым годом, а в дальнейшем можно ожидать широкого развития новых типов передачи информации (например, видеоте- лефона), а также появления двусторонней телевизионной связи между отдельными учреждениями в разных городах и массового использования непосредственной передачи циф- ровых данных в крупные централизованные вычислитель- ные центры, что приведет к значительному убыстрению этого процесса. Поэтому в настоящее время в ряде лаборато- рий мира начата разработка совершенно новых видов линий связи, обладающих заметно большими пропускными спо- собностями — в первую очередь металлических и диэлек- трических волноводных линий х) с пропускными способ- ностями порядка 5-10® — 1-10® бит/сек. и оптических вол- новодов из стекловолокна с пропускной способностью х) Волноводы (радио и оптические) представляют собой фак- тически трубопроводы, но которым распространяются волны. На- личие внешней оболочки позволяет сильно уменьшить уровень помех и вместе с тем использовать очень широкую полосу частот, не создавая препятствий для других линий связи.
318 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ CBH.'lIf Ил IV порядка 108 бит/сек. на одно волокно (о таких проектах го ворилось, в частности, в ряде докладов на международной конференции по технике связи в Монреале в июне 1971 i на международной конференции по теории информации и Цахкадзоре, Арм. ССР, в сентябре 1971 г. и других недав- них научных совещаниях, имеющих отношение к паук» о связи). Разумеется, реальное внедрение таких новых линий связи требует еще преодоления большого числа технических трудностей,— но сам факт появления такого рода исследований уже представляется знаменательным. Интересно отметить, что понятие о пропускной способ- ности, возникшее в технике, вполне может быть применено и к тем «линиям связи», по которым каждый живой орга- низм получает информацию от своих органов чувств. В са- мом деле, мы уже описывали в гл. II специальные пси- хологические эксперименты, показывающие, что время, требуемое для усвоения центральной нервной системой какой-либо информации, прямо пропорционально количе- ству этой информации; таким образом, здесь выполняются те же закономерности, которые имеют место для всех тех- нических линий связи. В последнее время ноянп ihci. также некоторые работы, обоснонып >к>щи<* применимое и> К нервным ЛИНИЯМ СВЯЗИ U ЧОлоПеЧПСКоМ 1>р1 IIIIII.IMK форм) лы (*) Шеннона (стр. 316); этот вопрос, о ишко, и икс гоищое время еще нельзя считать пыж н< иным окончательно. Пропускная способность 6 отдельных органов чувств может быть весьма грубо оценена на основе физиоло! нчо- ских данных об их разрешающей способности (т. е. об об- щем количестве объектов, различимых при помощи того или иного органа чувств) и о среднем времени, нужном дл я восприятия (т. е. о максимальной частоте смены внешних воздействий, при которой эти воздействия все еще могут восприниматься раздельно). Таким образом удается, н частности, показать, что пропускная способность разных органов чувств резко различна: человеческин глаа при благоприятных условиях освещения, по-виднмому, ело собен воспринимать (и передавать центральной нервной системе) информацию со скоростью порядка миллионов (или десятков миллионов) бит/сек., в то время как ухо воспринимает информацию с гораздо меньшей скоростью порядка тысяч или десятков тысяч бит/сек. (см., например, [143] — [146]). Столь различная пропускная способное и.
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 31g отчасти может объясняться резким различием числа нерв- ных волокон, обслуживающих слух и зрение (по современ- ным физиологическим данным число «ушных нервных волокон» имеет порядок 30 000, против примерно 800 000— 900 ООО «глазных нервных волокон»). Осязание же, по- видимому, по своей способности воспринимать и передавать информацию находится где-то в промежутке между зре- нием и слухом. Надо, однако, отметить, что лишь очень небольшая часть передаваемой органами чувств информа- ции может быть сознательно усвоена человеческим моз- гом; это ясно следует, например, из приведенных па стр. 277 данных о скорости восприятия информации при раз- говоре (мы отмечали там, что при быстром разговоре часть «несмысловой» информации пропадает, так как человек не успевает ее воспринять). Тщательный анализ результатов, касающихся максимальной достижимой скорости разгово- ра, чтения, письма (стенографического) и т. д. показывает, что во всех случаях человек способен усвоить поступаю- щую информацию лишь если скорость ее поступления не превосходит примерно 50 бит/сек. (см., например, [147] и [148]) х). Величина того же порядка получается и при определении количества информации, усваиваемой зри- телем при просмотре быстро мелькающих на экране кад- ров [149]. Наконец, специально поставленные опыты по определению минимального времени физиологических ре- акций (ср. стр. 83 и след.), достигаемого при наиболее благоприятных условиях восприятия, также показывают, что пропускная способность центральной нервной систе- мы человека по порядку величины равна 30—40 бит/сек. (см. [148], [150]). Разумеется, в отношении дальнейшего уточнения этих чисел и выяснения их зависимости от ин- дивидуальных особенностей человека и его физического и психического состояния остается сделать еще очень много * 2); однако сам факт плодотворности применения х) Напомним еще, что в соответствии со сказанным па стр. 277 при нормальном разговоре лишь около половины воспринимаемой слушателем информации содержится в записи речи его собеседни- ка; остальная же информация касается голоса говорящего, его эмоций, смысловых ударений и т. д. 2) См., в частности, обзор этого вопроса в книге ]41] и имею- щиеся там ссылки на оригинальную литературу, содержащую мно- жество противоречащих друг другу данных.
320 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЛИ [Гл. IX общих идей теории информации к изучению нервной де- ятельности человека и животных теперь уже не вызыви г сомнений. Общая схема передачи по линии связи Передача генетической информации В заключение настоящего параграфа скажем еще ш сколько дополнительных слов об общей схеме nepi г1 и сообщений по линии связи, с которой мы факгнчк < и начали § 1 этой главы. Процесс передачи сообщен и i' ни произвольной линии связи можно схематически нзобр t зить следующим образом: кодирование в'кп uip<niniu« В случае, например, пор шчп тчсенн 4Х с< i телеграфу сообщения н, и р, ни i <> в ни 11 *i> inn i ваются на определенном (одном и him >1 < *) ii.hjki i по мощью соответствующего буквенною илфапнтп п Moryi отличаться друг от друга лини, и релулынте каких го искажений в процессе передачи, а сигналы а и р на нхо щ и на выходе представляют собой последовательности элек- трических «элементарных сигналов» (обычно — посылок тока и пауз). Таким образом, операции кодирования н де кодирования здесь состоят в преобразовании буквенною сообщения а, в последовательность «элементарных сигна- лов» айв обратном переходе от принятой последогние п. ности Р «элементарных сигналов» к буквенному сообще- нию Рх. В телефонии сообщение а, имеет характер звука, т. е. определенных колебаний давления; кодирование здесь состоит в преобразовании этих колебаний давления в ко- лебания электрического тока, а декодирование — в об ратном преобразовании принятых колебаний тока в звук. В линии связи современной электронной вычислительной машины сигнал ах на входе представляет собой определен- ную последовательность чисел, кодирование состоит в
§ 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 321 его преобразовании в определенную последовательность а электрических сигналов, непосредственно вводимых в машину, а декодирование — в преобразовании поступив- ших в машину сигналов р (представляющих собой сумму «вводимых сигналов» а и «искажений в процессе ввода»), приводящем к совсем новому сообщению рх— ответу за- дачи, решаемой машиной; здесь уже рх принципиально отличается от ах и преобразование ах в рх составляет ос- новную цель нашей линии связи. Точно так же и в слу- чае передачи зрительного «сообщения» но нервным во- локнам и резко отличаются друг от друга — здесь ах состоит из совокупности световых волн разной длины волны (т. е. разного цвета) и разной амплитуды (т. е. интенсивности), а рх представляет собой совокупность возбуждений определенных нервных клеток (нейронов) головного мозга (так называемых «зрительных нейро- нов»), воспринимаемых нами как некоторая зрительная картина. Сигнал а л этом частном случае представляет собой совокупность электрических импульсов, вырабаты- ваемых приемниками света (колбочками и палочками) глаза, а кодирование состоит в преобразовании света в такие импульсы и пока изучено довольно плохо; декоди- рование же здесь состоит в переходе от электрических им- пульсов р, дошедших до мозга по неровным волокнам, к возбуждениям нейронов 0Х, и его детали известны еще значительно хуже, чем детали кодирования. Общие вопросы, касакпциеся описания произвольной линии связи при наличии помех и определения теорети- ческих границ возможностей использования таких линий для передачи информации, будут памп рассмотрены в сле- дующем § 4, а заключительный § 5 будет посвящен вве- дению в обширную теорию оптимального кодирования и декодирования дискретных сообщений, передаваемых по линиям связи с помехами. Сейчас же мы лишь отметим, что во многих случаях даже вопрос об изучении самой «аз- буки», на которой записываются сообщения at и pv и о природе передаваемых «элементарных сигналов» а пред- ставляет очень большой интерес и является совсем пе простым. Наиболее ярким примером здесь является проб- лема передачи генетической информации, успехи в изучении которой относятся к числу крупнейших науч- ных достижений двух последних десятилетий. 11 А. М. Яглом, И. М. Яглом
322 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Ввиду общенаучной важности этой проблемы и ее тесной связи с общей постановкой задачи о передаче информации, быть может уместно остановиться здесь на относящихся сюда результатах немного более подробно. «Линии связи», сопоставляемые явлениям наследственности, играют первостепенную роль в .самом сущест- вовании органической жизни. По этим линиям постоянно с пора- зительной точностью передается огромная и крайне важная инфор- мация. Всего на Земле зарегистрировано около 2 млн. отдельных видов животных и растений — и по рассматриваемым «линиям связи» безошибочно передаются сигналы, указывающие, какой именно вид должен развиться из единственной зародышевой клет- ки. При этом передаваемая информация отнюдь не ограничивается одним лишь указанием вида — она содержит также достаточно исчерпывающие сведения об особенностях строения вида и, кроме того, множество данных, касающихся наследственных особенно- стей индивидуального организма, развившегося из данной клетки. Вся эта информация сохраняется где-то в ничтожном объеме ядра зародышевой клетки и передается какими-то достаточно сложными путями телу («цитоплазме») как исходной клетки, так и всех про- чих клеток, возникающих пз дайной путем деления; она сохраня- ется также и в процессе дальнейшего воспроизведения последую- щих поколений аналогичных особей. Строение соответствующих линий связи и методы передачи информации по ним еще не так давно казались совершенно таин- ственными и быстрое продвижение в этой области, святимое с громадными успехами молекулярной бполопш и период после по- следней мировой войны, мало кто мог предвиден. Осшовную роль здесь сыграло открытие фундпмен1п.|ын>11 роли Колоссальных по- лимерных молекул так называемой локгирибинуклсИновнЛ кислоты (сокращенно ДПК), puciinjini акицихся и хромосомах ядра клетки. Известно, что эти молекулы сосюят из длинной цепи чередующихся углеводных и фосфатных групп одинакового состава, причем к каждой углеводной группе присоединено еще некоторое одно азо- тистое основание из числа четырех возможных оснований такого типа, называемых аденин, гуанин, цитозин и тимин. Все допусти- мые различия в молекулах ДНК ограничиваются различиями в последовательном чередовании соответствующих оснований (кото- рые, для краткости, можно обозначать их первыми буквами А, Г, Ц и Т, а можно и просто занумеровать цифрами 0, 1, 2иЗ). Таким образом, исходное «сообщение» «j здесь хранится в хромосомах ядра клетки и записано па «четырехбуквенном алфавите» молекул ДНК. Одна молекула ДПК в хромосоме может содержать несколь- ко десятков тысяч или даже более углеводных групп (а, следова- тельно, и оснований), а число отдельных хромосом в ядре клетки может равняться нескольким десяткам; таким образом, количество информации, которое может быть запасено в хромосомах, имеет порядок log 41®0 000 = 200 000 бит (или еще больше). Этого количества информации с избытком хва- тает для хранения всех передающихся по наследству данных. На самом деле строение хромосом является еще несколько бо- лее сложным — каждая хромосома представляет собой не одинар-
§ 3J КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 323 путо, а двойную нить ДНК, составленную из двух таких моле- кул, свернутых в форме двух спиралей, навивающихся в противо- положных направлениях на один (реально не существующий) цилиндр. Эти две молекулы ДНК являются не одинаковыми, а «дополнительными» — аденину в одной из них всегда отвечает в другой тимин, а гуанину — цитозин; соответствующие пары ос- нований, расположенные на цилиндре друг против друга, связаны между собой сравнительно слабыми водородными связями. Такое «двойное» строение хромосом пграет основную роль в процессе их воспроизведения при делении клеток («митозе»), когда каждая из двух новых клеток приобретает свой набор хромосом, идентичный набору хромосом исходной клетки; этот процесс, по-видимому, связан с «развертыванием» двух входящих в хромосому нитей ДПК, при котором две длинные молекулы ДПК расходятся между собой и каждая присоединяет затем к себе еще одну «дополнительную» молекулу, образуя самостоятельную двойную спираль. Пропсхо дящая таким путем передача информации от родительских клеток к дочерним играет фундаментальную роль во всех жизненных явле- ниях; здесь роль передаваемого «сообщения» щ играет набор хромо- сом (набор молекул ДНК) исходной клетки, а в качестве «сообщения па выходе» (ц выступают наборы хромосом двух новых клеток. Получение «сообщение на выходе» fi, непосредственно из «сообщения па входе» cq снимает в этом случае вопросы о кодировании и де- кодировании «сообщений». В то же время вопрос о «помехах» в нашей линии связи является необычайно важным, ибо возникаю- щие в результате этих «помех» (роль которых может играть, на- пример, радиоактивное облучение клетки) искажения представляют собой изменения наследственных признаков («мутации»), играю- щие основную роль в процессе эволюции органических видов. Перейдем теперь к передаче информации от хромосом к телу («цитоплазме») клетки, определяющей процесс построения из одной зародышевой клетки целой особи данного конкретного вида. Основ- ную роль во всех жизненных функциях организма играют белковые вещества, в частности фермент и, управляющие всеми происходя- щими в живых организмах биохимическими реакциями. Синтез белка происходит во вкрапленных в цитоплазму клеток так назы- ваемых рибосомах; скорость этого синтеза достигает порядка одной молекулы белка в минуту. При этом строение белковых моле- кул также является довольно простым — все белки построены из примерно 20 различных аминокислот, чередующихся в определен- ном порядке вдоль линейной молекулы белка; эти аминокислоты перечислены в таблице па следующей странице вместе с при- нятыми в биохимии сокращениями их названий. Таким образом, можпо сказать, что приемным концом («выхо- дом») рассматриваемой здесь линии связи служат рибосомы; «со- общение на выходе» представляет собой в этом случае белок и за- писано опо на «двадцатибуквеппом алфавите» аминокислот. Оста- ется еще только установить, как происходит перепое информации от ДНК к белкам, в частности, что надо понимать иод «сигналом на входе» а и «сигналом на выход>» |В. На последний вопрос также можно дать сегодня вполне удовле- творительный ответ. Основную роль в процессе передачи информации 11*
324 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Аминокислота Сокращенное обозначение Аминокислота Сокращенное обозначение Аланин Ала Лейцин Лей Аргинин А рг Лизин Лиз Аспарагин Асн Метионин Мет Аспарагиновая кислота Асп Пролин Про Валин Вал Серин Сер Глутамин Глн Треонин Тре Глутаминовая кислота Глу Триптофан Три Глицин Гли Тирозин Тир Гистидин Гис Фенилалалин Фен И зо лейцин Иле Цистеин Цис от ДНК хромосом к белковым молекулам играет еще одна нуклеи- новая кислота — так называемая рибонуклеиновая кислота (сок- ращенно РНК). Строение РНК весьма близко к строению ДНК — только углеводная группа здесь немного иная и роль тимипн играет иное основание — урацил, немного отличающееся от тимина по химическому составу. Таким образом, молекулу ГНК можно рассматривать как «сигнал», закодированный о помопою четырех «элементарных сигналов» А, Г, Ц и Л (или О, I, 2 и 3'), весьма близких к «буквам» исходного «сшилцеппп* .1 / Ц и Т. На молекулах ДПК хромосом, как на псКоп рои «шпЛюп.», синтезируются определенные линейные молекулы РНК (пт iiii.im- ваемая «информационная* РНК или иРНК), которые н дальнепним выделяются из ядра кленки и проникают в рибосомы; эти молекулы иРНК и играют основную роль в процессе синтеза белка. Таким образом, изображенная на стр. 320 общая схема передачи инфор- мации по линии связи в рассматриваемом случае имеет следующий вид: хромосомы рибосомы Здесь роль «сообщения па входе» си и «сообщения па выходе» Р, играют ДИК и белок, а роль «сигнала на входе» а и «сигнала па выходе» р — молекулы иРТ1К. Согласно приведенной схеме «передаваемое сообщение» aj за- писано на «четырехбуквенном алфавите», а «принимаемое сообщение» Рт — на «двадцатибуквенном алфавите», так что для нашей липни связи число т элементарных сигналов, поступающих на «вход» линии, и число г элементарных сигналов, принимаемых на «вы- ходе», различны (т = 4, а г — 20); «коды» же, с помощью которых записаны «сигналы» а и Р, имеют четыре «элементарных сигнала». Что же касается операций кодирования и декодирования, т. е.
I 3J КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 325 преобразований «сообщения» а, в «сигнал» а и «сигнала» р в «со- общение» Р1Т то они были изучены, в основном, лишь сравнительно недавно. Естественно, что более простой (а потому — и менее ин- тересной) из перечисленных выше двух операций является опера- ция «кодирования», сводящаяся к преобразованию последователь- ности чередующихся четырех «букв» А, Г, Ц и Т в последова- тельность четырех «элементарных сигналов» А, Г, Ц и У. Здесь можно указать много простых и априорно допустимых систем коди- рования: так, например, своеобразная «дополнительность» опреде- ленных пар оснований, проявляющаяся, в частности, в строении «двойпых» молекул ДНК, предсказывает вариант, при котором гуа- нин «порождает» цитозин, цитозин — гуанин, тимин — аденин и аденин — урацил. По-видимому, именно такое кодирование, в основном, и осуществляется в природе, хотя, возможно, оно и по является совершенно универсальным *). Значительно больший интерес представляет в пашем случае «декодирование», состоящее в переходе от «четырехЗуквенного языка» иРНК к «двадцатпбуквенпому языку» белка; именно его поэтому и имеют обычно в виду, когда говорят о «генетическом коде». Ясно, что одно основание иРНК, которое может принимать всего чет ы р е «значения»— А, Г, /( пли У,— никак пе может содер- жать полной информации об одной из двадцати возможных аминокислот. Поэтому пр и ходите л считать, что одну аминокислоту определяет послодоиательиость и i нескольких соседних оснований в молекуле РНК; такую последовательность основании, «кодирую- щую» одну «букву» алфавита аминокислот, принято паизвать кодоном. Так как число различных последовательностей из двух оснований РНК равно 4.4 = 16, что меньше числа разпых аминокислот, то кодон должен содержать не меньше трех оснований; три же основания он содержать вполне может, так как число всевозможных троек оснований равно 4-4-4 = 64, что за- метно больше двадцати. Первая гипотеза о природе генетического кода была предложена в 1954 г. известным американским физиком и астрофизиком Г. Г а- м о в ы м [151]. Гамов предположил, что заданная аминокислота в белковой цепи определяется некоторой т р о й к о и соседних оснований РНК, скажем—первым, вторым н третьим основания- ми, следующая аминокислота — сдвинутой па единицу тропкой, т. е. вторым, третьим и четвертым основаниями, еще следующая — сдвинутой на два основания тройкой и т. д.; такой код с частично перекрывающимися кодонами получил название «перекрывающегося кода» (см. схему на следующей стр., где нуликами обозначены основа- ния, а звездочками — аминокислоты). При этом предполагалось, что аминокислота белка зависит только от состава соответствую- щего кодона, но н е от порядка отдельных оснований в кодоне. Основным аргументом в пользу этой гипотезы для Гамова явилось то, что число различных по составу троек, которые можпо образовать ') Так, например, существуют вирусы, у которых вообще роль молекул ДНК играют длинные молекулы РНК, так что здесь «со- общение на входе» czi с самого начала записано в «алфавите» А, Г, Ц, У.
326 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1'Гл. IV из четырех оснований, равно С43 число троек по- парно различ- ных оснований число троек из трех одинако- вых оснований = 20 2С* число троек основа- ний, содержащих два одинаковых основания -OOOOOOOODOGOOOOOO. т • > -к******* РНК 4 белок Предложенный Г. Гамовым «перекрывающийся код», так же как и выдвинутый совместно Г. Гамовым иМ. Ичасом [152] «неперекрывающийся комбинационный код» (см. схему внизу), в котором тоже аминокислота белка определялась единственно составом кодонов, по пе расположением в нем оснований, ,..000000000000000000...РНК IТТТТТ z •••* * I * * * - • • белок оказались не соответствующими дсйстшпелыкичп. Однако ч< iini составленная Г. Гамовым видима описпнпя процесса cnirie.ia белков в живой клетке как согласующегося с пкспернмсн*гал«.11ыми данными «перевода» сигнала Р, записанной* ни четырехбуквепном языке РНК, в сообщение р,, записанное на двадцатпбуквениом языке белков, сыграла большую роль в дальнейших успехах этой области молекулярной биологии. С «комбинационным кодою» Г. Гамова и М. Ичаса одно время конкурировала выдвинутая знаменитым Ф. К р и к о м и его сотрудниками [153] идея «кода без запятой», довольно долго широко обсуждавшаяся многими учеными разных специальностей (см., например, примыкающую сюда статью математиков С. Г о л о м- б а, Л. В ел та и генетика М. Дельбрюка [154]). Термин «код без запятой» здесь понимается немного иначе, чем на стр 187, где фактически под этим понимался произвольный однозначно расшифровываемый код — равномерный код, состоящий только из трехбуквенных кодонов, этому последнему условию, очевидно, всегда будет удовлетворять. Но дело в том, что если мы допустим, что код — неперекрывающийся, то неясно, как именно распознается конец одного кодона и начало следующего — ведь в принципе одну и ту же последовательность оснований, скажем,...АГГЦТЦА... можно по-разному разбить на трехбуквенные «кодоны»: ее можно ♦прочесть» и как ...(А Г Г) (ЦТЦ) (Л..., и как ...АГ) (Г ЦТ) (ЦА..., и как ...Л) (ГГЦ) (ТЦА).... Можно указать три возможности избе- жать возникающей таким образом неопределенности. В принципе может существовать какой-то особый знак, указывающий начало
S 3] КОНКРЕТНЫЕ ТИПЫ СООБЩЕНИЙ 327 считывания последовательности кодоновт). Возможно также су- ществование специальной последовательности оснований (быть может, содержащей бллыпее или меньшее число оснований, чем отвечающие аминокислотам кодоны), отделяющей отдельные кодоны друг от друга — подобная последовательность оснований расшифро- вывается как «запятая», отделяющая друг от друга «слова» (кодоны). Наконец, специалисты по теории связи знают и такие «коды без запятой», что произвольная последовательность «букв» (в нашем случае — оснований ДНК) допускает лишь одну возможность ее осмысленного прочтения, другие же варианты разбиения этой последовательности «букв» на отдельные «слова» приводят к после- довательности бессмысленных сочетаний «букв», не отвечающих никаким «словам». Ясно, что так определенный «код без запятой» должен быть «не- полным»— в нем должны существовать последовательности букв, не отвечающие никаким «словам» (не составляющие кодонов). Прини- мая, что каждый кодон состоит из трех оснований (триплетный код), мы легко найдем наибольшее возможное число осмысленных кодонов. Ясно, что «триплеты», состоящие из трех одинаковых «букв» (оснований), например, ААА не могут иметь смысла, ибо иначе длинная последовательность соответствующих «букв»— ...АААААААА...— могла бы осмысленно считываться, начиная с л ю б о г о места. Остающиеся 64—4 — 60 разных триплетов можпо разбить на 20 групп по 3 триплета, получающихся друг из друга «циклической перестановкой букв» (оснований)— таковы, скажем, триплеты АГЦ, ГЦА и ЦАГ или ЦЦТ, ЦТЦ и ТЦЦ. Ясно, что из этих трех триплетов смысл может иметь только один, ибо в про- тивном случае также нельзя было бы однозначно определить, с какого места надо начать считывание кодонов в длинной последо- вательности одинаковых триплетов одного из этих видов. Таким образом, наибольшее возможное число осмысленных кодонов в случае триплетного кода без занятой не может превышать 60 : 3 = 20 — и можпо показать, что оно в точности равно 20. В этом обстоятельстве Ф. Крик и разделяющие его точку зрения исследователи видели один из веских аргументов в пользу своей гипотезы. Решение вопроса о строении «генетическою кода» было найдено, однако, не за письменным столом, а пепосрсдстчеппо и лаборато- риях. В начале 60-х годов (в 1961—1963 гг.) группе биохимиков, возглавляемой американцем М. Ниренбергом, удалось показать, что синтез цепочек аминокислот, во всем напоминающих белок, можно осуществить и в отсутствия живых клеток, выделив отдельно рибосомы живых клеток, поместив их в органическую среду, содержащую основные компоненты среды цитоплазмы, и добавляя синтетическую РНК заданного состава, в процессе синтеза белка играющую роль информационной РНК 'живой клетки. *) Заметим сразу же, что, видимо, именно этот вариант и реа- лизуется в действительности, хотя детали «ука шпия», предписы- вающего именно с данного основания начать «считывание» кодонов, пока остаются нелепыми.
328 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ ГГл. IV В первом опыте такого рода, осуществленном М. Ниренбергом и Г. Маттеи, синтетическая РНК содержала одно только повторя- кщееся урациловое основание; при этом наблюдался синтез искусственного белка, состоящего из многократно повторяющейся аминокислоты фенилаланина (Фен). Таким образом РНК ...УУУУУУУУУ... порождала белок ...ФенФенФенФен..., от- куда следовало, что если код является триплетным, то кодону УУУ должна соответствовать аминокислота Фен. Аналогично было установлено, что кодону ЦЦЦ отвечает аминокислота про- лин (Про). В течение всех 60-х годов в многочисленных биохимических лабораториях мира велся широкий «штурм» проблемы генетического кода; из числа участвующих в этом исследователей, кроме М. Ни- ренберга и его сотрудников (из которых особо большую роль сыг- рал Ф. Ледер), следует упомянуть работающих в США индуса Г. X. Хорана и мексиканца С. Очоа. Мы пе станем рассказывать здесь об этом подробно, отослав желающих к старым обзорам Г. Гамова, М. И ч а с а и А. Рича [155], дающим возмож- ность познакомиться с ранними этапами попыток расшифровки генетического кода, к (тоже довольно старым) статьям Ф. Кри- ка, М. Ниренберга и др. [156], рассчитанным па широкого читателя, и, особенно, к обстоятельной монографии М. И ч а с а [157], список литературы к которой содержит 869 названий Трудами многих ученых было установлено, что генетический код действи- тельно является триплетным и неперекрыялющи игл; что он нилас ген «вырожденным» в том смысле, что некоторым iiMinioitnrjioinu отш чают сразу несколько равных кодонов; чю <vm<<unui «бессмысленные» (т. е. но несущие leiieiiiTecKoii iiiu]<opM)imni) Кодоны Амино- кислоты Кодоны Амино- кислоты Кодоны Амино- кислоты Кодоны Ами по- кислоты УУУ Фен УЦУ Сер УГУ Цис УАУ Тир УУЦ Фен УЦЦ Сер УГЦ Цис УАЦ Тир УУА Лей УЦА Сер УГА — УАА — УУГ Лей УЦГ Сер УГГ Три У АГ — ЦУУ Лей ццу И ро ЦГУ Аре ЦАУ Гис цуц Лей ЦЦЦ 11 ро цгц Аре ЦАЦ Гис ЦУЛ Лей ЦЦА II ро ЦГА Аре ЦАА Глн ЦУГ Лей ЦЦГ Про цгг Арг ЦАГ Глн .4 У У Иле АЦУ Тре АГУ Сер ААУ Асн АУЦ Иле АЦЦ Т ре АГЦ Сер ААЦ Асн АУА Иле АЦА Тре АГА Арг ААА Лиз АУГ Мет АЦГ Тре АГГ Арг ААГ Лиз ГУУ Вал ГЦУ Ала ГГУ Г ли ГАУ Асп ГУЦ Вал гцц Ала ГГЦ Г ли ГАЦ Асп ГУ А Вал ГЦА Ала ГГА I 'ли ГАА Глу ГУТ Вал ГЦГ Ала ГГГ Г ли ГАГ Глу
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 329 триплеты, которые вообще не являются кодопамп в том смысле, что им не отвечает ни одна аминокислота *). Таблица на стр. 328 указывает, как представляют собе сего- дня ученые генетический код (черточка в левом столбце означает, что соответствующий триплет не является кодоном). § 4. Передача сообщений при наличии помех В двух первых параграфах настоящей главы па при- мере телеграфии были рассмотрены некоторые общие вопросы теории передачи сообщений по линиям связи. При этом, однако, все время подразумевалось, что сигна- лы передаются по линии связи без всяких иска- жен и й, т. е. что передача ведется в отсутствие помех. Между тем в практике связи так фактически никогда не бывает: всегда возможны некоторые помехи, вызывающие искажение сигнала в процессе передачи. Кратко об этом ужо упоминалось в § 3 в связи с анализом работы линий связи, передающих непрерывные сообщения (см. стр. 315—316). В настоящем параграфе мы снова вернемся к простейшей схеме дискретной линии связи, рассмотрен- ной в §§ 1 и 2, т. е. будем предполагать, что по линии пе- редается лишь конечное число различных «элементарных сигналов» постоянной длительности (в самом простом слу- чае лишь два различных сигнала — посылка тока и пау- за). Но, в отличие от §§ 1 и 2, теперь мы уже не будем пре- небрегать влиянием помех, т. е. будем учитывать воз- можность путаницы — элементарный сигнал одного типа в результате искажений, вносимых помехами, может быть ошибочно принят па приемном конце как сигнал другого типа (например, посылка тока может восприниматься как пауза, а пауза — как посылка тока). Посмотрим, что мо- жет дать теория информации в применении к этому более сложному (но зато и более реальному) случаю. Будем для простоты, как и в § 2, предполагать, что последовательные «буквы» сообщения взаимно незави- симы, причем п. букв алфавита характеризуются определен- ными вероятностями рг, р2, . . рп появления на любом месте сообщения той или иной буквы. Рассмотрим линию связи, в которой для передачи используется т различных *) Но которые тем пе менее имеют определенный генетический смысл (см. по этому поводу гл. VIII книги [157]).
330 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV элементарных сигналов А1г А2, .Ат, причем за едини- цу времени может быть передано L таких сигналов (т. е. длительность одного сигнала равна т = Тогда, сог- ласно основному результату § 2, при отсутствии помех сообщение по нашей линии связи можно передавать со скоростью, сколь угодно близкой к величине 0 v — букв.led. времени (где С - L log т — пропускная способность липин связи, а 11 = — Pi log Pi — р2 log р2 — ..рп log рп — энтропия одной буквы передаваемого сообщения); однако скорость передачи, превосходящая и, здесь никогда не может быть достигнута. При этом для достижения скорости передачи, очень близкой к и, надо лишь разбить передаваемое сообщение на достаточно длинные блоки и воспользоваться, например, для передачи отдельных бло ков оптимальным кодом Хафмапа или же каким-либо близким к оптимальному кодом (скажем, кодом Шенно- на — Фано или кодом с такими длинами I, кодовых обозна- чений, что — log /?i/log т li <Z — log Рг/log m -|- 1). Иначе говоря, для этого надо воспользоваться кодом, для которо- го избыточность в закодированном сообщении будет наи- меньшей возможной или, по крайней мере, достаточно близкой к таковой. При наличии помех в линии связи дело будет обстоять несколько иначе. Естественно, что в этом случае только наличие избыточности в передаваемой последовательно- сти сигналов может помочь пам точно восстановить пе- реданное сообщение по принятым данным: в случае значительных помех мы даже, наоборот, стремимся еще больше увеличить избыточность, например, повторяя каждое переданное слово по нескольку раз или заменяя каждую букву сообщения отдельным словом, начина- ющимся с этой буквы (передача «по буквам»). Ясно, что использование кода, приводящего к наименьшей избы- точности закодированного сообщения, здесь уже будет
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 331 нецелесообразным и скорость передачи сообщения долж- на быть уменьшена. Насколько же придется ее уменьшить? Для ответа на этот вопрос нам придется предваритель- но разобрать, как математически описывается линия свя- зи, в которой имеются какие-то помехи. Предположим сперва, что рассматриваемая линия связи использует т различных элементарных сигналов А1г А2, .. ., Ат, но из-за наличия помех переданный сигнал A t (где i =1,2,..., или т) может быть иногда принят на приемном конце линии связи за какой-то другой (отличный от At) сигнал Aj. Для того чтобы количественно описать эту ситуацию, надо задать вероятность рд, (y4j) того, что, передавая сигнал Аг, мы на приемном конце получим правильный сигнал At (так что рд, Mi) — это вероятность безошибочной передачи сигнала Дх), и вероятности рд,(Л2), рд, (Л3),... - • •» Ра, М т) того, что переданный сигнал Аг будет на приемном конце расшифрован какЛ2, А3, . . ., Ат. Далее надо задать вероятности рд, Mi), рд, (Л2), ..., рд, (Ат) получения на приемном конце сигналов Alt А2,...,Ат1 если на самом деле передавался сигнал А2, и т. д. вплоть до вероятностей рлт MJ, рлт М2), .. ., рлт Мт) того, что на приемном конце будут получены сигналы А1г А2, ... .. ., Ат, если на самом деле передавался сигнал Ат. Ве- роятности PA.MJ, рл,М2), ..., рд,(Лт); Рл,М!), рл,М2), .... рд,Мт); PAmMi). РЛт{А2), . . .,рДт(Лт) в рассматриваемом случае статистически характеризу- ют помехи, имеющиеся в нашей линии связи, т. е. они яв- ляются математическими характеристиками рассматри- ваемой линии. Таким образом, полное математическое описание линии связи с помехами, приводящими к тому, что передаваемые сигналы могут иногда неправильно рас- шифровываться па приемном конце, состоит в задании целого числа т, указывающего, сколько различных эле- ментарных сигналов можно передавать по этой линии, числа L (или т =-г), определяющего скорость передачи
332 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл,IV элементарных сигналов, и еще т2 неотрицательных чисел pAl(Aj) (которые, очевидно, должны удовлетворять гп условиям: pAi (4!) + рА. (Л2) + ... + рА. (Лт) = 1 при всех значениях i = 1, 2, ..., т), характеризующих влия- ние помех. Напомним в этой связи, что в §§ 1 и2 разные линии связи различалась лишь числом т используемых элементарных сигналов и (см. конец § 2) скоростью их передачи L. Приведенное описание линии связи с помехами можно также еще несколько обобщить, допустив, что помехи могут иногда так исказить передаваемый сигнал, что на прием- ном конце его нельзя будет отождествить н и с од н и м из т используемых элементарных сигналов А,. Для того чтобы учесть также и такую возможность, целесообразно допустить, что на приемном конце могут быть получены но обязательно те же т элементарных сигналов Аг, А2,. . . А,л, которые передавались по линии, а совсем другие какие- то г (где г может быть и больше т, и меньше гп, и равно гп) элементарных сигналов Вг, В2, ..., Вг (все или некоторые из которых могут отличаться от сигналов 1,, tt,. . , , 1„ ; ср. пример 4° ниже). В таком случае помехи будут ств тистически характеризоваться пи 1нч)|рпца1<<лы1ыми чи слами РА, (BJ, рл,(В.,),.. . , РА, (В,); рАг (BJ, рАа (В2),рАг (Вг); РАт (Bj), рАт(В2),..„ РАт(Вг), удовлетворяющими т условиям: рА. (Вг) + рА. (В2) + ... ... + рА. (Br) = 1 при всех i = l,2,..., т; через PAj (Bj) здесь обозначается вероятность того, что на при- емном конце будет принят сигнал Bj, если па самом деле был передан сигнал А{. Вся же линия связи будет теперь характеризоваться целыми числами т и г, числом L (илит =у-)ииг числами/>А. (Bj). Использование такого более общего описания линии связи нисколько пе услож- няет всех последующих рассуждений по сравнению с тем случаем, когда полагается, что г = т и сигналы на при-
ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 333 емком конце линии совпадают с передаваемыми сигналами /lj, А2, ... , Ат; именно его мы в дальнейшем и будем применять х). Предположим теперь, что р (Л,) — это вероятность того, что передаваемым сигналом является сигнал А1г р (Л2) — вероятность, что им является сигнал Л2,. • • ... , р (Лт) — вероятноеть, что им является сигнал Ат (где, очевидно, р (Л J + р (Л2) + • + Р (Ат) = 1). В та- ком случае опыт р, состоящий в определении того, какой именно сигнал передастся, будет иметь энтропию II (Р), равную н (0) = ~ Р Mi) log р Mi) — Р М2) р М2) — • • • • • • — Р Mm) l°gP Мт)- Опыт а, состоящий в выяснении того, какой сигнал при этом будет принят на приемном конце, будет, очевидно, опытом с г исходами, зависимым от опыта Р; условная ве- роятность исхода Bj этого нового опыта при условии, что опыт р имел исход Л, (где i = 1, 2, . .. , w; / = 1,2,... .. ., г), как раз и равняется рл. (Bj). Средняя информация об опыте р, содержащаяся в опыте а, равна I (а, Р) = Н (р) - На (р), где На (Р) — условная энтропия, определяющаяся из формул, приведенных на стр. 90—91 (с заменой в этих формулах к и / на т иг). Разумеется, информация I (а, Р) всегда не больше энтропии И (Р) опыта Р, т. е. той наибольшей информации об опыте р, которую только можно получить и которая содержится, например, в са- мом этом опыте. Информация 1 (а, Р) равна энтропии Н (Р) только в том случае, когда исход опыта а однозначно определяет исход опыта р, т. е. когда по принятому сиг- налу всегда можно однозначно выяснить, какой сигнал *) Вообще говоря, можно даже еще несколько обобщить и это описание, допустив, что па приемном конце может быть получено произвольное (т. с., например, бесконечное или даже непрерывное) множество различных сигналов В. Па этот случай также можпо перенести почти все указанные ниже резуль- таты, но только здесь уже ряд формул будет выглядеть более слож- но; поэтому указанного обобщения понятия линии связи мы ниже вовсе не будем касаться.
334 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV был передан (с практической точки зрения это означает, что помехи здесь совсем не препятствуют нормальному приему); информация I (а, Р) равна нулю в том случае, когда опыт а не зависит от р (т. е. когда принятые сигналы вовсе не зависят от того, какие сигналы передавались — из-за очень сильных помех никакой передачи сообщений фактически вообще не происходит). Напомним теперь, что при отсутствии помех про- пускная способность С линии связи опреде- лялась как наибольшее количество единиц информации, которое можно передать по этой линии за единицу време- ни (см. стр. 231). Постараемся обобщить это определение на случай линии связи с помехами. Для такой липии сред- нее количество информации, получаемой на приемном конце при приеме одного элементарного сигнала, равно величине I {а, Р) = Н (р) - На (р), зависящей от вероятностей р (ЛД, р (Л2), . .. , р (Д т) того, что передан сигнал Alt Л2, . .., Ат. Пусть с = max I (а, |1) есть самое большое значение информации / (а, |$), которое может быть достигнуто при помощи измене- ния вероятностей р (AJ, р (А2),..., р и пусть это значение достигается при значениях р° (Jij), р° (Д2), . -. . . . , р° (А т) этих вероятностей (ср. ниже конкретные при- меры вычисления величины с и вероятностей р° (Я!), р° (И2), • • 5 Р° (Лт))- Величина с определяет наибольшее количество информации, которое можно получить на приемном конце при приеме одного элементарного сиг- нала. Если же желать получать наибольшее количество информации в течение определенного промежутка време- ни (скажем, в течение единицы времени), то естественно все это время выбирать значения передаваемых элемен- тарных сигналов с одними и теми же вероятностями р° (ЯД, р° (А2), . .., р° (Ат), не зависящими от того, какие именно сигналы были уже переданы раньше (см. по этому поводу мелкий шрифт на стр. 383—384, где бу- дет строго доказано, что, выбирая последовательные зна- чения передаваемых сигналов взаимно зависимыми, не- возможно увеличить общее количество передаваемой ин-
ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 335 § 4] формации). При такой передаче каждый принимаемый элементарный сигнал будет содержать с единиц информа- ции, т. е. количество информации, переданное за единицу времени, будет равно С = Lc = L max 1 (а, 0). Эта величина С и называется пропускной спо- собностью липин с в я з и с помехами. Так как наибольшее значение I (а, 0) не может превос- ходить Н (0), а II (0) всегда пе больше, чем log т (см. стр. 73—74), то ясно, что пропускная способность линии связи с помехами всегда не больше, чем пропускная способ- ность линии без помех, по которой за единицу времени может быть передано то же число элементарных сигналов и которая использует то же число разных сигналов. Сле- довательно, помехи могут только уменьшить пропускную способность линии связи, как это и должно быть по здра- вому смыслу. Примеры. Iе. В случае, когда г = т, сигналы Вг, ..., Вг совпа- дают с Аг, ..., Ат и рл. (Aj) = 1 при j = i, а значит, Ра. (Aj) = 0 при / =/= I, т. е. если всегда принимается тот же самый сигнал, который был передан (помехи не препятствуют передаче или даже вовсе отсутствуют)! На (0) = 0 и с = max I (а, 0) = max Н (0) — log т (это наибольшее значение достигается, когда все значения передаваемого сигнала равновероятны, так что здесь j р° (AJ = р° (Л2) = ... = р°(4т) = —). Итак, в этом случае С = L log т. Отсюда видно, что приведенное в § 2 опреде- ление пропускной способности линии связи без помех является частным случаем рассмотренного здесь более общего определения. 2°. Пусть по линии связи можно передавать два эле- ментарных сигнала (скажем, посылку тока Аг и паузу А<>) и те же два сигнала Аг и А2 принимаются на приемном конце. Пусть, далее, вероятность безошибочного приема любого из передаваемых сигналов равпа 1 — р, а веро- ятность ошибки равна р. В этом случае Рл, (А) = рА1 (Л2) = 1 — р, рл, (Л2) = рл2 (А) = Р>
335 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ ll'jl. IV так что указанная на стр. 331 таблица условных вероят- ностей здесь имеет вид 1 — Р. Р\ р, 1 - р. Соответствующая линия связи называется двоичной симметричной линией; она схематически изображена на рис. 18, где линии со стрелками указыва- ют, в какие принимаемые сигналы могут перейти переда- t-p ваемые сигналы Аг и А2, а ----———рядом с линиями выписаны вероятности соответствующих переходов. Для вычисления величины -------^°Лг с мы воспользуемся равен- ством Рпс' 18’ I (а, р) = Н (а) — (а). Из приведенной выше таблицы условных вероятностей видно, что если передается сигнал Лц то на приемном кон- це мы с вероятностью 1 — р получим тот жо сигнал .1,, а с вероятностью р — сигнал А2; если же передней и <ш нал А2, то мы с вероятностью р получим сигнал Лп а с вероятностью 1 — р — ст нал А2- Полому НА, (а) = НА, (а) = —(1 — р) log (1 — р) — р log р И Яр (а) = р {At)HA, (а) + р (Л 2) На, (а) = = — (1 — Р) log (1 — р) — р log р независимо от значений вероятностей р (Лх) и р (Ла) (ибо всегда р (ЛД 4- р (Л2) = 1). Следовательно, в рас- сматриваемом случае Яр (а) вовсе не зависит от вероят- ностей р (Лх) и р (Л2) и для вычисления с — max I (а, Р) = max [Я (а) — Яр (а)] надо только определить максимальное значение Я (а). Но величина Я (а) — энтропия опыта а, могущего иметь всего два исхода,— никак не может превосходить 1 бит (см. стр. 74). С другой стороны, значение Н (а) = 1 1 1 наверное достигается при р (ЛД = , р (Л2) = v, так
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 337 как в таком случае и оба исхода опыта а также будут иметь одинаковые вероятности (в общем случае эти вероятности, очевидно, равны q (Л^ = р (Лх)-(1 — р) А- р (Л2).р и </ (Л2) = р (Л,) -р + р (Л 2) (1 — р)). Отсюда вытекает, что й рассматриваемом случае Р° (Лх) =77«(Л2) с = 1 + (1 — р) log (1 — р) 4- р log р С = LH + (1 — р) log (1 — р) 4- р log р]. Мы получили явную формулу, показывающую, как зависит пропускная способность двоичной симметричной линии связи от вероятности р ошибки при передаче. Гра- & фик функции С (р) изобра- жен на рис. 19. Наибольшее значение (равное L) эта функ- ция принимает при р = О (т. е. при отсутствии помех) и при р = 1 (т. е. в случае по- мех, переводящих каждый передаваемый сигнал в Л 2, а каждый сигнал Л2— в Аг; ясно, что такие помехи нисколько пе мешают понять, какой именно сигпал был 1 передан). Вообще при р у мы всегда можем в принятом сообщении заменить каждый принятый сигпал Л, па А.г, а каждый принятый сигнал Л2 — на At; при этом мы при- дем к линии связи с вероятностью ошибки 1 —P<Z~2' Отсюда ясно, что при замене р на 1 — р значение про- пускной способности С не может измениться (это видпо и из полученной выше формулы), т. е. график функции С „ 1 должен быть симметричен относительно прямой р = у При р = тг пропускная способность С равна пулю; это Z * 1 связано с тем, что при р = у, независимо от того, какой сигнал был передан, мы
338 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ II» IV получим па приемном конце с вероятностью -% rut и , « Л 1 л Aj и с вероятностью у — сигнал А2, так что принятий сигнал не будет содержать никакой информации о том, какой сигнал был передан 1). При значениях р пром< 1 1 жуточных между О и — (или между -тг и 1), мы будем нм< и. положительную пропускную способность, меньшую чем ь, причем при возрастании р (в случае р <Г т-) или поп» j растании 1 — р (при р у) эта пропускная способность быстро убывает. Так, например, если L — 100, то при р « = 0,01 (т. е. в случае, когда из 100 передаваемых дпопч ных сигналов в среднем один сигнал принимается с ошиб кой) С ~ 92 бита; при р = 0,1 (т. е. если 10 из 100 пн налов претерпевают искажение) С ~ 53 бига, п при р = 0,25 (т. е. если четверть всех сигналов иринимпотсч п« правильно) С ~ 19 бит. 3°. Рассмотрим теперь болов общин пример ihiihm г*я зи, использующей т различных в.tewriiгарных А,, А2, ..., Лт, причем то жо citiint 1ы прнннм и < и и и приемном конце линии (т. о. г « /н, Bt Л, при I) и вероятность безошибочной передачи каждого пл тих сигналов равна 1 — р, а в случае ошибки переданный < hi нал может с одинаковой вероятностью /ранной быть воспринятым как любой из т — 1 отличных от net о сигналов. Таблица условных вероятностей здесь имеет вид - Рч ---- , ---- • . --—- ’ г т — 1 т — 1 ’ ’ ’ т — 1 ’ ₽ 1-р ₽ ... г. т — 1 * ’ m — 1 (и — 1 т — 1 ’ т — I’m — 1 ’ *) Вместо использования линии связи здесь молено с тем п«| успехом бросать у приемного конца монету и считать, что п случи» выпадения «герба» принимается сигнал А^, а в случае пыиадсни» «цифры»— сигнал А2.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 339 а соответствующая линия связи называется т -и ч н о й симметричной линией. Воспользуемся опять представлением I (а, (3) в виде Н (а) — Яр (а); при этом, очевидно, НА1 (а) = HAs (а) = ... = НАт (а) = = — (1 - p)log (1 — р) — (т - !)• log^-j и, следовательно, Яр (а) = — (1 — р) log (1 — р) — р log . Итак, как и в случае примера 2°, мы опять получаем, что Яр (а) не зависит от вероятностейр (XJ, р (Л2), р (Лт) и для нахождения пропускной способности надо лишь оп- ределить наибольшее значение Я (а). Это максимальное значение находится вполне аналогично случаю примера 2°: оно равно log т и достигается, когда все исходы опыта а (т. е. все возможные значения сигнала, поступающего на приемный конец) будут равновероятны (для чего надо только, чтобы и вероятности р (Ар (А2), р (Ат) посылки сигналов Alt А2, Am были все одинаковыми) Поэтому здесь 4 р° (А) = р°(А2) = ... = р°(Ат) = -А_, с = max I (а, 0) = log т + р + (1 — р) log (1 — р) и С = b[log т + Р log 4- (1 —р) log (1 — p)j. График функции С (р) (для случая т = 4) изображен на рис. 20 (стр. 340). Эта функция достигает максимального значения (равного L log тп) при р = 0 (при отсутствии по- . т—1 мех), а при возрастании р от нуля до значения р —----- гр т—1 она плавно уменьшается до нуля. 1о, при что р — пропускная способность оказывается равной пулю, со- вершенно естественно: в этом случае при любом значении посылаемого сигнала па приемном конце мы можем полу- чить каждый из сигналов Лп А2, ..., Ат с одинаковой
340 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1|'Л IV вероятностью так что никакой передачи информации посылаемом сигнале здесь не происходит. При дальнейшем увеличении р мы снова получаем (правда, небольшую) положительную пропускную способность: в этом случае, приняв сигнал Лг, мы сможем отсюда сделать вывод, чтр !’„<• 20. более вероятной янлжт я передачи какого либо о т л и ч п о г о от Л; сигнала, т. е. будем иметь псе же некоюрук* информацию о том, какой именно сигнал был передан. 11 рп т—1 этом при возрастании р от —— до единицы пропускная способность снова увеличивается; при р = 1 она раина L log . ь т—1 4°. Рассмотрим теперь снова двоичную линию спя и по которой могут передаваться два сигнала Л, и 1а, по теперь уже допустим, что на приемном конце полученный сигнал иногда может быть расшифрован как один из тех же двух сигналов, но иногда он так искажается, что его становится совершенно невозможно узнать. В этом по- следнем случае приходится считать, что принят какой к» совсем новый сигнал As, появление которого можпо нигер претировать как событие: передаваемой сигнал стер* я и не допускает расшифровки (поэтому такая линия сняли называется двоичной линией со с т п р и-
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 341 п и е м ). Мы здесь ограничимся рассмотрением простей- шей двоичной симметричной линии связи со стиранием, для которой вероятность «стирания» обоих передаваемых сигналов _4j и А2 равна одному и тому же числу q (т. е. рА, (А3) = рл2 (А3) = 9). и, кроме того, если стирания не произошло, то оба сигнала и А2 с одной и той же ве- роятностью 1 — р — q будут правильно расшифрованы на приемном конце, а с вероят- ностью р они будут перепу- таны (т. е. сигнал А± будет припят за А 2, соответствен- но, сигнал Л 2 будет принят за Аг). Таким образом, в слу- чае двоичной симметричной линии со стиранием т = 2, г 3 и таблица условных ве роятностей />д. (Bj) = pAi (Aj) имеет вид 1 — р — q, р, q; р, 1 — р — 9, q (см. рис. 21). Ясно, что какой бы сигнал ни передавался, на приемном конце мы с вероятностью q получим сигнал А3, в то время как из двух остальных сигналов один будет иметь вероят- ность 1 — р — q, а второй — вероятность р. Следова тельно, здесь На, (а) = На2 (а) — = — (1 — р — q) log (1 — р — q) — р log р — q log q. a значит и Яр (а) = — (1 — р — q) log (1 — р — q) — р log р — — q log q, так что I (а, Р) = Н (а) + (1 — р — q) log (1 — р — (?) 4- 4- р log р + q log q. Так как опыт а в рассматриваемом случае может иметь три исхода Аг, А2 и А3, то Н (а) log 3; поэтому с = max 1 (а, Р) log 3 + (1 — р — q) log (1 — р — q) + 4- р log р + q log q.
342 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ II . IV Но хложет ли энтропия опыта а равняться log 3? . 1«ч«о видеть, что вообще говоря, не может ни при kiikmi вероятностях р (А и р (Д2) передачи сигналов At и At. В самом деле, равенство Н (а) = log 3 будет выполняться лишь тогда, когда все три исхода опыта а равновероятны (т. е. все имеют вероятность 1/3); в нашем же случае вероятность исхода А3 («стирания») при любом выбор* р (Дх) и р (Д2) будет равна числу q, которое характери- зует линию связи и вовсе не обязано равняться 1/3. Сле- довательно, энтропия опыта а имеет впд Н (а) = — gt log дг — д2 log q2 — д log д, где д фиксировано, a qY = р (Л,) (1 — р — q) + р (Аг) р и = Р Mi) P + Р Из) (1 — Р — Q) — зто вероятности появления на приемном конце линии сигналов Аг, соот- ветственно А2, которые зависят от значений р(Аг) и р(Д2). Ясно, что qx + q2 = 1 — q при всех значениях р (Д,) и р (Д2). Но легко видеть, что максимум выражения — 9i lo6 9i — 9г Jog д2, где q} + q2 = 1 — q (л w< i q — фиксированное число; разумеется, 0 < q < 1), км titia ется при q± = q„ = — *). Kikimo thio jiciko him* n., £i 1—q что значения qt = g2 = являются uuauuiiuiuMii: для этого надо только принять, что р (Л,) = р (И2) . Таким образом, в рассматриваемом случае / (Дх) = (д2) = А *) В самом деле, добавив к — qt log 9Х — q2 log q2 постоянное слагаемое (1 — q) log (1 — q) = (qi + 92) log (1 — q) и затем ум- 1 пожив полученную сумму на постоянный множитель , мы 41 ,41 92 , <72 получим выражение — log -j_______— -j_____log ~ , пред- ставляющее собой энтропию опыта с двумя исходами, имеющими во- 91 9г роятности-|22^ и i_q • с'та энтропия, очевидно, принимает наиболь- шее значение при q^ = q2, следовательно, наибольшее значение исходного выражения —q2 log дх — q2 log д2 также достигается нрп 91 = 9з-
I 4J ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 343 с — max I (<х, р) = — (1 — q) log + + (1 — Р — ?) log (1 — р — д) + р log р = = (1 — q) (1 — log (1 — q)) 4- + (1 — Р — д) log (1 — р — q) + р log р и, значит, С = L {(1 - q) [1 - log (1 - 9)] + + (1 — Р — Я) log (1 — р — q) + р log р}. Полученная пропускная способность С зависит от двух чисел р и q, характеризующих вероятности ошибок различного типа в нашей линии связи. Нетрудно пока- зать, что С будет умень- шаться и при возрастании q, и при возрастании р (при естественном предпо. ложепии, что За- метим еще, что в реальных двоичных линиях связи со стиранием обычно справед- ливо неравенство р q, т. е. вероятность такого Рис. 22. искажения передаваемого сигнала, при котором его невозможно узнать, обычно пре- восходит вероятность искажения, при котором он оказыва- ется по форме похожим па второй из используемых сигна- лов. В ряде случаев вероятность р вообще оказывается так мала, что ею можно пренебречь, т. е. можно считать, что единственно возможные вредные искажения сигнала помехами зто те, при которых сигнал на выходе невозмож- но расшифровать (т. е. в ходе передачи он «стерся»). Если допустимо считать, что р = 0, то формула для пропускной способности С приобретает особенно простой вид: С = L (1 - q) (см. рис. 22). Последний результат представляется совер- шенно естественным: при р = 0 из L двоичных сигналов, передаваемых по нашей линии связи за единицу времени, в среднем Lq сигналов будет «стираться», т. о. не будет переносить никакой информации, в то время как остальные
344 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ IIл IV L (1 — q) сигналов будут точно расшифровываться па при емном конце, так что каждый из них будет содержать роп но 1 бит информации. То обстоятельство, что во всех предыдущих примерам пропускная способность С достигалась при одинаковым вероятностях передачи любого из используемых элемеи тарных сигналов, разумеется, имеет случайный характер: оно объясняется просто тем, что для простоты расчетов во всех этих примерах табл и ца условных вероятностей Pa^Aj), характеризующих ли нию связи, выбиралась очень симметричной. Для иллюс г рации того, что дело может обстоять и иначе, привод» » еще результаты, относящие ся к следующему рссшип.ко более сложному примеру, впервые рассмотренном) Шенноном [1]: 5°. Пусть по линии связи можно пороДпКПЗ I 1 | II ri ментарных сигнала At, А2 и Ал, причем три » ши i значительно отличается от дп\ х дриим и и < i и мои быть безошибочно угадай па приемном конце пиши, и каждый из двух других сигналов с перон шопыи t — /> принимается правильно, а с пероятпоегыо р восприннма ется как второй из них. Иначе говоря, мы считаем, чю т = г = 3 и что таблица условных вероятностей рл ( I имеет вид 1, 0, 0; 0, 1 — р, р-, 0, р, 1 — р (см. рис. 23). Следовательно, здесь На, («) = 0, На2 (а) = Ал, (а) = = — (1 — р) log (1 — р) — р log р и (а) = [р (Л2) + р (Л3)1 [— (1 — р) log (1 — р) — — Р '"И pl. I (а, Р) = — q (Л,) log q (Л^ — q (Л2) log q (Л2) — — g (Л3) log q(As) + + Ip U2) + p (Л 3)] [(1 — p) log (1 — p) -I- p log /И,
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 345 где «(AJ = р (А^, q (А2) = р (А2) (1 — р) 4- р (А 3) р и q (As) = р (А2) р + р (А3) (1 — р) — вероятности исходов Ai, А2, А3 опыта а. Отметим, что II(а) зависит не от всех трех вероят- ностей р (AJ, р (А2), р (А3), а лишь от р (А2) + р (А3) = = 1 — р (AJ. Воспользовавшись рассуждением, приве- денным в сноске на стр. 342, легко показать, что при фикси- рованном р (AJ = q (AJ энтропия Н (а) (а значит, и информация I (а, 0)) будет наибольшей, если вероятности q (А 2) и q (А3) (а следовательно, и р (А2) и р (А3)) будут равны между собой: р (А2) = р (А3) = q (А2) = q (А3) = \~Р(ЛА . После зтого остается только определить, при каком зна- чении р (Aj) выражение I (а, 0) = — р (AJ log р (А,) — - и - р (Aj)] [log — fJ1) - (1 - p) log (1 - p) - — P log p], где p — заданное неотрицательное число, не превосходя- щее единицы, будет наибольшим. Последняя задача яв- ляется довольно сложной, если пользоваться лишь ме- тодами элементарной математики, но легко решается с помощью дифференциального исчисления х). Оказывается, что искомое значение р (А!) равно р° (АЛ =--------!-----— . Итак, в рассматриваемом случае Р° (А) =----------------, 1 * V 17 1 -р 2^(1 - ' во ( Л \ _ р0 ( л X _ Рр (1 — р)1 р . р (AJ-р (А3) - i+2pP{l_p)1_p , *) Известно, что точка х отрезка O^ar^l, в которой функция У ~ —X log х — (1 — a:) |log —log л] (где а — рр (1 — д)1-р и все логарифмы — двоичные) принимает наибольшее значение, совпадает с той, в которой обращается в нуль производная этой функции.
346 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯ.1Н 1Г IV подставляя эти значения вероятностей в выражепн »• I (а, р) и умножая результат на число L сигналов, г*|<» даваемых за единицу времени, легко находим пропуски)к» способность нашей линии связи: С = L log [1 + 2 рр (1 - p)T PL График функции С = С (р) приведен на рис. 24. При /> = 0 эта функция принимает наибольшее значение: при р —* 0, как нетрудно показать, рр (1 — p)l~p —* 1 и. следовательно, здесь р° (AJ = р° (Л2) = р° (А3) = у и С = L log 3. Этот результат, разумеется, очевиден; при р = 0 мы будем иметь просто линию связи без помех, использующую три различных элементарных сипы ли (см. пример 1°). При возрастании р от 0 до пропускная способность С уменьшается, так как при передаче и горок» или третьего сигнала мы здесь будем терять часть ин формации из-за наличия помех; в этой связи и всроят ность р° (tIj) здесь оказывается несколько большей чем 1 , у (т. е. первый сигнал здесь выгодно пере даватыгес кол ько 1 чаще, чем второй или третий). При р = -к-пропускная сш> собпость принимает наименьшее значение, равное С 1
§ (] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 347 I ( 1 / 1 \т 1 \ тт ^так как ) = ~2j ‘ Для Достижения этой пропускной способности первый сигнал следует передавать в половине всех случаев (р° (AJ — -%), а второй и третий — во второй половине случаев (фактически сигналы А2 и А3 здесь следует рассматривать как один общий сигнал, так как на приемном конце все равно их никак нельзя различить, а можно лишь утверждать, что передан был . ..1 какой-то из них, а не сигнал At; поэтому случаи р =-^- равносилен случаю линии без помех, использующей два различных сигнала). При дальнейшем увеличении р 1 от -g- до 1 значение С (р) снова возрастает, причем С(р) = С (1 — р) (по тем же причинам, что и в случае примера 2°). Другой пример линии связи, для которой вероятности р° (Лг) не равны между собой, можно получить, предпо- лагая, что т = г = 2, ио что вероятности ошибки при пе- редаче двух используемых сигналов не одинаковы (случай двоичной несимметричной линии). В этом случае, однако, все формулы оказываются заметно более сложными, чем в рассмотренных выше примерах; поэтому мы на нем не будем останавливаться. Будем теперь считать, что пропускная способность С линии связи нам известна. В случае отсутствия помех, как мы видели в § 2, знание величины С позволяет весьма точно оценить возможную скорость передачи сообщений по данной линии: ни при каком методе кодирования эта скорость не может превзойти величины С с v = -ц- букв/ед. времени (где Н — энтропия одной буквы передаваемого сообще- ния); однако скорость передачи, сколь угодно близкая к v, всегда может быть достигнута. При наличии помех, кроме скорости, следует учитывать еще и степень точности передачи, характеризуемую вероятностью ошибки в опре- делении каждой отдельной переданной буквы. Легко
348 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ CIHl.HI lit IV понять, что при скорости передачи букв]ед. вр< йена, «г вышаюгцей величину v = С/Н (где С — это опрс н<нп«4 выше пропускная способность линии связи с помехами I) точная передача (позволяющая безошибочно иигстпмо вить все буквы переданного сообщения) никак не может иметь места (это утверждение представляет гобои по вполне четкую формулировку так называемой о брит ной теоремы о кодировании при пн личии помех, о которой мы подробно будем к» ворить на стр. 362— 363). В самом деле, при безошибочно* передаче со скоростью количество информации о бу к вах сообщения, передаваемое по линии за единицу промг ни, будет равно полной степени неопределенноми ^-буквенного «блока», т. е. равно произведению vtH (паном ним, что отдельные буквы мы считаем независимыми); следовательно, переданное за единицу времени колпчем во информации о посылаемых кодовых обозначениях (т. » о сигналах, являющихся исходами опытен fi) тем би ич» не может быть меньше чем (ср. стр. 123) Но тпк £ как С при vl v = -ц, то пл ciimoi » <nip« । > инн величины С вытекает, что 6c.iiitiiit6n4tinn ii«prin4< .«.<• щений со скоростью в, v буки ап еднпнцу npi w он гн* может быть осуществлена. 11< ходя пл юн choo|m»iu4ih* можпо даже точно оцепить наименьшую вороний» и ошибки, обязательно имеющуюся даже при «uati.iyniiiert» передаче сообщения с данной скоростью t(^> v (с,м ниже, стр. 361 и след.). Заметим далее, что если не накладывать вообще пики ких ограничений на скорость передачи сообщении, то и большинстве случаев без труда можно добиться того, >ни бы вероятность ошибки в определении каждой переданной буквы оказалась сколь угодно малой; кик правило, для этого достаточно просто очень много । 11 повторять каждый передаваемый сигнал (или каждую группу таких сигналов). Заранее, однако, можно было бы думать, что для того, чтобы добиться очень м i ioii вероятности ошибки, необходимо очень сильно умопынть скорость передачи (такое резкое уменьшение скорости, и частности, будет иметь место, если вероятность ошибки мы будем уменьшать при помощи многократного поп юр» ния сигналов). Точнее говоря, на первый взгляд важен к
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 349 естественным думать, что любое уменьшение вероятности ошибки в определении каждой передаваемой буквы долж- но быть неизбежно связано с уменьшением также и ско- рости передачи, причем неограниченного уменьшения ве- роятности ошибки никак нельзя добиться не уменьшая неограниченно скорость передачи. Оказалось, что в дей- ствительности дело обстоит совсем не так. А именно, Шеннон доказал, что для любой линии связи с помехами всегда можно подобрать специальный код, позволяющий передавать сообщения по этой линии с заданной скоростью, сколь угодно близкой к Q v — — букв/ед. времени (но обязательно все же несколько меньшей, чем эта вели- чина!) так, чтобы вероятность ошибки в определении каж- дой переданной буквы оказалась меньше любого заранее заданного числа е (например, меньшей чем 0,001, или чем 0,0001 или чем 0,000001). Разумеется, код, о котором здесь идет речь, будет зависеть от ей чем меньше е, тем он будет, как правило, более сложным. Предложение, выде- ленное курсивом, обобщает сформулированную в § 2 основную теорему о кодировании; его можно назвать о с- новной теоремой о кодировании при наличии помех. Существенную роль в доказа- тельстве этой теоремы играет использование кодирова- ния сразу очень длинных «блоков» из большого числа букв; поэтому передача сообщении со скоростью, близкой к v, и с очень малой вероятностью ошибки обычно будет сопряжена со значительным запаздыванием при расшиф- ровке каждой переданной буквы. Прежде чем идти дальше, отметим, что здесь, так же как и в случае рассматривавшейся в § 2 этой главы основной теоремы о кодировании при отсутствии помех, предположение о том, что отдельные буквы текста взаим- но независимы, па самом деле не является суще- ственным. В дальнейшем мы им почти не будем пользовать- ся, а будем лишь использовать то частное обстоятельство, что при достаточно большом N из различных /V-бук- венных блоков (где каждая буква может принимать п различных значений) только 2nN являются «вероятным!® (и имеющими примерно одинаковую вероятность). В случае*
350 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СБИЛИ II* IV когда последовательные буквы текста взаимно а.ши им*, последнее обстоятельство будет уже неверным; о «и «ж. как было отмечено на стр. 228—229, в этом случаи i . широких условиях также среди всевозможных 7V-6yi<hrii ных блоков, где N достаточно велико, можпо будет выдн лить сравнительно небольшую долю примерно opnintion вероятных блоков, имеющих весьма близкую к о outии суммарную вероятность. Общее число «вероятных» Лдп ков из N взаимно зависимых букв согласно cicnaiiiiit м на стр. 229 имеет порядок 2H°°N ~ 2h(-n\ где — тропия ^буквенного блока, а Нк = lim —--------удель ная энтропия, приходящаяся па одну букву текста. I акпм образом, если буквы текста являются записимымн, го, вообще говоря, мы должны лишь заменить по псом дпль нейшем энтропию Н одной буквы на меньшую чем // удельную энтропию if к,. Точно так же и в случил нерп > 'Чи С со скоростью превышающей v ц букв «л мы можем воспользоваться том. что с>ммп| <« и».«о — »м информации, содержащей и г, Г 6} кии* игра в . щ »• ста (где Т — время н< родичи), пи при кпипм 1 и» м«> < i быть меньше, чем г/ГН*, биг. <>>гюдп < рн iv иивч п , ч утверждение, выделенное курсивом пн сгр. .'Jill, (V । t справедливо и в случае передачи сообщений, б>ним к» торых взаимно зависимы, если только замоин и. скорость С С v = -ту букв/ед. времени па v — fj~ букв/ед. пре- пни ОО Будем теперь для простоты снова предполагать, ни отдельные буквы передаваемых сообщений впаимно и зависимы (т. е. будем всюду использовать обычную энтропию Н одной буквы, а не удельпую энтропию Н»\ К сожалению, строгое математическое докапаю и гпо о* новной теоремы Шеннона о кодировании при наличии и мех и в этом случае является все же довольно сложным В работе [1], положившей начало всей теории информации такое строгое доказательство вообще отсутствует; 1П< иной здесь ограничился лишь изложением ряда обпщх гонора жений, весьма наглядно объясняющих причины, по Koi • рым эта теорема должна иметь место. Позлее «I» а * и стейн (см., например, [5]) дал строгое докапаю и тв
f 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 351 основной теоремы Шеннона, идея которого кое в чем от- клоняется от первоначальных соображений Шеннона. Полное доказательство этой теоремы, близкое к выводу, вкратце намеченному в [1], содержится в работе Ш е н- н о н а [158], в которой одновременно показано, что на том же пути можно получить и заметно более сильные ре- зультаты, о которых мы еще скажем ниже. В настоящей книге мы начнем с разбора самых простых, идущих от Шен- нона, рассуждений, заставляющих считать основную теоре- му о кодировании правдоподобной, а в дальнейшем па стр. 373 и след, обрисуем также и метод строгого ее доказа- тельства, опирающийся на более глубокие соображения работы [1]; кроме того, учитывая очень большую важность рассматриваемой теоремы, мы дополнительно изложим мелким шрифтом в самом конце настоящего параграфа (на стр. 385—390) еще одно строгое ее доказательство для частного случая двоичной симметричной линии связи, идея которого родственна той, которую использовал Файп- стейн. Пусть р — опыт, состоящий в выборе (и последующей передаче по линии связи) одного из т элементарных сиг- налов А1г А2, ..., Ат с вероятностями р° (Лх), р° (Л2), ... ..., р° (Лт), которым отвечает наибольшая инфор- мация 1 (а, Р) (т. е. для которых реализуется пропускная способность нашей линии связи). Теорема Шеннона ут- верждает, что существует способ кодирования сообщений, позволяющий вести передачу со скоростью, сколь угодно близкой к v — L букв/ед. времени, где с = Я(Р) - На (Р) = II (а) - Яр (а) (но несколько меньшей этой величины1), так что вероят- ность ошибки при расшифровке принятого сообщения бу- дет мала (меньше произвольного заданного заранее мало- го числа). Так как за единицу времени мы можем передать L элементарных сигналов, то для достижения такой ско- рости передачи требуется, чтобы кодовое обозначение «блока» из N букв «в среднем» содержало бы около N (но несколько более этого числа) элементарных сигналов; при этом LT элементарных сигналов, переданных за
352 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл. IV LT vT большое время Т, будут содержать примерно #— = ~с^ кодовых обозначений, отвечающих сообщению из пример- но vT букв. Мы знаем (см. стр. 217—226), что на самом деле нам пет необходимости заботиться, чтобы длину, близкую к — 7V сигналам, имели кодовые обозначения всех nN = = 21°sn-JV различных TV-буквенных сообщений (где п — число букв алфавита). В самом деле, лишь 2UN из этих сообщений являются «вероятными»; что же касается остальных 2log,l iV — 2HW сообщений, то суммарная ве- роятность их появления при большом N будет очень мала, —и поэтому если даже их кодовые обозначения будут зна чительпо длиннее, то это все равно пе уменьшит заметно скорости передачи (остающейся близкой к L ~ букв./ед. времени). Заметим также, что для достижения высокой том ности передачи надо лишь позаботиться, чтобы перон инн п ошибки при расшифровке принятого во пики о оГшппгк’ ния каждого из 2HN «вероятных» Л' буквенных <<»<> щеня была мала, так как все ociti.ii.iii.io сооощскин сими ncipe чаются крайне редко и их учет мило что изменят. Мы будем искать способ кодирования, при котором длина кодового обоначеппя ^-буквенного блока будет равна — TV = TVj элементарным сигналам 1); здесь с{ — заранее выбранное число, которое должно удов летворять единственному у с л о в и ю: (но q может быть сколь угодно близко к с!). Число всех Н пт различных цепочек из — N элементарных сигналов равно —Д' 7,1 HN пгс‘ = 2 с* ; так как сх < с (Р) log m, то оно, наверное, больше, чем 2UN, и поэтому каждому из *) Как обычно, если число — N = не целое, то его надо С1 заменить ближайщим к нему целым числом. Это же замечание относится и ко всем другим встречающимся ниже числам, которые по своему смыслу обязательно должны быть целыми.
fi 41 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 353 2HN «вероятных» TV-буквенных сообщений может быть сопо- ставлена в качестве кодового обозначения своя цепочка из Л\ = — TV элементарных сигналов. Однако пам надо еще добиться, чтобы вероятность ошибки при расшифровке всех переданных кодовых обозначений была мала. Ясно, что для этого наши 2НА используемых кодовых обозначений должны сильно отличаться друг от друга — только при таком условии можно надеяться, что, несмотря на возмож- ные искажения сигналов в процессе их передачи по линии связи, мы все равно сможем достаточно надежно отличить друг от друга кодовые обозначения на приемном конце линии. Для того чтобы оценить возможное число таких силь- но отличающихся друг от друга Л^-член- ных кодовых обозначений, можно рассуждать таким образом. Каждая цепочка из Nl = N передаваемых элементарных сигналов At (где i = 1, 2, ..., или т) на приемном конце линии будет восприниматься как цепочка из некоторых элементарных сигналов В} (где j = 1, 2,... ..., г; ср. выше, стр. 332). Разумеется, передавая много раз одну и ту же цепочку Л,,Л/г ... , мы будем получать на приемном конце много разных цепочек BhBh...BjN —в этом как раз и проявляется случай- ный характер помех, воздействующих на передачу. Од- нако, передавая одну цепочку AitAis ... Л1дг, мы будем получать на приемном конце линии связи разные цепочки В^В)г ... BjN^ с разной частотой: одни из таких цепочек будут появляться при этом сравнительно часто, другие ясе — крайне редко х). Следующие соображения позво- ляют оценить примерное число цепочек ВлВ1г ... BjN , которые с не слишком малой вероятностью могут возник- нуть при передаче данной цепочки Ai,Ais, ... AiNe J) Например, в случае двоичной симметричной линии связи, рас- смотренной на стр. 335—336, при передаче Nt сигналов па приемном конце линии, очевидно, с очень большой вероятностью появится одна из цепочек, отличающихся от переданной цепочки... не меньше, чем на (р — б), и по больше, чем па (р + б), сигналов, где б — некоторое малое число (см. обсуждение за- кона больших чисел в § 4 гл. I). 12 A. M. Яглом, И. M. Яглом
354 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ (Гл. IV Предположим, что мы последовательно передаем по па- шей линии связи элементарные сигналы Л;, каждый раз выбирая передаваемый сигнал случайно (и независимо от всех ранее переданных сигналов) с вероятностями р° (Лх), р° (Л2), р° (Лт). В таком случае, согласно сказанному на стр. 225, при большом среди всех А\-членных цепочек вида ... AiN только 2Н<₽)ЛГ> цепочек будут «вероятными» (причем они все будут иметь примерно одинаковую вероятность); суммарная же веро- ятность того, что переданной окажется одна из остальных mNt — 2H<₽)W1 = 2log m'Wi — 2h<-^n' цепочек, будет крайне мала. Условимся выбирать все нужные нам Л\-члеп- ные кодовые обозначения из числа 2Н<₽^‘ «вероят- ных» JVj-члепных цепочек, а остальные такие цепочки вовсе пе будем рассматривать; это возможно, поскольку Я(Р)М = HN (ибо сх < с Н (р)), и, следовательно, общее число «вероятных» цепочек также превосходит требуемое число 2HW кодовых обозначений. Рассмотрим теперь всевозможные Цепочки Пн ш Л 1,,.. ...Ai^Bjfi^ .... BjN, < <»<• гошцие и.। Л, 111'реда111п.|* элементарных сигналов Ai и тех N, сигналов Bj, в кото* рые преобразовались аги сигналы А/ и процессе их пере- дачи по линии связи. Общее число таких 2Лг1-члеппых цепочек, очевидно, равно mN,rr., — 2(log ™ + log Г) N1. К ним также можно применить приведенные на стр. 225 соображения, из которых вытекает, что если все пе- редаваемые сигналы А( выбираются так, как это объясне- но выше, то только 2Н<“₽^1 из общего числа 2<10gm+10gr)JVi наших цепочек будут «вероятными» (и будут иметь при- мерно одинаковую вероятность); суммарная же вероят- ность всех остальных 2(,ogm+logr>lv> — 2Н<“₽^‘ цепочек будет крайне мала г). Следовательно, число «вероятных» *) В самом деле, 2А\-членная цепочка А- А, ...Аз В- В. ...В. J ii ъ ji ]2 может рассматриваться как цепочка (Л^В^) (Ai2B^)...(AiNt BjNt), состоящая из последовательных исходов составного опыта ар (с тг возможными исходами), имеющего энтропию Я(аР).
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 355 2А\-членных цепочек AitAlt... AiN B^Bj, ...BJn превосходит число «вероятных» передаваемых Аг1-члепных цепочек AitAtl ... AtN, в 2Щ<ЮЫ1 . 2Н(РЖ. = 2fff<aP)-H(P)] Nt = 2НР раз. Отсюда можно заключить, что каждой «вероятной» передаваемой цепочке АиА(г ... AiN отвечает целая груп- па из 2H₽(aWV’ цепочек BhBit ... BjN принимаемых сиг- налов, в одну из которых цепочка At,Ait ... AtN перей- дет с очень большой (т. е. очень близкой к единице) А; А; А; 4 1г 'н. 1’пс. 25. Группа вероятностью. Эту группу из 2н₽(а>л,‘ цепочек Bj,Blt ... ... BJn , отвечающих цепочке А^А1г ... AiN, мы для крат- кости далее будем называть отвечающей AltAtl... ... AiN группой S3 (см. схематический рис. 25). Комбинируя каждую из 2H<P)N1 «вероятных» переда- ваемых цепочек AtlAt, ... Л<ЛГ с 2н₽(а)ЛГ’ цепочками отвечающей ей группы S3, мы как раз и получим все 2Щар)А, «вероятных» цепочек AltAlt ... Ain BJtBh ... BJn. Две Л\-членные цепочки переда пасм ых сигналов Л ... и Лг'Лг' ... следует считать «сильно отлича- ющимися друг от друга», если соответствующие им две группы S3 н е пересекаются между собой. В са- мом деле, сообщение AhAlt ... Ain при передаче по нашей линии связи «почти паверпос» (т. е. с очень близкой к еди- нице вероятностью) перейдет в одну из цепочек BltBj2 ... ...В , принадлежащих первой группе S3, в то время как ЗА, сообщение А А > .... А • «почти паверпое» перейдет в *1 *2 ’Ai одну из цепочек, принадлежащую второй группе S3. 12*
356 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ I Гл. IV Поэтому если указанные две группы S3 не пересекаются между собой и известно, что передано было или сообщение А;,АI ...А , или сообщение А А > .... А • , то можно, на- 2 г1 *2 *лг, пример, во всех случаях, когда на приемном конце линии связи принимается одна из цепочек первой группы S3, считать, что передавалось сообщение AitAit ... , а когда принимается какая-то из прочих цепочек (включаю- щих также и все цепочки второй группы S3) — считать, что было передано А • А • ... А . Ясно, что при этом г1 г2 'А, вероятность ошибки при расшифровке принятого сообще- ния будет очень малой. Аналогично этому, если требуется подобрать 2Н‘7 различных кодовых обозначений из А\ сигналов Ai, то для того, чтобы вероятность ошибки ври расшифровке принятых сообщений была очень мала, доста- точно иметь возможность выбрать эти кодовые обозначе- ния так, чтобы все 2HN отвечающих им групп S3 не пре- секались между собой. Так как каждая группа S3 содержит 2n6(“)zv‘ = 2 с> IIN цепочек Ht, В h ... . то в 2HN групп S3 будет пходпи. 2 «• /ЦП(а) \ -2"п — 2\ •• ) H.V цепочек. Поскольку при этом все такие цепочки B„BJt ... ... BjN входят в «вероятные» 2А^1-членные последователь- ности A^At,... AiN Bj,Bj, ... Bj^, то и сами они есте- ственно будут «вероятными», т. е. будут относиться к чис- лу тех, которые не слишком редко возникают при после- довательной передаче сигналов Alf А2, Ат с вероят- ностями р° (Aj), р° (А2), .., р° (Ат) (независимо от того, какие сигналы передавались раньше). Число таких «ве- роятных» цепочек В31В}2 ... В jNi (т. е. «вероятных» це- почек из N\ последовательных исходов опыта а), как из- Saj. HN вестно, равно = 2 ®‘ HN Составим теперь отношение общего числа 2 с< «вероятных» цепочек В]t Bj2 ... ВjN к суммарному числу
§ 41 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 357 „I—i-—+i H/v / таких цепочек, входящих в 2IiN групп S3: —— ----= 2\ с* с* 7 = 2\ с« 7 = Мы видим, что если бы q было боль ш е, чем с, то это отношение было бы меньше единицы, т. е. полное число цепочек в наших 2IIN группах S3 было бы больше, чем общее число всех «вероятных» цепочек BSiBj, ... BjN; поэтому ясно, что при q с кодовые обозначения никак нельзя подобрать так, чтобы отвечающие им группы S3 не пересекались. Разумеется, этого и следовало ожидать, так как мы уже знаем, что со скоростью L ~ букв/ед. вре- мени, где q с, по нашей линии связи нельзя переда- вать сообщения так, чтобы вероятность ошибки при их расшифровке на приемном конце линии была бы сколь угодно мала. Но если q меньше с, то выписанное нами отношение оказывается большим единицы (так как в этом случае ------1 ^>0); более того, при очень большом N оно оказывается равпым числу 2, возведенному в очень большую степень, т. е. очень большим. Таким образом, при большом N пол ное число цепочек в 2ЯЛГ груп- пах S3 будет составлять п и ч т о яс н у ю ч а с т ь всего числа «вероятных» цепочек из cm палов Вр, это обстоятельство делает очень правдоподобным предполо- жение о том, что 2HN кодовых обозначений длины —N С1 можно выбрать так, чтобы отвечающие им группы S3 не пересекались между собой. А такой выбор кодовых обо- значений, как мы знаем, при достаточно большом N как раз и обеспечивает возможность расшифровки полученных сообщений со сколь угодно малой вероятностью ошибки. Приведенные выше соображения делают теорему Шенно- на весьма правдоподобной, по, разумеется, их нельзя рас- сматривать как ее строгое доказательство (это обстоятель- ство еще будет дополнительно разъяснено па стр.373—374).
358 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ П’л. IV Тем не менее пока мы ограничимся сказанным и переедем к разбору некоторых других связанных с теоремой Шен- нона вопросов; в дальнейшем, однако, мы приведем на стр. 374—383 красивое (но не очень простое) рассуждение (идея которого также принадлежит Шеннону [1]), убедительно показывающее, что действительно должен существовать такой выбор 2UN кодовых обозначений, который обеспечивает если не полное отсутствие пересе- чений соответствующих 2HN групп 53, то, по крайней мере, достаточную малость этих пересечений, не препят- ствующую тому, чтобы вероятность ошибки при расшиф- ровке могла быть сделана сколь угодно близкой к нулю. Еще более подробно мы разберем в самом конце настояще- го параграфа (на стр. 384—390) другое строгое доказатель- ство основной теоремы о кодировании, относящееся, впро- чем, лишь к специальному случаю двоичной симметрич- ной линии связи. Мы предоставляем читателю самому решить, стоит ли ему тратить время на разбор всего этого материала (и когда — сейчас же или позже, следуя при пятому в книге порядку изложения) или же он пред ночи тает ограничиться лишь приведенными выше нес цхп ими соображениями; в этом последнем <• is'tm ие<ч> шин ц настоящего параграфа (начиная < нпчилп rip 3».1 и до стр. 390) читатель может просто ши.. Предупро дим только заранее, что оба излагаемых и конце napaipa- фа доказательства теоремы Шеннона (так же как и нее другие известные ее доказательства) являются н е э ф- ф е к т и в н ы м и : из них следует, что при достаточно большом N обязательно существует такой способ выбора кодовых обозначений, который гарантирует, что вероят- ность ошибки при расшифровке каждой буквы получен- ного сообщения не будет превосходить заданного (произ- вольно малого) числа е, но они ничего не говорят о том, как можно найти такой способ выбора кодовых обозна- чений (ср., впрочем, начало следующего параграфа книги, где это обстоятельство будет разъяснено более точно). Вопросу о том, как на самом деле следует выбирать кодовые обозначения для того, чтобы сделать вероятность ошибки при расшифровке достаточно малой, будет посвящен по- следний параграф нашей книги.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 359 Теорема Шеннона не только не позволяет указать, как именно надо выбирать кодовые обозначения для того, чтобы сообщения можно было передавать по используемой линии связи с заданной скоростью < v = букв/ед. времени, и притом так, чтобы вероятность ошибки при передаче не превосходила заданного малого числа е — опа даже по позволяет сказать, как велико должно быть число N букв в блоке, которому сопоставляется одно кодовое обозначение, для того, чтобы такая передача оказалась возможной. Из этой теоремы следует лишь, что если раз- решить выбирать N с ко л ь угодно большим, то передача со скоростью г?х и вероятностью ошибки, не большей е, будет возможна, какими бы ни были v±<. v и е 0. Так как, однако, при возрастании 7Vсущест- венно возрастает сложность расшифровки кода и увеличи- вается запаздывание при расшифровано, то для практики небезынтересно уметь оценить также и наименьшее зна- чение вероятности ошибки е, которое может быть достиг- нуто при передаче с заданной скоростью г\ с помощью кода, сопоставляющего отдельные кодовые обозначения не более чем N-буквенному блоку, где N — какое-то з а- данное число. Последнему вопросу посвящено боль- шое число работ К. Шеннона, Л. Файпстейпа, П. Элайеса, Дж. Вольфовица, Р. Г. Галлагсра, Р. Л. Добрушина и других ученых; подробное изложение полученных ими результатов может быть найдено, например, в статьях [158] — [161] и книгах [5] — [71, [211 и [22|, которые все заметно сложнее настоящей книги. Не вдаваясь в подроб- ности, мы ограничимся тем, что укажем здесь основной факт, вытекающий из всех этих работ. Напомним, что передача W-буквенпых блоков со ско- ростью i\ = L букв/ед. времени, где сг < с, достига- ется в случае использования кодовых обозначений отдель- ных блоков, состоящих из А\ = — N элементарных сиг- налов каждый. Таким образом, числа N и N± пропорцио- нальны друг другу; при вычислении вероятности ошибки,
3130 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1ГЛ. IV соответствующей данным значением щ ~ L ~ и N, удоб- но вместо ъ\ и N использовать значения q и Nx, более не- посредственно описывающие процесс передачи информа- ции по линии связи. Оказывается, что при фиксированных q < с и всегда существует такой метод передачи (г. е. метод кодирования — выбора 2ClNi Л\-членных ко- довых обозначений — и метод декодирования — прави- ла расшифровки принимаемых А\-членных цепочек эле- ментарных сигналов), при котором вероятность ошибки при расшифровке каждого передаваемого кодового обозна- чения не превосходит величины где а — некоторое число, большее единицы г). Число а, разумеется, зависит от с1 — чем меньше щ (т. е., факти чески, чем меньше скорость щ передачи информации ио линии связи), тем оно больше. Вообще говоря, можно бы было думать, что при приближении с, (я, апачиi. и г\) кнулю число а будет неограниченно iKiapnrinii (юн как неограниченно уменьшая скороегь передачи информации МОЖНО добиться СКОЛЬ угодно малой неров ной' III ошибки при любом фиксированном Л). Па самом деле, однако, вывод приведенной выше формулы для е при очень малых скоростях передачи оказывается довольно грубым и иыгг *) Приведенную здесь формулу можно, конечно, записать 1 Г и так: е = —— , где щ — а * 1 •— новое число (так же большее единицы). При этом, однако, щ оказывается уже зависящим и от энтропии Н передаваемого сообщения, в то время как а опреде- ляется лишь значением ст и характеристиками используемой липин связи. Читателям, знакомым с натуральными логарифмами, по- лезно также иметь в виду, что в научной литературе формула для е обычно записывается в виде е = e~ENt, где е — 2,718...— основание натуральных логарифмов, а Е = In а — натуральный логарифм (при основании е) числа а. Поскольку функция у = ё~Ех в высшей математике называется экспоненциальной, последняя формула для величины е, ограничивающей вероятность ошибки при передаче, часто называется экспоненциаль по й гра- ницей вероятности ошибки или даже просто экспоненциальной границей ошибки.
5 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 361 кающие из него результаты обычно указывают па стремле- ние а к конечному значению при ех -> 0. При приближении же сх к с (т. е. скорости передачи гх к v) число а стремится к единице, так что и е с ростом гх все более и более приб- лижается к единице. Значение а при заданном е, будет разным для разных линий связи; схематический вид зависимости а от с, для фиксированной такой ли- нии изображен па рис. 2(>. Ясно, что теорема Шен- нона о кодировании при наличии помех непосред- ственно вытекает из при- веденной формулы для е и того факта, что а 1 при любом сх с. Более того, эта формула пред- ставляет собой заметное усиление теоремы Шенно- на, утверждающей лишь что е можно сделать сколь угодно малым, если только (или, что то же самое, 7VX) будет выбрано достаточно боль- шим (но ничего не говорящей о том, как именно убывает е с ростом 7V). Последнее обстоятельство мы как раз и име- ли в виду на стр. 351, когда отмечали, что в работе [158] были получены результаты более сильные, чем основная теорема о кодировании. Перейдем теперь к случаю передачи сообщений со скоростью Vy, боль ш е й предельной скорости v = = L ~ букв/ед. времени. .Этот случай, вообще говоря, ме- нее интересен, чем случаи передачи со скоростью гх < < v, а относящиеся к нему результаты менее неожидан- ны, чем основная теорема Шеннона; тем не менее он тоже заслуживает рассмотрения. Па стр. 348 мы уже отмечали, что безошибочная передача информации пе может происходить со скоростью vL v букв/ед. времени; ана- логичное утверждение можно найти и па стр. 357, где ука- зывалось, что если сх с, то 2,/N групп отвечающих кодовым обозначениям всевозможных «вероятных»
362 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV 2У-буквенных блоков, никак нельзя выбрать так, чтобы они не пересекались между собой. На самом деле, однако, при- веденные на стр. 348 и 357 рассуждения сами по себе поз- воляют сделать лишь довольно поверхностные выводы. Верно, конечно, что безошибочная передача сообщений не может быть осуществлена со скоростью, превышающей р = букв/ед. времени; однако ведь и в случае передачи со скоростью щ < v мы не утверждали, что возможна безошибочная передача сообщений, а говорили лишь, что в этом случае вероятность ошибки при передаче каждой буквы может быть сделана сколь угодно малой (с помощью использования в качестве кодовых обозначений достаточ- но длинных цепочек элементарных сигналов) 1). Поэто- му точная формулировка теоремы, обратной основной теореме Шеннона, должна состоять вовсе не в утверждении, что при v невозможна безошибочная пере- дача информации, а в утверждении, что для любого фик- сированного г?1 v можно найти такое положительное число q0 > 0 (которое, видимо, должно зависигь <>т /, и при увеличении vr возрастать), что в случав нс/иитчи ин формации по линии связи со скоростью щ мроятности ошибки q при расшифровке каждой щ р< intitou (щк*14 сооб- щения при любом методе кодирования и депонирования (независимо от значений N и будет не меньше, чем q„. Предположение о справедливости такой обратно и теоремы о кодировании при нали- чии помех было высказано еще в работе Ш е п- н о н а [1], а затем было строго подтверждено Фано [6]; к рассмотрению ее доказательства (основывающегося на идеях Фано) мы сейчас и перейдем. х) Заметим в этой связи, что в работе [162] Шеннон ввел так- же понятие пропускной способности Со липин связи при нулевой ошибке, определив ее как на- ибольшую скорость (в бит/ед. времени), с которой по данной линии можпо вести точно безошибочную передачу информации. Рассужде- ние на стр. 348 показывает лишь, что ни для какой липни связи Со не может превосходить определенной на стр. 334 пропускной спо- собности С •—' обстоятельство, которое кажется почти очевид- ным. На самом деле пропускная способность при нулевой ошибке обычно заметно меньше, чем С, причем любопытно, что она оказы- вается более сложной величиной, чем обычная пропускная способ- ность — ее, вообще говоря, значительно труднее вычислить и опа имеет куда менее наглядный смысл.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 363 Прежде всего, однако, нам надо пемпого уточнить са- му формулировку рассматриваемой теоремы. Легко видеть, что если при определении вероятности ошибки в расшифров- ке переданной буквы мы будем считать точно известным, какая именно буква передавалась, то приведенная выше формулировка никак не сможет оказаться верной. Дей- ствительно, мы можем, например, условиться расшифро- вывать все принимаемые буквы как первую букву алфави- та — при этом вероятность ошибки будет равна нулю во всех случаях, когда на самом деле передавалась именно первая буква. С другой стороны ясно также, что расшиф- ровывать все принимаемые буквы как первую букву не- целесообразно — здесь мы, фактически, вообще никак пе используем линию связи и будем ошибаться каждый раз, когда передавалась любая буква, отличная от первой; поэтому средняя вероятность ошибки в этом случае будет велика. В то же время наиболее естественным представля- ется понимать вероятность q ошибки при расшифровке од- ной переданной буквы именно как сродню ю в с- роятность ошибки — ив дальнейшем именно так мы и будем поступать. Итак, предполжим, что передается текст, записанный с помощью «-буквенного алфавита аг, а2, ..., ап, причем вероятности появления на произвольном (но фиксирован- ном) месте в этом тексте букв ах, «г, ..., ап равны, соот- ветственно, р1г р2, ..., рп- Под д мы будем понимать сред- нее значение вероятности ошибки, т. е. величину Q = PiQi + РчЧг + ••• + Рп<7п, (*) где qx — вероятность того, что буква ах после передачи по линии связи будет ошибочно принята за отличную от ах букву алфавита, и аналогичный смысл имеют величины <?2, •••> Qn- Существенно, что это же среднее значение q может быть вычислено и иначе. Пусть plt р2, ..., рп — вероятности обнаружить буквы ах, а2, ..., ап на произволь- ном (по фиксированном) месте сообщения, полученного на приемном конце линии связи с помощью расшифровки пришедшей по этой линии последовательности элементар- ных сигналов. Обозначим далее через qx вероятность того, что полученная на приемном конце буква ах была расшиф- рована неправильно (т. е. что па соответствующем месте
364 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Н’л IV переданного сообщения стояла отличная от а± буква), а через q2, ..., q-п — аналогичные же вероятности ошибок, относящиеся к случаям приема букв а^, ..., ап. Ясно, что вероятности рг, р2, ..., рп, вообще говоря, не будут совпадать с рг, р2, рп (они зависят и от вероятностей Рп Pz, • ••» Рп, и от методов кодирования и декодирования, и от характеристик линии связи). Однако среднее зпачс ние вероятности ошибки при передаче одной буквы можно выразить и через них х): q = РЛ + р'л + (**) Именно формулой (**) мы, в основном, и будем пользе • ваться ниже. Переходя к доказательству обратной теоремы о кодиро- вании при наличии помех, начнем с простейшего случая, когда передаваемое сообщение записано с помощью двух буквенного алфавита (буквы алфавита в этом случае удоб- но обозначать через «а» и «б»). Пусть р — это опыт, coc.ro ящий в определении передаваемой буквы сообщения (ш> передаваемого по линии связи племен гарного сш na,i<i, kiii это было на стр. 333, н именно буквы!), и > oiiui, состоящий в расшифроакс буквы, но n'trillion на прием ном конце линии связи. Тогда оба .ни опыта jioiy t имен, два исхода («я» и «б»), причем вероятности двух во.тмож ных исходов опыта а равны pt и р.г (так что -|- р, = 1), вероятности двух исходов р при условии, что опыт а имел исход «а», равны 1 — q, и qu вероятности тех жо двух исходов р при условии, что опыт а имел исход «б», равны <?2 и 1 — q2. Следовательно, Яа(Р) = — <h log — (1 — ft) log (1 — , Яб(Р) = — ft log q2 — (1 — q^) log (1 — q£, где II„(Р) и ZZe(P) — условные энтропии опыта р при условии, что опыт а имел исход «а» и, соответственно, «б». *) Нетрудно понять, что и правая часть формулы (*), и правая часть формулы (**) определяет среднюю частоту оши- бок в последовательности расшифровок большого числа букв переданного сообщения.
ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 365 § 41 Введя, как и на стр. 75, в рассмотрение функцию h (Р) = — Р log р — (1 — р) log (1 — р), можно переписать последние равенства в виде На (0) = h (ft), Нб (0) = h (ft). Отсюда видно, что На (Р) = Pl на (Р) 4- р2 Нб (Р) = р[ h (ft) + р2 h (ft). Воспользуемся теперь тем, что функция h (р) (график ко- торой изображен на рис. 8, стр. 75) является выпуклой функцией в смысле, разъясненном в Приложении I на стр. 441. Поэтому в силу теоремы 2 этого Приложения (стр. 444) при любых неотрицательных и р2 таких, что рг + Р2 = 1, Pih(Qi) + р'л Цд2) < htp'^'i + p2ft) = h (q), где g = pigi + p2ft. Тяким образом, 77a((3) < h (7) (A) И I (a, 0) = H (0) - Ha (0) > H (0) - h (q). Вспомним теперь, что I (a, 0) — это информация, со- держащая в произвольной букве текста, принятого на приемном конце линии связи, относительно соответствую- щей буквы переданного сообщения. За единицу времени по линии передается vL букв, т. с. передается количество информации, равное vj(a, 0) (последовательные буквы сообщения мы считаем взаимно независимыми). Но ведь количество информации, переданное за единицу времени, не может превзойти пропускную способность С нашей линии связи '); поэтому, тем более, Н (0) - h (7)1 < С. *) Напомним, что С равно максимальной информации о пере- даваемых элементарных сигналах, которую можно извлечь из принимаемых за единицу времени на приемном конце элементарных сигналов. Если кодирование последовательности букв сообщения в последовательность элементарных сигналов неоднозначно (например, если используется описанное ниже па стр. 375 «случайное кодирование»), то переход от1 опыта а к опыту щ, состоящему в определении передаваемых элементарных сигналов,
366 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Так как С Я(₽) = v, то последнее неравенство удобно пе- реписать в виде М?) у Н (3) V! (Б) Рассмотрим график функции 1 — = g (д) (см. рис. 27, а, б, на которых эта функция изображена для случая, когда 11 (0) = 1, т. о когда игхо (Ы «л» к »б» они таРравновероятны, и для одного из случаен, когда // (fl) • 1). Он показывает, что если v, т. е. если — > 1, то неравенство (Б) может быть удовлетворено при всех зна- чениях д, включая и значение д = 0. Если же v, т. е. — <С 1, то это неравенство может выполняться лишь тогда, когда значение д принадлежит некоторому интервалу зна- чений, расположенному левее точки дй, где дй > 0. Таким образом, при v средняя, вероятность ошиб ки д не может быть меньше некоторого д0 0, т. е. мы доказали то утверждение, которое выше было названо обратной теоремой о кодировании при наличии помех. будет сопряжен с какой-то потерей информации; аналогичный эффект будет иметь и неоднозначность декодирования. Для пас здесь, однако, важно лишь то, что в любом случае информация v1 Ца, Р) о передававшихся буквах, содержащаяся в принятых буквах, не может быть больше, чем С (ср. стр. 123).
§ 4] ПЕРЕДАЧА СООБЩЕНИИ ПРИ НАЛИЧИИ ПОМЕХ 367 С ростом (т. е. с уменьшением —) значение q0 увеличи- вается; при рх —> оо (т. е.--—> 0) оно, очевидно, стремит- ся к вероятности р2 той из передаваемых букв («а» или «б»), которая передается реже, чем вторая буква. Впро- чем, последний результат является совершенно естес г- венным: ведь при очень большой скорости передачи мы не сможем передать по нашей линии почти никакой полезной информации, и поэтому наиболее разумным ме- тодом расшифровки в этом случае будет метод, при кото- ром все принимаемые буквы расшифровываются как буква, имеющая большую вероятность быть переданной. Но при такой расшифровке средняя вероятность ошибки q будет, очевидно, равна вероятности более редко упот- ребляемой буквы (заметим, что для указанной «расшиф- ровки» линия связи вообще не нужна). Если же вероят- ности появления обоих букв текста одинаковы, то при очень большой скорости передачи, когда линия связи во- обще оказывается бесполезной, у пас вовсе по будет ни- каких оснований для выбора того или другого значения принятой буквы, так что здесь расшифровку вполне можно производить «наудачу». Средняя вероятность ошибки q в этом случае при > оо будет стремиться к , так как эт о и есть вероятность ошибки при расшифровке «наудачу» (и одновременно вероятность «более редкой» буквы). Схе- матически график зависимости нижней границы q0 ве- роятности ошибки от скорости передачи изображен па рис. 28. То обстоятельство, что при vt < гэтот график сов- падает с осью абсцисс (т. е. q0 = 0), очевидно, соответст- вует основной теореме Шеннона о кодировании — тому,
368 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл IV ! что при t\<i v вероятность ошибки можно сделать сколь ' угодно малой (но, разумеется, наш вывод, доказывающий лишь, что средняя вероятность ошибки не может быть м е н ь ш е, ч е м q0, сам по себе еще но дао г оснований утверждать, что при г, <С v величина q дейст- вительно может быть сделана сколь угодно малой). Поло- жительность же q0 при всех v1'^> v как раз и составляет содержание обратной теоремы о кодировании. Случай, когда передаваемое сообщение записано на языке, использующем алфавит из п букв а15 а2, ... ,л„, ненамного сложнее разобранного выше частного случая двухбуквенного алфавита. Здесь, однако, вместо совсем элементарного неравенства (А) приходится использо- вать более общее неравенство Фано, имеющее вид Яа(₽) < h (q) + q log (га - 1), (A') где аир имеют тот же смысл, что выше, aq — это опять средняя вероятность ошибки. Неравенство Фано (А') имеет очень простой и пае пщ ный смысл. В самом деле, На($) — это средним < и.... неопределенности исхода опыта (1 при плпгетпом п< ходи опыта а. Но исход опыта р при известном исходе а мол. но найти с помощью следующих двух вспомогательных опытов. Прежде всего мы выясняем, произошла ли или не произошла ошибка при передаче соответствующей буквы сообщения. Это значит, что мы производим опыт у, могущий иметь лишь два разных исхода (ответы «да, произошла» и «нет, не произошла»). Средняя вероятность положительного исхода опыта у (ответа «да») равна q\ используя выпуклость функции h(p), отсюда легко вы- вести, что средняя степень неопределенности результата нашего первого вспомогательного опыта не может прев- зойти h (q) (см. на стр. 365 неравенство, предшествующее неравенству (А), а также аналогичный общий вывод па стр. 391). Далее, ясно, что если ошибки при передаче не было (т. е. если исход опыта у был отрицательным), то результаты опытов у и а уже однозначно определяют исход р. Если, однако, исход у окажется положительным (что происходит в среднем в доле q всех случаев), то зна- ние исхода опыта у еще не снимает неопределенности в исходе р — здесь нам придется произвести второй вспо-
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 3G9 могательный опыт у„ чтобы выяснить какой же именно из п — 1 отличных от принятой букв была в действитель- ности переданная буква. Этот второй опыт может иметь п — 1 различных исходов; поэтому степень его неопределенности (энтропия опыта ух) не может превзой- ти log (и — 1). Понятно, что общая степень неопределен- ности Яа(0) должна равняться степени неопределен- ности первого вспомогательного опыта у, сложенной со степенью неопределенности второго опыта умножен- ной на среднюю частоту случаев, в которых этот второй опыт оказывается нужным. Отсюда сразу следует нера- венство Фано (А') (подробнее об этом см. текст, напечатан- ный мелким шрифтом на стр. 390—392). Заметим теперь, что из неравенства Фано сразу сле- дует неравенство 1(а, 0) > Н(0) - h (q) - q log(n - 1). Поэтому г, IH (0) - h (q) - ?log(/t - 1)1 < C, где C = v-H (0), t. e. . Л (g) — <7 log (n — 1) V 1 O)--------------- В частном случае, когда = log п, функция „ 1„\ л Мд) — <? log(n—1 gn = 1--------------------j лишь постоянным множи- телем отличается от функции С (р), изображенной (в пред- положении, что н=4) на рис. 20 на стр. 340; для удобства мы воспроизводим аналогичный график и па следующей странице. Рядом на том же рис. 29 изображен схемати- ческий вид графика функции gn(q) при W(0) < log п (т. е. в случае, когда пе все буквы алфавита равноверо- ятны). Мы видим, что если vL < v (т. е. — > 1), то нера- венство (Б') оказывается справедливым при любом q 0; если же v (т. е. 1), то оно будет выполняться лишь для значений q, больших некоторого положитель- ного числа q0. Тем самым доказано, что обратная теоре- ма о кодировании верна и в общем случае п -буквенного алфавита. Зависимость значения q0 от скорости пере- дачи v здесь основа имеет вид, схематически изображен-
370 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV ный на рис. 28; предельное значение д0 при vt —> оо (т. е. при —-—>()) в случае, когда Н ((3) = log и, равно -----, а при уменьшении //(р) оно уменьшается 1). Заметим, что доказанные в настоящем параграфе основная теорема о кодировании при наличии помех и обратная теорема о коди- ровании сильно различаются как по методу доказа- тельства, так и по самому своему карамору. Ираида в формулировке обеих теорем речь идет о но роя i нос ги ошибки в определении одной переданной букв ы; од- нако па самом дело при рассмотрении осиянной теоремы о кодировании исходные буквенные сообщения лишь вкратце упоминались в начале обсуждения, а затем рас- сматривались лишь непосредственно передаваемые по линии связи цепочки из ^элементарных сиг- налов. Существенным здесь было лишь то, что при использовании кодовых обозначений, представляющих со- бой цепочки («блоки») из Л\ элементарных сигналов, передача со скоростью = L~ букв/ед. времени тре- ’) Если очепь велико, то линия связи становится бесполез- ной, и поэтому здесь остается расшифровывать все принимаемые буквы, как самую вероятную из передаваемых букв; при этом средняя вероятность ошибки q будет равна 1— pj, где Pi — наибольшая из вероятностей букв алфавита. Так как, однако, неравенство (Б') не является точным, то получаемая из него оценка нижней границы д0 средней вероятности ошибки не должна, во- обще говоря, обязательно совпасть с наменьшим реально достижи- мым значением q.
§ 4] ПЕРЕДАЧА СООБЩЕНИИ ПРИ НАЛИЧИИ ПОМЕХ 371 бует, чтобы эти обозначения сопоставлялись А^-буквеп- ным сообщениям, где N = jyN1, т. е. чтобы (в случае достаточно большого Nt) имелось не менее чем 2C,,V, = = 2HN «вероятных» (и притом имеющих практически одинаковую вероятность) кодовых обозначений. Таким образом, нам падо было лишь доказать, что если сг < с (где с = max 7(а, 0)), то при достаточно большом всегда можно выбрать 2‘,N' кодовых обозначений длины Ny таким образом, чтобы вероятность ошибки при рас- шифровке принятой на приемном конце линии связи це- почки из Nj элементарных сигналов была меньше произ- вольного (но заранее заданного) числа г, независимо от того, какое именно кодовое обозначение передавалось (число в здесь естественно выбирать очень малым — ска- жем, равным 0,001, или 0,0001, или 0,000001). Именно это утверждение (относящееся лишь к линии связи и пе- редаваемым по ней длинным цепочкам элементар- ных с и г н а л о в, но никак не связанное с исходными буквенными с о о б щ е н и и м и) и составляет суть основной теоремы о кодировании. Что же касается до обратной теоремы о кодировании, то она уже по су- ществу относится к буквам исходного сообщения, по не к передаваемым по линии связи цепочкам элементарных сигналов. Существует, одиако, и другая теорема, также обрат- ная основной теореме о кодировании, которая ужо ка- сается лишь линии связи и длинных цепочек передава- емых по ней элементарных сигналов. Согласно этой теореме, если сх> с и Nj, достаточно велико, то как бы мы ни выбирали 2C,N1 равновероятных кодовых обозначений (т. е. цепочек элементарных сигналов) длины и как бы мы ни расшифровывали принимаемые цепочки из сигналов, все равно средняя вероятность того, что мы оши- бемся в расшифровке принятой цепочки, будет больше произвольного (но заранее заданного) меньшего единицы числа р0 (число р0 здесь естественно выбирать достаточно близким к единице — скажем, равным 0,999, или 0,9999, или 0,999999). При этом, разумеется, чем ближе будет рп к единице, тем большими будут требуемые значения Nv Что же касается до средней вероятности ошибки, фигуриру- ющей в условиях теоремы, то она, очевидно, совпадает
372 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Г• IV со средним арифметическим Л),1 + Л),2 Н-Ь Р0,2с*№ 2Ci2Vi ’ где р01} — это вероятность ошибки в расшифровке в том случае, когда передавалось i-e из наших 2C,N1 кодовых обозначений. Справедливость сформулированной теоремы тесно спи эана с тем, что, как было показано на стр. 357, при г, и очень большом общее число TVj-членпых цепочек в 2C1N» группах ЗВ (т. е. в группах принимаемых «веронт ных» цепочек, отвечающих имеющимся 2C1IV> кодовым обозначениям длины Л\) будет в громадное число раз про восходить общее число всех «вероятных» принимаемых цепочек. Поэтому принимаемые ^-членные цепочки бу дут, вообще говоря, одновременно принадлежать громил ному числу различных групп ЗВ, так что вероятное t ь их правильной расшифровки будет очень мала. Эти го обряжения делают нашу теорему крайне правдою, «><» ной, хотя они и не могут заменить ео строгого loiui.nire и. ства. Такое доказательство может быть найдено напрнм* р, в книгах [7], [21] или [22]; оно но очень про* к» и мм ••• нем здесь не задержимся. Сама piuotai рнниеман была названа Вольфоаицем (впервые ей cipi>i<> (ока ion гпим) усиленной обрат и о й т о о р о м о й о кодировании при и а л и чи и н о м о х — и это ее название часто используется н jnuepnrypi по теории информации; одпако оно не очень удачно, так как может создать неверное впечатление, что доказанная пынн обычная обратная теорема о кодировании вытекает ill этой новой теоремы (на самом же деле ни одна из приведен ных здесь двух обратных теорем о кодировании не яв ляется следствием другой из них). Поэтому, вероятно, более целесообразно, следуя Галлагеру |22|, на- зывать рассматриваемую теорему обратной г г оремой о блочном кодировании при наличии п о м е х (т. е. о кодировании, использую щем в качестве кодовых обозначений блоки элементар- ных сигналов фиксированной длины).
5 41 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 373 Вернемся теперь к более аккуратному разбору дока зательства основной теоремы Шеннона о кодировании при наличии помех, о которой шла речь на стр. 349 и след, нашей книги. Начнем прежде всего с того, что, следуя работе С. 3 а р е м б a f 1 63I, приведем пример, наглядно показывающий, что из крайней малости общего числа цепочек В,,В]2 ... BjN в 2llN группах SB по сравнению с полным числом таких «вероятных» цепочек еще вовсе не следует, что эти группы можно выбрать так, чтобы они не пересекались между собой. Рассмотрим с этой целью совокупность всевозможных цепочек ил 10 элементарных сигналов, каждый из которых может принимать два зпа чения. Ясно, что общее число таких цепочек равно 210 = = 1024. Сопоставим, далее, каждой цепочке группу всех 10-членных цепочек, отличающихся от данной не более чем тремя сигналами. Кроме данной цепочки эта группа, очевидно, будет содержать С}0 = 10 цепочек, отличающихся от данной ровно одним сигналом, = = 45 цепочек, отличающихся ог данной двумя сигнала ми, и Cio = 120 цепочек, отличающихся or данной тремя сигналами; итого группа будет состоять из 1 -|- 10 -|- + 45 + 120 = 176 цепочек. Так как 176 — это почти в шесть раз меньше, чем 1024, то можно было бы ду- мать, что три цепочки здесь без особого труда можно выбрать так, чтобы отвечающие им 3 группы из 176 це- почек не пересекались между собой. Однако это неверно: можно показать, что группы, отвечающие любым трем цепочкам, обязательно пересекаются. Действительно, обозначим два значения наших сиг- налов цифрами 0 и 1, и пусть, например, одна пл групп — это группа, сопоставляемая «пулевой цепочке» из десяти нулей. Легко понять, что с этой группой не будут пересе- каться лишь группы, сопоставляемые 10-членным цепоч- кам, содержащим больше шести цифр 1. Но в любых двух 10-членных цепочках, содержащих по семь или больше цифр 1, не меньше четырех из этих цифр 1 распо- ложены в обеих цепочках на одних и тех же местах. Следовательно, паши две цепочки отличаются между собой не более чем на шесть сигналов, и, значит, отвеча- ющие им группы пересекаются между собой. Разумеется, ничего не изменится, если мы начнем с любой другой
374 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл. IV цепочки (а не с «нулевой цепочки» 0000000000): дне паши группы из 176 цепочек, не пересекающиеся с одной и ш* же третьей группой, обязательно пересекаются ыс к собой. В точности так же показывается, что и при лих ом к среди групп (Зк1)-членных цепочек, отличающи чя от какой-то одной такой цепочки не более чем в к сигнала г, нельзя найти более двух непересекающихся групп. Между тем можно показать, что отношение числа цепочек п т« кой группе (равного сумме 1 + СзЛ+1 + + ... ...+Cafc+1) к общему числу всех вообще (ЗЛ + 1)-члспных цепочек (равному 23fc+1) с возрастанием к все время убы вает; так, при к = 8, Зк + 1 = 25 это отношение будет уже близко к -эд-, а если выбрать к достаточно большим, то можно даже добиться, чтобы указанное отношении оказалось сколь угодно малым (меньшим лю- бого заранее заданного малого числа). Таким обрпэом, общее число цепочек в трех группах может сое inn nt и. ничтожную часть числа всех вообще цепочек — н н м ни менее любые три группы обязательно будут nepi < ritniu и Поэтому и в случае теоремы Шеннонн iic.ii.ih пр<и io м<> тивировать возможность выбора 2,,N пенерегпкающвхс и групп тем, что общее число цепочек и них очень мало по сравнению с числом всех вообще «вероятных» цепочек; требуется еще строго доказать, что в данном случае дело обстоит не так, как в примере Заремба. На самом деле до сих пор никому не удалось строго доказать, что 2HN цепочек Ai,Ai2 ... Ain можпо выбран, таким образом, чтобы никакие две из отвечающих им 2®N групп ЗВ не пересекались между собой. Однако можпо показать, что наверное существует такой выбор эшх цепочек, при котором соответствующие группы S3 п о ч т и не будут пересекатьс я,— и поэтому их пересечением можно будет пренебречь. Этот факт может быть сделан очевидным с помощью следующего рас- суждения, принадлежащего, в основных чертах, Шейп о- н у [1]. Начнем с того, что выберем нужные нам 2"'v цепочек Л^Л^ ... Лглу с помощью метода, который сна- чала может показаться явно неразумным, а именно — наудачу. Такой выбор «наудачу» можно осуществить
| «1 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 375 так; перенумеруем все 2H<(3)/V1 «вероятных» цепочек Ai,Ait ... в произвольном порядке, выпишем их номера на 2H<₽)N* бумажек, сложим зти бумажки в урну и перемешаем, а затем будем 2HN раз подряд вытаскивать из урны по одной бумажке, возвращая после каждого извлечения вытащенную бумажку обратно и снова пере- мешивая содержание урны. Цепочки Ai,At,... с извлеченными номерами мы и примем за паши 2H!V ко- довых обозначений (такой метод выбора кодовых обозна- чений носит название случайного к од и р о в а- п и я). Ясно, что при случайном кодировании один и тот же номер может оказаться вытянутым два или больше раз, так что некоторые из 2HN отобранных цепочек ока- жутся просто совпадающими между собой и их, разумеется, никак нельзя будет различить на приемном конце линии связи; одно зто обстоятельство создает впе- чатление, что предложенный метод выбора кодовых обоз- начений безусловно является нерациональным. Па са- мом деле, однако, при большом N вероятность такого совпадения будет ничтожно мала (так как число 2W(P)W| = = 2 с> различных «вероятных» цепочек при боль- шом N будет в очень много раз больше числа 2HJV); как будет видно из дальнейшего, это позволит нам не считать- ся с возможностью совпадений. Предположим теперь, что по пашей линии связи были последовательно переданы сигналы Alt, At„...,AiNt совокупность которых как раз и составляет одно из выб- ранных нами кодовых обозначений. Из-за наличия помех эти сигналы, вообще говоря, будут как-то искажаться при передаче; в результате па приемном конце линии мы получим отличную от A i,A t, ... А(д, последователь- ность сигналов BjJBj, ... ВjN . Ясно, что цепочка Bjfilt ... BjN с очень близкой к единице вероятностью будет принадлежать отвечающей цепочке Ai,Ai2 ... A1n группе S3. Но эта же цепочка BJt В]г ... Bj^ будет одно- временно принадлежать также и группам SB, отвечающим целому ряду других цепочек из передаваемых сигна- лов; именно это обстоятельство и делает затруднительной расшифровку принятого сообщения.
376 ПЕРЕДАЧА СООБЩЕНИЙ ПО МЕНЯМ С1Л1М III । Общее число различных «вероятных» цепочек . ... Л;]У) таких, что отвечающие им группы S3 содержи* заданную цепочку BjtBh ... BjNi, можно оценки. Лт| труда. В самом деле, общее число «вероятных» Л’, членных цепочек Лг1Л12 ... Л^B}1Blt ... B$Nt, клк мы знаем, равно 2Н<“₽)®*, причем входящие в них цепочки B]tBjt ... BJn все принадлежат к числу равно правных «вероятных» принимаемых цепочек. Таким оПра зом, число «вероятных» 27У1-членных цепочек превосхо* дит число «вероятных» JVj-членных цепочек В3lB Группа Л Рис. 30. О В; В: ...В; h Jz Ju. в 2®(“>®* = 2H|x(P)/V1 раз. Отсюда можно тнчю чить, что всевозможные «воротпшч 2А', членные n«noi ки получаются с помощью i<oM6itiiiipoBBiiini КПЖ40Л hi 2Ща)№ «вероятных» цепочек В3,В3г ... B/N прнннмлчыы* сигналов с 2H“(,3)/V’ различными цепочками Л,, 1j........IlNi i>r редаваемых сигналов. Именно эти 2,/а<П)Л’ переда пнем ых цепочек и обладают тем свойством, что цепочки B}fitt...BfN входит в отвечающие им группы S3. Совокуп- ность всех этих цепочек ЛцЛг-2 ... Л^ мы назовем ,77// пой Л, отвечающей цепочке В31В1г ... BjNi (см. схема!и ческий рис. 30, на котором ведущие от цепочек группы Л к цепочке В31В3г ...BjN стрелки означают, что группы 93 этих передаваемых цепочек содержат Bj,Bjt .. . В и что, следовательно, существует реальная вероятность приема этих цепочек на приемном конце линии связи как цепочки B3iBj2... BJn). Рассмотрение группы Л из 2Н“(₽)№ возможных ц<- почек передаваемых сигналов, отвечающей полученному на приемном конце линии связи сообщению BjJij, играет основную роль в том методе расшифровки
5 4} ПЕРЕДАЧА СООБЩЕНИИ ПРИ НАЛИЧИИ ПОМЕХ 377 этого сообщения, которым мы будем пользоваться. А имен- но, если указанная группа Л содержит ровно одно из наших кодовых обозначений, то мы будем считать, что именно это обозначение и было передано. В случаях же, когда эта группа Л содержит больше одного кодового обозначения, или не содержит ни одного кодового обозначения, или, наконец, принятое сообще- ние вообще не входит в число 2H(a)Ni «вероятных» це- почек В fa В fa... BjN , мы будем считать переданным какое- то одно произвольно выбранное из имеющихся кодовых обозначений (например, будем во всех этих случаях счп тать, что передавалось кодовое обозначение с номером 1; нз дальнейшего будет видно, что на самом деле это сог- лашение не играет никакой роли). После того, как мы выбрали метод кодирования (т. е. нахождения 2HN нужных нам кодовых обозначений) и метод декодирования (т. е. расшифровки принимаемых сообщений), можно перейти к определению вероят- ности о hi и б к и при декодировании. Здесь, однако, нам сразу встретится одно затруднение. Пусть передано было кодовое обозначение ... Агл,, а принято было сообщение В}1В}г ... BiNi; обозначим через Р вероятность того, что, используя описанный выше способ расшифровки поступивших сообщений, мы при- дем к неверному выводу, т. е. заключим, что было пере- дано какое-то отличное от A^At, Ain кодовое обоз- начение. Ясно, что величина Р в принципе может быть различной для различных кодовых обозначений Л;,Лц... Лг2у ;так, например, используемый нами метод де- кодирования явно ставит кодовое обозначение с помором 1 в особое положение. Надо ли из-за этого отдельно вы- числять величину Р для различных кодовых обозначений (или хотя бы отдельно для первого н для всех остальных таких обозначений)? Мы увидим ниже, что не надо — оценки, которые будут использоваться, будут справед- ливы для всех кодовых обозначений без исключения. Но, кроме того, наш метод расшифровки зависит и от выбора используемых кодовых обозначений, а этот выбор, как мы знаем, определяется исходом опыта, состоящего в 2нлг-кратном извлечении бумажки из урны, т. е. зависит от некоторого случайного события. Поэтому
378 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СИПЛИ II* IV и величина Р является случайной величиной в том смысле, который был разъяснен на стр. 23 величина может иметь много разных значений; ни ко ы»< вычислим лишь среднее значение этой случи А ной величины Р. Мы знаем, что если число = ~-N достаточно no hi ко, то сообщение ••• Лгр(. перейдет в одну )и цо почек В,,В)г ... BjNi из отвечающей этому сообщай ни» группы Я с о сколь угодно близкой к единице вероятностью. Далее мы будем считан., что Nl настолько велико, что указанная вероятна п . В не меньше, чем 1------где е — заранее выбранном малое число. Пусть теперь Bj, Bja ... BjN — это «порой» пая» цепочка принимаемых сигналов, которая вкодиг в группу ЗВ, отвечающую некоторому кодовому обо.ша чению Л,, Aia ... Лijv . Через Q мы обозначим вероники и. того, что рассматриваемая цепочка входит оди»>н|и мпнпо также и в группу ЗВ, отвечающую по краИнгл одному кодовому обозначению (т «»., nt i»»i.i i . | роятность того, что группа .1, innon.imiiiiiti it**»» Bj, Bh ... BtNi, содеp ми кроме i(, 1 f, i ( no i| л ней мерс еще одно кодовое обо hui'iciiik ) Ясно, п<» Q, г <и же как и Р, будет случайной по шчиной Далее >к по, ’по принятое сообщение B]t Bj, ... BJN напорное будет » I ошибочно расшифровано, если выполняются еле п ющи« два условия: Л—это сообщение входит в группу ЗВ, отвечающую переданному кодовому обозначению; В—кроме этой группы оно не входит ни в одну на i р\ ин ЗВ, отвечающих прочим используемым кодовым обо । чениям. Поэтому неверная расшифровка может иметь место шип тогда, когда или не выполняется условие Л, или ко но выполняете яус ловив В. Но мы знаем, что вероятное! 1 суммы А + В двух событий А (это событие состоит в том, что Л не имеет места) и S (событие В и е и м р « т места) не превосходит суммы вероятностей событий и Л (см. выше стр. 28). Следовательно, вероятность ошибки при расшифровке принятой 7\\-членной цепочки до нки »
J 4] ПЕРЕДАЧА СООБЩЕНИЙ П РИ НАЛИЧИИ ПОМЕХ 379 удовлетворять неравенству P^ + Q-, здесь больше или равно вероятности того, что по вы- полняется условие А (т. е. что имеет место событие Л), a Q равно вероятности невыполнения В (т. е. вероятности события В). В последнем неравенстве — это фиксиро- ванное число, а Р и Q — случайные величины; отсюда видно, что для оценки среднего значения величины Р нам надо только оцепить среднее значение величины Q. Помимо кодового обозначения Ait At2 ... Л<]У имеется еще 2HN — 1 других кодовых обозначений. Перенуме- руем заново эти 2HN — 1 обозначений в произвольном порядке и обозначим через at случайное событие, сос- тоящее в том, что группа Л, отвечающая цепочке BtlBj2... BjN , содержит i-e кодовое обозначение. Условие В не будет выполняться в том и только том слу- чае, когда выполняется, по крайней мерс, одно из событий ах, а2,..., иначе говоря, событие В равно сумме событий а, + а2 + ... + а2шу_г Но вероятность суммы событий не может превзойти сумму вероятностей этих событий (см. стр. 28); поэтому С + ?2 + ••• + Q2hn_v где Qi — это вероятность события нг. Попытаемся теперь определить среднее значение ве- роятности qt. Так как i-e кодовое обозначение выби- рается наудачу (так же как и все остальные кодовые обоз- начения), то оно с одинаковой вероятностью 1 2H(₽)Ni может совпасть с каждой из 2®(₽)JV1 имеющихся «вероят- ных» цепочек из N± передаваемых сигналов А/. В тех z случаях, когда опо оказывается совпадающим с одной из 2Я“(Р)ЛУ* цепочек, входящих в группу Л, от- вечающую цепочке BltBJt ... BjN, событие аг будет иметь место, т. е. его вероятность будет равна единице; в остальных 2®(0)‘v* — случаях это событие не будет иметь места, т. е. его вероятность будет равна нулю.
380 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СПИЛ» II. IV Итак, qt = 1 при 2H“(₽)N* равновероятных исходим «им та, состоящего в извлечении бумажки из урны 2Н(Р)м бумажками, и = 0 при 2H<p>JV*—2Ha(f,)N'<х «а «ь. ных исходах; поэтому ясно, что 2H(P)W, _ 2Ha(₽)N, ср.зн. = 2H(p)JV1 • 1 4 2H(₽)N, ' ® ~ 2На(₽)А. [Па(П)-П(.ь|,У “ 2H<P)W‘ — Z Но средние значения всех величин qi одинаковы (ибн и- о номера i равноправны), a Q не превосходит суммы 2,,w — I величин qi; поэтому ср.зи.ф не больше, чем (2rriv____j) Nt H(3)-Ha(₽) 2™ . 2------*-----™ 2 ' ' Вспомним теперь, что сг < с; отсюда пьггоипет, не при большом N стоящее в правой чисти п<« И" равенства выражение будет вроде i и пл и г ь м («41м ч». 2, возведенное в очень большую но абс,» ньш «МММЫ отрицательную степень, т. <». бу Р’г очень мм» В частности, как бы ни были мило выбряппио чист », число Аг можно будет взять стол, большим, что ото nup.i жение (а значит и ср.зи.0 будет меныни, чем , Но мы знаем, что Р + Q', поэтому ср.зн.Р ср.зн.ф +. А так как при достаточно большом N ср. зн. Q < , то, выбрав N достаточно большим, всегда можно добпн. ся того, чтобы среднее значение вероятности /’ оши 5ьи при расшифровке любого из 2HN кодовых обозначений (соответствующих 2HN «вероятным» А^-буквепвым сообщи ниям) было меньше, чем-|-, где е—любое наперед выбратнм) (сколь бы оно ни было мало!) положительное число
S 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 381 Полученный результат позволяет без труда доказать основную теорему Шеннона о кодировании при наличии помех. Воспользуемся для этого тем, что среднее значение любой случайной величины не может быть меньше всех ее возможных значений (см. стр. 24). В примене- нии к нашему случаю это означает, что среди различных возможных выборов наших 2HN кодовых обоз- начений (т. е. среди всех различных исходов опыта, состоящего в 2нл-кратном вытаскивании бумажки из урны с 2f/<₽)2Vi бумажками) наверное будет хоть один, для ко- в торого значение Р окажется меньшим, чем у. Последнее утверждение уже весьма близко к тому, которое мы хотим доказать, но для нашей цели оно все же еще недостаточно. Дело в том, что Р — это вероятность неправильной расшифровки на приемном конце линии некоторого фиксированного переданного кодового обозначения At,At„ ... AtN; нам же надо до- казать, что существует такой выбор этих обозначений, для которого вероятность неправильной расшифровки при передаче по линии связи л ю б о г о из них будет меньше, чем е. Обозначим вероятность ошибки при расшифровке переданного г-го кодового обозначения через Рг; тогда Plt Р2, ..., P2hn — это случайные величины, среднее зна- чение каждой из которых может быть оценено точно так же, как выше мы оценивали среднее значение какой-то одной из них — той, которую мы обозначили буквой Р. По- этому средние значения всех величин Pt меньше, чем е/2; но отсюда еще не следует, что хоть для одного из вы- боров наудачу 2HN кодовых обозначений значения всех величин Р}, Р2, ..., P2hn будут о диол реме и и о е меньше, чем . Л Последнюю трудность можно, однако, обойти с по- мощью следующего искусственного приема. Выберем на- удачу не 2KJV цепочек А^А/, ... AiNi, а в двараза большее их число, т. е. 2-2HN цепочек. Примем эти 2-2HN цепочек Ai,At,... за 2-21IN кодовых обозначений и будем передавать все их по нашей линии связи, расшифровывая принятое сообщение Bj.Bj, ... BjN точно так же, как это было описано выше. Поскольку 2-2fIJV = 2HN+1 =
382 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВ Я.1П II' IV = 2HiN, где Нг = Н + - при достаточно большом .V сколь угодно мало отличается от Н, то нетрудно nninvh, что все предыдущие оценки останутся в силе и п »т<>ы случае. Иначе говоря, здесь также можно доказать, чь» среднее значение вероятности Р ошибки при расшифровке цепочки ... BJn , полученной на приемном коиц* линии связи, по которой передавалось какое-то одно и наших 2-2HN = 2lIlN кодовых обозначений, при достпточ но большом N обязательно будет меньше, чем g. Таким образом, если Рг, Р2, P2.2hn — вероятности ошиГн и при расшифровке переданного по линии связи nepnoio, второго, ..., 2-2HJV-ro кодового обозначения, то при (> статочно большом N средние значения всех этих величин будут меньше, чем Рассмотрим теперь новую случайную величину р1 + р2 + • • • + p2.2hn Р° = равную среднему п р я ф м с т и ч в с и о м у мм величин Pt. Ясно, что если ере ниш ши....«и шм /*( е л мепьшс, чем g-, то и среднее значение также мопынк, чем g- . Применим теперь утверждение о том, что cpriht значение случайной величины не может быть М'-ныи всех ее значений, к величине Ро; тогда мы получим, что хоть для одного из возможных выборов наудачу 2-2,1У кодовых обозначений значение Ро должно быть меньше, чем g-. Но все величины Р1,Р2, Р2.2нк— это веро- ятности, которые не могут быть отрицательными; полому ясно, что если бы 2HN или больше из этих величии оказп лись бы не меньше е, то их среднее арифметическое /’0 было бы не меньше, чем Отсюда вытекает, что 2l,N или больше значений величин Pi, i= 1, 2, ..., 2*2HW, долж ны быть меньше, чем е Отвечающие соответствующим номерам i цепочки AitAti ... AtN мы и примем за нуж ные нам 2HN кодовых обозначений — и будем далее игре
{ 4] ПЕРЕДАЧА СООБЩЕНИИ ПРИ НАЛИЧИИ ПОМЕХ 383 давать по линии связи только их и расшифровывать при- нимаемые цепочки ... BjN так, как если бы никаких других кодовых обозначений не существовало. Заметим теперь, что во всех тех случаях, когда для принятой це- почки BjxB^ ... BjNi выписанные на стр. 378 условия А и В оказываются справедливыми в отношении к 2 -2HN кодовым обозначениям, они тем более будут справедливы и тогда, когда половина из ранее использовавшихся ко- довых обозначений отбрасывается. Поэтому все выведен- ные выше неравенства для вероятностей ошибок Z’t пе могут ухудшиться из-за того, что мы отбросили половину из первоначально выбранных 2-21IN кодовых обозначений. Тем самым мы доказали то, что нам было нужно, а именно, что при достаточно большом N всегда существуют та- кой выбор 2HN кодовых обозначений AitAt,... AtN и вы- бор метода расшифровки принимаемых цепочек BjtBjc...BjN i для которых вероятность ошибки при расшифровке бу- дет меньше, чем е, независимо от того, какое именно кодовое обозначение передавалось по линии связи. При определении пропускной способности па стр. 334 мы исходили из предположения о том, что если с — наибольшее коли- чество информации, которое можно получить при приеме одного переданного по линии связи элементарного сигнала, то при приеме L таких сигналов нельзя получить больше .Ье единиц информации. Это предположение кажется совершенно естественным; однако стро- гое его доказательство все же не является очевидным. Сейчас мы вкратце поясним как может быть проведено такое доказательство. Пусть р — опыт, состоящий в определении значения одного переданного элементарного сигнала, а а — в определении значения сигнала принятого. Тогда по условию Z (а, р) с. Требуется доказать, что если PtP2 ... рг — это сложный опыт, состоящий в последовательном осуществлении опытов р(, ра, . . ., Pf (т. е. состоящий в последовательной передаче L элементарных сигналов), a ttjCij ... aL — второй сложный опыт, заключающийся в приеме этих L переданных сш налов, то всегда I (djcta . . . at, р,ра ... PL)< Lc. Для этого, разумеется, достаточно доказать, что . a£,PjP2 . . . pL) < l(at, PJ + Z(a2,p2) + . . . 4* Z(<xf,Pf) — ведь каждый член в правой части последнего неравенства равен информации об одном переданном сигнале, содержащейся п соот- ветствующем принятом сигнале, т. е. по может превосходить с.
384 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Будем для простоты считать, что L — 2 — это пе яплястся ограничением, так как всегда можно подставить в полученное неравенство вместо а2 и р2 сложные опыты а2а3 ... щ и ₽2₽3 • • • Рь’ a затем воспользоваться методом математической индукции по числу L. Что же касается доказательства нашего неравенства при L — 2, то его можно получить очень быстро, если применить формулу тройной информации (см. выше, стр. 127), согласно которой I (PY, а) + I (Р, у) = I (ay, Р) 4- I (а, у). Полагая в этой формуле р — щ, у = а2 и а = ргР2, получим I (щ<ц, PiPa) + I (щ, а2) = I (PjP2a2, щ) + Z (Р,Р2, а2). Воспользуемся теперь тем, что информация, содержащаяся в сложном опыте Ру относительно некоторого опыта а, будет ранни I (Р, а), если только условная вероятность исхода а при заданном исходе сложного опыта Ру па самом деле зависит лишь от исходи Р (см. выше, стр. 122).'В пашем случае условные вероятности исходом опыта щ при заданном исходе опыта PtP2a2, очевидно, могут nnniic<n >> лишь от исхода pt; точно также условные вероятности исходом а2 при заданном исходе р,ра зависят лишь от исхода р2. Полому ! (Р]Раа2’ ai) = I (Рп ai)> ! (PiP > «.) " (Pi« •*»>• а так как I (щ, щ) 0 (информация исен nt < м / («Л, Р.Р.) < / (П„ «,) I / (Р„ щ). что и требовалось докпаат! •). Перейдем теперь к изложению еще одною метода докали icai < tn i основной теоремы Шеннона о код и р о и а н и и х) При выводе равенств I (PiP2a2, щ) = 1 (рцЩ) и I (Р1Р1, а,) = I (Р2, а2) мы фактически воспользовались тем, что усл тили м<< роятность исхода B^Bi опыта щщ при условии, что оные р,р имел исход AiAj (т. е. вероятность приема пары сигналов ВцИь если была передана пара ЛгД3), представима в виде (IIKill) - = РА. (В%)-Р л (В[), где РА (В^) и РА (Bi)—известные нам харам t j i j теристики помех в линии связи. Действительно, именно отсю > вытекает то, что исход щ зависит лишь от исхода 0f, а исход щ лишь от исхода Р2. Если теперь мы подставим эти вероятности в выражение для условной энтропии ЯР1 (щ<ц), то с помощью несложных преобразований можно будет иепо< род- ственно доказать, что ЯР1Рг (щец) = ЯР1(щ) + Ярг(сц) и, следи вательно, I (щец, рлря) = Н (щщ)— ЯР1₽2 (щщ) < I (щ, Р,) + I (щ, р2) (так как Я (щец) < Я(щ) + Я (щ); см. стр. И*) Однако такое доказательство оказывается все же несколько длин нее приведенного выше более искусственного доказптельстип.
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 385 при наличии помех для нростсйшоп двоичной симметричг пой линии связи 1). По такой лилии могут передаваться дпа элемен- тарных сигнала At и А2, причем на приемном конце каждый ив них с вероятностью 1—р расшифровывается правильно, а с нероят- ностыо р принимается за другой сигнал. Как отмечалось па стр. 337, мы без ограничения общности можем считать, что р < 1/2. В ка- честве кодовых обозначений будем использовать последователь- ности At Ai .... AiN из Ni сигналов; здесь все iJf (где к = 12 * * * = 1,2, . . ., могут принимать значения 1 пли 2, и поэтому всего существует 2W1 различных таких последовательностей. Пусть е — некоторое заранее заданное малое число; потребуем, чтобы вероятность ошибки при расшифровке любого переданного кодового обозначения не превосходила е. Нас будет интересовать, как много кодовых обозначений можно выбрать, не вступая в про- тиворечие с выделенным курсивом условием. Ниже мы докажем, что при достаточно большом Л\ число К таких кодовых обозначений может быть сделано сколь угодно близким к 2сЛ\ где с = 1 4- (1 — р) log (1 — р) + р log р — пропускная способность используемой линии связи, отпесеппая к одному передаваемому сигналу.Поскольку сообщение о выборе одного обозначения из К возможных может доставить log К бит информации, отсюда уже будет следовать, что но этой линии можпо передавать информацию, со скоростью, сколь угодно близкой к С = Lc ftwtlep,. времени — и притом так, чтобы вероятность ошибки при расшифровке каждого переданного сигнала не превосходила е. Тем самым теорема Шеннона будет доказана. При доказательстве прежде всего требуется указать метод дешифровки получаемых совокупностей сигналов, обеспечивающий то, что вероятность ошибки при расшифровке каждого кодового обозначепия не будет превосходить е. Для этой цели удобно восполь- зоваться неравенством Чебышева, доказанным в § 4 гл. I. Восполь- зовавшись формулой(****) i>« стр. 58, легко показать, что если N2 = j/^2/Vip (1 —р)/е, то веройriiocTi. рпт<>1<>, что число х ошибок при расшифровке N± последовательно переданных элементарных сигналов А{ не превзойдет М = Л\р + /V,, будет удовлетворить неравенству Ро = Р (х < ЛГ.р + ЛГ2) > 1 - е/2. (*) *) Как уже отмечалось нише, идеи этого доказательства при- надлежит Файнстайну, рассмотревшему сразу общий случай опреде- ленной на стр. 332 произвольной линии связи. Применение сооб- ражений Файнстайна к простейшему частному случаю двоичном симметричной линии рассматривалось В. Гилбертом [164] и Д. Слепя и ом [165]; еще од..арнпнт упрощенного доказа- тельства теоремы Шеннона для этого случая может быть найден в статье Г. Барнарда [166]. 13 А. М. Яглом, И. М. Яглом
386 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл. IV Заметим еще, что при фиксированных р и е отношение М _ |/2р(1-- а) . l_ Ni~ Г e /А’1 может быть сделано столь, угодно малым, если только А, будет выбрано достаточно большим. Поэтому М = Л\р + N2 = = TVj (р + N2/Ni) может быть сделано сколь угодно близким к Ntp. В частности, при р < 1/2 и достаточно большом М = Ntp + 4 N2 будет меньше, чем N-J2-, в дальнейшем будет считаться таким большим, чтобы последнее условие было выполненным. Выберем теперь первое кодовое обозначение (которое, для краткости мы обозначим символом А2) произвольным образом среди 2Л* различных цепочек AiAii ... AiN(. Будем считать обозначение Ал переданным, если на приемном конце линии будет принято сообщение, отличающееся от А^-членной цепочки А, нс более чем в Jlf элементарных сигналах. Совокупность всевозможных Атгчлеппых цепочек, отличающихся от цепочки At не более чем в М сигналах, мы обозначим символом Л (Я,). Таким образом, принятая TVj-членная цепочка будет расшифровываться как цепочка Аг, если она принадлежит совокупности Л (Л7); вероятность ошибки при расшифровке кодового обозначения Аг в силу (*) будет тогда заведомо не превосходить е/2. Далее перейдем к выбору второго кодового обозначения Л,. Уговоримся прежде всего считать, что передавалось ото <>Ai начение А2, если на приемном конце линии будет принята N, чаги- ная цепочка, которая а) отличается от Л2 по болен чем п AZ »лсментпрпых < шиплж; б) пе принадлежит совокупности 1Ц <,). Нас интересуют только такие кодовые оболничеиин Ла, ш роят ность ошибки при ра< шифровке которых ип приемном конце линии связи не превосходит е. Ясно, что так напорное будет обстоять дело, если при передаче цепочки А2 вероятность получения какой- либо из цепочек совокупности Л будет меньше, чем е/2. В тех случаях, когда вовсе не существует А^-членных цепочек, удовлет воряющих этому последнему условию, мы будем считать, что К = 1; если же А^-членные цепочки, ему удовлетворяющие, существуют, мы примем за А2 произвольную из них. Аналогично мы поступим и при выборе третьего кодового обозначения А3. А именно, если не существует таких А^-члеицых цепочек передаваемых сигналов, что вероятность получения ем/сто них на приемном конце линии одной из цепочек, принадлежащих или совокупности Л (Aj), или же совокупности Л (Л2), меньше, чем е/2, то мы будем считать, что К = 2; в противном случае в качестве третьего кодового обозначения А3 мы выберем любую из цепочек, удовлетворяющих указанному условию. Аналогично это- му, после того, как первые к кодовых обозначений Alt А3, . . ., А/; будут уже выбраны, в качестве (к + 1)-го кодового обозначения мы выберем произвольную А^-членную цепочку Aft+1 такую, что в случае ее передачи по линии связи вероятность получения, на прием- ном конце одной из цепочек, принадлежащей или Л(А±), или Л (Аг), ... ..., или Л (Ак), меньше, чем . Выбор всех кодовых обозначений
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 387 мы будем считать законченным тогда, когда окажется, что пи одной новой цепочки, удовлетворяющей сформулированному здесь усло- вию, уже выбрать нельзя. При расшифровке принятых сообщений на приемном конце линии связи мы будем считать, что передавалось i-e обозначение At, если будет принята цепочка, которая а') отличается от At не больше чем в М сигналах; б') не принадлежит ни совокупности R (Лх), ни R (Л2), .... ни R (Л^). Если же будет принята цепочка, которая отличается от всех имеющихся кодовых обозначений Л,, А2, . . ., Лк больше чем в М сигналах, то ее мы будем расшифровывать произвольно (например, условимся во всех таких случаях считать, что персдппалось обоз- начение А±). Ясно, что используемое правило расшифровки ..и- маемых ^-членных цепочек сигналов гарантирует, что при передаче любого из обозначений Alt Л2, . . ., Ак мы правильно расшифруем его на приемном конце с вероятностью, превосходящей 1 — е. Таким образом, нам остается только убедиться, что число К таких обозначений при достаточно большом A\ будет достаточно большим (а именно, может быть сделано сколь угодно близким к 2cN1). Переходя к оценке числа К, начнем с того, что оценим число Ln цепочек, входящих в совокупность R (А) (где А — произвольная TVj-членная цепочка). Ясно, что совокупность R (/1) включает: 0) одну цепочку Л; 1) <7^ = Ni различных цепочек, отличающихся от А одним сигналом; 2) Сдг, различных цепочек, отличающихся от А двумя сигна- лами; 717) различных цепочек, отличающихся от А какими-то М — Ntp + TV2 сигналами. Поэтому = 1 + + Cfli -|- • • + Число слагаемых в правой части последнего равенства можно оценить числом М = + TV, < А,/2 (ибо слагаемое 1 в начале не может повлиять на оценку весьма большого числа Ло); кроме того, известно, что в ряду биноминальных коэффициентов = 1’ СА,’ СЛГ.’ • •’ Х> CNl, — 1 члены монотонно возрастают вплоть до середины этого ряда. Поэто- му, так как 7l/<JVi/2, наибольшим из коэффициентов Сд, , . . Cfft будет последний коэффициент; следовательно, можно утвер- ждать, что L0<M С^. 13*
388 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Воспользовавшись еще неравенством (**) на стр. 221 и учтя, что — М = Nj (1 —р) — N2 — ^iQ — Na, где д — 1—р, по- лучаем т ,Ni___________________Ni'__________________ ° 2 (Nip + N2)n,p+n‘ (Nig — Л'2)л'-^л'2 Ni __________________1________________ 2 / ЛГ2 \^1Р+№ / yv2 • H + ’Tvt) (.9~wT) (**) Далее нам еще понадобиться оценка числа Lj всевозможных Л^-членных последовательностей принимаемых сигналов, входящих хоть в одну из совокупностей R(A1), R(A2), . . . , R(Ak). Будем рассуждать следующим образом. Рассмотрим процесс переда- чи 2IV’ всевозможных Л^-члснпых последовательностей передавае- мых сигналов At, А2, . . ., А^, при котором каждая из этих последовательностей передается с одинаковой вероятностью l/2/v’1). В таком случае вероятность того, что передана будет последователь- ность, принадлежащая хоть одной из совокупностей Н (.1,), Т?(Л2), . . ., ЩАк) очевидно будет равна Lt/2N' (см. пирелцпсоно вероятности, выделенное курсивом на стр. 2l). II ирш-м ном конце нашей двоичной липни спи ш при передаче шн i • к. ностей^!, А21 . . ., A^n< из N, сш налов Л, и 4, будут и также Л^-члеппые последовлю п.иости тех же < ш пилон; обо отчим через p(Ai-lj) нерол гипс ii. того, что при передаче после loinne 1>. ностп Ai приняли будет последовательность .Ip Уелоппмсп iciiepb так нумеровать А^-члеппые цепочки, чтобы цепочкам, входя- щим хоть в одну из совокупностей 7?(И,), R(A2), . . ., Н(Ак), отвечали первые Lj номеров (т. е. будем считать входящими хоть в одну из этих совокупностей цепочки А2, . . ., J7i, где, разумеется, L± много больше, чем К). В таком случае событие, состоящее в том, что передана одна из первых Li цепочек At, можпо будет представить в виде суммы следующих несовместимых событий: передана одна из цепочек A t, где i пробегает значения 1, 2, .. ., Л,, а принята одна из цепочек Aj, где / пробегает все значе- ния 1, 2, . . ., 2N1 (т. е. Aj пробегает всевозможный х) Рассмотрение такого процесса передачи играет в данном доказательстве роль, родственную роли процедуры случайного кодирования в доказательстве Шеннона (см. выше, стр. 375). Напом- ним, что для двоичной симметричной линии связи пропускная способность реализуется для вероятностей р° (Л() = р° (Л.,) = 1/2; поэтому последовательная передача сигналов Л, независимо от всех предыдущих сигналов и каждый раз с вероятностями р° как раз и отвечает передаче всех /Vi-членных цепочек с одинаковой вероят- ностью 1/2^,
§ 41 ПЕРЕДАЧА СООБЩЕНИИ ПРИ НАЛИЧИИ ПОМЕХ 389 Л^-членпые цепочки). Таким образом, = р (А1Л1) 4- р (Л1Л2) 4- ... 4- р( AiЛ^/v? 'I* 4" Р (-4г^41) 4“ р(А2А2) 4- ... 4- р (АгА4~ 4" 4" Р + • • • + Заметим теперь, что вероятность р (AtAj) определяется лишь тем, сколько из сигналов цепочки А/ совпндшог с соответствующим и сигналами цепочки Aj, а сколько — по совпадают (т. о. числом ошибок при передаче, переводящей цепочку At в 4j). Поэтому ясно, что р (AtAj) = р (AjAt), и, следовательно, Ьг yNt = Р + Р (-^2-^1) 4- •••+/> (^ЛГ,2*1) 4" 4* р (AjAz) 4- р (.AzAs) 4" • • 4“ Р “Ь 4- р (y,iylL1)4- p(A2aLi) 4- •• 4- р Mg/v,-'!/,,). Ясир также, что сумму слагаемых, входящих и /-й столбец в пра- вой части последнего равенства (т. е. стоящих друг под другом на У-m месте в каждой строке), можно переписать в видо Р 4- Р (AjAz) 4-----1-р (AjALi) = = P(Aj) [р (Ai/A^ 4- р (А2/А}) 4----Ь р (АЬ1/А^\ = = р Mi 4- А2 4- • • • 4- aLi/Aj)i 1 где р (Aj) --------вероятность передачи цепочки Aj, p(At/Aj) —- условная вероятность приема цепочки А{ при условии, что пере- давалось цепочка Aj, а />(-4, 4" -42 4~- • • 4" At JAj) — услов- ная вероятность приема одной из первых Lt цепочек при том же условии. Но легко понять, что вероятность приема одной из первых L2 цепочек при передаче любой Nt-членной цепочки Aj не может е быть меньше чем • В самом деле, если передаваемая цепочка — это одно из выбранных наш К кодовых обозначений Alt А2, . . ., Ак, то вероятность приема цепочки совокупности R(Aj) уже больше, 6 в чем 1 — -2', а значит и больше, чем малое число . Если ясе для какой-либо из прочих Л^-членных передаваемых цепочек вероят- ность приема цепочки, принадлежащей хоть одной из совокупностей е 7? (-4J, R (Ла), . . ., R (Ак), окажется меньше, чем -г, , то в таком случае эту цепочку можно будет выбрать в качестве еще одного кодового обозначения, т. е. мы придем в противоречие
390 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV с предположением о том, что больше чем К кодовых обозначений выбрать нельзя. Таким образом, в правую часть многострочного равенства в середине предыдущей страницы входит 2N| столбцов, сумма членов 1 о каждого из которых не меньше, чем поэтому окончательно £1 „м I 1 8 \ & в «, \2^'Т)=2’’Т-е-£1>2-2 • Теперь уже совсем легко получить результат, который мы хотим доказать. В самом деле, L± цепочек принадлежат К различным (вообще говоря, пересекающимся между собой) совокупностям R (Л^, R (Л2), . . ., R (Ак), каждая из которых содержит Lo цепочек. Следовательно, Воспользовавшись оценками (**) и (***) чисел L6 и 1ц, найдем, что При достаточно большом отношение будет сколь у i одно малым; отсюда вытекает, что log* , I , АГЯ \ / N2 \ Д/1 + И +Tvr) 1оЦр +лт) + / JV2\ / TVs \ log N1 log e + \В 9 Ni / log V 2Vi )— TVi + M при достаточно большом будет больше числа, сколь угодно близкого к с — 1 4" р log р + q log q. Но ведь больше, чем 2ciV1, число К не может быть (см. выше, стр. 348 и 362); отсюда видно, , log А что при достаточно большом Ау число может быть сделало сколь угодно близким к с. Как уже отмечалось выше, отсюда сразу вытекает справедливость теоремы Шеннона для двоичной симмет- ричной линии связи. В заключение приведем строгое доказательство выписанного на стр. 368 неравенства Фано (А'): ведь приведенное на стр. 368—369 рассуждение частично опирается на интуитивные пред- ставления об информации и потому, строго говоря, не может счи- таться доказательством. Такое доказательство легко получить, придав точный смысл всем использованным ранее соображениям. Основным для нас являлось то, что степень неопределенности опита Реп исходами Alt А2, . , ., Ап, имеющими вероятности
§ 4] ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ 391 itj, л2, > > ., л,,, равна степени неопределенности опыта у, состоя- щего в проверке того, имел ли или не имел опыт Р исход Ап, сложенной с умноженной на щ + л2 4-. . . + лп_-( = 1 — лп степенью не- определенности опыта Vt с п — 1 исходами, представляющего собой тот же опыт Р, но уже при дополнительном условии, что исход Ап не имел места. Но если мы обозначим, как обычно, через Н (л^, л2, . . ., лп) величину “ Я! log — л2 log л2 —...— лп log лп, равную степени неопределенности (энтропии) опыта с п исходами и вероятностями л2, л2, . . ., лп этих исходов, то высказанное утверждение формально будет эквивалентно соотношению Н (Л1, ла, . . лп) = II (лп, 1 — лп) + + (1 — яп) Н j__________п Па А — яп—i \ 1 Лп/ В справедливости последнего соотношения очень просто убедиться с помощью непосредственной проверки. Заметим еще, что мы ужо использовали на стр. 132 даже несколько более общее соотношение . для Н (nt, л2, . . ., лп) (записанное сверху на этой странице/, смысл которого мы тогда разъясняли точно так же, как сейчас. Предположим теперь, что нам известен исход а,, или а2, ... ..., или ап опыта а, состоящего в расшифровке одной буквы текста на приемном конце линии связи. Тогда выписан пое соотношение можпо будет применить к степени неопределенности Иа (Р), или Я„2 (Р), ..., или ЯЯп (Р) опыта Р (состоящего в определении одной буквы передаваемого текста) при известном исходе а. При этом мы будем считать, что исход Ап с вероятностью лп — это во всех случаях тот исход Р, который совпадает с известным исхо- т ГТ ( П1 112 ПП—1 \ дом а. Так как Н I -i , ____, -— I — это эптро. пия опыта сп — 1 исходами, которая при любых значениях л^, л2,... . . ., лп_1, лп не больше чем log (п — 1), то мы получим На, (₽) < h (?? + 41 log (п — О. Яа2 (₽> h 1о£ (п — Яап (3) < h (q'n) + g'n log (n — 1),- ГДе h (q) — II (q, 1 — g) = — q log q —(1 — q), log (1 — q}, a qv q2, . . ., qn имеют тот же смысл, что и на стр. 364. Умножим теперь первое из этих неравенств на pv второе — па р2, ..., послед- нее — на рп и сложим отдельно левые и правые части. Так как h (д)—- выпуклая функция q при 0 < q < 1, то в силу теоремы 4 Приложения I (стр. 449) Pj1 (?? + 4------Ь Pnh + Р2<?2 4---\-рпЧт)=Цч)-
392 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV Поэтому полученный при сложении результат может быть переписан в виде На (Р) < h («) + 9 log (n - 1) — а это и есть то неравенство Фано, которое мы стремились до- казать. § 5. Коды, обнаруживающие и исправляющие ошибки Основным результатом предыдущего § 4 бесспорно является теорема Шеннона о кодирова- нии при наличии помех. Согласно этой теореме для любой заданной линии связи с пропускной способностью С — Lc и заданной скорости передачи t\ = L~ <Z L-jj- букв]ед. времени наверное существует способ выбора кодовых обозначений (представляющих собой «блоки», т. е. длинные цепочки элементарных сигналов), позволяющий осуществить я, р дачу сообщений со скоростью vt так, чтобы вершин несть ошибки при расшифровке каждой буквы переднем м< .«> сообщения была бы менмие произвол ьна.-п (in* .uipninMi заданного) числа е. Па сер 352—353 отмечи ioci> также что теорему Шеннона можно сформулировать и следующим образом: если cL < с, то 2I,N кодовых обозначений длины N при достаточно большом N всегда можно выбрать тан, чтобы вероятность ошибки при расшифровке полученной на приемном конце линии связи цепочки из N элемен- тарных сигналов была бы меньше произвольного (заранее заданного) числа е независимо от того, какое именно ко- довое обозначение передавалось на самом деле 1). Послед- няя формулировка основной теоремы удобна тем, что опа относится только к линии связи, но никак не свя- зана с природой и статистическими свойствами исходных буквенных сообщений; ею мы, в основном, и будем нижо пользоваться. *) В § 4 длину кодовых обозначений мы обычно обозначали через Л\, так как буква N там использовалась для обозначения длины кодируемых «блоков» исходного буквенного сообщения. Однако в настоящем параграфе исходные сообщения вообще не бу- дут рассматриваться; поэтому здесь нам будет удобнее считать, что длипа кодовых обозначений равна 7V.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 393 Теорема Шеннона о кодировании, при всей се простоте и неожиданности, обладает одним очень существенным с практической точки зрения недостатком: опа является типичной «теоремой существования» и но содержит ника- ких указаний на то, как именно следует выбирать кодовые обозначения какой-то приемлемой длины N для того, что- бы обеспечить достаточно малую вероятность ошибки при заданной достаточно высокой (т. е. достаточно близкой к v = L скорости передачи. Вопрос об отыскании прак- тически удобных методов выбора кодовых обозначений для различных линий связи с помехами составляет со- держание теории кодирования, развившейся после появления основной работы Шеннона [1] в об- ширную (и крайне важную для приложений) самостоятель- ную науку, отличающуюся громадным разнообразием используемых в пей подходов и методов, зачастую заим- ствованных из казавшихся самыми абстрактными и да- лекими от запросов практики разделок современной ма- тематики 1). Изложению этой пауки только па русском языке посвящено не менее нескольких десятков ориги- нальных и переводных монографий и сборников статей, из которых мы здесь упомянем лишь широко известные и очень содержательные (но довольно сложные) книги [168] и [1691; ей же посвящены обширные разделы во мно- гих общих курсах теории информации (см., например, [6], [13], [21], [22]) и многочисленные обзорные статьи (например, [165], [167], 1170], [171]). В пашей книге, 1) С этим обстоятельством связано название интересной попу- лярной статьи [167] американского математика II. Левинсона: «Теория кодирования: противоречащий пример к принадлежащей Г. X. Харди концепции прикладной математики». Дело в том, что известный английский математик Г. X. Харди в написанной им в 1940 г. (и затем многократно переиздававшейся) книге «В за- щиту математика» (G ,Н. Hardy «А mathematician’s apology») разделил математику на «чистую» (или «истинную»), доставляющую громадное эстетическое наслаждение уму своей стройностью, ло- гической законченностью и изяществом, но бесполезную в практи- ческой жизни, и «прикладную», нужную для практики, по скучно- ватую и не содержащую элементов неожиданности. При этом не- которые из наиболее типичных с точки зрения Харди разделов «чистой математики» (например, теория чисел или теория полей Галуа) впоследствии оказались как раз теми, которые играют цен- тральную роль в (безусловно прикладной) теории кодирования!
394 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV разумеется, совершенно невозможно даже вкратце охватить хотя бы одни лишь основы современной теории кодиро- вания; однако некоторые относительно простые выводы, относящиеся к этой теории, все же могут быть здесь рас- смотрены. Начнем с небольшого разъяснения, полезного для по- нимания самой постановки задачи в теории кодирования. Принято утверждать, что все существующие доказатель- ства основной теоремы Шеннона совершенно неэффек- тивны, т. е. даже в принципе не могут быть исполь- зованы для нахождения метода, позволяющего выбрать кодовые обозначения (и метода соответствующей рас шифровки принимаемых цепочек элементарных сигналов), обеспечивающих малость вероятности ошибки при заданной скорости передачи. На самом деле, однако, такое утверждение все же нельзя считать вполне сира ведливым. Действительно, вспомним, например, памечанный ня стр. 374—383 метод доказательства теоремы Шеипопи с использованием «случайного кодпровпппи». II пи» этого доказательства предлагалось выбряи, 2 к«»>»лыж обозначений длипы N наудачу (па числи некоторых .и ранее отобранных 2,,^N «перонiпых» цепочек длипы Л) и затем доказывалось, что в таком случае существует мо тод расшифровки, при котором среднее значение вероят ности ошибки при расшифровке будет достаточно малым (меньшим, чем Далее мы воспользовались том, что всегда хоть одно из значений случайной величины будет не превосходить ее среднего значения — для доказатоль ства теоремы этого нам было вполне достаточно. По водь можно пойти в том же направлении и немного дальние ясно, что если среднее значение неотрицательной случайной величины очень мало, то сравнительно малыми должны быть не одно, а почти все ее значения. Последнее обстоятельство находит свое математическое выражение в доказанном на стр. 55 неравенстве Чебышева (**), согласно которому для любой неотрицательной случай ной величины а Р(а > с) < -2-, где а = ср.зп.а.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 395 Поэтому если а — ср.зп.а настолько мало, что и Ма оста- ется еще малым, где М — какое-то сравнительно боль- шое число, то значение а. будет не превосходить малой величины Ма с весьма большой вероятностью (большей, чем 1—1[М). Исходя из подобных соображений можно доказать, что если мы воспользуемся случайным коди- рованием (и описанным на стр. 377 методом расшифровки), то при достаточно большом N вероятность ошибки при расшифровке (а не только ее значение при каком-то од- ном неизвестном нам выборе 2C,2V кодовых обозначений) будет с очень большой вероятностью (т. е. «почти навер- няка») очень малой. Тем самым мы сразу получаем как будто бы очень простой метод выбора кодовых обозна- чений, приводящий практически всегда к малой вероят- ности ошибки — надо лишь принять N достаточно боль- шим, а затем выбрать 2C12V кодовых обозначений длины N наудачу (с помощью описанного на стр. 375 опыта с извлечением бумажек с номерами из урны)1). Но как можно реально воспользоваться этим «простым» методом? По-видимому, для получения хороших резуль- татов здесь обычно придется требовать, чтобы N имело, по крайней мере, порядок многих десятков или даже со- тен, а если принять, что N = 100, а сг = 0,5, то нам надо будет выбрать наудачу 2Б0 1016 различных последова- тельностей из 100 элементарных сигналов и все их надо будет запомнить. Однако это еще самая легкая часть за- дачи — несравненно большие трудности представляет рас- шифровка получаемых на приемном конце линии цепочек элементарных сигналов. Согласно сказанному па стр. 355 и след, для такой расшифровки мы должны перебрать все 2Б0 групп S3, отвечающих нашим кодовым обозначениям, что- бы выяснить, к каким из них принадлежит принятая це- почка сигналов, а к каким нет — эта задача представля- ется совершенно нереальной для всех существующих г) Слова «практически всегда» здесь означают, что выбранный код может оказаться плохим лишь в крайне маловероятном случае, при «исключительном невезении». Но если N достаточно велико, то этой возможностью можно пренебречь; кроме того, даже и в слу- чае такой неудачи дело можно поправить: убедившись (па примере пробной передачи), что выбранный код плох, можно от него просто отказаться и выбрать кодовые обозначения заново при помощи того же метода.
396 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Н'Л. IV (и даже для всех могущих появиться в близком будущем) вычислительных машин. Мы видим таким образом, что основной сложностью в теории кодирования является совсем не- то, что вообще невозможно указать метод кодирования (т. е. выбора 2C11V кодовых обозначений длины N) и декодирования (т. е. соответствующей расшифровки принимаемых до- почек из N сигналов), обеспечивающий высокую скорость передачи и, одновременно, малую вероятность ошибки. Наиболее существенно здесь требование, чтобы и коди- рование, и — что особенно трудно — декодирование можно было бы сравнительно просто осуществить на прак- тике. Удовлетворить последнему требованию очень не- легко — это как раз и породило громадное число иссле- дований, посвященпых разработке тех или иных практн чески приемлемых методов кодирования и декодирования, хотя и не являющихся оптимальными (т. о. са- мыми лучшими из всех возможных), но все же достаточно ХОРОШИХ (т. е. ПОЗВОЛЯЮЩИХ ДобиТЬСП 0ГИ0СИГ0.1Г.НО больших скоростей передачи при не слишком больших вероятностях ошибки). Ограничимся для простоты шип. д и о it ч п ы м и линиями связи, т. е. будем считать, что по линии можно передавать только два элементарных сигнала (скажем, посылку тока и паузу) и что эти же два сигнала могут быть приняты на приемном конце линии. Будем обозна- чать используемые сигналы цифрами 0 и 1; в таком слу- чае все кодовые обозначения будут последовательностями этих цифр, т. е. числами, записанными в двоичной системе счисления. Кодовые обозначения длины N здесь можпо выбирать из числа 2N различных TV-значных двоичных чисел — последовательностей а^ .. . aN , где все «(, t = 0,1, . . ., TV — 1, принимают значения 0 или 1; набор всех используемых кодовых обозначений мы и будем теперь называть кодом. Если все 2N различных TV-значных чисел мы примем за кодовые обозначения, то скорость передачи информации будет наибольшей (а именно, равной L бит/ед. времени или, что то же самое, букв/ед. времени),—но зато при этом у нас не будет никакой возможности определить на приемном конце ли- нии связи, имелись ли ошибки при передаче, сколько
6 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 397 их было и какие именно сигналы приняты неправильно. Если, однако, мы ограничимся меньшим числом кодовых обозначений, то возникающая при этом «избыточность кода» может быть использована для дополнительной пе- редачи некоторых сведений об искажениях, внесенных линией связи. Так, например, мы можем воспользовать- ся простейшим методом TV-к ратного нов горения каждого элементарного сигнала (т. о. использовать в качестве кода лишь два простейших кодовых обозначения 00. 0 и 11 ... 1 длины N), а на приемном конце ливни раеншфро- вывать принятую цепочку длины N как 00 ... 0, ее ш опа содержит больше нулей, чем единиц, и как 11 ... 1 в про- тивном случае. Ясно, что такой метод передачи при до- статочно большом N (и при естественном условии, что вероятность искажения передаваемого элементарного сиг- нала в процессе его передачи меньше, чем 1/2) обеспечи- вает очень малую вероятность ошибки при расшифровке переданного сообщении, по зато здесь п скорость пере- дачи также будет крайне мала (за время N/L, нужное для пе- редачи N элементарных сигналов, здесь будет передаваться лишь 1 бит информации, что соответствует скорости пе- редачи, равной бит/ед. времени = букв/ед. вре- мени). Естественно, что такая низкая скорость передачи во многих случаях пас не будет устраивать; поэтому наи- больший интерес представляют промежуточные между рассмотренными классы кодов, обеспечивающие прилич- ную скорость передачи и одновременно позволяющие ис- править многие искажения в передаваемых сообщениях. Сравнительно общий прием использования избыточ- ности в кодовых обозначениях для передачи информации об искажениях может быть проиллюстрирован уже на простейшем случае, когда число кодовых обозначений длины N равно 2Л’-1 (т. е. равно половине числа различных цепочек из N двоичных сигналов) Условимся сопостав- лять 2ЛГ-1 кодовых обозначений всевозможным цепочкам а0 flj . . . алг-2 из N — 1 цифр 0 и 1, а TV-ю цифру a,v-i бу- дем каждый раз выбирать так, чтобы сумма а0 + «1 + ... ... + aN-i была четной. В таком случае наличие о д и- ночной ошибки (т. о. ошибки в одном из принятых N элементарных сигналов) приведет к появлению па при- емном конце линии связи такой цепочки аоа± . •. ajy-i.
398 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. rv что сумма а0 + Щ + • • • + «n-т является нечетной (так как единственно возможные искажения заключаются в том, что 0 принимается за 1, или 1 за 0). Это обстоятель- ство позволяет легко обнаружить наличие одиночной ошибки, хотя и пе позволяет выяснить, какой именно сигнал был принят неверно (точнее говоря, нечетность суммы а0 + fli + ... + ajv-i указывает, что заведомо име- лось нечетное число ошибок, в то время как четное чис- ло ошибок при этом не будет обнаружено). Тем не менее и тех случаях, когда вероятность появления более одной ошибки при передаче N сигналов очень мала, описанный здесь очень простой метод кодирования иногда представляет значительную ценность — ведь если мы наверное знаем, что прием сопровождался ошибкой, то можно просто игнорировать полученное сообщение или, если это до- пустимо, попросить повторить передачу. С другой сто- роны, скорость передачи при таком методе кодирования все еще остается очень большой — с максимального знп- чения L бит/ед. времени она убывает всего лини. д<» дг__1 дг_If —L бит/’ед. времени = —--------бу г н/и ц иремаон Описанный выше прием «проверки пп чинкн чь» мож- но применить также и е с к о л ь к о раз — и это у» и позволяет во многих случаях пе только обнаружить наличие ошибок, по и исправить их. Рассмотрим, напри- мер, случай, когда N = 3, а число используемых кодовых обозначений равно двум. Мы знаем, что в таком случае в качестве кодовых обозначений разумно выбрать тройки ООО и 111; такой выбор с точки зрения использования «про верок на четность» можно обосновать следующим обра- зом. Сопоставим два кодовых обозначения двум возмож- ным значениям первого элементарного сигнала а0 (т. е. будем считать, что только сигнал а0 реально содержит информацию), а далее условимся вслед за каждым «ин- формационным сигналом» а0 передавать еще два «контроль- ных сигнала» а± и «2, подобранных так, чтобы суммы «о + ei и «о + а2 обе были четными (реально это как риз и сведется к выбору в качестве кодовых обозначений це- почек ООО и 111). В таком случае легко видеть, что если только при приеме тройки сигналов не произошло сра- зу двух или трех ошибок (т. е. если считать возможными лишь правильную передачу и передачу с одиночными
S 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 399 ошибками), то, проверив четность сумм яб + и + я2 в принятой на приемном конце тройке аё a'i а-., можпо будет безошибочно установить, какая же именно тройка была на самом деле передана. В самом деле, если обе суммы «о + а[ и «о + «2 окажутся четными, то отсюда сразу будет следовать, что ошибок при передаче не было (напомним, что что возможность двойной ошибки мы иск- лючаем); если нечетной будет лини, одна из них, то это будет значить, что ошибочно принят пходящий в эту сум- му контрольный сигнал гц или я2, а если обе суммы я3 + а{ и я3 + я2 — нечетные, то эго значит, что не- верно припят информационный сигнал я0. Таким образом, ценой уменьшения скорости передачи втрое (по сравне- нию с максимальной скоростью L бит/ед. времени) мы можем добиться того, чтобы все одиночные ошибки в тройках элементарных сигналов были исправлены. Приведенные выше результаты, разумеется, очевид- ны (ясно, что, приняв за кодовые обозначения тройки ООО и 111, мы можем добиться исправления всех одиноч- ных ошибок), но они могут быть обобщены и на случай многих больших значений N. Так, например, если N = 7, а число кодовых обозначений равно 16 = 24, то мы можем принять за «информационные сигналы» первые четыре сигнала я0, я±, я2 и я3 (так как число различных четверок яся1я2я3 как раз равно шестнадцати), а последние три «контрольных сигнала» я4, я6 и яв подобрать так, чтобы были четными суммы S1 — а0 + «1 + «2 + Я4> S2 = 17 О + Я1 + Я3 + я6 и s3 = Яо + я2 + а3 + яв. При этом «проверка на четность» трех сумм s1, s2 и s3 на приемном конце линии также позволяет однозначно установить, была ли допущена ошибка при приеме (при условии, что возможностью двух и более ошибок при приеме семи сигналов мы пренебрегаем) и если была, то в чем она заключалась. В самом деле, если один из 7 сиг- налов будет принят неправильно, то хоть одна из сумм наверное окажется нечетной, так что четность трех сумм определенно указывает на отсутствие одиночных ошибок при передаче; далее лишь одна сумма будет нечетной в том (и только том) случае, когда ошибочно принят вхо- дящий в эту сумму один из трех «контрольных сигналов»
400 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1ГЛ ix (а4, а5 или ае)’, наконец, нечетность двух из трех сумм я,, я2 и я3 будет означать, что неверно принят тот из трех сигналов щ, а2 и аз> который входит в обе эти суммы, а нечетность всех трех сумм — что неверно принят вхо дящий во все суммы первый сигнал а0. Легко видеть, чгн 16 кодовых обозначений длины 7 в данном случае имею i вид 0000000, 1000111, 0100110, 1100001, 0010101, 1010100, 0110011, 1110100, 0001011, 1001100, 0101101, 1101010, 0011110, 1011001, 0111000, 1111111; использование этих кодовых обозначений обеспечивает скорость передачи, равную 4t я , /,L * бит/ед. времени = букв/ед. времени и одновременно позволяет исправить все одиночны о ошибки (но не ошибки большей кратности!) в «блоках» из семи элементарных сигналов. Соответствующий код, конечно, нс ни н»ч< и «самым лучшим», но так как и кодирование и депо снропипю i уч ь осуществляются без большого труда, •<> <ш нполце м<> жет оказаться практически полезным. 1’л< смотрим, ин пример, для конкретности, двоичную чнмметрнчную ли нию связи, в которой вероятность ошибки при приема каж дого из двух используемых элементарных сигналов равна 0,01 (так что неправильно принимается примерно одна сотая доля всех передаваемых элементарных сигни лов). Пропускная способность такой линии связи равп i С = 0,92£ бит/ед. времени (см. стр. 338); значит, здесь существует код, позволяющий передавать в единицу времени 0,92£ бит информации и такой, что вероятность ошибки при декодировании мепь ше произвольного числа е (которое можно выбрать сколь угодно малым). Однако как построить такой код мы по знаем; к тому же, если взять е очень малым, то он, всро ятно, потребует использования крайне длинных кодовых обозначений и будет очень сложным. Воспользуемся теперь описанным выше очень простым кодом с N 7, в котором к каждым четырем передаваемым сигналам i<> бавляется еще три контрольных сигнала. При .пом мы
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 401 будем передавать информацию со скоростью О,57Л бит/ед. времени, заметно меньшей предельной скорости безошибочной пе- редачи; кроме того, вероятность ошибки при декодиро- вании здесь, разумеется, но будет «сколь угодпо малой», а будет равна вероятности того, что из семи переданных элементарных сигналов приняты с ошибкой дна или боль- ше. Исходя отсюда можпо подсчитать, что при гаком методе передачи в последовательности «информационных эле- ментарных сигналов», восстановленной на приемном коп це линии связи, ошибочные сигналы будут составлять несколько меньше одной тысячной части, так что вероят- ность ошибки при приеме одного элементарного сигнала здесь будет немного меньше чем 0,001. Мы видим, что ве- роятность ошибки при приеме одного элементарного сигнала в этом случае уменьшается более чем и 10 раз но сравне- нию с передачей без использования «контрольных сигна- лов»; так как и кодирование, и декодирование здесь весьма просты и могут быть очень легко автоматизированы, то с точки зрения практики использование рассматриваемо- го кода безусловно заслуживает внимания. Заметим еще, что описанные здесь примеры «кодов с исправлением одной ошибки» довольно тесно связаны с содержанием разобранной на стр. 145 задачи, в которой предполагалось, что среди заданных п чисел загадано или одно число, или ни одного, и требовалось с помощью наименьшего числа вопросов (на которые отвечается толь- ко «да» или «нет») выяснить, было ли загадано число, и если да, то какое именно. Нам теперь будет удобнее вместо п чисел рассмотреть N номеров 0, 1, ..., N—1, входя- щих в кодовое обозначение а^... an-i, такая замена, разумеется, ничего не меняет в рассуждениях. Согласно сказанному на стр. 145 для требуемого выяснения здесь надо затратить не меньше чем log (TV + 1) и не больше чем log (TV + 1) + 1 вопросов; но ведь наши «проверки на четность» фактически эквивалентны некоторым во- просам (поскольку каждая проверка может дать два ре зультата: «.четное» или «нечетное», подобно тому, как от- ветом на вопрос могло быть «да» или «пот»). В гл. Ill ответы на вопросы давали нам определенную информацию
402 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 11 Л. IV о загаданном числе, так как исходили от человека, кого рому это число было известно; для того чтобы результат «проверки на четность» содержал информацию о возмож- ных искажениях при передаче, надо, чтобы заранее было известно, четна или нечетна сумма передаваемых сигна- лов. Так как, вообще говоря, мы не можем знать, какио сигналы будут передаваться, то последнее условие может быть удовлетворено лишь в том случае, когда каждая передаваемая сумма содержит по крайней мере один «контрольный сигнал», относительно которого зарапсо договорено, что он подбирается так, чтобы соответству- ющая сумма оказалась, например, четной. Отсюда ясно, что число требуемых добавочных «контрольных сигналов» совпадает с минимальным числом необходимых «проверок на четность», т. е. равно числу тех вопросов, о которых шла речь на стр. 145. Если, например, N — 3, то число вопросов не может быть меньше чем log (3 + 1) = log 4 — = 2; это как раз и соответствует тому, что в описанном на стр. 398—399 примере кода, исправляюпц'го одппоч ные ошибки, каждый передаваемый «информпцноиный сигнал» л0 пришлось дополнять диумл добавочными «коп трольными сигналами» л, и л2. Зптетим еще, что поскольку сигналы аг и а2 подбирались так, чтобы гуммы «„ |- л, и л0 + л2 были четными, проверка четности соответ ствующих сумм на приемном конце линии связи равно сильна ответам на вопросы: «Не содержат ли ошибок сигналы а0 и лх?» и «Не содержат ли ошибок сигналы л0 и а2?»; ясно, что такие ответы позволяют однозначно определить любую одиночную ошибку. Аналогично ато- му, если 7V = 7, то число требуемых вопросов (т. е. «проверок на четность» и «контрольных сигналов») пе может быть меньше, чем log (7 + 1) = log 8 = 3; это мп и видели на стр. 399—400. Описанная там проверка ч» г ностей сумм s17 s2 и s3 равносильна ответам на вопросы: «Не содержат ли ошибок сигналы а0, л2 и л.,?», «Пе содержат ли ошибок сигналы л0, л1; л3 и лБ?» и «Не со- держат ли ошибок сигналы лс, л2, л3 и лв?»; ясно, что ответы па эти вопросы также однозначно определяют иска- женный сигнал. В общем случае кодовых обозначений длипы 7V чис- ло К «контрольных сигналов» кода, исправляющего вес одиночные ошибки, должно, согласно сказанному ниши,
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 403 удовлетворять неравенству log (А’ + 1) «С Я < log (А + 1) + 1, так что 2К-1 — 1 < <А<2к-1; число же «информационных сигналов» здесь равно А — К. Код, использующий кодовые обозначения длины N, состо- ящие из М — N — К «информационных сигналов» и К не несущих информации «контрольных сигналов», исполь- зуемых для «проверок на четность», мы будем называть (А, М)-кодом; отвечающая ему скорость передачи инфор- мации, очевидно, равна L бит/ед. времени. В рассматри- ваемом нами случае К < log (N + 1) + 1, так что К при большом N будет гораздо меньше, чем А’; поэтому скорость передачи при большом А здесь будет очень близка к макси- мальной скорости L бит/ед. времени. Отсюда ясно, что рассматриваемые коды при большом А будут обеспечивать очень высокую скорость передачи. Разумеется, очень боль- шое А’ выбирать все же невыгодно, так как при этом силь- но увеличивается вероятность наличия нескольких (больше одной) ошибок в блоке из А’ сигналов, т. е. по- нижается надежность кода; на практике приходится при- бегать к компромиссу и выбирать какое-то промежуточное (не слишком большое, нои не слишком малое) значение А. Метод выбора «контрольных сигналов» для общего (Ат, 7И)-кода, где М — N — К, исправляющего все оди- ночные ошибки, также может быть установлен, исходя из аналогии с задачей об отгадывании задуманного числа и намеченного на стр. 145 решения этой последней за- дачи; мы здесь на этом не будем останавливаться, так как ниже будет указан совсем другой метод построения тре- буемого кода. Заметим еще, что рассмотренный на стр. 399—400 случай (7, 4)-кода, исправляющего одиночные ошибки, был рассмотрен в качестве примера еще в статье Шеннона [1J; общие (N, Л7)-коды, исправляющие одиночные ошибки, были рассмотрены в 1950 г. Р. X е м- м и н г о м (см. [172]) и с тех пор обычно называются кодами Хемминга1). -1) Впрочем, довольно часто кодами Хэмминга на- зывают лишь такие исправляющие одиночные ошибки (N, М)- коды, в которых N—2K — 1 (т. е. является наибольшим возмояшым при данном числе К «контрольных сигналов»). Эти коды обладают
404 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ П л. I* Аналогичным образом можно подойти и к проб там- построения кодов, позволяющих исправлять одну или две ошибки. Предположим, например, что N = 5, при чем мы пренебрегаем возможностью одновременного чека жения больше чем двух сигналов из пяти, но требуем, чтобы код позволял исправить все искажения в случаях, когда их число не превосходит двух. Эта ситуация при водит нас к задаче об определении п 2 загаданных чн сел среди каких-то пяти чисел. В силу сказанного па г i р 145 для определения этих чисел требуется задать не м«чич log (Cl + Cl + 1) = log (10 + 5 + 1) = log 16 = 4 вопросов; поэтому здесь нам потребуются, по крайней мера четыре проверки на четность и, значит, из каждых пяти сигналов а0, cij, а2, а3 и «4, по крайней мере четыре должны быть «контрольными». Нетрудно видеть, что в данном случае четырех контрольных сигналов действительно до статочно для решения задачи, причем эти пинали п, а2, as и а4 можно, например, подобрать из услониЯ чти бы были четными суммы «1 = Яо + Я1, s2 = fl„ + flg, Ло | rl, H (l0 1 Л, В таком случае четность всех рассм.нриннемых сумм на приемном конце липни будет означать отсутствие ошибок; нечетность одной суммы аг — ошибку в соответствующем сигнале аг; нечетность двух сумм $г и st — ошибку в сиг налах а, и а/, нечетность трех сумм (скажем, всех кроме — ошибку в сигналах а0 и аг; нечетность всех четырех сумм — единственную ошибку в сигнале а0 '). замечательным свойством, о котором еще будет сказаво в кип i настоящего параграфа (см. стр. 436—438). Любопытно, что такш (2К — 1, 2К — К — 1)-коды еще в 1942 г. (т. е. до появления и работы Хэмминга, и даже работы Шеннона) в совсем другом контекста (формально не связанном с теорией кодирования, ио фактически ей эквивалентном) были рассмотрены известным английским статистиком Р. А. Фишером (см. Э. Берлекэми Ц1И>|, стр. 18 и 22). 3) Легко понять, что описанные «проверки на четности рп»* несильны ответам на вопросы: «будет ли четным число ошибок при приеме сигналов а0 и «j ?»; «при приеме сигналов а0 и az?»', «при при-
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 405 В общем случае кодов, исправляющих о д п у или две ошибки в «блоках» из произвольного числа N сигналов, приведенные на стр. 145 результаты точно так же показывают, что число К «контрольных сигналок» и отвечающих им «проверок на четность» не может быть меньшим, чем log (C2N + Ск- 4-1) = log Ла+^ + * . Однако на вопрос о том, как именно здесь надо подбирать «контрольные сигналы» (т. е. какие «проверки на чет- ность» наиболее быстро ведут к цели), в этом случае ответить совсем не легко и решение соответствующей задачи об отгадывании чисел еще не содержит общего метода эффективного построения соответствующего «кода, исправляющего ошибки». Аналогично этому и в еще более общем случае кодов, позволяющих обнаружить и исправить в цепочке сигналов длины Алю бое чис- ло ошибок, пе превосходящее задан- ного п, приведенные на стр. 145 рассуждения позволя- ют утверждать, что нужное для этой цели число К «конт- рольных сигналов» (и отвечающих им «проверок на четность») не может быть меньшим, чем log (С% СдГ1 + ... +1). Этот простой результат был указан Р. Хэммингом [172], и поэтому соответствующее неравенство для числа К часто называется неравенством Хэмминга или нижней границей Хэмминга для числа «контрольных сигналов» кода, исправляющего п ошибок. Если п = 1, то неравенство Хэмминга приводит к уже известному нам результату: N 2К — 1; равенство здесь достигается для кодов Хэмминга с N = 2К — 1. По и в общем случае приведенные на стр. 145—146 рассуждения не указывают, как именно следует выбирать нужные нам «проверки на четность» (т. е. как можно построить код с нужными свойствами); более того, они не позволяют еме сигналов а0 и аз?», и, наконец, «при приеме сигналов а0 и ад?». При этом ответ па первый вопрос выделяет из 16 различных воз- можных «исходов» передачи, при которых искажаются но более двух элементарных сигналов, группу из 8 допустимых исходов, т. е. содержит наибольшую возможную информацию; также и все последующие вопросы выделяют ровно половину из числа остававшихся до этого возможными «исходов».
406 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 11« IV даже утверждать, что для любого К, удовлетворим! неравенству Хэмминга, действительно существует «ш । с проверками на четность», содержащий К контрошил сигналов и позволяющий исправить любое меньшее чем п число ошибок в «блоке» из N сигналов (на csiviom де ч> для некоторых К, удовлетворяющих этому неравенству, нужного нам кода построить нельзя). Оценка "числи А «контрольных сигналов», заведомо д о с т а т о ч и о i и для возможности обнаружить и исправить любое мещ и । число ошибок в блоках из N сигналов, была из совсем дру i их соображений получена Р. Р. Варшамовы тл |173|, показавшим, что при К log (С^Д1 + C/yLj2 ~4— ... 4 1) всегда можно построить «код с проверками на четность», обладающий нужными нам свойствами. Этот £>сзультл! Варшамова (уточняющий предшествующие более грубые результаты Э. Гилберта [164]) называет сн и равенством Варшамова — Г и л б о р т и п ш верхней границей Варшамова — 1 и бе рта для числа К контрольных сигни лон ко и» . »•) »• ляющего п ошибок; его простое дошил к м >л приведено ниже (см. стр. 421). Гели п I. «м ( ш* граница Варшамова— Гилберта, по >»це ii>nu| г <>•«•*! вается превосходяще и ни мною i р пищу \ immiiii* i; ii им образом, здесь существуют значения числа копт рапных сигналов» К, для которых соответствующие пе|>ак хна не исключают возможности построения кода, ис i ip; n и щего n ошибок, но и не позволяют утверждать, ’«то i п«>6 код обязательно существует. Кроме того, все доказан п> ства неравенства Варшамова — Гилберта хоть и опнр юг ся на определенный метод построения нужны кодов, но не претендуют на то, чтобы метод этот моле по было удобно применить на практике; в результате ис лопан мые при доказательстве построения оказывание »i criiKji шенно неприемлемыми для реального использовгк пни (то они опираются на непосредственный перебор ico.ioccn n ного числа возможностей). Даже для простейшего случая п — 2 реальный метод построения «кодов с проверками па четность», позволяю щих исправлять любые одиночные или д в о И н ы е ошибки в блоках из произвольного числа УУ сипи лов, был найден лишь примерно через 10 лет поело нош • пия работы Хэмминга [172], в которой описывались общи*
§ 51 КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 407 коды, исправляющие одиночные ошибки — в 1960 г. Р. Боувом иД. Чоудхури (см. [174]) и в 19,59 г. А. X о к в и н г е м о м [17.5], причем используемые для этой цели средства оказались удивительным образом опирающимися па тонкий и довольно сложный матема- тический аппарат, относящийся к абстрактной алгебре. Дальнейшее обобщение того ж<« метода, позволяющее строить коды, исправляющие л ю > о о число о ш и- б о к, м е н ь ш е е заданного ч и с л я п, оказа- лось уже сравнительно простым и было найдено прак- тически одновременно с нахождением кодов, исправляю щих не более двух о ш и б о к. Для того чтобы дать нредстаплоние о методе построения кодов, исправляющих по только одиночные, но и двой- ные (или вообще кратные нс выше вадаппой кратности) ошибки по результатам проверок на четность, следует прежде всего строго определить само попятно «кодов с проверками на четность». (' этой целью удобно начать с того, что рассмотреть все арифметические действия с числами 0 и 1 как действия, могущие иметь лишь два возможных результата: 0, символизирующий то, что в результате действия получилось четное число, и 1, означающий, что получилось число нечетное. В результате мы придем к следующей таблице, содержащей результаты всевозможных арифметических действий, производимых над числами 0 и 1: 04-0 = 0,0+1 = 1,1+0=1,1 + 1=0; 0 -0 = 0, 0 -1 = 0, 1 0 = 0, 1 -1 = 1. Легко видеть, что полученные таким образом опера- ции «сложения» и «умножения» (которые мы будем назы- вать сложением и умножением в 2-арифметике} '), удов- летворяют всем обычным законам арифметики; это обсто- ятельство выражают, говоря, что совокупность двух чисел 0 и 1, для которых определены принятые в 2-ариф- метике действия сложения и умножения, образует поле из двух элементов (точное определение поля, знание которого, впрочем, не является строго необходимым для *) Собственно говоря, существующее в 2-арифметико «умно- жение» можно было бы писать без всяких кавычек, так как оно по отличается от обычного; напротив, «сложение» в 2-арифметике отличается об обычного, ибо здесь 1 +1 = 0.
408 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл iv понимания всего дальнейшего, приведено в Прило конин II на стр. 463—464) х). Теперь мы можем легко описать общий (N, Л/)-ки i спроверками на четность. Он задается пр» помощи К — N — М равенств вида аМ = ЬМ, С Я0 + + ’ ’ ’ + М—1 ам—1’ аМ+1 = ЬМ+1, 0а° + ^И+1, 1Я1 + ' • ’ + ^ЛЦ-1, M-iaM-V 1 ttN-l = bN-!, О а0 + bN-i. 1 а1 +-Ь bN-l, М-1аМ-Г Здесь все коэффициенты few, о, ьм,п -, Ьти..м-1, . . . ..., fejv-i, о, Ьл-1, bN-i, м-i — это элементы нашего по ля из двух элементов (т. е. числа 0 или 1), а все входящие в эти равенства арифметические действия попимаюп я в смысле 2-арифметики (так что каждое равенство озпяча ет лишь, что его левая и правая части, понимаемые и обыч- ном смысле, имеют одинаковую четность). Я проверок на четность, отвечающие нашему (N, М) ко iv проверки четности суммы коитршн-иою сипи in », i i принимает К = N — l\l знпчоннй / I/ ! . . . , M + К — 1 — N — I) и tex на информационных < in uu лов a0, alt . . ., (in i, которым othcmuioi ранные единице (а пе пулю!) коэффициенты bt, 0, bt, bh лг । 2). Для *) То обстоятсл1>ство, что совокупность различных ЛЛ< М< II тарных сигналов можно считать совокупностью всевозможных элементов некоторого конечного поля, является очень важным для всей современной алгебраической теории кодирования. Од- нако в алгебре доказывается, что поле с заданным числом тп раолич ных элементов существует лишь тогда, когда т является степенью простого числа (т. е. равно где р — простое; ср. ниже Приложение И, стр. 471). Поэтому алгебраическая теория кодиро- вания может быть непосредственно применена к недвоичпым ли- ниям связи (которые мы здесь, впрочем, вовсе не будем рассматри- вать) лишь в случае, когда число т различных элементарных < кг- налов, которые можно передавать по линии, имеет вид р11. Если же это не так, то приходится дополнительно прибегать к каким то искусственным приемам (например, вовсе не использовать не которые из допустимых сигналов). 2) Напомним, что в 2-арифметике 1 + 1 = 0, и значит, —1 = 1. Поэтому при переносе слагаемого с одной стороны panencina в другую здесь не обязательно изменять его знак, a рапспспк» х ~ у можно переписать и как х — у = 0, и как х + у — 0 («б» иы писанные соотношения равносильны друг другу — они о ишчпют лишь, что х и у имеют одинаковую четность).
§ 5J КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 409 задания кода достаточно указать все коэффициенты Ь^, вхо- дящие в выписанные равенства. При этом удобно сперва перенести в этих равенствах все левые части ам, Лиц... . . an-i направо (учитывая правило, указанное в сноске2) на стр. 408), а затем записать все коэффициенты в получив- шихся равенствах в виде таблицы из К = N — М строк и N столбцов, на пересечении i-ii строки н /-го столбца которой стоит коэффициент при itj п l-м н.т наших равенств. Легко видеть, что такая таблица будет иметь вид / Ьм, о Ьм, 1 • • • Ьм, м—1 1 • • • 0 \ I ^м+1.о 6m+i,i • • • bM+i, м-i 0 1 ... 0 | (2) 'ЬП—1,0 ЬЯ—1, 1 fyv-i, м—1 0 0 ... 1/ Прямоугольная таблица из т строк и п столбцов в математике называется матрицей из т строк и п столбцов или, короче, (т X п.)-м а т р и ц е й; таким образом, общий (А',7Й)-код с проверками на чет- ность задается (К X А')-матрицей из пулей н единиц специального вида (2). Совокупность всевозможных кодо- вых обозначений такого общего (TV, 7И)-кода с проверками на четность может быть легко описана следующим обра- зом: информационные сигналы а0, . . ., ащ-i здесь могут быть любыми (т. е. каждый из них может независимо от других принимать и значение 0, и значение 1), а конт- рольные сигналы ащ, «м+ь • - a«-i уже однозначно определяются по информационным сигналам с помощью равенств (1), понимаемых в смысле 2-арифметики. Общее число различных кодовых обозначений в этом случае, очевидно, равно 2м = 2N~K. Заметим -еще, что иногда код с проверками на четность определяют и несколько более широко как совокупность таких Л’-членных цепочек а0, а1,. .., an-i символов 0 и 1, что числа а0, аг, . . ., а п-i удовлетворяют К соотношениям вида Ьм, о ао + Ьм,1 а1 + • • • + Ьм. п-1 ап-1 ~ °’ &2И+1, оа° + ^АГ+1, 1а1 + + ЬМ+1, N—iaN—l ~ ) bN-l, 0 а0 + ЬП-1,1 «1 + • " • + bn-U N-1 аП-1~ 0
410 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Н'л. IV (где коэффициенты снова принимают лишь значения 0 и I, а равенства понимают в смысле 2-арифметики). Отвечаю щая наиболее общему коду (1') матрица будет уже прона вольной (К X А')-матрицей, состоящей из нулей и единиц. Имея в виду это более широкое определение, более част- ные коды, задаваемые равенствами вида (1) и матрицей вида (2), называют систематическими кода- ми с проверками на четность. Нетрудно показать, однако, что произвольный код с проверками на четность всегда может быть записан как системати- ческий код, с числом «контрольных сигналов», не пре- восходящим числа К соотношений (1') (см. Приложение II, стр. 482). Поэтому, как правило, в дальнейшем мы будем говорить только о систематических кодах. В литературе по теории кодирования коды с провер- ками на четность часто называют также линейными кодами или групповыми кодами. Оба последних термина связаны с дополнительными свойства- ми рассматриваемых кодов, представляющими интерес сами по себе и весьма важными, если желать iwpciiocrii теорию таких кодов на более общие игдполчныо iinmn связи (для которых понятие проверни пи четное и., очинил но, не имеет прямого смысла). Для того чтобы объяснить, в чем состоят эти свойства, следует внести в рассмотрение операции сложения и умножения па число z (прииадле жащее нашему полю из двух элементов, т. о. равное или нулю, или единице) блоков а — (<г0, alt . . ., a/v-i) из N нулей и единиц. Эти операции могут быть естественно определены следующим образом: (®в« ai> • • •, aN— i) + (fl0, <г1, й]у-1) = = (а0 + Оо> а1 + °li . . «IV—I + O1V—l). z(a0, alt . . ., H(y_j) = (za0, zalt . . ., zo^^). Заметим попутно, что так как здесь все арифметические действия понимаются в смысле 2-арифметики, то операция умножения блока на число не особенно интересна: для любого блока (н0, alt . . ., a»/-i) 0-(«О, «Ы • • ; «N-1) = (0, о, . . ., 0) И '1 ‘(но» • • •> &N-1) ~ (а0, а1> • • >•! aA-l)*
S 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 411 Нетрудно проверить, что так определенные операции сложения и умножения на число удовлетворяют всем основным законам, которым удовлетворяют обычные арифметические действия; на языке современной алгебры последнее обстоятельство выражают, говоря, что сово- купность всевозможных последовательностей из N нулей и единиц а = (а0, а^, . . ., адг-О образует векторное пространство (точное определение векторного простран- ства, которое нам в дальнейшем но будет непосредственно нужно, можно найти в Приложении П). С другой стороны, то, что операция сложения последовательностей сама по себе (т. е. вне связи с умножением па числа) обладает большинством обычных свойств арифметических операций сложения и умножения, можно выразить, сказав, что совокупность последовательностей а —(а0, аг, . . ., an-i) представляет собой группу относительно введенной выше операции сложения (определение группы приведено па стр. 458—459 Приложения II; для понимания всего дальней- шего и оно не необходимо). Код (т. е. определенная сово- купность кодовых обозначений, каждое из которых явля- ется «блоком»— цепочкой из N цифр 0 и 1) называется линейным, если его кодовые обозначения представ- ляют собой линейное подпространство общего векторного пространства таких «блоков»— это означает, что сумма любых двух кодовых обозначений линейного кода, а также произведение кодового обозначения на число z должны быть кодовыми обозначениями х). Код называется групповым, если его кодовые обозначения пред- ставляют собой подгруппу общей группы последователь- ностей (а0, alt . . ., ctN-i)— в рассматриваемом пами здесь двоичном случае это снова означает лишь то, что сумма любых двух кодовых обозначений и «пулевой блок» (О, 0, . . ., 0) должны быть кодовыми обозначениями (смысл сделанного здесь утверждения в применении к случаю наличия более чем двух различных сигналов будет объяснен на стр. 463). Мы видим, таким образом, х) Ясно, что в рассматриваемом нами случае наличия лишь двух сигналов условие, относящееся к умножению на число z, не очень содержательно: оно означает лишь, что последовательность (0,0, ..., 0) из N нулей должна являться кодовым обозначением. Однако в случае большего чем 2 числа элементарных сигналов указанное условие оказывается уже достаточно важным.
412 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ CBH.II1 Ил IV что в случае двоичной линии (т. е. при исполвловлнпн лишь двух элементарных сигналов) термины линейны! код и групповой код означают точно одно и то жо *) Рассмотрим теперь произвольный (не обязательно систематический) код с проверками на четность, кодовый обозначения которого совпадают с совокупностью цепочек а = (а0, ах, . . a/v-x) таких, что для них выполпявпсн равенства (1'). Прежде всего ясно, что если (а0, л,, . . . . ., ajv-x)— это блок (0, 0, . , 0) из одних нулей, то ра венства (!') обязательно выполняются — поэтому нулевой блок (0, 0, - - 0) обязательно является кодовым обол начением нашего кода. Кроме того, если блоки а = (а0, at, . . ajv_j) и а' — (од, <4, . - ojv-x) оба ни ляются кодовыми обозначениями (т. е. для них обоих выполняются все К соотношений (!')), то, сложив друг с другом первые, вторые и т. д. вплоть до последних из этих соотношений для а и для а', мы убедимся, чк« а + а' = (а0 + од, а, + щ, . . ан-t + a'n-t) также удовлетворяет всем соотношениям (!'), т. гаки является кодовым обозначением (Нгюдп пикж.к'Г *ни любой код с проверками на Чгпкхчь ini.uieica <> (iionpo менно также и линейном (пли i руипоным) i <>дом (' другой стороны, в алгебре доказываете и, ч го любое лпшчппн под пространство векторного пространства цепочек « = (а0, flj, . . ajv-j) может быть задано некоторым набором соотношений вида (1') (см. Приложение II, стр. 47G). Следовательно, класс линейных (или групповых) кодон для двоичной линии связи точно совпадает с классом кодов с проверкой на четность — именно это обстоя гель ство и дает основание называть коды с проверками па четность также линейными кодами или труп новым и ко дами. Продолжим рассмотрение общих кодов с проверками на четность; поскольку, как мы уже отмечали выше, *) В более общем случае линий связи с т элементарными сиг- налами эти два понятия совпадают друг с другом, если т р есть простое число, но понятие линейного кода является лвкп частным случаем понятия группового кода, если т = д", пн* /> — простое, а Л > 1 (ср. сноску1) на стр. 408). Наконец, если > иг равно целой степени некоторого простого числа, то пн го, ini 1ру гое понятия вообще не могут быть определены.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 413 любой такой код может быть представлен в виде система- тического кода (удовлетворяющего равенствам вида (1)), то в основном мы будем здесь говорить о кодах этого последнего вида. Такой код задается матрицей (2), на- зываемой проверочной матрицей кода ’); нам будет удобно обозначить ее одной буквой В. Если а =(а0, а15 . . ягу-т)— это одно па кодовых обозначений нашего кода, то справедливость для пего соотношений (1) удобно символически изображать и виде рлвепегпи Ва = 0 (3) (левая часть здесь служит записью W — М юных частей равенств вида (1'), получаемых ил (1) при перенесении всех левых частей вправо; здесь Ва. есть произведение матрицы В на вектор а, понимаемое в смысле теории мат- риц, о котором сказано в Приложении 1Г па стр. 480). Предположим, что но лишит связи передавалось кодовое обозначение а = (яп, я(, . . щу (); » результате искаже- ний в процессе передачи па приемном конце, вообще говоря, будет принята цепочка а' =(п0> • •• o/v-i), отличная от той, которая передавалась. Подставим це- почку а' в левые части равенств (!') (понимаемые, как обычно, в смысле 2-арифметики); получаемые в результате К = N — М чисел 0 и 1 (представляющие собой УГ-члеп- ную цепочку (sM, sm+i, • - ., -S/v-t)) мы будем обозна- чать символом Ва'. Поскольку вообще говоря, уже не является кодовым обозначением, цепочка Ва’ = 8 = = Sm+i, 8дг_г) уже пе будет нулевой (т. о. па некоторых местах она будет содержать и единицы). На- личие этих единиц, очевидно, показывает, что при переда- че имели место искажения; на языке, которым мы поль- зовались рапыпе, каждая единица означает, что соот- ветствующая «проверка па четность» привела к отрица- тельному результату. Пусть е = (cj, е2, . . ., ем) — = (<4 —«1, 4 — я2, • • • > a/v-i — «w-i) — это ^-членный «блок ошибок», содержащий единицы на местах, соответствую- щих сигналам цг, искаженным при передаче, и нули на всех х) В случае общих (не ’систематических) кодов с проверками иа четность проверочной матрицей, очевидно, будет произвольная (К X ^-матрица из нулей и единиц (некоторые примеры таких общих проверочных матриц нам еще встретятся в дальнейшем).
414 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ И 'л, IV остальных местах, так что е = а' — а = а' а (напомним, что в 2-арифметике а — Ь = а Ъ). Ясин, что в силу (3) Be = В(а' — а) = Ва'; следовательно, Be = s. (») К сожалению, вообще говоря, существует м и о i о цепочек е =(е0, elt . . ., удовлетворяющих TV — .1/ равенствам (4); поэтому, исходя отсюда, нельзя еще однозначно восстановить «блок ошибок» е (а, зничш, и переданную цепочку а = а' — е — а'-\-е}. При доки дировании кодов с проверками на четность обычно пред полагается, что вероятность искажения при передаче каждого сигнала меньше вероятности правильном нор» (пчп и в соответствии с этим принимается следующее и р а в и ло декодирования: кач шка . • * принимается та из удовлетеоряющи > ралсш по.ам (I) цепочек, которая содержит наименьшее число единиц, т. е. отвечает наименьшему возможному числу Пекина ний при передаче (если среди цепочек, удовлетворяющим (4), имеется несколько, содержащих одно и то же панмепь шее число единиц, то е выбирается наудачу среди них) Это правило позволяет расшифровать все принимаемые ни приемном’ конце линии TV-членные цепочки элементарных сигналов, т. е. сопоставить всем им определенные кодовые обозначения а = а' + е (очевидно удовлетворяющие ни обходимому для кодовых обозначений условию (3)), ко торые и считаются переданными по линии связи. Описанный метод декодирования кодов с проверками на четность заметно проще общего метода, описанного на стр. 377 (и опирающегося на рассмотрение групп отвечающих различным кодовым словам). Тем ло менее и он не является практически пригодным: при больших значениях К = N — М нахождение той из удовлетворяю щих (4) цепочек, которая содержит наименьшее чш к» единиц, оказывается настолько громоздким, что современные вычислительные машины не позволяют пы
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 445 полнить его за приемлемое время. Поэтому очень важной представляется задача создания достаточно простых (т. е. реально осуществимых) методов нахождения нужного нам блока е; она пока что может считаться решенной лишь для некоторых частных случаев кодов с весьма специальной структурой проверочной матрицы U х). Од- нако даже и без этого существование указанного выше теоретически достаточно простого общего правила деко- дирования может быть использовано для изучения свойств произвольных кодов с проверками па четность. Такое изучение было начато Д. С л е п я н о м [177|, а П. Э л а й с о м [159] было показано, что в случае двоич- ной симметричной линии связи (а также и в случае двоич ной линии со стиранием, соответствующей изображенной на рис. 21 схеме со значением р — 0) коды с проверками на четность не уступают наилучшим из всех вообще возможных кодов в том смысле, что здесь с помощью кодов с проверками на четность всегда можно осущест- вить такую передачу информации с ваданной скоростью Су = Ley бит]ед .времени, меньшей пропускной способ- ности С = Lc линии связи, чтобы вероятность ошибки при декодировании была меньше любого наперед заданного числа в > 0. При этом величина вероятности ошибки, достижимая при фиксированной скорости передачи Су = = Ley бит/ед.времени, где сг < с, и кодовых обозначе- ниях фиксированной длины N, будет не больше чем ayN, где аг — зависящее от Су число, большее единицы; таким образом, с ростом N вероятность ошибки здесь убывает по тому же закону, что и в случае наилучгаих произвольных кодов. Кроме того, Элайес также доказал, что если выбирать код с проверками па четность «наудачу» (т. е. при выборе каждого элемента Ь1г] проверочной матрицы В подбрасывать монету и полагать, что bitj — 0 в случае выпадения герба, но bitj = 1 в случае выпадения цифры), то и тогда для рассматриваемых линий связи вероятность ошибки при декодировании при N -> со *) Один из таких частных случаев, специально изученный Р. Гал лагером [176], касается матриц В с большими зна- чениями N и К = N — М, состоящих, грубо говоря, почти из одних нулей (т. е. содержащих лишь очень небольшое число еди- ниц). Некоторые другие частные случаи, описываемые алгебраи- чески, будут указаны ниже.
416 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СБИЛИ Пи IV (и К = (1 — сх) N, так что 2W-A' = 2C*/V) будет стримя im я к нулю (и притом не медленнее, чем N-я степень некоторо! и меньшего единицы числа) х). То обстоятельство, что для многих реально встрочшо щихся линий связи выбранный «наудачу» код с проверка ми на четность при большом N оказывается «почти напор ное» достаточно хорошим, делает весьма соблазнительным использование таких «случайных кодов с проверками на четность». Для того чтобы задать такой код, надо случаи ным образом выбрать (и запомнить) МК = №сг (1 — с,) элементов Ъц (где i = М, М + 1, . . ., ТУ — 1, а / О, 1, . . ., М — 1) соответствующей проверочной матрицы Н. Так как число №cr (1 — Cj) с ростом N возрастает не слишком быстро (несравненно медленнее, чем, напри мер, число 2C1/V), то с подобной задачей современны» вычислительные машины вполне могут справиться даже при N, имеющем порядок многих сотен. Однако процедура декодирования (т. е. нахождения по принятой цепочке а' соответствующего «блока ошибок» с), как мы ужо отми чали, представляет в случае произпольпо ныбрннши> кода с проверками на четность очень Outi.iihio грудши in, и это существенно затрудняет ясно п.-тонанно «с.лучпйпыч кодов». Тем пе менее сущее гнуни определенные перепек тивпые подходы к практическому построению «хороших» методов кодирования и декодирования, включающие и ка- честве составного элемента выбор «наудачу» некоторых величин, задающих рассматриваемый код (в качестве примера можно указать на так называемое «последова- тельное декодирование», с которым можно познакомиться, в частности, по книге [22] или обзорной статье [170]). Поскольку подходы эти все же являются довольно слож- ными, мы здесь на них не будем задерживаться, а сразу *) В дальнейшем Р. Л. Д обрушив [178] (рассматривав- ший произвольные групповые коды) и Г. Д р и г а с [179] (рас- сматривавший несколько более частные линейные коды) обоб- щили результаты Элайеса, относящиеся к двоичной симметричной линии связи, на случай более общих линий сязи с т — р,с элемен- тарными сигналами и таких, что г = т (т. е. принимаются те жо сигналы, которые передаются), а соответствующие вероятности рА (Яг) удовлетворяют определенным условиям симметрии. Од- 2 з нако для произвольных линии связи все эти результаты оказыва- ются уже неверными (см. [180], [181]).
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 417 перейдем к применению «неслучайных» кодов с провер- ками на четность для обнаружения и исправления ошибок ври передаче. Нам будет удобно обозначить отдельные столбцы про- верочной матрицы JB (представляющие собой «блоки» из К — N — М цифр 0 и 1) через Ъо, блг-ь Ьм, • • &/V-1 (в случае систематического кода последние К столбцов Ъм, f>N-i будут, очевидно, все содержать по одной единице и N — М — 1 нулей). Саму мат- рицу JB при этом можпо записать в виде одной строки — (&0, • • •> ^м-V • • •’ ^*8—Л Обозначим, как и выше, через е ~(е0, е1г . . i) «блок ошибок», содержащий единицы на местах тех элементарных сигналов передаваемого кодового обозна- чения, которые исказились при передаче. В таком случае основное равенство (4) можпо будет переписать в виде + С1^1Н + eM —1^М-1 + ем^м “Ь ' * ’ eN l^N -l~ S’ (5) где сложение понимается, как почленное сложение (в смыс- ле 2-арифметики) соответствующих «блоков» длипы К. Таким образом, «блок» 8, который получается при под- становке в левую часть равенства (Г) вместо переданных сигналов а0, alt. . ., a^-i принятых сигналов п0, щ, ..., и на основании которого мы должны судить о имеющихся ошибках, равен сумме столбцов проверочной матрицы Л, отвечающих сигналам, искаженным при передаче (т. е. отвечающих значениям е( = 1; октильным сигналам отве- чают значения = 0, и поэтому < оответствующие слагае- мые е^Ь, обращаются в О). Отсюда, в частности, видно, что одиночным ошибкам (т. о. блокам е, содержащим одну единицу и N — 1 пулен) соответствуют блоки s, совпадающие со столбцами bt проверочной матрицы В; отсутствию же ошибок отвечает блок 8 = 0 из одних ну- лей. Поэтому для того, чтобы код с проверками на чет- ность позволил различить и случай отсутствия ошибок, и все случаи одиночных ошибок при передаче, надо, чтобы все столбцы соответствующей проверочной матрицы В были различными и пе один из них не был нулевым. 14 А. М. Яглом, И. М. Яглом
418 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл, IV Общее число возможных различных /f-значных блоков & = (Ъм, Ъм-ц, - - -, fyv-i) (т. е. различных после доив тельностей из К нулей и единиц) равно числу целых чисел, записываемых в двоичной системе счисления при помощи не более чем К цифр, т. е. равно 2К (подобно тому, как число различных не более чем /f-значпых чисел в десятичной системе счисления равно 10й). Так как нулевой блок (0, 0, . . ., 0) при этом исключается и:» числа возможных столбцов матрицы В, то число различных столбцов оказывается равным 2й' — 1. Таким образом мы снова приходим к выводу, что код с проверками на четность, исправляющий все одиночные ошибки и содержа щий К «контрольных сигналов», должен состоять ия кодовых обозначений, длина которых не превосходит 2К —1. Для задания такого кода надо лишь указать соответствую- щую проверочную матрицу В, все столбцы которой должш i быть ненулевыми и различными. Получаемые коды, естественно, совпадают с кодами Хэмминга, о которых говорилось на стр. 403. В случае N = 2К — 1 удобно выписать соответствующую проверочную матрицу В, вы рав в качестве ее столбцов двоичную запись (i ли в двоичной системе счисления) всех целых чип ш I и до 2К — 1, перечисленных и воарасташш** порндьс; получаемый при этом код, разумеется, фактически будет систематическим (гак как он будет содержать все возмо к ные столбцы из К — 1 нулей и одной единицы), во только «контрольными сигналами» здесь будут не последние К сигналов, а какие-то сигналы с другими номерами. Так, например, в случае К = 4, N — 24 — 1 = 15 соответст- вующую (4 X 15)-матрицу В удобно записать в виде ( 00000001111111 1\ 0001111000011111 011001100110011 101010101010101/ (заметим, что, пожелав здесь выписать все кодовые обозна- чения подобно тому, как это было сделано на стр. 403 в при- менении к случаю К = 3, N = 7, мы были бы вынуждены написать 211 = 2048 пятнадцатизначных чисел!). При такой матрице В роль «контрольных сигналов» будут играть первый, второй, четвертый и восьмой сигналы (так
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 419 как именно им отвечают столбцы па трех нулей и одной единицы); остальные же 11 сигнален будут информацион- ными. Блок s будет нулевым в случае отсутствии ошибок при передаче, а в случае одной ошибки он будет равен со- ответствующему столбцу В, т. е. будет непосредственно задавать двоичную запись номера того сигнала, который исказился при передаче. Отсюда видно, что процедура декодирования (т. е. расшифровки принятого сигнала — исправления в нем ошибок) осуществляется в этом случае крайне просто. Коды, исправляющие одиночные ошибки в блоках из N < 2К — 1 сигналов, легко получить, вычеркнув иj соответствующей проверочной матрицы В некоторое чис- ло «лишних» столбцов (которые можно выбрать произволь- но из числа тех, которые содержат не меньше чем 2 едини- цы). Заметим еще, что свойства кода Хэмминга можно еще улучшить, добавив к каждому кодовому обозначению дополнительный (К + 1)-й «контрольный сигнал» aN, позволяющий уже обнаружить (по по исправить) также и все двойные ошибки. Для этого надо только выбрать этот добавочный сигнал так, чтобы он давал четное число в сумме со всеми остальными сигналами, т. о. удовлетворял соотношению fl0 4* °1 + ••• + &N-1 + ClN = о (нетрудно понять, что это соответствует добавлению к мат- рице В сперва добавочного последнего столбца из одних нулей, а затем еще и добавочной последней строки из N 4- 1 единиц; в результате и число строк, и число столб- цов В возрастает па единицу). В таком случае отсутствию ошибок при передаче снова будет отвечать блок s из одних нулей; в случае одной ошибки первые К цифр блока s будут представлять собой двоичную запись некоторого целого числа, заключающегося в пределах от 0 до 2К —1, а последняя цифра Sk+1 будет равна единице (так как сумма всех принятых сигналов здесь обязательно будет нечетной); наконец, наличие хоть одной единицы среди первых К элементов блока s и обращение в нуль его последнего элемента будут свидетельствовать о наличии двойной ошибки. Усовершенствованный таким образом код Хэм- минга был также предложен в работе [1721; его иногда называют расширенным кодом Хэмминга. 14*
420 ПЕРЕДАЧА СООБЩЕНИИ ПО ЛИНИЯМ СВЯЗИ |Гл.IV Перейдем теперь к кодам, исправляющим пе только все одиночные, но и все двойные ошибки в бло- ках из 7V сигналов. Ясно, что при отсутствии ошибок при передаче блок® = На' из К элементов будет состоять из одних нулей; при наличии одной ошибки он будет равен соответствующему столбцу проверочной матрицы //; наконец, в случае двух ошибок он будет равен суммо двух соответствующих столбцов В (ср. равенство (5) на стр. 417). Для того чтобы все эти случаи можно было различить на приемном конце линии связи, все столбцы В должны быть ненулевыми, отличными друг от друга и такими, что сумма любых двух из них отличается и от всех столбцов, и от всех прочих их попарных сумм. Мат- рицу, удовлетворяющую всем этим условиям, можно, следуя Г. С а к с у [182], попытаться построить с помощью простого перебора. С этой целью мы можем первый столбец ft0 матрицы В выбрать произвольным образом (по так, чтобы он не состоял из одних нулей); затем принять аа ft, произвольный ненулевой блок из К цифр 0 и 1, от.чпч ный от &0; затем за &2 принять ненулевой блок, <н ni'iin.iii от Ьо, ft, и &0 + затем за 6Япринять какой ю пену к и<>й блок, отличный от ft, и Ь.,, а тькям <п парных < s мм &О + &1, 6о + &2 И ft, h ft.. II ОТ I ройной С.у МЧИ ft,, ft, | ftg (ибо в 2-арифметике если ft,, |- ft, |- Ьг ft3, го ft,, -| ft, “ = ft2 + &з, т. о. ошибки в первых двух сигналах кодового обозначения будут неотличимы от ошибок в третьем и четвертом сигналах) и т. д. Здесь после того, как мы выберем первые i столбцов 60, 6Х, . . ., при выборе (i 4- 1)-го столбца 6/ необходимо потребовать, чтобы этог столбец а) не был нулевым столбцом; б) не равнялся ни одному из i = С} уже выбранных столбцов 60, 6„ . . ., bf-i, в) не равнялся ни одной из d попарных сумм узко выбранных столбцов; г) отличался от всех Cl сумм троек уже выбранных столбцов. Разумеется, перечисленные 1 + С] + С? + С? условий а)—г), запрещающих те или иные выборы столбца 6г, не обязательно будут все различными между собой (так, папример, при i 5 вполне может оказаться, что &0 +
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 421 4- + &2 = &3 + &4 + &5 или что &, + Ь2 + 1>я = + &5); однако так как число всех различных столбцов (т. е. блоков из К цифр 0 и 1) равно 2К, то если только 1 + Q 4- С2 + С? < 2К, то условиям а)—г) наверное можно удовлетворить даже в наименее благоприятном случае, когда все фигурирующие в этих условиях столбцы и их комбинации различны. Наиболее ограничительным выписанное соотношение будет в применении к последнему столбцу bN-i (так как при возрастании номера I число исключенных комбинаций, с которыми пе может совпасть новый столбец, также возрастает). Поэтому если только 2К > 1 + tfv-i + С2^ + C3N^, т. е. К > log (1 + СЛ + C2n^ + С3^), то наверное можно подобрать проверенную (К X N)- матрицу В, задающую код с проверками на четность, исправляющий все одиночные и все двойные ошибки в блоках из N элементарных сигналов. Полученное здесь неравенство — это неравенст- во Варшамов а—Г и л б е р т а, которое мы без доказательства уже приводили на стр. 406 (для случая кодов, исправляющих произвольное число п ошибок). Ясно, что в общем случае произвольного п неравенство это доказывается точно так же, как и в случае п = 2: здесь только надо требовать, чтобы новый столбец &г каждый раз не был нулевым, пе равнялся пи одному из старых столбцов, а также пи одной из сумм двух, трех и т. д. вплоть до 2п — 1 старых столбцов. Отсюда и следует, что /Г log (1 -ф- С/v —i 4- C'n —i + • • 4* Cn—i). Будем теперь снова считать, что п — 2. Ясно, что при малых значениях К и N можно надеяться непосред- ственно проверить все условия, налагаемые на столбцы мат- рицы В, — и таким образом подобрать код, исправляющий все одиночные и двойные ошибки. Именно так мы, соб- ственно говоря, и поступили па стр. 404, где с помощью подбора для случая К = 4 и N = 5 был построен код с проверками на четность, исправляющий все одиноч- ные и все двойные ошибки; отвечающая этому коду
422 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл.IV проверочная матрица очевидно имеет следующий вид! 1 1 0 0 0\ 1 0 1 о о \ 10 0 10 I’ 10001/ [Заметим, что при N = 5 и п = 2 неравенство Хэммиша указывает, что обязательно К 4; из неравенства же Варшамова — Гилберта здесь вытекает, что при К > 4 наверное можно построить код, исправляющий все одиноч- ные и все двойные ошибки.] Немного более сложна, по все еще вполне доступна, проверка того, что при К — 7 и N = 10 все столбцы и попарные суммы столбцов (7 X10)- матрицы /1 00000010 1\ / 0100000001\ 0010000101 | 0001000011 0000100110 I 0 0 0 0 0 1 О 0 1 о / \ 0 0 0 О 0 О 1 1 1 О / различны между собой, так что соответствующий код (кодовые обозначения которого все содержат по 3 ипфор мациопных сигнала и по 7 контрольных сигналов) позво ляет исправить все одиночные и все двойные ошибки в блоках из 10 сигналов. [При N = 10 из неравенства Хэмминга вытекает, что обязательно К 6, а из неравенства Варшамова — Гилберта следует, что при К > 8 наверное можно построить интересующий нас код.] Однако при дальнейшем возрастании значений К и N громоздкость описанной процедуры подбора матрицы В и проверки справедливости для столбцов этой матрицы нужных условий быстро возрастают; уже в случае (8x15)- матрицы В, выписанной ниже на стр. 430, задача выполне- ния такой проверки вряд ли кому-нибудь покачнется особенно привлекательной.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 423 Укажем теперь вкратце некоторые основные принципы алгебраической теории кодирования, сыгравшей основную роль в нахождении общих методов построения практически используемых кодов, позволяю- щих обнаружить и исправить в блоке из N сигналов лю- бое число ошибок, не превосходящее заданного числа п. До сих пор мы рассматривали код как совокупность неко- торых кодовых обозначений — блоков а — (я0, alt..fliv-i) из N цифр 0 и 1 (т. е. из N элементов простейшего алге- браического поля из двух элементов). Ясно, что с тем жо правом мы можем сопоставить каждому кодовому обозна- чению многочлен степени ио выше N — 1з а (х) = а0 + atx Д- а2х2 + ... + ял_1.'сл'^1, относительно неизвестной х с коэффициентами из нашего поля и рассматривать код как некоторую совокупность «кодовых многочленов» а (х). Всевозможным кодам с про верками на четность в таком случае будут соответствовать всевозможные совокупности многочленов а (х) такие, что сумма любых двух многочленов, принадлежащих нашей совокупности, а также и «нулевой многочлен» О = 0 + 0 -х + ... Д- 0-zN1 обязательно принадлежат к той же совокупности. Существует обширный класс очень простых совокупностей многочленов, очевидным образом удовлетворяющих указанным двум условиям — это сово- купности всех многочленов а(х) степени не выше некото- рого N — 1, делящихся без остатка на какой-либо фикси- рованный многочлен g (z) = g0 + gix +••• + gi<xK сте- пени К < N — 1, т. e. представимых в виде а(х) = с(х) g(x), (<•) где с(х)— произвольный многочлен, степень которот о не превосходит N — К — 1. Каждой такой совокупности отвечает’ вполне определенный код с проверками па чет- ность, который мы будем называть кодом, порож- денным многочленом g(x); сам же многочлен g (х) в этом случае называется порождающим многочленом нашего кода. В случае кодов, порож- денных многочленами, задание порождающего многочлена g (z) представляет собой самый компактный способ задания соответствующего кода, однозначно определяющий все его характеристики (в частности, пабор всех кодовых
424 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [Гл. IV обозначений а и соответствующую проверочную мат- рицу В). Если мы запишем произвольный кодовый мно- гочлен а (х) в виде а (х) — а0 + а±х + • • • + ак хк~1 + акхк + + аК +1ХК +1 +•'••+ aN "Л то ясно, что последние М = N — К коэффициентов «к, ак+и ч aN~i здесь можно будеть выбрать произ- вольным образом, а первые К коэффициентов а0, а1г... . . «к-i после этого уже будут однозначно определяться условием делимости а(х) на g(x) (а именно, поскольку в 2-арифметике г(х) = — г(ж), то многочлен u.o + aiX + ... ... + должен равняться остатку от деления акхк + ак^хКл1 + ... + aN_tXN~l на g (х)). Отсюда вид- но, что последние N — К сигналов ац, o,K+il On-i в данном случае будут играть роль информационных сиг- налов, а первые К сигналов а0, щ, . . ., aK_j будут контрольными; общее число кодовых слов здесь равно 2N~K. Принятому на приемном конце липни связи блоку а' =(а’о, «1, . . ., «n-1) будет отвечать многочлен а' (х) = а'о + а[х +-р aN _^xN отличающийся от «переданного от многочлена» «(.<) на «многочлен ошибок» е(х) = е0 + etx + ... + где, как и раньше, в} = щ — at (т. е. et = 1, если i-й сигнал исказился в процессе передачи, и et — 0, если он принят правильно). Из-за наличия добавочного «мно- гочлена ошибок» е(х) многочлен а'(х), вообще говоря, уже не будет делиться без остатка на g(x). Ненулевой остаток г(х) от деления а'(х) на g(x) (равный, очевидно, остатку при делении е(х) на g(x)) как раз и свидетель- ствует о наличии искажений при передаче; этот остаток содержит всю информацию об ошибках, доступную на приемном конце (в этом отношении он вполне аналогичен блоку s = Ва', с которым мы имели дело при использова- нии матричной записи произвольных кодов с проверками на четность). В алгебраической теории кодирования основное внима- ние уделяется не общим кодам с проверками на четность и даже не произвольным кодам, порожденным многочлена-
t 51 КОДЫ, ОБНАРУЖИВАЮЩИЕ II ИСПРАВЛЯЮЩИЕ ОШИБКИ 425 ми, а специальным классам таких кодов, обладающим особенно простой алгебраической структурой, поаиоляю- щей заметно облегчить общую процедуру кодирования и декодирования. Важнейшим из таких специальных классов является класс циклических кодон. Код с проверками на четность называется цикличес- ким, если для каждого его кодового обозначения а=(а0,а1, а2, . . блок (яу_ъ я0, я,, . . aN~2), полу- чаемый из а с помощью «циклического сдвига», также является кодовым обозначением. Ясно, что в ганцы слу- чае блок (fl/v-i, Ядг_г+1, . . ., Ядг-1-i), полученный пл я с помощью г-кратного применения «циклического сдвига», также будет кодовым обозначением при любом i = = 1, 2, . . ., N — 1. Важным свойством циклических кодов является то, что все они порождены многочленами, причем класс отве- чающих им порождающих многочленов g (х) может быть очень просто охарактеризован. В самом деле, допустим сперва, что мы имеем дело с кодом, порожденным мпогоч леном g (х) (т. е. с совокупностью кодовых многочленов я (.г) вида (6)). Пусть ai (я) = aN-l + яоа: + airt'2 + ••• + — многочлен, отвечающий блоку (яу_п я0, at, . . ., я^_2). Так как «г (х) = х (я0 + агх Ч-+ aN _±xN -1)— aN _±(xN — 1) = = ха (x) — aN_v (xN — 1), (7) где, как обычно, я (х) = а0 + а,х 4- ... + то ясно, что в общем случае, когда ял>_ ( =/= О, многочлен а, (х) будет одновременно с я (х) кодовым многочленом (т. е. будет делиться без остатка на g (х)) тогда и только тогда, когда g (х) является делителем xN — 1 х)). Таким образом, код, порожденный многочленом g(x), будет цикли- ческим в том (и только том) случае, когда g (х)— это делитель многочлена xN — 1. г) Такие многочлены g(x) в алгебре называются м и о г о- членами деления окружности; для случая, когда коэффициенты g (ж) — это обычные вещественные числи, они изу- чались еще знаменитым немецким математиком К. Ф. Гауссом в начале XIX столетия.
426 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл IV Рассмотрим теперь совершенно произвольный цикли ческий код, и пусть а (ж) — один из отвечающих ому кодовых многочленов. В таком случае из равенства (7) сразу следует, что наряду с а(х) в число кодовых многочло нов нашего кода обязательно входит и остаток от делении многочлена ха (х) на xN — 1. Но тогда ясно, что в число кодовых многочленов будут входить и остатки от делении на xN — 1 многочленов х-х а(х) = х2 а(х), х-х2 а(х) = xsa (х) ит. д., т. е. остатки от деления на xN — 1 всевозмож- ных произведений хп а(х), где п — какое угодно неотри- цательное целое число. Так как к тому же сумма любых кодовых многочленов также всегда является кодовым многочленом, то из сказанного вытекает, что наряду с а(х) кодовыми многочленами обязательно будут и все остатки от деления на xN — 1 многочленов вида Ъ (х)а(х), где b (х) = b0 + btx 4- ... + bnxn — произвольный много- член с коэффициентами из нашего поля с двумя элементами (т. е. равными либо нулю, либо единице). Совокупность всевозможных многочленов стопопи ш» выше N — 1 можно рассматривать кок совокупность всевозможных остатков от деления мною*) нчкш ш>6ых степеней на xN — 1. В таком сличив нып<> ’ши » ны>ч» СВОЙСТВО совокупности КОДОВЫХ мцогоч ЮНОН a(j) II poll! вольного циклического нпдп нп языке общей а.кобры можно будет сформулировать следующим образом: тикай совокупность кодовых многочленов цредствавлиет собой идеал в множестве всех остатков от деления па xN — 1 (см. ниже Приложение II, где на стр. 468 дано общее определение идеала, а также рассмотрен и нужный нам частный случай этого понятия). В дальнейшем общее определение идеала нами нигде не будет использоваться; единственное, что нам понадобится — это следующая простая алгебраическая теорема (которую читатель, если угодно, может принять на веру, но может и ознакомиться с ее доказательством по Приложению II): любой идеал в множестве остатков от деления произвольных многочле- нов на какой-то фиксированный многочлен / (х) степени N совпадает с совокупностью многочленов вида c(x)g(x), где g (х) — некоторый делитель многочлена / (х) и степень c(x)g(x) не превосходит N — 1. Эта алгебраическая теоре- ма как раз и показывает, что любой циклический код порождается каким-то делителем g (х) многочлена xN —1.
8 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 427 Пусть теперь g (х) — делитель xN — 1, так я го xN — 1 = g(x) h(x)\ в таком случае легко показать, что кодовые многочлены циклического кода с порождающим многочленом g(x)— это такие многочлены а(х) степени не выше N— 1, для ко- торых а(х) h(x) делится без остатка на хк — 1. В самом деле, если а(х) = с{х) g(x), то очевидно, что a(x)h(x) = c(x)g(x) h(x) = c(x)(xN — 1) делится без остатка на xN — 1; обратно, если a(x)h(jr) = = b(x)(xN — 1) делится без остатка на xN — 1, го ясно, что а(х) = b(x) g(x). Указанное свойство многочленов а (х) очень облегчает проверку наличия ошибок при передаче: если а'(х) = а(х) + е(х), где е(х) =/= 0, то a'(x)h (х), вообще говоря, не будет делиться на xN — 1, причем, как легко видеть, вся информация об имевших место ошибках (т. е. о многочлене е(х)), имеющийся на приемном конце линии связи, будет содержаться в остатке от деления a’(x)h(x) на xN — 1 (заметим, что деление произвольного многочлена d(x) па xN — 1 осуществить крайне легко; для этого надо только заменить в d(x) все степени хм, где М > N, степенями хт, где tn — эго остаток от деления М на N). Поэтому при декодировании циклических кодов очень большую роль играет многочлен h(x), который принято называть проверочным многочленом циклического кода —по- лученный на приемном конце линии связи многочлен а'(х) следует прежде всего умножить па проверочный многочлен h (х), и тогда остаток от деления этого произве- дения на xN — 1 будет однозначно определять расшифров- ку принятого сообщения (т. е. выбор «наиболее вероятно- го многочлейа ошибок» е(х)). Циклические коды представляют собой специальный класс кодов с проверками на четность, общие свойства которого пока еще мало изучены. Так, например, если ограничиться использованием лишь циклических кодов, то неизвестно, можно ли или нет добиться передачи инфор- мации по простейшей двоичной симметричной липни связи с заданной скоростью, меньшей С = Lc бит/ед. вре- мени, и сколь угодно малой вероятностью ошибки; более того, здесь даже неизвестно, можно ли или пет осуществить
428 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ 1Гл. IV передачу хоть с какой-нибудь отличной от нуля скоростью и сколь угодно малой вероятностью ошибки х). Однако их большим преимуществом является то, что здесь могут быть развиты сравнительно не очень сложные алгебраические методы декодирования, во многих случаях позволяющие реально осуществить это декодирование эа сравнительно небольшое время (см., например, [221, [168], [169], а также довольно сложную книгу [183], специально посвященную этому вопросу). Особенно плодотворным оказалось применение цикли ческих кодов для исправления в блоках длины N всех ошибок, число которых не превосходит заданного п. Заметим, что одной ошибке при передаче отвечает «многочлен ошибок» е (ж), состоящий из одного слагаемого гс’. Поэтому для того, чтобы с помощью кода, порожденного многочленом g (х), можно было исправить все одиночные ошибки, надо только, чтобы псе одночлены 1, х, х2, . . ., давали при делении па g (х) разные остатки, т. е. чтобы ни одип двучлен х’ — х1 = х1 (х^~1 — 1), где i < N, / V u / /, не делился на g (х). В частном cijw циклона i.ii\ i«> щи (т. е. многочленов g(x), являющихся делнп* iiimii xn — i) многочлены g (х) с нужными свойствами всегда существу* ют и хорошо изучены для всех N = 2К — 1; поэтому «со коды Хэмминга с N = 2К — 1 очень легко могут быть осуществлены в виде циклических кодов. В частности, легко проверить, что в случае К — 3, N = 7 (рассмотрен ном на стр. 399—400) порождающий многочлен g (а) и проверочный многочлен h (х) могут быть выбраны в виде g (х) = Xs + х + 1, h (х) = ж4 + хг + х + 1 (непосредственное умножение показывает, что g(x)h(x) = =хг — 1, как и должно быть); в случае же К = 4, N = 15 *) Напомним, что как отмечалось на стр. 348—349, до появления работы Шеннона [1] невозможность такой передачи казалась правдоподобной даже в случае использования произвольных кодон. Сейчас мы знаем, что для произвольных кодов дело обстоит совсем иначе, но в применении к одним лишь циклическим кодам такав возможность пока пе исключена.
5 5) КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 429 (рассмотренном на стр. 418) можно положить g (ж) — xi + х +1, h (ж) = ж11 + хв + ж7 + я® -|- ж8 (- + ж8 -J- ж + 1 (при ЭТОМ Д(ж)Й(ж) — Ж1Б — 1). Аналогично этому для кодов, позволяющих исправить одиночные и двойные ошибки, все одночлены ж* и двучлены ж’ + ж’, где i <Z N и j < N, долиты давать при делении на g (ж) различные остатки; в случае кодон, исправляющих также и т р о й и ы о ошибки, сюда приходится добавить также и все трехчлены ж1 + ж* -|- ж* и т. д. Ясно, что возникающие здесь задачи являются сугубо алгебраическими по своему характеру; однако их решение оказывается довольно сложным. Общий метод построения циклических кодов, позволя- ющих исправить любое, меньшее и, число ошибок в бло- ках длины N = 2К — 1 и обладающих проверочными матрицами с пК строками и N столбцами (т. е. содержа- щих не более пК контрольных сигналов в блоке из N = = 2К— 1 сигналов х)), был указан лишь в 195!) I960 гг. независимо А. X о к в и и г е м о м (1751 и Р. Р> о у з о м и Д. Чоудхури [174] 2 * * * *). В основе конструкция Хок- вингема — Боуза — Чоудхури лежит непосредственное описание порождающих коды многочленов g (ж) с помощью задания всех их к о р п е й, т. е. всех решений уравнения g (ж) = 0. Основное затруднение здесь состоит в том, что подобно тому, как корня обычного многочлена с вещест- венными коэффициентами не обязаны быть вещественными числами, а могут принадлежать более широкому (г. е. содержащему поле действительных чисел в качество своей части) полю комплексных чисел, так и корни нашего многочлена g(x) с коэффициентами из поля с двумя х) Так как соответствующий код не является систематическим, то из того, что проверочная матрица содержит пК строк, можно лишь заключить, что истинное число контрольных сигналов здесь не превосходит пК (см. выше, стр. 410). 2) Вообще говоря, кроме простейпшх (так называемых прими- тивных) кодов Боуза— Чоудхури — Хоквиигема, исправляющих заданное число ошибок в блоках из N = 2К — 1 сигналов, су- ществуют и «пепримптивпые» коды того же типа, для которых дли- на блока А является нечетным числом, не представимым п виде 2К — 1. Об этих последних кодах мы, однако, совсем не будем го- ворить (за исключением, впрочем, сноски на стр. 438).
430 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ Ц'Л. IV элементами 0 и 1 могут сами принадлежать болео широкому полю с 2т различными элементами (i до tn — некоторое целое число). Если w — элемент этого нового поля, являющийся одним из корней g (ж), то весь набор корней, полностью задающий g (ж), будет совпадать с какой-то конечной цепочкой последова- тельных степеней корня w. Более подробное разъяснен по этого утверждения требует привлечения сложного алюб- раического аппарата, явно выходящего эа границы нашей книги; поэтому мы ограничимся здесь лишь ссылками пп книги [22], [168], [169], [184] и на более популярную, чем они (но также более трудную, чем наше книга), обзорную статью [167]. Для того, однако, чтобы все же дать хоть некоторое представление о характере получающихся при этом результатов, мы приведем в заключение два конкрет- ных примера кодов Боуза — Чоудхури — Хоквипгема, исправляющих кратные ошибки. Оба эти примера относятся к случаю, когда К = 4, N — 24— 1 — 15. Соответствующий этим значениям А и N код Хэмминга, исправляющий все один о ч и ы « ошибки, задается проверочной матрицей, i>untien>in<iM выше на стр. 418. В случае коде, и<'П]>п11.1>1ющ<)| > иди ночные и парные ошибки, проверочная ма< рнцп буд<ч ужо (8 X 15)-матрицсй следующего вида; /1 1110101100100 0\ /011110101100100\ 001111010110010 111010110010001 111101111011110 101001010010100 110001100011000 \100111000110001/ Эта матрица довольно громоздка; поэтому гораздо удобнее задать соответствующий код при помощи ого порождающего многочлена g (х) = (ж4 + х + 1) ( ж4 + Xs + х2 4- х + 1) = = Ж8 + Ж7 + Хв + ж4 4- 1,
§5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 431 или его проверочного многочлена h (х) = (х + 1)(я2 + х + 1)(х4 + х? + 1) = = х1 + хй + х4 + 1 (нетрудно проверить, что действительно g (x)h (х) =х*5—1). Заметим, что рассматриваемый код состоит из кодовых обозначений длины 15, включающих 7 информационных и 8 контрольных сигналов. В силу неравенства Хэмминга мы можем утверждать, что при N = 15 код, исправляю- щий все одиночные и все двойные ошибки, ио может со- держать меньше чем 7 контрольных сигналов; неравенство Варшамова — Гилберта здесь показывает, что такой код наверное можно построить, если К = 9. Если теперь пожелать построить код, исправляющий в блоках из 15 сигналов все одиночные, все двой- ные и все тройные ошибки, то проверочная матрица такого кода Боуза — Чоудхури — Хоквипгема будет иметь ЗК = 12 строк (и, как и раньше, 15 столбцов). Порождающий многочлен интересующего пас кода имеет сравнительно простой вид: g (ж) = (х2 + X + 1)(ж4 + X + 1)(х4 + X3 + X2 + X 4- 1) — = х10 + ха + хь + X4 + X1 + X 4- 1, а его проверочный многочлен равен h (ж) = (х 4- 1)(ж4 + ж3 + 1) = я5 4~ я3 4- я 4- 1 (при этом опять g(x) h(x) — х1ъ — 1). Проверочной матри- цей нашего кода является следующая (12 X 15) матрица! /1 00010011010111 /000100110101111 /001001101011110 010011010111100 100011000110001 011110111101111 00101001 00011000 10110110 0100101 1100011 1101101 000000000000000 / 011011011011011 / 011011011011011/
432 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ [гл IV Заметим, что хотя эта матрица имеет 12 строк, чцг к* «контрольных сигналов», отвечающих соответствующему коду, равно 10 — это сразу видно из того, что порождпк щий многочлен g (ж) здесь является многочленом десятой степени1). Таким образом, при использовании рассмагрп ваемого кода каждая пятерка «информационных сигни лов» дополняется десятью «контрольными сигналами» — только после этого в принятой на приемном конце липни цепочке из 15 сигналов можно обнаружить и исправит все без исключения одиночные, двойные и тройные опию ки. Нетрудно также видеть, что исправление всех таких ошибок в блоке из 15 сигналов никак не может бы и» достигнуто, если использовать меньше 10 «контрольных сигналов»— это обстоятельство сразу вытекает из пера вепства Хэмминга (неравенство же Варшамова — Гил берта здесь показывает, что нужный нам код наперши» может быть построен, если использовать 12 или больше «контрольных сигналов»). Данные о числе «информационных» и «контрольных» сигналов для большого числа кодов Boyan — Чоу нурп Хоквиигема могут быть найдены н гл ч книги I’ <1 (см. также гл. 7 и 12 книги 1П>'.)|). < <»< кино приток пи в [168] результатам нее коды этого пшп с Л 15, п ни ш и коды с произвольным N и п 2, ян iniorcx о II । и мальпыми в том смысле, что по существует кодон с той же длиной ТУ «блоков» и тем же общим числим ьодо вых обозначений S (т. е. той же скоростью ш*| сдачи f информации v = ~ log S бит/ед. времени), приводя щих к меньшей вероятности ошибки при их использона нии для передачи по двоичной симметричной липни связи (ср. ниже 440). При N — 1023 (=210—1) число «контрольных сигналов» при различных п оказывается довольно близким к соответствующей границе Варшпмо ва — Гилберта. Однако при еще больших N это число должно стать более близким не к верхней границе Вар Ч Тот же вывод в рассматриваемом случае можно сделать и исходя из самого вида проверочной матрицы •— так как ее тре тья снизу строка состоит из одних нулей, а две последние строки одинаковы, то ясно, что код не изменится, если из последних трех строк мы сохраним лишь одну (последнуюю или предпоследнюю) строку.
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 433 шамова — Гилберта, а к нижней границе Хэмминга. В самом деле, воспользовавшись оценкой сверху биноми- альных коэффициентов Cpj, доставляемой неравенст- вом (**) на стр. 221, и аналогичной же оценкой этих коэффициентов снизу (или же просто заменив в точной формуле Cn = ?i] факториалы TV! и (TV — и)! их приближенными значениями при большом N, имеющимися во многих курсах высшей математики), нетрудно пока- зать, что при очень большом N общее неравенство Хэммин га принимает вид 2К AN", т. е. К > п log N + А „ где К — число контрольных сигналов, п — максимальное число исправляемых ошибок, а А и Ai = log А — какие- то числа (А — положительное, a At — возможно и от- рицательное), зависящие от и, но не зависящие от N. Аналогичным образом неравенство Варшамова — Гилберта в случае большого N позволяет заключить, что если 2К > BN2n, т. е. А > 2п log N -| //,? где В и Bi = log В — другие зависящие о г п (по пе >т А) числа, то наверное существует код, позволяющий испра- вить при передаче любое, не превосходящее п, число оши- бок в блоке из N сигналов. В случае кодов Боуза — Чоудхури — Хоквиигома с N = 2К1 — 1 (так что Kt ~ log N) число К контрольных сигналов, как указывалось выше, не превосходит nKt х п log А; поэтому при боль- ших значениях А число контрольных сигналов в этих кодах всегда близко к соответствующей нижней границе Хэмминга. В этом смысле указанные коды являются близкими к наилучшим возможным в отношении их исполь- зования для исправления заданного фиксированного чис- ла ошибок в очень длинных блоках. Разумеется, выбор очень длинных кодовых обозначе- ний (т. е. очень большого 7V) невыгоден, если коды исправ- ляют лишь фиксированное число п ошибок, так как с рос- том А резко возрастает вероятность появления большого, чем п, числа ошибок в блоке длины А. Поэтому при увели- чении А естественно увеличивать и значение п; однако если п увеличивать пропорционально А, то с ростом А, как оказывается, будет все время убывать достигаемая
434 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ |Гл. IV скорость передачи информации (см. [168], гл. 9). Наибо- лее существен, однако, не вопрос об оптимальном выбор* значений N и п, а вопрос о методах декодирования по- лучающихся кодов при больших 7V; именно труд- ность декодирования в первую очередь ограничивает воз- можности подбора параметров кода, обеспечивающих и малую вероятность ошибки, и большую скорость поре дачи. В применении к кодам Боуза — Чоудхури — Хок вингема разработан целый ряд специальных методов декодирования, позволяющих эффективно его осущостн лять вплоть до длин N кодовых обозначений, имскгцих порядок многих сотен или даже нескольких тысяч. Ни этих методах мы здесь, однако, уже не можем задержи ваться — по их поводу можно лишь отослать читателя к (довольно сложным) книгам [22], [168], [169], [183| и [184]. Будем, как и выше, рассматривать лишь случай двоичной липни связи (использующей два элементарных сигнала), а код будем понимать как некоторую совокупность кодовых o6o:uin<ii'i tiA цепочек а = (а0, а±, . . ., из N цифр О и 1. При и г и КОДОВ, ПОЗВОЛЯЮЩИХ исправлять ошибки |||>М in । роль играет расстояние Хамм ни in | Л и |, — • .. двумя цепочками Ъ = (Ьо, !>,, . . ., bN ,) п >• (н4, «|, . "/у , • которое по определению равно числу цифр at тпких, что bt t (т. е. числу единиц среди разностей 1ц — а/, понимаемых и <мы< to 2-арифметики). Расстояние Хэмминга обладает многими с hoik л в и мм обычного геометрического расстояния (см., например, ниже Прило жение II, стр. 479); оно совпадает с числом искажений отделы ы« передаваемых сигналов, приводящим к тому, что переданная ц< поч ка а воспринимается на приемном конце линии связи как цепочка Ь, Понятно, что чем больше будет расстояние Хэмминга между отде.и. ными кодовыми обозначениями, тем меньшей будет вероятное! в перепутать эти обозначения на приемном конце, т. е. (при прочих равных условиях) тем лучше будет используемый код. Поэтому важной характеристикой кода является отвечающее ему к о д о в о о расстояние D = min | |х —• расстояние Хэммшп а между «самыми близкими» различными кодовыми обозначении ми данного кода. Ясно, что в случае кода, позволяющего исправить любое не превосходящее п число ошибок, он не должен содержать двух таких кодовых обозначений = (a^l), , . . ., и аФ = (а%\ , . . ., O/yLj), что, изменив какие-то п или менее цифр первого из них и какие -то п или. менее цифр второго, мд полу- чим одну и ту же цепочку Ъ — иначе, приняв эту цепочку Л, ми пе сможем выяснить, было ли передано обозначение или «’ \ Следовательно, все расстояния |х (где i =/=/) должны
§ 5] КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 435 быть больше 2п, откуда вытекает, что D 2л + 1, где Г) — кодовое расстояние нашего кода. Обратно, если D > 2л + 1, то, договорив, шпсь расшифровывать как кодовое обозначение псе принимае- мые цепочки 6, принадлежащие шару Хэмминга радиуса п с центром (т. е. все такие Ъ, что | 6 — |х п), мы 1 арап тированно исправим любое не превосходящее п число ошибок при передаче. Итак, код позволяет исправить любое не превосходящее п число ошибок при передаче тогда и только тогда, когда его кодовое расстояние D не меньше чем 2п ~Ь 1. Аналогичным образом легко показать, что если кодовое расстояние D не меньше чем 2л, то код позволяет исправить любое, не превосходящее п —• 1, число ошибок и, кроме того, позволяет обнаружить наличие не меньше чем п ошибок (но в последнем случае он уже может и не позволить однозначно исправить эти п ошибок) *). Ясно, что «объем» Vn шара Хэмминга радиуса п, т. с. число «точек» Ь — (60, 6,, . . ., принадлежащих такому шару с центром в произвольной «точке» а = (а0, ах, . . ., а^_^, задается равенством V = l+C’y + C2f+--- + C^. Поскольку общее число всех А-членных цепочек равно 2V, то отсюда немедленно следует, что число S различных коде пых обозна- чений длины N, входящих в код, позволяющий исправить любое, не превосходящее п, число ошибок, должно удовлетворят!, условию 2N 1 + Cjy + • • • + (») Это простое условие, ограничивающее сверху возможное число S кодовых обозначений (а, значит, и максимальную возможную ско- рость передачи информации v = logS бит/ед. времени), назы- вается верхней границей Хэмминга числа кодовых обозначений. В частном случае кодов с про- верками на четность (т. е., иначе, линейных или групповых кодов)- оно совпадает с рассмотренной на стр. 405 нижней границей Хсммкн- га числа контрольных сигналов: в самом деле, для (А,М)-кода с проверками на четность число кодовых слов S равно *) Надо, впрочем, иметь в виду, что кодовое расстояние D ив определяет полностью способность кода исправлять ошибки при передаче. Так, например, если D = 2п, то зачастую для многих (хотя и’не всех) передаваемых обозначений код все равно позво- ляет исправить заметно больше чем п ошибок при передаче.
436 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЛИ (Гл. iv и поэтому условие (8) здесь точно совпадает с неравенством Хм мипга. Заметим, однако, что условие (8), в отличие от пернпепмм Хэмминга для числа К, применимо к любым кодам, а ле тол! н< к кодам с проверками на четность. Коды, обладающие тем свойством, что для них левая и при или части (8) совпадают друг с другом, называются с о в е р ш <• и н ы м и (или, реже, плотно упакованными). Совершен ные коды замечательны тем, что они практически во всех отношениях являются оптимальными (т. е. самыми лучшими). Мы уже вплели что среди кодов заданной длины N, исправляющих заданное чпг in п ошибок, совершенным кодам соответствует наибольшее число \ кодовых слое, т. е. наибольшая скорость передачи информации в случае совершенных кодов с проверками на четность, испрнв пи» щих заданное число ошибок, число контрольных сигналов К явличт л наименьшим возможным. Предположим теперь, что наш код ионол i. вуется для передачи информации по двоичной симметричной линии связи; при этом очень важной характеристикой качества нер<*дп'1П будет средняя вероятность ошибки при распни ровке + (?2 + • • • + (?g <? =---------5------- где S — общее число кодовых обозначений кода, n — иеропт ность того, что1 переданное г-е кодовое o6o.iiiii4<4ih« «I® и-х неправильно расшифровано на приемном шипи Путь тымръ —-это число цепочек Ь, находящихся и и рлк топими Хамммшл к от i-ro кодового обозначения а® и piiciiiii<|>pouuiin< ммх или м"' на приемном конце линии. 'Гак как в случае передачи ц< ночки вероятность получения на приемном конце двоичной ciimmi < ричной линии связи любой такой цепочки Ь, очевидно, ранил (1— p)N~lc, то вероятность правильной расшифровки передни ной цепочки а® равна сумме то} (! — P)N + т(±РС1 — p)N-1 Ч-----1- т^р11 (1 — р)лг_* -!-••• Отсюда видно, что средняя вероятность ошибки при раишпфррпкг равна Q = 1 — у ['«О (1 — p)N + тур (1 — p)N-1 4- • • • ••• +^(1-^-*+ •••!, где тк = + ... + m]£S) — суммарное число цепочек Ъ, находящихся на расстоянии Хэмминга к от какого-то кодовою обозначения а® и расшифровываемых как это а® (так что лн0 + + ту +... +»1к+...=2лг). Но полное число цепочек длины N, находящихся на заданном расстоянии Хэмминга к от фиксирован- ной цепочки а®, равно С1^; поэтому для кода, состоящего n.i 8
§ 51 КОДЫ, ОБНАРУЖИВАЮЩИЕ И ИСПРАВЛЯЮЩИЕ ОШИБКИ 437 кодовых обозначений длины N, та < 5, mi < SC\, тк SCN..... Пусть теперь п —- это наибольшее целое число такое, что 5 + 5^+ ... +5С^ <2n, ПО S + +• -. 4- б’С" + >2n, так что 2n-(S+ SClN + ... +^) = Г<6С’^11; тогда, если т0 = S, т± = SClK, . . ., тп = SC'^, то mn+1 < Т. г 1 Будем, как обычно, считать, что р < -гр; тогда вероятность рк (1 — p)N~k будет тем меньше, чем больше к, и поэтому случай, когда т0 — S, mt — SCj^, . . ., тп = SC’^, ш,1(1 Т, лнллотси наиболее благоприятным, т. с. приводящим к ihiumuiij. nitiii средней ошибке Q. Следовательно, Q > 1 - [(1 _ + с\р (1 - P)N -1 + • • • ... 4- C>n (1 - P)N~n + 4- Pn+i (1 - р)л/-"-1] (!•» Оценка (9) наименьшей возможной средней вероятности ошибки для кода с фиксированными значениями N и S, используемого для передачи по двоичной симметричной линии связи с заданным значением вероятности р искажения сигнала, называется н и ж и с й границей Хэмминга средней вероятности ошибки . Для совершенных кодов при условии, что все принимае- мые JV-членные цепочки, удаленные от какого-то кодового обоз- начения а(г) на расстояние Хэмминга, пе превосходящее п, рас- шифровываются как а®, неравенство (9), очевидно, обращается в равенство (причем Т здесь равняется нулю); отсюда видно, что для таких кодов средняя вероятность ошибки меньше, чем для любых других кодов с теми же значениями N и S. Совершенные коды имеют очень простой геометрический смысл (в геометрии, определяемой расстоянием Хэммипга): они соответствуют случаям, когда совокупность всевозможных «точек» 6= (fco> fci.. может быть разбита па конечное число «ша- ров Хэммипга» некоторого радиуса п, взаимно по пересекающихся, но заполняющих в своей совокупности все «пространство» (состоя- щее из 2" точек), причем центры этих «шаров» п составляют код (отсюда и название «плотно упакованный код»). Их основным недостатком является то, что таких кодов имеется очень мало
438 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ связи 11> IV они существуют лишь для некоторых исключительных яначемМ) 7V и 8. Простейшие совершенные коды — вто тривиальные кми, состоящие всего из двух кодовых обозначений (0, 0, .... Oj н (1, 1, . . ., 1), каждое из которых составлено из нечетного числа N — 2п + 1 одинаковых цифр. Для такого кода, очевидно, 1> « =2n+i, и код позволяет исправить пили меньше ошибок; все прост ранство из 2n — 22n+1 точек здесь распадается на два шири Хам миига радиуса п (содержащих по 22n = 2N-1 точек каждый). Кроме того имеется обширный (и весьма важный) класс совершенных кодов — это (2К— 1, 2К — К — 1)-коды Хэмминга, в отношении которых на стр. 405 уже отмечалось, что для них HcpaiieiK tin i Хэмминга для числа «контрольных сигналов» (эквивалентное не равенству (8)) обращается в равенство. В этом случае все прост petit ство из 2N = 22 точек распадается на 23 шаров Хэм минга радиуса 1, каждый из которых содержит 2А точек; здесь I) 3 и, следовательно, все одиночные ошибки могут быть исправлены Но если только допустить, что n > 1, а 8 > 2, то сразу возникав» прежде всего та трудность, что для существования совершенно! о кода сумма 1 + + ... + в силу (8) должна равняться вено торой целой степени числа 2, что на самом деле выполняет ей <«i ма редко. Занимаясь поисками совершенных кодов, американский ученый Голей (М. J. Е. Golay) заметил, что 1 + Cl, + С2 + CjL 2048 . •* >—и это подсказало ему, что в принципе может < ущ>< и < амь 2“ совершенный код с JV=23 и 211 “ 1 4<>'.н;, н<>аи< .шмнци* исправить любую комбинацию из трех или менее ошибок. Тиной код (называемый с тех пор двоичным с о в с р ш е иным кодом Голе я) ему действительно удалось разыскать; он оказался циклическим (23, 12)-кодом с проверками на четное т ь, задаваемым порождающим многочленом g (к) = Xй + хе -J- х7 + + ж6 4- ж + 1 или же проверочным многочленом Х1В__| h (х) — —до— = я124* «10-}-х7-]-х*-\-х3-[-х2-\-х-\-1 и имеющим кодовое расстояние D — 71). Дальнейшие поиски -1) Код Голея оказался также совпадающим с (непримптивным) кодом Боуза — Чоудхури — Хоквинтема, отвечающим значениям N = 23 и п — 2 (т. е. исправляющим все одиночные и двойные ошибки). Однако построение этого кода по методу Боуза и др. позволяет лишь утверждать, что для него D 5 (именно это и <>» начает, что код позволяет исправить одиночные и двойные ошибки), в то время как Голей установил, что на самом деле здесь й 7.
I 51 коды, обнаруживающие и исправляющие ошибки439 новых совершенных кодов к удаче по привели: кроме перечисленных выше никаких других таких кодов до настоящего времени по было найдено, и, по-видимому, их вообще больше не существует *). Pro, разумеется, не означает, что больше но существует сумм 1 + + С]у + ... + С$, равных степени двойки. Так, например, не- трудно проверить, что 1 + Cg0 + С$о — 212,—по тем пе мепсо мои, по доказать, что не существует совершенного кода с N = 90 и п = 2.] Поскольку совершенных кодов оказалось так мало, большое внимание было уделено поискам так называемых к в а з и с о в sp- in е и н ы х кодов, несколько худших, чем совершенные, по все лев достаточно хороших. Квазисовершешше коды определяются ic.nr такие, что для них шары Хэмминга некоторого фиксированию о радиуса п с центрами в точках, отвечающих всевозможным кодовым обозначениям, заполняют все пространство из 2N точек ft, за исключением лишь некоторого числа Т < SC™1 точек (где S — число кодовых обозначений кода), находящихся на расстоянии Хэмминга и + 1 по крайней мере от одного (но может быть— и сразу от нескольких) кодовых обозначений. Если мы условимся в случае квазисоворшеппого кода расшифровывать как все принимаемые цепочки Ь, находящиеся па не большом чем п расстоянии Хэмминга от кодового обозначения «В>, а цепочки ft, паходящиеся па расстоя- нии п + 1 от самого близкого к ним кодового обозначения, рас- шифровывать как одно (безразлично какое) из кодовых обо шачений, удаленных от Ь па расстояние п + 1, то неравенство (9) также и здесь обратится в равенство; поэтому и для квазисовершенпых кодов, используемых для передачи по двоичной симметричной линии связи, средняя вероятность ошибки при расшифровке будет меньше, чем для любых других кодов с теми же вначенилми N и S. В то же время квазисовершеппых кодов ужо имеется значительно больше, чем кодов совершенных (хотя и пх тоже все жо по очень много). Так, например, коды, исправляющие все одиночные ошибки ^Примечание при корректуре. Уже после окон- чания работы над этой книгой факт отсутствия каких-либо со- вершенных двоичных кодов, отличных от тех, которые были указаны выше, был, наконец, строго доказан финскими учеными Л. Т и е- тявяйненом и А. Перко [186] и, независимо от них, В. А. 3 и н о в ь е в ы м и В. К. Л с о п т ь о в ы м [187] в СССР; в последней из этих работ аналогичный результат получен также и для многих недвоичных совершенных кодов, пе рассматриваемых в нашей книге. В самое последнее время Зиновьев и Леонтьев и, независимо от них, Тиетявлйпсн и американский учении ван Линт получили полное решение вопроса о нахождении всех совер- шенных кодов, использующихрк элементарных сигналов, где р— произвольное '’простое, а Л — любоо целое положительное число; таких кодов также оказалось крайне мало.
440 ПЕРЕДАЧА СООБЩЕНИЙ ПО ЛИНИЯМ СВЯЗИ На IV в блоках из 7V =/= 2К — 1 цифр и получающиеся с помощью отйр« сывания некоторого числа столбцов в проверочной матрице . < ветствующего совершенного кода Хэмминга с N = 2К — 1, к < i часто оказываются квазисовершенными (см., например, (НН|, стр. 105). Квазисовершенными являются и все обсуждавшиеся ня стр. 429—431 (примитивные) коды Боуза — Чоудхури—Хоквпшема с N = 2К — 1, исправляющие одиночные и двойные ошибки (ем. |185]); именно на этом основании на стр. 432 и утверждалось, ча такие коды обязательно будут оптимальными. Ряд других пример! п квазисовершенных кодов описан в гл. 5 книги [168]; здесь и однако, не будем на этом останавливаться.
Приложение I СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ Функция у = / (х) называется выпуклой с в е р- х у (или5 короче, просто выну к л о й) па отрезке от ж — а до х = Ь, если в этом интервале любая дуга MN графика функции лежит над соответствующей хордой MN J) (рис. 31). Примерами могут служить логарифмическая функция у = log х во всей области свое- го определения, т. е. от О до со; степенная функция у — — хт в той же области /здесь предполагается, что показательная функ- ция у = — ах в области от — со до + со; функция у— — xlog х в о бл асти от 0 до оо, или функция у = —х log х— —(1 — х) log (1 — х) в области от 0 до 1 (рис. 32, а — д) Теорема 1. Если у — f (х) — выпуклая на отрезке от а до Ъ функция, хг и х2 — два значения аргумента этой функции, взятые внутри рассматриваемого отрока (т. е. два произвольных числа таких, что а < хг ft), то f (ат) + / (Да) < у ал + ха j (1) Доказательство (ср. выше, стр. 74). Пусть на рис. 31 ОА = х1г ОВ х2; и таком случае ЛМ = = / (хг), BN = / (аг2). Далее, если Л’ есть середина отрезка АВ, то OS= — и, следовательно, SP — f 1 j . а) В дифференциальном исчислении укапывается признак выпуклости функции, применимый к достаточно ши- рокому классу таких функций (в частности, ко всем функциям, рассматриваемым в втом Приложении); он состоит в отрицатель- ности второй проивводной у" функции у — j(x).
442 ПРИЛОЖЕНИЕ I С другой стороны, так как средняя линия SQ т|»ап«*1«М1 ABNM равна полусумме оснований AM и и 0J SQ = . Но, согласно определению выпуклой гб функции, середина Q хорды MN расположена н и ж о ючкм
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИИ 443 Р дуги MN-, следовательно, / (Z1) + / (Xi) fl Xi + х2\ 2 2 } ’ — что и требовалось доказать1). Примеры2). а) у = log х. Имеем log ari + log х2 , Xi + х2 2 2 т. е* log У х±х2 < log 51+51 Ci или, наконец, 1/--------------------- ' Х1+ х2 V ^2 <----2-- — среднее геометрическое двух неравных положительных чисел меньше их среднего арифметического. б) у — — хт, т > 1. Здесь получаем f 1 или, в другой! форме, I , „т , т , __। т , т I + а2 + • • • + afc \ Выражение I--------------------1 — корень степени т из среднего арифметического т-х степеней чисел х) Мы ограничиваемся при доказательстие случаем, когда Цх^ и f(x2) имеют одинаковые знаки (впрочем, единственно птот случай и будет нам нужен в дальнейшем). Предоставляе м читателю самостоятельно рассмотреть случай разных .шаков /(зч) и /(ж2) (здесь вместо свойства средней линии трапеции придется применить следующую теорему: отревок средней линии трапеции, заклю- ченный между ее диагоналями, равен полуравности оснований трапеции). 2) В содержании атой киши существенно используются лишь неравенства, связанные с выпуклостью функции у = —х log х и и у =log х [а также у = — х log х— (1— a:) log (1— ж)1; пример б) здесь и ниже имеет лишь иллюстративное значение. [Учение о выпуклых функциях является богатейшим источником всевозмож- ных неравенств, так что число подобных примеров можно было бы значительно увеличить.]
444 ПРИЛОЖЕНИЕ 1 ах, а2, ...,ак—называется степенным средним норн»на , / 1А2+«2+-- : т этихк чисел(в частности,выражение I/ -- отвечающее случаю т = 2, называется средним квадратичным чисел ах, а2, ...', afc). Таким обра- зом, полученный результат можно сформулировать i.uct степенное среднее порядка т 1 двух неравных положи тельных чисел всегда больше их среднего арифметичско-о. в) у = — х log х. Из теоремы 1 следует: Xi log Xi + Хг log z2 xi + х2 аа + з» 2 2 log 2 или — yXllOgXj —logx2 < — 4^1+ z2)log — результат, которым мы дважды пользовались п гл II (см. стр. 74 и 94). Неравенство теоремы 1 может Сыи> о(н>4и**иц ’••жу- ющим образом: Теорема 2. Если функция у f(i) • аыпупчли в интервале от а до b, j, и >а два произвольных числа из опии* интервала (а xv < х. Ь) и puq—какие угодно положи тельные числа, сумма которых равна единице, то Доказательст РК%1) +чК^г) < /(ра+'Н-)- ('•’) гг 1 При р = q = теорема . переходит в теорему 1. в о. Отметим прежде всего, что если М и N — две точки, имеющие координаты (х„ |/,) и (^2» Уг)> ® Q —точка отрезка MN, делящая этот отрезок в отношении MQ'.QN = q р (где p-\-q=l), то координаты точки Q равны рх± + qx2 и ру± + qy2. Действительно, обозначим через Хг, Х2 и Х~, Ух, Y2 и У проекции точек М, N viQ на оси координат (рис. 33); в таком случае точки
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 445 \ и Y будут делить отрезки ХгХ2 и УрУг в отношении q.p. Отсюда получаем1): ОХ — ОХг 4“ Х^Х - х^ -f- q (х2 — Xj) => = (1 — + дхг = Pxi + <1*2 11 OY = OY2 4- Y2Y = у2 + Р (У1 - у2) = = (! — Р)р2 + PUl = PUl Ь <Р/2- Рассмотрим теперь снова график нашей выпуклой функции у — f (х) (рис. 34), и пусть О А = xlt О В = х2, АМ= BN = f(x2). Со- гласно доказанному выше коор- динаты точки Q, делящей отре- зок MN в отношении MQ : : QN = q : р, равны рхг 4- и p/(x1) + qf(x2p таким обра- зом, на рис. 34 SQ = о/ (х^ 4- 4- qf (х2) и SP = f(pxl 4- qx2) (ибо OS = рхх 4* qx-iY По в силу выпуклости функции у — f (х) (Точка Q расположена н и Pf (zi) 4- qf (х2) < f (pxY + qx^, — что нам и надо было доказать 2). Пр и м е р ы. а) у — log х. В этом случае неравенство (2) дает р log а?! 4- q log х2 < log (pxt 4- '№)• Отсюда следует, что < pxi 4- qx2, р + q = 1. б) у =—х™, Имеем — рх™ — qx™ < — (рх, 4- qxt)" *) На рис. 33 изображен случай, когда всо четыре числа a?j, х2, и у2 положительны (по существу только этот случай вам и будет нужен). Предоставим читатели) самостоятельно рассмо- треть иные случаи. 2) Нетрудно видеть, что координаты каждой точки огреэ- ка MN могут быть представлены и виде (рх( 4- ?.та, /))/, 4" <Z.i/2), где р > 0, «у > 0, р 4- q — 1- Таким образом, неравенство (2) утверждает, что вся хорда МN расположена ниже кривой у = / (х), т. е. оно равносильно определению выпуклости функции.
446 ПРИЛОЖЕНИЕ I ИЛИ рх™ + qx™ > (рхх + gx2)m, р + q = 1. в) у — — х logx. Здесь получаем — pxxlogxx — ?X21ogx2 < — (рхх + jx2)log(pxx + qx,), P + <; -i. Теорему 1 можно обобщить еще и в другом наирнп лении. Теорема 3. Если у = / (х) — фушщил, выпук.ни в интервале от и хх,х2, ...,Х’Х — какие-то к значений аргумента (функции в этом интервале, не равные между собой, то i (*i) + / (^г) +-Ь / (sr) b а до & Рис. 35. к < f Х1 + Х1+ +Хц j ( jj (ч а с т п u ii с л у ч । ft и р а и о н с । и ii II и м г • м л) При А 2 icopiMd I и» реходи г и теорему I. Д о к а а а т о л ь с т и <». Начнем с определения од ного понятия, часто фигур и* рующего в геометрических и аналитических задачах. Пусть A/xA/2A/3 ... Afh—про- извольный Ar-уголышк (рис. 35, a); Q2—середина стороны А/хА/2 этого Zc-угольника (Afx^>2 ‘ =-4: -4); (?3—точка, делящая отрезок в отношении 2:1 (Af3^>3 i “ 2 1 - = -д- 1 y); Qi — точка, делящая отрезок M^Q^ в отношении 3:1 (ЛГ4<24 : QiQs = - у); наконец, (?ft —точка, де- лящая отрезок MhQh^ в отношении (к—1) i 1 (т. е. такая, что
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 447 Точка Qk называется центроидом (или центром тяжести) Zc-угольника МХМ2 ...Mh. В случае тре- угольника МгМ2М3 (рис. 35,6) центроид Q3 совпадает с точкой пересечения медиан: дсйстви тельно, в этом случае Q2 есть середина стороны МУМ2, отрезок M3Q2 является медианой и точка Q3, делящая этот отрезок в отношении M3Q3 : Q3Q2 =2:1— это точка пересечения медиан треугольника. Докажем, что если координаты вершин Мг, М2, ..., Mh К-угольника суть (х1, г/г), (х2, у2), ..., (xh, yk), то координа- ции + Ха 4- • • • + х ты центроида Qh будут равны ------------------------— и У1 + У2-\---F ук „ ----------------- ) . Действительно, в силу предложе- ния, приведенного в начале доказательства теоремы 2, точки Q2, Q3, Qu, .... и, наконец, Qh имеют следующие ко- ординаты: „ [ X! + Ха У1 + 1/2 \ I 2 ’ 2 ) ’ / 2 *14-*2 ,1 ± У1 + У2 , £_ \ 2 + 3 ®8’ 3 2 + 3 Уз) или I XI + х2 4- х3 У1 + Уа 4- Уз \ I 3 3 п / 3 х3 + х2 + Хз . 1 3 J/14- Уг 4- Уз . 1 ) Ьг'-------з-------V----------------з------- или (*i 4- х2 4- хз 4- т4 i/i 4- у2 4- i/з + !/< \ ( 4 • 4 1 ’ *14- *2 4-------1- Х^ 1 ---------;-------------h ~г Хк, к — 1------------------1 к К (к — 1) У1 + Ув -I-----, 1 —-----------------у" х) Отсюда, в частности, следует, что центроид Л-угольиика полностью определяется этим ^-угольником и не вависит от поряд- ка перечисления его вершин (как можно было бы думать, исходя из определения центроида); в случае треугольника это обстоятель- ство вытекает также из совпадения центроида сточкой пересечения медиан.
448 ПРИЛОЖЕНИЕ I ИЛИ XI + Х2 Ч-------h Zfc-j + Хк к У1 + У2 + •• + ук_г + ук к Вернемся теперь к нашей выпуклой функции у = / (х). Пусть 7ИХ, Мг, ..., Mh Рис. 36. ида Q /с-угольника М1М2.. это к последовательных точек графика этой функции, взятых в рассматриваемом интервале (рис. 36). В си- лу выпуклости функции Л-угольник М-.М2...М п бу дет выпуклым и будет ле- жать целиком под кривой y=f(x). Если абсциссы то- чекЛ/j, М2, ..., Mh равны xltx2, ..., xh, то ординаты их, очевидно, будут равны / (^i), / (х2), (хк). По- этому координаты цснтро- . Mh будут равны и /(^) + /(x2) + -.-- + /(rR) сда1а,.(.Л1.11(> к к у->о Xi 4- Х2 + • 4- хк с/, / (п) 4- f (,га) 4- • • Ч- / (’ Э — к ’ = к SP (см. рис. 36). Но центроид выпуклого Zc-угольника лежит внутри Zc-угольника (это вытекает из самого опреде- ления центроида); следовательно, точка Q расположена ниже точки Р и, значит, f И) 4- / (»г) 4- • • • Ч- f (хк) , /жх Ч- ^2 Ч- • • • Ч- 1 к к —что и требовалось доказать. Это рассуждение сохраняет свою силу и в том случае, когда некоторые (но не все!) из точек Мг, М2, ..., Mh совпадают (некоторые из чисел xlt х2, xh равны между собой) и Zc-угольник М±М2 ... Mh вырождаемся в много- угольник с меньшим числом вершин.
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 449 Примеры. а) у = log х. Из теоремы 3 следует, что log Ж1 + 10g *2 Ч-F log -''4- , -П b-r-a-l-l- Tfc к ° к ИЛИ V ХгХ2 ...хк + + Жк к — среднее геометрическое к положительных чисел, которые, не все равны между собой, меньше их среднего арнфмети ческого (теорема о среднем г о о м о г р и ч е с к о м и среднем арифметическом). б) у = — хт, т > 1. В таком случае получаем _ жГ + ^+... + ^ < _ , Уг+...+.Гго или I / ,т I 7-т 1 ... I гт \ . I at + аг + I \ JT I /» | • I -Tfc \ к / к — степенное среднее порядка т^> i произвольных к поло- жительных чисел, которые не все равны между собой, боль- ше их среднего арифметического. в) у = — х log х. В этом случае теорема 3 дает xi log Xi + х2 log ^2 -I- • + log *k <s- k < _ ^1 + Д2 +,-Fxk log (x-i 1-3-2 !-*••• Ч-д-fc j Наконец, докажем еще следующую георему, обоб- щающую как теорему 2, так и теорему 3: Теорема 4. Пусть у = f (х) — функция, выпуклая в интервале от а до Ъ, а xt, х2, ..., хк — какие-то к значе- ний аргумента этой функции, не все равные между собой, взятие в рассматриваемом интервале, и щ, р2, -,Рп— к положительных чисел, сумма которых равна единице. В таком случае Pif№ + Pz/te) + •••+ PkK%k) < < f(PiXi l- Ргх2 + ••• + Phxk) (5) (общее неравенство Йенсена). 15 А. И. Яглом, И. М. Яглом
450 ПРИЛОЖЕНИЕ I При к = 2 теорема 4 переходит в теорему 2, а при р± = = Рг = ... = Ph = у— в теорему 3. Доказательство. Рассмотрим снова график выпуклой функции у — / (х) и вписанный в этот график выпуклый ^-угольник М±М2 ... Mh, вершины которого Рис. 37. имеют координаты (агх, уг), (х2, у2), (xft, (рис. 37). Пусть теперь Q2 — такая точка стороны МУМ2 итого /{-угольника, что М&2 : Q2M2 = - : р1^ - ; <2з — такая точка отрезка M3Q2, что ______Рз . pi + Pt Pi + Pa + Рз ’ pi + pt + рз MsQa: QsQz Q4 — такая точка отрезка MtQ3, что МО • О О —______________Рв______’ Р1 + Ра + рз . 4V4 • V4V3 рх + р2-|-р3-|-ра " р1 + р2 + рз+ Ра наконец, ()— такаяточка отрезка MhQh-i,что ^kQ-QQh-i~ = Ph' (Р1 + Р2+ ••• + Ph-i) (если р± = р2 = ... = рь = ilk то Q — центроид Л-угольника MrM2 Воспользо- вавшись предложением, с которого мы начали доказатель- ство теоремы 2, найдем координаты точек Q2, Q3, Qtl ... ..., (?: л / P1X1+ pt^t Pl f(zi) + p2 /(ar2)\ 2 \ Pi + Pa ’ Pi + pt / ’ О ( Pl + Рз P1X1 + p-2»'2_____P3 \pi + Рз + P3 Pl + P2 ' pt + pt + P3 X&’ P1 + Pt pi] (34) + Ptf (x2) .______рз , ,x Л Рг+Ра + Рз Pi+Pa Pi+Pa + Ps7' 3>J
свойства выпуклых Функций 451 или Р1%1 + Р2^2 + рз^з Р1 + Рз + рз Р1/(ат) 4~ Рз/Ы 4~ Р»/Ы \ Pi -I- Рз 4 Рз j ’ Q / Pl 4~ Р2 4~ РЗ Р1+Р2 + рз+ра Р&1 + Р2^2 + р3%3 . Р1 + Pi + РЗ _______Pl______ pi + рз +рз I- pt pi 4~ P2 4~ P3 Pl + P2 + РЗ + P4 Plf&l) 4- Piffa) + рз/М Pl + P2 + P3 _______Pi_____ P1+P2 + ps+ pi /(*»)) ИЛИ ' P1'<1 + P2^2 + P3X3 + PiXf . Pl + P2 + P3 + pt Plf(-Tl) + P2/(X2) + jl (-» ) I Ptl(rt) Pi 4~ P2 + Рз I pt 7 pixi +P2^2-1-----1- pfc_1xft_1 + pftxft \ pi + P2 + • • • + Pft_± + Pk ’ Plf(3-1) + P2/(^2) + • • ' + Pr_L/ (r/C-l) + Pkf U'ft) \ Pl + P2 +-----F Pk 1 Ь Pfc / или иначе, (РЛ + P2X2 + ••• + phxh, pj (Xi) -I pj (x2) I ... • •• t Phf (xh)) (так как p± + p2 4- ...4- ph = 1). Таким образом па рис. 37 SQ = Pifai) + P2/U2) + ••• + Pi,f(xh), OS — p±a\ + p2x2 4- ... + Phxh> SP = /(PA + РгХг + ••• + Phxh)- А так как точка Q расположена u и ж е гонки /’ (ибо весь Zc-угольник МкМ2 ... М|, лоясиг под кринои р / (т), а Q — внутренняя гонка ггого к угольника), то Pif (А) + Р2/ fa) + ••• + Pif (xi,) < < / (Р1Л I Р-х-г I ... 4 PhXh), — что и требовалось докапать *). 1) Нетрудно видеть, что координаты к а ж д о й тцтренпей точки /с-угольника Л71Л/1...Л7|С можно прсдстанить п виде (Pixx 4- р2^2 4- — 4^ Рцхц, p,l(jr,) 4- р8/(^.) 4- ••• 4- Pfc/f-’it))). 'до Pi > о, р2 > о, ..., р|с > о, 11 Pj 4 р. 4- ... 4- рк • 1, Таким образом, неравенство (5) выражшт то обстоятельстпо, что iniiicaii- ный в график выпуклой функции многоугольник пе<ь лежит и и ж е этого графика. 15*
452 ПРИЛОЖЕНИЕ I Примеры. а) у = log х. Б таком случае получаем: Pi log х± + р2 log х2 + ... 4- ph log xh < < log (p^ + p2X2 + ... +phxh), откуда следует, что X^X^ . . . X^k < PiXi + p2X2 + ... + где pi + p2 + ... + P/f = 1 (обобщенная теорема о среднем ге- ометрическом и среднем арифмети- ческом). б) у=—хт, т^>Х. Имеем — РА" — р2х™ — ... —ркх™ < — (рл + р2х2 + ... 4-Р/А)т или Р14" + PiX™ + . • • + PkXk > (РА + p2X2 + . . . + pkXt!)m, где pi + p2 4- ... I pit = 1. в) у — — x log x. Теорема 4 даст — PA log^i — P2^2 log^2 — ••• — PA logZb < <—(PA + P2^+ PA) log (PA + pzx.2+ -+рл), где р^ + p2 + ...+ ph = 1. (6) Вывод неравенств (4) (стр. 449) и (6) и составлял основ- ную цель настоящего Приложения. Из неравенства (4) сра- зу следует, что энтропия опыта а, имеющего к исходов, не превосходит энтропии log к опыта а0, имеющего к р а в- новероятных исходов; при этом И (а) = log к липп. в том случае, когда все исходы а равновероятны, т. е. когда опыт а не отличается от а0. Действительно, умно- жим обе части этого неравенства на к и затем положим в нем Xi = р (ЛД, х2 = р (А2), ..., xh = p(Ah), где Alt Az, ..., Ah — исходы опыта а (так что р (ЛД 4- + Р Иг) + ••• + p(Ah) = 1; вероятности р (ЛД, р (Л2),... ..., р (Ак) не все равны между собой). В таком случае
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 453 будем иметь: —Р Mi) logp МО — р (Л2) log (Л2)-------р (Лк) log р (Л^Х <С — (Р Mi) + Р Мг) + ‘ • + Р Мл) 1 X X х р(Л1) + р(Л2)+--- + р(Лк) =_1>log t J /. ft к ИЛИ Н (а) < Н (а0). Неравенство (6) может быть использовано для доказ i- тельства того, что условная энтропия На 0) опыта 0 nj и условии а не превосходит безусловной энтропии 11 (0) того же опыта. В самом деле, полагая в неравенстве (б) Pi = Р Mi), Рг = Р Мг), Ph= Р Мл), х, = PA,(Bt), xz = Pa,(Bj), ... xh = pAk (Bj) (где Л,, Л2, .... А /71т Вг,... Bi — исходы опытов а и 0; р (Лг) -| р (Л2) -|- ... + р (Л„) = 1), мы получим — P(ai)Pa,(Bj) logp^Mi)— р (А2) Pa,(Bi) pA.(Bt) ~ ... — Р Мл) PAk (Bj) log рЛк (В,) < < —[р Mi) Pa,(Bj) + р(А2)рл, (Bj) + ... + р (Лй) PAk(Bj)I X X log [р М1)р А.М1) + p(A2)Pa,(Bi) + ... +р(Л л)рл(с(/?|)1 Так как в силу формулы полной вероятности (см. выше, стр. 44) P(^i)Pa,(^i) + Р Мг) рАг(В±) + р ( I „)Рлк (Bi) p(Bt), то последнее неравенство можно переписать тпк: — Р Mi) PAt(Bj) log PAt(Bi) — PM2)pA,Mi)*<'g Pa, (Bj) — ... ... — p (Ah)pAk(Bi) log рдк (Bi) < — p (Bi) logp (Bi). Заметим, что если рд, (Bt) = рд, (В,) = ...= pAk(Bt) = = р (Bj) (последнее равенство здесь следует из формулы полной вероятности), то паше перавспстло обращается в
454 ПРИЛОЖЕНИЕ I равенство. Точно так же получаем — Р И,) pAl (В2) log pAl (В2) — р (А2) рА,(В2) log Рл.(В2) — ... ... — р (Ah)pA (В2) log рА (В2) < — р (В2) log р (В2), К к — Р (A^p^Bt) logpA1(Bi) — р(А2) рл2(В t)log р Аг (В t) —... ... — р (Ah)pA (Bi) log pA (Bi) < —p (В,) log p (Bi). К к Теперь, складывая все эти неравенства, имеем р (AJHaM) + Р (А2) НАг (р) + ...+p(Ah)HA^)<H(^ или Я»(Р) < Н (Р). Это неравенство имеет место, если опыты а и Р не не- зависимы., т. е. если существуют такие i и j (1 i к, 1 /</), что pAi (Bj) =}= р (Bj). Если же опыты аир независимы, то, очевидно, ЯИ(Р) = Я(Р). Заметим еще, что если подставить в неравенство Pl log X! 4- Pl, 10g Х2 + . . . 4- р* log Хк < log (piXi -J- pvn 4-... 4- Р^„)> Л 4 pt 4- . • -1- pk 1 (ср. пример а) па стр. 452), xi = , х% = — 9i 4 9г 4- ... 4- 9k <3, то мы получим ^ = ~. где + +...4-pklog-^< ‘С log (914* 92 4- • • • 4- 9/,) 'С log 1=0, откуда, учитывая, что log -77- = log 91 — log pi, Jog — = log 92 — pl P2 — log P2....log — = log gk — log Рк, имеем — Pl 10g Pl — P210g ps — . . . — log pk < < — Pl log 91 — P2 log ga — ... — pk log gk. t. e. неравенство (*), стр. 180. Наконец, упомянем еще об обобщающем неравенство На (Р) ‘С -С Н (₽) неравенстве ^а7(₽)<^(₽).
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 455 о котором шла речь в конце § 3 гл. II (это неравенство переходит в На (Р) -С Н(Р), если предположить, что опыт у имеет единст- венный исход, реализующийся с вероятностью 1). Его легко вывести из неравенства Яа(Р) -С Я(Р). Действительно, обозначим исходы опыта у через Clt С2, . . ., Ст; пусть и р^ — опыты, исходы Л^, Л^, . . ., Л^ и В^, . . ., В/1), которых осуществля- ются с вероятностями р (Л<1)) — pCt (Л,), р <Л(а1>) = pCt (Ла), ... ..., р (Л^) = рС1 (Лк), соответственно р (В|* >) “ РС1 (В.). Р = = рс (В2), . . р (В^1») — рс (В,). В силу доказанною вышо имеем Яа(1)(₽(1>)<Я<₽(1>)- Но Я (₽<») = = — р (В<х)) log Р (В<г)) — р (B(2n) log р (В^)—...— Р (В<’>) log р (В< °)=. = — pCi (Bi) log pCi (Bi) — рС1 (Ва) log pCt (Ba) — . . . • • • — Рс, *°И Рс, ЦС, (Р) И яа(1) (₽<!>) = Р (Л^>) (Р<1>) + р (Л<а1>) н (рО) ... + р(Л£>)Я (1)(3<1’), Ак где "^1) (3(1>) = - Р% log РА(П (В</>) - - 1) (В2>} loS PAW РА(1) (В/П) 1<Jg Рл(1) Яа(1> (₽<1)) = - рАЫ log PaW “ - Рл(1) <В2У) loS Рм (да - • • - Р .(1) (В(,П) log р (1) (Bj1»),. Л2 ^2 2 haW (₽(1))=- рАы <да> ios paW (B(i°) - лк - P д(1) (B2n) 1<Jg Р.Ы (c2l)) - • • • - P (1) (wJl>> los /’ (I) Ak АИ л1с Ak
450 ПРИЛОЖЕНИЕ I Найдем теперь условные вероятности P^i^Bj1)), рл(1) (В^) и т. д. В силу правила умножения вероятностей (см. § 3 гл. I, стр. 42) Рл(1) (В'1') равно отношению вероятностей событий А ^В^1 и лП\ Нор (Л^) = рс (Л,); что же касается вероятности события А в]1', то она, очевидно, равна условной вероятности рс (ЛХВ() (Л^ — осуществление события А± при том условии, что произошло событие С,, Bjx> — осуществление события Вх при том же самом условии; поэтому Л^ это есть осуществление Л,В( при том же условии). Но в силу правила умножения вероятностей рс (А1В1)= = рс (Л±)рс А (Bj); следовательно, р(АМв^) pC1M0pCMi(Bx) р(Л«) _ рс,И*) -Рс^иы- Точно так же показывается, что PAW = PCtA. (М Рл(1) = РС^ &). . . . Pj1)(^1))=^1z(£(Bz). Отсюда получаем ^Д<1) = PCiAt (^0 1°8 РС1А, — PCtAi ’°" PCtA^Bd— ----------------------------- PCiA, (Bj) log РС1Лц(-®г) = ^C1A, (3) и аналогично "a (₽u>)= нС1Аг (3),ял(1)(3(1)) = нС1Аз(₽),... “•2 "3 ...,Z7 (1)(3(1,)=HC)A (3). Ak K Таким образом, имеем (напоминаем, что р (Л^) = рс (Л^, р (Л<х>) = рС1 (Л2), ..., р(Л<1>) = рС) (Л^)) (р'1») = рс, Иг) hCiAi (3) + pCi (Ла) нС1Агф) + ... + Рс, 0%) ЯС.Ак(ID- Поэтому неравенство На^ (р(11) Н (3(1)) можпо записать в виде рс,(^1) ^С1А1(₽) + РС1(-|42)^с!А2(₽) + •• • + РС,(Ак) ^С,(Р)’
СВОЙСТВА ВЫПУКЛЫХ ФУНКЦИЙ 457 Умножая обе его части на p(Ci) и учитывая, что р(<\) рс (/Ii) =» Р р (Ст} pCi (Л2) = р (СгА), • . p(Ci) pCi (.lfc) р будем иметь / ( 1 11) ^CjAi (3)4- ptc^H^ (₽) + ... • • • + Р (СМЬ) HClAk (3) < Р (Cl) //Г1 (Р). Точно так же доказываются неравенства Г (С’гЛх) Hc^Ai (Р) + р(С2Л2) ^с2Л2 (3) + --- . . . + Р (ОИ k) IlrtAк (Р) р (С2) IIс, (Р), /' (Ст Л>) НСтА1 (3) + Р <Рт^ НСтАа (Р) + . . . • • +яс„л) /л-тЛ([(3) </>(<;„) //<„, (3)- Складывая почленно все эти iiejiaiieiii-Tiia, получим Нуа (3) < "у (3). -что и требовалось доказать (событии уи и ну не рд.-тлнчииггся).
Приложение II НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ Основным предметом изучения в алгебре являются те или иные алгебраические системы, т. е. множества элементов, для которых определены некоторые алгебраические операции, подобные известным из арифме- тики операциям сложения и умножения чисел. При этом характер элементов системы и конкретный смысл рассмат- риваемых операций обычно никак не оговариваются, так что одна и та же алгебраическая схема может описывать весьма разнородные примеры. Напротив, свойства алге- браических операций подробно описываются — и это опи- сание является определением соответствующей алгебраической системы. 1. Первым алгебраическим понятием, широко исполь- зуемым в самых разных разделах математики, является понятие (коммутативной1) ) группы. Множество G элементов а, Ь, с и т. д. называется (коммутативной) группой, если в этом множестве определена операция °, сопоставляющая каждым двум элементам а и Ь нашего множества единственный третий элемент, обозначаемый символом а • Ь, причем 4° операция ° коммутативна! а ° Ь = Ь ° а для любых а и Ь из G; 2° операция о ассоциативна! (а ° Ь) о с = а ° (Ь ° с) для любых а, Ь и с из G; 3° в множестве G существует такой элемент е, что а ° е ~ а для всех а из G; В алгебре рассматриваются также и некоммутатив- ные группы, для которых сформулированное ниже условие 1ч пе имеет места; однако так как в этой книге встречаются лишь ком- мутативные группы, то мы позволили себе, в отступление от тра- диции, включить условие 1° в определение группы.
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 459 4° для каждого элемента а из G существует такой эле- мент а*, что а о а* = е. Групповую операцию ° иногда обозначают знаком +; при этом элемент а + Ъ называют суммой элементоз а и Ь; элемент е такой, что а + е = а для всех а, называют нулевым элементом или просто и у л е м группы и зачастую обозначаю! символом 0; эле- мент а* такой, что а + а* = 0, называют противоположи ы м к « и обозначают через —а. Можно также рсаулщт а < b применении к элементам а и Ь групповой операции ° обозначить через а-Ъ или через ab-, в таком случае ае а для псах а, и поэтому е называют е д и п и ч и ы м элементом или единицей группы и иногда обозначают «имнолом 1; далее, аа* = 1, и поэтому а* называется об р л т п ы м к а и обозначается через а-1. Мы в дальнейшем всегда будем обозначать групповую операцию знаком + ; при этом через а — Ь обозначается такой элемент х (разность элементов а и Ъ), что х + b = а (нетрудно видеть, что та- кой элемент х всегда существует: он ранен а 4- (— Л)). Примеры. А. Множество целых чисел (или рациональны г чисел, или вещественных чисел) об разует группу по сло- жению', другими словами, соответствующей множество, где за групповую операцию принято (обыкновенное!) сложение, образует группу с нулем 0 и противоположным а элементом — а. Б. Примем за групповую операцию (которую мы те- перь будем обозначать знаком « + », чтобы подчеркнуть, что это не есть обыкновенное сложение) умножение чисел. При этом множество целых чисел уже пе будет об- разовывать группы, поскольку здесь, очевидно, по выпол- нено условие 4°: ведь целое число а* такое, что а «+»«* = = аа* — 1, существует, только если а = 1 или а — — 1.
460 ПРИЛОЖЕНИЕ II Также и множество всех рациональных чисел не об- разует группы по умножению, поскольку здесь условие 4° нарушается при а = 0. Однако множество всех отлич- ных от 0 (или всех положительных) рациональных чисел (или вещественных чисел) уже образует группу по умножению. В. Рассмотрим снова множество всех целых чисел и определенную в этом множестве операцию сложения чисел. Выберем теперь какое-то целое положительное число q и условимся заменять каждое число А остатком а от деле- ния А на q\ так, например, если q = 10, то мы условимся оставлять у каждого целого положительного числа А только его последнюю цифру а (это и есть остаток от деле- ния А на 10). Множество всевозможных остатков от деле- ния целых чисел на q, состоящее из q чисел 0,1, 2, ..., q —1, мы назовем ^q-арифметикой»', суммой же элементов а и b ^-арифметики мы назовем остаток от деления обычной суммы а 4- Ъ на q (равный а + Ь, если а 4- Ъ q). Вот как выглядят, например, «таблицы сложения» в 2 ариф- метике, 5-арифметике и 6-арифметике! 4- 0 1 4- 0 12 3 4 + 0 1 2 3 4 5 0 0 1 0 0 12 3 4 0 0 1 2 3 4 5 1 1 0 1 1 2 3 4 0 1 1 2 3 4 5 0 2 2 3 4 0 1 2 2 3 4 5 0 1 3 3 4 0 1 2 3 3 4 5 0 1 2 4 4 0 12 3 4 4 5 0 12 3 5 5 0 1 2 3 4 Легко видеть, что q-арифметика по отношению к определенному в ней сложению представляет собой группу из q элементов (или, как говорят, группу порядка}); нулевым элементом этой группы является число 0, а про- тивоположным числу а =/= 0 будет число q — а (ибо сумма а + (§ — а) при делении на q дает остаток 0). Для 2-ариф- метики, очевидно, противоположным для каждого числа а (т. е. и для а — 0 и для а = 1) будет оно само: здесь всегда — а — а. Г. Пусть G — кака я-у годно группа, например, группа целых чисел по сложению или группа сложения чисел в ^-арифметике. Рассмотрим теперь произвольную
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОПЯТИЛ 461 ыблицу из т строк и п столбцов или (т X п)-матрицу составленную из элементов группы G, которые мы далее будем называть числами. Ясно, что, условившись склады- вать матрицы «поэлементно» (т. е. считая, что число, стоя- щее на некотором месте матрицы-суммы, равно сумме чи- сел, стоящих на тех же местах в матрицах- слагаемых), мы придем к группе (т X п)-матриц по сло- жению', нулевым элементом этой группы служит пулевая матрица О, составленная из одних нулей. (1 X п) - матрицы называют также векторами (или векторами-строками); аналогично этому (т X 1) матри- цы называют векторами-столбцами. Разумеется, векторы с одним и тем же числом элементов строки (пли столбца) также можно складывать между собой; если элементы лек- торов принадлежат какой-то группе («группе чисел»), то и векторы образуют группу по сложению. Векторы ча- ще всего обозначают малыми латинскими буквами жир ного шрифта; «пулевой вектор» (т. е. строку или столбец из одних нулей) иногда обозначают жирной цифрой О. Если группа С «чисел» является бесконечной, то бес- конечной будет и группа (т X п) матриц (и частности, векторов), которые строятся из этих «чисел». Е< ли же груп- па G имеет конечный порядок с/, то группа (т п) мат- риц будет иметь порядок qmn: ведь матрица имеет пт элементов, вместо каждого из которых малою подегавпгь любой из q элементов группы G. Аналогично i р\ ина векто- ров-строк из п элементов и группа векторов столбцов из т элементов будет иметь конечный порядок с/‘, соот- ветственно, qm, если основная группа G имеет порядок </. Д. Рассмотрим произвольный м и о г о ч л е н / = «О + «1^ + «2^ + ..•+ «п_1 х” J, коэффициенты а0, аг, ..., ап_г которого являются элемен- тами произвольно выбранной группы G. Если g (х) —
462 ПРИЛОЖЕНИЕ II другой многочлен g (z) = b0 + btx + Ь2Х2 + ...+ (мы считаем, что f (z) и g (z) имеют одну и ту же степень, ибо в противном случае всегда можно дополнить тот из них, степень которого ниже, несколькими «старшими» чле- нами с коэффициентами 0 при них), то можно определить с умму многочленов j (х) + g (х) = (а0 + Ьо) + («х 4- Ь±)х 4- (а2 4- &2)z2 4- ... — + («n-i 4- Ьп_г) z’w. Легко видеть, что многочлены с определенной таким обра- зом операцией сложения образуют группу, эта группа всегда будет бесконечной, ибо степень многочлена может быть сколь угодно большой. Роль нулевого элемента этой группы играет, очевидно, «нулевой» многочлен 0, все ко- эффициенты которого равны нулю; противоположным / (z) будет многочлен—/ (z), все коэффициенты которого противоположны коэффициентам / (z). Если мы ограничимся многочленами степени ниже п, где п — какое-то фиксированное число, то мы также по- лучим группу, она, как легко видеть, отличается от груп- пы векторов 1 = (й0, °1» а2ч •••, Gn-1) лишь формой записи элементов группы. Эта группа уже будет конечной, если конечной является группа G; если порядок группы G равен q, то порядок группы многочле- нов степени < п равен дп. Так, например, имеется всего 22 = 4 многочлена степени < 2 с коэффициентами из 2-арифметики: 0,1, z и х 4" 1; «таблица сложения» этих многочленов такова 4- 0 1 X х4-1 0 0 1 X х4-1 1 1 0 z4-l X X X z4-l 0 1 X 4-1 X 4-1 X 1 0 Пусть теперь G — произвольная группа и Н — часть элементов этой группы. Если множество Н элементов труп- лы таково, что 1° если а принадлежит Н и b принадлежит II, то а 4- b тоже принадлежит Н\
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 463 2° если а принадлежит И, то и —а принадлежит Н; 3е нулевой элемент 0 группы G принадлежит Н, п> множество Н само образует группу относительно определенной в G операции сложения. В таком случае говорят, что Н представляет собой и о д г р у н и у группы G. В частности, если G — группа целых чисел по сложе- нию, то совокупность Н всех чисел, кратных фиксиро- ванному числу I, образует подгруппу группы G. Точно так же, если G — группа сложения чисел и q арифме- тике и q = kl — составное число, то совокупность И всех принадлежащих G чисел, делящихся на I (г. е. чисел /, 21, 3/, ..., (к — 1)1), образует подгруппу группы 6 (не- существенно отличающуюся, как легко попять, от груп- пы сложения чисел в /^-арифметике). Подгруппой группы (т X п)-матриц по сложению яв- ляется, например, группа всевозможных матриц, у кото- рых все строки, кроме первой, состоят из одних лишь пу- лей (эта подгруппа, очевидно, лишь записью отличается от группы по сложению векторов строк), а также группа матриц, у которых равны 0 все элементы, кроме какого-то одного фиксированного,—например, элемента оп, стоя- щего в правом верхнем углу (эта подгруппа сводится к группе G, поскольку каждый ее элемент задается одним числом ап). Укажем еще, что если G есть группа (т X п)~ матриц с элементами из «2-арифметики», то для того чтобы убедиться, что некоторая ее часть составляет подгруппу, достаточно проверить выполнение одного условия 1° (ибо в 2-арифметике каждое число обратно самому себе, а потому здесь А -ф А = О для каждой матрицы А и, значит, — А — А). Подгруппой группы всех многочленов является груп- па многочленов степени < п; для этой же последней груп- пы подгруппой является группа многочленов степени <С к, где к < п, или группа многочленов, обращающихся в О при х = 0 (эти многочлены характеризуются равенством нулю «свободного члена» а0). 2. Следующими по важности алгебраическими сиг ге- мами являются поля икольца. Множество F элементов а, Ъ, с и т. д. называется п о- л е м, если в нем определены две операции, сопоставляющие двум элементам а иЬ полЯ третий элемент', эти операции
464 ПРИЛОЖЕНИЕ II можно назвать «сложением» (и обозначать «сумму» элементов а и Ъ поля через а + Ь) и «у м н о ж е н и е м» («произведение» элементов а и b естественно обозначить через ab). При этом: I) элементы поля должны образовывать группу по сло- жению-, П) отличные от нуля элементы поля должны образо- вывать группу по умножению', Ш) сложение и умножение должны подчиняться дш- трибутивному закону. {а + Ь)с = ас + Ьс для всех а, Ъ и с. Легко понять, что для любых элементов а и Ь поля F, г. а где о отлично от нуля, существует их «частное»т. е. та- кое число у, что Ъу=а-. это у можно определить формулой У = а>-1. Примеры. А. Ясно, что множество всех рациональных (или вещественных, или комплексных) чисел образует поле относительно обычных операций сложения и умно- жения. Б. «Произведение чисел а и b «/-арифметики» опреде- лим как остаток от деления на q обычного произведения ab; так, например, «произведение чисел а и Ь 10-арифме- тики» — это просто последняя цифра числа аЪ. Вот, на- пример, как выглядят «таблицы умножения чисел» в 2- арифметике, в 5-арифметике и в 6-арифметике: 0 1 0 12 3 4 012345 0 1 0 0 0 0 1 1 2 3 4 00000 0 01234 1 02413 2 03142 3 04321 4 5 000000 012345 024024 030303 042042 054321 Сравнение этих таблиц позволяет усмотреть сущест- венную разницу между ними: в то время как для 2-ариф- метики и 5-арифметики каждая строка таблицы, кроме первой строки, состоящей из одних нулей, содержит еди- ницу, для 6-арифметики это будет уже не так (здесь не со- держит единицы 3-я, 4-я и 5-я из шести строк таблицы). Таким образом, в 2-арифметике и в 5-арифметике любое
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 465 отличное от 0 число имеет обратное (в 2-арифмстико име- ем l~i = 1; для 5-арифметки верны равенства 1 1 = 1, 2-1 — 3, З-1 = 2 и 4-1 = 4); напротив, в 6 арифметике числа 2, 3 и 4 не имеют обратных. Отсюда легко следует, что 2-арифметика и 5-арифметика по отношению к онре деленным в них сложению и умножению являются полями, а 6-арифметика полем не является. Нетрудно понять, что для любого состав кого q — kl (где k > 1, I 1) g-арифметика и о м о ж е т явиться полем: это вытекает, например, из того, что здесь kl = 0 (где умножение понимается в указанном выше смысле). Если же р — простое число, то в р-арифме тике каждое число имеет обратное (см. ниже, стр. 467); поэтому р-арифметика с определенными в пей действиями сложения и умножения чисел представляет собой конеч- ное поле Fp из р элементов (или поле порядка р). Обратимся теперь к случаю произвольной «/-арифмети- ки, где q, вообще говоря,— с о с т а н и о е число. В та- ком случае мы пе получаем поля, поскольку не каждый элемент «/-арифметики будет иметь обратный; все же ос- тальные определяющие поле условия сохраняют силу и для этого случая. Множество К элементов а, Ь, с и т. д., в котором оп- ределены операции сложения и умножения, причем I) элементы нашего множества образуют группу по сложению', 11) умножение элементов множества таково,что ab=ba для всех а и b; (ab)c — а (Ьс) для всех а, Ьис; существует такой элемент 1, что а • 1 = а для всех а; III) сложение и умножение подчиняются дистрибутив- ному закону: (a -J- Ъ) с = ас + Ьс для всех а, Ь и с, называется (коммутативным) к о л ьцом *). х) Здесь мы также отклоняемся от традиций, coivinciio которым при определении кольца всегда требуют коммутативности сложения (выполнимости равенства а + Ъ = b + а при всех а и Ь), по по на- стаивают на коммутативности умножения, т. о. па обязательности равенства ab = Ьа. (Отметим также, что иногда в определение кольца не включают и требование существования единичного элемента 1.)
466 ПРИЛОЖЕНИЕ II Примеры. а) Ясно, что поле — это частный случай кольца (поле— это кольцо с делением); поэтому все примеры полей одно- временно являются и примерами колец. б) Совокупность всех целых чисел составляет кольцо (относительно обыкновенных операций сложения и умно- жения чисел). в) Совокупность всех многочленов с коэффициентами из некоторого поля F составляет кольцо относительно по- членного сложения многочленов и почленного их умно- жения: если а (х) = а0 + а±х + а2х2 + .„+ ап_1ж,‘-1 и b (х) =&0 + \х + Ь2х2 + ... + ж”1-1, то а (х) Ъ (х)=а0Ъ^-\-(а0Ь± а^Ъ^) х + (а0Ь2+«1^1 + a2b0)x2-Y... ...+ а^Ъ^ ж”+т^. Нулевым элементом этого кольца является многочлен О, а единичным — многочлен 1 (оба они — многочлены ну- левой степени). Примеры б) и в) имеют между собой много общего; это общее проявляется, например, в существовании в обоих рассматриваемых кольцах деления с остат- ком числа «на Ъ или многочлена а (х) на b (х) (где |« |> > |Ь], соответственно, ст. а (ж) > ст. b (ж); через ст. /(л) мы обозначаем степень многочлена j (ж)): а = = ub 4- г, где | г | < | b |; а (х) = и (ж) b (ж) + г (ж), где ст.г (ж) < ст.Ъ (ж). Здесь число и (многочлен и (ж)) называется частным от деления а на b (или и (ж) на Ъ (ж))), а число г (многочлен г (ж)) — остатком (остаток от деления может оказаться равным 0). Процедуру деления с остатком можно использовать для нахождения наибольшего общего де- лителя (НОД) двух чисел или двух многочленов. Так, например, ограничиваясь случаем (целых) чисел а и Ъ и обозначая НОД этих чисел через (а, &), последова- тельно находим (числа мы считаем положительными): а = иЪ-\-г, где г<^Ъ и (а, L) = (Ь, г); Ъ — игг rlt где ri г и (Ь, г) = (г, гД; г = «2О + О, где о < гг и (г, гД = (гь г.Д; 0-2 = + rk, где и (rfc_2, гк_Д = (r^, rk); гц-i = ик+1Г!с, и, значит, (г^, rh) = rh.
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 467 Таким образом, число гк — это и ость d - - (а, Ь). Важно заметить, что найденное описанным способом’) число d — (а, Ь) можно выразить через исходные числа а и Ъ в виде d = Ma + Nb, (♦) где М и N — какие-то целые числа. В самом деле, из выписанных выше формул последовательно находим г — 1-а + (— и) b (= т • а -]- п • Ъ), т\ = !•&+ (—щ)-г = т^а+п^Ь, г2 = 1-г + (—н2)ф^1 = т2-а+п2-Ь, ..., rh = 1тк-2+ (— uft)-rh-i = М-а + N-b, где все числа тип (т. о. 1 и — u), nit и и, (они равны — иг и 1 + uuj), т2 и п2, ..., М nN — целые. Из формулы (*), в частности, вытекает, что в рарифме- тике (где р — простое) каждое число а =£= О имеет обратное. В самом деле, если 0 <; а <С р, то, очевидно, (а, р) = 1, и поэтому 1 = (а, р) = Ma + Np\ таким образом, произведение Ма (= (— N)-p 4- 1) при делении на р дает остаток 1. Ио это и значит, что отве- чающее М число игр-арифметики (ot таток от деления М на р) в /j-арифметике является обратным л: при перемно- жении чисел по правилам ^-арифметики мы имеем та —1 и, значит, т = а^1. Совершенно та же процедура позволяет найти НОД (а (ж), Ъ (х) ) двух многочленов а (х) и Ъ (х) 1) Описанная процедура нахождения наибольшего общего делителя а и Ъ носит название алгоритма Евклида; кольца, в которых эта процедура применима (и частности — коль- цо целых чисел или кольцо многочленов) иногда называют евкли- довыми кольцами.
468 ПРИЛОЖЕНИЕ II и доказать, что если (а(.г), b(x)) — d (х), то d (х) = М(х)-а (ж) + N(x)- b(x), (**) где М(х) и N(x) — какие-то многочлены. Аналогию между кольцом целых чисел и кольцом мно- гочленов (с коэффициентами из какого-либо поля F) мож- но охарактеризовать еще и иначе. Подмножество J эле- ментов произвольного кольца К называется идеалом -этого кольца, если (I) множество J представляет собой подгруппу по от- ношению к определенной в К операции сложения', II) для каждого а из J также и все произведения ак, где к — какой-угодно элемент К, принадлежат J. Типичным примером идеала кольца целых чисел явля- ется множество всех чисел, кратных произвольно выбран- ному целому числу i (т. е. чисел вида ai, где а пробегает все целые значения); аналогично этому примером идеа- ла в множестве многочленов является множество много- членов, кратных произвольному наперед заданному много- члену i(x) (т. е. множество многочленов вида а(х)Цг), где а(х) — произвольный многочлен). Идеалы описанного строения называются глав и ы м и и д е а- л а м и кольца целых чисел, с оответствен ио коль- ца многочленов, порожденными числом I и много- членом i(x). Имеет место следующее утверждение, раскрывающее глубокие общие свойства колец целых чисел и много- членов: В кольце целых чисел и в кольце многочленов каждый идеал J является главным, т. е. состоит из всевозмож- ных кратных фиксированного целого числа i, соответствен- но — фиксированного многочлена i(x). Доказательство высказанного утверждения не пред- ставляет никакого труда. В самом деле, конечно, возмож- но, что идеал кольца целых чисел состоит из одного лишь числа 0 (для этого множества из одного элемента очевид- но выполняются все определяющие идеал условия),—но в таком случае это есть главный идеал, порожденный чис- лом 0. Если же это не так, то обозначим через i н а - именьшее по абсолютной величине отличное от нуля число, входящее в состав идеала J (для простоты можно условиться считать, например, что i^>0)_
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 469 Докажем теперь, что любое другое принадлежащее J отличное от нуля число b обязательно будет кратно I. Так как | Ъ | > г, то Ъ можно разделить па it Ъ = ai + г, где О г < i. Но так как J — идеал, то наряду с Ъ и i ему принадлежат и числа ai,—aiti г = Ъ -ф (— ai). Поэтому г = 0 (ибо i — наименьшее по абсолютной величине из привад лежащих J и отличных от нуля чисел) и, значит, b = at. Относящееся к кольцу многочленов утверждение дока- зывается точно так же; здесь только за i (х) надо Припять отличный от 0 многочлен н а и н и з ш е й степени, входящий в состав идеала J. Обратимся теперь к дальнейшим примерам колец. г) Мы уже видели, что q-арифметика с определенными в ней сложением и умножением представляет собой кольцо из q элементов (кольцо конечного п о р я д к а </); если при этом число q — п р о с т о е, то naiiui кольцо являет- ся полем. д) Выше отмечалось, что совокупность многочленов степени < п, где и — фиксированное число, вреде твляот собой группу по сложению (конечную группу, если коэф- фициентами многочлена являются элементы конечного поля). Однако кольца такие многочлены не образуют, ибо степень произведения двух многочленов, вообще говоря, выше степени каждого из сомножителей. Дли,,<>| 4 >обы обратить совокупность многочленов степени < п в кольцо, можно поступить так. Выберем фиксированный (какой угодно!) многочлен Q (х) степени п и условимся заменять каждый многочлен остатком от его деления на Q (ж); степень этой» остатка будет уже < п. Так мы приходим к «(? (х)-арн фметике» многочленов, в которой невозможны никакие многочлены степени > п; в частности, «произведение» двух многочле- нов, понимаемое в смысле «Q (х)-арифметики», всегда име- ет степень < п. Q (х)-арифметика всегда (т. е. ври любом выборе многочлена Q (х)) является кольцом; опо будет конечным, если поле коэффициентов многочленов конечно. Если порядок поля F коэффициентов равен/» и ст. Q (х) = п, то порядок рассматриваемого кольца будет равен рп.
470 ПРИЛОЖЕНИЕ П Вот как выглядят «таблицы умножения» четырех мно- гочленов степени < 2 с коэффициентами из 2-арифметики в (ж2 + ж)-арифметике и в (ж2 + х + 1)-арифметике: • 0 1 X X 1 0 0 0 0 0- 1 0 1 X х+1 X 0 X X 0 я-}- 1 0 ж-}- 1 0 х-Ь 1 • 0 1 X ж-f-l 0 0 0 0 0 1 0 1 X х+1 X 0 X х+1 1 X + 1 0 X + 1 1 X Поучительно сравнить эти две таблицы. Две последние строки первой из них не содержат числа 1 — это означает, что в (ж2 + ж)-арифметике многочлены х и х + 1 не имеют обратных. Напротив, во второй таблице все строчки, кроме одной лишь первой, состоящей только из нулей, число 1 содержат; это значит, что в (ж2 + х 1)- арифметике все многочлены, отличные о г нулевого, име- ют обратный: здесь 1 1 = 1, х 1 == х + 1 и (ж -|- 1) 1 = х. Таким образом, в то время как (ж2 + ж)-арифметика многочленов с коэффициентами из 2-арифметики представ- ляет собой лишь кольцо, (ж2 + ж + 1)-арифметика много- членов с коэффициентами из того же поля образует поле. Нетрудно понять, с чем связано такое различие. Многочлен Q (ж) = ж2 -f- ж является составным: он разлагается на множители степени > 1: ж2 + ж = ж (ж + 1). Отсюда уже следует, что (ж2 + ж)-арифметика полем яв- ляться не может — это вытекает, хотя бы из того, что здесь ж (ж + 1) = 0. Напротив, многочлен Р (ж) = ж2 + ж Ч- 1 — простой (или, как чаще говорят в алгебре, н е- приводимый): его нельзя разложить на множи- тели степени > 1. А отсюда, в свою очередь, сразу выте- кает, что в Р (ж)-арифметике каждый многочлен а (ж) =1= 0
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 471 имеет обратный; доказательство этого факта, опирающе- еся на формулу (**), стр. 468, во всем аналогично доказа- тельству того, что в р-арифмотике, где р — простое, каждое число а имеет обратное ему. Таким образом, мы при ходим к еще одному примеру поля: В. Если Р (х) — неприводимый многочлен с коэффициентами из некоторого ноля F, то Р (х)-арифме- тика с коэффициентами иэ F обраяуелп поле. Если F — это описанное выше конечное поле Fv порядна р (где р — произвольное простое число) и ст. Р (г) = п, то порядок полученного поля равен р". Можно показать, что при любом простом р для каждого k 1 существует неприводимый многочлен степени к с коэффициентами из поля Fp; отсюда следует, что при любом целом к > 1 и любом простом р существует конечное поле порядка рк (полем порядка р1 = р является сама p-ариф- метика). При этом хотя неприводимых многочленов Р(х) данной степени к с коэффициентами яз ноля Fp может су- ществовать много, все отвечающие им /’(т)-арпфметики устроены одинаково: для каждого простого р и каждого fc > 1 существует лишь одно (с точностью до переиме- нования элементов) поле порядка рк. Если же целое число т не имеет вида рк (т. е. если т содержит хотя бы дваразличных простых множителя), то поля поряд- ка т не существует вовсе г). В заключение заметим еще, что поскольку ^(^-ариф- метика получается из полного кольца многочленов (с коэф- фициентами из какого-то выбранного поля F) «склеивани- ем» всех многочленов, дающих один и тот же остаток при делении на@ (х), то и идеалы (з)-арпфметики полу- чаются из идеалов кольца всех многочленов таким же отождествлением всех многочленов, дающих один остаток при делении на Q (х). А отсюда, в свою очередь, следует, что идеалы Q (ж)-арифмотики устроены аналогично идеа- лам кольца всех многочленов! здесь также каждый идеал 1) Таким образом, поле конечного порядка т существует, если т = рк, где р — некоторое простое число, и но существует для всех других чисел т, причем для каждого простого р и целого положительного к имеется лишь одно поле порядка р*. Все эти поля были найдены замечательным французским математиком Э. Галуа; поэтому они называются полями Галуа.
472 ПРИЛОЖЕНИЕ II является главным (т. е. состоит из всех многочленов, крат- ных в смысле ()(ж)-арифметики некоторому фиксирован- ному многочлену 1(х)). При этом, однако, необходимо иметь в виду, что, как нетрудно усмотреть из формулы (**), стр. 468, понимаемое в смысле ()(ж)-арифметики множество всех многочленов, кратных данному многочле- ну i (х), совпадает с множеством всех многочленов, кратных многочлену d (х), где d (х) = (Q (ж), i (ж)) есть ПОД многочленов i (ж) и Q (ж). Отсюда следует, что ври не приводимом (простом) многочлене Q (ж) (Дж)-арифметика не содержит никаких идеалов, отлич- ных от 0 и от всего кольца (от всей Q (ж)-арифметики) — ведь здесь НОД Q(x) и г(ж) совпадает с 1 или с Q(x). Если же многочлен Q(x) приводим, т. е. разлагается на мно- жители, степени которых меньше ст. Q (ж), то множество всех многочленов, кратных каждому из этих множителей многочлена Q(x), образует идеал Q (ж)-арифметики — так, например, в случае (ж2 + ж)-арифметики над 2-арифмети- кой множество всех идеалов состоит из «нулевого идеала» {0}; всей (ж2 + ж)-арифметики; множества {ж, 0} многочле- нов, кратных ж, и множества {ж+1,0} многочленом, крат- ных ж + 1 (см. верхнюю таблицу па стр. 470). 3. Перейдем теперь к следующему на используемых в теории кодирования алгебраических понятий. Множество V элементов а, Ь, с и. т. д. (называемых векторами) образует векторное прост- ранство над полем F (элементы поля мы будем на- зывать числами; нулевой и единичный элементы поля ниже обозначаются символами 0 и 1), если I) в множестве векторов определена операция сло- жения, относительно которой векторы образуют группу (нулевой элемент этой группы обозначается сим- волом 0); II) определена операция умножения вектора на число; при этом произведение а а (где а — число, а а — вектор) есть вектор и 1° умножение вектора на число ассоциативно: а(Ьа) = (аЪ) а; для всех чисел а, Ъ и всех векторов а; 2° умножение вектора на число дистрибутивно от- носительно сложения чисел: (а Д- Ь)а = аа + Ьа для всех чисел а, Ъ и всех векторов а;
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 473 3° умножение вектора на число дистрибутивно отно- сительно сложения векторов'. а (а 4- 6) = аа 4- ab для всех чисел и и всех векторов а, б; 4° 1а = а для всех векторов а. Из свойств (аксиом) умножения вектора на число лег- ко выводится также, что Оа = 0 для всех векторов а; аО = 0 для всех чисел а; (—1) а = —а для всех векторов а. Примеры. Л. «Блоки» (векторы) а — (а0, alt ...» ан i), где N — фиксированное натуральное число и н0, ait ... ..., аи-i —произвольные числа из поля F, образуют век- торное пространство относительно следующим образом определенных операций сложения векторов и умножения вектора на число: если а = (я0, alt ..., ан-i) и Ь = (b0, blt bN^), то а + Ъ = (а0 4- Ьо, О| + bt, ..., aN , -|- b'N t); если а — (а0, aY, ...,an-i), то аа = (aav, аа,, ..., аан t). При этом поле F называется полем скаляров или основным полем, над которым строится векторное пространство F; числа «0, а17 On-i называют- ся координатами вектора а, а число N — р а з- мерностью нашего векторного пространства. Если поле F — бесконечно, то число возможных век- торов также является бесконечным; если же /' — поло порядка т, то векторное пространство V размерное!и N (IV-мерное векторное пространство) содержит всею mN векторов. Этот пример является основным; другие примеры всег- да стараются свести к нему. Б. Векторы (направленные отрезки) плоскости или пространства образуют векторное пространство относи- тельно следующим образом определенных операций сло- жения векторов и умножения вектора па (вещественное!) число: О А 4- О В — ОС, если ОС — диагональ параллелограм- ма ОАСВ, построенного па отрезках О А и ОВ;
474 ПРИЛОЖЕНИЕ П OD = а-ОА, если OD и О А принадлежат одной пря- мой; OD = | а | • О А; OD и О А направлены в одну сторо- ну, если а 0, и в противоположные стороны, если а < 0. Пример Б сводится к основному примеру А, если обыч- ным образом ввести координаты (х, у) вектора ОА плоско- сти (рис. 38, а) и координаты (х, у, z) вектора О А простран- ства (рис. 38, б). При этом оказывается, что в случае век- торов плоскости если а = (х, у) и Ъ = (а^, уг), то а + Ъ — (х 4- х1, у + yi) и аа = (ах, ау)\ в случае векторов пространства если а = (х, у, г) и & = Un У1, h), то a -f- Ь = (х 4- хл, у 4- yt, г 4- Zj) и аа = (ах, ay, az). Таким образом, векторы плоскости образуют двумер- ное векторное пространство, а векторы пространства — Рис. 38. трехмерное векторное пространство над полем веществен- ных чисел. В. Ясно, что произвольные (т X п)-матрицы с эле- ментами из поля F образуют (т п)-мерное пространст- во над F, если сложение матриц определять как выше, а умножение матрицы на число а — как умножение всех элементов матрицы на это число: ведь различие этого при- мера с основным примером А заключается лишь в том, что тп координат вектора здесь записывается не в одну стро- ку, а в виде прямоугольной таблицы. Г. Многочлены степени < п а0 4- агх 4- а2х2 4- ...4- ап-г хп~г
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 475 с коэффициентами из поля F образуют п мерное векторное пространство над Ft ведь каждый многочлен можно харак- теризовать его коэффициентами «0, an-i (которые, если угодно, можно выписывать, заключая их в круглые скобки), а (обычное) сложение многочленов и умножение многочлена на число сводится к сложению коэффициентов двух многочленов и к умножению коэффициентов много- члена на число. Д. Всевозможные многочлены а0 + агх + а2«2 + ...+ алт*, степень которых заранее никак не ограничивается, тоже образуют векторное пространство относительно обычных операций сложения много- членов и умножения мно- гочлена на число. Этот пример, однако, не сводит- ся к примеру А, поскольку число коэффициентов мно- гочлена может быть сколь угодно велико; поэтому, говорят, что пространство всех многочленов размер- ности не имеет (иногда вместо этого говорят, что оно имеет бесконеч- ную размерность). Пусть теперь W, — пе- 1>ис Зд которая часть векторов векторного пространства V. Если множество IV таково что 1° если вектор а принадлежит W и вектор b принадле- жит W, то также и вектор а, + Ъ принадлежит IV; 2° если вектор а принадлежит TV,/по IV принадлежат также и все векторы аа, где а — всевозможные числа, го множество векторов W само представляет векторное про- странство относительно определенных в V операций сложе- ния векторов и умножения вектора на число. В этом случае говорят, что W представляет собой (линейное или векторное) подпространство векторного прост- ранства V. В частности, если V — множество векторов О А обыкно- венного пространства, a TV — проходящая через точку О
476 ПРИЛОЖЕНИЕ II плоскость (рис. 39), то принадлежащие W векторы ОБ об- разуют подпространство всего векторного пространства. Если V — множество всех л-мерных векторов й = (Oj, 0-21 • •*, On), то множество W векторов а, координаты которых удовлет- воряют фиксированному соотношению вида \ai 4' ^2а2 + •••+ Ъпап — О, (А) где blt b2, Ьп — произвольные «числа», т. е. элементы того поля, которому принадлежат координаты векторов, образует подпространство. В самом деле, легко видеть, что если числа av а2, ..., ап и ai, а2 , ..., ап удовлетворяют соотношению (А), то и числа аг 4~ а[, а2 + ai, ..., ап + ai удовлетворяют тому же соотношению; аналогично этому, если числа an a2, ..., an удовлетворяют соотношению (А), то (А) удовлетворяют и числам aan aa2,..., aan, где a — произвольное число. Также просто устанавливается, что множеством7 векторов а, координаты которых удовлет- воряют системе соотношений 4* Ь12а2 4~ • • 4~ = О» 1 ^21а1 4“ ^22Я2 + ’ * * 4* — 0, j ......................................... (В) bmiUi + bm2a2 + • • • + Ътпап — 0, J образует векторное пространство. Более того, во всех учеб- никах линейной алгебры доказывается, что каждое подпространство W н-мерного векторного пространства V может быть задано системой соотношепий (Б) (быть может, единственным соотношением (А)), связывающих коордп наты принадлежащих этому подпространству векторов. В частности, принадлежащие фиксированной плоскости IE векторы трехмерного пространства V выделяются тем, что их координаты х, у, z удовлетворяют соотношению Ьгх + Ъ2у 4- bsz = 0, где (blt b2, bs) — координаты произвольного вектора 1>, перпендикулярного плоскости W (рис. 39). Вот еще примеры векторных подпространств: Множество всех многочленов степени < п состанляп линейное подпространство пространства всех вообще мной»
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 477 членов; если к < п, то множество всех многочленов сте- пени < /с составляет подпространство пространства много- членов степени < п; множество всех многочленов вида а (х) — g (ж) Ъ (л), где g (х) — фиксированный многочлен, n t>(j) какой угодно, составляет подпространство множества всех многочленов (а если g (х) имеет степень /г, a b(i) — произвольный многочлен степепи <п — к, ю мно жество рассматриваемых многочленов нре дс1 ннлисг собой подпространство множества всех многочленов степени < п). Заметим еще, что в случае векторного в ростра детва над полем из чисел 0 и 1 (над 2-арифметикой) проверка того, что некоторое множество векторов образуют поднро странство исходного пространства, сводится к проверке свойства 1° (ибо здесь нет отличных от 0 н 1 чисел, а нгн- тор 0- а всегда можно представить в пн ie суммы и а). Таким образом, здесь все тн/прост/ анспи a <(Ь//1о/шо.ло пространства совпадают с luid.-pi/iinu.uii группы лектора* по сложению. Нетрудно показа гь, что точно шк ;ьс обстоит дело и в случае векторного пространства, нос i роению о над любой р-арифметикой, где р — простое число; од нако в случае отличного от р-арифметики основного ноля (например, когда в качестве основного поля фигурирует Р(ж)-арифметика, где Р(х) — неприводимый многочлен) существуют и подгруппы векторного пространства, по являющиеся его подпространствами. От понятия векторного пространства легко Bejiciiiii к (основ* ному для геометрии!) понятию евклидова н р о с т р и и с т- в а. А именно, N-мерное векторное пространство /•' нчаывигтся евклидовым, если в нем определена длина \ а \п (пли врос го | « |) вектора а с координатами (а0, alt . . ., ow ,): I a le — ^ao + ei + • • • + 4 i ( (разумеется, основное поле здесь долмою быть таково, чтобы » нем существовал корень квадратный из суммы квадратов л юных двух элементов поля). Далее, если условиться называть векторы евкли- дова пространства «точками», сопоставив нулевой некто]) О неко- торой точке О, а вектор а — точке А с темп же координатами и условившись писать а = ОА, то расстояние | А В |е или просто
478 ПРИЛОЖЕНИЕ II | АВ | между точками А и В определится так: | ЛВ) = |ОВ —ОЛ| = = V(Ьо - во)2 + (61 - Й1)2 + .. . н- (bN - aN -Р*. (**) где (a0, alt . . aN_j) и (Ьо, 6f, . . 6^_j) — координаты точек А и В (т. е. векторов О А и ОВ). После этого содержание евклидо- вой геометрии можно охарактеризовать как описание тех свойств фигур (т. е. множеств точек) евклидова пространства Е, которые будут одинаковыми для любых двух равных фигур (где равен- ство фигур определяется условием равенства расстояний между парами соответствующих друг другу точек этих фигур). Евклидово пространство с вещественным и коорди- натами точек и векторов является примером метрического век торного пространства. Множество М точек называется метриче- ским пространством, если для каждых двух точек А и В определено (вещественное) число рАВ, называемое расстоянием между А и В, причем 1° рАВ > 0 при А =/= В; рЛА = 0 (положительность расстояния); 2° рАВ — рВА (симметричность расстояния); Рав “Ь Рве Рас пРи любых А, В и С (неравен- ство треугольника). Если число рАВ = | АВ | е определяется по формуле (++), то условия 1° и 2°, очевидно, выполняются. Несколько сложнее установи i > выполнимость условия 3°, т. е. справедливость неравенства / (Ь« - во)2 + (61 - «!)2 + . . . + (6jy _! - «N_x)2 + + (с° — 6о)2 + (С1 — 61)2 4- . . . + («д, _г + 6jy _j)2 > / (со — «о)2 + (Cl — щ)2 + . . . + (CN ~ — aN )’. —по и она может быть доказана без особого труда х). Существуют и много других способов введения «метрики» в TV-мерном векторном пространстве. Так, например, во многих отношениях более простой,чем евклидова метрика (+)—(++), является так называемая «метрика Минковского» 2): I а 1м = I °о I + I вг | + ... + | aN | (') I АВ 1м = I Ьо — в« | -|- 161 — «11 | 6w_j — |, (”) 1) См., например, А. Н. Колмогоров, С. В. Ф о м и в, Элементы теории функций и функционального анализа, М., «Науки», 1972, стр. 45. 2) Немецкий математик Г. Минковский в своих исследованиях по теории чисел рассмотрел более общий метод введения метрш и в ^-мерном векторном пространстве, охватывающий обе формулы (++) и (**).
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 479 где 1 а | — абсолютная величина (вещественного) -ккла о; иа форму- лы (**) непосредственно следует, что и расстоянии рлЬ | ЛП | м удовлетворяет условиям 1°—3°. Метрику (*)—(**) можно определить дли векторною простран- ства, построенного над любым основным полем дли которого существует абсолютная величина элемента а поля — такое im щественное число | а |, что х) 1) I « I > 0 при а =£ 0; | 0 | — 0; 2) j ab |= |а | • |Ь|; 3) | а + Ь | < | а | + | Ь |. В частности, если основное поле представляет собой 2 арифметику» а абсолютная величина элементов поля определяется привычными равенствами | 0 | = 0, | 1 | = 1 (где справа стоят вещественные числа 0 и 1), то наеденная ните метрика называется «метрикой Хэмминга»: | а |х = | ао | -Н | «г | + .. - + |вд> _11: (’) I ЛВ 1х = I — °о | + I — °i I + • • • 4" I — г aN — 11- Ясно, что если точки А (л0, а>, . . ., aN ,) я В (b„, bt, . . ., bN () JV-мерного пространства с координатами u i 2 прнфматикн отвечав г двум последовательностям chi налом, то расстояние | All |х равно числу несовпадающих сигналов в погледоват! л1.н<ктл' А и В, чем и объясняется широкое использование метрики Хпммюиа и теории кодированияs). При этом из неравенства треугольника следует, что два «шара Хэмминга» радиуса п с центрами (>, и Q (т.е. мно- жества точек А таких, что | <2]Л |х и, соответственно, | > Л |» л; Г) При этом в равенстве | О | О стоящие слева п справа сим- волы 0 имеют несколько разный смысл: нуль слепа является элемен- том рассматриваемого поля, в то время как справа стоят просто вещественное число. Аналогичной эамечтпк можно сделать мио поводу некоторых других равенств ннж« . 2) В том случае, когда основное поле F содержит более двух элементов, метрика Хэмминга определяется темп и«< формулами (*)—(**)» что и выше, где, однако, теперь ужо индо положить I 0, если а О, । а । 11, если a f (). При этом расстояние Хэмминга | АВ | х ио прежнему будет равно числу несовпадающих между собой сшиллон и иоследователыю- стях Л и В. Заметим еще, что наряду с «расстоянием X immuiuk» в теории кодирования используются и некотирыт друт не метрики я простран- ствах последовательностей сигналов (например, так называемая «метрика Ли», совпадающая с «метрикой Хэммпшп» в случае поля F из двух элементов, но в других случаях учитывающая уже не только сам факт несовпадения каких то координат точек A v В между собой, но также и то, нисколько сильно эти координаты отличаются друг от друга; см. [1C9J, раздел 8.2).
480 ПРИЛОЖЕНИЕ II ср. выше, стр. 435) не могут пересечься, если QXQ2 > 2п (это обсто- ятельство уже использовалось выше на стр. 435). Заметим еще, что если последовательности Л (о0, о1т . . ., aN ) где все а, принимают значения 0 и 1, изображать точками обычного («вещественного») TV-мерного пространства (эти точки будут являться вершинами «единичного куба» TV-мерного евклндовапространства), то, очевидно, |/1В|е = /[лГ|х. Поэтому евклидово расстояние | АВ |е между точками А и В, определяемое по формуле (++), может служить вполне удовлетво- рительной характеристикой различия между последовательностями А (а0, а1, . . ., aN_J и B(b0, blt . . bN1) элементарных сигна- лов. Это обстоятельство позволяет использовать в теории связи результаты, относящиеся к (TV-мерной) евклидовой геометрии (в первую очередь — результаты так называемой дискретной геометрии, специально занимающейся проблемами «плотней- ших укладок» непересекающихся равных шаров в многомерных прост- ранствах и задачами отыскания таких конфигураций из конечного числа точек, расположенных в данной области пространства, для которых наименьшее из попарных расстояний между этими точка- ми является наибольшим возможным). В частности, задача отыска- ния всех двоичных кодов, где кодовые обозначения представляют собой последовательности из TV элементарных сигналов, исправляю- щих любое не превосходящее п число ошибок, сводится к задаче отыскания всех возможных заполнений «единичного куба» N-мернсго евклидова пространства непер ссекающимися шарами радиуса У п с центрами в вершинах куба. В силу сказанного задача нахождения такого заполнения TV-мерного куба шарами заданного радиуса, где число участвующих шаров — самое большое из воз- можных (или, по крайней мере, достаточно велико), представ- ляет значительный интерес для теории кодирования; однако сегодня, мы, к сожалению, не знаем никаких перспективных геометрических подходов к решению этой задачи. 4. В линейной алгебре важную роль играет операция умножения матриц, частным случаем которой является умножение (т X п)-матрицы на (п X 1)-матрицу (на вектор-столбец): (Ьц Ь12 • • • \ / а1 \ &21 Ь22 . . . । / а2 \ :::::::: I (J- . бтп ' \ап' (^па1 ^12я2 -{-•••-[- Ъ^пап \ ^21а1 + ^22^2 + ‘ ‘ ‘ + ^2nOn | 6miai + Ьт2а2 + • • • -j- Ъ
НЕКОТОРЫЕ АЛГЕБРАИЧЕСКИЕ ПОНЯТИЯ 481 Разумеется, в последнем произведении можно также писать вектор а с координатами щ, а2, ..., ап в виде векто- ра-строки: а — (щ, «2, дп), хотя это и не соответствует принятым в линейной алгебре соглашениям. В таком слу- чае соотношениям (Б) (см. стр. 476) оказывается возмож- ным придать вид Ва — О, где 0 — нулевой вектор-столбец из п нулей. Для некоторых разделов линейной алгебры оказыва- ется также существенным понятие элементарных преобра- зований матриц, под которыми мы здесь будем понимать следующие преобразования: 1° перестановку местами любых двух строк матрицы; 2° перестановку местами любых двух ее столбцов; 3° замену любой строки матрицы ее суммой с любой другой строкой (где сумма строк понимается как сумма векторов-строк). Матрицы, получающиеся одна из другой с помощью конечной последовательности элементарных преобразова- ний, называются эквивалентными. Указанные элементарные преобразования х) являются особенно естественными в случае проверочных матриц ко- дов с проверками на четность. В самом деле, в этом слу- чае перестановка столбцов матрицы сводится лишь к пере- нумерации сигналов, а перестановка строк — к перену- мерации используемых проверок. Замена же некоторой строки ее суммой с другой строкой означает, что вместо двух проверок на четность мы проверяем четность одного из ранее использовавшихся выражений и суммы этого вы- ражения со вторым из них — ясно, что такие две провер- ки полностью равносильны первоначальным. Далее легко установить, что с помощью последовательности элемен- тарных преобразований каждая проверочная матрица мо- жет быть приведена к виду (2), указанному на стр. 409 (или, что ничего не меняет, к виду, отличающемуся от фор- мы (2) лишь наличием у матрицы еще нескольких строк, составленных из одних нулей — этим строкам, очевидно, не отвечают никакие новые проверки и потому их можно *) В разных задачах линейной алгебры оказываются удобны- ми разные наборы элементарных преобразований. 16 А. м. Яглом, И. М. Яглом Ас
482 ПРИЛОЖЕНИЕ II просто отбросить). В самом деле, не представляющие интереса нулевые строки матрицы, если только такие стро- ки у нее имеются, мы с помощью операции 1° сделаем са- мыми верхними — и так яге будем поступать далее, если в процессе преобразования матрицы у нее будут появлять- ся новые «нулевые» строки. Рассмотрим теперь самую нижнюю строку; ясно, что с помощью операции 2°, имею- щийся в ней элемент 1 можно переместить в крайний пра- вый столбец. Прибавляя затем эту строку ко всем, у кото- рых в последнем столбце стоит 1, и учитывая, что в 2-ариф- метике 1 + 1=0, мы можем превратить в нули все эле- менты последнего столбца, кроме одной лишь единицы, стоящей в последней строке. Если после этого 2-я снизу строка окажется состоящей из одних пулей, мы ее пере- местим вверх; если же она содержит хоть одну единицу, то с помощью операции 2° мы переместим зту единицу на предпоследнее место, а затем с помощью операции 3° об- ратим в нуль все прочие элементы предпоследнего столбца. Далее перейдем к третьей от конца строки — и с помощью тех же операций придадим требуемый вид третьему от конца столбцу — и т. д. В результате мы получим матри- цу вида (2), быть может, только дополненную сверху не- сколькими строками из одних нулей. В применении к проверочным матрицам кодов с провер- ками на четность этот результат доказывает, что любой код с проверками на четность может быть записан в виде си- стематического кода, число проверок на четность в кото- ром, однако, может оказаться меньшим, чем в исходном «несистематическом» коде (ср. стр. 410 и пример на стр. 431).
« ПРИЛОЖЕНИЕ III ТАБЛИЦА ВЕЛИЧИН - р log2 р 16* р 0 1 2 3 4 5 6 7 8 9 0,00 0,0100 0,0179 0,0251 0,0319 0,0382 0,0443 0,0501 0,0557 0,0612 g 0,01 0,0664 0,0716 0,0766 0,0815 0,0862 0,0909 0,0955 0,0999 0,1043 0,1086 и 0,02 0,1129 0,1170 0,1211 0,1252 0,1291 0,0330 0,1369 0,1407 0,1444 0,1481 Э 0,03 0,1518 0,1554 0,1589 0,1624 0,1659 0,1693 0,1727 0,1760 0,1793 0,1825 д 0,04 0,1858 0,1889 0,1921 0,1952 0,1983 0,2013 0,2043 0,2073 0,2103 0,2132 0,05 0,2161 0,2190 0,2218 0,2246 0,2274 0,2301 0,2329 0,2356 0,2383 0,2409 » 0,06 0,2435 0,2461 0,2487 0,2513 0,2538 0,2563 0,2588 0,2613 0,2637 0,2661 g 0,07 0,2686 0,2709 0,2733 0,2756 0,2780 0,2803 0,2826 0,2848 0,2871 0,2893 S 0,08 0,2915 0,2937 0,2959 0,2980 0,3002 0,3023 0,3044 0,3065 0,3086 0,3106 g 0,09 0,3127 0,3147 0,3167 0,3187 0,3207 0,3226 0,3246 0,3265 0,3284 0,3303 я 0,10 0,3322 0,3341 0,3359 0,3378 0,3398 0,3414 0,3432 0,3450 0,3468 0,3485 I 0,11 0,3503 0,3520 0,3537 0,3555 0,3571 0,3588 0,3605 0,3622 0,3638 0,3654 w 0,12 0,3671 0,3687 0,3703 0,3719 0,3734 0,3750 0,3766 0,3781 0,3796 0,3811 о 0,13 0,3826 0,3841 0,3856 0,3871 0,3886 0,3900 0,3915 0,3929 0,3943 0,3957 2? 0,14 0,3971 0,3985 0,3999 0,4012 0,4026 0,4040 0,4053 0,4066 0,4079 0,4092 4 0,15 0,4105 0,4118 0,4131 0,4144 0,4156 0,4169 0,4181 0,4194 0,4206 0,4218 0,16 0,4230 0,4242 0,4254 0,4266 0,4277 0,4289 0,4301 0,4312 0,4323 0,4335 0,17 0,4346 0,4357 0,4368 0,4379 0,4390 0,4400 0,4411 0,4422 0,4432 0,4443 0,18 0,4453 0,4463 0,4474 0,4484 0,4494 0,4504 0,4514 0,4523 0,4533 0,4543 0,19 0,4552 0,4562 0,4571 0,4581 0,4590 0,4599 0,4608 0,4617 0,4626 0,4635 0,20 0,4644 0,4653 0,4661 0,4670 0,4678 0,4687 0,4695 0,4704 0,4712 0,4720 00 —- СаЗ
П родолжениь р 0 1 2 3 4 5 6 7 8 9 0,21 0,4728 0,4736 0,4744 0,4752 0,4760 0,4768 0,4776 0,4783 0,4791 0,4798 0^22 0,4806 0,4813 0,4820 0,4828 0,4835 0,4842 0,4849 0,4856 0,4863 0,4870 0,23 0,4877 0,4883 0,4890 0,4897 0,4903 0,4910 0,4916 0,4923 0,4949 0,4935 0,24 0,4941 0,4947 0,4954 0,4960 0,4966 0,4971 0,4977 0,4983 0,4989 0,4994 0,25 0^5000 0,5006 0,5011 0,5016 0,5022 0,5027 0,5032 0,5038 0,5043 0,5048 0,26 0,5053 0,5058 0,5063 0,5068 0,5072 0,5077 0,5082 0,5087 0,5091 0,5096 0,27 0,5100 0,5105 0,5109 0,5113 0,5118 0,5122 0,5126 0,5130 0,5134 0,5138 0,28 0,5142 0,5146 0,5150 0,5154 0,5158 0,5161 0,5165 0,5169 0,5172 0,5176 0’29 0,5179 0,5182 0,5186 0,5189 0,5192 0,5196 0,5199 0,5202 0,5205 0,5208 о;зо 0,5211 0,5214 0,5217 0,5220 0,5222 0,5225 0,5228 0,5230 0,5233 0,5235 0,31 0,5238 0,5240 0,5243 0,5245 0,5247 0,5250 0,5252 0,5254 0,5256 0,5258 о;з2 0,5260 0,5262 0,5264 0,5266 0,5268 0,5270 0,5272 0,5273 0,5275 0,5277 0,33 0,5278 0,5280 0,5281 0,5283 0,5284 0,5286 0,5287 0,5288 0,5289 0,5290 0,34 0,5292 0,5293 0,5294 0,5295 0,5296 0,5297 0,5298 0,5299 0,5299 0,5300 0,35 0,5301 0,5302 0,5302 0,5303 0,5304 0,5304 0,5305 0,5305 0,5305 0,5306 0,36 0,5306 0,5306 0,5307 0,5307 0,5307 0,5307 0,5307 0,5307 0,5307 0,5307 0,37 0,5307 0,5307 0,5307 0,5307 0,5307 0,5306 0,5306 0,5306 0,5305 0,5305 0,38 0,5304 0,5304 0,5303 0,5303 0,5302 0,5302 0,5301 0,5300 0,5300 0,5299 0'39 О;5298 0,5297 0,5296 0,5295 0,5294 0,5293 0,5292 0,5291 0,5290 0,5289 0,40 0,5288 0,5286 0,5285 0,5284 0,5283 0,5281 0,5280 0,5278 0,5277 0,5275 0,41 О; 5274 0,5272 0,5271 0,5269 0,5267 0,5266 0,5264 0,5262 0,5260 0,5253 0'42 О; 5256 0,5255 0,5253 0,5251 0,5249 0,5246 0,5244 0,5242 0,5240 0,5238 0/*3 0,5236 0,5233 0,5231 0,5229 0,5226 0,5224 0,5222 0,5219 0,5217 0,5214 0,44 0^5211 0,5209 0,5206 0,5204 0,5201 0,5198 0,5195 0,5193 0,5190 0,5187 0,45 О; 5184 0,5181 0,5178 0,5175 0,5172 0,5169 0,5166 0,5163 0,5160 0,5157 - 0,46 о;5153 0,5150 0,5147 0,5144 0,5140 0,5137 0,5133 0,5130 0,5127 0,5123 ПРИЛОЖЕНИЕ Ш
П родолжение р 0 1 2 3 4 5 6 7 8 9 0,47 0,5120 0,5116 0,5112 0,5109 0,5105 0,5102 0,5098 0,5094 0,5090 0,5087 0,48 0,5083 0,5079 0,5075 0,5071 0,5067 0,5063 0,5059 0,5055 0,5051 0,5047 0,49 0,5043 0,5039 0,5034 0,5030 0,5026 0,5022 0,5017 0,5013 0,5009 0,5004 0,50 0,5000 0,4996 0,4991 0,4987 0,4982 0,4978 0,4973 0,4968 0,4964 0,4959 0,51 0,4954 0,4950 0,4945 0,4940 0,4935 0,4930 0,4926 0,4921 0,4916 0,4911 0,52 0,4906 0,4901 0,4896 0,4891 0,4886 0,4880 0,4875 0,4870 0,4865 0,4860 0,53 0,4854 0,4849 0,4844 0,4839 0,4833 0,4828 0,4822 0,4817 0,4811 0,4806 0,54 0,4800 0,4795 0,4789 0,4784 0,4778 0,4772 0,4767 0,4761 0,4755 0,4750 0,55 0,4744 0,4738 0,4732 0,4726 0,4720 0,4714 0,4708 0,4702 0,4697 0,4691 0,56 0,4684 0,4678 0,4672 0,4666 0,4660 0,4654 0,4648 0,4641 0,4635 0,4629 0,57 0,4623 0,4616 0,4610 0,4603 0,4597 0,4591 0,4584 0,4578 0,4571 0,4565 0,58 0,4558 0,4551 0,4545 0,4538 0,4532 0,4525 0,4518 0,4512 0,4505 0,4498 0,59 0,4491 0,4484 0,4477 0,4471 0,4464 0,4457 0,4450 0,4443 0,4436 0,4429 0,60 0,4422 0,4415 0,4408 0,4401 0,4393 0,4386 0,4379 0,4372 0,4365 0,4357 0,6'1 0,4350 0,4343 0,4335 0,4328 0,4321 0,4313 0,4306 0,4298 0,4291 0,4383 0,62 0,4276 0,4268 0,4261 0,4253 0,4246 0,4238 0,4230 0,4223 0,4215 0,4207 0,63 0,4199 0,4192 0,4184 0,4176 0,4168 0,4160 0,4153 0,4145 0,4137 0,4129 0,64 0,4121 0,4113 0,4105 0,4097 0,4089 0,4080 0,4072 0,4064 0,4056 0,4048 0,65 0,4040 0,4032 0,4023 0,4015 0,4007 0,3998 0,3990 0,3982 0,3973 0,3965 0,66 0,3957 0,3948 0,3940 0,3931 0,3922 0,3914 0,3905 0,3897 0,3888 0,3880 0,67 0,3871 0,3862 0,3854 0,3845 0,3836 0,3828 0,3819 0,3810 0,3801 0,3792 0,68 0,3784 0,3775 0,3766 0,3757 0,3748 0,3739 0,3730 0,3721 0,3712 0,3703 0,69 0,3694 0,3685 0,3676 0,3666 0,3657 0,3648 0,3639 0,3430 0,3621 0,3611 0,70 0,3602 0,3593 0,3583 0,3574 0,3565 0,3555 0,3546 0,3536 0,3527 0,3518 0,71 0,3508 0,3499 0,3489 0,3480 0,3470 0,3461 0,3451 0,3441 0,3432 0,3422 0,72 0,3412 0,3403 0,3393 0,3383 0,3373 0,3364 0,3354 0,3344 0,3334 0,3324 0,73 0,3314 0,3304 0,3295 0,3285 0,3275 0,3265 0,3255 0,3245 0,3235 0,3225 ТАБЛИЦА ВЕЛИЧИН — р log, р 485
486 ПРИЛОЖЕНИЕ III Продолжение СП соф\1* t отф^гцСг^фг-фоооОхи ^’^С’ФСЮЬ’ФхГОЗОСОФФСсОФОЗСОФ^Ь^ОФ-ч т-]ОС5ССФЮ\|*СОМт-ОООГ-С1Г5СОО]>на5СОН1СМ*^^0 ооооооооооооооооооо оо’о’осГо’о* ОС COOlCOOOoOin-^ini^t'-CDCQOOC'q^-cHCOOCDOCQsF-tfCSlCTl 07 с?'-Н С с: ООЬ»1ПСОч-1ОЭГ'«‘#М0)СОСООСОС'ООЭ1Д^<Г-СЧ ’-‘ОФсОЬ'Ф^ФОЗт-ОСОЬ’фффоЗ-г-ОсОГ'ФхГф-Ю огогоюзоюзоюк?] ohm —^ссо ос сс oooooooooooooooooooooooooo’ г- 'JOincOOOJb'OqOQ OOOiO^-tf br'-tDsjiOsl'r'-COCOOCO Sj’'31MNNOffiOOCDx!((NlOCO{DCOOr-4l,-HOO'tf OCDNCOnJI -‘OOCC'b- e CW1 с СТ. Г-£ L?| 03 •--О ОС r- £ \Г oo-H c ФФФЗСЧСЯ 03(N(N(N(N(Nt*’H^’Ht*t4t*’HOOOOOOO oooooooooooooooooooooooooo [ ю e (T. O: co \-t< CC С С Г' о: Ь Q о О h- О? к 03 M -4 CO LO lf.\+ 07 03 OCO C 03 O'. Г- T- ст. 1Г7 03 с: E7 03 CO' № О л -> C CO CO Г' Ф lO О?' 03 -- о Q H C L7 S? 03 С ОС b- о Vй '07 03 О 07'07 03 03 030303 03 03 03 ОЗ^-r-^^T-^^^OCC' O'CCO ооо о оо о* ооооооооооооооооооо iO •^^-’OO’^«^O10OC\lC0CS]OCDOCS]07)CClOr--^vJ<CDCDv^0q Ф'ФФФ ^ф^офг-ф ф-^ ссффоь-^ог-ффф.г-ь- V-* О О СО Г- CD Ю ХГ СЧ ^-‘ О О СО CD >-О к? CQ чН О О !>• О VF СО СЯ О ФФОЗ ?3'?3?3о3 С-ЗОЗМС-З -T--‘^J--I^^V-C'COC'COO о о о о о о о о о о о о’ о о о о о о о о о о о о о о «* 4j'^b-rtMClv<b-’H\l'l0 4l<MCONlfiOcOs#0‘OCOOOOCD Ь'ЬФФФх1<Ф^ОСОФ'^ОЗФ1^'<*'НСОФФ)СС)х-‘'-г-<Ь'фСО '-‘ОСТ. ОСЬ- ФФ^ССт-ОФСОФФ^СП^ОС: ь- о ю со оа о О7ФОЗ?ЗС'ЗС-ЗС'ЗС'ЗС-ЗГЗ ?3^^'г-’-’-|-'-^^С'ОООСОО ооооо'о'оооооооооооооооооооо СО 4^C\JCO^CQCOC4COCOtDt— ОЗФФГ-ФСССЗх-г^Ф^ COoOr-t^CDlDv^CSl^O^-LQCD—iCOlDCQOCPCOOCDDlCXD'^O V-ОФ СОЬ-ФФ^'Ф -ОФ CCb-iT. 'ОФ Ь-фЕ7 Ф ОЗ-н C00703(NN03N03(N(N03t-<t-t4^t-^t4>?-OOOOOOO OOOOOOOOOOOOOOOOOOOOOOOOOO м ^cQcoea^-^coo^cooor^cocO'rHoqoqot^oqcDcocct—in C7 Ф co CO b- ф' Ф X- 03 ОСС Ф' 03 с: r- sf CC' V1- г- 07 ф Ф -ч О' ф СО t- Ф Ф 'О ф' 03 О' Ф СО ь- Ф Х“ О' 03 С ф' со Ф tn Ф 03 0707 03 03 03 03 03 03 03 0303>H-‘Vt-i^^v--<C'CC'OOQ'C oooooooooooooooooooooooooo фф СП Ю Ф xf с -- V- Ф Ф С vf Ф Ф О Ф ф 03 ПЗ -< Ф О' С ф ф СС Ь- Ф ф' ФФЗ О' СС Ф Ф-- сС Ф 0 3 Ф Ф 03 СО Ф -• ь- 03 oq^OCOr-CDlDxrcOCSl^OOOr-CDs^CQCMOOOCOcDin^lM^ cQCQoqoqoatNcsieqoqDaDJ-^-^'wH-^-^^-^-^ooooO OOOOOOOOOOOOOOOOOOOOOOOOOO о lOCOOCOCDr’-lDCSlCO'rHCOCO^HOOCDCDOOOOt'-s^OCOlOCDCDO ^•^OOOQOr-CD^CO-^Ob-'XMMOcDCQOI^-CQOCDDlCO^ N’HOffir-tDiOsrCQN-HffiOOb-O’tfMN’HaiCObin^DJjf О7Ф Ф ГЗ 0-3 C3 ?3 ?1 0-3 03 Ф T- T- V T- V- r- T- O' O' O' C O_O^O^ о^о^о^о^о'о^о'о^о OOOOOOOOOOOOOOOOO ft \J< Ф Ф Г- CO Ф O' T-< 03 Ф Xй Ф ф ь- СОФО’-ПЗФ'ФФФГ’СС^- Г'Ь-Ь’Ь’Ь’Ь-СССОСОССсССОССССССССФФФФФФ о o'o”'o"o"o"o'o"o"o"o''o'o"o OOOOOOOOOOOO
ЛИТЕРАТУРА Общие сочинения по теории информации и по кибернетике 1. К. Шеннон, Математическая теория связи, в книге: «Ра- боты по теории информации и кибернетике», М., ИЛ, 1963, стр. 243—332. [В этой книге, рассчитанной, в первую очередь, на специалистов, собраны все основные работы К. Шеннона по теории инфррмации и теории кодирования.] 2. Л. Б ри л л юэн, Наука и теория информации, М., Физмат- гиз, 1959. ' 3. Дж. Пирс, Символы, сигналы, шумы, М., «Мир», 1967. За. К. Ч е р р и, Человек и информация, М., «Связь», 1972. 4. Ф. М. Вудворд, Теория вероятностей и теория информа- ции с применениями к радиолокации, М., «Советское радио», 1955. 5. А. Ф а й нс теин, Основы теории информации, М., ИЛ, 1960. 6. Р. Фано, Передача информации. Статистическая теория связи, М., «Мир», 1965. 7. Дж. Вольфовиц, Теоремы кодирования теории информа- ции, М., «Мир», 1967. 8. А. Н. Колмогоров, Теория передачи информации, в книге: «Сессия Академии наук СССР по научным проблемам автоматизации производства 15—20 октября 1956 г.; пленар- ные заседания», М., Изд-во АН СССР, 1957. 9. Н. В и н е р, Кибернетика, М., «Советское радио», 1968. 10. И. А. Полетаев, Сигнал, М., «Советское радио», 1958. 11. У. Р. Эшби, Введение в кибернетику, М., ИЛ, 1958. 12. А. Мол ь, Теория информации и эстетическое восприятие, М., «Мир», 1966. 13. Дж. Возенкрафт, И. Джекобс, Теоретические осно- вы техники связи, М., «Мир» 1966. 14. Теория информации в биологии (сборник переводов), М., ИЛ, 1960. 15. А. Н. К о л м о г о р о в, Три подхода к определению понятия „количество информации", Пробл. передачи информ. 1, № 1, 1965, стр. 3—11; К логическим основам теории информации и теории вероятностей, Пробл. передачи информ. 5, № 3, 1969, стр. 3—7. 16. А. К. 3 в о н к и н, Л. А. Левин, Сложность конечных объектов и обоснование понятия информации и случайности с помощью теории алгоритмов, Успехи матем. наук 25, вып. 6, 1970, стр. 85—127.
4S8 ЛИТЕРАТУРА 17. И. М. Гельфанд, А. Н. Колмогоров, А. М. Яг- лом, К общему определению количества информации, Докл. Акад. Наук СССР 111, № 4,1956, стр. 745—748; Количество информации п энтропия для непрерывных распределений, Труды 3-го Всесоюзного математического съезда, т. 3, М., Изд-во АН СССР, 1958, стр. 300—320. 18. Ю. А. Шрейдер, Об одной модели семантической теории информации, Проблемы кибернетики, вып. 13, М., 1965, стр. 233—240; О семантических аспектах теории информации, в сборнике: «Информация и кибернетика», М., «Советское радио», 1967, стр. 15-47. 19. И. Бар-Хиллел, Р. Карнап, Семантическая информа- ция (Y. В ar-H illel, В. Carnap, Semantic information), Brit. Journ. Phil, of Sci. 4, № 14, 1953, стр. 147—157 и в сбор- нике: «Теория связи» (Communication Theory; сост.— W. J a ckson), New York, Academic Press, 1953, стр. 503—512. 19a. Сборник «Информация и умозаключение» (Information ’and Inference; ред. — J. H intikka, P. Suppes), Dordrecht, Reidel, 1970. 20. H. Э б p а м с о и, Теория информации и кодирование (N. Abramson, Information theory and coding), New York, McGraw-Hill, 1963. 21. P. Э ш, Теория информации (R. В. A s h, Information theory), New York, Interscience, 1965. 22. P. Г. Г а л л а г e p, Теория информации и надежная связь (R. G. G allage г, Information theory and reliable commu- nication), New York, Wiley, 1968. (Русский перевод этой книги готовится к печати издательством «Советское радио».) 23. П. Фей, Теория информации (Р. Fey, Informationstheorie), Berlin (DDR), Akademie-Verlag, 1968. 24. ЯС Кульман, M. Дени-Папен, Задачи по теории ин- формации с решениями (G.Cullman, М.Denis-Papin, Exercices de calcul infonnationnel avec leurs solutions), Paris, Michel, 1966. Литература к гл. I 25. Б. В. Гнеденко, А.Я. Хинчин, Элементарное введе- ние в теорию вероятностей, М., «Наука», 1970. 26. Ф. М о с т е л л е р, Р. Р у р к е, Дж. Томас, Вероятность, М., «Мир», 1969. 27. С. Д а й м е н д, Мир вероятностей, М., «Статистика», 1970. 28. Ю. Нейман, Вводный курс теории вероятностей и мате- матической статистики, М., «Наука», 1968. 29. Е. С. Венцель, Теория вероятностей. М., «Наука», 1964. 30. Ю. А. Розанов, Теория вероятностей и ее приложения, в сборнике: «О некоторых вопросах современной математики и кибернетики», М., «Просвещение», 1965, стр. 78—141. 31. Дж. Т. Кальбертсон, Математика и логика цифровых устройств, М., «Просвещение», 1965, гл. III. 32. Дж. К е м е н и, Дж. Снелл, Дж. Томпсон, Введение в конечную математику, М., «Мир», 1964, гл. IV.
ЛИТЕРАТУРА 489 33. А. Н. К олмогоров, Теория вероятностей, в сборнике: «Математика, ее содержание, методы и значение», т. II, М., Изд-во АН СССР, 1956, стр. 252—284. 34. М. Кац, Теория вероятностей, в сборнике: «Математика в современном мире», М., «Мир», 1967, стр. 78—93. 35. Ф. М остелле р, Пятьдесят занимательных вероятностных задач, М., «Наука», 1971. 36. Л.Д. Мешалки н, Сборник задач по теории вероятностей, М., Изд-во МГУ, 1963. 37. А. М. Яглом, И. М. Я г л о м, Неэлементарные задачи в элементарном изложении, М., Гостехиздат, 1954, и. 6 раздела I. Литература к гл. II 38. Р. Хайман, Информация, содержащаяся в раздражении, как величина, определяющая время реакции (R. Hyman, Stimulus information as a determinant of reaction times), Journ. of Experemental Psychology 45, № 3, 1953, стр. 188—196. 39. У. E. X и к, О скорости получения информации (W. Е. Н i с к, On the rate of gaiff of information), Quart. Journ. Experemental Psychology 4, № 1, 1952, стр. 11—26. 40. В. И. Николаев, Определение времени, затрачиваемого оператором на решение задач по управлению судовой энерге- тической установкой, Изв. Акад, наук СССР (энергетика и транспорт), № 4, 1965, стр. 130—145. 41. Б. Ф. Л о м о в, Человек и техника (очерки инженерной пси- хологии), М., «Советское радио», 1966. 42. Дж. А. Леопард, Опыты по определению времени реак- ции выбора и теория информации (J. A. Leonard, Choise reaction time experiments and information theory), в сборнике: «Теория информации» (InformationTheory; ред.— C. Cherry), London, Butterworths, 1961, стр. 137—146. 43. P. Д. Л в ю с, Теория селективной информации и некоторые ее применения к изучению поведения (R. D. L u с е, The theory of selective information and some of its behavioral applications), в сборнике: «Developments in Mathematical Psychology» ред.) —R. D. Luce), Glencoe (USA), The Free Press, 1960, стр.5—119. 44. A. H. Леонтьев, E. П. К p и н ч и к, О применении тео- рии информации в конкретно-психологических исследованиях, Вопросы психологии, № 5, 1961, стр. 25—46. 45. Ф. А т т н и в, Применение теории информации к психологии: обзор основных понятий, методов и результатов (F. A 11 п е- а v е, Applications of information theory to psychology: a summary of basic concepts, methods and results), New York, Holt — Dryden, 1959. 46. Сборник «Теория информации в психологии» (Information the- ory in psychology; ред.— H. Q u a s t 1 e r), Glencoe (USA), The Free Press, 1955. 47. P. Л. Д о б p у ш и н, Передача информации по каналу с об- ратной связью, Теор. вероятн. и ее примеп. 3, № 4, 1958, стр. 395—412. 48. Д. К. Фаддеев, К понятию энтропии конечной вероятност- ной схемы, Успехи матем. наук 11, №1, 1956, стр. 227—231.
490 ЛИТЕРАТУРА 49. 3. Д а р о ц и, Обобщенные информационные функции (Z. D а- г 6 с z у, Generalized information functions), Information and Control 16, № 1, 1970, стр. 36—51. Литература к гл. Ill 50. Б. А. К о р д е м с к и й, Математическая смекалка, М., «На- ука», 1965. 51. Д. О. Ш к л я р с к и й, Н. Н. Ченцов, И. М. Яглом, Избранные задачи и теоремы элементарной математики (ариф- метика и алгебра), М., «Наука», 1965. 52. В. Дэвиде, Одна задача о взвешиваниях: (V. D е v i d ё. Ein Problem fiber Wagen), Elemente der Math. 10, № 1, 1959, стр. 11—15Л 53. П. Дж. Келлог, Д. Дж. Келлог, Информационная энт- ропия и задача о фальшивой монете (Р. J. Kellogg, D. J. Kellogg, Entropy of information and the odd ball problem), Journ. of Appl. Phys. 25, № 11, 1954. стр. 1438—1439. 54. С. С, Кислицин, Современное состояние теории поиска, Успехи матем. наук 17, № 1, 1962, стр. 243—244. 55. Р. Б е л л м а н, Б. Глас, О разных вариантах задачи о фальшивой монете (R. Bellman, В. G 1 u s s, On various versions of the defective coin problem), Information and Control4, №2—3,1961, стр. 118—131; исправление — там же, № 4, стр. 391. 56. Г. Ш т е й н г а у з, Сто задач, М., Физматгиз, 1959. 57. С. С. Кислицин, Уточнение оценки наименьшего средне- го числа сравнений, необходимых для полного упорядочива- ния конечной совокупности, Вестник ЛГУ, № 19, вып. 4, 1963, стр. 143—145. 58. Л. Р. Форд, С. М. Джонсон, Проблема соревнований (L. В. Ford, S. М. Johnson, A tournament problem), American Math. Montly 66, № 5, 1959, стр. 387—389. 59. К. Ф. Пикар, Теория вопросников (C.-F. Picard, ТЬёопе des questionnaires), Paris, Gauthier — Villars, 1965; Графы и вопросники, т. II. Вопросники (Graphes et question- naires, tome II, Questionnaires), Paris, Gauthier—Villars, 1972. 60. П. П. Пархоменко. Теория вопросников (обзор), Авто- матика и телемеханика, № 4, 1970, стр. 140—159. Литература к гл. IV § 1 61. А. А. С а р д и н а с, Дж. У. Паттерсон, Необходимое п достаточное условие однозначного разложения закодирован- ных сообщений, Кибернетический сборник, вып. 3. М., ИЛ, 1961, стр. 93—102. 62. Э. Н. Гилберт, Э. Ф. Мур, Двоичные кодовые системы переменной длины, там же, стр. 103—141.
ЛИТЕРАТУРА 491 § 2 63. Д. А. Хаффмен (или X а ф м а н), Метод построения ко- дов с минимальной избыточностью, Кибернетический сборник, вып. 3, М., ИЛ, 1961, стр. 79—87. 64. Б. Макмиллан, Основные теоремы теории информации (В. McMillan, The basic theorems of information theory), Annals Math. Statist. 24, № 2, 1953, стр. 196—219. 65. Б. Макмиллан, Два неравенства, обусловленных одно- значностью расшифровывания, Кибернетический сборник, вып. 3, М., ИЛ, 1961, стр. 88—92. 66. Дж. К а р у ш, Простое доказательство неравенства Макмил- лана (I. К а rush, A simple proof of an inequality of McMil- lan), IRE Trans, on Inform. Theory IT-7, № 2, 1961, стр. 118. § 3 67. P. Г. Пиотровский, Информационные измерения язы- ка, Л., «Наука», 1968. 68. И. М. Яглом, Р. Л. Д о б р у m и н, А. М. Я г л о м, Тео- рия информации и лингвистика, Вопросы языкознания, 1960, № 1, стр. 100—110. 69. А. А. X а р к е в и ч, Очерки общей теории связи, М., Гос- техиздат, 1955. 70. Д. С. Лебедев, В. А. Гармаш, О возможности увели- чения скорости передачи телеграфных сообщений, Электро- связь, 1958, № 1, стр. 68—69. 71. Г. П. Башарин. О статистической оценке энтропии по- следовательности независимых случайных величин, Теор. вероятн. и ее примен. 4, № 3, 1959, стр. 361—364. 72. Р. Л. Д о б р у ш и н, Математические методы в лингвистике, Математическое просвещение (новая серия), вып. 6, М., Физ- матгиз, 1961, стр. 37—60. 73. В. Белевич, Теория информации и лингвистическая ста- тистика (V. Belevitch, Theorie de I’information et statis- tiquc linguistique), Bulletin Acad. Royale Belgique (classe de sciences), 1956, стр. 419—436. 74. Г. А. Б a p п a p д, Статистическое определение энтропии слов для четырех западных языков (G.A. Barnard, Statistical calculation of world entropies for four western languages), IRE Trans, on Inform. Theory IT-1, № 1, 1955, стр. 49—53. 75. К. Шеннон, Предсказание и энтропия английского печат- ного текста, в книге: «Работы по теории информации и кибер- нетике» (см. [1]), стр. 669—686. 76. В. Ю. Урбах, К учету корреляций между буквами алфа- вита при вычислении количества информации в сообщении, Проблемы кибернетики, вып. 10, 1963, стр. 111—117. 77. Н. Г. Б е р т о н, Дж. Ликлайдер, Длительные связи в статистической структуре печатного английского текста (N. G. Burton, I. С. R. L i с k 1 i d е г, Longrange const- raints in the statistical structure of printed English), Amer. Journ. of Psychology 68, № 4, 1955, стр. 650—653.
492 ЛИТЕРАТУРА 78. Г. С и р о м о н и, Теоретико-информационная проверка зна- комства с иностранным языком (G. Siromoney, An in- formation-theoretical test for familiarity with a foreign langua- ge), Joum. Psychol. Researches 8, 1964, стр. 1—6. 79, Д. Джемисон, К. Джемисон, Заметка об энтропии частнчно-знакомых языков (D. J am i son, К. J amison, A note on the entropy of partially-known languages), Informa- tion and Control 12, № 2, 1968, стр. 164—167. 80. П. Б. Невельский, M. Д. Розенбаум, Угадывание профессионального текста специалистами и неспециалистами, в сборнике: «Статистика речи и автоматический анализ тек- ста», Л., «Наука», 1971, стр. 134—148. 81. А. П. Савчук, Об оценках энтропии языка по Шеннону, Теор. верояти. и ее примен. 9, № 1, 1964, стр. 154—157. 82. К. Кюпф мюллер, Энтропия немецкого языка (К. Kfipf- m ii 11 е г, Die Entropie der deutschen Sprache), Fernmeldtechni- sche Zeitschrift (FTZ), № 6, 1954, стр. 265—272. 83. H. В. Петрова, Энтропия французского печатного текста, Изв. Акад, наук СССР (серия литературы и языка) 24, №•!, 1965, стр. 63—67; Н. Петрова, Р. Пиотровский, Р. Ж и р о, Энтропия французской письменной речи (N. Pet- rova, R. Piotrovski, R. Giraud, L’entropie du franfais ecrit), Bull. Soc. de linguistique de Paris 58, Л» 1, 1964, стр. 130—152. 84. P. Манфрионо, Энтропия итальянского языка и ее вы- числение (R. М a n f г i о п о, L’entropia della lingua italiana ed il sua calcolo), Alta frequenza 29, № 1, 1960, стр. 4—29; X. Хансон, Энтропия шведского языка (Н. Н a n s s о п, The entropy of the Swedish’’language), Trans, of the Second Prague Conference on Information Theory, Statistical Decision Functions, Random Processes, Prague, 1960, стр. 215—217; Л. Д о л e ж e л ь, Предсказания энтропии и избыточности чешских текстов (L. D о 1 е г е 1, Predbezny odhad entropie е redundance psane cestiny), Slovo a Sbovesnost 24, № 3, 1963, стр. 165—175; Ф. Зитек, Несколько замечаний по поводу энтропии чешского языка (F. Z i t е k, Quelques remarques au snjet de l’entropie du tcheque), Trans, of the Third Prague Con- ference on Inforamation Theory, Statistical Decision Functions, Random Processes, Prague, 1964, стр. 841—846; E. H и к Oj л а у, К. С а л a, A. P о ч e p и к, Наблюдения над энтропией румынского языка (Е. Nicola u, С. Sala, A. Roceric, Observa|ii asupra entropiei limbii romane), Studi?i cercetai lingvist 10, № 1, 1959, стр. 35—54. 85. P. А. К а з a p я н, Оценка энтропии армянского текста, Изв. Акад, паук Арп. ССР (физико-математические науки) 14,'№ 4i, 1961, стр. 161—173; Д. Н. Ленский, К оценке энтропии адыгейских печатных текстов, Учен, записки Кабардино-бал- карского университета (серия физико-математическая), вып. 16, Нальчик, 1962, стр. 165—166; Т. И. Ибрагимов, Оцен- ка взаимосвязи бука в татарском литературном языке, Учен, записки Казанского гос. уп-та, 124, кп. 2 (Вероятностные методы и кибернетика, вып. III), Казань, 1964, стр. 141—145.
ЛИТЕРАТУРА 493 86. Е. Б. Ньюман, Н. Во, Избыточность текстов па трех языках (Е. В. N е w m a n, N. С. W a u g h, The redundancy of texts in three languages), Information and Control 3, № 2, 1960, стр. 141—153. 87. E. Б. Ньюман, Л. Дж. Герстман, Новый метод ана- лиза письменного английского текста (Е. В. Newman, L. J. Gerstman, A new method for analyzing printed English), Journ. of Experemental Psychology 44, № 2, 1952, стр. 114—125. 88. Г. Блюме, Трехмерные кроссворды иа древне-еврейском языке (Н. В 1 u h m е, Three-dimensional crossword puzzles in Hebrew), Information and Control 6, № 3, 1963, стр. 306—309. 89. Г. Сиромони, Энтропия прозы на языке тамили (G. Si- г о m о п е у, Entropy of Tamil prose), Information and Control 6, № 3, 1963, стр. 297—300; К. P. P а д ж а г о п а л а и, За- метка об энтропии прозы на языке каннада (К. В. В a j a go- pa 1 а п, А note on entropy of Kannada prose), Information and Control 8, № 6, 1965, стр. 640—644; П. Баласубрама- н ь я м, Г. С и р о М» о и и, Заметка об энтропии прозы на языке телугу (Р. В alasub rahm any am, G. Siro- money, A note on entropy of Telugu prose), Information and Control 13, № 4, 1968, стр. 281—285; Б. С. P а м а к p и ш n a, К. К. H аир, В. H. Ч и п л у и к а р, В. С. Ата л, В. Р а- мачандран, Р. Субраманиан, Сравнительные эф- фективности индийских языков (В. S. Ramakrishna, К. К. Nair, V. N. С h i р 1 u n к а г, В. S. A t а 1, V. В а- machandran, В. Subramanian, Belative efficien- cies of Indian languages), Nature 189, № 4768, 1961, стр. 614—617. 90. Б. С. Рамакришна, P. Субраманиан, Сравнитель- ная эффективность английского и немецкого языков для пере- дачи смыслового содержания (В. S. Bamakrishna, В. Subramanian, Belative efficiency of English and German languages for communication of semantic content), 1BE Trans, on Inform. Theory IT-4, № 3, 1958, стр. 127—129. 91. H. Рычкова, Лингвистика и математика, Наука и жизнь, № 9, 1961, стр. 76—77. 92. П. М. Алексеев, Частотные словари английского языка и их практические применения, в сборнике: «Статистика речи и автоматический анализ текста» (см. [80]), стр. 160—178. 93. Дж. Ц и п ф, Поведение человека и принцип наименьшего усилия (G. К. Z i р f, Human behavior and the principle ot least effort), Cambridge (USA), Addison — Wesley, 1963. 94. Л. Апостель, Б. Мадельброт, А. Морф, Логика, речь и теория информации (L. А р о s t е I, В. Mandelb- rot, А. М о г f, Logique, langage et theorie de 1’information), Paris, Presses Uni vers itaires de France, 1957. 95. Дж. А. Миллер, Речь и язык, в сборнике «Эксперимен- тальная психология» (сост.— С. С. Стивенс), т. II, М., ИЛ, 1963, стр. 348—374. 96. Б. Мандельброт, Информационная теория статистиче- ской структуры языка (В. Mandelbrot, An informational
494 ЛИТЕРАТУРА theory of the statistical structure of language), в сборнике: «Теория связи» (Communication Theory; см. [19]), стр. 486— 502. 97. М. Григнетти, Заметка об энтропии слов в письменном английском тексте (М. С. Grignetti, A note on the entropy of words in printed English), Information and Control 7, № 3, 1964, стр. 304—306. 98. А. А. Пиотровская, P. Г. Пиотровский, К. A. P а з ж и в и н. Энтропия русского языка, Вопросы языкознания, № 6, 1962, стр. 115—130. 99. О. Л. Смирнов, А. В. Екимов, Энтропия русского те- леграфного текста, Труды Ленинградск. ин-та азиацион. при- боростроения, вып. 54 (системы обработки и передачи инфор- мации), Л., 1967, стр. 76—84. 100. Ф. Фри к, У. С а м б и, Язык наземного управления само- летом (F. С. F г i с k, W. Н. S u m Ь у, Control tower langua- ge), Joum. Acoust. Soc. Amer. 24, 1952, стр. 595—596. 101. Э. Л. Фриц, Дж. У. Г р а й е р, Практическая связь: изу- чение потока информации в управлении воздушны t движе- нием (Е. L. Fritz, G. VV. Grier, Pragmatic communica1- tion: a study of information flow in air traffic control), статья в сборнике [40], стр. 232—243. 102. Т. Тарноци, О факторах, влияющих на различия значе- ний энтропии языка (Т. Tarnoczy, A jeloszlas es a hfrtar- talom nyelveket meghatarozo tulajdonsagairol), Nyelvtudoma- nyi Kozlemenyek 63, 1961, стр. 161—178. 103. A. M. Кондратов, Теория информации и поэтика (энт- ропия ритма русской речи), Проблемы кибернетики, вып. 9, М., 1963, стр. 279—286. 104. С. М а р к у с, Энтропия и поэтическая энергия (S. М а г с u s, Entropie et energie poetique), Cahicrs de linguistique theoreti- que et appliquee 4, 1967, стр. 171—180. 105. Сборник «Математика и поэзия» (Mathematik und Dichtung, сост.— H. Kreuzer, B. G unzen hauser), Munchen, Nympfenhiirger Verlaghandlung, 1965. 106. У. Дж. Пейсли, Влияние авторства, темы, структуры и времени написания на избыточность букв в английских тек- стах (W. J. Paisley, The effects of authorship, topic, struc- ture and time of composition on letter redunancy in English texts), Journ. Verbal Learning and Verbal Behavior 5, № I, 1966. стр. 28—34. 107. Дж. Берри, Некоторые статистические аспекты разговорной речи (J. Berry, Some statistical aspects of conversational speech), в сборнике: «Теория связи» (Communication Theory; см. [19]), стр. 392—401. 108. Б. Мандельброт, Закон Берри и определение „ударе- нпя“, в сборнике: «Теория передачи сообщений», М., ИЛ, 1957, стр. 248—254. 109. В. А. Успенский, Одна модель для понятия фонемы, Вопросы языкознания, № 6, 1964, стр. 39—53. 110, Е. К. Ч е р р и, М. X а л л е, Р. Я к о б с о н, К логическому описанию языков с точки зрения фонем (Е. С. Cherry,
ЛИТЕРАТУРА 495 М. Halle, R. J akobson, Toward the logical description of languages in their phonemic aspect), Language 29, № 1, 1953, стр. 34—46. 111. A. M. Пешковский, Десять тысяч звуков, Сборник статей. Л.— М., ГИЗ, 1925, стр. 167—191. 112. Л. Р. Зиндер, О лингвистической вероятности, в сборнике: «Вопросы статистики речи», Л., Изд-во ЛГУ, 1958, стр. 58—61. 113. Дж. У. Б лэк, Информация звуков и фонетические диграммы в одно- и двусложных словах (J. W. Black, The information of sounds and phonetic digrams of one- and two-syllable words), Journ. Speech Hearing Disorders 19, 1954, стр. 397—411; П. Д ь e н e ш, О статистике устной английской речи (Р. D е- п е s, On the statistics of spoken English), Journ. Acoust. Soc. Amer. 35, № 6, 1963, стр. 892—904. 114. Ж. П. Г а т о н, M. Л а м о т т, Изучение статистики фонем и дифопем в устной французской речи (J.P. Haton, М. La- mo t t е, Etude statistique des phonemes et diphonemes dans le franfais parle), Revue d’acoustique 4, № 16,1971,258—262. 115. В. Эндрес, Сражение избыточности устной и письменной речи (W. Endres, A comparison of the redundancy in the written and spoken language), Иробл. управл. и теория информ., Приложен., 1973 (Труды 2-й Международп. Кон- фер. по теории информации; Цахкадзор, Арм. ССР, 2—8 сентября 1971 г.). 116. А. Ф р а д п с, Л. Михайл еску, И. В о и н ес к у, Энтропия и информационная энергия устпой румынской речи (A. F га dis, L. Mihailescu, I. Voinescu, L’ent- ropie et 1’energie informationnelle de la langue roumaine parlee), Revue roumaine de linguistique 12, № 4, 1967, стр. 331—339. 117. T. И. Ибрагимов, Исследование слоговой организации слов татарского языка, Ученые записки Казанского гос. ун-та 129, кн. 4 (Вероятностные методы и кибернетика, вып. VII), Казань, 1969, стр. 101—108. 118. И. В о и н е с к у, А. Ф р а д и с, Л. М и х а й л е с к у, Энт- ропия первого порядка фонем в речи больных афазией (I.Voinescu, A. Fradis, L. Mihailescu, The first degree entropy of phonemes in aphasics), Revue roumaine de neurologie, 4, № 1, 1967, стр. 67—79; Энтропия второго поряд- ка фонем и соотношение между порядковым номером и часто- той пар фонем в речи больных афазией (Second order entropy of phonemes and rank-freguency relation of biphonematic groups in aphasics), Revue roumaine de neurologie, 5, № 2, 1968, стр. Hl________120; Энтропия первого порядка слов в речи больных афазией (First order entropy of words in aphasics), Cybernetica 12, № 1, 1969 стр. 39—49; см. также А. Крейндлер, А. Фр ад и с, Афазия, гл. IX «Теория информации, речь и афазия» (А. Kreindler, A. Fradis, Afazia, Cap. IX «Theoria informatiei, limbajul si afazia»), Bucuresti, Ed. Acad. Rep. Social. Romania, 1970. 119. P. П и н к е р т о н, Теория информации и мелодия (R. С. Pinkerton, Information theory and melody), Scient. Amer. 194, № 2, 1956, стр. 77—86.
496 ЛИТЕРАТУРА 120. Ф. П. Брукс, А. Л. Хопкинс, П. Г. Нейман, У. В. Райт, Опыт по сочинению музыки (F. Р. Brooks, A. L. Hopkins, Р. G. Neumann, W. V. Wright, An experiment in musical composition), IRE Trans, on Elect- ron. Comput. EC-6, № 3, 1957, стр. 175—182. 121. Г. О л с о н, Г. Б e л a p, Использование случайной вероятно- стной системы для помощи в музыкальных композициях (Н. О 1 s о n, Н. В е 1 а г, Aid to music composition employing a random probability system), Journ. Acoust. Soc. America 33, № 9, 1961, стр. 1163—1170. 122. P. X. Зарипов, Кибернетика и музыка, M., «Наука», 1971. 123. Дж. Е. Ю н г б л а д, Стиль как информация (J. Е. Young- blood, Style as information), Journ. Music Theory 2, № 1, 1958, стр. 24 и след. 124. Дж. Е. К о э н, Теория информации и музыка (J. Е. С о h е п, Information theory and music), Behav. Sci., 7, № 2, 1962, стр. 137—163. 125. Г. Сиро мон и, К. Р. Раджагопалан, Стиль как информация в карнатической музыке (G. Siromoney, К. В. Rajagopalan, Style as information in Karnatic music), Journ. Music Theory 8, № 2, 1964, стр. 267—272. 126. Л. Хиллер, Дж. Бишем, Исследования в области музы- ки с использованием электроники (L. Hiller, J. Beau- champ, Research in music with electronics),Science 150, № 3693, 1965, стр. 161—169. 127. M. Роланд, Уменьшение информации из-за зависимости между несколькими одновременными источниками информа- ции и из-за перехода к марковским цепям высокого порядка, исследованное на примерах музыкальных произведений (М. Roland, Die Entropieabnahme bei Abhangigkeit zwi- schen mehreren simultanen Informationsquellen und bei Ubergang zu Markoff-Ketten hoherer Ordnung, untersucht an musikali- schen Beispielen), Forschungsber. Landes Nordheim-Westfalen, 1967, № 1768, стр. 39, 41, 43—44, 79—80. 128. Д. С. Лебедев, И. И. Ц у к к e p м а н, Телевидение и теория информации, М., «Энергия», 1965. 129. У. Ф. Шрейбер, Измерение трехмерных распределений вероятностей для телевизионных изображений (W. F. Sch- reiber, The measurement of third order probability distri- butions of television signals), IRE Trans, on Inform. Theory —IT-2, № 3, 1956, стр. 94—105. 130. Д. С. Лебедев, E. И. П и й л ь, Экспериментальные ис- следования статистики телевизионных сообщений, Техника кино и телевидения, № 3, 1959, стр. 37—39. 131. Дж. О. Лимб, Энтропия квантованных телевизионных сигна- лов, (J. О. Limb, Entropy of quantised television signals), Proc. Inst. Elec. Eng. (Proc. IEE) 115, № 1, 1968, стр. 16—20. 132. П. Нейдгардт, Введение в теорию информации (Р. N е i d- h а г d t, Einfiihrung in die Informationstheorie), Berlin, VEB Verlag Technik, 1957. 133. H. С. Ц а н н e с, P. В. С п e п с e p, А. Дж. К а п л а и, Об оценке энтропии случайных полей (N. S. Т s a n n е s,
ЛИТЕРАТУРА 497 В.V.Spence г, A. J.Kaplan, On estimating the entropy of random fields), Information and Control 16, № 1, 1970, стр. 1—6. 134. С. Д e й ч, Заметка о некоторых статистических характеристи- ках машинописного или печатного текста (S. Deutsch, A note on some statistics consering typewritten or printed mate- rial), IRE Trans, on Inform. Theory IT-3, № 2, 1957, стр.136—> 143. 135. Г. А. К а й з e p, К вопросу об энтропии текстов, напечатан- ных на пишущей машинке (G. A. Kayser, Zur Entropie schreibmaschihengeschribener Textvorlagen), Nachrichtentechn. Zeitschr. (NTZ) 13, № 5, 1960, стр. 219—224. 136. У. С. M а й ч е л, Статистическое кодирование для передачи текста и рисупков (W. S. М i с h е 1, Statistical encoding for text and picture communications), Commun. and Electr., № 35, 1958, стр. 33—36. 137. В. А. Г a p м а ш, H. E. Кириллов, Экспериментальное исследование статистики фототелеграфных сообщений, Научи, доклады высш, школы (радиотехника и электропика), № 1, 1959, стр. 37—42. 138. Р. Р. В а с и л ь е в, О статистических методах передачи фо- тотелеграмм, Радиотехника и электроника 2, № 2, 1957, стр. 136—143. 139. В. Г. Фролушкин, Анализ статистической структуры текстовых фототелеграмм, Электросвязь, № 5, 1959, стр. 63—70. 140. У. X. Ф о й, Энтропия простых линейных чертежей (W.H.Foy, Entropy of simple line drawings), IEEE Trans, on Inform. Theory IT-10, № 2, 1964, стр. 165—167. 141. Ф. E. Темников, В. А. А ф о н и н, В. И. Дмитриев, Теоретические основы информационной техники, М., «Энер- гия», 1971. 142. Быстрая связь (Fast data communication), Sci. News Letters 83, № 1, 1963, стр. 5. 143. Г. Якобсон, Информационная пропускная способность человеческого глаза (Н. Jacobson, The informational capacity of the human eye), Science 113, № 2933, 1951, стр. 292—293. 144. Г. Якобсон, Информация и ухо человека (Н. J а с о Ь- s о n, Information and the human ear), Journ. Acoust. Soc. Amer. 23, № 4, 1951, стр. 463—471. 145. Г. Ill о б e p. Основополагающие замечания о применимости теории информации к оптике (Н. S с h о Ь е г, Grundlegendo Bemerkungen dur Anwendbarkeit der Informationstheorie auf die Optik), Wiss. Zeitschr. Hochschule Elektrotechn. Ilmenau 3, № 3—4, 1957, стр. 273—276. 146. Д. Г. Келли, Информационная пропускная способность единичного зрительного канала (D. Н. Kelly, Information capacity of a single retinal channel), IBE Trans, on Inform. Theory IT-8, № 3, 1962, стр. 221—226. 147. К. Кюпфмюллер, Переработка информации человеком (К. Kiipfmuller, Informationsverarbeitung dutch den
498 ЛИТЕРАТУРА Menschen), Nachrichtentechnische Zeitschr. (NTZ), № 2, 1959 стр. 68—74. 148. Е.Б. Ньюман, Люди и информация: точка зрения психо- лога (Е. В. N е w m a n, Men and information: a psychologist’s view), Nuovo Cimento Suppl. 13, № 2, 1959, стр. 539—559. 149. Г. С и к л а и, Изучение скорости зрительного восприятия (G. С. S z i k 1 a I, Some studies in the speed of visual percep- tion), IRE Trans, on Inform. Theory IT-2, № 3, 1956, стр. 125— 128. 150. Г. Квастлер, Изучение пропускной способности челове- ческого канала (Н. Quastler, Studies of human channel capacity), в сборнике: «Information Theory, Third London Symposium» (род,— C. Cherry), London, Buttorworths, 1956, стр. 361—371. 151. Г. Г а м о в, Возможное отношение между дезоксирибонуклеи- новой кислотой и белковыми структурами (G. G a m о w, Possible relation between deoxyribonucleic acid and protein structures), Nature 173, 1954, стр. 318. 152. Г. Г а м о в, М. И ч а с, Статистическая связь между соста- вом белка и рибонуклеиновой кислоты (G. G a m о w, М. Yeas, Statistical con-elation of protein and ribonucleic acid composition), Proc. Nat. Acad. Sci. USA 41, 1955, стр. 1011— 1019. 153. Ф. К рик, Дж. Гриффит, Л. Орге л, Коды без запятых (F. Н. С. Crick, J. S. Griffith, L. Е. О г g е 1, Codes without commas), Pros. Nat. Acad. Sci. USA 43, 1957, стр. 416—421. 154. С. В. Голомб, Л. P. В e л ч, М. Дельбрюк, Строение и свойства кодов без запятой, журнал переводов «Математика» 4, № 5, 1960, стр. 137—160. 155. Г. Г а м о в, А. Р и ч, М. II ч а с (или И к а с), Проблема пе- редачи информации от нуклеиновых кислот к белкам, в сбор- нике: «Вопросы биофизики», М., ИЛ, 1957, стр. 205—263; Г. Гамов, М. И ч а с, Криптографический подход к проб- леме синтеза белка, в сборнике [14], стр. 66—71; М. И ч а с, Белковый текст, там же, стр. 72—103. 156. Ф. Крик, К расшифровке генетического кода, в сборнике: «Живая клетка», М., ИЛ, 1962, стр. 203—222; Ф. Крик, Генетический код (I), в сборнике: «Структура и функция клет- ки», М., «Мир», 1964, стр. 9—23; М. Н и р е н б е рг, Гене- тический код (II), там же, стр. 24—41; Ф. К р и к, Генетичес- кий код (III) (F. Н. С. С г i с k, The genetic code: III), Scien- tific American 215, № 4, 1966, стр. 55—61; М.В.Волькен- штейн, Проблема генетического кода, «Природа», № 9, 1968, стр. 20—29. 157. М. И ч а с, Биологический код, М., «Мир», 1971. § 158. К. Шеннон, Некоторые результаты теории кодирования для капала с шумами, в книге: «Работы по теории информации и кибернетике», (см. [1]), стр. 433—460.
ЛИТЕРАТУРА 409 159. П. Э лайес, Кодирование для двух каналов с шумами, в сборнике: «Теория передачи сообщений» (см. (108]), стр. 114— 138. 160. Р. Л. Г а л л а г е р, Простой вывод теоремы кодирования и некоторые применения, Кибернетический сборник (новая серия), вып. 3., М., «Мир», 1966, стр. 50—90. 161. Р. Л. Д о б р у ш и н, Асимптотические оценки вероятности ошибки при передаче сообщения по дискретному каналу связи без памяти с симметричной матрицей вероятностей перехода, Теор. вероятн. и ее примен. 7, № 3, 1962, стр. 283—311. 162. К. Ш е нн о^ Пропускная способность канала с шумом при нулевой ошибке, в книге: «Работы по теории информации и ки- бернетике» (см. (1]), стр. 464—487. 163. С. К. 3 а р е м б а, Замечание к основной теореме для диск- ретного канала с шумами, в сборнике: «Теория передачи со- общении» (см. [108]), стр. 28—31. 164. Э. Н. Г и л б е рт, Сравнение алфавитов сигналов (Е. N. G i 1- Ь е г t, A comparison of signalling alphabets), Bell System Techn. Journ. 31, № 3, 1952, стр. 502—522. 165. Д. С л e п я н, Теория кодирования (D. S lepia n, Coding theory), Nuovo Cimento Suppl., Ser. X. 13, № 2, 1959, стр. 373—388. 166. Г. А. Барнард, Простые доказательства простых случаев теоремы кодирования, в сборнике: «Теория передачи сообще- ний» (см. [108]), стр. 32—42. § 5 167. Н.Л евинсон, Теория кодирования: противоречащий при- мер к принадлежащей Г. X. Харди концепции прикладной математики (N. Levinson, Coding theory: a counterexample to G. H. Hardy’s conception of applied mathematics), Amer. Math. Monthly. 77, № 3, 1970, стр. 249—258. 168. У. Питерсон, Коды, исправляющие ошибки, М., «Мир», ’ 1964. 169. Э. Б е р л е к э м п, Алгебраическая теория кодирования, М., «Мир», 1971. 170. Р. Л. Д о б р у ш и н. Теория оптимального кодирования ин- формации, в сборнике: «Кибернетика па службу коммунизму» (ред._ а. И. Б е р г), т. 3, 1966, стр. 13—45. 171. П. Э л а й с (или Э л а й е с), Кодирование и декодирование, в сборнике: «Лекции по теории связи» (ред,— Е. Дж. Б а г- дадп), М., «Мир», 1964, стр. 289—317. 172. Р. В. X э м м и п г, Коды с обнаружением и исправлением ошибок, в сборнике: «Коды с обнаружением и исправлением ошибок», М., ИЛ, 1956, стр. 7—23. 173. Р.Р- Варшамов, Оценка числа сигналов в кодах с кор- рекцией ошибок, Докл. Акад. Наук СССР, 117, № 5, 1957, стр. 739—741. 174. Р. К. Б о у з, Д. К. Рой -Чоудхури, Об одном классе двоичных групповых кодов с исправлением ошибок, Киберне- тический сборник, вып. 2, 1961, стр. 83—94; Дальнейшие ре-
500 ЛИТЕРАТУРА зультаты относительно двоичпых групповых кодов с исправ- лением ошибок, Кибернетический сборник, вып. 6, 1963, стр. 7—12. 175. А. Хоквингем, Коды, исправляющие ошибки (А. И о с- quenghem, Codes correctcurs d’erreurs), Chiffres 2, 1959, стр. 147—156. 176. P. Дж. Галлате p, Коды с малой плотностью проверок на четность, М., «Мир», 1966. 177. Д. С л е и я н, Класс двоичпых сигнальных алфавитов, в сборнике: «Теория передачи сообщений» (см. [108]), стр. 82— 113. 178. Р.Л. Д об ру шин, Асимптотическая оптимальность групповых и систематических кодов для некоторых каналов, Теор. вероятн. и ее примеп. 8, № 1, 1963, стр. 52—66. 179. Г. Д р и г а с, Теория кодирования для симметричных кана- лов (Н. D г у g a s, Verschliisselungstheorie fur symmetrische Kaniile), Zeitschr. fur Wahrscheinlichkeitstheorie und verw. Gebiete 4 1965, стр. 121—143. 180. Э. M. Г а б и д у л и н, Границы для вероятности ошибки де- кодирования при использовании линейных кодов без памяти. Пробл. передачи информ. 3, № 2, 1967, стр. 55—62. 181. Р. А л с в е д е, Групповые коды не позволяют достичь шен- ноновской пропускной способности для общих дискретных каналов (R. Ahiswede, Group codes do not achieve Shannon’s channel capacity for general discrete channels), Ann. Mathem. Stat. 42, № 1, 1971, стр. 224—240. 182. Г. E. Сакс, Исправление кратных ошибок с помощью про- верок на четность (G. Е. S а с k s, Multiple error correction by means of parity checks), IRE Trans, on Inform. Theory IT-4, № 4, 1958, 145—147. 183. В. Д. Колесник, E. T. Мирончиков, Декодирова- ние циклических кодов, М., «Связь», 1968. 184. Д. Форни, Каскадные коды, М., «Мир», 1970. 185. Д. Горенстейн, У. Питерсон, Н. Цирлер, Ква- зисовершенность кодов Боуза — Чоудхури с исправлением двух ошибок, Кибернетический сборник, вып. 6, 1963, стр. 20-24. 186. А. Тиетявяйнен, А. Перко, Не существует неизвест- ных совершенных двоичных кодов (A. Tietavainen, А. Р е г к о, There are no unknown perfect binary codes), Ann. Univ. Turku, Ser. A, I, № 148, 1971, стр. 3—10. 187. В. А. Зиновьев, В. К. Леонтьев, О совершенных кодах, Пробл. передачи информ. 8, № 1, 1972, стр. 26—35.
ИМЕННОЙ УКАЗАТЕЛЬ1) Адельсон-Вельскйй Г. М. 163 Аксаков С. Т. 259, 267 Алексеев П. М. 263, 493 Алсведе (Ahiswede В.) 416, 500 Апостель (Apostel L.) 266, 493 Атал (Atal В. S.) 255, 256, 271, 493 Аттпйв К. (Attneave С.) 283, 287 Аттнив Ф. (Attneave F.) 118, 283, 287, 489 Афонин В. А. 316, 497 Багдади (Baghdady Е. I.) 499 Баласубраманьям (Balasubrah- manyam Р.) 255, 271, 493 Бальмонт К. Д. 238 Барнард (Barnard G. А.) 248, 491 499 Бар Хиллел (Ваг-Hillel Y.) 16, 488 Башарин Г. П. 238, 255, 491 Белар (Belar II.) 284, 289, 496 Белевич (Belevitch V.) 491 Веллман (Bellman В.) 162, 490 Берг А. И. 499 Берлекэмп (Berlekamp Е. В.) 393, 404, 428, 430, 432, 434, 479, 499 Бернштейн И. Н. 163 Бернштейн С. Н. 66 Берри (Berry J.) 275, 494 Бертон (Burton N. G.) 250, 253, 491 Бишем (Beauchamp I.) 284, 285, 496 Блэк (Black J. W.) 279, 495 Блюме (Bluhme Н.) 255, 493 Болтянский В. Г. 5 Боуз (Bose В. С.) 407, 429, 438, 499 Бриллюэн (Brillouin L.) 9, 72, 114, 487 Броули (Brawly J. W.) 284 Брукс (Brooks F. Р.) 283, 284, 287, 496 Буль (Boole G.) 65 Бурбаки (Bourbaki N.) 267 Варшамов Р. Р. 406, 421, 431—• 433, 499 Васильев Р. Р. 307—309, 497 Веберн (Webern А.) 285 Велч (Welch L. В.) 326, 498 Вентцель Е. С. 21, 488 Винер (Wiener N.) 487 Во (Waugh N. С.) 254, 271, 493 Возепкрафт (Wozencraft S. М.) 314, 316, 317, 393, 487 Воинеску (Woinescu I.) 266, 280, 495 Волькенштейн М. В. 328, 498 Вольфовиц (Wolfowitz J.) 229, 359, 372, 487 Вудворд (Woodward Р. М.) 9, 314, 316, 487 Габидулин Э. М. 416, 500 Гайдн (Haydn J.) 285 Галлагер (Gallager В. G.) 229, 359, 372, 383, 415, 416, 428, 430, 434, 488, 499, 500 >) В настоящем указателе вслед за каждой фамилией перечисле- ны все страницы, на которых либо уномииаетси данное лицо, либо имеются ссылки на его работы.
502 ИМЕННОЙ указатель Галуа (Galois Е.) 471 Гамов (Gamow G.) 325, 326, 328, 498 Гармаш В. А. 12, 238, 246, 307, 491, 497 Гатон (Haton J. Р.) 279, 495 Гаусс (Gauss К. F.) 425 Гельфанд И. М. 16, 488 Гервер М. Л. 163 Герстман (Gerstman L. I.) 254, 266, 271, 493 Гилберт (Gilbert Е. N.) 188, 385, 406, 431-433, 490, 499 Гиндикин С. Г. 12 Глас (Gluss В.) 162, 490 Гнеденко Б. В. 19, 23, 488 Голей (Golay М. J. Е.) 438 Голомб (Golomb S. W.) 326, 498 Гончаров И. А. 260, 267, 269 Горенстейн (Gornstein D. С.) 440, 500 Грайер (Grier G. W.) 256, 268, 269, 494 Григпетти (Grignetti М. С.) 266, 494 Гриффит (Griffit J. S.) 326, 498 Гуиценхейзер (Gunzenliauser В.) 270, 494 Давиде (Devide V.) 162, 490 Дайменд (Diamond S.) 21, 488 Дароци (Daroczy Z.) 131, 490 Дейч (Deutsch S.) 302 , 303, 497 Дельбрюк (Delbriick М.) 326, 498 Дени-Папен (Denis-Papin М.) 488 Джекобс (Jacobs I. М.) 314, 316, 317, 383, 487 Джемисон Г. (Jamison G.) 252, 492 Джемисон К. (Jamison К.) 252, 492 Джойс (Joyce J.) 266 Джонсон (Johnson S. М.) 163, 490 Дмитриев В. И. 316, 497 Добрушин Р. Л. 12, 16,123, 236, 240, 359, 393, 416, 489, 491, 499, 500 Долежель (Dolezel L.) 254, 270, 271, 492 Дригас (Drygas Н.) 416, 500 Дьенеш (Denes Р.) 279, 495 Екимов А. В. 268, 494 Жиро (Giraud В.) 253, 268, 492 Зайдман Р. А. 273 Заремба (Zaremba S. К.) 373, 499 Зарипов Р. X. 284, 290, 496 Звонкин А. К. 16, 487 Зиндер Л. Р. 12, 278, 495 Зиновьев В. А. 439, 500 Зитек (Zitek F.) 254, 492 Ибрагимов Т. И. 254, 280, 492, 495 Иванов В. В. 16 Йенсен (Jensen J. L. W. V.) 446 Ичас (или Икас, Yeas М.) 326, 328, 329, 498 Казарян Р. А. 254, 492 Кайзер (Kayser G. А.) 279, 303—306, 497 Кальбертсон (Culbertson J.T.) 488 Каплан (Kaplan A. J.) 300, 301, 496 Карнап (Carnap В.) 16, 488 Каруш (Karush J.) 234, 491 Кац (Кас М.) 19, 21, 489 Квастлер (Quastler Н.) 11, 87, 118, 238, 489, 498 Келли (Kelly D Н.) 318, 497 Келлог Д. (Kellogg D. J.) 162, 490 Келлог П. (Kellog Р. J.) 162, 490 Кемени (Kemeny J- G.) 488 Кириллов Н. Е 307, 497 Кислицин С. С. 162, 163, 490 Колесник В. Д. 428, 434, 500 Колмогоров А. Н. 8, 12, 16, 19, 21, 67, 252, 254, 257, 258, 267, 268, 270, 272, 273, 478, 487, 488, 489 Кондратов А. М. 270, 494 Кордемский Б. А. 137, 141, 146, 150, 490
502 ИМЕННОЙ указатель Галуа (Galois Е.) 471 Гамов (Gamow G.) 325, 326, 328, 498 Гармаш В. А. 12, 238, 246, 307, 491, 497 Гатон (Haton J. Р.) 279, 495 Гаусс (Gauss К. F.) 425 Гельфанд И. М. 16, 488 Гервер М. Л. 163 Герстман (Gerstman L. I.) 254, 266, 271, 493 Гилберт (Gilbert Е. N.) 188, 385, 406, 431-433, 490, 499 Гиндикин С. Г. 12 Глас (Gluss В.) 162, 490 Гнеденко Б. В. 19, 23, 488 Голей (Golay М. J. Е.) 438 Голомб (Golomb S. W.) 326, 498 Гончаров И. А. 260, 267, 269 Горенстейн (Gornstein D. С.) 440, 500 Грайер (Grier G. W.) 256, 268, 269, 494 Григпетти (Grignetti М. С.) 266, 494 Гриффит (Griffit J. S.) 326, 498 Гунценхейзер (Gunzenliauser R.) 270, 494 Давиде (Devide V.) 162, 490 Дайменд (Diamond S.) 21, 488 Дароци (Daroczy Z.) 131, 490 Дейч (Deutsch S.) 302 , 303, 497 Дельбрюк (Delbriick М.) 326, 498 Дени-Папен (Denis-Papin М.) 488 Джекобс (Jacobs I. М.) 314, 316, 317, 383, 487 Джемисон Г. (Jamison G.) 252, 492 Джемисон К. (Jamison К.) 252, 492 Джойс (Joyce J.) 266 Джонсон (Johnson S. М.) 163, 490 Дмитриев В. И. 316, 497 Добрушин Р. Л. 12, 16,123, 236, 240, 359, 393, 416, 489, 491, 499, 500 Долежель (Dolezel L.) 254, 270, 271, 492 Дригас (Drygas Н.) 416, 500 Дьенеш (Denes Р.) 279, 495 Екимов А. В. 268, 494 Жиро (Giraud R.) 253, 268, 492 Зайдман Р. А. 273 Заремба (Zaremba S. К.) 373, 499 Зарипов Р. X. 284, 290, 496 Звонкин А. К. 16, 487 Зиндер Л. Р. 12, 278, 495 Зиновьев В. А. 439, 500 Зитек (Zitek F.) 254, 492 Ибрагимов Т. И. 254, 280, 492, 495 Иванов В. В. 16 Йенсен (Jensen J. L. W. V.) 446 Ичас (или Икас, Yeas М.) 326, 328, 329, 498 Казарян Р. А. 254, 492 Кайзер (Kayser G. А.) 279, 303—306, 497 Кальбертсон (Culbertson J.T.) 488 Каплан (Kaplan A. J.) 300, 301, 496 Карнап (Carnap R.) 16, 488 Каруш (Karusn J.) 234, 491 Кац (Кас М.) 19, 21, 489 Квастлер (Quastler Н.) 11, 87, 118, 238, 489, 498 Келли (Kelly D Н.) 318, 497 Келлог Д. (Kellogg D. J.) 162, 490 Келлог П. (Kellog Р. J.) 162, 490 Кемени (Kemeny J - G.) 488 Кириллов Н. Е 307, 497 Кислицин С. С. 162, 163, 490 Колесник В. Д. 428, 434, 500 Колмогоров А. И. 8, 12, 16, 19, 21, 67, 252, 254, 257, 258, 267, 268, 270, 272, 273, 478, 487, 488, 489 Кондратов А. М. 270, 494 Кордемский Б. А. 137, 141, 146, 150, 490
504 ИМЕННОЙ УКАЗАТЕЛЬ Пиотровская А. А. 268, 494 Пиотровский Р. Г. 236, 253, 254, 267, 268, 273, 491, 492, 494 Пирс (Pierce Т. R.) 238, 266, 284, 487 Питерсон (Peterson W. W.) 393, 429, 430, 432, 434, 440, 499, 500 Полетаев И. А. 72, 487 Прохоров А. В. 16 Пушкин А. С. 270, 272 Раджагопалан (Rajagopalan К. R.) 255, 271, 284, 285, 493, 496 Разживпп К. А. 268, 494 Райт (Wright W. V.) 283, 284, 287, 496 Рамакришна (Ramakrischna В. S.) 255, 256, 271, 493 Рамачандран (Ramachandran V.) 255, 256, 271, 493 Рич (Rich А.) 328, 498 Розанов Ю. А. 488 Розенбаум М. Д. 252, 267, 492 Рой-Чоудхури (Ray-Chaudhuri D. К.) 407, 429, 438, 499 Роланд (Roland М.) 284, 496 Рочерик (Roceric А.) 254, 270, 271 272 492 Рурке (Rourke R. F. К.) 19, 224, 488 Рытов С. М. 12 Рычкова Н. Г. 258, 493 Савчук А. П. 253, 492 Сакс (Sacks G. Е.) 420, 500 Сала (Sala С.) 254, 270, 271, 272, 492 Самби (Samby W. Н.) 256, 268, 269, 494 <аппес (Suppes Р.) 16, 488 Сардинас (Sardinas А. А.) 188, 490 Сиклаи (Sziklai G. С.) 319, 498 Сиромони (Siromoney G.) 252, 255, 256, 271, 284, 285, 492, 493, 496 Слепян (Slepian D.) 385, 393, 415, 499, 500 Смирнов О. Л. 268, 494 Снелл (Snell J. L.) 488 Спенсер (Spencer R. V.) 300 301, 496 Стамблер С. 3. 16 Стивенс (Stevens S. S.) 274, 493 Субраманиан (Subramanian R.) 255, 256, 271, 493 Тарноци (Tarnoczy Т.) 270, 272, 494 Темников Ф. Е. 316, 497 Тиетявяйнен (Tietavainen А.) 439, 500 Толстой Л. Н. 246 Томас (Thomas G. В.) 19, 224, 488 Томпсон (Thompson G. L.) 488 Торндайк (Thorndike Е. L.) 87, 263 Урбах В. Ю. 248, 491 Успенский В. А. 12, 278, 494 Фаддеев Д. К. 131, 489 Файнстейн (Feinstein А.) 9, 229, 350, 351, 359, 385, 487 Фано (Fano R. М.) 201, 229, 233, 330, 359, 368, 393, 487 Фей (Fey Р.) 488 Фишер (Fisher R. А.) 404 Фой (Foy W. Н.) 312, 497 Фолкнер (Faulkner W.) 269 Фомин С. В. 478 Форд (Ford L. R.) 163, 490 Форни (Forney G. D.) 430, 434, 500 Фостер (Foster S.) 284, 289 Фрадис (Fradis А.) 266, 280, 495 Фрик (Frick F. С.) 256, 268, 269 494 Фриц (Fritz Е. L.) 256, 268, 269, 494 Фролушкин В. Г. 307, 309, 497 Хайман (Hyman R.) 85, 103, 489 Халле (Halle М.) 278, 279, 494 Хансон (Hansson Н.) 254, 492 Харди (Hardy G. Н.) 393 Харкевич А. А. 12, 238, 260, 314, 316, 491
ИМЕННОЙ УКАЗАТЕЛЬ 505 Хартли (Hartley В. V. L.) 79— 83, 86, 168, 198 Хафман (или Хаффмен, Huff- man D. А.) 206, 207, 229, 236, 330, 491 Хик (Hick W. Е.) 116, 489 Хиллер (Hiller L.) 284, 285, 496 Хиптикка (Hintikka I.) 16, 488 Хипчин А. Я. 19, 23, 488 Хлебников В. 269 Хоквингем (Hocquen^iam А.) 317, 407, 429, 438, 499 Хорана (Khorana Е. G.) 328 Хопкинс (Hopkins A. L.) 283, 284, 287, 496 Хэмминг (Hamming В. W.) 403—406, 422, 433, 500 Цанпес (Tsannes N. S.) 300, 301, 496 Ципф (Zipf G. К.) 265, 266, 493 Цирлер (Zierler N.) 440, 500 Цуккерман И. И. 296, 297, 299, 300, 496 Цыбаков Б. С. 16 Чебышев А. П. 55—59, 385, 394 Ченцов Н. Н. 150, 157, 490 Черри (Cherry Collin) 487, 489, 498 Черри (Cherry Е. С.) 278, 279, 494 Чиплункар (Chiplunkar V. N.) 255, 256, 271, 493 Шенберг (Schonberg А.) 285 Шевнои (Shannon С. Ё.) 5—7, 79-83, 131, 201, 212, 229, 245, 248, 249, 253, 255, 260, 266— 268, 300, 301, 316, 330, 344, 349—351, 358, 359, 362, 374, 388, 393, 403, 428, 487, 491, 498, 499 Шеннон Бетти (Shannon М. Е.) 267 Шестопал Г. А. 12 Шклярский Д. О. 150, 157, 490 Шобер (Schober Н.) 318, 497 Шоу (Shaw G. В.) 274 Шрейбер (Schreiber W. F.) 295, 298, 299, 300, 496 Шрейдер Ю. А. 16, 488 Штейнгауз (Steinhaus Н.) 162, 490 Шуберт (Schubert F.) 285 Шуман (Schuman В.) 285 Эбрамсои (Abramson N.) 233, 488 Эдельпант М. И. 12 Элайес (пли Элайс, Elias В.) 359, 393, 415, 416, 499 Эндрес (Enders W.) 16, 279, 495 Эш (Ash В. В.) 359, 372, 383, 488 Эшби (Ashby W. В.) 9, 487 Юпгблад (Youngblood J. Е.) 284, 496 Яглом А. М. 16, 34, 66, 236, 488, 489, 491 Яглом И, М. 34, 66, 150, 157, 236, 489—491 Якобсон (Jacobson Н.) 318, 497 Якобсон (Jakobson В.) 278, 279, 494
АЛФАВИТНЫЙ УКАЗАТЕЛЬ Абсолютная величина числа 65 — — элемента 65 — поля 479 Аденин 322 Азбука Морзе 184 Алгебра Буля 64, 65 — — нормированная 65 — множеств 61 — событий 59, 60 Алгебраическая теория кодиро- вания 422 Алгоритм Евклида 467 Алгоритмический подход к по- нятию количества информа- ции 16 Алфавит 186, 196 Аминокислоты 323 Белковые вещества 323 Бит 70 Блоки Л'-буквенные 216, 410 Буля алгебра 64, 65 — — нормированная 65 Вектор 461, 472 Вектор-строка 461 Вектор-столбец 461 Векторное пространство 411, 472 Вероятностей таблица 22 — теория 18, 65, 66, 67 Вероятность 7, 18, 21, 65 — условная 41 Верхняя граница Варшамова —> Гилберта 406 — — Хэмминга 435 Взаимная информация двух опытов 119 Взаимно независимые случайные величины 39 Взаимно независимые сообще- ния 30 Взаимоисключающие исходы 27 Вопросники 165 Вопросы 165 Вспомогательные опыты 164 Второй дистрибутивный закон 61 Выгодность кода 190 Выпуклая функция 441 Генетическая информация 320, 321 Главный идеал 468 Группа 411, 458 — коммутативная 458 — некоммутативная 458 Гуанин 322 Двоичная дробь 70 — единица 70 — симметричная линия 336, 340 — система счисления 191 Двоичный код 191 Дезоксирибонуклеиновая кис- лота 322 Декодирование 187, 188, 320 — мгновенное 188 — однозначное 187 — последовательное 416 Делитель чпсла 64 Десятичная единица измерения информации 13, 71 Детальность 309 Дискретная геометрия 480 Дисперсия 48, 50—52 Дистрибутивный закон 60, 61 Дит 13, 71 Длина кодового обозначения 193 Доказательство возможности 172
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 507 Доказательство невозможности 172 Дополнение множества 63 Достоверное событие 25 Евклидово кольцо 467 — пространство 477 Единица двоичная 70 — десятичная 71 — измерения степени неопре- деленности 70 Единичный элемент 459 Задача об урне 19, 65 — о фальшивых монетах 146—• 152 Задачи логические 137—140 —на геометрические вероятности 66 Закон больших чисел 14, 58, 59 — исключенного третьего 64 — противоречия 64 — Ципфа 265, 266 Запятая кодовая 187 Игральная кость 17 Идеал 426, 468 — главный 468 Избыточность литературных тек- стов 269—272 — машинописного текста 304, 317 — мелодий 283 — телевизионных изображений 295—300 — языка 245, 250 — — английского 249, 253, 255 ---- иврита 255 ---- немецкого 253 — — русского 245 ----Самоа 254 ----, французского 253 Информации количество 104 — теория 6 Информация 7, 105, 106, 111 — полная 262, 263 — семантическая 16 — смысловая 274—277, 290, 291 — средняя 105, 106 Информация средняя условная 125 — удельная 263 — условная 125 Испытание 17 Исходы 21, 22 — взаимоисключающие 27 — • маловероятные 86 — • невозможные 81 — неравновероятные 176 — практически невозможные 82 Капал связи 10 Квантование 292 Код 184, 189, 396 — без запятой 326 — блоковый 194 — Бодо 184—187 — Боуза—Чоудхури—Хоквин- гема 429 —Боуза — Чоудхури — Хоквин- гема непримптивный 429, 438 — — — — примитивный 429 — вырожденный 328 — генетический 325—327 — Голея 438 — групповой 410 — двоичный 184, 189 — — совершенный Голея 438 — десятичный 232 —. квазисовершенный 439 —. комбинаторный 326 — линейный 410 —. мгновенный 188, 234 —. Морзе 184—187 — ненрерывающийся комбина- торный 326 — однозначно декодируемый 188, 234—236 .— оптимальный 209, 210, 236 — плотноупакованный 436 —' перекрывающийся 326 — порожденный многочленом 423 — равномерный 188, 191 — с исправлением одной ошиб- ки 401 ___ с проверкой на четность 407, 409 — совершенный 436 —. триплетный 327
508 АЛФАВИТНЫЙ УКАЗАТЕЛЬ Код троичный 184, 189 — Фано 201 — Хафмана 13, 206, 207, 229, 236, 330 — Хэмминга 403, 418, 428— 430 — — расширенный 419 — циклический 425 — Шеннона — Фано 13, 201, 229, 330 — т-ичный 197 — (7V, М) 403 Кодирование 164, 184, 320 — случайное 375 — статистических сообщений 199 Кодовая занятая 187 Кодовое обозначение 187 — расстояние 434 Кодон 325 Коды групповые 411 — исправляющие двойные ошибки 420 — линейные 411 — обнаруживающие и исправ- ляющие ошибки 392 — равномерные 185 —• систематические с проверкой на четность 410 Количество информации 104 Кольцо 465 — евклидово 467 — коммутативное 465 Координаты вектора 473 Корень многочлена 429 Корректирующий контрольный сигнал 398 Кость игральная 17 Крафта неравенство 234 Линейное пространство 411 Линия двоичная симметричная 336, 340 —• — несимметричная 347 —• — со стиранием 340 —< zn-ичпая симметричная 339 — связи 10, 11 — — с помехами 331 Логика математическая 64 Логические задачи 137—140 —' ударения 275 Математическая логика 64 Матрица 409, 461 — проверочная 413 Метрическое пространство 478 Мера неопределенности опыта 69 — Хартли 80, 81—83 — Шеннона 80, 81 Метод отгадывания 200, 249, 256, 268, 300 Метрика Ли 479 — Минковского 478 — Хэмминга 479 Многочлен 461 — деления окружности 425 — неприводимый 470 — приводимый 472 Модуль перехода 70 Морфема 265 Наибольший общий делитель 64, 460, 467 Наименьшее общее кратное 64 Насыщенность 309 Невозможное событие 26 Независимые опыты 69, 87 — случайные величины 35, 51 — события 29, 30, 41, 46 Неопределенности степень 68, 69 Неприводимый многочлен 470 Неравенство Варшамова — Гилберта 406, 421 — Иепсепа 446, 449 — — общее 449 — Крафта 234 — Макмиллана 234 — Фано 368, 390, 392 — Хэммипга 405 — Чебышева 55, 57 Несовместимые события 26, 43 Нижняя граница Хэмминга 405, 437 Норма 65 Нормированная алгебра Буля 65 Нулевой элемент группы 459 Обратная теорема о блочном ко- дировании 372 — — о кодировании 14, 362, 371 Обратный элемент 459
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 569 Общее наименьшее кратное 64 Общий наибольший делитель 64, 466, 467 Объединение множеств 61, 124 Одиночные ошибки 397, 399, 400 Определение вероятности 21 Опыт 17, 164 — вспомогательный J64 — простой 122 — сложный 81, 122, 123, 167, 169 Опыты зависимые 89 — независимые 69, 87 Основная теорема о кодировании 13. 211, 230 — — — — при наличии помех 14, 349, 384, 385 Ошибки систематические 47, 54 Пауза 183 Передача информации генети- ческой 320 — — последовательная 123 Пересечение множеств 61 Письменная речь 236 Подгруппа 411, 463 Подпространство 411, 475 Поле 463, 464 — Галуа 471 Полная информация 262 — система равновероятных ис- ходов опыта 67 Полное множесво элементарных событий 67 Помехи 329 Порождающий многочлен 423, 427 Порядок группы 460 — кольца 469 — поля 465 Посылка тока 183 Правило декодирования 414 — сложения вероятностей 27 — — энтропий 88, 92, 133 — умножения вероятностей 29, 42 Предельная энтропия 263 Проверка на четность 406—410 Проверочная матрица кода 413 Прогноз погоды 108 Произведение множеств 61 — случайных величин 34, 38, 39 — событий 28, 29, 59 Пропускная способность 231 — — линии связи с помехами 346 — — при пулевой ошибке 362 Простая реакция 84 Пространство векторное 411 — евклидово 477 Противоположное событие 26 Противоположный элемент 459 Психологическая реакция 84 Психологические эксперименты 114 Пустое множество 61 Равновероятность 20, 21, 69 Размерность 473 Разность 459 Разрешающая способность 293 Расстояние 477 — кодовое 434 — Ли 477 — Хэмминга 434 Растровые элементы 302 Расширенный код Хэмминга 419 Реакция выбора 84 — простая 84 — психологическая 84 — сложная 84 Рибонуклеиновая кислота 320 — — информационная 324 Рибосомы 323 Семантическая информация 16 Сжатие алфавита 206 — двукратное 206 — однократное 207 Сигнал 183, 320 — контрольный 401, 405 — элементарный 184, 320 Система счисления двоичная 191 — — десятичная 191 — . — /и-ичная 192 --- стоичная 195 — • — троичная 197 Систематическая ошибка 47, 54 Скорость передачи сообщения 231, 330, 347, 313—317
510 алфавитный указатель Словарь Торндайка 87, 263 Слово 263 Слог 265 Сложение вероятностей 27 — энтропий 88, 92 Сложная реакция 84 Сложный опыт 81, 122, 167 Случайная величина 23, 54 Случайное событие 22 Случайные величины взаимно независимые 39 — — независимые 35, 51 Случайных величин произведе- ние 34, 38, 39 — — сумма 34, 36, 38 Событие достоверное 25 — невозможное 26 — случайное 22, 65 — практически достоверное 59 — — невозможное 58 •— противоположное 26 Событий произведение 28, 29, 59 — сумма 26, 27, 28, 32, 59 События 65 — взаимно независимые 30 — независимые 29, 30, 41, 46 — несовместимые 26, 43 — совместимые 28 Совместимые события 28 Сообщение 183, 320 Сортировка 164 Спектрограмма фонем 279 Сравнение множеств 62 Среднее арифметическое 53 — — случайных величин 53, 57 — время реакции 84—86, 103, 115—118 — значение 24, 27 — — неопределенности 80 — —' случайной величины 24, 47 — квадратичное уклонение 48 — количество информации 106 — — — в слове 263 — число взвешиваний 179, 182 — — вопросов 174, 175, 180 •— — элементарных сигналов 190, 197—199, 208 Средняя вероятность ошибки 363, 366 — длина кодового обозначения 209 — — фонемы 280, 281 — информация в одном исходе опыта 105, 106, 178 — условная информация 125 — — — двух опытов 125 — — энтропия опыта 91 — частота буквы 238 Статистическая устойчивость 115 Статистические закономерности Степень неопределенности 68—• 70, 83, 84 Сумма множеств 61 — случайных величин 34, 51— 53 — событий 26, 27, 28, 32, 59 Таблица вероятностей 22 Тезарус 16 Теорема о кодировании обрат- ная 348 — — — основная 198, 211, 228, 230 — — — при наличии помех 349, 362, 370, 384„ 335 — — среднем арифметическом и среднем геометрическом 449 — Шеппона о кодировании 392 Теория вероятностей 7, 18, 65, 66, 67 — информации 6 — кодирования 14, 393 — — алгебраическая 422, 423 Тимин 322 Точная передача 348, 361, 362 Удельная информация 263 — энтропия 217, 228 Умножение матриц 481 Урацил 234 Усиленная обратная теорема о кодировании 372 Условная вероятность 41, 90 —. информация 125
АЛФАВИТНЫЙ указатель 511 Условная энтропия 91, 241, 243, 244, 248 Устная речь 273 Ферменты 323 Фонема 277 Формула для числа Сд, 30 — полной вероятности 44 — тройной информации 127 Фототелеграф 301 Хроматизмы 282 Хроматическая гамма 283 Цена вопроса 165 Центроид 447 Центр тяжести 447 Цепочки вероятные 229 — элементарных сигналов 353 Цитозин 322 Цифры числа 191, 192 Частота появления результата 17 Частотный словарь 263 Чебышева неравенство 55, 57 Четность 398—402 Число 461 ,— градаций сигнала 316 Шар Хэмминга 475 Эквивалентные матрицы 481 Экономность кода 190, 198, 212 Экспоненциальная граница ве- роятности ошибки 360 — — ошибки 360 — функция 360 Элементарный сигнал 184 Элементарные преобразования 481 Энтропия 7, 72, 73, 79, 105, 121, 128 — безусловная 101 — комбинаторная 272 — опыта 10, 72 — остаточная 167 — предельная 263 — распределения вероятностей 10 — сложного опыта 89 — средняя условная 91 — удельная 217, 228 — условная 91, 241, 248 ^-арифметика 460 Q (х)-арифметика 499 с-энтропия 114, 292
Акива Моисеевич Яглом, Исаак Моисеевич Яглом ВЕРОЯТНОСТЬ И ИНФОРМАЦИЯ М., 1973 г., 512 стр. с илл. Редакторы: С. 3. Стпамблер, В. В. Абгаряп Техн, редактор К. Ф. Брудно Корректоры: 3. В. Автоиеева, Л. С. Сомова Сдано в набор 18/ХП 1972 г. Подписано к печати 28/V 1973 г. Бумага 84х108«/м. Физ.печ. л. 16. Усл. печ. л. 26,88. Уч.-изд. л. 28,73. Тираж 50 000 экз. Т-08147. Цена книги 1 р. 11 к. Заказ № 1869 Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва В-71, Ленинский проспект, 15 Типография 2 издательства «Наука» Москва Г-99, Шубинский пер., 10