Текст
                    учебно:
инииинн
ДЛЯ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИИ
СПЕЦИАЛЬНОСТЬ
00011111001110010010101
100011110000111100010101’ I
000011010010101100001010
100100001000100111000110<
1110011100100101010011000!
1111000101010111001000000
011011010010011100000111
’100101000111110011100
100011110000111100010
11111010010101100001
010010100011111001110010010
00101110001111000011110001
0010000001101001010110000
10100010010000100010011100
ОСНОВЫ
ЦИФРОВОГО
ТЕЛЕВИДЕНИЯ
Горячаялиния-Твлвком А.В.СМИРНОВ

А.В. СМИРНОВ ОСНОВЫ цифрового ТЕЛЕВИДЕНИЯ Изложены основные принципы построения систем цифрового телевидения. Рассмотрены дискретизация и квантование телевизионных сигналов и существующие стандарты на параметры этих операций. Представлены методы цифровой обработки телевизионных сигналов и изображений. Описаны методы сжатия телевизионных сигналов и сигналов звукового сопровождения по стандартам JPEG, MPEG-1, MPEG-2 и MPEG-4. Даны сведения о помехоустойчивом кодировании в системах цифрового телевидения и об используемых методах передачи сигналов цифрового телевидения по радиоканалам. Рассмотрены особенности Европейского стандарта цифрового телевизионного вещания DVB. Отражены последние тенденции в развитии цифрового телевидения. m 1Г> О
А.В.СМИРНОВ ОСНОВЫ ЦИФРОВОГО ТЕЛЕВИДЕНИЯ Рекомендовано в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности “Радиотехника Москва Горячая линия-Телеком 2001
УДК 621.38 ББК 32.841 С 50 Рецензенты: доктор техн, наук, профессор В.Н. Безруков, доктор техн, наук, профессор В.П. Сизов Смирнов А.В. С50 Основы цифрового телевидения: Учебное пособие. - М.: «Горячая линия-Телеком», 2001. - 224 с.: ил. ISBN 5-93517-059-0 Изложены основные принципы построения систем цифрового телевидения. Рассмотрены дискретизация и квантование телевизионных сигналов и существую- щие стандарты на параметры этих операций. Представлены методы цифровой об- работки телевизионных сигналов и изображений, включая ортогональные преобра- зования, оценку и компенсацию движения, цифровую фильтрацию, кодирование с предсказанием и др. Описаны методы сжатия телевизионных сигналов и сигналов звукового со- провождения по стандартам JPEG, MPEG-1, М PEG-2 и MPEG-4, а также другие ме- тоды сжатия сигналов, используемые в системах прикладного телевидения и видео- связи. Даны сведения о помехоустойчивом кодировании в системах цифрового теле- видения и об используемых методах передачи сигналов цифрового телевидения по радиоканалам. Рассмотрены особенности Европейского стандарта цифрового телеви- зионного вещания DVB. Описано построение приемного устройства для этого стан- дарта. Отражены последние тенденции в развитии цифрового телевидения. Учебное' пособие предназначено для студентов специальности 200700 «Радиотехника», может быть полезно инженерам-радиотехникам. ББК 32.841 ISBN 5-93517-059-0 © Смирнов А.В., 2001
Предисловие Переход к цифровому телевидению дает значительное уве- личение числа телевизионных каналов, повышение качества изо- бражения и звука, расширение функциональных возможностей телевизионных систем. Цифровое телевидение в течение первого десятилетия нового века займет ведущее положение в телевизион- ном вещании развитых стран. В то же время, в отечественной учебной литературе эта отрасль науки и техники пока освещена слабо, и чтобы ознакомиться с ней читатель вынужден искать ин- формацию в журналах и в Интернет, что доступно не всем, и к то- му же качество этой информации не всегда высокое. Настоящее учебное пособие предназначено для студентов специальности "Радиотехника" и других специальностей, изучаю- щих телевидение, и должно служить дополнением для имеющихся учебников по данному предмету, например, прекрасной книги "Телевидение" под редакцией В.Е. Джаконии. Цель, стоявшая пе- ред автором, ознакомить студентов с принципами построения пол- ностью цифровых систем телевидения, созданных в последние годы. Книга может быть полезной также преподавателям вузов, аспирантам и инженерам, желающим получить первое представ- ление о цифровом телевидении и основу для дальнейшего изуче- ния этой области по специальной литературе и стандартам. В данном учебном пособии рассматриваются принципы по- строения и работы наиболее важных частей цифровой телевизион- ной системы. Материал в последующих главах расположен в сле- дующем порядке: В гл.1 сформулировано представление о цифровом телеви- дении кратко изложена история его возникновения и развития В гл. 2 даны основные сведения о преобразовании одномер- ных и двумерных сигналов в цифровую форму, и описаны свойст- ва цифрового телевизионного сигнала. Приведены основные пара- метры цифрового представления телевизионных сигналов в соот- ветствии с Рекомендацией ITU-R ВТ 601 и некоторыми другими стандартами. В гл. 3 приведены рассмотрены некоторые методы цифровой обработки и кодирования сигналов и изображений, используемые 3
в цифровом телевидении. Это дискретное преобразование Фурье и дискретное косинусное преобразование, цифровая фильтрация, кодирование в частотных поддиапазонах и вэйвлет- прсобразование, оценка и компенсация движения, кодирование с предсказанием, векторное квантование. В гл. 4 описаны стандарт кодирования неподвижных изо- бражений JPEG, стандарты кодирования движущихся изображе- ний и звукового сопровождения MPEG-1, MPEG-2 и MPEG-4, а также стандарты кодирования, применяемые в видеосвязи. В гл. 5 рассмотрены методы канального кодирования и мо- дуляции, используемые для передачи сигналов цифрового телеви- дения по каналам связи. В гл. 6 даны сведения о практической реализации цифровых телевизионных систем, а также об элементной базе и о приемной аппаратуре цифрового телевидения. Рассмотрены вопросы взаи- модействия телевидения и компьютерных технологий, а также перспективные направления развития цифрового телевидения. Первые два издания данного учебного пособия вышли в МИРЭА в 1995 и 1999 годах. В настоящем издании в основном сохранена структура предыдущего, но большинство разделов рас- ширены за счет более подробного изложения и введения материа- лов, отражающих развитие цифрового телевидения за последние годы. Введён словарь терминов и сокращений, который одновре- менно выполняет функции предметного указателя. Изложение све- рено с текстами Международных Стандартов и Рекомендаций. Ис- правлены ошибки и неточности, обнаруженные во втором издании. Автор выражает глубокую признательность заведующему кафедрой радиоприборов МИРЭА профессору В.И. Нефедову, ко- торый оказывал всестороннюю поддержку работе над пособием. Автор также благодарит всех друзей и коллег, помогавших ему словом и делом. Особую благодарность автор испытывает к сту- дентам факультета Радиотехнических систем МИРЭА, которые своим интересом к предмету стимулировали работу над новым изданием пособия. 4
1. ЭТАПЫ РАЗВИТИЯ ЦИФРОВОГО ТЕЛЕВИДЕНИЯ Цифровое телевидение - это отрасль телевизионной техни- ки, в которой передача, обработка и хранение телевизионного сиг- нала осуществляются в цифровой форме. Применение методов и средств цифрового телевидения - это новая ступень развития телевизионной техники, обеспечивающая ряд преимуществ по сравнению с аналоговым телевидением: - повышение помехоустойчивости трактов передачи и запи- си телевизионных сигналов; - уменьшение мощности передатчиков ТВ-вещания; - существенное увеличение числа телевизионных программ, передаваемых в том же частотном диапазоне; - повышение качества изображения и звука в телевизионных приемниках с обычным стандартом разложения; - создание телевизионных систем с новыми стандартами разложения изображения (телевидение высокой четкости - ТВЧ); - расширение функциональных возможностей студийной ап- паратуры, используемой при подготовке и проведении телевизи- онных передач; - передача в телевизионном сигнале различной дополни- тельной информации, превращение телевизионного приемника в многофункциональную информационную систему; - создание интерактивных телевизионных систем, при поль- зовании которыми зритель получает возможность воздействовать на передаваемую программу. Эти преимущества обусловлены как самими принципами, присущими цифровому телевидению, так и наличием разнообраз- ных алгоритмов, схемных решений и мощной технологической базы для создания соответствующих устройств. В своем развитии цифровое телевидение прошло ряд этапов. На каждом этапе сначала выполнялись научно-исследовательские и опытно-конструкторские работы, создавались эксперименталь- ные устройства и системы, а затем принимались стандарты, как правило, международные, которые должны выполняться всеми организациями, ведущими телевизионное вещание и выпускаю- щими видеопрограммы, и всеми фирмами-производителями аппа- 5
ратуры. Принятие стандартов - важнейшая составляющая разви- тия любой технологии, в том числе и телевидения. Международные стандарты принимаются в первую очередь Международной организацией по стандартизации (ISO - Interna- tional Organization for Standartization), созданной в 1947 г. Для разра- ботки стандартов в какой-либо области техники ISO создает рабо- чие группы. Пример такой группы - MPEG (Motion Picture Expert Group), занимающаяся стандартами для цифрового телевидения. Члены рабочих групп большую часть времени работают в своих странах и по мере надобности проводят встречи, на которых обсуж- дают и подготавливают к утверждению материалы стандартов. Другая организация, играющая важную роль в стандартиза- ции - Международный Союз Электросвязи (ITU - International Communication Union). Документы, принимаемые ITU, называются Рекомендациями, и могут быть преобразованы в международные стандарты решениями ISO, или в национальные стандарты реше- ниями национальных органов стандартизации. Первый этап развития цифрового телевидения - использова- ние цифровой техники в отдельных частях телевизионной системы при сохранении обычного стандарта разложения и аналоговых ка- налов связи. Наиболее важным достижением данного этапа было создание полностью цифрового студийного оборудования. На со- временных телестудиях сигналы с передающих камер преобразу- ются в цифровую форму, и вся дальнейшая их обработка и хране- ние в пределах телецентра осуществляются цифровыми средства- ми. Это позволяет в значительной степени реализовать указанные выше преимущества цифрового телевидения. На выходе студийно- го оборудования телевизионный сигнал преобразуется в аналого- вую форму и передается по обычным каналам связи. Результаты работы специалистов разных стран были закреп- лены в документе, который называется Рекомендация ITU-R ВТ 601 (ITU-R - International Telecommunication Union, Ra- dio, или в русском переводе - Сектор радиосвязи Международного Союза Электросвязи - МСЭ-Р). Старое название этого стандарта - Рекомендация 601 Международного консультативного комитета по радио (МККР). Данный стандарт был принят в 1982 г. и опре- деляет основные параметры цифровой студийной аппаратуры [1]. Другое направление использования цифровой техники, ха- рактерное для первого этапа развития цифрового телевидения - введение цифровых блоков в телевизионные приемники с целью I повышения качества изображения или расширения функциональ- I ных возможностей. Примерами таких блоков могут служить циф- I ровые фильтры для разделения яркостного и цветоразностных сигналов, для уменьшения влияния шумов на изображение и для I подавления эхо-сигналов, возникающих при отражении радиоволн I от поверхности Земли и различных объектов, то есть при наличии многолучевого приема. Широко известны также устройства для I перехода от чересстрочной развертки к квазипрогрессивной, реа- I лизации функций "стоп-кадр" и "кадр в кадре", декодирования и воспроизведения на экране дополнительной информации, пере- даваемой по системе "Телетекст" и т. д. [1,2]. Все эти усовершенствования не затрагивали стандарт разло- I жения и принципы передачи телевизионного сигнала по каналу I связи. Второй этап развития цифрового телевидения - создание I гибридных аналого-цифровых телевизионных систем с парамет- 1 рами, отличающимися от принятых в обычных стандартах телеви- I дения. Можно выделить два основных направления изменений те- I левизионного стандарта: переход от одновременной передачи яр- I костного и цветоразностных сигналов к последовательной их пе- I редаче и увеличение числа строк в кадре и элементов изображения I в строке. Реализация второго направления связана с необходимо- I стью сжатия спектра телевизионных сигналов для обеспечения I возможности его передачи по каналам связи с приемлемой поло- сой частот. Примерами гибридных телевизионных систем могут слу- жить японская система телевидения высокой четкости MUSE и западноевропейские системы семейства МАС [3]. В передающей и приемной частях всех этих систем сигналы обрабатываются циф- ровыми средствами, а в канале связи сигналы передаются в анало- говой форме. Системы ТВЧ MUSE и HD-МАС имеют формат изо- бражения 16:9, число строк в кадре 1125 и 1250, частоту кадров 130 и 25 Гц, соответственно. С помощью цифрового кодирования исходная полоса частот сигналов этих систем, превышающая 20 МГц, сжимается примерно до 8 МГц. Это позволяет передавать эти сигналы с частотной модуляцией (ЧМ) по спутниковым кана- лам связи, имеющим ширину полосы 27 МГц. В то же время, ши- роко развитая сеть наземного телевизионного вещания, включаю- 6 7
организаций, представлявших близкие по существу проекты, объ- единились в "Grand Alliance" и в дальнейшем представляли еди- ный проект, который и стал основой стандарта полностью цифро- вой телевизионной системы в США. В числе создателей новой системы Массачусетский Технологический Институт, корпорации Zenith, AT&T, General Instruments, американские отделения Philips и Thomson и др. Результаты работ нашли отражение в нескольких стандар- тах. Для сжатия неподвижных изображений широко используется стандарт JPEG (Joint Picture Expert Group) [4]. Методы сжатия движущихся изображений и сигналов звукового сопровождения описаны в стандартах MPEG-1 и MPEG-2 (MPEG - Motion Picture Expert Group). Стандарт MPEG-1, ориентированный в основном на запись кинофильмов и видеопрограмм на компьютерные лазерные диски с возможностью воспроизведения изображения и звука с помощью обычного персонального компьютера, был оконча- тельно утвержден к декабрю 1993 г. [5-7]. Стандарт MPEG-2, предназначенный для систем телевизионного вещания как с обыч- ным стандартом разложения, так и с увеличенным числом строк (ТВЧ), был утвержден в ноябре 1994 г. [8-10]. В настоящее время системы цифрового телевидения, осно- ванные на сжатии телевизионных сигналов по стандарту MPEG-2, быстро распространяются во многих странах. При этом в первую очередь решается задача значительного увеличения количества передаваемых программ телевидения обычного разрешения, так как это дает быстрый коммерческий эффект. В Европе уже в 1993 г., как только стало ясно, что за цифро- выми телевизионными системами будущее, был принят проект DVB (Digital Video Broadcasting - Цифровое Видео Вещание), в работах по которому приняло участие более 130 фирм и научно- исследовательских организаций разных стран [11]. В 1997 г. через искусственные спутники Земли (ПЗС) на европейские страны пе- редавалось 170 каналов цифрового ТВ, а к концу 1998 г. число та- ких каналов превысило 1000. Одновременно распространяются Цифровое телевизионное вещание по кабельным линиям, цифровая видеозапись, цифровые видеодиски. В развитых странах поставлен вопрос о прекращении в пер- вом десятилетии XXI века аналогового телевизионного вещания. щая УКВ-передатчики, кабельную сеть и другую технику, не по- зволяет передавать и принимать сигналы указанных систем теле- , видения, так как рассчитана на ширину полосы частот одного ка- * нала, равную 6...8 МГц. Третьим этапом развития цифрового телевидения можно 1 считать создание полностью цифровых телевизионных систем. После появления в Японии и Европе упомянутых выше сис- | тем телевидения высокого разрешения MUSE и HD-МАС, в США I в 1987 г. был объявлен конкурс на лучший проект системы теле- | видения высокого разрешения для утверждения в качестве нацио- I нального стандарта. В первые годы на этот конкурс были выдви- ] нуты различные аналоговые системы. Система MUSE и другие || системы, предусматривающие передачу только по спутниковым | каналам, вскоре были сняты с рассмотрения. Это объяснялось тем, I что в США около 1400 компаний осуществляют наземное телеви- I зионное вещание, и очень широко развита сеть кабельных линий. I Вся эта инфраструктура рассчитана на ширину полосы частот те- I левизионного канала 6 МГц. Рассматривались проекты аналоговых телевизионных систем I высокого разрешения, в которых по одному стандартному каналу I передается обычный сигнал NTSC, а по другому - дополнитель- I ный сигнал, который в приемнике с соответствующим декодером I позволяет получить изображение с большим количеством строк I и элементов разложения в строке. В то время никто не мог пред- I положить, что уже через несколько лет удастся по стандартному каналу с шириной полосы 6 или 8 МГц передавать сигналы полно- стью цифровой системы телевидения как обычного, так и ТВЧ. Первые предложения по полностью цифровым системам те- левидения появились в 1990 г. В основе этих проектов лежали дос- тижения в методах и технике эффективного кодирования и сжатия изображений. Работы в этой области проводились не только с це- лью создания цифровых телевизионных систем, но и для таких применений, как видеотелефон и видеоконференции, запись ви- деопрограмм на цифровые лазерные компакт-диски, компьютер- ная графика, видеосредства мультимедиа и др. С каждым годом возрастало количество проектов цифровых телевизионных систем и улучшались их характеристики. В начале 1993 г. последние аналоговые системы были сняты с рассмотре- ния. В мае 1993 г. четыре группы компаний и исследовательских 8 9
Главными особенностями нового поколения телевизионных систем являются: 1. Существенное сужение полосы частот цифрового телеви- зионного сигнала, достигаемое с помощью эффективного кодиро- вания, то есть сокращения избыточности изображений, и позво- ляющее передавать 4 и более программ телевидения обычной чет- кости или 1-2 программы ТВЧ по стандартному телевизионному каналу с шириной полосы частот 6...8 МГц. 2. Единый подход к кодированию и передаче телевизионных сигналов с различной четкостью изображения: видеотелефон и другие системы с уменьшенной четкостью, телевидение обыч- ной четкости, ТВЧ. 3. Интеграция с другими видами информации при передаче по цифровым сетям связи. 4. Обеспечение зашиты передаваемых телевизионных про- грамм и другой информации от несанкционированного доступа, что дает возможность создавать системы платного ТВ-вещания. Структурная схема цифровой телевизионной системы пока- зана на рис. 1.1. Кратко рассмотрим назначение основных частей системы. Рис. 1.1. Структурная схема цифровой телевизионной системы 10
Источник аналоговых телевизионных сигналов формирует яркостный сигнал Е\ и цветоразностные сигналы Е R.y, Ев. у, кото- рые поступают на АЦП, где преобразуются в цифровую форму. В следующей части системы, называемой кодером изображения или кодером видео, осуществляется эффективное кодирование ви- деоинформации с целью уменьшения скорости передачи двоичных символов в канале связи. Как будет показано далее, эта операция является одной из наиболее важных, так как без эффективного ко- дирования невозможно обеспечить передачу сигналов цифрового телевидения по стандартным каналам связи. Сигналы звукового сопровождения также преобразуются в цифровую форму. Звуковая информация сжимается в кодере зву- ка. Кодированные данные изображения и звука, а также различная дополнительная информация объединяются в мультиплексоре в единый поток данных. В кодере канала выполняется еще одно кодирование передаваемых данных, имеющее целью повышение помехоустойчивости. Полученным в результате цифровым сигна- лом модулируют несущую используемого канала связи. В приемной части системы осуществляется демодуляция принятого высокочастотного сигнала и декодирование канального кодирования. Затем в демультиплексоре поток данных разделяется на данные изображения, звука и дополнительную информацию. После этого выполняется декодирование данных. В результате на выходе декодера изображения получаются яркостный и цветораз- ностные сигналы в цифровой форме, которые преобразуются в аналоговую форму в ЦАП и подаются на монитор, на экране ко- торого воспроизводится изображение. На выходе декодера звука получаются сигналы звукового сопровождения, также преобра- зуемые в аналоговую форму. Эти сигналы поступают на усилители звуковой частоты и далее на динамики. Помимо систем телевизионного вещания, методы и средства цифрового телевидения являются основой современных систем ви- деосвязи, к которым относятся видеоконференции и видеотелефон. Методы кодирования сигналов в системах видеосвязи описаны ₽ специальных стандартах, таких как Н.261 [12], Н.262 [13], Н.263 [14] и др. в конце 1998 года был принят стандарт MPEG-4, в кото- ром содержатся методы кодирования изображений и звука, обеспе- чивающие передачу видеоинформации со звуковым сопровождени- ем по узкополосным каналам связи [15]. 11
Контрольные вопросы 1. Что такое цифровое телевидение? 2. Какие преимущества может обеспечить цифровое телевидение? 3. Назовите основные этапы развития цифрового телевидения. 4. Какие международные организации утверждают стандарты и рекомен- дации в области телевидения? 5. Что означают аббревиатуры "JPEG" и "MPEG"? 6. Каковы назначения кодера источника и кодера канала в цифровой телевизионной системе? 12
2. цифровой телевизионный сигнал 2.1- Преобразование аналогового телевизионного сигнала в цифровой Цифровой телевизионный сигнал получается из аналогового телевизионного сигнала путем преобразования его в цифровую форму. Это преобразование включает следующие три операции: 1. Дискретизацию во времени, т. е. замену непрерывного аналогового сигнала последовательностью его значений в дис- кретные моменты времени - отсчетов или выборок. 2. Квантование по уровню, заключающееся в округлении значения каждого отсчета до ближайшего уровня квантования. 3. Кодирование (оцифровку), в результате которого значение отсчета представляется в виде числа, соответствующего номеру полученного уровня квантования. Все три операции выполняются в одном узле - аналого- цифровом преобразователе (АЦП). В современной аппаратуре АЦП реализуется в виде одной БИС. На входы АЦП (рис. 2.1,а) подаются аналоговый сигнал u(t) и тактовые импульсы Ст, син- хронизирующие моменты выборок. Выходные сигналы dt...dn об- разуют параллельный «-разрядный двоичный код, представляю- щий получающееся в результате аналого-цифрового преобразова- ния число. Число двоичных разрядов для примера взято равным 4 (рис. 2.1,6). ис. 2.1. Схема включения АЦП (а) и его входные и выходные сигналы (б) 13
Преобразование очередного отсчета начинается по фронту тактового импульса, а результат появляется на выходах АЦП по срезу тактового импульса, поэтому сигналы di...dn изменяются в моменты перехода сигнала Ст из высокого уровня (логическая 1) в низкий (логический 0). ДИСКРЕТИЗАЦИЯ Перейдем к анализу параметров аналого-цифрового преоб- разования. Первым из них является частота дискретизации fa. В соответствии с теоремой Котельникова должно выполняться ус- ловие fa>2fB, где fB - верхняя граничная частота спектра преобра- зуемого в цифровую форму сигнала. Отсюда следует, в частности, что частота дискретизации телевизионного сигнала, используемо- го в нашей стране (f,= 6 МГц), должна быть не менее 12 МГц. Рассмотрим примеры дискретизации сигналов. В результате дискретизации непрерывного синусоидального сигнала (рис. 2.2,а) получается дискретный сигнал, показанный на рис. 2.2,6. Обратное преобразование этого сигнала в непрерывный осуществляется с по- Рис. 2.2. Дискретизация сигнала при выполнении (а-в) и при нарушении (г-е) условий теоремы Котельникова 14
мощью операции, называемой интерполяцией. На рис. 2.2,в пока- зана наиболее простая и часто применяемая ступенчатая интерпо- ляция. В данном примере условия теоремы Котельникова на час- тоту дискретизации выполнены, поэтому дискретный сигнал имеет такую же частоту, как и исходный непрерывный сигнал, но форма его отличается из-за грубой интерполяции. Чтобы полностью вы- полнить условия Котельникова, надо при интерполяции пропус- тить дискретный сигнал через идеальный фильтр низких частот (ФНЧ) с частотой среза, равной половине частоты дискретизации, и тогда интерполированный сигнал не будет иметь искажений формы по сравнению с исходным сигналом. На рис. 2.2,г-е показан пример дискретизации и интерполя- ции в случае нарушения условий теоремы Котельникова. Частота исходного синусоидального сигнала больше, чем половина часто- ты дискретизации. В результате в дискретном сигнале появилась ложная составляющая с частотой более низкой, чем частота ис- ходного непрерывного сигнала. В англоязычной технической ли- тературе это явление называется aliasing (от alias - вымышленное имя). Такое искажение необратимо, так как не может быть устра- нено никаким фильтром. Анализ дискретизации и условий возникновения искажений возможен также с использованием спектрального подхода. На рис. 2.3,а показан спектр дискретизированного сигнала в случае, если fa > 2fB. Спектр исходного сигнала занимает полосу частот от 0 до /в . Модуль комплексного преобразования Фурье сигнала имеет симметричную относительно нуля форму, т. е. за- нимает полосу от -fB до fB. В результате дискретизации в спектре возникают новые составляющие, огибающие которых совпадают по форме с огибающей исходного спектра, а точки, соответствую- щие точке/= 0 в исходном спектре, находятся на частотах/,, 2/(, ... Если условие теоремы Котельникова выполнено, nfB<fa/2, то но- вые составляющие спектра не перекрываются с исходным спек- тром. Поэтому, с помощью идеального ФНЧ, имеющего частоту среза, равную fa/2, можно выделить частотные составляющие ис- ходного сигнала, полностью подавив частотные составляющие, возникшие в результате дискретизации. Это означает, что исход- ный сигнал, передаваемый с использованием дискретизации, мо- рет был, восстановлен без искажений. 15
Рис. 2.3. Спектр дискретизированного сигнала при выполнении (а) и при нарушении (б) условий теоремы Котельникова На рис. 2.3,6 показан спектр дискретизированного сигнал, в случае, когда требования теоремы Котельникова не выполняют ся, т.е. /д<2/в. При этом спектр исходного сигнала и спектр состав ляющих, возникших при дискретизации, перекрываются. Если пы таться выделить исходный сигнал с помощь идеального ФН1 с частотой среза fB или /д/2, то на выходе ФНЧ помимо исходной сигнала окажутся дополнительные составляющие, т.е. возникну искажения исходного сигнала. Чтобы избежать возникновения необратимых искажений npi дискретизации необходимо или выбирать достаточно большую частоту дискретизации, или ограничивать верхнюю граничнув частоту дискретизируемого сигнала так, чтобы условия теорема Котельникова выполнялись. Перейдем к дискретизации телевизионных изображений представляющих собой двумерные сигналы. Телевизионное изо бражение по вертикальной координате уже является дискретные вследствие разложения на строки. Поэтому для получения дву мерной дискретизации достаточно выполнить одномерную дис кретизацию телевизионного сигнала во времени. При дискретизации изображения отсчеты образуют опреда ленную структуру в его плоскости. На рис. 2.4,а показана наиболс широко применяемая ортогональная (прямоугольная) структур отсчетов, а на рис. 2.4,6 - шахматная структура. На рис. 2.4,в,г п<
казаны варианты расположения отсчетов яркостного и цветоразно- стных сигналов при дискретизации цветных телевизионных изо- бражений. Пояснения к этим рисункам будут даны позже. в) ф - отсчёты сигнала яркости - отсчёты цветоразностных сигналов Рис. 2.4. Варианты расположений отсчетов при дискретизации изображения Процесс дискретизации изображения и его последующего воспроизведения иллюстрируется также в виде трехмерных гра- фиков на рис. 2.5, где горизонтальные координаты X и Y соответ- ствуют пространственным координатам в плоскости изображения, а вертикальная координата Z показывает величину яркости в каж- дой точке изображения. На рис. 2.5,а показано исходное аналого- вое (непрерывное) изображение. На рис. 2.5,6 представлен резуль- тат дискретизации этого изображения, причем отсчеты или точки Дискретизации расположены в виде ортогональной решетки. На Рис. 2.5,в показана двумерная функция яркости, получающаяся 17
-0-5 -05 1-. 0-8' 0-6' 04' 0 2- 0, 0 5 Рис 2 5 Дискретизация изображения. Исходное изображение (а), дискретизированное изображение (б) и результат интерполяции (в) 18
при воспроизведении дискретизированного изображения на экране с использованием двумерной ступенчатой интерполяции. Здесь изображение состоит из элементов, называемых пикселами (pixel - picture element). Яркость в пределах любого пиксела приблизи- тельно постоянна и равна яркости исходного изображения в соот- ветствующей точке дискретизации или в более общем случае средней яркости по некоторой площади в пределах пиксела. Раз- меры пикселов должны быть настолько малыми, чтобы зритель при нормальных условиях наблюдения воспринимал воспроизво- димое изображение как непрерывное. Как и в случае одномерного сигнала, можно рассмотреть дискретизацию со спектральной точки зрения. Для этого сначала введем понятия пространственных частот и пространственного спектра для непрерывного изображения. По аналогии с периодом одномерного периодического сиг- нала, являющегося функцией времени, назовем пространственным периодом Тх по координате X пространственный интервал, через который значения двумерного сигнала Ь(х,у) повторяются. Тогда пространственной частотой этого сигнала по координате X будет величина обратная пространственному периоду fx = 1/Тх. Анало- гично вводятся пространственный период и пространственная час- тота по координате Y. Для получения комплексного пространственного спектра изображения применяется двумерное преобразование Фурье S(/„/,)= J (2.1) Обратное двумерное преобразование Фурье позволяет по спектру восстановить исходное изображение Ь(х>У) = 4л1 !! ) (2-2) На рис. 2.6 показан пример двумерной функции координат, имеющей значения пространственных частот/х = 2,fy = 1. 19
Рис. 2.6. Пример двумерной функции координат Низкие пространственные частоты соответствуют медлен- ным изменениям яркости изображения по пространственным ко- ординатам, а высокие пространственные частоты - быстрым изме- нениям яркости, т. е. мелким деталям изображения и резким пере- падам яркости на границах объектов. На рис. 2.7 показан пример- ный вид модуля S(fK,fy) комплексного спектра S(/x,/y) для реально- го изображения, в котором преобладают низкие пространственные частоты. По горизонтальным осям отложены величины отношений пространственных частот к значениям пространственных частот по соответствующим координатам, для которых модуль спектра убывает в е раз по отношению к постоянной составляющей 5(0,0). По вертикальной оси график нормирован по отношению к значе-i нию постоянной составляющей яркости изображения. Преобразование пространственного спектра изображения при двумерной дискретизации показано на рис. 2.8. Пространст-j венный спектр исходного изображения предполагается ограничен-1 ным в плоскости пространственных частот, т. е. вне некоторой! замкнутой кривой все частотные составляющие можно считать равными нулю. Как и в случае дискретизации одномерных сигнай лов, при двумерной дискретизации появляются побочные спектры! сдвинутые относительно исходного спектра по горизонтали и па вертикали на величины пространственных частот дискретизация Уду и/дх, соответственно. 20
Рис. 2.7. Примерный вид пространственного спектра для реальных изображений На рис. 2.8,а показан случай, когда в результате дискретиза- ции побочные спектры не пересекаются с основным. Такой случай достигается при достаточно больших пространственных частотах дискретизации по обеим координатам. В таком случае возможно восстановление исходного изображения по дискретизированному с применением пространственного фильтра, выделяющего спектр исходного изображения из спектра дискретизированного изобра- жения. Это является обобщением теоремы Котельникова на дву- мерные сигналы. Рис. 2.8. Пространственные спектры дискретизированных изображений в случаях выполнения (а) и нарушения (б) условий аналога теоремы Котельникова для двумерных сигналов 21
На рис. 2.8,6 показан случай, когда побочные спектры пере- крываются со спектром исходного изображения, что является следствием недостаточно больших частот дискретизации по про- странственным координатам. В этом случае восстановление ис- ходного изображения по дискретизированному без искажений не- возможно. Конкретный вид искажений в изображении зависит от форм составляющих его объектов и особенностей его пространственного спектра. При наличии в исходном изображении хорошо выражен- ных периодических составляющих искажения могут проявиться в виде появления новых периодических составляющих, часто имеющих вид муара. Пример таких искажений приведен на рис. 2.9 слева. Это изображение получено при дискретизации изобра- жения испытательной телевизионной таблицы. Муар в виде кри- волинейных полос наблюдается на участке таблицы, содержавшем периодическую структуру из тонких линий, предназначенную для визуальной оценки четкости на экране телевизора. Другой распространенный вид искажений, создаваемых дис- кретизацией, показан на рис. 2.9 справа вверху. Если исходное изображение содержит наклонные линии, то в результате дискре- тизации края этих линий становятся зубчатыми. Из рисунка видно, что размеры зубцов зависят от наклона линии. Рис. 2.9. Искажения при дискретизации изображения 22
Искажения, возникающие при дискретизации, часто зависят от положения объекта относительно сетки точек дискретизации (сетки отсчетов), т. е. являются случайными. Этот факт иллюстри- руется рис. 2.9 справа внизу, где показаны искажения тест- объектов различных размеров, постепенно смещаемых относи- тельно сетки отсчетов (сама сетка отсчетов на рисунке не показа- на), причем пространственный период дискретизации меньше раз- меров более крупных квадратиков, но больше размеров меньших квадратиков. Слева показаны исходные изображения тест- объектов, а справа - изображения после дискретизации и интерпо- ляции как на рис. 2.5. Видно, что размеры и формы тест-объектов изменяются в разных случаях по-разному, а для тест-объектов меньших, чем период дискретизации, наблюдается даже пропада- ние одного из квадратиков. Отмеченные виды искажений наблюдаются и при дискрети- зации реальных изображений. На рис. 2.10,а приведено известное тестовое изображение "Лена", содержащее 256x256 элементов (пикселов) с числом градаций яркости 256. Это изображение уже является дискретным, но в том масштабе, который дан на иллюст- рации, дискретность не заметна. Рис. 2.10. Тестовое изображение "Лена" 256x256 пикселов (а) и 128x128 пикселов (б) 23
На рис. 2.10,6 приведено то же тестовое изображение, но с числом пикселов 128x128. На этом изображении можно видеть различные виды искажений, возникающих вследствие дискретиза- ции. На перьях, украшающих шляпку, видны искажения типа муа ра. На контуре плеча и на краях шляпки отчетливо видна зубча- тость. Искажения и пропадание мелких деталей изображения можно видеть на примере ресниц. Чтобы искажений не возникало, необходимо выбирать дос таточно большие пространственные частоты дискретизации по обеим координатам. Однако в телевидении эти пространственные частоты фактически предопределены параметрами, задаваемыми в используемом стандарте разложения, т. е. количеством строк и количеством элементов в каждой строке. Для согласования про- странственного спектра изображения с указанными параметрами во многих случаях приходится ограничивать верхние граничные пространственные частоты изображения перед дискретизацией Эта операция выполняется с помощью специальных оптически? рассеивающих элементов, располагаемых перед ПЗС-матрицей или просто путем небольшой расфокусировки объектива в телеви- зионной камере. Как уже отмечалось, при передаче изображения в цифровой телевизионной системе осуществляется двумерная дискретизация При этом дискретизация по вертикальной координате выполняется уже в оптико-электронном преобразователе путем разложения пе- редаваемого кадра на строки. Эта операция имеется уже в обыч- ном аналоговом телевидении. Дискретизация по горизонтально? координате выполняется путем дискретизации видеосигнала вс времени. Из курса “Основы телевидения” известно, что верхняя гра ничная частота видеосигнала определяется по формуле 2(1-а) где к - формат изображения на экране; т. е. отношение ширинь изображения к его высоте; z — полное число строк в кадре; п - час тота кадров; а и Д - коэффициенты, показывающие доли неактив- ных участков в периодах, соответственно, строчной и кадровое разверток; р - экспериментально определяемый коэффициент^ равный 0,75...0,85. 1 (2.3) 24
Данная формула получена, исходя из условия одинаковой разрешающей способности телевизионной системы по горизонта- ли и по вертикали, что соответствует квадратной форме наимень- ших передаваемых элементов изображения. Поэтому при задании частоты дискретизации телевизионного сигнала по его верхней граничной частоте (обычной, а не пространственной) в соответст- вии с одномерным критерием, даваемым теоремой Котельникова, будет удовлетворяться и двумерное условие отсутствия искажений изображения из-за перекрытия пространственных спектров при дискретизации. КВАНТОВАНИЕ Следующий важнейший параметр аналого-цифрового пре- образования - число уровней квантования NKH, определяемое чис- лом двоичных разрядов АЦП п в соответствии с соотношением Nm = 2 • (2.4) Выбор значения осуществляется так, чтобы влияние квантования на изображение не было заметно для получателя ин- формации. Рассмотрим пример квантования одномерного сигнала. На рис. 2.11 ,а показан дискретный сигнал, содержащий 256 отсчетов (отдельные отсчеты в этом масштабе не различимы), значения уровня сигнала измеряются в Вольтах и изменяются непрерывно, т. е. квантования нет. На рис. 2.11,6 показан тот же сигнал после квантования с числом двоичных разрядов, равным 4, т. е. имею- щий 16 уровней квантования. Шаг квантования й = 0,1. Масштаб шкалы по вертикальной оси координат такой же, как на предыду- щем рисунке. На рис. 2.11,в показаны значения ошибки Ди, вносимой в сигнал операцией квантования. При этом предполагается, что квантование осуществляется путем округления значения сигнала До ближайшего снизу уровня квантования. Величина ошибки квантования Ди изменяется в пределах от 0 до h. Если ввести по- стоянную поправку, равную й/2, то величина Ди будет изменяться в Диапазоне от -/1/2 до /1/2. 25
Рис. 2.11. Сигнал до квантования (а), сигнал после квантования (б), ошибка квантования (в) Ошибка квантования является случайной величиной, поэто- || му ее часто называют шумом квантования. В случае равномерного» распределения вероятностей значений сигнала распределение ве-|1 личины ошибки квантования также равномерное. Дисперсия шумаИ квантования при равномерном квантовании и равновероятныхИ значениях сигнала (СГШ,кв)2 = /г2/12, где (7„, кв - среднее квадратичеИ ское значение напряжения шума квантования. I На изображении шум квантования может проявляться разя личным образом в зависимости от изменений яркости или цвета I данного участка изображения. На участках, состоящих из мелким деталей, квантование приведет к случайным изменениям их яркости! или цвета. На участках изображения с плавным изменением уровня! видеосигнала квантование может привести к возникновению ложД ных контуров по тем линиям, на которых уровень видеосигнала пе|| ресекает границу двух смежных интервалов квантования. I Это явление иллюстрируется рис. 2.12, на котором показан Л плавная функция изменения яркости на каком-то участке изобра|| жения до квантования (рис. 2.12,а) и ступенчатая функция измене» ния яркости после квантования (рис. 2.12,6). Если перепады ярко- сти на ступеньках достаточно большие, т. е. уровней квантования мало, то на изображении возникнут ложные контуры. Заметность ложных контуров существенно уменьшается при случайных сме- щениях значений яркости элементов изображения или положений уровней квантования. Поэтому в некоторых случаях перед кван- тованием в изображение вводится аддитивный шум. Рис. 2.12. Исходное распределение яркости в изображении (а) и распределение яркости после квантования (б) 26 27
На рис. 2.13 приведено тестовое изображение "Лена", про- шедшее квантование с числом уровней равным 8. Ложные конту- ры особенно хорошо заметны на плече и на лице. В то же время на мелкоструктурных частях изображения, например, на перьях шляпки, искажения, создаваемые квантованием, практически не- заметны. Следовательно, мелкие детали, текстуру изображения можно квантовать более грубо, чем участки с плавными измене- ниями яркости. Этот факт используется во многих методах сжатия изображений. Рис. 2.13. Ложные контуры на реальном изображении Равномерное квантование телевизионного сигнала, вообще! говоря, не является наилучшим. Это обусловлено в первую оче}| редь свойствами зрительного аппарата человека. Как известно, по-1 роговое превышение яркости Дв[Юр объекта над фоном, при котсИ ром объект различается наблюдателем, подчиняется в первом npifl ближении закону Вебера-Фехнера I Двпор/В0 = £, (2.5)1 где к = 0,015...0,020; Во - яркость фона. Таким образом, с ростом яркости фона растет и порог Дь’1Юр. Отсюда следует, что в обласи 28 значений телевизионного сигнала, близких к уровню черного, шаг квантования должен быть меньше, чем в области, близкой к уров- ню белого. Однако техническая реализация неравномерного квантова- ния существенно сложнее, чем равномерного. Вместо использова- ния переменного шага квантования обычно выполняют предвари- тельное нелинейное преобразование видеосигнала - гамма- коррекцию. При этом решается одновременно две задачи. Во- первых, корректируется нелинейность передаточной характери- стики кинескопа и обеспечивается оптимальная форма передаточ- ной характеристики всего тракта телевизионной системы "от света до света". Во вторых, уменьшается влияние ошибок квантования при малых уровнях яркости изображения. Передаточная характеристика гамма-корректора описывает- ся соотношением ( Г^вых/ 6/ВЬ[хм. где t/BX и UВВ1х ....---- корректора, соответственно; t/BXH и t/BBlxM - максимальные значения а—в------- " гамма- гамма- гамма- = (2.6) - напряжения сигналов на входе и на выходе гамма- xn-m/vr.-—----- rr -л JJ ------- 7 - ВХМ *-' L- ------ диапазонов напряжений сигналов на входе и на выходе корректора, соответственно; у= 0,42...0,48 - показатель коррекции. График передаточной характеристики корректора для случая у= 0,45 приведен на рис. 2.14. 29
В системах цифрового телевидения, как правило, применя- ется равномерное квантование прошедших гамма-коррекцию сиг- налов с числом двоичных разрядов АЦП п = 8, что дает число уровней квантования NKB = 256. При этих условиях шум квантова- ния на изображении практически незаметен. На выходе АЦП полученный номер уровня квантования представляется в виде двоичного числа, т.е. кодируется (оцифро- вывается). Обычно используется прямой двоичный код. Значения цифрового сигнала представляются числами от 00000000 до 11111111 в порядке нарастания их величины. 2.2. Цифровые телевизионные сигналы согласно Рекомендации ITU-R ВТ 601 Рассмотрим требования Рекомендации ITU-R ВТ 601, опре деляющие единый международный стандарт цифрового кодирова ния телевизионного сигнала для студийной аппаратуры. Это- стандарт применяется и в современных полностью цифровых т левизионных системах при цифровом представлении телевизио! ных сигналов обычной четкости. В данном стандарте предусмо рено раздельное цифровое кодирование яркостного и двух цвет разностных сигналов [1]. ДИСКРЕТИЗАЦИЯ Установлено одно значение частоты дискретизации сигна: яркости, равное 13,5 МГц, для обоих стандартов развертки 25 Гц, 625 строк и 30 Гц, 525 строк. Каждый цветоразностный си нал дискретизируется с вдвое меньшей частотой 6,75 МГц. В соо ветствии с принятыми обозначениями, данный стандарт цифров< го кодирования телевизионных сигналов обозначается 4:2:2. Э1 означает, что частота дискретизации цветоразностных сигнале в два раза меньше, чем частота дискретизации яркостного сигнал определенная на основании теоремы Котельникова, причем в ка: дой строке присутствуют оба цветоразностных сигнала. Взаимн расположение отсчетов яркостного и цветоразностных сигнал' было показано на рис. 2.4,в. Полное число отсчетов яркости в строке равно 864, а чис. отсчетов каждого цветоразностного сигнала - 432. За время акт» 30
ного участка строки формируется 720 отсчетов сигнала яркости и 360 отсчетов каждого цветоразностного сигнала. Эти количества отсчетов являются промежуточными между значениями, необхо- димыми для получения квадратных пикселов в указанных стан- дартах развертки. Таким образом, при разработке Рекомендации 601 был достигнут компромисс. Число активных строк в кадре для стандарта 625 строк равно 576. Полное число передаваемых в каж- дом кадре элементов изображения равно 414720. Предусмотрены и другие форматы преобразования телеви- зионных сигналов в цифровую форму. Например, при использова- нии формата 4:2:0 каждый цветоразностный сигнал имеет частоту дискретизации в 2 раза ниже частоты дискретизации яркостного сигнала и передается в каждой второй строке. Расположение от- счетов яркостного и цветоразностных сигналов в плоскости изо- бражения для этого варианта было показано на рис. 2.4,г. Отсчеты цветоразностных сигналов показаны между строками отсчетов яр- костных сигналов и для каждого из этих сигналов образуют мат- рицу 360x288 элементов. При формате 4:1:1 оба цветоразностных сигнала передаются в каждой строке, но их частоты дискретизации в четыре раза меньше частоты дискретизации сигнала яркости, т. е. равны 3,375 МГц. Число элементов каждого цветоразностного сигнала в кадре в этом случае такое же, как для формата 4:2:0. Наконец, при формате 4:4:4 оба цветоразностных сигнала передаются в каждой строке и дискретизируются с той же часто- той, что и яркостный сигнал. КВАНТОВАНИЕ В Рекомендации 601 для всех сигналов предусмотрено число разрядов квантования п = 8, что дает число уровней квантования NKB = 256. При этом уровню черного сигнала яркости соответству- ет 16-й уровень квантования, а номинальному уровню белого - 235-й уровень квантования. 16 уровней квантования снизу и 20 Уровней квантования сверху образуют резервные зоны на случай выхода значений аналогового сигнала яркости за пределы номи- нального диапазона. Особые назначения имеют 0-й и 255-й уровни квантования. С помощью соответствующих им кодов передаются сигналы синхронизации. 31
Аналого-цифровое преобразование сигнала яркости опись вается соотношением У=219Е'г+16, (2.7) где Е'у — аналоговый сигнал яркости, изменяющийся в диапазоне от 0 до 1 В (штрих, как это принято в технической литературе п телевидению, означает, что сигнал прошел гамма-коррекцию) Y - цифровой сигнал яркости, изменяющийся в диапазоне от 16 до 235. При квантовании цветоразностных сигналов также преду сматриваются резервные зоны - по 16 уровней квантования сверх и снизу. На АЦП поступают не сами цветоразностные сигнал Е R.y, Еb y, а компрессированные цветоразностные сигналы, фор мируемые в соответствии с соотношениями Ecr = 0,713’ Е'к.у, Есв = 0,564- Ев.у, (2.8) причем значения сигналов ECr и Есв изменяются в диапазоне от 0,5 В до 0,5 В. Аналого-цифровые преобразования цветоразностных сиги лов, в результате которых получаются цифровые цветоразностные сигналы Cr и Св, выполняются в соответствии со следующими а отношениями С„ =^24£' +128 = 159,712Е; .. +128 = 160Е; .. +128, Л 1_А ' л—1 I Св = 224Е,'.В +128 = 126,336Е;_ г +128=126^ +128- Так как цветоразностные сигналы являются двуполярным и максимальные отклонения от нулевого значения в положител ную и отрицательную сторону примерно одинаковы, 128-й yd вень квантования должен соответствовать нулевому значени этих сигналов. На рис. 2.15 показано соответствие между уровн ми аналоговых телевизионных сигналов и уровнями квантован! для обычного тестового изображения в виде восьми цветных nj лос. В последние годы все шире применяется квантование ярк стного и цветоразностных сигналов с помощью 10-разряднь АЦП, что дает 1024 уровня квантования. (2.9) (2.10 32
Cr 1,000 ------------------------------- 255(11111111) 1.000 0.941 255(11111111) 240(11110000) 0,502 0.063 0 128(10000000) 16(00010000) 0 (00000000) Рис. 2.15. Соответствие между уровнями аналоговых телевизионных сигналов и уровнями квантования по Рекомендации ITU-R ВТ 601 В состав цифрового телевизионного сигнала согласно Реко- мендации ITU-R ВТ 601 входят синхросигналы. Перед началом активного участка каждой строки в конце строчного гасящего им- пульса передается синхросигнал начала активной строки (ПАС), а после окончания активного участка каждой строки в начале строчного гасящего импульса передается синхросигнал конца ак- тивной строки (КАС). Каждый из синхросигналов НАС и КАС содержит 4 байта. Первый байт состоит из восьми двоичных единиц, что соответст- вУет десятичному числу 255 (в шестнадцатеричной записи FF). Следующие два байта равны 0. Последний четвертый байт содер- жит информацию о том, какое передается поле (четное или нечет- ное), какой именно это синхросигнал, а также обеспечивает защи- 33
ту от ошибок. При использовании 10-разрядного квантования вме- сто числа 255 используется число 1023. Большая часть длительности строчного гасящего импульса между синхросигналами НАС и КАС остается свободной, и во время ее можно передавать различную информацию, например, преобразованные в цифровую форму сигналы звукового сопрово- ждения. ФОРМИРОВАТЕЛИ ЦИФРОВЫХ ТЕЛЕВИЗИОННЫХ СИГНАЛОВ Рассмотрим два варианта структурной схемы формирователя цифрового телевизионного сигнала в соответствии с Рекомендаци- ей ITU-R ВТ 601. В устройстве, показанном на рис. 2.16,а, сигналь основных цветов ER, EG, Ев с источника телевизионных сигналов (телекамеры) вначале поступают на гамма-корректоры (ГК), сформированные в которых сигналы Е'в, E'G, Е'в в кодирующей матрице (КМ) по известным соотношениям преобразуются в сиг нал яркости Е'у и цветоразностные сигналы Е'в.у и Е'в-у. Далее эп сигналы преобразуются в АЦП в цифровые сигналы Y, Св и Св соответственно. На входах АЦП имеются дополнительные анало- говые узлы, выполняющие масштабирование и сдвиг сигнало] в соответствии с (2.8), (2.9) и (2.10). Число разрядов каждого АЦП как правило, равно 8. I Синхроимпульсы развертки источника телевизионных сиг-1 налов поступают на формирователь цифровых синхроимпульсов! (ФЦСИ), вырабатывающий синхросигналы НАС и КАС. Кроме! того, синхроимпульсы используются для синхронизации генерато-1 ра тактовых импульсов (ГТИ), который вырабатывает импульсы! с частотами 27, 13,5 и 6,75 МГц, поступающие на другие узлы уст-1 ройства. ГТИ содержит схему фазовой автоподстройки частоты! (ФАПЧ), с помощью которой обеспечивается требуемое число пе-1 риодов тактовых импульсов за период строчной развертки источ-| ника телевизионных сигналов. I Мультиплексор (MS) в заданной последовательности пере-1 дает на выход цифровые сигналы Y, Св и Св и цифровые синхро!! сигналы. В результате на выходе устройства оказывается сформш! рованным цифровой телевизионный сигнал (ЦТС). I 34
P,lc- 2.16. Варианты структурной схемы формирователя цифрового телевизионного сигнала 35
В другом варианте устройства (рис. 2.16,6) сигналы основ- ных цветов ER, Eg, Ев сразу преобразуются в цифровые сигналы /?,;, Gd, Bd- При этом каждый АЦП должен иметь по меньшей мере 10, а лучше 12 двоичных разрядов. Далее цифровые сигналы Rd, Gd, Bd поступают на цифровые гамма-корректоры (ЦГК), в которых вы- полняются нелинейные преобразования. Число двоичных разрядов прошедших гамма-коррекцию цифровых сигналов R'd, G'd, R'd рав- но 8. Затем сигналы R'd, G'd, B'dB цифровой кодирующей матрицей (ЦКМ) преобразуются в цифровой сигнал яркости Y и цифровые! цветоразностные сигналы СГ{ и Св. Формирование синхросигналов и тактовых импульсов и ра- бота мультиплексора осуществляются аналогично первому вари- анту устройства. Выполнение гамма-коррекции цифровыми сред| ствами обеспечивает более точное задание требуемой функции преобразования, но при этом требуются имеющие больше двоич-1 ных разрядов и, следовательно, более дорогие АЦП. ПАРАЛЛЕЛЬНЫЙ ВИДЕОСТЫК Перейдем к передаче цифрового телевизионного сигнала. Рекомендацией 1TU-R ВТ 656 предусмотрены два варианта интерн фейса для этой цели: параллельный видеостык и последователь- ный видеостык [1 ]. | | Стандарт на параллельный видеостык предусматривает пе- редачу цифрового телевизионного сигнала в виде параллельной цифрового кода, как было показано на рис. 2.1. Для этого требует! ся 8 (или 10) линий связи для параллельной передачи 8 (или 10) двоичных разрядов и еще одна линия для передачи тактовых им- пульсов. Линии связи обычно выполняются в виде витых пар про! водов. Из-за больших потерь и наводок таким способом можн! передавать цифровой телевизионный сигнал внутри блоков и уст» ройств или между устройствами на небольшие расстояния (до 50 м). I Передача значений отсчетов яркостного Y и цветоразност- ных Св, Св сигналов происходит по одним и тем же линиям в сле- дующем порядке: Y, Св, Y, Св, Y, ... . Частота тактовых импульсов при этом равна Д = 13,5 + 6,75 + 6,75 = 27 МГц. Сигналы синхро- низации телевизионной развертки, представляемые, как указыва- лось ранее, кодами 00000000 и 11111111, передаются в общем по- токе данных. 36 Произведение частоты дискретизации /д и числа разрядов квантования п называется скоростью передачи двоичных символов цифрового сигнала - Q [бит/с]. Для цифровой студийной аппара- туры, удовлетворяющей требованиям рассматриваемых Рекомен- даций, получаются следующие значения этого параметра: - для яркостного сигнала: Qy = 13,5 * 8 = 108 Мбит/с; - для цветоразностного сигнала: Qc =6,75 ’8-54 Мбит/с. Суммарная скорость передачи двоичных символов преобра- зованного в цифровую форму полного цветного телевизионного сигнала (ПЦТС) для параллельного видеостыка определяется сле- дующим равенством Qs = Gy + 2(2с = 216 Мбит/с. ПОСЛЕДОВАТЕЛЬНЫЙ ВИДЕОСТЫК Передача цифрового телевизионного сигнала на большие расстояния осуществляется в последовательной форме. В этом случае двоичные разряды или биты каждого элемента изображе- ния передаются один за другим по одной линии, в качестве кото- рой можно использовать коаксиальный или волоконно-оптический кабель. Импульсы тактовой частоты отдельно не передаются. Так- товая частота восстанавливается в приемном устройстве по само- му передаваемому сигналу. Один из простейших способов синхронизации при приеме Цифрового сигнала, передаваемого по последовательному каналу, иллюстрируется структурной схемой, показанной на рис. 2.17 сверху, и временными диаграммами, представленными на том же рисунке снизу (точки структурной схемы и соответствующие им временные диаграммы отмечены одинаковыми буквами). Принимаемый цифровой сигнал (рис. 2.17,а), состоящий из последовательности "единичных" и "нулевых" уровней, поступает на формирователь импульсов, вырабатывающий короткие импуль- сы на каждый положительный и отрицательный перепад напряже- ния в сигнале (рис. 2.17,6). Расширитель импульсов преобразует Короткие импульсы в импульсы, длительность которых равна по- ловине периода тактовой частоты (рис. 2.17,в). Эти импульсы по- купают на узкополосный фильтр, настроенный на тактовую час- тоту. На выходе фильтра выделяется синусоидальный сигнал так- товой частоты (рис. 2.17,г), который затем преобразуется в прямо- 37
угольные импульсы (рис. 2.17,д), используемые для тактирован) принимаемого сигнала. Рис. 2.17. Выделение тактовых импульсов из передаваемого последовательно цифрового сигнала Как видно из временных диаграмм, в случае, если в принт маемом цифровом сигнале подряд идут несколько битов с один* ковыми значениями, импульсы на выходе формирователя отсутст вуют, и выходные тактовые импульсы продолжают формироватьс за счет наличия затухающего гармонического колебания на выход узкополосного фильтра. Это накладывает ограничения на перед) ваемый сигнал, так как передача достаточно длинных последов) тельностей нулей или единиц приведет к прекращению формир< вания тактовых импульсов. Кроме того, в начале передачи цифр< вого сигнала амплитуда колебаний на выходе узкополосног фильтра нарастает постепенно, поэтому имеет место некотор; задержка до появления тактовых импульсов на выходе устройст) синхронизации. Для преодоления указанных трудностей в системах передач цифровых сигналов по последовательным каналам связи выполи ется дополнительное преобразование передаваемых данных, в р зультате которого число передаваемых подряд нулей или едини ограничивается. 38
Рассмотрим построение последовательного видеостыка, со- ответствующего Рекомендации ITU-R ВТ 656. В таком видеостыке оредусмотрена передача каждого 8-разрядного кода отсчета ярко- стного или цветоразностного сигнала с помощью 9-битовой по- сылки. В результате получается скорость передачи двоичных сим- волов 243 Мбит/с. Таким образом, для передачи используется из- быточный код. Это позволяет надежно осуществлять синхрониза- цию и избегать накопления ошибок передачи. Структурная схема последовательного видеостыка приведена на рис. 2.18. сигнал 27 МГц Рис. 2.18. Последовательный видеостык В передающей части из 8-разрядного параллельного кода формируется 9-разрядный параллельный код, который затем пре- образуется в последовательный код. Тактовая частота 243 МГц формируется с помощью ФАПЧ из тактовой частоты 27 МГц па- раллельного видеостыка. В приемной части по принятому сигналу осуществляется восстановление тактовой частоты 243 МГц. Блок синхронизации кодовых слов по синхрослову, содержащемуся в каждой телевизионной строке, определяет начальные моменты параллельных кодовых слов. Преобразователь последовательного кода в параллельный формирует 9-разрядные слова, выдача кото- рых синхронизируется в блоке фазирования тактовой частотой 27 МГц. Наконец, в декодере 9-разрядный параллельный код пре- образуется в 8-разрядный. 39
2.3. Другие стандарты цифровых телевизионных сигналов Рассмотренная выше Рекомендация 601 предназначена для телевизионного вещания. Параметры цифровых телевизионных сигналов для систем компьютерной видеосвязи установлены в Ре- комендации ITU-T Н.263. В табл. 2.1 даны количества элементов изображения в кадре в соответствии с этой Рекомендацией для формата OF (Cominonj Interchange Format) и производных от него форматов QCIF (Quarter Common Interchange Format), SQCIF (sub-Quarter Common Interchange Format), 4CIF, 16CIF. Таблица 2. И Формат Сигнал яркости Цветоразностные сигналы Максимальная скорость передачи, Мбит/с SQCIF 128x96 64x48 2,9 QCIF 176x144 88x72 8,7 ] CIF 352x288 176x144 34,8 4CIF 704x576 352x288 139 16CIF 1408x1152 704x576 557 1 В последнем столбце таблицы даны значения максимально! скорости передачи двоичных символов для каждого формата. При I этом частота передачи кадров принята равной 30 Гц Следует от-1 метить, что в цифровых системах видеосвязи частота передачи I кадров по каналу связи может быть меньше максимального значе-1 ния 30 Гц и, в зависимости от передаваемого сюжета, обычно со-1 ставляет 5... 15 Гц. В то же время частота кадров на экране монито-1 ра будет существенно выше (обычно не менее 60 Гц), так как! в приемной и декодирующей аппаратуре выполняются запомнив ние принятых и декодированных кадров и их многократное вос-1 произведение. Понижение частоты кадров в канале связи даст! пропорциональное уменьшение требуемой скорости передачи! двоичных символов. I При записи кинофильмов и видеопрограмм на компьютер-1 ные компакт-диски со сжатием по стандарту MPEG-1 (см. §4.2)1 используется формат SIF (Source Input Format - входной формат! 40
источника), в соответствии с которым кадр содержит 360x240 или 3^0x288 элементов сигнала яркости, формат дискретизации 4:2:0, частота кадров 30 Гц, развертка прогрессивная. Если в формате glF уменьшить количества элементов по горизонтали и по верти- кали в два раза, получится формат QSIF (180x120 или 180x144 элементов). Особые стандарты на цифровые телевизионные сигналы требуются для систем телевидения высокой четкости. Об одном из таких стандартов пойдет речь в § 6.5. Рассмотренные выше методы цифрового представления цветного телевизионного сигнала называются компонентными (или раздельными), так как яркостный и цветоразностные сигналы преобразуются в цифровую форму раздельно, а затем полученные цифровые сигналы объединяются в единый поток данных. Компо- нентное кодирование хорошо приспособлено для студийной аппа- ратуры, в которой сигнал цветного телевидения разделен на ком- поненты. В некоторых случаях необходимо преобразовывать в цифровую форму полный сигнал одной из систем цветного теле- видения (NTSC, PAL или SECAM). Такой вариант цифрового представления, называемый также композитным кодированием, применяется в некоторых системах цифровой записи телевизион- ных сигналов на магнитный носитель, в цифровых преобразовате- лях телевизионных стандартов и в блоках цифровой обработки сигналов в телевизионных приемниках. Таблица 2.2 Стандарт ТВ-сигнала NTSC (525 строк) PAL (625 строк) Выборок в строке Выборок в активной части строки Структура выборок Частота выборок Скорость передачи двоич- ных символов вровень гашения Уровень белого Уровень черного 910 768 Ортогональная 14,31818 МГц 143 Мбит/с 4 200 60 1135 948 Неортогональная 17,734475 МГц 177 Мбит/с 1 211 64 41
В табл. 2.2 приведены основные параметры преобразования в цифровую форму полных телевизионных сигналов стандартов NTSC и PAL. Квантование сигналов осуществляется на 256 уров- ней (8 бит). В последнее время используется и 10-разрядное кван- тование. Для обоих стандартов частота дискретизации fa = 4/подн, где /подн - частота цветовой поднесущей в данном стандарте. Уровщ гашения, белого и черного в таблице записаны в виде номеров со ответствующих уровней квантования. Необходимость цифровой кодирования фронтов и срезов синхроимпульсов композитной аналогового сигнала приводит к тому, что для диапазона от номи калькой величины черного до номинального белого выделяете примерно на 30% меньше уровней квантования, чем для сигнал в компонентной форме. Следует отметить, что, так как в системе PAL частота цвете вой поднесущей не равна частоте строчной развертки, умножен ной на целое число, то длительность цифровой строки принята н равной длительности аналоговой строки. В результате все строк поля за исключением двух содержат по 1135 отсчетов, а две - п 1137 отсчетов. 2.4. Передача цифровых телевизионных сигналов по каналам связи. Задача сжатия видеоинформации Цифровой телевизионный сигнал в последовательной форм может непосредственно передаваться по каналам связи, предш значенным специально для передачи дискретных сигналов, напр» мер, по широкополосным многоканальным линиям телеграфно связи с временным разделением каналов. В последние годы в< шире используются широкополосные цифровые линии связи. Дт цифрового телевизионного вещания могут использоваться и кан лы связи с модуляцией несущего колебания. Возможность точной передачи цифрового сигнала в перву очередь определяется отношением Сигнал/Помеха (С/П) в канат связи. Возникновение ошибок иллюстрируется на рис. 2.19. 42
*>________I U I________________________I I__________________ Рис. 2.19. Возникновение ошибок в цифровом канале связи Импульсы тактовой частоты (рис. 2.19,а) не передаются и показаны, чтобы можно было судить о положении отдельных битов в передаваемом сигнале (рис. 2.19,6). В первом варианте ка- нала связи отношение С/П равно 6 (рис. 2.19,в). В приемнике об- работка сигнала выполняется пороговым устройством с порогом, расположенным посередине между верхним и нижним уровнями принятого сигнала. В результате обеспечивается безошибочный прием (рис. 2.19,г). Во втором варианте канала связи отношение С/П равно 3 (рис. 2.19,д). В этом случае после пороговой обработки в принятом сигнале имеется много ошибок, имеющих вид ложных переходов с верхнего уровня на нижний и обратно. Из-за этого невозможно обеспечить правильное выделение тактовой частоты из принятого сигнала и правильное определение значений передаваемых двоич- ных символов. Оценим ширину полосы частот цифрового сигнала в после- довательной форме и требуемую для его передачи ширину полосы 'аст°т канала связи. Рассмотрим периодическую последователь- ность прямоугольных импульсов, имеющих период Т — 2Т„. ектр такого сигнала содержит постоянную составляющую, ос- 43
новную гармонику частоты 1/Т и постепенно убывающие нечет- ные гармоники этой частоты. Следовательно, спектр идеального импульсного сигнала неограничен. Если ограничить полосу частот такого сигнала с помощью ФНЧ с достаточно крутым срезом АЧХ, форма импульсов будет искажена (рис. 2.20), так как часть частотных составляющих спек- гра окажется подавленной. Искажения проявятся в виде увеличен ния длительности нарастания и спада импульса и возникновения колебательного переходного процесса. Это будет причиной orprJ ничения допустимой частоты передаваемого импульсного сигнал т. е. ограничения скорости передачи двоичных символов по канат связи. Длительность нарастания импульса tH связана с верхней гр ничной частотой ФНЧ/В соотношением А<=1/(2/в). Если длительность входного импульса меньше 1Н, амплитуд импульса на выходе ФНЧ станет уменьшаться. Этот случай пок зан на рис. 2.20. штриховой линией. При достаточно малой дл тельности импульсов, их амплитуда на выходе канала связи стай сравнимой с уровнем помех, что приведет к ошибкам работы пр: емного устройства. Выбросы и колебательные переходные процессы, возни- кающие при передаче импульсов, также ограничивают частоту 1Г редаваемых по каналу связи импульсов. Если эта частота слишю велика, колебательный переходный процесс, созданный одн1 импульсом, будет накладываться на следующий импульс. Возг кает помеха, называемая интерференционной, которая может п| вести к ошибкам приема. 44
Изложенные причины приводят к известному еще с ранних работ по теории связи условию: по каналу связи с шириной поло- сы пропускания Af можно передавать в виде двухуровневых им- пульсов 2Af бит информации за 1 с. То есть эффективность ис- пользования полосы частот канала связи составляет 2(бит/с)/Гц. Следовательно, для передачи в последовательной форме цифрово- го телевизионного сигнала со скоростью передачи двоичных сим- волов 243 Мбит/с необходим канал связи с шириной полосы час- тот 121,5 МГц. Ясно, что ни стандартный канал наземного телеви- зионного вещания, имеющий ширину полосы 8 МГц, ни спутнико- вый канал связи, имеющий ширину полосы 27 МГц, непригодны для передачи цифрового телевизионного сигнала. Это относится и к цифровым телевизионным сигналам стандартов, применяемых в видеосвязи (см. табл. 2.1) даже при пониженной частоте кадров. А для передачи телевизионных сигналов высокой четкости необ- ходима еще более широкая полоса частот. Поэтому одной из важнейших задач в области цифрового те- левидения была задача сокращения скорости передачи двоичных символов и, соответственно, требуемой полосы частот канала свя- зи. Эта задача может быть решена путем уменьшения избыточно- сти информации, передаваемой в телевизионном сигнале. Умень- шение избыточности обеспечивает также уменьшение требуемого объема ЗУ при записи телевизионных программ или отдельных изображений. В соответствии с установившейся в технической ли- тературе терминологией уменьшение объема передаваемой ин- формации в ряде случаев будем называть сжатием видеоинформа- ции, а также сжатием изображений, сжатием звуковых сигналов, сжатием речи и т.д. Обратную операцию будем называть расшире- нием, хотя это звучит не привычно. В англоязычной литературе используется термин compression, а для обратной операции - decompression. Русское произношение этих терминов компрессия и декомпрессия также используется в ряде случаев в этой книге. Избыточность телевизионного сигнала разделяется на струк- ^Рную, статистическую и психофизиологическую. Структурная избыточность связана с наличием в обычном * левизионном сигнале гасящих импульсов, во время которых ин- - °Рмация об изображении не передается. Структурная избыточ- ,,ocib телевизионного сигнала может быть уменьшена путем пере- 45
дачи во время гасящих импульсов какой-либо полезной информа- цией, например - звукового сопровождения, однако большого вьь игрыша это не дает. Статистическая избыточность вызывается наличием кор-1 реляционных связей между значениями сигнала в соседних эле- ментах одной строки, в соседних строках и в соседних кадрах. Со- кращение статистической избыточности достигается путем устра-1 нения указанных корреляционных связей. Одним из наиболее из-1 вестных методов сокращения статистической избыточности явля| ется кодирование с предсказанием или дифференциальная им- пульсно-кодовая модуляция (ДИКМ), основанная на передач^ приращений значений сигнала. Психофизиологическая избыточность телевизионного сим нала определяется той информацией в нем, которая не восприни! мается человеком и, следовательно, могла бы и не передаваться. Психофизиологическая избыточность сокращается за счет удале ния из передаваемого сигнала информации, отсутствие которой и влияет существенно на восприятие изображения человеком. Примером метода сокращения психофизиологической избы точности может служить способ кодирования Кретцмсра, в cool ветствии с которым при передаче крупных деталей изображены количество градаций яркости увеличивается, а при передаче ме; ких деталей - уменьшается. Этот способ основан на использовани обратно пропорциональной зависимости между геометрическим градационным разрешением зрительного аппарата человека. П[ восприятии мелких деталей ухудшается различие градаций ярко сти. В других методах используется ухудшение геометрическое и градационного разрешения зрения при наблюдении движущих» объектов. Общая основа всех этих методов - ограниченность про- пускной способности зрения как системы передачи и обработка информации. I Применение различных способов сжатия информации, за ключенной в телевизионном изображении, позволяет не тольм передавать цифровой телевизионный сигнал обычной четкости стандартным каналам телевизионного вещания, но и добить возможности передачи по этим каналам одновременно нсскольк программ телевидения обычной четкости, сигналов новых сист телевидения высокой четкости, а также передачи цифровых те; визионных сигналов по каналам связи с более узкой полосой ч! 46
тоТ чем стандартные вещательные каналы. Соотношение потоков ^формации и требуемых значений ширины полосы пропускания каналов связи иллюстрируется рис. 2.21. сигнал Рис. 2.21. Требования к каналам связи в системе цифрового телевидения Методы сжатия изображений можно разделить на два клас- са: методы сжатия без потерь информации и методы сжатия с частичной потерей информации. При сжатии без потерь после декодирования получается изображение, идентичное исходному. Примерами таких методов могут служить различные алгоритмы архивирования изображений, применяемые в вычислительной тех- нике и основанные на уменьшении статистической избыточности. Возможности сжатия реальных цветных или полутоновых черно- белых изображений без потерь весьма ограничены. Так путем пре- образования записанного в компьютере изображения в формат GIF, являющийся одним из наиболее компактных и эффективных, объем информации сокращается в среднем в 2—3 раза, что явно недостаточно для решения задач, стоящих в области цифрового телевидения. Гораздо большего эффекта позволяют достичь методы сжа- тия с частичной потерей информации. Как будет показано далее, с помощью метода JPEG можно уменьшить объем информации ре- ального неподвижного изображения в 5-10 раз без заметного Ухудшения визуально воспринимаемого качества декодированных изображений. Возможно и еще большее сжатие, но при этом уже начинают наблюдаться заметные искажения изображения. Полу- гение минимального объема передаваемой или запоминаемой ин- формации при сохранении достаточно высокого качества изобра- жения является одной из главных задач при поиске новых алго- г 11Гм°в сжатия. 47
Контрольные вопросы 1. Что такое дискретизация и интерполяция? 2. В чем проявляются искажения одномерного сигнала, создаваемые дис- кретизацией, в случае нарушений условий теоремы Котельникова? 3. Что такое пространственная частота? В каких единицах она измеряется (в случае непрерывных изображений)? 4. Как преобразуется пространственный спектр непрерывного изображя ния при дискретизации в случаях выполнения и нарушения условий дву. мерного аналога теоремы Котельникова? 5. Укажите основные виды искажений изображения, создаваемых дис- кретизацией. 6. Что такое квантование? 7. Почему ошибка квантования является случайной? Каков характер рас- пределения этой случайной величины? 8. Зачем перед квантованием выполняют гамма-коррекцию телевизиои ных сигналов? 9. Что является входным и выходными сигналами АЦП? I 10. Что означают записи "4:2:2" и "4:2:0", характеризующая формат дис-1 кретизации телевизионных сигналов? I 11. Как производится квантование яркостного и цветоразностных сипЯ лов соответствии с Рекомендацией 601? I 12. Как передаются синхроимпульсы в цифровом телевизионном cuniajll по Рекомендации 601? II 13. Что такое 'параллельный видеостык? II 14. Вычислите скорость передачи двоичных символов для цифровых т»1 левизионных сигналов при различных форматах дискретизации. I 15. Что такое последовательный видеостык? I 16. Чем различаются стандарты CIF и SIF? I 17. Что такое психофизиологическая избыточность телевизионного и»| бражения? I 48
з НЕКОТОРЫЕ МЕТОДЫ ЦИФРОВОЙ ОБРАБОТКИ И КОДИРОВАНИЯ ТЕЛЕВИЗИОННЫХ СИГНАЛОВ И ИЗОБРАЖЕНИЙ 3.1. Дискретное преобразование Фурье и дискретное ко- синусное преобразование Одними из наиболее распространенных средств обработки как одномерных, так и многомерных сигналов, в том числе и изо- бражений, являются ортогональные преобразования. Особенно велика роль ортогональных преобразований в решении задачи уменьшения скорости передачи двоичных символов в цифровом телевидении и, следовательно, уменьшении требуемой полосы частот каналов связи. Сущность ортогональных преобразований заключается в представлении исходного сигнала в виде суммы ор- тогональных базисных функций. Напомним, что функции х(1) и у(г) называются ортогональ- ными на отрезке (tb Г2), если их скалярное произведение равно нулю '2 fx(t)y(t)dt = 0. (3.1) 'i Это определение может быть распространено на дискретные сигналы, представляемые последовательностями чисел. Дискрет- ные сигналы х(н) и у(п), имеющие по N отсчетов, называются ор- тогональными, если выполняется условие JV-1 = 0. (3.2) л=0 Одним из наиболее известных примеров применения орто- гонального преобразования является разложение периодического сигнала х(г) в ряд Фурье л(О=у«о+Х^ coskco0t+bk sinkco0t), (33) 2 *=I Где ГА _ ш0--~Т-период повторения сигнала х(/). 49
Действительные коэффициенты ряда Фурье ак, Ьк определя- ются соотношениями 2 772 а0 = — -772 Т/2 ак-~ x(t) coskco^tdt , —т/2 (3.4) Т/2 bk=-^ Jx(/)sin ka>otdt . -TI2 В комплексной форме разложение в ряд Фурье имеет вид: х(/) = £САеЛсм, (3’5 где 1 Т/2 '/г Сk=-±~ I x(t}c~J dt — комплексные аплитуды гармоник; I ‘ -Т/2 j - мнимая единица. В ряд Фурье может быть разложен не только периодически! сигнал, имеющий период Т, но и сигнал, отличный от 0 только на интервале времени (-772, Т/2). В этом случае используется периЛ дическое продолжение сигнала на всю ось времени с периодом Т. | Рассмотрим дискретный сигнал х(п), отличный от 0 при /г = 0,1, ..., N-1. Для такого сигнала также можно ввести разложи ние по базису синусоидальных функций. Так как частотный спектр дискретизируемого сигнала должен быть ограничен сверху в coots ветствии с условием теоремы Котельникова, в разложении див кретного сигнала остается конечное число частотных составляя! щих, представляющих собой дискретные комплексные гармоничв ские функции. Такое разложение, называемое дискретным преобразованием Фурье (ДПФ), имеет вид ’ п = (31 ’ 7V k=0 где коэффициенты ДПФ Х(А') определяются соотношением II 50
Ш) = * = O.1- W-1. (3.7) ’ и=0 Следует отметить, что нахождение коэффициентов Х(к) по (3 7) обычно называют прямым ДПФ, а получение сигнала по этим коэффициентам в соответствии с (3.6) - обратным ДПФ. В этих соотношениях вместо интегралов появились суммы, так как исходный сигнал не непрерывный, а дискретный. Частоте k(t)o, используемой в разложении аналоговых сигналов и имеющей размерность рад/с, в ДПФ соответствует безразмерная величина ^лк А -----, где к = O.1..JV-1. Отношение показывает, какую часть частоты дискретизации составляет частота данной дискретной гармоники. На рис. 3.1 показаны действительные (слева) и мнимые (справа) составляющие дискретных гармонических функций для N= 16 и разных значений к : а) к= 1; б) £ = 5; в) к =8; г) к = 12. В последнем случае частота дискретной гармонической функции превышает половину частоты дискретизации (k/N = 3/4), и реаль- ная частота действительной и мнимой составляющих этой функ- ции па временных диаграммах оказывается такой же, как для к = 4. 6) MtfjV Рис. 3.1. Дискретные гармонические функции 51
Рассмотрим пример ДПФ одномерного сигнала. На рис. 3.2,а показан отрезок дискретного сигнала, содержащий N = 256 отсче- ' тов (отдельные отсчеты в масштабе рисунка неразличимы). Этот' сигнал представляет собой сумму синусоидальных сигналов с дис-1 кретными частотами Д = 0,0625 (к - 16), Д = 0,0664 (£=17) J Д = 0,1680 (£-43) и некоррелированного шума с гауссовым рас- пределением значений. На рис. 3.2,6 показан график значений мо- дулей коэффициентов ДПФ этого сигнала. По горизонтальной осц отложены значения частоты, выраженные в долях частоты дискре! тизации. Значение Д= 0,5 соответствует к = 128. Рис. 3.2. Дискретный сигнал (а) и модуль его ДПФ (б) Составляющие с близкими частотами Д иД на графике сл! ваются в один пик. Шум дает равномерное распределение по всея частотам. Как видно из рисунка, график значений модулей коэффицц ентов ДПФ симметричен относительно значения частоты f- 0,3 Поэтому для того, чтобы получить полную информацию о моду| лях коэффициентов ДПФ, достаточно взять первые N/2 этих коэся фициентов. Однако для точного восстановления сигнала с помЛ щью обратного ДПФ необходимы все /V коэффициентов, чтобы учесть фазы всех гармоник. Коэффициенты ДПФ Х(£) и экспоненциальные множители в (3.6), (3.7) являются комплексными числами. Каждое комплекс! ное число запоминается в цифровом ЗУ в виде пары действителя ных чисел, представляющих его действительную и мнимую частя Сложение двух комплексных чисел требует выполнения двух oni 52
пяций сложения действительных чисел - отдельно складываются действительные и мнимые части. Умножение двух комплексных чисел требует выполнения четырех операций умножения и двух операций сложения действительных чисел. Таким образом, вы- полнение ДПФ в комплексной форме приводит к существенному увеличению необходимого объема ЗУ и времени вычислений. Чтобы иметь дело только с действительными числами, обычно используют разложение с помощью дискретного косинус- ного преобразования (ДКП), описываемого соотношением [1] (2n + li^\ (3.8) где коэффициенты ДКП определяются по формулам С(О) = -^=^х(п), y2N п=о . /Туг'гч f2« + l J Jt=l.JV-l. С(к)= —- >,x(h)cos -------K7l\ , V7V I 2N Г Как и в случае ДПФ, нахождение коэффициентов С(к) по (3.9) называется прямым ДКП, а представление сигнала в виде (3.8) называется обратным ДКП. Аналогично можно записать соотношения для прямого и об- ратного ДПФ и ДКП в двумерном случае. Двумерный дискретный сигнал, например, отдельный кадр цифрового телевизионного сиг- нала, представляется матрицей значений х(т,п), где т = 0 ... М-1 - номер отсчета в строке, п = 0А-1 - номер строки в кадре. Прямое двумерное ДПФ имеет вид Х(М = 1 4mn ^^х(т,д) Л 2=0 Л-0 (3.10) к = 0... М-1,/ = 0... А-1, гДе Х(к,Г) - комплексные коэффициенты ДПФ, отображающие пРосщранственно-частотный спектр изображения. Обратное двумерное ДПФ представляет разложение изобра- жения по базисным функциям A-(m,«)=-7_£^X(A-,/)el"j • (3.11) у MN /=o 53
A/-12V-I 2п +1 Л -----я/ , 2W J Г 2т +1 А ------71 к со; V 2М J (2н + 1 > -----я/ , k 2N J (2т+1 А к 2М J (3.12) 2т+ 1 ,) ----л к со 2М J (3.13)( Коэффициенты двумерного прямого ДКП определяются по формулам 2 С(к,1) = -= \MN т=о л=о ' I M-lN-t / С(0,1) = —= У £ х(т, ”)cod \MN щ=оп=о \ -j М- IN— I С(А,0) = . — У У х(т, п) cos у/MN т=0л=0 . W-1W-1 С(0,0) = -=^£х(т,п). 2^1 MN ni=ow=o Обратное двумерное ДКП имеет вид: j A/-1W-I х(т, п) = -----У У С(к, Г) со \MN *=о z=o к I Величины и являются дискретными пространспЛ венными частотами, по горизонтальной и вертикальной коорди- натам, соответственно, которые выражаются безразмерными вели чинами, имеющими такой же смысл, как и дискретная частота I одномерном случае. Каждая дискретная пространственная частот! пропорциональна отношению пространственного периода дискрв тизации по данной координате к пространственному периоду это! частотной составляющей. Пространственные периоды при это! измеряются в единицах расстояния. На рис. 3.3 показаны в виде полутоновых картинок базисньи функции двумерного ДКП для М = 8, N = 8. Светлые участки соот- ветствуют положительным значениям, а темные - отрицательным Показаны примеры: а)Л= 1,/ = О;б)Л = О,/= 1;в)Л=1,/=1; г) к = О, I = 2; д) к = 1,1 = 2; е) к = 2,1 = 2; ж) к = 4,1 = 2; з) к = 7,1 = 1; и) к = 7,1 = 7. 54
Рис. 3.3. Некоторые базисные функции двумерного ДКП блока 8x8 элементов изображения Следует иметь в виду, что в различных литературных источ- никах запись соотношений для ДПФ и ДКП может быть различ- ной. В соотношениях (3.6)-(3.13) нормирующие множители вида -т= или J введены и в прямое, и в обратное преобразования. ™ Jmn В то же время в (3.3)-(3.5) нормирующий множитель имеется только в выражениях для прямого преобразования, как обычно Делается в справочниках по высшей математике. В технической Ли|ературс встречаются оба варианта записи для ДПФ и ДКП. 55
Оценим количество операций, необходимых для вычисление ДПФ в соответствии с (3.7). Для этого преобразуем (3.7), выдели в нем операции над действительными и мнимыми частями чисел (3.14) \пк где к = 0,1,N-l; V^n =е [n) . При этом учитывается, что значения сигнала х(п) являются действительными числами. Из (3.14) видно, что для вычисления одного значения Х(к) необходимо выполнить приблизительно 2А умножений и (2N-2) сложений действительных чисел. Для вычисления всех N значений Х(к) надо выполнить 2N' умножений и N(2N-2) сложений действии тельных чисел Кр°ме того, требуется ЗУ для хранения значений х(н), Х(к) и . Выполнение обратного ДПФ потребует в два раза больше операций, так как значения Х(к) являются комплексными числами и число слагаемых увеличится вдвое. В целом можно оценить затраты вычислительных ресурсов при выполнении прямого и обратного ДПФ, как пропорционали ные N2. Аналогично можно показать, что вычисление двумерны! прямого и обратного ДПФ требует выполнения количества опер» ций, пропорционального У2 М2. Например, вычисление ДПФ для квадратного блока изобрм жения, содержащего 8x8 элементов (пикселов), потребует выпои нения примерно 16103 операций умножения и сложения. А вычив ление ДПФ черно-белого телевизионного кадра обычного стандаш та разложения, содержащего 720x576 пикселов, потребует выполнения около 8’10" операций. Если вычисления производят^ на компьютере, выполняющим 106 операций над действительными числами в секунду, время вычисления ДПФ составит 8’105 с ил| более 200 ч. Очевидно, что для вычисления ДПФ телевизионнЛ изображений в реальном времени, т. е. за период кадровой рая вертки, необходимо искать пути сокращения количества требу! мых операций. 56
Наиболее радикальный способ уменьшения объема вычис- лений заключается в применении открытых в 60-е годы быстрых алгоритмов ДПФ, называемых алгоритмами быстрого преобразо- вания Фурье (БПФ). Подход основан на использовании периодич- .(2л) -Л — nt ности экспоненциальных функций типа W^" = е А и их симметрии относительно перестановки множителей п, к . В наибо- лее простом случае, когда А = 2', где г - натуральное число, вы- числение значения Х(А) одномерного ДПФ разбивается на г шагов. На первом шаге отсчеты исходного сигнала x(ji) разбиваются на пары и для каждой пары вычисляются коэффициенты ДПФ при А= 2. На втором шаге по результатам первого шага находят коэф- фициенты ДПФ с N = 4 для групп по четыре элемента и т.д. Ана- логично выполняется вычисление обратного ДПФ. На каждом шаге необходимо N комплексных сложений и N комплексных умножений. Число же шагов равно log2A Таким об- разом, число операций, которые необходимо выполнить для вы- числения прямого или обратного ДПФ, оказывается пропорцио- нальным N log2 N. Подробно быстрые алгоритмы вычисления ДПФ описаны во многих литературных источниках, например, в [1]. Двумерное БПФ может быть разложено па последователь- ность одномерных. Число требуемых операций оказывается про- порциональным NM log2(AA7). Для приведенного выше примера телевизионного кадра, состоящего из 720x576 пикселов, это зна- чение оказывается равным примерно 8’106 , что в 105 раз меньше, чем число операций, требуемое для непосредственного вычисле- ния ДПФ. Существуют также быстрые алгоритмы вычисления ДКП. Как будет видно из дальнейшего, в цифровом телевидении глав- ную роль играет ДКП блоков 8x8 пикселов, при выполнении кото- рого используется алгоритм быстрого вычисления одномерного ДК11 отрезка цифрового сигнала, содержащего восемь элементов. При этом сначала вычисляются ДКП для каждого столбца блока элементов изображения, а затем в полученной матрице 8x8 чисел начисляются ДКП для каждой строки. В современной аппаратуре, в том числе и для цифрового те- левидения, ДПФ и ДКП как правило, выполняются в реальном 57
времени с применением цифровых процессоров обработки сигна- лов (ЦПОС) или специальных аппаратных средств, например, па- раллельных вычислительных устройств. ДКП лежит в основе наиболее широко используемых в на- стоящее время методов кодирования JPEG, MPEG-1, MPEG-2 описание которых будет дано в гл. 4. 3.2. Цифровая фильтрация Цифровая фильтрация - один из важнейших методов обра ботки одномерных и многомерных цифровых сигналов. С помо щью цифровой фильтрации в телевидении решаются задачу уменьшения влияния шумов и помех, разделения сигналов яркосп и цветности, повышения субъективного качества изображения ] т. д. При этом используется как одномерная фильтрация, при ко- торой обрабатывается телевизионный сигнал, так и двумерна; (пространственная) фильтрация. В одномерном случае цифровая фильтрация заключаете! в преобразовании последовательности отсчетов x(i) входного сип нала в последовательность отсчетов y(i) выходного сигнала по од щей формуле y(i) = aox(i) + aix(i-l) +... + ат x(i-m) + biy(i-l) + ... + b„y(i-n). (3 151 Значения т и п могут быть любыми натуральными числам! а коэффициенты oj, by могут быть любыми действительными чи| лами - как положительными так и отрицательными. Часть эти коэффициентов может быть равна нулю. Если хотя бы один из коэффициентов by не равен нулю, циф- ровой фильтр называется рекурсивным, так как на текущее значе ние выходного сигнала влияют не только значения входного сия нала, но и более ранние значения выходного сигнала. Таки фильтры называют еще фильтрами с бесконечной импульсной ха- рактеристикой (БИХ-фильтрами), так как они “помнят” все преды- дущие значения входного и выходного сигналов. Если же все ко- эффициенты by = 0, цифровой фильтр называется нерекурсивны! или фильтром с конечной импульсной характеристикой (КИл фильтром). На рис. 3.4 показана структурная схема цифрового фильтр! имеющего как рекурсивную, так и нерекурсивную части. Блоки 3 58
выполняют задержку сигнала на один отсчет. Возможны и другие варианты структуры фильтра с таким же набором коэффициентов. Рис. 3.4. Структурная схема цифрового фильтра Цифровые фильтры, действие которых описывается форму- лой (3.15), являются линейными системами для цифровых сигна- лов, поскольку выполняется принцип суперпозиции. Поэтому по аналогии с аналоговыми фильтрами действие цифрового фильтра на сигнал можно описать комплексной частотной характеристикой Н(/ш). Если исходный аналоговый сигнал представляется в виде комплексной синусоиды eJM, то получающийся из него при дис- кретизации цифровой сигнал будет иметь вид комплексной после- довательности х(и) = eJ’ шпТу Где Т - период следования отсчетов, т. е. период дискретизации, n = 0, 1, 2,.... Сигнал на выходе циф- рового фильтра в этом случае будет иметь вид у(п) = х(п) Н(/со). Число уровней квантования при таком подходе к анализу Цифровых фильтров считается настолько большим, что ошибкой квантования можно пренебречь. Как и в случае аналоговых фильтров, модуль функции Н(/то) ~ Функция Н(а)) - называется амплитудно-частотной характери- стикой (АЧХ) цифрового фильтра, показывающей, как изменяется амплитуда синусоидальной последовательности отсчетов при про- хождении через цифровой фильтр. При частотном анализе цифро- 111,1 х фильтров следует учитывать, что должно выполняться усло- вие а) < вытекающее из теоремы Котельникова. 59
Рассмотрим несколько примеров АЧХ цифровых фильтров (рис. 3.5). По горизонтали отложена частота сигнала, выраженная в долях частоты дискретизации и изменяющаяся от 0 до 0,5. На рис. 3.5,а представлена АЧХ нерекурсивного ФНЧ, у которого Gq ~ G\ — G2 — Gy — Gq — 1, а все остальные коэффициенты равны нулю. Такой фильтр выпол- няет сглаживание путем усреднения в "скользящем" окне разме ром пять отсчетов сигнала. Характеристика этого ФНЧ далека oi идеальной. Рис. 3.5. АЧХ нерекурсивного ФНЧ (а), рекурсивного ФНЧ (б) и рекурсивного режекторного фильтра (в) На рис. 3.5,6 представлена АЧХ рекурсивного ФНЧ Батта ворта четвертого порядка. Такой фильтр представляет собой п< следовательное соединение двух рекурсивных фильтров второго порядка, структурная схема каждого из которых соответствуя рис. 3.4. Первый из этих фильтров имеет коэффициенты а0 = 0,0722; а{ = 0,1444; а2 = 0,0722; bi = 0,9699; b2 = -0,258?] 60
Второй фильтр имеет коэффициенты а0 = 0,0922; д, = 0,1845; аг = 0,0922; Ь{ = 1,2388; Ь2 = -0,6078. Остальные коэффициенты обоих фильтров равны нулю. дЧХ полученного фильтра четвертого порядка имеет частоту сре- за равную 0,1 частоты дискретизации. Повышение порядка фильтра дает возможность увеличивать крутизну среза АЧХ. На рис. 3.5,в представлена АЧХ рекурсивного рсжекторного фильтра второго порядка, имеющего коэффициенты до = 0,9243; «, = 0,1165; д2 = 0,9243; Ь{ = -0,1165; Ь2 = -0,8487. Этот фильтр имеет частоту режекции, равную 0,27 частоты дискретизации, и добротность, равную 10. Рассмотренные цифровые фильтры являются одномерными, так как отсчеты входного и выходного сигналов образуют одно- мерные последовательности. В цифровой обработке изображений большую роль играют двумерные (или пространственные) фильт- ры. При выполнении пространственной фильтрации выполняется операция свертки входного изображения, представленного в виде матрицы элементов, с матрицей двумерного фильтра. Пусть x(ij) - исходное изображение, y(ij) - изображение, получающееся в результате фильтрации, а(т,п) - матрица, задаю- щая двумерный фильтр и имеющая размеры М по горизонтали и N по вертикали, причем М и N должны быть нечетными числами. Действие двумерного нерекурсивного фильтра может быть описа- но следующей формулой М-1М-1 У(Лу) = + т- (М -1) / 2, j + n-(N -1) /2], т=0 и=0 где i - номер строки; j - номер элемента в строке. Как видно из этой формулы, каждый элемент выходного изображения представляется суммой элементов входного изобра- жения, умноженных на заданные в матрице фильтра коэффициен- ты. Число учитываемых соседних элементов входного изображе- ния определяется размером матрицы фильтра. Простейшие двумерные фильтры имеют матрицу 3x3. Ниже приведено несколько примеров фильтров такого типа. а) 0,1 0,1 о,Г 0,1 0,2 0,1 0,1 0,1 0,1 б) -2 -2 1 ' 5 -2 ( I -2 в) -2 4 1 -2 1 ' -2 I (1 1 61
Пространственно-частотная характеристика (двумерный аналог АЧХ) для таких фильтров в случае, когда матрица фильтра] симметрична как относительно среднего столбца и средней стро- ки, так и относительно обеих главных диагоналей, рассчитывается по формуле а0 + 2aj(cos^i + cosv) + 2a2[cosCu+v) + cos(/z -v)], J (3-17) где a0 - число в центральной ячейке матрицы фильтра; СЦ - числа в средних ячейках верхней и нижней строк и боковых столбцов, а21 числа в угловых ячейках. Кроме того, H = 17lfx, v = 2nfy, где/х и/у - пространственные частоты по координатам х и у. Первый фильтр (а) является фильтром низких прострапст венных частот. Значение яркости каждого элемента выходного , изображения определяется путем усреднения значений яркости ближайших к нему соседних элементов исходного изображения. Сумма всех коэффициентов матрицы равна 1, что необходимо для сохранения среднего значения яркости изображения при фильтра- ции. Пространственно-частотная характеристика этого фильтра показана на рис. 3.6,а. Пространственные частоты/х и/у измеряют- ся в долях пространственной частоты дискретизации (т. е. величи- ны, обратной расстоянию между соседними отсчетами) по сооя ветствующей координате, и каждая из них изменяется в диапазоне от 0 до 0,5. Такой фильтр уменьшает заметность шума на изображении, но при этом сглаживаются резкие перепады яркости, ухудшается передача границ объектов, могут пропадать мелкие детали изо- бражения. Действие фильтра нижних пространственных частот на тестовое изображение "Лена" показано на рис. 3.7,а (исходное изо- бражение можно видеть на рис. 2.10,а). Второй фильтр (б) является фильтром высоких пространст- венных частот. Значения соседних элементов вычитаются из ней- трального элемента изображения. Сумма всех коэффициентов рав- на 1. В результате фильтрации подчеркиваются границы объектов повышается резкость изображения, но одновременно становитф более заметным шум. Пространственно-частотная характеристик этого фильтра показана на рис. 3.6,6, а действие фильтра на тесто вое изображение продемонстрировано на рис. 3.7,6. 62
Рис. 3.6. Пространственно-частотные характеристики ФНЧ (а) и ФВЧ (б) Третий фильтр (в) относится к так называемым операторам Лапласа. Сумма коэффициентов в отличие от предыдущих фильт- ров равна 0, вследствие чего средний уровень яркости изображе- ния при фильтрации не сохраняется. Назначение фильтров, реали- зующих оператор Лапласа - выделять только границы объектов, т. е- линии, по которым происходит резкое изменение яркости. Об- ласти с постоянной или медленно меняющейся яркостью такой фильтр преобразует в темные участки изображения (рис. 3.7,в). Наконец, на рис. 3.7,г показан результат обработки тестово- го изображения фильтром Собеля, который также выделяет конту- Ра и мелкие детали изображения. 63
в) I ) Рис. 3.7. Действие фильтров на тестовое изображение: ФНЧ (а), ФВЧ ( фильтр Лапласа (в) и фильтр Собсля (г) Двумерная фильтрация широко используется при обрабо’ изображений на компьютере. При этом отдельный кадр телеви онного изображения или изображение, полученное каким-я другим способом, вводится в компьютер и подвергается фильт ции с целью сглаживания шумов, выделения границ объектов, 1 вышения четкости и т.д. Двумерная фильтрация в реальном в мени со скоростью телевизионной развертки часто реализу 64
с помощью параллельных вычислительных устройств, специаль- ных процессоров свертки и других аппаратных средств. Помимо выполнения фильтрации путем свертки цифрового сИгнала с матрицей, задающей фильтр, возможно выполнение фильтрации в частотной области. Для этого выполняется ДПФ ис- ходного сигнала, полученный набор коэффициентов ДПФ почлен- но умножается на набор чисел, представляющих частотную харак- теристику фильтра, после чего выполняется обратное ДПФ. Такой вариант выполнения фильтрации во многих случаях позволяет до- биться лучших результатов, чем свертка, но требует значительно большего объема вычислений. Как уже указывалось, фильтры, заданные формулами (3.15) и (3.16), являются линейными. Большое значение имеют и нели- нейные фильтры, для которых не выполняется принцип суперпо- зиции. Одним из наиболее известных видов нелинейных фильтров являются медианные фильтры. Кратко принцип действия такого фильтра можно пояснить следующим образом. Для получения ка- ждого элемента выходного сигнала берется соответствующий эле- мент входного сигнала и некоторое количество предшествующих ему и следующим за ним элементов входного сигнала. Значения этих элементов упорядочиваются по возрастанию или по убыва- нию. Далее берется центральный по порядку член полученной по- следовательности, и его значение присваивается элементу выход- ного сигнала. Например, если взято 3 предыдущих и 3 последую- щих элемента входного сигнала, то в последовательности будет 7 членов, и после упорядочивания элементу выходного сигнала при- сваивается значение 4-го члена последовательности. При фильтрации изображений применяются двумерные ме- дианные фильтры. При этом учитываются соседи не только по го- ризонтали, но и по вертикали. Медианный фильтр хорошо устра- няет точечные помехи и шумы, сохраняя при этом резкие перепа- ды яркости на границах объектов. Однако такой фильтр может подавить в изображении мелкие детали, размеры которых меньше Размеров маски фильтра, определяющей учитываемые соседние Элементы. 65
3.3. Обработка и передача сигналов с разложением на частотные поддиапазоны или на поддиапазоны по разрешающей способности. Вэйвлет-преобразование Разложение сигнала на частотные поддиапазоны использ; ется при решении многих задач, встречающихся в телевидени! в частности, при кодировании сигналов звукового сопровожден для передачи или записи в запоминающее устройство. Аналоговые системы передачи звуковых сигналов с разложением на частотные поддиапазоны, например, вокодеры, известны достаточно давно. В настоящее время подобные системы реализуются на основе цифровых средств. Структурная схема системы передачи одномерного цифр, вого сигнала с разложением на М частотных поддиапазонов пок зана на рис. 3.8. Входной цифровой сигнал х(п), занимающий по лосу частот от 0 до fB (где /в равна половине частоты дискрета: ции fa), поступает на входы анализирующих фильтров АФЬ Ас ..., АФд/, каждый из которых является полосовым фильтром, т. выделяет сигнал в заданном частотном поддиапазоне. Рис. 3.8. Структурная схема системы передачи сигнала с разложением на частотные поддиапазоны 66
Затем сигналы, полученные на выходах анализирующих фильтров, переносятся с центральных частот соответствующих доддиапазонов в область низких частот. При этом верхняя гранич- ная частота fBj, j = 1...М, каждого из этих сигналов оказывается существенно меньше, чем верхняя граничная частота исходного сигнала х(п). Например, если весь диапазон частот исходного сиг- нала делится на М равных по ширине поддиапазонов, то верхняя граничная частота сигнала каждого поддиапазона оказывается в д; раз меньше, чем у исходного сигнала. При этом частота дискре- тизации в каждом поддиапазоне может быть уменьшена в М раз по сравнению с частотой дискретизации исходного сигнала х(н). Для уменьшения частоты дискретизации в М раз в сигнале каждого поддиапазона оставляют каждый Л/-й отсчет, отбрасывая остальные отсчеты. Эта операция, называемая децимацией или прореживанием, выполняется в Дециматорах Дц ь Дц 2, ..., Дц м, на выходах которых получаются цифровые сигналы хДп), л2(н), —, Хм(п). Суммарное число отсчетов в этих сигналах за некоторый интервал времени равно количеству отсчетов исходного сигнала х(п) за тот же интервал времени. Функции анализирующего фильтра и дециматора могут объединяться в одном функциональ- ном узле. Далее сигналы х\(п), х2(п), ..., хм(п) проходят кодирующие устройства (кодеры) Кь К2, ..., Км , на выходах которых получают- ся кодированные сигналы частотных поддиапазонов уц(п), у2(п), ..., Ум(п). В случае передачи звуковой информации кодирование в поддиапазонах может заключаться, например, в выполнении бо- лее грубого квантования в тех частотных поддиапазонах, искаже- ния в которых мало заметны для слушателя. Количество двоичных символов, используемых для передачи сигналов таких поддиапа- зонов, сокращается. Если сигнал в каком-либо частотном поддиа- пазоне настолько мал, что не оказывает влияния на слуховое вос- приятие, то он может вообще не передаваться. В результате Уменьшается общая скорость передачи двоичных символов. Затем сигналы У1(и), у2(и), —, Ум(п) объединяются в мульти- плексоре Мп в один кодированный цифровой сигнал у(п), который предается по каналу связи КС. Как уже отмечалось, скорость пе- редачи двоичных символов, необходимая для передачи сигнала Хи), меньше, чем для передачи исходного сигнала х(п), причем Уменьшение может быть весьма значительным. Вместо канала свя- 67
зи в системе может присутствовать носитель информации, на ко- торый осуществляется запись сигнала у(н). После прохождения канала связи кодированный сигнал у(п) в демультиплексоре ДМп разделяется на кодированные сигналы частотных поддиапазонов yi(n), у2(п), •••> Ум(п). Каждый из этих! сигналов декодируется в соответствующем блоке декодирования (декодере) Дкь Дк2, ..., Дкм. В процессе декодирования восстанав- ливается количество двоичных разрядов в данных (такая операция называется деквантованием). Так как при кодировании могли воз- никнуть необратимые потери информации, то декодированные сигналы поддиапазонов Zi(n), Zi(n), ..., гм(п) могут отличаться от исходных сигналов поддиапазонов jq(/z), х2(и), Хм(п). Далее выполняется восстановление количества отсчетов в сигналах поддиапазонов. Эта операция, называемая интерполяции ей, выполняется в интерполяторах Инть Инт2 ... Интм и заключает! ся в том, что между каждыми двумя отсчетами каждого из сигнаг лов Zi(h), z2(n), ..., Zm(h) вставляют М-\ нулей. После этого сигнал J обрабатываются синтезирующими фильтрами СФь СФ2, ..., СФМ и объединяются в сумматоре См. В результате формируется вы- ходной сигнал z(n), имеющий такую же частоту дискретизации и занимающий такую же полосу частот, как исходный сигнал л(н). | Описанный метод используется, например, для кодирования сигналов звукового сопровождения в стандартах MPEG-1 и MPEG-2, которые будут подробно рассмотрены далее. Эффективным средством разделения исходного сигнала на частотные поддиапазоны и синтеза выходного сигнала из сигналов частотных поддиапазонов являются квадратурные зеркальные фильтры (КЗФ) (quadrature mirror filter - QMF). Структурная схема системы, в которой используются такие фильтры, показана на рис. 3.9,а, положения получающихся частотных поддиапазонов — на рис. 3.9,6. Обозначения сигналов такие же, как на рис. 3.8. Кодеры, канал связи и декодеры не показаны. Пара КЗФ состоит из цифрового нерекурсивного ФНЧ, обо- значаемого G, и цифрового нерекурсивного ФВЧ, обозначаемого Н. Передаточные характеристики этих фильтров, полученные в ре зультате z-преобразования, - G(z) и H(z), соответственно. ОбраТ) ные фильтры, обозначенные на схеме Gи Н'1, имеют передатоЧ ные характеристики G(z') и H(z~'). Коэффициенты фильтра G1 получаются перестановкой коэффициентов фильтра G в обратном 68
порядке. Аналогично коэффициенты фильтра Н 1 получаются пе- рестановкой коэффициентов фильтра Н. в) Рис. 3.9. Структурная схема системы передачи с использованием квадратурных зеркальных фильтров (а) и положения получающихся частотных поддиапазонов (б) Особенность КЗФ состоит в том, что АЧХ фильтра Н полу- чается зеркальным отображением АЧХ фильтра G, причем ось зеркальной симметрии обычно находится на частоте, равной, 1/4 частоты дискретизации. Пара КЗФ позволяет разделить исходный цифровой сигнал х(п) на два сигнала частотных поддиапазонов, со- ответствующих нижней и верхней половинам его полосы частот, а пара обратных фильтров позволяет восстановить исходный сигнал по двум сигналам частотных поддиапазонов. Чтобы КЗФ обладали указанными свойствами, их переда- точные характеристики должны удовлетворять условиям /f(z-,)H(z) + G(z',)G(z) = 2 (318) H(z~l + G(z-' )G(—z) = О При разложении на поддиапазоны после каждого фильтра G или Н выполняется децимация, при которой отбрасывается каж- дый второй отсчет. Это соответствует тому, что пара КЗФ делит полосу частот входного сигнала на две равные части. Дециматоры На структурной схеме обозначены кружками со стрелками, на- правленными вниз. В процессе синтеза сигнала из сигналов час- т°тных поддиапазонов перед каждым обратным фильтром G’1 или 69
Н'1 выполняется интерполяция, при которой между каждыми дву мя отсчетами вставляется нуль. Интерполяторы обозначены круж ками со стрелками, направленными вверх. Объединение сигнало] осуществляется сумматорами, обозначенными кружками со зна ком "плюс" внутри. Для разложения исходного сигнала х(п) на частотные под диапазоны, число которых больше двух, используют древовиднуь структуру. После прохождения фильтра Н в первой паре КЗФ I соответствующего дециматора формируется сигнал х3(п), соответ ствующий верхней половине частотного диапазона. Сигнал, соот ветствующий нижней половине частотного диапазона, получае мый после фильтра G в первой паре КЗФ, поступает на следую щую пару КЗФ, которая делит нижний частотный поддиапазо] еще раз. В результате получаются сигналы xt(n) и х2(п). При синтезе выходного сигнала сначала интерполируются фильтруются и объединяются сигналы Zi(n) и 2г(и), а затем резуль тат объединяется с интерполированным и обработанным фильтро^ сигналом ?з(/г). Достоинством КЗФ является то, что при их использовани не возникает искажений, связанных с перекрытием частотны спектров сигналов смежных поддиапазонов из-за неидеальносп АЧХ фильтров. Кроме того, на всех ступенях разложения и синте за сигнала используются фильтры с одинаковыми наборами коэф фициентов, что позволяет упростить реализацию. Другой подход к обработке и передаче сигналов основан г разложении сигнала на составляющие по разрешающей способно сти. Такой подход оказывается особенно продуктивен для переда чи изображений. Как известно, изображение состоит из крупны^ деталей, составляющих основу его содержания, и мелкой структу ры. Во многих случаях полезно разделить указанные составляю щие, чтобы передавать их раздельно, а в приемной части систем! объединить эти составляющие в полное изображение. Для решения этой задачи в последние годы все большую по пулярность получает подход, основанный на применении ортого нального вэйвлет - преобразования (Wavelet-Transform - WT) Термин wavelet дословно переводится как “маленькая волна’ В отличие от гармонических ортогональных функций, которы периодически изменяются на всем интервале изменения аргумен та, базисные функции вэйвлет-преобразования отличны от нуд 70
только на ограниченном отрезке этого интервала. Полный набор таких функций, составляющих базис преобразования, покрывает весь интервал изменения аргумента. Результатом вэйвлет-преобразованием является набор коэф- фициентов. Восстановление сигнала по этим коэффициентам на- зывается обратным вэйвлет-преобразованием (Inverse Wavelet Transform - IWT). Простым примером вэйвлет-преобразования является раз- ложение сигнала по базису Хаара (Haar). Базисная функция преоб- разования Хаара, показанная на рис. 3.10,а, называется scale- function или scaling-function. Ортогональный базис Хаара получа- ется путем сдвига базисной функции с шагом равным единице во все возможные положения по оси абсцисс. Рис. 3.10. Базисная функция преобразования Хаара (а) и вэйвлет Хаара (б) Функция, показанная на рис. 3.10,6, называется вэйвлетом Хаара (Haar Wavelet). Вэйвлеты Хаара, сдвигаемые по оси абсцисс, также образуют ортогональный базис для пространства сигналов деталей, о которых будет сказано ниже. Другие типы вэйвлет-преобразования также имеют базисные Функции (scaling-functions) и вэйвлеты, но более сложных форм. Пусть есть исходный цифровой сигнал х(п), п - 0, 1, ..., N-1. В результате преобразования Хаара он преобразуется в два цифро- вых сигнала Xj(m) и х2(т), т = 0, 1.N/2-1 (А7 предполагается четным), в соответствии с соотношениями Xt(m) = [x(2m+l) + х(2т)]/2 , (3.19) х2(лл) -х(2т) -х(2нг+1). Отсчеты сигнала хх(т) получаются путем усреднения пар сМежных отсчетов исходного сигнала х(п). Поэтому сигнал х}(т) 71
содержит информацию с уменьшенной в два раза разрешающей способностью. В то же время сигнал х2(т), отсчеты которого рав- ны разностям значений смежных отсчетов исходного сигнала, со- держит информацию о мелких деталях исходного сигнала. Именно для сигнала х2(т) ортогональным базисом являются вэйвлеты Хаа- ра. Каждый из сигналов Х\(т) и x2(ni) содержит М2 отсчетов,! и вместе они несут всю информацию, имеющуюся в исходном сигнале. Обратное преобразование Хаара определяется соотно- шениями, получающимися из (3.19), где первое соотношение по- зволяет восстановить нечетные отсчеты исходного сигнала, а вто- рое - четные, x(2m+l) = [2xj(m) - x2(fn)]/2, (3.20) х(2т) = [2%i(wi) + х2(т)]/2. Далее преобразование Хаара может быть применено к сиг- налу xt(m), который при этом будет разложен на сигнал хи(А), со- ответствующий еще более низкой разрешающей способности,' и сигнал %12(^), содержащий детали, необходимые для восстановлен ния сигнала Х\(т). Сигналы Хц(Л) и хЛ2(к) содержат по N/4 отсчетов. Затем преобразование Хаара может быть применено к сигналу Хц(&) и т. д. Соответствующими обратными преобразованиями могу! быть последовательно восстановлены сигналы с более высокими разрешающими способностями, вплоть до исходного сигнала. Важно обметить, что при выполнении прямого преобразова- ния Хаара (как и прямого вэйвлет-преобразования другого типа) число отсчетов в получаемых сигналах на каждой ступени преоб- разования уменьшается в два раза, а количество самих сигналов возрастает. При этом суммарное число отсчетов во всех получен! ных сигналах всегда равно N. При выполнении обратного преобра- зования количество отсчетов в восстанавливаемых сигналах на каждой ступени увеличивается в два раза. Вэйвлет-преобразование изображения осуществляется путем последовательного выполнения вэйвлет-преобразований по двум координатам (рис. 3.11). Исходное изображение представляет со- бой матрицу А, имеющую размер NxN и содержащую N2 элемен- тов. В блоках WTx и WTy выполняются вэйвлет-преобразования одномерных цифровых сигналов, например, преобразования Хаа* ра. В блоках IWTx и IWTy выполняются соответствующие обрат- ные преобразования. 72
Рис. 3.11. Структурная схема выполнения прямого и обратного вэйвлет-преобразований изображения На первом этапе выполняется вэйвлет-преобразование по горизонтальной координате х (WTx). При этом элементы изобра- жения А, расположенные в каждой строке матрицы, последова- тельно поступают на блок WTx, причем одна строка обрабатыва- ется за другой. В результате формируются два изображения AL и АН, каждое из которых представляет собой матрицу, содержащую N/2 элементов по горизонтали и N элементов по вертикали. Сум- марное количество элементов в этих изображениях остается рав- ным А2. В изображении AL разрешающая способность по гори- зонтали уменьшена в два раза. Изображение АН содержит инфор- мацию о деталях изображения, имеющих малые размеры по координате х. Затем каждое из изображений AL и АН подвергается вэйвлет- преобразованию по вертикальной координате у. При этом на блоки WTy последовательно поступают элементы изображения, располо- женные в столбцах соответствующих матриц. В результате получа- ются четыре матрицы, каждая из которых содержит (А/2)х(А/2) элементов. Суммарное число элементов по-прежнему равно N 2. Матрица ALL соответствует изображению, подобному ис- ходному, но с уменьшенными в два раза разрешающими способ- ностями по обеим координатам. Матрица ALH содержит детали Исходного изображения, имеющие относительно большие размеры н° горизонтали, но с минимальными размерами по вертикали. Матрица AHL содержит детали изображения, крупноразмерные по вертикали, но с минимальными размерами по горизонтали. Нако- нец, матрица АНН содержит детали изображения, имеющие малые Размеры по обеим координатам. 73
На рис. 3.12 показан результат двумерного преобразования Хаара тестового изображения "Лена". Левый верхний квадрант изображения образует матрица ALL, правый верхний квадрант - матрица ALH, нижний левый квадрант - матрица AHL и, наконец, правый нижний квадрант - матрица АНН. Рис. 3.12. Результат преобразования Хаара тестового изображения Разложение на поддиапазоны по разрешающей способности позволяет анализировать или передавать изображение с разными степенями детальности. Для получения наиболее грубого пред-1 ставления об изображении достаточно использовать только ин- формацию, содержащуюся в матрице ALL. Добавление других поддиапазонов увеличивает точность представления изображения. I Как и для одномерных сигналов, число ступеней двумерного вэйвлет-преобразования может быть увеличено. Матрица ALL может быть преобразована в четыре матрицы размером (А74)х(А74) элементов. Та из этих матриц, которая содержит изображение с уменьшенными в четыре раза пространственными разрешениями по обеим координатам, преобразована в четыре матрицы размером (А78)х(А78) элементов и т.д. 74
После разложения исходного изображения А на поддиапазо- ну по разрешающей способности может выполняться обработка дЛя каждого из этих поддиапазонов. В результате матрица ALL преобразуется в матрицу BLL и т. д. Обратные вэйвлет- преобразования выполняются в обратном порядке (см. рис. 3.11). В результате формируется изображение В размером NxN элементов. Обработка в поддиапазонах часто имеет целью сжатие изо- бражения для его передачи по каналу связи или для записи на но- ситель информации. Как правило, для представления данных, со- держащихся в матрицах ALH, AHL и АНН, может использоваться меньшее число двоичных разрядов, т. е. более грубое квантование, чем для исходного изображения. Это обусловлено тем, что сигна- лы малоразмерных деталей имеют меньший размах, а создаваемые квантованием искажения на мелких деталях менее заметны для зрителя. Данные из всех матриц после квантования объединяются в общий поток данных. В приемной части восстанавливается ис- ходное количество двоичных разрядов. Вэйвлет-преобразование обеспечивает более высокий коэф- фициент сжатия неподвижных изображений при сохранении их приемлемого качества, чем широко используемый стандарт JPEG. Однако для этого необходимо использовать не описанное здесь преобразование Хаара, а другие типы вэйвлет-преобразования, в которых используются базисные функции и вэйвлеты более сложных форм. Важным преимуществом вэйвлет-преобразования перед ДПФ и ДКП является раздельное выполнение преобразований по двум координатам. Общее число вычислительных операций при вэйвлет-преобразовании изображения, содержащего NxN элемен- тов, пропорционально N2, т. е. существенно меньше, чем для ДПФ и ДКП, даже в случаях применения для их реализации быстрых алгоритмов. 3-4. Оценка и компенсация движения Одной из важных и часто встречающихся задач обработки изображений является оценка движения различных объектов, при- сутствующих в изображении. Выполнение такой оценки необхо- димо при сжатии движущихся изображений, для коррекции сма- зывания изображения из-за колебаний видеокамеры в руках опера- 75
тора, для совмещения изображений объекта в двух смежных полях одного кадра при чересстрочной развертке, для обнаружения дви- жущихся объектов в системах охранного ТВ и т. д. Простейший вид движения объекта в кадре - плоскопарал! лельное движение, когда объект не приближается, не удаляется и не поворачивается. Более сложные виды движения - приближение или удаление объекта, в результате чего изменяются его размеры в кадре, поворот объекта, взаимное перекрытие объектов, дефор- мация, появление или исчезновение объектов в кадре. В цифровом телевидении широко применяется метод оценки движения в некотором кадре (далее для определенности называем мом первым кадром) относительно какого-либо другого кадра (да- лее - второго кадра), называемый соответствием блоков (block matching). Во времени первый кадр может следовать как после второго кадра, так и до него. В простейшем варианте этого методй первый кадр разделяется на прямоугольные блоки одинаковых размеров. Отметим, что в стандартах MPEG, о которых пойдет речь ниже, эти блоки называются макроблоками, чтобы не путать с блоками, используемыми в дискретном косинусном преобразсй вании. Для каждого блока первого кадра осуществляется поиск наиболее похожей на него прямоугольной области таких же раз- меров во втором кадре. При этом последовательно перебираются векторы движения (или векторы смещения) (Д п, Д >«), где Д п, Д т - приращения координат по горизонтали и по вертикали, прини- мающие значения в некоторых заданных интервалах. Для каждого вектора движения берется область во втором кадре, смещенная на этот вектор относительно анализируемого блока первого кадра (см. рис. 3.13, где тонкими линиями показаны границы блоков первого кадра, а толстыми - положение смещенной области во втором кадре), и рассчитывается сумма 5(Д п, Д т) абсолютных значений разностей элементов блока первого кадра и смещенной области второго кадра S(An,Am) - ^|x'(w + t\m,n + Д/?)-х(/и,н)|, (3-2И где х(т,п) - элемент первого кадра; х’(т,п) - элемент второго каД' ра; т, п - дискретные координаты по вертикали и по горизонталв отсчитываемые, например, от левого верхнего угла блока первой1 кадра. Суммирование производится по всем элементам блока. 76
(An, Am ) Рис. 3.13. Смещение блока на вектор движения Из всех проверенных векторов (А п, А т) выбирается тот, ко- торый обеспечивает наименьшее значение суммы в (3.21). Этот вектор и считается далее вектором движения для данного блока. В некоторых случаях вместо суммы абсолютных значений использу- ется корень из суммы квадратов разностей, однако его расчет тре- бует большего объема вычислений. Полный перебор возможных смещений в заданном диапазо- не обеспечивает нахождение абсолютного минимума суммы в (3.21), но требует выполнения (2IV+1)2 расчетов по этой форму- ле, где W - максимальное смещение по какой-либо координате, выраженное в количестве пикселов. Существуют различные алго- ритмы (или стратегии) поиска соответствия блоков с уменьшен- ным объемом вычислений. Например, сначала выполняется поиск с большим шагом смещения (в несколько пикселов) по всему диа- пазону смещений, а затем в зоне, где обнаружен минимум, произ- водится поиск с шагом 1 или даже 1/2 пиксела для точного опре- деления вектора движения. После определения векторов движения для каждого блока текущего кадра может быть выполнена компенсация движения. Каждый блок первого кадра заменяется найденной для него соот- ветствующей областью второго кадра, которая смещается на место этого блока. Величины смещений по горизонтали и по вертикали определяются вектором движения. В результате из элементов вто- рого кадра формируется оценка первого кадра или предсказанный Первый кадр. Компенсация движения является одной из основ ме- т°дов сжатия движущихся изображений MPEG-1 и MPEG-2, о ко- т°РЬ1х речь пойдет далее. 77
Разбиение кадра на прямоугольные блоки фиксированных размеров в большинстве случаев не позволяет точно описать и скомпенсировать движение объектов в изображении. Поэтому в последние годы большое внимание уделяется разработке более совершенных методов. В их числе методы, в которых используюЛ ся блоки с переменными размерами и формами, а также градиент- ные методы оценки движения, позволяющие определить вектор движения для каждого элемента изображения, и методы, основан- ные на анализе трехмерного спектра движущегося изображения (две пространственные координаты и время). 3.5. Дифференциальная импульсно-кодовая модуляция. Кодирование с предсказанием В простейшем варианте передачи цифровой информации по каналу связи передаются значения цифрового кода каждого отсче- та сигнала в виде последовательности импульсов. Такой способ называется передачей с использованием импульсно-кодовой моду- ляции (ИКМ), в англоязычной технической литературе называемой PCM (Pulse Code Modulation). В случае применения кодирования с предсказанием или дифференциальной импульсно-кодовой модуляции (ДИКМ) по ка- налу связи передается разность между действительным значение^ текущего отсчета сигнала и значением этого же отсчета, предска- занным по предыдущим отсчетам. Структурная схема системы пе- редачи информации с ДИКМ приведена на рис. 3.14. Рис. 3.14. Структурная схема системы передачи информации с ДИКМ 78
Система содержит кодирующую часть (кодер) и декоди- рующую часть (декодер), между которыми может быть канал свя- зи или устройство записи информации на какой-либо носитель. [4а вход кодера поступает последовательность отсчетов входного сигнала х(п). В предсказателе Pr (predictor) формируются предска- занные значения сигнала р'(п). В вычитающем устройстве опреде- ляется разность действительного х(п) и предсказанного р'(п) зна- чений сигнала, равная S(n) = х(п) ~ р'(п), называемая ошибкой предсказания. Затем сигнал S(n) поступает в квантователь Q. Уменьшение скорости передачи двоичных символов достигается за счет уменьшения в квантователе количества двоичных разрядов величины S(n), в результате чего получается передаваемый по ка- налу связи сигнал S'(n). На вход декодера поступает сигнал S"(n), прошедший канал связи. В деквантователе Q 1 восстанавливается исходное число двоичных разрядов. В сумматоре происходит формирование вы- ходного сигнала у(п) в соответствии с соотношением у(п) = р"(п) + S"(n), где р"(п) - предсказанное по предыдущим зна- чениям выходного сигнала его текущее значение. Рассмотрим формирование в кодере предсказанных значе- ний сигнала р'(п). Важно отметить, что предсказатели в кодере и декодере работают по идентичным алгоритмам. Квантованный сигнал ошибки предсказания S"(n) поступает во входящий в состав кодера деквантователь Q *, в котором восстанавливается исходное число двоичных разрядов. Выходной сигнал деквантователя в сумматоре складывается с предсказанным значением р'(п), в ре- зультате чего формируется сигнал х'(п), получающийся в результа- те выполнения таких же операций, что и выходной сигнал декоде- ра у(п). В общем случае предсказанные значения р'(п) вычисляются формуле к P'(p)^^akx\n-k), (3.22) к=\ Где «ь к = коэффициенты, характеризующие метод предска- зания. Такой метод называется линейным предсказанием (Linear rediction), так как предсказываемые значения сигнала формиру- ется в виде линейных комбинаций нескольких предыдущих качений. 79
Простейший вариант ДИКМ реализуется в случае, когда at = 1, а все остальные коэффициенты равны нулю. В таком варЯ анте в качестве предсказанного значения берется предыдущее зна- чение сигнала. При передаче телевизионного изображения ддя предсказания значения отсчета можно использовать корреляцион- ные связи между отсчетами одной строки, соседних строк и сле- дующих друг за другом кадров. При этом в предсказателях в коде- ре и декодере должны быть запоминающие устройства на несколь- ко элементов, на несколько строк или на несколько кадров, соответственно. Перейдем к вопросу о помехоустойчивости систем с ДИКМ. Как уже отмечалось, сумматор в кодере выполняет накопле- ние поступающих на него квантованных значений ошибки пред- сказания подобно сумматору в декодере и формирует сигнал х'(ц) аналогичный выходному сигналу у(л). Поэтому в формируемые предсказанные значения р\п) войдут ошибки, создаваемые кван- тователем. Эти ошибки затем вычитаются из входного сигнала. Благодаря этому не происходит накопления ошибок квантования в выходном сигнале. Рассмотрим следующий пример. Пусть квантование осуще- ствляется путем уменьшения количества разрядов с 8 до 5, причем старший разряд используется как знаковый, так как разностное значение может быть как положительным, так и отрицательным. Тогда величина 5'(п) может принимать значения от -15 до 15. Пусть в качестве предсказанного значения используется предыд]! щее значение сигнала на входе блока предсказателя. Для сигналов в кодере можно записать следующие соотношения: S(ri) = х(п) -р'(п) = х(п) - х'(п-1); х'(п) - S'(n) + р'(п) = S'(n) + х'(п-1). При появлении приращения S(n), выходящего за пределы диапазона допустимых значений S'(n), возникает ошибка е(п) = S'(ri) - S(n). (3.23) Предположим, что до /2-ного такта ошибок не было. Тогда для всех к < п имеем: S'(k) = S(k); х'(к) = х(к). Так как предполагает' ся, что в канале связи ошибок также нет, то и х"(к) = х(к). Пусть в /2-ном такте возникла ошибка. Эта ошибка приводит к появлений неправильного значения х'(п) в накопителе х\п) = х'(/1-1) + S'(ri) = х(п-1) + S(n) + е(п). 80
В следующем такте эта ошибка попадает в контур обратной связи в кодере. Дд+1) = Л'(«) + 5’(н+1) = x(n-l) + S(n) + е(п) + [%(«+!)-х'(и)1' = , л(л-1) + S(n) + е(п) + [х(и+1) -х(и-1)-5(п) - е(п)]'. (3.24) Штрих у квадратных скобок означает, что величина, заклю- ченная в них, проходит квантователь, в котором преобразуется в число с меньшим числом двоичных разрядов. Если величина в квадратных скобках в (3.24) не выходит за пределы диапазона возможных значений S'(n), то операция кван- тования не изменяет ее значения (естественно, с точностью до од- ного уровня квантования входного цифрового сигналами)). Тогда получаем х'(и+1) = х(п+1), т. е. ошибка компенсировалась. Так как в декодере сигнал у(п~) формируется по тому же алгоритму, что и сигнал х'(п) в кодере, то компенсация ошибки будет иметь место и на выходе системы с ДИКМ. В случае, если сразу ошибка не компенсируется, происхо- дит постепенная коррекция ошибки путем передачи увеличенных значений разности 5'('0 в нескольких следующих периодах дис- кретизации. Резкие перепады в передаваемом сигнале в такой сис- теме могут несколько сглаживаться, но накопление ошибки не происходит. Начальные значения х(0) и у(0) могут быть установ- лены равными между собой. В этом случае выходной и входной сигналы будут различаться между собой на сумму ошибок, вноси- мых квантователем за все время передачи сигнала. Постепенная коррекция ошибки квантователя иллюстриру- ется табл. 3.1. Из приведенных данных видно, что ошибка, воз- никшая из-за перегрузки квантователя в такте 6, компенсируется за два такта, а ошибка, возникшая в такте 9 - за один такт. Таблица 3.1 п 1 2 3 4 5 6 7 8 9 10 _А.п) 0 5 12 27 24 54 61 53 74 80 5 7 15 -3 15 15 -1 15 12 _У(л) _ 0 5 12 27 24 39 54 53 68 80 81
При наличии помех в канале связи в выходном сигнале де кодера будут возникать ошибки, распространяющиеся на все по следующие значения этого сигнала. Один из наиболее универсаль ных методов коррекции ошибок, возникших в канале связи, зц использование обратной связи, охватывающей этот канал. В так )й системе требуются два канала связи: прямой и обратный. В тела визионном вещании такой подход сопряжен со значительным! трудностями и не применяется Еще один распространенный способ повышения помехе устойчивости систем с ДИКМ при наличии ошибок в канале связи | передача с определенной периодичностью опорных отсчетов с ис пользованием обычной ИКМ. После приема каждого такого отсчета в декодере формирование выходного сигнала по принимаемым раз ностным значениям начинается заново. Все накопившиеся к этому моменту ошибки аннулируются. В телевидении этот метод согласу ется с необходимостью периодически передавать опорный кадр бея межкадрового предсказания, чтобы можно было начинать прием передачи в любой момент. Конкретная реализация такого подход; в системах цифрового телевидения будет рассмотрена позже. Развитием метода ДИКМ является адаптивная импульсно- кодовая модуляция АДИКМ (Adaptive Differential Pulse Code Modulation - ADPCM). В соответствии с этим методом параметры квантователя Q и предсказателей Рг (рис. 3.14) изменяются в зави- симости от параметров передаваемого сигнала. Например, есл! средняя за определенный интервал времени скорость изменения входного сигнала х(п) увеличилась, шаг квантования также увели- чивается, чтобы не возникало перегрузок в квантователе. Наобо рот, если средняя скорость изменения входного сигнала уменьши лась, шаг квантования также уменьшается, чтобы уменьшить влияние шума квантования на передаваемую информацию. АДИКМ применяется в некоторых цифровых системах пе- редачи речевой информации, например, в мобильных телефонах и позволяет уменьшить скорость передачи двоичных символов I несколько раз. 82
3,6. Векторное квантование. Фрактальное кодирование Квантование можно определить как замену реального значе- ния сигнала на ближайшее к нему по некоторому критерию эта- лонное значение сигнала. Обычное квантование (см. § 2.1), со- стоящее в округлении до ближайшего уровня квантования, назы- вают скалярным, так как отдельные отсчеты сигнала квантуются независимо друг от друга. Более общей операцией является векторное квантование, при котором одновременно квантуется (кодируется) группа из N отсчетов цифрового сигнала, называемая /V-мерпым вектором [16]. В случае одномерного сигнала векторами могут быть группы по N последовательных отсчетов. В случае изображения векторами мо- гут быть блоки из нескольких смежных по горизонтали и по вер- тикали элементов изображения. На рис. 3.15 представлена струк- турная схема системы передачи информации, в которой использу- ется векторное квантование. Рис. 3.15. Структурная схема системы передачи информации с использованием векторного квантования Множество всех встречающихся в сигнале TV-мерных векто- ров разбивается на L подмножеств так, что входящие в каждое подмножества векторы мало отличаются друг от друга. В каждом подмножестве выбирается один эталонный вектор, представляю- щий все векторы этого подмножества. Все эталонные векторы за- писываются в кодовую книгу (Code Book), и каждому из них при- сваивается определенное кодовое слово. Входной цифровой сигнал х(п) поступает на вход кодера. Процедура кодирования заключается в том, что для каждого ^-мерного вектора в кодовой книге находится наиболее близкий к нему эталонный вектор, код которого поступает на выход коде- 83
ра. Таким образом, для каждой группы из N отсчетов входного сигнала х(п) передается одно кодовое слово и(к). В декодере в соответствии с принятым кодовым словом и\к) (где штрих показывает, что информация прошла канал связи) из кодовой книги считывается эталонный вектор, преобразуемый в группу из N отсчетов выходного сигнала у(п). Кодовая книга может изменяться в зависимости от свойств кодируемого сигнала. Построение кодовой книги является состав- ной частью процесса кодирования, а ее содержание должно пере- сылаться в приемную часть системы вместе с кодовыми словами и(к). Наиболее известным алгоритмом построения кодовой книги для кодирования изображений является алгоритм LGB (по первым буквам фамилий его авторов Linde, Buzo, Gray). Задачей, решае- мой с помощью этого и подобных ему алгоритмов, является по- строение кодовой книги минимального объема, позволяющей за- кодировать некоторое изображение, не превышая при этом уста- новленный предел вносимых при кодировании искажений. Векторное квантование относится к методам сжатия с поте- рями, так как реальные группы из N отсчетов входного сигнала х(и) в выходном сигнале y(>i) заменяются эталонными /V-мерными векторами. Одним из достоинств векторного квантования является простота декодера, в котором выполняется только операция счи- тывания эталонного вектора из кодовой книги. В то ж£ время, осуществляемый в кодере поиск эталонного вектора, наиболее близкого к кодируемому вектору, требует вы- полнения большого объема вычислений. Обычно понятие "наибо-, лее близкий эталонный вектор" означает, что для этого эталонного вектора достигается минимальное значение квадратичной ошибки квантования Е, определяемой как <з251 7=1 где а, - элементы входного вектора; Ь} - элементы эталонного век- тора. Поиск минимума ошибки для каждого входного вектора осуществляется путем вычисления значений ошибки его квантова- ния для всех эталонных векторов. Близким по сущности к векторному квантованию является фрактальное кодирование изображений, при котором в качестве элементов кодовой книги используются блоки, вырезанные из са- мого исходного изображения. 84
Как известно, фракталами называются рисунки, обладаю- щие свойством самоподобия. При этом часть рисунка подобна всему рисунку в целом, но в меньшем масштабе. В этой части есть подобная ей часть еще меньших размеров и т.д. Пример фрактала показан на рис. 3.16. Рис. 3.16. Фрактал При фрактальном кодировании используется свойство подо- бия деталей разного масштаба, встречающееся в реальных изо- бражениях. Допускаются преобразования блоков кодируемого изображения, позволяющие добиться подобия этих блоков эталон- ным блокам (повороты, зеркальные отражения). Как и при вектор- ном квантовании, кодирование занимает намного больше времени и вычислительных ресурсов, чем декодирование. Векторное квантование и фрактальное кодирование могут использоваться для кодирования звуковых сигналов и изображе- ний, обеспечивая значительное сжатие информации. Однако большой объем вычислений, выполняемых при кодировании, пока что препятствует практическому применению этих методов в сис- темах цифрового телевидения. 85
Контрольные вопросы 1. Почему ДПФ содержи! конечное число частотных составляющих? 2. Почему ДКП во многих случаях удобнее применять, чем ДПФ? 3. Нарисуйте структурные схемы нерекурсивного и рекурсивного цифро- вых фильтров. 4. Напишите формулу, описывающую действие двумерного нерекурсив- ного цифрового фильтра. 5. Чем различаются матрицы двумерного фильтра верхних частот и дву- мерного фильтра Лапласа и воздействия указанных фильтров на изобра- жение? 6. Почему при разложении сигнала на частотные поддиапазоны количе- ство отсчетов в каждом поддиапазоне может быть уменьшено? 7. Каковы свойства квадратурных зеркальных фильтров? 8. Что происходит с изображением при выполнении вэйвлет- преобразования? 9. За счет чего может быть достигнуто сжатие изображения с помощью вэйвлет-преобразования? 10. В чем состоит оценка движения методом соответствия блоков? 11. Что такое линейное предсказание? 12. Почему использование ДИКМ позволяет уменьшить скорость переда- чи двоичных символов в канале связи? 13. Какими средствами может быть обеспечена помехоустойчивость пе- редачи информации с использованием ДИКМ? 14. Как выполняются кодирование и декодирование в системах передачи с векторным квантованием? 86
4. МЕТОДЫ СЖАТИЯ ИЗОБРАЖЕНИЙ И ЗВУКОВЫХ СИГНАЛОВ 4.1. Сжатие неподвижных изображений по стандарту JPEG ОБЩИЕ ПОЛОЖЕНИЯ Один из наиболее эффективных и употребительных методов сжатия неподвижных изображений изложен в принятом Междуна- родной организацией стандартизации ISO стандарте JPEG (Joint Photographic Experts Group) [4]. Данный стандарт определяет по- следовательность и параметры операций при кодировании и деко- дировании неподвижных изображений. JPEG относится к методам сжатия изображений с потерями и используется в основном при записи неподвижных изображений с целью экономии объема ЗУ. Для большинства реальных полутоновых и цветных изобра- жений этот метод позволяет уменьшить объем информации в 5-10 раз без заметного ухудшения визуально воспринимаемого качества. JPEG не предназначен для сжатия рисунков, чертежей и других изображений, имеющих два уровня яркости. Последовательность операций при кодировании, поясняемая структурной схемой на рис. 4.1, включает: - разбиение изображения на блоки 8x8 пикселов; - выполнение быстрого ДКП (БДКП) в каждом блоке; - квантование полученных коэффициентов ДКП с использо- ванием таблицы коэффициентов квантования (таблица Q); - энтропийное кодирование квантованных коэффициентов Д П каждого блока изображения. Последняя операция выполняется кодером Хаффмена с ис- пользованием таблицы кодирования (таблица кодов). Вместо коде- ра Хаффмена может использоваться арифметический кодер. 87
Изображение видеоданные Рис. 4.1. Структурная схема кодирования по стандарту JPEG В результате кодирования исходное изображение преобразу-t ется в сжатые видеоданные, записываемые в файл. Последовательность операций при декодировании, поясняе- мая структурной схемой на рис. 4.2, включает: - декодирование энтропийного кода (декодер Хаффмена); - деквантование коэффициентов ДКП для каждого блока 8x81 пикселов; - обратное БДКП для каждого блока; - объединение блоков в декодированное изображение. Сжатые видеоданные Рис. 4.2. Структурная схема декодирования по стандарту JPEG При декодировании энтропийного кода и при деквантовании используются таблицы кодирования и таблицы коэффициентов квантования, которые могут содержаться в одном файле со сжатым изображением. 88
Далее более подробно рассмотрены операции, выполняемые при кодировании, и соответствующие им обратные операции, вы- полняемые при декодировании. РАЗБИЕНИЕ ИЗОБРАЖЕНИЯ НА БЛОКИ Полутоновое монохромное (черно-белое) изображение раз- бивается на блоки 8x8 пикселов. Эти блоки далее кодируются один за другим. Порядок кодирования блоков слева направо, один гори- зонтальный ряд блоков за другим. Цветное изображение может быть представлено в формате RGB, когда для каждого пиксела задаются значения трех основных цветов. В этом случае каждый блок 8x8 пикселов представляется тремя блоками 8x8 чисел. Кодирование данных каждого из трех цветов выполняется также, как для полутонового монохромного изображения. Предпочтительнее представление цветного изображения в формате YCbCr , где для каждого пиксела задаются значения ярко- сти и цветоразностных сигналов. В этом случае возможно умень- шение число блоков для информации о цвете. Например, если уг 'еныпить число отсчетов цветоразностных сигналов по вертикали и по горизонтали в два раза, что соответствует формату 4 2:0, то на каждые четыре блока элементов сигнала яркости Y будет прихо- диться один блок элементов сигнала Св и один блок элементов сиг- нала CR. По сравнению с форматом RGB полное число кодируемых блоков уменьшится в два раза, но заметного ухудшения качества из эбражения при этом не произойдет, так как зрительный аппарат человека не воспринимает искажения цвета мелких деталей изо- бражения. Возможны два варианта последовательности кодирования блоков цветного изображения. Согласно первому варианту, назы- ваемому последовательным (sequential), сначала кодируются все блоки элементов сигнала Y, затем - все блоки элементов сигнала затем - все блоки сигнала Ск. Второй вариант предусматривает перемежение (interleaved) блоков разных составляющих. Например, в случае формата дискретизации 4:2:0, сначала кодируются четыре блока Y, образующие матрицу 2x2, затем соответствующий им °Дин блок Св, затем - один блок С1{, затем следующие четыре блока ¥ и т. д. 89
При объединении блоков в декодированное изображение ко- личество элементов Св и CR восстанавливается с помощью интер- поляции. ДИСКРЕТНОЕ КОСИНУСНОЕ ПРЕОБРАЗОВАНИЕ Исходные данные для ДКП имеют вид блоков или матриц 8x8 элементов сигналов Y, Св или CR, выражаемых 8-разрядными целыми положительными двоичными числами. Перед выполнени- ем ДКП значение каждого элемента блока сдвигается путем вычи- тания числа 128, в результате чего элементы блоков выражаются целыми числами со знаком. После этого в кодере JPEG выполняется ДКП в соответствии с формулами (3.12) при N = Л7 = 8. Обратное ДКП в декодере JPEG выполняется в соответствии с формулой (3.13). После него выпол- няется обратный сдвиг уровня каждого элемента путем прибавле- ния числа 128. Как правило, при вычислениях используются алго- ритмы быстрого ДКП. В результате выполнении ДКП квадратной матрицы из 8x8 чисел получается квадратная матрица из 8x8 коэффициентов ДКП, которые могут быть как положительными, так и отрицательными целыми числами из диапазона -2047...2047. Эта операция сама по себе не изменяет количества передаваемой информации и является обратимой, так как после выполнения обратного ДКП в каждом блоке и объединения блоков получается изображение, идентичное исходному. Единственным источником необратимых потерь ин- формации могут быть ошибки округления при вычислениях, одна- ко эти ошибки могут быть сделаны достаточно малыми за счет вы- бора разрядности вычислительных средств. Тем не менее, именно ДКП создает основу для последующе- го значительного уменьшения объема передаваемой информаций. Рассмотрим, как это получается. В первую очередь необходимо отметить, что каждый коэф- фициент ДКП содержит информацию не об одном каком-то эле- менте из матрицы элементов изображения, а о всех 64 элементах. Пусть {х(т,п)}, т,п = 0...7 - квадратная матрица элементов изобра- жения представляющая собой один из его блоков, {С(к,Г)}, к, I = 0 ...7 - квадратная матрица коэффициентов двумер- ного ДКП. Коэффициент С(0,0), как следует из (3.12), пропорцио- нален постоянной составляющей, т. е. среднему значению величий 90
Д/д,и) блока изображения. Коэффициент С(0,1) показывает вели- чину пространственно-частотной составляющей, имеющей нуле- вую пространственную частоту по горизонтальной координате й пространственную частоту, равную 1/N, по вертикальной коор- динате и т. д. (Понятие безразмерной дискретной частоты поясня- лось в § 3.1). При выполнении обратного ДКП в соответствии с (3.13), изображение формируется в виде суперпозиции составляющих, каждая из которых имеет определенную пространственную часто- ту. Как известно, наибольший вклад при формировании большин- ства реальных изображений вносят низкочастотные составляющие, определяющие формы и яркости основных объектов и фона. Высо- кочастотные составляющие создают резкие границы и контуры, а также мелкую структуру (текстуру) изображения. Возможность уменьшения скорости передачи двоичных сим- волов при помощи ДКП (как и при помощи ДПФ) основана на ука- занных свойствах пространственно-частотного спектра реальных изображений и на ограниченной способности человеческого зрения воспринимать изменения и искажения мелкой структуры изобра- жения. Количество передаваемой информации уменьшается путем более грубого квантования части или всех передаваемых коэффи- циентов в результате которого уменьшается число двоичных разрядов, используемых для представления этих коэффициентов, а многие из коэффициентов становятся равными 0. Как видим, уменьшение скорости передачи двоичных симво- лов достигается за счет отбрасывания части информации. Поэтому изображение, получаемое с помощью обратного ДКП в приемной части системы, не будет идентично исходному передаваемому изо- бражению. Следовательно, данный метод кодирования относится к методам кодирования с частичной потерей информации. Однако отбрасываемая информация оказывается несущественной для зри- тельного восприятия, а возникающие изменения и искажения изо- бражения не снижают или почти не снижают его субъективно вос- принимаемого качества. Поэтому рассмотренный метод кодирова- ния является методом сокращения психофизиологической избыточности телевизионного сигнала. Остановимся на последнем утверждении. Как уже указыва- юсь, для реальных изображений наибольшую величину имеет низ- кочастотные составляющие, которые, естественно, должны переда- 91
ваться с достаточно высокой точностью. Высокочастотные состав- ляющие, имеющие относительно большой уровень, создают резкие границы и контуры, а также высококонтрастные малоразмерные детали. Эта информация также должна передаваться, хотя, может быть, и с меньшей точностью, чем низкочастотные составляющие. Остальные высокочастотные составляющие, величины которых ма- лы и в результате квантования оказываются равными 0, создают слабо различимую мелкую структуру, текстуру отдельных участков изображения и незначительные особенности контуров объектов. Потеря этой информации изменяет изображение, но во мно- гих случаях эти изменения не существенны для получателя инфор- мации - зрителя. В случае же, когда получателем информации яв- ляется система автоматического распознавания образов (например, в медицинской диагностике или при обнаружении целей), описан- ный подход может оказаться неприемлемым, так как именно те- ряемая информация может быть принципиально важной для распо- знавания. Для сравнения можно отметить, что переход к более грубому квантованию исходного изображения приводит к возникновению заметных искажений в виде ложных контуров. В то же время ошибка квантования, возникающая при грубом квантовании коэф- фициентов ДКП, “размазывается” по всем элементам блока, и воз- никающие при этом искажения оказываются менее заметными. Таким образом, использование ДКП в сочетании с после- дующим квантованием коэффициентов ДКП обеспечивает умень- шение количества передаваемой информации и, следовательно, зребуемой ширины полосы частот канала связи. КВАНТОВАНИЕ КОЭФФИЦИЕНТОВ ДКП Квантование коэффициентов ДКП С(к,1) выполняется в соот- ветствии с формулой С (к,/) = Roundf "I, (4-1) 4 \f-Q(k,r>) где Q(k,l) - коэффициенты квантования, задаваемые в виде табли- цы из 8x8 целых чисел (таблица Q на рис. 4.1);/- параметр, опре- деляющий степень сжатия изображения, Round() - операция ок- ругления до ближайшего целого значения; Сч{к,1) - полученные ® 92
результате данной операции квантованные коэффициенты ДКП, которые могут быть как положительными, так и отрицательными. Важно отмет ить, что для квантования сигнала яркости и цве- торазностных сигналов используются разные таблицы. Примеры таблиц квантования для сигнала яркости и для цветоразностных сигналов приведены в табл. 4.1 и в табл. 4.2, соответственно. В ре- зультате выполнения операций деления и округления многие ко- эффициенты ДКП становятся равными нулю. Именно квантование создает возможность уменьшения числа двоичных символов, необ- ходимых для представления информации о коэффициентах ДКП, т. е. сжатия изображения. В то же время именно квантование явля- ется источником необратимых потерь информации при сжатии. Выбор конкретной таблицы квантования в стандарте JPEG оставлен на усмотрение пользователей, но таблицы квантования сигналов яркости и цветности должны быть одни и те же для всех блоков данного изображения. Таблица 4.1 16 11 10 16 24 40 51 61 12 12 14 19 26 58 60 55 14 13 16 24 40 57 69 56 14 17 22 29 51 87 80 62 18 22 37 56 68 109 103 77 24 35 55 64 81 104 113 92 49 64 78 87 103 121 120 101 72 92 95 98 112 100 103 99 Таблица 4.2 _ 17 18 24 47 99 99 99 99 _ 18 21 26 66 99 99 99 99 _24 26 56 99 99 99 99 99 __47 66 99 99 99 99 99 99 _99 99 99 99 99 99 99 99 _99 99 99 99 99 99 99 99 _99 99 99 99 99 99 99 99 Lj99 99 99 99 99 99 99 99 93
Операция деквантования, выполняемая в декодере JPEG, за- ключается в умножении коэффициентов Сч(к,1) на соответствую- щие коэффициенты Q(k,l) из таблиц квантования. Если таблицы I использованные при кодировании, не помещены в файл со сжаты- ми видеоданными, то при декодировании используются стандарт- ные таблицы квантования "по умолчанию". ЭНТРОПИЙНОЕ КОДИРОВАНИЕ В первую очередь необходимо отметить, что для кодирова- ния постоянных составляющих С9(0,0) используется особый метод. Если остальные 63 коэффициента ДКП в каждом блоке кодируются независимо от соответствующих коэффициентов в других блоках, то коэффициенты С9(0,0) всех блоков каждой составляющей изо- бражения предварительно кодируются с предсказанием. При этом коэффициент С9(0,0) в каждом блоке заменяется на величину DIFF = С9(0,0) - PRED, где PRED - значение коэффициента С9(0,0) в предыдущем по порядку кодирования блоке этой же составляю! щей. Для первого кодируемого блока берется PRED = 0. Для даль- нейшего кодирования значения DIFF в каждом блоке преобразуют- ся в двоичные числа с переменным числом бит, так что значения с малыми абсолютными величинами представляются более корот- кими последовательностями двоичных символов, а значения с большими абсолютными величинами - более длинными. Подробно правила выполнения этой операции здесь не рассматриваются. В результате этих операций сокращается число двоичных символов, требуемых для представления информации о коэффици- ентах С9(0,0) всех блоков. Перед выполнением энтропийного кодирования остальных 63 квантованных коэффициентов ДКП в каждом блоке выполняет- ся следующая подготовительная операция. Двумерная матрица ко- эффициентов преобразуется в одномерную последовательность путем считывания ее элементов в зигзагообразном порядке, как показано в табл. 4.3. По вертикали и по горизонтали показаны зна- чения индексов к,1 коэффициентов СЧ(Л,/). В клетках таблицы пока- заны номера, которые получают эти коэффициенты в одномерной последовательности. Номер "0" в клетке, соответствующей Cq(0,0). показывает, что этот коэффициент в данной операции не участвует,
Таблица 4.3 Гун 0 1 2 3 4 5 6 7 0 0 1 5 6 14 15 27 28 1 2 4 7 13 16 26 29 42 2 3 8 12 17 25 30 41 43 3 9 11 18 24 31 40 44 53 " 4 10 19 23 32 39 45 52 54 5 20 22 33 38 46 51 55 60 ' 6 21 34 37 47 50 56 59 61 7 35 36 48 49 57 58 62 63 Как видно из табл. 4.3, первым следует коэффициент Cq(0,1), соответствующий самой низкочастотной составляющей по гори- зонтали, затем - Cq(l,0), а затем все более и более высокочастотные составляющие. Последовательность завершается специальным символом ЕОВ (end of block - конец блока). Как отмечалось выше, в результате квантования многие из коэффициентов ДКП становятся равными 0, поэтому в получаемой одномерной последовательности этих коэффициентов оказывается большое число нулевых элементов. Каждый отличный от нуля ко- эффициент ДКП представляется в виде пары чисел. Первое из этих чисел показывает, сколько нулевых значений подряд прошло в по- следовазельности перед данным ненулевым коэффициентом. Вто- рое число в паре показывает значение самого квантованного коэф- фициента, преобразованное в число с переменным количеством бит. Правила этого преобразования аналогичны используемым при кодировании постоянных составляющих, т. е. коэффициенты с ма- лыми абсолютными величинами представляются более короткими последовательностями двоичных символов, а коэффициенты с большими абсолютными величинами - более длинными. Если в результате квантования получилось много нулевых и малых по абсолютной величине коэффициентов, кодирование по такому методу, называемому runlength coding ("кодирование с бе- гУЩей длиной"), дает значительный выигрыш, так как, во-первых, Уменьшается общее количество чисел, представляющих кодируе- мый блок, а во-вторых, уменьшается число двоичных символов для Представления большинства чисел. 95
Таким образом, для каждого блока 8x8 пикселов матрица квантованных коэффициентов ДКП оказалась преобразованной в последовательность двоичных чисел (называемых в соответствии с терминологией теории кодирования символами), которые затем подвергаются энтропийному кодированию. Чаще всего применяется кодирование по методу Хаффмена, который заключается в построении такого кода с переменной дли- ной кодового слова, что чаще встречающимся (т. е. более вероят- ным) символам ставятся в соответствие более короткие кодовые слова, а реже встречающимся (менее вероятным) символам - более длинные кодовые слова. Это дает дополнительный выигрыш в сжа- тии информации. Кодирование по Хаффмену выполняется с помощью таблицы кодов, в которой каждому символу кодируемой последовательно- сти ставится в соответствие кодовое слово. Стандарт JPEG преду- сматривает возможность использования стандартной таблицы ко- дов "по умолчанию". Возможно и построение таблицы кодов, наи- более эффективной для данного изображения. В этом случае таблица кодов должна быть записана в файл, чтобы ее можно было использовать при декодировании. В процессе декодирования кода Хаффмена кодовые слова, считываемые из файла сжатых видеоданных, преобразуются об- ратно в последовательность чисел, по которым восстанавливаются значения квантованных коэффициентов ДКП. Все операции, вы- полняемые при подготовке к энтропийному кодированию, и само это кодирование являются полностью обратимыми и не создают потерь информации, а достигаемое при них сжатие является след- ствием ранее выполненного квантования. Вместо кодирования по Хаффмену может использоваться другой вид энтропийного кодирования, называемый арифметиче- ским кодированием. ФОРМАТ ФАЙЛА JPEG Сжатые видеоданные записываются в файл определенной структуры с расширением .jpg, о которой здесь даются только са- мые общие сведения. Файл начинает ся с заголовка, содержащего различные сведе- ния о файле. Затем следует область данных об изображении, начи- нающаяся с маркера SOI (Start of Image). За этим маркером мог/1 96
быть записаны таблицы квантования и таблица кодов для кодиро- вания по Хаффмену. Затем следует заголовок изображения, в кото- ром содержатся сведения о размерах изображения (в количестве пикселов), о характере изображения (черно-белое или цветное), о формате дискретизации и др. После этого следуют сами сжатые видеоданные. Область данных завершается маркером EOI (End of image). РЕАЛИЗАЦИЯ И РАЗЛИЧНЫЕ ВАРИАНТЫ JPEG Метод JPEG реализуется, как правило, программными сред- ствами на компьютерах. Основные области его применения: архи- вирование изображений на магнитных и оптических дисках, пере- дача неподвижных изображений по каналам связи, запись отснятых кадров в электронных фотокамерах и др. Многие графические программы, например популярная про- грамма Adobe Photoshop, могут сжимать изображения методом JPEG, создавая файлы *.jpg, и декодировать такие изображения. Однако следует иметь в виду, что не все программы дают совмес- тимые между собой форматы файлов. На четвертой странице обложки для примера приведено изо- бражение, верхний левый сектор которого взят из несжатого изо- бражения. Правый верхний сектор взят из изображения, сжатого в восемь раз. Искажения практически не заметны. Правый нижний сектор взят из изображения, сжатого в 18 раз. Немного заметна блочная структура. Левый нижний сектор взят из изображения, сжатого в 25 раз. Блочная структура сильно заметна. Таким обра- зом, по мере увеличения степени сжатия возрастает заметность блочной структуры, увеличиваются искажения яркости и цветно- сти. Некоторые программы при декодировании и воспроизведении сжатых по стандарту JPEG изображений выполняют дополнитель- ную фильтрацию (сглаживание) на границах блоков, чтобы умень- шить заметность блочной структуры. JPEG может использоваться и для сжатия движущихся изо- бражений. При этом каждый кадр кодируется независимо от других кадров. Такой метод, называемый Motion JPEG, может быть поле- зен для видеозаписи и в студийной аппаратуре, но он не дает дос- таточной степени сжатия видеоинформации для телевизионного нещания. 97
Существует также стандарт JPEG без потерь информации] (Loseless JPEG), основанный на использовании кодирования с предсказанием по соседним элементам изображения. С описанным в настоящем разделе "обычным" стандартом JPEG его связывает лишь то, что он разработан той же организацией. Стандарт JPEG развивается. Среди новых его возможностей следует отметить вариант с иерархическим кодированием, которое, позволяет получить сначала изображение с низким разрешением, используя небольшой объем сжатых видеоданных, а потом посте-1 пенно улучшать разрешение, добавляя дополнительные данные. Операции, содержащиеся в стандарте JPEG, используются и в стандартах сжатия движущихся изображений MPEG, о которых пойдет речь в следующих разделах. 4.2. Стандарты сжатия движущихся изображений и зву- кового сопровождения MPEG-1 и MPEG-2 Стандарты сжатия движущихся изображений MPEG (Motion Picture Experts Group) вырабатываются и принимаются имеющей такое же название группой экспертов при Международной органи- зации стандартизации ISO. Стандарт MPEG-1, используемый в ос- новном при записи видеопрограмм на компакт-диски, был оконча- тельно утвержден в 1993 г. [5-7], а стандарт MPEG-2, предназна- ченный в первую очередь для телевизионного вещания, был принят в ноябре 1994 г. [8-10]. Стандарты MPEG-1 и MPEG-2 имеют много общего, но меж-1 ду ними есть и различия. В данном разделе в основном излагается содержание стандарта MPEG-2, и указываются его отличия от MPEG-1. 4.2.1. Кодирование и декодирование движущихся изображений Метод кодирования движущихся изображений, используе- мый в стандартах MPEG-1 и MPEG-2, называется гибридным, так как в нем сочетаются внутрикадровое (intraframe) кодирование, направленное на уменьшение в основном психофизиологической избыточности в отдельных кадрах, и межкадровое (interframe) ко- дирование, с помощью которого уменьшается избыточность, обу- словленная межкадровой корреляцией [6, 9]. Использование меж- 98
ядрового кодирования позволяет получить существенно большую степень сжатия движущегося изображения, чем при раздельном сжатии отдельных кадров по методу JPEG. Внутрикадровое кодирование содержит операции, аналогич- ные используемым в методе JPEG, т. е. поблочное дискретное ко- синусное преобразование, квантование и кодирование с перемен- ной длиной кодовых слов. Межкадровое кодирование содержит операции оценки и компенсации движения и кодирования с пред- сказанием. Сущность этих операций, взятых по отдельности, была изложена в § 3.4 и 3.5. Целые кадры и фрагменты кадров могут кодироваться с при- менением совместно межкадрового и внутрикадрового кодирова- ния (для краткости этот случай далее называется просто межкадро- вым кодированием) или только с применением внутрикадрового кодирования. ГРУППЫ ИЗОБРАЖЕНИЙ Изображением (picture) в стандартах MPEG-1, MPEG-2 мо- жет быть как целый кадр, так и одно из полей кадра. Далее для уп- рощения изложения термин "кадр" используется вместо термина "изображение" везде за исключением подраздела, в котором специ- ально говорится о кадровом и полевом режимах кодирования. Последовательность кадров делится на группы, называемые GOP (group of pictire). В ipynne есть кадры трех типов: - 1-кадры (Intraframe - внутрикадровые), которые передаются только с внутрикадровым кодированием и являются опорными для декодирования остальных кадров группы, обеспечивая возмож- ность начала декодирования и воспроизведения принятого ТВ- сигнала практически в любой момент времени; - Р-кадры (Predictive - предсказанные), при передаче которых используется межкадровое кодирование путем предсказания с ком- пенсацией движения по ближайшему предшествующему 1-кадру или Р-кадру (как будет пояснено далее, некоторые фрагменты Р-кадра могут кодироваться без предсказания с помощью внутри- кадрового кодирования); - В-кадры (Bidirectional - двунаправленные), которые пере- даются с межкадровым кодированием путем предсказания с ком- пенсацией движения по ближайшим к ним как спереди, так и сзади 1-кадрам и Р-кадрам, а сами не могут использоваться для предска- 99
зания других кадров (некоторые фрагменты В-кадра могут кодиро- ваться внутрикадровым методом). Рассмотрим пример последовательности кадров. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 I ВВРВВРВВРВВРВВ1 ВВРв Здесь кадры с 1 по 15 образуют группу кадров. Число кадров в группе может быть и другим, но она всегда начинается с 1-кадра. Р-кадр 4 предсказывается по 1-кадру 1, Р-кадр 7 - по Р-кадру 4, Р-кадр 10 - по Р-кадру 7 и т.д. 1-кадр 16 передается с внутрикадро- вым кодированием независимо от всех предшествующих ему кад- ров. В-кадры 2 и 3 предсказываются по 1-кадру 1 и по Р-кадру 4, В-кадры 5 и 6 - по Р-кадрам 4 и 7 и т.д. В-кадры 14 и 15 предска- зываются по 1-кадру 16 и по Р-кадру 13. Перед кодированием поря- док следования кадров изменяется, так как каждый В-кадр должен идти после обоих кадров, по которым он предсказывается. 1 4 2 3 7 5 6 10 8 9 13 11 12 16 14 15 19 17 18 22 1 I PBBPBBPBBPBBI ВВРВВР В таком порядке кадры кодируются и перелаются, а в про- цессе декодирования восстанавливается исходный порядок кадров. МАКРОБЛОКИ Макроблоком называется квадратный фрагмент изображения размером 16x16 элементов (пикселов). Макроблок содержит ин- формацию как о яркости (У), так и о цветности (Св, Св). В случае использования формата дискретизации 4:2:0 каждый макроблок содержит четыре блока 8x8 элементов сигнала яркости У и по од- ному блоку 8x8 элементов цветоразностных сигналов Св и Св. При использовании формата 4:2:2 каждый макроблок содержит при том же количестве блоков У по два блока Св и Св, а при использовании формата 4:4:4 - по четыре блока CR и Св. Группа следующих друг за другом макроблоков называется слайсом (slice - доля, часть, квант). Число макроблоков в слайсе может быть произвольным. Слайсы в изображении не должны пе- рекрываться, но их положение может изменяться от одного изо-* бражения к другому. 100
ПРОГРЕССИВНАЯ И ЧЕРЕССТРОЧНАЯ РАЗВЕРТКИ При кодировании телевизионного изображения, передавае- мого с прогрессивной разверткой, каждый кадр состоит из одного поля и разбивается на макроблоки. В случае чересстрочной развертки каждый кадр состоит из двух полей. Первое поле содержит нечетные строки кадра, а второе поле - четные строки. При этом возможны два варианта кодирова- ния кадра, выбор одного из которых для данного кадра осуществ- ляется на основе оценки движения в нем. В случае кадрового кодирования (frame) кодируемым изобра- жением является полный кадр, который целиком хранится в ЗУ ко- дера, вследствие чего для кодирования одновременно доступны как четные, так и нечетные строки. Блоки элементов сигнала яркости и блоки элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 выделяются из макроблока, как это показано на рис. 4.3,а, где заштрихованными показаны нечетные строки, а не заштрихован- ными - четные. В случае формата 4:2:0 в блоки цветоразностных сигналов берутся элементы из каждой второй строки. Кадровое ко- дирование выбирается в случаях, когда изменения во втором поле кадра относительно первого поля того же кадра незначительные. 6) Рис. 4.3. Формирование блоков при чересстрочной развертки в случаях кадрового (а) и полевого (б) режимов 101
В случае полевого кодирования (field) кодируемым изобра- жением является каждое поле. Первое поле кадра может использо- ваться для предсказания макроблоков второго поля того же кадра. При этом в каждый блок элементов сигнала яркости или элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 входят эле- менты из одного поля, как это показано на рис. 4.3,6. Блоки эле- ментов цветоразностных сигналов для формата 4:2:0 образуются также, как при кадровом кодировании. Как уже указывалось, при описании работы кодера и декоде- ра говорится о кадровом кодировании, но следует помнить, что существует и полевое кодирование. КОДЕР ВИДЕОИНФОРМАЦИИ В стандартах MPEG не описано построение кодера, а лишь определен синтаксис потока данных на его выходе. Структурная схема кодера видеоинформации (рис. 4.4) отображает основные операции, выполняемые при кодировании и обеспечивающие по- лучение выходного потока данных с требуемыми параметрами. Рис. 4.4. Структурная схема видеокодера MPEG-2 На схеме обозначены ДКП - блок прямого дискретного ко- синусного преобразования; ДКП1 - блок обратного дискретного косинусного преобразования; Кв - квантователь; Кв 1 - декванто- ватель, т. е. блок, выполняющий обратную квантованию операцию; 102
ЗУ - запоминающее устройство; Пред - блок, выполняющий фор- мирование предсказанного кадра; ОД - блок оценки движения и формирования векторов движения; КПДС - блок, в котором вы- полняется кодирование с переменной длиной кодового слова; Мп - мультиплексор; БЗУ - буферное запоминающее устройство; УКС - блок управления коэффициентом сжатия изображения. Кроме того, на схеме показаны сумматор, вычитающее устройство и переклю- чатель. Работа всех блоков синхронизируется общей тактовой час- тотой 27 МГц. В кодере реализуются два режима кодирования: внутрикад- ровое кодирование (переключатель в положении I) и межкадровое кодирование с предсказанием и компенсацией движения (переклю- чатель в положении 2). Все макроблоки 1-кадров кодируются в режиме внутрикадро- вого кодирования. Метод аналогичен JPEG: разложение на блоки 8x8 пикселов, поблочное ДКП, квантование полученных коэффи- циентов в соответствии с формулой (4.1), считывание в зигзагооб- разном порядке, кодирование с переменной длиной кодовых слов. При квантовании могут использоваться, например, табл. 4.1 и 4.2. В случае использования нестандартных таблиц коэффициентов квантования они включаются в общий выходной поток данных. Кодирование с переменной длиной кодовых слов осуществ- ляется с помощью таблиц кодов, имеющихся в стандарте. Как и в JPEG, коэффициенты ДКП, соответствующие постоянным состав- ляющим, кодируются с использованием предсказания по таким же коэффициентам предыдущих блоков, и для них предназначены от- дельные таблицы кодов с переменной длиной кодовых слов. Отме- тим, что в тексте стандартов нет термина "кодирование по Хаф- фмену". Видимо это связано с тем, что таблицы кодов заданы в стандарте, а не вычисляются под конкретные данные, как это требуется при кодировании по Хаффмену. Макроблоки Р-кадров могут кодироваться как внутрикадро- вым методом, так и межкадровым в зависимости от наличия и ин- тенсивности изменений в этом макроблоке по сравнению с соот- ветствующей областью изображения, по которому выполняется предсказание данного Р-кадра, т. е. в зависимости от результатов оценки движения. Изображение, по которому выполняется предсказание, фор- мируется из кодированных данных предыдущего I- или Р-кадра. 103
В деквантователе данные умножаются на коэффициенты квантова- ния, затем выполняется обратное ДКП так же, как это делается в декодере в приемной части системы, после чего декодированное изображение записывается в ЗУ. Как было показано в § 3.5, ис- пользование обратной связи при получении данных для предсказа- ния позволяет избежать накопления ошибок квантования. Для реа- лизации всех возможных вариантов предсказания ЗУ должно со- держать несколько (как минимум 4) предыдущих кадров. Оценка движения осуществляется путем сравнения текущего изображения, поступающего на вход кодера, с изображением, на- ходящимся в ЗУ и используемым для предсказания (опорным изо- бражением). Эта процедура поясняется рис. 4.5,а. Для каждого макроблока кодируемого изображения отыскивается, как это было описано в § 3.4, соответствующая ему область А1 размером 16x16 элементов в опорном изображении. Положение соответствующей области определяется с точностью до половины пиксела по обеим координатам. Предыдущий Кодируемый Последующий I-или Р-кадр В-кадр Р-кадр Рис. 4.5. Получение предсказанного макроблока в Р-кадре (а) и в В-кадре (б) 104
Если в области поиска не найдена соответствующая область, отличие которой от данного макроблока не превышает установлен- ной величины, то этот макроблок кодируется во внутрикадровом режиме аналогично макроблокам 1-кадров. Если соответствующая область А1 найдена, то макроблок ко- дируется в межкадровом режиме, и для него определяется вектор движения V1. Векторы движения кодируются с переменной длиной кодовых слов и через мультиплексор включаются в общий поток данных. Если для макроблока выбран межкадровый режим кодирова- ния, то формируется предсказанный макроблок (Предск.МБ), в ка- честве которого берется найденная соответствующая область А1 из опорного изображения. Предсказанный макроблок поэлементно вычитается из настоящего макроблока. Полученный разностный макроблок (ошибка предсказания) проходит поблочное ДКП, кван- тование и кодирование с переменной длиной кодовых слов. Мат- рица коэффициентов квантования для ошибок предсказания со- держит 64 числа 16 и используется для квантования как яркостных, так и цветоразностных составляющих. Для макроблоков В-кадров поиск соответствующей области осуществляется как в предшествующем I- или Р-кадре так и в по- следующем Р-кадре (рис. 4.5,6). В зависимости от результатов по- иска соответствующей области возможны следующие варианты: - макроблок кодируется во внутрикадровом режиме; - формируется предсказанный макроблок в виде соответст- вующей области А1 предыдущего I- или Р-кадра; - формируется предсказанный макроблок в виде соответст- вующей области А2 последующего Р-кадра; - формируется предсказанный макроблок в виде поэлемент- ной полусуммы соответствующей области А1 предыдущего I- или Р-кадра, и соответствующей области А2 последующего Р-кадра, т- е. в виде результата интерполяции по этим областям. В последних трех вариантах макроблок кодируется в меж- кадровом режиме, как это было описано для Р-кадров. В случае предсказания путем интерполяции для макроблока необходимо пе- редавать два вектора движения V1 и V2, показывающие положения соответствующих областей в предыдущем и в последующем КаДрах. 105
При кодировании телевизионных изображений с чересстроч- ной разверткой возможны два основных варианта предсказания- полевой и кадровый. При полевом предсказании макроблоки каж- дого поля предсказывается независимо от другого поля этого кад- ра, и для формирования предсказанного макроблока используются данные одного или двух ранее кодированных полей. При кадровом предсказании для формирования предсказанного макроблока ис- пользуются данные, содержащиеся в обоих полях одного или двух ранее кодированных кадров. Помимо этого стандарт предусматри- вает дополнительные режимы предсказания при чересстрочной развертке. Кроме того, стандарт позволяет пропускать некоторые мак- роблоки при кодировании (skipped macroblock). Для таких макро- блоков никакие данные не передаются. Этот вариант используется, если кодируемый макроблок не имеет отличий от соответствующе- го макроблока в опорном изображении. Описанный способ кодирования телевизионного сигнала и называется кодированием с предсказанием и компенсацией движе- ния. Выигрыш в сжатии изображения достигается благодаря тому, что разности действительных и предсказанных макроблоков Р- и В-кадров содержат значительно меньше информации, чем сами эти макроблоки. При этом для В-кадров объем передаваемой информа- ции будет наименьшим, так как при двунаправленном предсказа? нии ошибка предсказания минимальна. Кодированные видеоданные и векторы движения через муль- типлексор поступают в БЗУ, работающее по принципу "первым вошел - первым вышел". Одна из функций БЗУ - согласование неравномерного во времени потока данных после кодирования со строго постоянной скоростью передачи двоичных символов при выполнении кодиро- вания в реальном времени. Неравномерность потока данных, по- ступающих в БЗУ, обусловлена в первую очередь наличием разных типов кадров. Считывание данных из БЗУ осуществляется с посто- янной скоростью. Степень заполненности БЗУ колеблется во вре- мени, возрастая при увеличении потока поступающих на него дан- ных и снижаясь при уменьшении этого потока. Помимо различия типов кадров на степень заполнения буфе- ра может влиять характер передаваемого изображения. Если в изо- бражении много мелких деталей, возрастает количество и уровень 106
рысокочастотных составляющих пространственно-частотного спектра, т. е. количество отличных от нуля коэффициентов ДКП. Это приводит к увеличению потока данных. При передаче же "гладких" изображений количество отличных от нуля коэффициен- тов ДКП уменьшается, так как пространственно-частотный спектр изображения имеет в основном низкочастотные составляющие. Для оптимизации работы системы желательно поддерживать уровень заполнения БЗУ приблизительно постоянным. Если БЗУ переполняется, то, очевидно, будет происходить потеря части дан- ных, т. е. ухудшение качества изображения па выходе системы. Ес- ли же БЗУ полностью освобождается, то по каналу связи прихо- дится передавать "пустые" блоки, что приводит к снижению эф- фективности его использования. Чтобы избежать обоих нежелательных случаев, в кодере изображения введена обратная связь с БЗУ на блок УКС, управляющий степенью сжатия изобра- жения. Сущность действия этой обратной связи заключается в сле- дующем. Если передается мелкоструктурное изображение, и за- полнение БЗУ увеличивается, то под воздействием обратной связи увеличивается параметр квантования коэффициентов ДКП [см. формулу (4.1)]. При этом число бит на каждый коэффициент уменьшается, и уровень потока данных поддерживается примерно постоянным. Наоборот, при передаче "гладких" изображений кван- тование становится более точным. Такой метод соответствует свойствам человеческого зрения: на мелкоструктурных изображе- ниях менее заметны неточности в передаче уровней яркости, так как в первую очередь воспринимаются контуры деталей. Измене- ние параметра квантования может осуществляться или после коди- рования каждого кадра с учетом его типа, или в пределах одного кадра после кодирования каждого слайса. Данные о параметре квантования включаются в общий поток данных в заголовки слайсов. ПОТОК ВИДЕОДАННЫХ MPEG-2 Упрощенная структура потока данных на выходе видеокоде- ра MPEG-2 показана на рис. 4.6. 107
Рис. 4.6. Структура потока данных на выходе видеокодера MPEG-2 (упрощенно) Самой крупной структурной единицей потока видеоданных является видеопоследовательность (video sequence), в некоторых русскоязычных источниках называемая рядом. Видеопоследова- тельность может содержать произвольное число групп изображе- ний (GOP), которые, в свою очередь, состоят из кадров (при кадро- вом кодировании) или полей (при полевом кодировании) разных типов (1, Р, В). Каждое изображение состоит из слайсов, каждый из которых содержит некоторое число макроблоков. Каждая структурная единица потока видеоданных начинает- ся с соответствующего стартового кода, позволяющего при деко- дировании выделять из потока нужные данные. Передача видеоданных всегда начинается с заголовка видео- последовательности (Заголовок ВП), за которым следует расшире- ние заголовка видеопоследовательности (Расшир. Зг. ВП). В этих частях потока данных передается, в частности, следующая инфор- мация: - ширина и высота изображения, выраженные количествами пикселов; - отношение ширины к высоте; - частота кадров; - скорость передачи двоичных символов для этого потока ви- деоданных; - признаки необходимости загрузки из потока видеоданных матриц коэффициентов квантования; - признак чересстрочной развертки; - формат дискретизации (4:2:0, 4:2:2 или 4:4:4). 108
Далее могут передаваться расширение и данные пользовате- ля (Расшир. и польз.). Эта часть потока может отсутствовать, что показано стрелкой, идущей в обход блока. Расширение присутству- ет, в частности, если используется масштабируемость (см. ниже). Каждая группа изображений может начинаться с заголовка (Заголовок GOP). Наличие этого заголовка обязательно для первой группы изображений в видеопоследовательности. Для других групп изображений заголовок может отсутствовать (стрелка в об- ход не показана), так как начало группы всегда совпадает с 1-кадром. После заголовка группы изображений могут передаваться данные пользователя. Перед каждым кадром или полем идет заголовок изображе- ния (Заголовок изобр.), содержащий номер этого изображения в видеопоследовательности, тип изображения (I, Р или В) и другие данные. Затем могут передаваться расширение и данные пользова- теля. После этого передаются сами данные изображения (Данные изобр.). Заголовок каждого слайса (на рис. 4.6 не показано) содер- жит данные о положении этого слайса в изображении, значение параметра квантования и другую информацию. Данные внутри ка- ждого макроблока также расположены в заданном порядке. После передачи данных изображения может следовать другое изображение этой же группы (стрелка на блок Заголовок изобр.) или начинаться следующая группа изображений (стрелка на блок Заголовок GOP). Если передано последнее изображение в видео- последовательности, то передается признак окончания последова- тельности (Конец ВП). ДЕКОДЕР ВИДЕОИНФОРМАЦИИ В соответствии со стандартом в декодере (рис. 4.7) выполня- ются декодирование кодов переменной длины, деквантование, об- ратное ДКП, компенсация движения и восстанавливается исходная последовательность кадров. Декодер содержит буферное запоминающее устройство (БЗУ); демультиплексор ДМп, декодеры кодов с переменной дли- ной кодовых слов ДКПДС, а также деквантователь Кв1, блок об- ратного дискретного косинусного преобразования ДКП- , предска- затель Пред и ЗУ, аналогичные соответствующим блокам кодера. Тактовая частота 27 МГц восстанавливается с использованием Данных из декодируемого потока. 109
Рис. 4.7. Структурная схема видеодекодера MPEG-2 БЗУ на входе декодера выполняет функцию согласования по- стоянной скорости передачи двоичных символов во входном пото- ке данных с процессами в декодере, при которых данные из БЗУ считываются неравномерно во времени. С выходов демультиплек- сора кодированные данные изображения и значения параметра квантования поступают на ДКПДС и далее на деквантователь, а векторы движения поступают на ДКПДС и далее на предсказатель.! Так же как и в кодере, в декодере имеются два режима рабо- ты. При приеме 1-кадров и передаваемых с внутрикадровым коди- рованием макроблоков Р-кадров и В-кадров на выходе блока об- ратного ДКП формируются блоки изображения. Переключатель на структурной схеме при этом находится в положении 1, и сигнал с блока обратного ДКП направляется на выход. При приеме макро- блоков Р-кадров и В-кадров, кодируемых в межкадровом режиме, переключатель находится в положении 2. В этом случае формиро- вание выходного сигнала происходит путем поэлементного сложе- ния поступающих с блока обратного ДКП значений разностей с предсказанным макроблоком, формируемым из элементов ранее декодированных изображений с использованием декодированных векторов движения. Реализация декодера аппаратными, программными или аппа- ратно-про1раммными средствами существенно проще, чем реали- зация кодера, так как в декодере не надо выполнять поиск соответ- ствующих областей в опорных изображениях, а именно этот поиск требует наибольшего количества вычислений. МАСШТАБИРУЕМОСТЬ Важной особенностью стандарта MPEG-2 является масшта- бируемость (Scalability), которая определяется как возможность
получения изображения из части полного потока видеоданных. По- следний в случае наличия масштабируемости состоит из двух или более слоев (layers). Базовый слой дает возможность получить изо- бражение с некоторыми начальными параметрами качества. До- полнительные (enhancement) слои потока данных позволяют полу- чить изображение улучшенного качества. Стандарт MPEG-2 преду- сматривает возможность организации потоков видеоданных как с масштабируемостью, так и без нее. Стандартом MPEG-2 предусмотрены следующие виды мас- штабируемости: по пространственному разрешению (Spatial Scalable), по отношению сигнал/шум (SNR Scalable), по времени (Temporal Scalable) и по разделению данных (Data partitioning Scal- able). Каждый вид масштабируемости, взятый отдельно, предпола- гает наличие в потоке данных двух уровней. В случае использова- ния одновременно двух или более видов масштабируемости число уровней в потоке данных может быть до трех. Масштабируемость по пространственному разрешению за- ключается в получении от одного источника видеоинформации двух ТВ-сигналов с разными параметрами по разрешающей спо- собности. Например, сигналов ТВ обычной четкости и ТВ высокой четкости. Базовый слой потока данных содержит информацию, достаточную для воспроизведения изображение обычной четкости. Дополнительный слой содержит данные, позволяющие дополнить воспроизводимое изображение до изображения высокой четкости. Важно отметить, что объем этих дополнительных данных меньше, чем полный объем данных об изображении высокой четкости, так как часть информации передается в базовом слое. Пользователи, имеющие декодеры, способные декодировать оба слоя потока данных, и, следовательно, более сложные и доро- гие, будут получать на экранах своих приемников изображение вы- сокой четкости. Другие пользователи, имеющие более простые и дешевые декодеры для декодирования только базового слоя, так- же смогут смотреть эти передачи, но в виде изображения обычной Четкости. Масштабируемость по отношению сигнал/шум дает воз- можность получать от одного источника видеоинформации изо- бражения с двумя уровнями отношения сигнал/шум и, следова- тельно, с двумя уровнями качества. Под шумом понимаются ошиб- ки, вносимые квантованием и кодированием. Базовый слой потока 111
данных может содержать изображение с большей степенью сжатия и, следовательно, менее качественное. Дополнительный слой при этом будет содержать данные, позволяющие при их добавлении к данным базового слоя получить изображение с меньшей степе- нью сжатия, т. е. более качественное. Масштабируемость по времени позволяет получать от одно- го источника видеоинформации телевизионные изображения с двумя уровнями разрешающей способностью по времени. На- пример, базовый слой может содержать обычный ТВ-сигнал с час- тотой кадров 25 Гц и чересстрочной разверткой, а дополнительный слой - данные, позволяющие при их добавлении к данным базового слоя получить телевизионное изображение с частотой кадров 50 Гц и прогрессивной разверткой. Масштабируемость по разделению данных позволяет ис- пользовать для передачи параллельно два канала связи. По одному из них, более помехозащищенному, передается базовый слой, со- держащий наиболее критичную к ошибкам информацию - заголов- ки, векторы движения, коэффициенты ДКП, соответствующие низ- ким пространственным частотам. По менее помехозащищенному каналу передаются менее критичные к ошибкам данные, например, коэффициенты ДКП, соответствующие высоким пространственным частотам. Этот виД масштабируемости хорошо сочетается с предыду- щими тремя видами, при использовании каждого из которых базо- вый слой потока данных может передаваться по более помехоза- щищенному каналу связи, а дополнительный слой - по менее поме- хозащищенному. Тогда при хороших условиях приема пользователь, имеющий декодер для обоих слоев, сможет видеть изображение наивысшего качества, а при ухудшении этих условий, например, при удалении от передатчика, он сможет принимать ме- нее качественное изображение. Следует отметить, что масштабируемость, заложенная в стандарте, пока редко встречается в практических реализациях цифровых телевизионных систем, однако она является важной предпосылкой их дальнейшего развития. Подход, основанный на масштабируемости, в последние годы стал характерным не только для цифрового телевидения, но и для многих других телекоммуни- кационных и информационных технологий. 112
УРОВНИ И ПРОФИЛИ MPEG-2 В табл. 4.4 показаны различные варианты телевизионных систем и методов кодирования телевизионных сигналов, преду- смотренные стандартом MPEG-2. Четыре строки таблицы соответ- ствуют четырем уровням пространственного разрешения: - Low (352x280 элементов) - уровень телевидения понижен- ной четкости, используемый в видеотелефоне и технике телекон- ференций; - Main (720x576 элементов) - уровень телевидения обычного разрешения; - High-1440 (1440x1152 элементов) - уровень телевидения высокого разрешения с форматом экрана 4:3; - High (1920x1152 элементов) - уровень телевидения высоко- го разрешения с форматом экрана 16:9. Таблица 4.4 Уровень Профиль Простой (Simple) Основной (Main) Масштаб. поС/Ш (SNR Scal-able) Простран- ственный (Spatially Scalable) Высокий (High) High 1920X1152 -• 80 Мбит/с - - ЮОМбит/с High-1440 1440X1152 - 60 Мбит/с - 60 Мбит/с 80 Мбит/с Main 720x576 15 Мбит/с 15 Мбит/с 15 Мбит/с - 20 Мбит/с Low 352X280 - 4 Мбит/с 4 Мбит/с - Кодирова- ние компо- нетов 4:2:0 4:2:0 4:2:0 4:2:0 4:2:0 или 4:2:2 В-кадры Нет Есть Есть Есть ? Масштаби- руемость Нет Нет по С/Ш По простр. разреш. и поС/Ш По простр. разреш. и по С/Ш 113
Вертикальные столбцы таблицы соответствуют новой града, ции цифровых телевизионных систем - профилям. С переходом «а более высокие профили, т. е. при продвижении по таблице слева направо, увеличивается эффективность используемых методов ко- дирования, появляются новые свойства телевизионной системы, в том числе масштабируемость, но, естественно, усложняются ап- паратура и алгоритмы обработки сигналов. В клетках таблицы даны максимальные значения скорости передачи двоичных символов для вариантов стандарта. В трех нижних строках таблицы приведены дополнительные сведения о свойствах профилей, которые будут пояснены ниже. Рассмотренный метод кодирования относится к главному профилю (Main Profile). Как видно из таблицы, на главном уровне, соответствующем телевидению обычного разрешения, скорость передачи двоичных символов в канале связи достигает 15 Мбит/с. Сравнив это значение с исходным значением 216 Мбит/с, соответ- ствующей параллельному стыку по Рекомендации 601 МККР, ви- дим, что осуществляется сжатие потока информации примерно в 15 раз. На более высоких уровнях главного профиля, соответствую- щих телевидению высокого разрешения, скорость передачи двоич- ных символов в канале связи возрастает до 60 или 80 Мбит/с. Сле- дует особо подчеркнуть, что для всех уровней разрешения данного профиля используются один и тот же набор методов кодирования. В этом заключается совместимость разных уровней. На более вы- соких уровнях кодеры и декодеры должны иметь большее быстро- действие и больший объем ЗУ. Аппаратура более высоких уровней разрешения может работать на более низких уровнях разрешения. I Перейдем к рассмотрению других профилей стандарта MPEG-2. Простой профиль (Simple Profile) отличается от главного профиля отсутствием В-кадров, что дает упрощение аппаратуры, но приводит к ухудшению качества изображения при той же скоро- сти передачи двоичных символов. Данный профиль может исполь- зоваться для записи изображений на магнитные или лазерные дис- ки и для других целей. Высшие профили стандарта MPEG-2 характеризуются нали- чием масштабируемости, которая была рассмотрена ранее. Кроме того, на высших профилях возможно применение компонентного кодирования сигналов цветного телевидения с передачей цветораз- 114
достных сигналов не только через строку (4:2:0), но и в каждой строке (4:2:2). Таким образом, в стандарте MPEG-2 даны параметры семей- ства цифровых телевизионных систем для разных применений и с разным качеством изображения, имеющих в своей основе сход- ные методы кодирования изображения. По этому стандарту могут создаваться не только системы ТВ-вещания, но и другие системы, предназначенные для передачи движущихся изображений в цифро- вой форме: телеконференции, интерактивный видеосервис и муль- тимедиа и т. д. ОТЛИЧИЯ MPEG-1 И MPEG-2 Стандарт MPEG-2 является развитием и расширением стан- дарта MPEG-1. Поток видеоданных MPEG-2 содержит составляю- щие, которых нет в MPEG-1. По-видимому, наиболее важным от- личием двух стандартов является наличие в MPEG-2 масштаби- руемости и всех связанных с ней особенностей. В стандарте MPEG-1 нет принципиальных ограничений на размеры кодируемых изображений и на использование чересстроч- ной развертки по сравнению с MPEG-2. Тем не менее, MPEG-1 предназначен для сжатия движущихся изображений с прогрессив- ной разверткой, частотой кадров до 30 Гц, числом строк до 576 и числом элементов в строке до 720 в поток данных со скоростью передачи двоичных символов до 1856000 бит/с. На практике же MPEG-1 обычно используется для сжатия движущихся изображений размером 360x240 элементов с прогрес- сивной разверткой (формат SIF). Такое сжатие позволяет записы- вать видеопрограммы с некоторой потерей четкости на компакт- диски и воспроизводить их на ПК, выполняя декодирование в ре- альном времени чисто программными средствами. Группа MPEG начинала работу над стандартом MPEG-3, оп- ределяющим методы сжатия для телевидения высокой четкости (ТВЧ). Однако в процессе работ над стандартом MPEG-2 в него были включены уровни, соответствующие ТВЧ (см. табл.4.4), по- этому необходимость в стандарте MPEG-3 отпала (о неправильном использовании этого термина см. в конце раздела 4.2.2). 115
ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ ПРИ СЖАТИИ ПО СТАНДАРТАМ MPEG. ДОСТИЖИМЫЕ СТЕПЕНИ СЖАТИЯ Далее приведен перечень характерных искажений изображе- ний, возникающих в результате кодирования по стандартам MPEG-1 или MPEG-2 при достаточно больших степенях сжатия [17]. Автор рекомендует читателям самим посмотреть искажения при внутри- кадровом кодировании. Это можно сделать, например, с помощью популярной программы Adobe Photoshop, но диапазон сжатия с ее помощью невелик Хорошо заметные искажения при сжатии в 20-50 раз можно получить с помощью "древней" программы Alchemy. Искажения, создаваемые внутрикадровым кодированием (см. последнюю страницу обложки). 1. Заметность границ блоков (блокинг-эффект). Так как соседние блоки кодируются и декодируются незави- симо друг от друга, то при больших степенях сжатия после кванто- вания и деквантования в них могут получаться заметно различаю- щиеся коэффициенты ДКП, соответствующие постоянным и низ- кочастотным составляющим. В результате изображения в соседних блоках могут сильно отличаться друг от друга по яркости, цвету, характеру деталей и текстуры. 2. Размытие изображения. Наблюдается при большом коэффициенте сжатия изображе- ния. Обусловлено ограничением либо полным обнулением коэф- фициентов ДКП, соответствующих высоким пространственным частотам, в результате чего мелкие детали изображения становятся размытыми или полностью пропадают. 3. Появление окантовок на резких переходах яркости изо- бражения. Этот эффект обусловлен значительными искажениями либо полным подавлением высокочастотных составляющих пространст- венного спектра. 4. Размытие цветов. Имеет ту же причину, что и эффект окантовки на границах, но проявляется на участках изображения с резкими скачками в сиг- нале яркости. 5. Эффект ступенек. Возникает как результат неправильного восстановления или передачи краев изображений внутри блока. Эффект проявляется, 116
как правило, при восстановлении изображения в увеличенном масштабе. Искажения, создаваемые межкадровым кодированием 1. Ложные границы. Наблюдаются при компенсации движения. Этот эффект яв- ляется прямым следствием межкадрового кодирования видеосиг- нала. 2. Эффект "комаров". Проявляется как флуктуации яркости или цветности в блоке на границе между движущимся объектом и фоном. Эффект возни- кает вследствие различной степени квантования ошибок предска- зания от кадра к кадру. 3. Зернистый шум в стационарной области. Проявляется как медленно движущиеся мерцающие шумы низкой интенсивности в областях, в которых имеется лишь малое движение либо движение отсутствует полностью. 4. Появление неправильных цветов в макроблоке по отноше- нию к его исходным цветам и к цветам окружающей области. 5. Появление следов за движущимися объектами, которые могут сохраняться сравнительно долго. Какие же степени сжатия реально достижимы при использо- вании MPEG-2? За исходную скорость передачи двоичных симво- лов возьмем 216 Мбит/с, что соответствует Рекомендации 601 при формате дискретизации 4:2:2. При переходе к формату 4:2:0, кото- рый используется для телевизионного вещания "Main Profile / Main Level", скорость передачи двоичных символов сокращается до ве- личины 162 Мбит/с, относительно которой и будем определять степень сжатия. В технических журналах отмечалось, что на практике для по- лучения студийного качества принятого изображения можно сжи- мать видеоинформацию до скорости передачи 9 Мбит/с, т. е. в 18 раз Для получения качества изображения, сравнимого с обычным изображением по системе PAL - до 4...5 Мбит/с, т. е. в 30-40 раз. Качество изображения, сопоставимое с получаемым при воспроиз- ведении видеозаписей стандарта VHS, достигается при сжатии до Уровня около 1,5 Мбит/с, т. е. более чем в 100 раз. 117
4.2.2. Кодирование и декодирование звукового сопрово* ждения в стандартах MPEG-1 и MPEG-2 Определим скорости передачи двоичных символов для сиг- налов звукового сопровождения в системе цифрового телевидения. Диапазон частот воспринимаемых человеком звуков приблизи- тельно от 20 Гц до 20 кГц, поэтому частота дискретизации для обеспечения высококачественного звуковоспроизведения должна быть не менее 40 кГц. Так, при записи музыки на компакт-диски применяется частота дискретизации 44,1 кГц. Далее, диапазон громкости передаваемых звуков следует вы- брать не менее 90 дБ, чтобы иметь возможность воспроизводить с высокой точностью звучание хорошей музыки, например, симфо- нического оркестра в концертном зале. Для передачи такого диапа- зона громкости число уровней квантования должно быть не менее 32*103 для одной полярности сигнала. Поэтому число двоичных разрядов АЦП для квантования двуполярного звукового сигнала берется равным не менее 16, что дает не менее 65536 уровней кван- тования. Таким образом, скорость передачи двоичных символов для звукового сигнала одного канала приблизительно равна 0,7 Мбит/с, а для стереофонического звука -1,4 Мбит/с. Эти числа показыва- ют, что в системе цифрового телевидения звуковую информацию также необходимо сжимать во много раз. Методы сжатия звука, используемые в стандартах MPEG-1 и MPEG-2, основаны на учете свойств человеческого слуха и отно- сятся к методам сжатия с частичной потерей информации. При сжатии отбрасывается значительная часть информации, но качест- во воспроизводимого звука остается достаточно высоким. Следова- тельно, сжатие достигается в основном за счет уменьшения психо- физиологической избыточности. КОДИРУЕМЫЕ ЗВУКОВЫЕ СИГНАЛЫ. УРОВНИ (LAYERS) В соответствии со стандартами MPEG-1 и MPEG-2 частота дискретизации входных звуковых сигналов может принимать зна- чения 48,0, 44,1 и 32,0 кГц. В MPEG-2 дополнительно предусмот- рены значения 24,0, 22,05 и 16 кГц [7, 10]. MPEG-1 позволяет ко- дировать два звуковых сигнала, что дает стереофонический звук, a MPEG-2 - пять звуковых сигналов (левый, центральный, правый, 118
левый тыловой и правый тыловой), что обеспечивает объемное звучание (Surround). Указанные дополнительные возможности у) PEG-2 достигаются введением дополнительных составляющих, называемых расширениями (extension) в поток данных на выходе кодера. Помимо указанных выше, MPEG-2 предусматривает рас- ширение для дополнительного канала низких звуковых частот (subwoofer) и расширение для многоязычного звукового сопровож- дения (до семи каналов). В MPEG-1 и в MPEG-2 есть три уровня кодирования звуко- вой информации (Layer I, Layer II и Layer III), которые имеют об- щую основу, но различаются между собой сложностью применяе- мых средств обработки и достигаемой степенью сжатия, причем оба эти показателя растут с ростом номера уровня. Декодер более высокого уровня может декодировать поток данных, созданный кодером более низкого уровня, но не наоборот. ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ ПРИ КОДИРОВАНИИ На структурной схема кодера звуковой информации, приве- денной на рис. 4.8, показаны блок разложения на частотные под- диапазоны (РПд), блок квантования и кодирования (Кв. и Код.), блок формирования потока данных (ФПД) и блок психоакустиче- ской модели (ПАМ). Рис. 4.8. Структурная схема кодера звука MPEG-2 Входной цифровой звуковой сигнал разделяется на кадры (frame), каждый из которых кодируется и декодируется независимо °т других кадров (Layer I и Layer II) или с учетом некоторых дан- ных из предыдущих кадров (Layer III). Размер кадра 384 отсчета Для Layer I и 1152 отсчета для Layer II и Layer III. В MPEG-1 и MPEG-2 используется кодирование звуковых сигналов с разложением на частотные поддиапазоны (общие све- 119
дения о таком методе кодирования см, в § 3.3). Число частотных поддиапазонов равно 32. Все поддиапазоны имеют одинаковую ширину, которая зависит от частоты дискретизации входного сиг- нала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчетов в кадре в каждом поддиапазоне равно 12 для Layer 1 и 36 для Layer 11 и Layer III. На всех уровнях разделение на поддиапазоны выполняется блоком цифровых фильтров. На уровне Layer III после фильтрации применяется модифицированное дискретное косинусное преобра- зование (МДКП). Отличия МДКП от обычного ДКП здесь не рас- сматриваются. Сочетание обычных фильтров и МДКП называется блоком гибридной фильтрации (hibrid filterbank). В результате МДКП в каждом поддиапазоне каждого кадра выделяются 18 час- тотных составляющих, представляемых коэффициентами МДКП, которые обрабатываются. Некоторые параметры выполнения МДКП и обработки получаемых коэффициентов могут изменяться в зависимости от свойств сигнала. Это позволяет уменьшить иска- жения, возникающие при разложении на поддиапазоны и дискрети- зации. Затем выполняется квантование данных. Предварительно определяются масштабные множители (scalefactor). Для уровней Layer I и Layer II масштабный множитель зависит от максимально- го значения сигнала. При этом для Layer 1 масштабный множитель определяется для каждого поддиапазона в кадре, т. е. для 12 отсче- тов сигнала поддиапазона. Для Layer II масштабные множители определяются для групп по 12 отсчетов в каждом поддиапазоне, причем множитель может быть общим для двух или трех групп. Таким образом, для каждого поддиапазона в кадре определяется до трех масштабных множителей. Перед квантованием значения сиг- нала делятся на соответствующие масштабные множители. Затем в блоке квантования и кодирования выполняется кван- тование данных. В основе сжатия звуковой информации па уровнях Layer I и Layer II лежит метод, называемый адаптивным распреде- лением битов (adaptive bit allocation). Этот метод заключается в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом ис- пользуется равномерное квантование. Полное число битов, выде- ляемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скорости 120
передачи двоичных символов, т. е. от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком ПАМ (см. ниже). На уровне Layer III данными, подлежащими квантованию, являются не отсчеты сигналов поддиапазонов, а коэффициенты МДКП. В каждом поддиапазоне эти коэффициенты разделяются на блоки (scalefactor bands), для каждого из которых определяется масштабный множитель, на который делятся коэффициенты данно- го блока. Далее производится квантование по неравномерному за- кону. Разделение коэффициентов на блоки, выбор множителей и параметров квантования осуществляется блоком ПАМ так, чтобы минимизировать заметность искажений звука, создаваемых кванто- ванием. Подробнее о преимуществах, достигаемых на уровне Layer III, будет сказано ниже. После квантования на уровнях Layer II и Layer III выполняет- ся кодирование полученных данных (на уровне Layer I дополни- тельное кодирование результатов квантования не производится). На уровне Layer II квантованные отсчеты сигнала в каждом поддиапазоне объединяются по три, и полученные последователь- ности битов кодируются с использованием таблиц кодов с пере- менной длиной. Кроме того, на этом уровне кодируются с помо- щью соответствующих таблиц данные о распределении битов по поддиапазонам и данные о масштабных множителях. На уровне Layer III квантованные коэффициенты МДКП ко- дируются по Хаффмену с использованием одной из 18 предусмот- ренных в стандартах таблиц кодирования. Выбор таблицы осуще- ствляется под управлением ПАМ. Значительное сжатие данных в результате кодирования основано на том, что после квантования многие коэффициенты МДКП становятся малыми величинами или нулями (это напоминает метод кодирования, использованный в JPEG). Кроме того, на уровне Layer III кодируются с использовани- ем соответствующих таблиц данные о масштабных множителях, о разделении частотных поддиапазонов на блоки и т.д. 121
ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ Блок психоакустической модели (ПАМ) управляет квантова- нием и кодированием, определяя параметры выполняемых при этом операций так, чтобы обеспечить наименьшую заметность ис- кажений, создаваемых квантованием (шумов квантования). В стан- дартах MPEG-1, MPEG-2 предусмотрены два варианта ПАМ, отли- чающиеся числовыми параметрами. Одним из факторов, учитываемых в ПАМ, является различ-т ная чувствительность слуха на разных частотах. Наибольшая чув- ствительность характерна для частот 2...4 кГц, поэтому для под- диапазонов, попадающих в эту область, необходимо выделять больше битов, чтобы обеспечить более точное квантование. Ближе к обоим концам диапазона слышимых частот чувствительность слуха уменьшается, поэтому для соответствующих частотных под- диапазонов можно выделять меньше битов, т. е. осуществлять бо- лее грубое квантование. Кроме того, алгоритм работы ПАМ учитывает явление мас- кирования (или маскировки) одних звуков другими. Громкие звуки маскируют имеющиеся одновременно с ними более тихие звуки в других частотных поддиапазонах, причем чем дальше по частоте отстоит маскируемый тихий звук от маскирующего громкого звука, тем слабее сказывается эффект маскирования. Например, если мас- кирующий звук имеет частоту 1 000 Гц, а маскируемый звук - 1100 Гц, то'последний не будет слышен, если разница в уровнях громкости составляет не менее 18 дБ. Если же маскируемый звук имеет частоту 2000 Гц, то для полной маскировки необходима раз- ница уровней громкости не менее 45 дБ. Помимо этого, громкий звук маскирует звуки, следующие за ним в интервале времени до 100 мс, и даже звуки, опережающие его на 4...5 мс. Чтобы выполнить распределение битов в блоке ПАМ анали- зируется спектр исходного звукового сигнала (не разложенного па поддиапазоны). Для этого производится быстрое преобразование Фурье участков этого сигнала по 512 (Layer I) или по 1024 (Layer 11 и Layer III) отсчетов, после чего вычисляются спектр мощности звукового сигнала и величины звукового давления в каждом час- тотном поддиапазоне. Затем анализируются тональные (синусоидальные) и нето- нальные составляющие звукового сигнала, определяются локаль- ные и глобальный пороги маскировки и вычисляются отношения 122
сцгнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам (Layer I и Layer II) или выбор параметров обработки коэффициен- тов МДКП (Layer III). В тех поддиапазонах, в которых искажения звука, вызывае- мые квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, т. е. для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удается существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука. Как уже отмечалось, ширина поддиапазонов одинакова. На- пример, если частота дискретизации равна 44,1 кГц, то каждый поддиапазон имеет ширину 690 Гц. В то же время ширина диапа- зона частот, в котором маскирование сказывается одинаково (кри- тического диапазона - critical band) зависит от положения этого диапазона на оси частот. На частотах порядка 100 Гц ширина кри- тического диапазона около 50 Гц, а на частотах порядка 10 кГц - почти 1,5 кГц. Поэтому разделение сигнала на одинаковые частот- ные поддиапазоны неоптимально с точки зрения получения наи- лучшего качества звука, хотя и наиболее удобно для реализации. На уровне Layer III сигнал каждого поддиапазона проходит МДКП, каждый коэффициент которого представляет частотную составляющую. Всего таких составляющих 18 в каждом поддиапа- зоне. Шаг по оси частот, таким образом, уменьшается в 18 раз, т. е. до примерно 38 Гц при частоте дискретизации 44,1 кГц. Это мень- ше ширины самого узкого критического диапазона. В пределах од- ного частотного поддиапазона блоки коэффициентов МДКП (scalefactor bands) могут квантоваться по-разному, что позволяет более точно учесть маскирование на разных частотах. Это позволя- ет говорить об увеличении разрешения по частоте в 18 раз, дости- гаемом на Layer III. СТРУКТУРА ПОТОКА ДАННЫХ ЗВУКОВЫХ СИГНАЛОВ Формирование потока данных осуществляется в блоке ФПД (рис. 4.8). Самой крупной структурной единицей потока данных явля- ется звуковая последовательность (Audio Sequence), которая состоит из произвольного числа кадров и не имеет собственного заголовка. 123
Кадр начинается с заголовка, структура которого одинакова для MPEG-I и MPEG-2. Заголовок содержит синхрослово, данные об уровне кодирования, о частоте дискретизации кодируемых зву- ковых сигналов, о скорости передачи двоичных символов в потоке данных, о режиме кодирования (стерео, два независимых сигнала и т.д.) и другую информацию. Далее в кадре следует область звуковых данных, в которой сначала следуют данные для контроля ошибок, затем данные о распределении бит, о масштабных множителях и, наконец, коди- рованные данные о сигналах по частотным поддиапазонам. При использовании MPEG-2 далее может следовать расши- рение, содержащее данные дополнительных звуковых каналов. ДЕКОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ Структурная схема декодера приведена на рис. 4.9. Входные данные поступают на блок распаковки потока данных (РпПД), в кото- ром по синхрословам выделяются отдельные кадры, поступающие затем на блок декодирования и деквантования (Код.”1 и Кв.”1). Рис. 4.9. Структурная схема декодера звука MPEG-2 Данные, содержащиеся в кадре, декодируются в соответст- вии с порядком их следования и таблицами кодов, которые содер- жатся в программе работы декодера. Декодированные данные о распределении битов и о масштабных множителях используются для декодирования и деквантования звуковых данных. После де- квантования на уровнях Layer I и Layer II отсчеты сигналов под- диапазонов умножаются на соответствующие масштабные множи- тели. На уровне Layer III выполняется обратное МДКП. После декодирования и деквантования отсчеты сигналов всех поддиапазонов объединяются в выходной цифровой звуковой сиг- нал, или несколько сигналов, если звук многоканальный. Аппаратные и программные реализации декодера значитель- но проще, чем реализации кодера, так как в декодере не требуется психоакустическая модель. Так декодирование стереофонического 124
зВука, сжатого с применением уровня Layer III, производится в ре- альном времени программными средствами на обычном ПК, в то время как для выполнения соответствующего кодирования необхо- димо сначала записать звуковой сигнал в несжатом виде в файл, а затем осуществить сжатие, что занимает существенно большее время, чем воспроизведение. КОДИРОВАНИЕ МНОГОКАНАЛЬНОГО ЗВУКОВОГО СОПРОВОЖДЕНИЯ Стандарт MPEG-1 допускает четыре режима кодирования; - обычный (независимый) стереофонический режим (stereo), в котором сигналы двух каналов кодируются независимо друг от друга; - соединенный стереофонический режим (joint stereo), в ко- тором для увеличения степени сжатия кодируются, например, не сами сигналы левого и правого каналов, а их сумма и разность; два совершенно независимых звуковых сигнала (dual_channel); - один звуковой сигнал (single_channel). Особенности этих режимов здесь не рассматриваются. Стандарт MPEG-2 дает возможность кодировать до пяти ка- налов звука: L — левый, R - правый, С - центральный, LS — левый тыловой и RS - правый тыловой. При этом возможны варианты, отличающиеся числом кодируемых каналов и расположением ис- точников звука в пространстве, например, два передних канала и два тыловых, три передних и один тыловой и т.д. Возможно также расширение для кодирование отдельного канала НЧ эффектов. Возможны два варианта совместимости с MPEG-1. Как ука- зывалось выше, каждый кадр в потоке данных MPEG-2 состоит из основной части, которая может' декодироваться декодерами MPEG-1, и расширений, которые декодерами MPEG-1 не воспринимаются. Обозначим Lq и /?о сигналы, данные которых помещаются в основ- ные части кадров в потоке данных. В соответствии с первым вариантом перед кодированием вы- полняются операции, называемые матрицированием Lq = L + х*С + y*LS, R0 = R+x*C + z*RS, (4.2) гДе х, у, z - постоянные коэффициенты. При декодировании деко- дером MPEG-2 выполняются обратные операции (дематрицирова- Ние). Такой вариант называется "совместимым назад" (backwards 125
compatibility). При использовании декодеров MPEG-1 этот вариант обеспечит в воспроизводимых сигналах левого и правого каналов наличие информации о центральном и тыловых каналах, т. е. зву, ковоспроизведение будет более полным. Однако операции матри- цирования и дематрицированпя вносят дополнительные шумы. В соответствии со вторым вариантом матрицирование и, ес- тественно, дематрицирование не выполняются. При этом Lo = L, Ro = R. Такой вариант называется "несовместимым назад" (nonbackward compatible - NBC), и обеспечивает несколько лучшее качество звука при использовании декодеров MPEG-2. Для увеличения степени сжатия многоканального звука в MPEG-2 предусмотрено использование адаптивного кодирования с предсказанием сигналов каналов, данные о которых помещаются в расширения кадров, а также некоторые другие средства умень- шения межканальной избыточности звуковой информации. ДОСТИЖИМОЕ СЖАТИЕ И КАЧЕСТВО ЗВУКА Для MPEG-1 и для MPEG-2 в случае отсутствия расширений потоки сжатых звуковых данных имеют следующие диапазоны значений скорости передачи двоичных символов: - Layer I - 32...448 кбит/с (обычно 192 кбит/с на канал); - Layer II - 32...384 кбит/с (обычно 128 кбит/с на канал); - Layer III - 32...320 кбит/с (обычно 64 кбит/с на канал). В случае кодирования по стандарту MPEG-2 звуковых сигна- лов с частотами дискретизации 16, 22,05 и 24 кГц минимальные и максимальные значения скорости передачи двоичных символов уменьшаются в два и более раз, причем самая минимальная ско- рость передачи равна 8 кбит/с. Если же кодируется многоканаль- ный звук, и выходной поток данных содержит соответствующие расширения, то максимальные значения скорости передачи двоич- ных символов в MPEG-2 увеличиваются до примерно 1000 кбит/с. Кодер вносит задержку в распространение данных, так как во-первых при выполнении операций кодирования требуется иметь в ЗУ кодера определенное число последних отсчетов звукового сигнала, а во-вторых выполнение требуемых вычислительных опе- раций над этими отсчетами занимает некоторое время. Минималь- ные длительности задержек для Layer 1-50 мс, для Layer II ' 100 мс, для Layer III - 150 мс, однако задержки в реальных кодерах могут быть значительно больше. 126
При одной и той же скорости передачи двоичных символов в выходном потоке данных кодирование более высокого уровня обеспечивает более высокое качество воспроизводимого звука. Это обусловлено тем, что более точно учитываются свойства сжимае- мого сигнала, более гибко изменяются параметры квантования, а на уровне Layer III значительно повышается разрешающая спо- собность по частоте. Значения, указанные в скобках как обычные, соответствуют качеству звука, сопоставимому с качеством звуча- ния обычных (записанных без сжатия) компакт-дисков. Уровень кодирования Layer III обеспечивает сжатие до 64 кбит/с на канал, т. е. примерно в 11-12 раз. Этот уровень ис- пользуется при записи получивших широкое распространение ком- пьютерных музыкальных дисков, обеспечивающих при воспроиз- ведении с помощью ПК 10...11 часов высококачественного звука. Записанные файлы со сжатой звуковой информацией обычно име- ют расширение "mp3", а на дисках или их упаковках часто написа- но "MPEG-3", что, как следует из изложенного, неправильно. 4.2.3. Системный уровень MPEG-2 Перейдем к рассмотрению системной части стандарта MPEG-2, которая описывает форматы мультиплексированных по- токов данных, объединяющих сжатые видеоданные и данные зву- кового сопровождения от одного или нескольких источников, а также включающих другие виды информации [5, 8]. Стандартом предусмотрено два вида таких мультиплексиро- ванных потоков: транспортный поток (Transport Stream - TS) и программный поток (Program Stream). На рис. 4.10. показана структурная схема процесса формиро- вания транспортного потока. Видеосигналы, т. е. яркостный и цве- торазностные сигналы данной телевизионной программы, а также сигналы одного или нескольких каналов звукового сопровождения данной программы преобразуются в цифровую форму в АЦП и ко- дируются в соответствующих кодерах, как это было описано выше. Потоки данных на выходах кодеров называются элементарными потоками (ES - Elementary Stream). 127
Рис. 4.10. Формирование транспортного потока MPEG-2 В блоках, называемых пакетизаторами, данные разделяются на пакеты - блоки данных, начинающиеся с заголовков опреде- ленной структуры. Получающиеся потоки называются пакетизиро- ванными элементарными потоками (PES). В каждом пакете в PES объединены данные, относящиеся к структурной единице входного сигнала, например к телевизионному кадру или к кадру сжатого звукового сигнала. Размеры пакетов PES могут быть разными. Пакетизированные элементарные потоки нескольких телеви- зионных программ, а также передаваемых дополнительных данных и сигналов управления объединяются в единый транспортный по- ток (TS - Transport Stream). При этом данные перераспределяются в пакеты TS, имеющие фиксированную длину 188 байт и определенную структуру заголовка (стартовой синхрогруппы пакета), занимающего 4 байта. Следует отметить, что транспортный поток может содержать и всего один элементарный поток, но фиксированная длина пакетов TS сохраняется. Далее транспортный поток проходит кодер канала (на рис. 4.10 не показан), в котором выполняется помехоустойчивое ко- дирование, и передается по каналу связи. Каждый пакет TS начинается с идентификатора пакета (PID), который определяет его тип и принадлежность находящихся в нем данных к одному из передаваемых элементарных потоков. Каждый пакет может содержать данные только одного элементар- ного потока. Пакеты с данными разных элементарных потоков пе- редаются в транспортном потоке в произвольном порядке. Специальные пакеты типов PAT (Program Association Table) и РМТ (Program Map Table) несут информацию о том, какие значения идентификаторов соответствуют тому или иному элементарному 128
потоку. В особых пакетах в среднем 10 раз в секунду передаются метки времени (PCR - Program Clock Reference), содержащие зна- чения моментов времени по часам в передающей части системы. Цо этим меткам в декодирующей аппаратуре восстанавливаются тактовые частоты каждого отдельного элементарного потока, кото- рые между собой, вообще говоря, не синхронизированы, хотя и имеют стандартное значение 27 МГц ± 1350 Гц. Структурная схема приема и декодирования транспортного потока приведена на рис. 4.11. На вход поступает поток данных из канала связи, который преобразуется декодером канала в транс- портный поток TS. В блоке декодирования и демультиплексирова- ния (Декодер и ДМп TS) из транспортного потока извлекаются па- кеты РАТ и РМТ, из которых получают идентификаторы пакетов, содержащих данные требуемых элементарных потоков. Далее па- кеты с такими идентификаторами извлекаются из транспортного потока, распаковываются, и из содержащихся в них данных фор- мируются элементарные потоки видео и звуковой информации, поступающие на соответствующие декодеры. Рис. 4.11. Прием и декодирование транспортного потока MPEG-2 В блоке синхронизации (Синхр.) имеются генераторы такто- вых импульсов для видео и звукового декодеров. Подстройка час- тот этих генераторов производится по меткам времени PCR так, чтобы число тактовых импульсов, сформированных в декодере ме- жду двумя метками, соответствовало интервалу между моментами, зафиксированными в этих метках. Благодаря этому обеспечивают- ся правильные длительности интервалов времени в декодируемой телевизионной программе. Если одновременно должны декодиро- 129
ваться несколько элементарных потоков с разными временным^ базами (несколько независимых телевизионных программ), то эти потоки приводятся к одной временной базе. Программный поток MPEG-2 аналогичен системному уров- ню стандарта MPEG-1 и содержит элементарные потоки одной те- левизионной программы или нескольких программ, имеющих об- щую временную базу, т. е. взаимно синхронизированных. Длины пакетов программного потока могут быть различными. Структур- ные схемы формирования и приема программного потока похожи на приведенные выше схемы для транспортного потока. Про- граммный поток может быть преобразован в транспортный поток. Возможно и обратное преобразование. Транспортный поток рекомендуется использовать при пере- даче по каналам связи с помехами, а программный поток - при от- сутствии помех. Следует также отметить, что синтаксис транспортного и про- граммного потоков позволяет обеспечивать условный (ограниченный, по паролю) доступ к передаваемой информации, хотя непосредственно в стандарте MPEG-2 средства решения этой задачи не определены. Сжатые по стандартам MPEG-1, MPEG-2 видео- и аудиодан- ные могут также записываться в файлы. Видеопрограммы, сжатые по MPEG-1, записываются на компьютерные видеодиски, а сжатые по MPEG-2 - на диски DVD. 4.3. Стандарт кодирования видео- и звуковой информации MPEG-4 Новым проектом группы MPEG является стандарт MPEG-4. Работы по этому проекту были начаты в июле 1993 г. Рабочий про- ект был закопчен в ноябре 1996 г. и согласован на уровне Комитета Международной организации по стандартизации в ноябре 1997 г. Большинство документов, входящих в стандарт MPEG-4, были приняты в конце 1998 - начале 1999 годов [15]. В 1999 г. появилась вторая версия MPEG-4. Стандарт MPEG-4 охватывает следующие области: - цифровое телевидение и видеосвязь; - интерактивную графику, синтез изображений; - интерактивные мультимедийные приложения, в том числе передаваемые через Интернет. 130
Стандарт MPEG-4 позволяет передавать видео- и звуковую информацию с очень большими коэффициентами сжатия по узко- полосным каналам связи, что необходимо как в системах видеосвя- зи при использовании обычных телефонных сетей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи движущихся изображений и звукового сопровождения через Ин- тернет. Кроме того, новый стандарт обеспечивает интерактивность, т. е. возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других дей- ствий. Таким образом, стандарт MPEG-4 является важным шагом на пути к интерактивному телевидению будущего. ОБЪЕКТЫ И СЦЕНЫ Важнешпей особенностью MPEG-4 является объектно- ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением пред- ставляется как совокупность видео- и аудио- объектов. Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом. Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки. Связанные видео- и аудиообъекты, например, изображение человека и его го- лос, образуют аудио-визуальный объект (AVOs - audio-visual object). Видео- и аудиообъекты составляют сцену. MPEG-4 содер- жит специальный язык для описания сцен - BIFS (Binary Format for Scenes - двоичный формат для сцен). Описание сцены имеет иерархическую структуру. На рис. 4.12 приведен пример структуры описания сцены, в которой Шер- лок Холмс и доктор Ватсон беседуют в комнате на Бейкер-стрит. Верхним уровнем структуры является сцена в целом. Она содержит неподвижный фон, образованный изображениями стен, мебели и т.д. В сцене присутствуют два персонажа, каждый из которых яв- ляется аудио-визуальным объектом, включающим видеообъект - Движущееся изображение персонажа, и аудиообъект - голос этого персонажа. Кроме того, в сцене присутствует камин, который так- же является аудио-визуальным объектом, включающим видеообъ- ект изображение непрерывно движущегося огня, и аудиообъект - звуки, исходящие от камина. 131
Рис. 4.12. Пример структуры описания сцены Описание каждой сцены включает данные о координатах объектов в пространстве и об их привязке ко времени. Видеообъек- ты могут размещаться в разных плоскостях видеообъектов (VOP - video object plane), так что видеообъекты, находящиеся в более близких к зрителю плоскостях сцены перекрывают при движении видеообъекты, находящиеся в более дальних плоскостях. Сцена, представляемая пользователю, может содержать все объекты, информация о которых поступает в принимаемом потоке данных, или только часть этих объектов. Состав сцены может оп- ределяться поставщиком мультимедийной продукции, например, в зависимости от суммы денег, заплаченных пользователем. В ин- терактивном режиме пользователь может влиять на развитие сце- ны, подавая соответствующие команды. MPEG-4 позволяет также передавать пользователю дополнительную информацию об объек- тах, которая может отображаться, например, в виде окна с текстом, появляющегося, когда пользователь выбрал с помощью "мышки” какой-либо объект в сцене. Ясно, что для реализации интерактивных возможностей MPEG-4 необходим не обычный телевизор, а ПК, подключенный к Интернет. КОДИРОВАНИЕ ВИДЕООБЪЕКТОВ В отличие от MPEG-1, MPEG-2 в которых применяется фик- сированный алгоритм кодирования, в MPEG-4 используется целый набор методов кодирования, включающий как алгоритмы, сходные с применяемым в MPEG-1, MPEG-2, так и принципиально новые 132
методы кодирования, основанные на понятии видеообъекта. Выбор того или иного метода кодирования в конкретном случае определя- ется характером изображения и требуемым коэффициентом сжатия информации. MPEG-4 позволяет эффективно сжимать как нату- ральные, так и синтетические изображения и объединять их при воспроизведении. Обобщенная структурная схема видеокодера MPEG-4 для на- туральных изображений приведена на рис. 4.13. На схеме обозна- чены ДКП - блок прямого дискретного косинусного преобразова- ния; ДКП1 - блок обратного дискретного косинусного преобразо- вания; Кв - квантователь; Кв’1 - деквантователь, т. е. блок, выполняющий обратную квантованию операцию; ЗУ - запоми- нающее устройство; Пред. 1, Пред.2 - блоки, выполняющие форми- рование предсказанных изображений в разных режимах кодирова- ния; ОД - блок оценки движения и формирования векторов движе- ния; Мп - мультиплексор; БЗУ - буферное запоминающее устройство; УКС - блок управления коэффициентом сжатия изо- бражения. Кроме того, на схеме показаны блоки "Кодер формы" и "Кодер текстур", сумматор, вычитающее устройство и переклю- чатель "Выбор", с помощью которого осуществляется подключение одного из блоков предсказания в зависимости от используемого метода кодирования. Данная схема является упрощенной и не по- казывает многие блоки и связи. Рис. 4.13. Структурная схема видеокодера MPEG-4 133
На вход кодера поступают исходные видеоданные, напримерэ цифровой телевизионный сигнал. На выходе кодера формируется элементарный поток видеоданных. Кратко рассмотрим основные методы кодирования нату- ральных изображений. 1. Видеообъекты, представляющие собой прямоугольные изображения (например, обычные ТВ кадры), кодируются методом, аналогичным применяемому в MPEG-1, MPEG-2, т. е. с использо- ванием гибридного кодирования (см. § 4.2). Метод включает пред- сказание с оценкой и компенсацией движения для макроблоков 16x16 пикселов и ДКП ошибки предсказания в блоках 8x8 пиксе- лов. Для определенности будем считать, что предсказание в этом случае выполняется в блоке Пред.1. Связь выхода блока ОД с мультиплексором и средства управления коэффициентом сжатия на рис. 4.13 не показаны. Этот вид кодирования имеет два уровня по скорости переда- чи двоичных символов в выходном потоке данных. Уровень очень низкой скорости передачи VLBV (Very Low Bitrate Video) предназначен для передачи изображений с низким пространственным разрешением (форматы QCIF и SQCIF) и пони- женной частотой кадров (10... 15 Гц) по узкополосным каналам свя- зи со скоростями передачи двоичных символов 5...64 кбит/с. Этот уровень может использоваться в видеотелефонной связи с невысо- ким качеством изображения. Уровень высокой скорости передачи (High bitrate) предна- значен для передачи изображений с более высоким пространствен- ным разрешением, вплоть до формата по Рекомендации 601, по различным каналам связи со скоростями передачи двоичных сим- волов 64 кбит/с... 10 Мбит/с. Этот уровень может использоваться в видеосвязи с высоким качеством изображения и для передачи телевизионных программ. 2. Кодирование, основанное на содержании (content-based coding), позволяет получить существенно большее сжатие изобра- жений за счет учета свойств видеообъектов, присутствующих в сцене. Одной из возможностей, создаваемых этими методами, явля- ется кодирование видеообъектов сложной формы. Например, в ка- честве видеообъекта может быть взята область изображения, отли- чающаяся от окружения яркостью или цветом. Эта область может 134
перемещаться и деформироваться. При формировании предсказан- ного изображения с компенсацией движения смещаются не прямо- угольные макроблоки, а выделенные области, которые к тому же могут изменять свою форму. При этом ошибка предсказания ока- зывается значительно меньше, и объем информации, содержащейся в разности предсказанного и настоящего изображений очередного кадра, существенно уменьшается. В кодере, показанном на рис. 4.13, такой вариант предсказания выполняется в блоке Пред.2. В то же время, вместо векторов движения, показывающих перемещение прямоугольного макроблока как целого, необходимо передать параметры, характеризующие изменения координат и формы видеообъекта. Эти параметры определяются и кодируются в Кодере формы, после чего они включаются через мультиплексор Мп в выходной поток данных. Данные о форме видеообъекта занимают значительно больше двоичных символов, чем простой вектор движения. Например, если граница области, выделенной как видеообъект, аппроксимируется многоугольником, то для описания смещения и деформации этой области необходимо передать изменения координат всех углов многоугольника. Тем не менее, общий выигрыш в уменьшении объема передаваемой информации по сравнению с MPEG-1, MPEG-2 оказывается существенным. 3. Для сжатия изображений неподвижного фона и текстур протяженных объектов используется метод кодирования, основан- ный на вэйвлет-преобразовании (см. § 3.3). Этот метод обеспечива- ет высокие степени сжатия и многоступенчатую масштабируемость по пространственному разрешению. Перейдем к методам кодирования синтетических видеообъ- ектов, создаваемых с использованием средств машинной графики. Такие видеообъекты могут кодироваться рассмотренными выше методами для натуральных изображений. Однако значительно эф- фективнее использовать их параметрическое описание. В стандарте MPEG-4 используется модель человеческого ли- ча, построенная на основе сетки из треугольных ячеек, которые заполняются текстурой. Пример "сеточной" модели лица показан ча передней обложке данной книги. Имеется также трехмерная мо- дель человеческого тела в виде трехмерной сетки. Двумерные изо- бражения человека получаются путем построения проекции трех- мерной модели на нужную плоскость. 135
Форма, текстура и выражение лица в статике описываются параметрами FDP (Facial Definition Parameters), а в динамике - па- раметрами FAP (Facial Animation Parameters). Для тела в статике задаются параметры BDP (Body Definition Parameters), а в динамике - ВАР (Body Animation Parameters). Статические параметры FDP и BDP передаются в начале сеанса связи. Для воспроизведения ми- мики лица и движений тела собеседника в процессе разговора пе- редаются динамические параметры FAP и ВАР. Синтетические изображения лица и тела человека могут ис- пользоваться в системах видеосвязи вместо настоящих изображе- ний собеседника. Передача параметров модели требует существен- но меньшей скорости передачи двоичных символов, чем передача реального изображения. В некоторых случаях можно в приемной части системы по- лучить информацию об изменениях изображения объекта на основе другой информации. Такой случай характерен для передачи изо- бражения лица говорящего человека. Движения рта и мимика во многом определяются произносимыми словами и могут быть син- тезированы на основе принятого звукового сигнала, содержащего голос собеседника. При этом требуемая для осуществления видео- связи скорость передачи двоичных символов еще уменьшается. Помимо лица и тела могут синтезироваться произвольные двумерные изображения также в виде сеток с треугольными ячей- ками, заполняемыми текстурой. Стандартом MPEG-4 обеспечивается многоуровневая мас- штабируемость по пространственному разрешению, по времени и по качеству изображения. В стандарте предусмотрены средства, обеспечивающие работоспособность системы передачи видеоин- формации при наличии помех и ошибок в канале связи. Эти вопро- сы здесь подробно не рассматриваются. КОДИРОВАНИЕ АУДИООБЪЕКТОВ Кодирование звуковой информации в MPEG-4 также может осуществляться разными способами, дающими различные объемы передаваемых данных и различное качество звука на выходе сис- темы. Предусмотрено три уровня кодирования. 1. Кодирование музыки с обеспечением высокого и среднего качества выполняется тем же методом, что и в стандарте MPEG-2. 136
При этом обеспечивается передача до восьми каналов звука при скорости передачи двоичных символов 16...64 кбит/с на канал. 2. Для передачи речи с высоким и средним качеством ис- пользуется метод кодирования CELP (Code Excited Linear Predictive - кодирование возбуждений с линейным предсказанием), который обеспечивает скорости передачи 6...24 кбит/с при частотах дискре- тизации 8 кГц или 16 кГц. 3. Параметрическое кодирование речи, которое обеспечивает сжатие при сохранении разборчивости до скоростей 2...4 кбит/с при частоте дискретизации 8 кГц. Самые низкие скорости передачи 0,2...1,2 кбит/с достигаются для искусственно синтезированной речи и синтезированной в соот- ветствии со стандартом MIDI музыки. Кодирование аудиообъектов также обладает свойством мас- штабируемости. Например, на основном уровне потока данных может использоваться метод кодирования CELP, а дополнительный уровень обеспечивает качество звука, соответствующее кодирова- нию по MPEG-2. Более сложный и дорогой декодер может декоди- ровать основной и дополнительные слои потока данных и позволя- ет получать более высокое качество воспроизводимого звука, чем более простой и дешевый декодер, воспринимающий только ос- новной уровень потока данных. ПЕРЕДАЧА ДАННЫХ Структурная схема формирования передаваемых потоков данных в стандарте MPEG-4 приведена на рис. 4.14. Элементарные потоки ES (Elementary Streams) с видео- и аудиокодеров поступают на уровень синхронизации (SL - Sync Layer) и в блоках SL преобра- зуются в пакетизированные SL-потоки (SL-packetized Streams), в которые введены метки времени и данные о тактовых частотах. Это позволяет привязать к единой шкале времени различные ви- део- и аудиообъекты. Далее пакетизированные SL-потоки посту- пают на уровень DMIF (DMIF Layer). DMIF (Delivery Multimedia Integration Framework - интегри- рованная система доставки мультимедиа) - это протокол, обеспе- чивающий управление потоками данных для мультимедиа. Как всякий протокол передачи данных (например, протоколы, исполь- зуемые в Интернет), DMIF обеспечивает посылку запросов от пользователя к источнику информации и пересылку запрошенных 137
данных пользователю. Кроме того, DMIF дает пользователю сред- ства управления в виде интерфейса пользователя DMIF-Application Interface (DAI), позволяя подавать команды для выбора информа- ции (например, фильма) и формируя сообщения о получении доступа к этой информации или о возникших при этом трудностях. Элементарные потоки (ES) TransMux потоки Рис. 4.14. Формирование передаваемых потоков данных MPEG-4 DMIF охватывает три основные сферы применения MPEG-4: передачу по ийтерактивным сетям (Интернет), передачу по обыч- ным вещательным каналам и запись видеопрограмм на компакт-,* диски. На уровне DMIF возможно объединение в блоках FlexMux пакетизированных SL-потоков во FlexMux потоки (FlexMux Streams). Эта операция является необязательной, так как под управлением DMIF могут передаваться и пакетизированные SL-потоки. Затем данные переходят на уровень TransMux (TransMux Layer), где FlexMux-потоки или SL-потоки объединяются и преоб-! разуются в транспортный поток. Общее название транспортного потока TransMux Stream. В стандарте MPEG-4 этот поток не опре-1 делен. В качестве его может использоваться, например, транспорт-] ный поток (TS) MPEG-2, который был описан в разделе 4.2.3. Еще | один вариант TransMux потока - запись в файл. Возможно исполь-| 138
зевание других транспортных протоколов, которые здесь не рас- сматриваются. До сих пор речь шла о нисходящем (downstream) потоке, ко- торый несет данные от источников видеопрограмм к зрителям. Для реализации интерактивного телевидения и различных видов муль- тимедийного сервиса необходима передача информации от зрителя на головную станцию системы. Для этого передается восходящий поток данных (upstream), скорость передачи двоичных символов в котором обычно значительно меньше, чем в нисходящем потоке. ДЕКОДИРОВАНИЕ И ВОСПРОИЗВЕДЕНИЕ Структурная схема декодирующей части системы по стан- дарту MPEG-4 приведена на рис. 4.15. На схеме показаны демуль- типлексор ДМп, буферные ЗУ БЗУ1 и БЗУ2, декодеры ДКд и блок объединения БОб. Рис. 4.15. Декодирующая часть MPEG-4 На вход поступает транспортный поток TransMux Stream, из которого в демультиплексоре выделяются элементарные потоки, Данные каждого из которых записываются в соответствующее БЗУ1. Назначение БЗУ1 - накапливать неравномерно поступающие ПО каналу связи данные и по мере надобности передавать их на де- кодер. Далее выполняется декодирование элементарных потоков. 1олучаемые при этом данные видео- и аудиообъектов записывают- ся в БЗУ2. Элементарные потоки, относящиеся к одному объекту, могут декодироваться совместно. 139
При демультиплексировании из общего потока данных выде- ляются также описание сцены и метки времени, поступающие на блок объединения. Данные отдельных объектов считываются из соответствующих БЗУ2 и из них в блоке объединения формируют- ся цифровые сигналы изображения и звука, поступающие далее на воспроизводящие устройства (на рис. 4.15 нс показаны). При этом обеспечивается синхронизация всех видео- и аудиообъектов. 4.4. Другие стандарты кодирования видео и звуковой информации В этом разделе дается краткий обзор некоторых стандартов кодирования видео и звуковой информации, применяемых в систе- мах видеосвязи и ряде других областей. РЕКОМЕНДАЦИИ Н.261, Н.262, Н.263 Рекомендация ITU-T Н.261, принятая в 1993 г., определяет методы кодирования и декодирования видеосигналов для передачи по относительно узкополосным цифровым каналам связи со скоро- стями передачи двоичных символов, равными н*64 кбит/с, где п = 1...30 [12]. Основная область применения Рекомендации Н.261 - системы компьютерной видеосвязи. Кодируемые изображения могут иметь форматы CIF (352x288) или QCIF (176x144). Формат дискретизации 4:2:0, т. е. количества элементов цветоразностных сигналов как по вертикали, так и по горизонтали в два раза меньше, чем элементов сигнала яр- кости. Развертка прогрессивная, с частотой кадров 29,97 Гц, при- чем допускается пропускать 1, 2 или 3 кадра между каждыми дву- мя передаваемыми кадрами, что позволяет снизить частоту кадров до 15, 10 и 7,5 Гц, соответственно. Квантование яркостного и цве- торазностных сигналов выполняется в соответствии с Рекоменда- цией 601. Методы сжатия видеоинформации, используемые в Н.261, во многом схожи с применяемыми в MPEG-1 и MPEG-2. Основной единицей кодируемой видеоинформации является макроблок раз- мером 16x16 пикселов, содержащий четыре блока 8x8 элементов сигнала яркости и по одному блоку 8x8 элементов цветоразност- ных сигналов. 33 макроблока составляют группу макроблоков. 140
Кадр формата CIF содержит 12 групп, а кадр формата QCIF - три группы макроблоков Каждый макроблок может кодироваться внутрикадровым или межкадровым методом. Рекомендация Н.261 не содержит правил выбора метода кодирования для макроблоков, оставляя этот вопрос на усмотрение разработчиков. Таким образом, можно произвольно задавать количество и положения кадров, целиком передаваемых с знутрикадровым кодированием, а для остальных кадров устанав- ливать наиболее подходящую стратегию выбора метода кодирова- ния макроблоков с различными свойствами. Внутрикадровое кодирование макроблока, как и в JPEG и MPEG-1, MPEG-2, включает операции поблочного ДКП, квантова- ния коэффициентов ДКП, преобразования матрицы коэффициентов ДКП в их последовательность путем считывания в зигзагообразном порядке, кодирование полученной последовательности парами чи- сел (run-length coding) и кодирование кодами с переменной длиной кодовых слов (кодирование по Хаффмену). Степень сжатия регу- лируется выбором одного из 32 возможных значений шага кванто- вания, причем для коэффициентов С(0,0), показывающих постоян- ные составляющие сигналов, шаг квантования фиксирован. Межкадровое кодирование включает предсказание кодируе- мого макроблока путем поиска соответствующей области в преды- дущем кадре, получение ошибки предсказания (разности действи- тельного и предсказанного макроблоков) и кодирование ошибки предсказания методом, аналогичным используемому при внутри- кадровом кодировании, но с другими параметрами квантования. Вектор движения, показывающий смещение соответствующей об- ласти в предыдущем кадре, по каждой координате определяется с точностью до одного пиксела в диапазоне —15... 15 пикселов. Век- торы движения передаются в потоке данных. Отметим, что пред- сказание осуществляется только по предыдущему кадру, и В кадры, имеющиеся в MPEG-1, MPEG-2, здесь отсутствуют. Структура потока видеоданных на выходе кодера содержит заголовки кадров, заголовки групп макроблоков, заголовки макро- блоков и поблочно передаваемые в каждом макроблоке данные Объединение кадров в группы не предусмотрено. В декодере поток Данных разделяется на кадры, группы макроблоков и макроблоки, Каждый из которых декодируется аналогично тому, как это было описано для MPEG-1, MPEG-2. 141
Рекомендация Н.261 содержит также правила передачи коди- рованных данных по каналу связи, которые здесь не рассматрива- ются. Рассмотрим пример, чтобы оценить возможности передачи изображений с использованием Н.261. Пусть нам надо передавать изображение формата QCIF с частотой кадров 10 Гц. Такие пара- метры приемлемы для простой видеотелефонной связи. Скорость передачи двоичных символов до сжатия составляет 2970 кбит/с. Для передачи по каналу связи с пропускной способностью 64 кбит/с необходимо сжатие в 46 раз. Такое сжатие приведет к существенным искажениям изображения. Если же пропускная способность канала связи 128 кбит/с, то необходимо сжатие в 23 раза, что вполне допустимо. Рекомендация Н.263, принятая в 1996 г., является развитием Рекомендации Н.261 и по сравнению с последней содержит сле- дующие основные усовершенствования [14]: - помимо изображений форматов CIF и QCIF могут кодиро- ваться и передаваться изображения форматов SQCIF, 4CIF и 16CIF; - векторы движения определяются с точностью до половины пиксела, и ограничения на величины смещений отсутствуют; - допускается использование В-кадров, при кодировании ко- торых для предсказания используются следующие за ними кадры; - используется более совершенный метод кодирования с пе- ременной длиной кодовых слов (арифметическое кодирование). Имеются и другие отличия, которые здесь не рассматриваются. Рекомендация Н.262, принятая в 1995 г., является существен- но более широкой, чем Н.261 и Н.263, и практически совпадает со стандартом MPEG-2 в части кодирования видеосигналов [13]. Ко- дируемые в соответствие с ней движущиеся изображения могут иметь как прогрессивную, так и чересстрочную развертки, количе- ства пикселов от 352x288 до 1920x1152, частоту кадров 30 Гц, а на верхних уровнях 60 Гц. Предусмотрены уровни и профили, воз- можна масштабируемость нескольких типов. Рекомендация Н.262 может использоваться не только для систем видеосвязи, но и для передачи программ ТВ вещания по различным каналам связи. 142
НЕКОТОРЫЕ МЕТОДЫ СЖАТИЯ ВИДЕОИНФОРМАЦИИ, ПРИМЕНЯЕМЫЕ В ВИДЕОСВЯЗИ И МУЛЬТИМЕДИА Методы, краткие сведения о которых даны ниже, широко ис- пользуются, но ни один из них не является международным стан- дартом, утвержденным ISO, или рекомендацией ITU. Метод Cell, предложенный компанией Sun Microsystems име- ет два варианта: CellA и CellB, В системах видеосвязи, где требу- ются компрессия и декомпрессия в реальном времени, использует- ся метод CellB, требующий меньшего объема вычислений и позво- ляющий использовать аппаратные акселераторы в графических платах ПК. Изображение делится на ячейки (cell) по 4x4 пикселов. Исходный объем информации в ячейке, если каждый пиксел пред- ставляется 24 битами, составляет 384 бита. В результате кодирова- ния ячейка представляется 32 битами (16 - распределение яркости и 16 - распределение цветности). То есть коэффициент сжатия со- ставляет 12:1. (Читателю рекомендуется проверить, какой коэффи- циент сжатия получится, если исходное изображение представлено не в формате RGB, а в формате 4:2:2 по рекомендации 601.) Метод NV (Network Video), предложен подразделением PARC компании Xerox и часто используется в системах телеконфе- ренций, работающих в Интернет. Метод основан на выделении об- ластей изображения, в которых имеются значимые изменения, и передаче со сжатием только этих областей. Для сжатия исполь- зуются либо ДПФ, либо преобразование Хаара (см. § 3.3). Степень сжатия до 20:1. Метод Indeo, разработанный фирмой Intel, основан на пред- сказании текущего кадра по предыдущему. Передача кадра проис- ходит только в том случае, если расчетные значения значимо отли- чаются от реальных. Сжатие осуществляется по методу FST (Fast Slant Transform - быстрое наклонное преобразование), в котором используются только алгебраические операции сложения и вычи- тания. Степень сжатия составляет 1,7:1. НЕКОТОРЫЕ СТАНДАРТЫ СЖАТИЯ ЗВУКА ДЛЯ СИСТЕМ СВЯЗИ Ниже кратко рассмотрены некоторые стандарты кодирования звуковых сигналов, используемые в системах компьютерной ви- деосвязи и других цифровых системах связи. Следует отметить, что если стандарты MPEG-1,2 наряду с методами сжатия изображений 143
содержат и методы сжатия звукового сопровождения, то рекомец- дации Н.261, 262, 263 касаются только изображений, а для сжатия звука в системах видеосвязи должны применяться методы, описан, ные в особых стандартах [18]. Рекомендация G.711 определяет метод передачи речи с по- мощью ИКМ. Верхняя граничная частота передаваемого сигнала /в = 3,4 кГц, частота дискретизации fa = 8 кГц, количество разрядов квантования пкв= 12. После квантования выполняется нелинейное преобразование цифрового сигнала (компандирование или ком- прессия), в результате которого шаг квантования при больших уровнях сигнала увеличивается. Передаточная характеристика это- го преобразования по форме похожа на характеристику гамма- коррекции (см. рис. 2.14). В результате компрессии количество разрядов квантования уменьшается до 8. Более грубое квантование на больших уровнях громкости не создает заметных искажений звука. Таким образом, скорость передачи двоичных символов для стандарта G.711 составляет 8 (бит) х 8 (кГц) = 64 кбит/с. В декоде- ре выполняется обратное нелинейное преобразование с восстанов- лением 12 бит на каждый отсчет, после чего с помощью ЦАП по- лучается аналоговый звуковой сигнал. Рекомендации G.721 и G.726 определяют методы сжатия речи с помощью АДИКМ (см. § 3.5). Частота дискретизации и чис- ло разрядов квантования звукового сигнала такие же, как в реко- мендации G.711. Число разрядов квантования разностного сигнала (ошибки предсказания) равно 4. Параметры предсказателя и шаг квантования разностного сигнала (ошибки предсказания) автома- тически регулируются в зависимости от текущего спектра и ампли- туды входного сигнала. Скорость передачи двоичных символов равна 32 кбит/с. Рекомендация G.722 направлена на повышение качества пе- редачи речи. Верхняя граничная частота сигнала fe = 7 кГц, частота дискретизации fa- 16 кГц, число разрядов квантования пкв = 14. Кодирование включает выделение двух частотных поддиапазонов 50 Гц...4 кГц и 4 кГц...7 кГц и применение АДИКМ с числом раз- рядов квантования ошибки предсказания 6 в низкочастотном под- диапазоне и 2 в высокочастотном поддиапазоне. Результирующая скорость передачи двоичных символов равна 64 кбит/с. 144
Рекомендации G.728 и G.729 описывают методы сжатия сигналов речи с использованием кодирования с линейным предска- занием (LPC - Linear Predictive Coding). Эти методы основаны на модели голосового аппарата человека в виде линейного фильтра, на вход которого подается или квазипериодическая последователь- ность импульсов (при формировании гласных и некоторых соглас- ных звуков) или шум (при формировании шипящих, свистящих и некоторых других согласных звуков). Подробное описание этих методов выходит за рамки настоящего пособия. Отметим лишь, что разборчивая речь на выходе декодера может быть получена при скоростях передачи двоичных символов 4,8 кбит/с и даже 2,4 кбит/с. СТАНДАРТ СЖАТИЯ ЗВУКОВОЙ ИНФОРМАЦИИ АС-3 Стандарт АС-3 (или Долби АС-3) предназначен для кодиро- вания высококачественного звукового сопровождения в цифровом телевидении и мультимедиа [19J. В частности, он используется в цифровой системе телевизионного вещания ATSC (см. § 6.1), принятой в США и ряде других стран. Стандарт АС-3 позволяет кодировать звуковые сигналы до пяти каналов и один дополни- тельный сигнал низкочастотных звуковых эффектов (принято обо- значение 5,1-канальный звук). На вход кодера АС-3 (рис. 4.16,а) поступают кодируемые звуковые сигналы в цифровой форме с частотой дискретизации fa равной 48, 44,1 или 32 кГц и количеством битов на отсчет до 24. В каждом звуковом канале берутся перекрывающиеся блоки по 512 отсчетов, так что каждый отсчет присутствует в двух таких блоках. Затем данные каждого блока отсчетов в Блоке фильтров анализа преобразуются в частотную область с использованием мо- дифицированного ДКП (МДКП или MDCT). Возможны два вари- анта выполнения МДКП: длинный, когда преобразуются все 512 отсчетов, и короткий, когда раздельно преобразуются первые 256 и последние 256 отсчетов. Общая формула МДКП для обоих вариан- тов имеет вид С(к) = - д, §х(л)со{ 2N(2И ++1)+ 4 + ’X*+ (4'3) для 0 < к < N/2, где х(п) - отсчеты сигнала, С(£) — коэффициенты МДКП, А - 512, а- 0 для длинного варианта, N- 256 для коротко- 145
го варианта, а = -1 для первого преобразования в коротком вари, анте, а = 1 для второго преобразования в коротком варианте. Из 512 получаемых коэффициентов МДКП в обоих вариантах остав- ляют 256, представляющие диапазон частот от 0 Rofjl. Характеристики а) в) Рис. 4.16. Стандарт Долби АС-3: кодер (а), декодер (б), структура кадра (в) Каждый коэффициент МДКП далее представляется в виде mant*eexp , где mant - мантисса, ехр - характеристика (exponent), записываемая с помощью 5-разрядного двоичного числа. 256 ха- 146
рэктеристик образуют огибающую спектра в пределах блока отсче- тов. Огибающая спектра кодируется с целью сжатия данных о ней. При выполнении этой операции используются кодирование разно- стей характеристик (ДИКМ) и три варианта (стратегии) объедине- ния этих разностей в группы и представления каждой такой группы одним числом. Потерь информации при этом не происходит. Затем вычисляется распределение битов для квантования мантисс. При этом используется психоакустическая модель, учи- тывающая маскирование громкими звуками более тихих звуков на близких частотах. Полное число распределяемых битов зависит от заданной степени сжатия. Далее выполняется квантование мантисс, в результате которого мантисса каждого из 256 коэффициентов МДКП представляется числом двоичных разрядов, выделенных для нее при распределении битов. Для коэффициентов МДКП, соответ- ствующих частотам, на которых или нет звука, или этот звук пол- гостью замаскирован более громкими звуками на других частотах, вообще не выделяется битов. Именно квантование мантисс создает сжатие звуковой информации и, одновременно, создает потери час- ти этой информации Кодированная огибающая спектра и квантованные мантиссы упаковываются в кадр (АС-3 frame), структура которого показана на рис. 4.16,6. Кадр содержи! кодированные данные о 256 отсчетах сигнала каждого из 6 звуковых каналов, т. е. всего о 1536 отсчетах. Кадр начинается с заголовка, содержащего данные для синхрони- зации (SI - synchronization information), позволяющие обнаружить начало кадра, и данные о параметрах кодирования (BSI - bit stream information). Далее идут шесть блоков данных АВ0-АВ5 (АВ - audio block), в которых передаются кодированная огибающая спек- тра, квантованные мантиссы и различная вспомогательная инфор- мация, необходимая для декодирования. В конце кадра может быть поле дополнительных данных (Aux). Кадр завершается 16-битовым кодом контроля ошибки (CRC). Дополнительный код контроля может содержаться также в заголовке кадра. Поток данных состоит из следующих один за другим кадров. Декодирование может начинаться с любого кадра. В декодере (рис.4.16,в) из потока данных выделяются от- дельные кадры, в каждом кадре проверяются контрольные коды с целью обнаружения ошибок. Если кадр принят правильно, то вы- полняется его декодирование. При этом по кодированной огибаю- 147
щей спектра вычисляется распределение битов, аналогично тому как это делалось при кодировании. Затем производится декванто- вание мантисс. Значения характеристик определяются путем деко- дирования огибающей спектра. По мантиссам и характеристиками восстанавливаются значения коэффициентов МДКП. Наконец в блоке фильтров синтеза выполняется обратное МДКП, в результате чего вычисляются значения отсчетов сигналов звуковых каналов. Стандарт АС-3 позволяет объединять звуковые каналы, со- гласовывать источники звуковых сигналов и звуковоспроизводя- щую аппаратуру с разными количествами каналов, сжимать дина- мический диапазон звука и оптимизировать настройку громкости и дает еще много возможностей для получения наилучшего качества звука при высокой степени сжатия. В зависимости от параметров исходных звуковых сигналов и заданной степени сжатия скорость передачи двоичных символов в выходном потоке данных может быть от 32 до 640 кбит/с. Для 5,1-канального звука типичная скорость передачи 384 кбит/с. Если, например, скорость передачи без сжатия была: 6 каналов х 48 кГц х 18 битов = 5184 кбит/с, то степень сжатия составляет 13,5. Поток данных с кодера АС-3 может быть в качестве элемен- тарного потока включен в состав транспортного потока MPEG-2. Поэтому стандарт АС-3 может использоваться в системах цифро- вого телевидения для сжатия звуковой информации вместо MPEG-2 Layer 3. Контрольные вопросы 1. В какой последовательности кодируются по стандарту JPEG блоки цветного изображения? 2. Почему квантование коэффициентов ДКП создает менее заметные ис- кажения, чем квантование самого изображения? 3. Каким образом в стандарте JPEG осуществляется управление степентю сжатия? 4. В чем состоит сущность кодирования с переменной длиной кодовых слов? 5. Что означает термин "гибридное кодирование" применительно к стан- дартам MPEG-1, MPEG-2? 6. Зачем перед кодированием по MPEG-1, MPEG-2 выполняется переста- новка кадров в GOP? 7. Чем различаются кадровый и полевой режимы кодирования в MPEG-L MPEG-2? 148
g. Почему для В-кадров достигается наибольшая степень сжатия? 9. Каково назначение буферного ЗУ в кодере MPEG-2? 10. Что такое масштабируемость? 11. Что такое уровни и профили MPEG-2? |2. Что имеют общего и чем различаются уровни (Layers) кодирования звуковой информации в стандартах MPEG-1, MPEG-2? 13. В чем сущность адаптивного распределения битов? 14. Каково назначение психоакустической модели? 15. Как выделяются данные разных ТВ-программ из транспортного пото- ка MPEG-2? 16. Что такое видео- и аудиообъекты MPEG-4? 17. Какие методы используются в MPEG-4 для передачи изображений человеческих лиц? 18. Опишите процесс декодирования потока данных MPEG-4. 19. Где могут применяться Рекомендации Н.261 и Н.263? 20. Какие методы кодирования применяются для сжатия речевых сигна- лов в системах видеосвязи? 21. В чем состоят сходство и различие стандартов Долби АС-3 и MPEG-2 Audio Layer 3? 149
5. ПЕРЕДАЧА СИГНАЛОВ ЦИФРОВОГО ТЕЛЕВИДЕНИЯ ПО КАНАЛАМ СВЯЗИ 5.1. Основные положения Главными требованиями к средствам передачи сигналов цифрового телевидения по каналам связи являются использование существующих каналов телевизионного вещания и обеспечение при этом высокой помехоустойчивости. Невыполнение первого их этих требований привело бы к не- обходимости менять сложившееся распределение частотных диа- пазонов по каналам, заменять передающие и приемные антенны, переходить к использованию более широкополосных передатчи- ков и радиочастотных трактов ТВ приемников. Как было показано в предыдущей главе, скорость передачи двоичных символов на выходе кодера MPEG-2 основного уровня основного профиля дос- тигает 15 Мбит/с. Максимальная эффективность использования полосы частот канала связи при передаче двоичного сигнала с простой амплитудной манипуляцией, когда амплитуда несущей может принимать два значения, составляет 1 бит/с/Гц. Следова- тельно, для передачи сигнала цифрового телевидения необходима полоса частот до 15 МГц, что превышает ширину полосы частот стандартных каналов телевизионного вещания (8 МГц в Европе и 6 МГц в США и Японии). Поэтому для передачи сигналов цифрового телевидения, особенно если надо передавать сигналы нескольких программ обычной четкости в одном канале или сигнал ТВЧ, необходимо увеличивать эффективность использования полосы частот канала связи, что достигается применением более сложных методов мо- дуляции несущей. I Рассмотрим вопрос о помехоустойчивости [201. Как извест- но, цифровая информация передается в виде последовательности двоичных символов - единиц и нулей. Из двоичных символов со- стоят кодовые комбинации, каждая из которых содержит инфор- мацию о букве, цифре или, в случае передачи телевизионного сиг- нала, о значении одного отсчета этого сигнала. 150
В результате действия шумов и помех отдельные двоичные символы могут быть приняты с ошибкой. Интенсивность ошибок характеризуется их относительной частотой foul [ош/дв.символ], показывающей вероятность того, что принятый отдельный двоич- ный символ ошибочен. В англоязычной технической литературе эта величина обычно называется BER (Bit Error Rate - частота ошибок на бит). Ошибки могут быть одиночные и пакетные (групповые). Одиночные ошибки не зависят друг от друга. Пакетные ошибки искажают сразу несколько соседних двоичных символов по опре- деленному закону. Например, вследствие действия достаточно продолжительной импульсной помехи несколько идущих подряд двоичных символов становятся равными 0 или 1. Основные причины возникновения ошибок: - действие аддитивного шума, в основном проявляющееся во входных каскадах приемной аппаратуры; - индустриальные и атмосферные помехи, возникающие в результате различных электрических разрядов; - помехи, создаваемые радиопередатчиками, работающими в этой же полосе частот в соседних местностях; - многолучевое распространение радиоволн, возникающее из-за отражений от зданий и сооружений и от поверхности земли. Общеизвестными способами повышения помехоустойчиво- с I и являются увеличение мощности передатчика, увеличение уси- ления антенны, применение в приемниках малошумящих усилите- лей и охлаждение входного каскада приемника, рациональное планирование использования радиоканалов на смежных террито- риях, помехоустойчивое кодирование. Однако эти методы имеют ограничения, связанные с реальными техническими возможностя- ми, конечной шириной доступного диапазона длин волн, стоимо- стью аппаратуры и т. д. В случае передачи цифровых сигналов значительное повышение помехоустойчивости может быть дос- тигнуто путем применения помехоустойчивого кодирования, ко- торое рассматривается в следующем разделе. Для уменьшения влияния пакетных ошибок применяется скремблирование (перемежение или перемешивание). Данные, пе- ред передачей по каналу связи, переставляются в заданном поряд- ке, а в приемной части восстанавливается исходный порядок, т. е. выполняется дескремблирование. При этом пакетная ошибка, воз- 151
никшая в канале связи, например, в результате действия индусгри- альной помехи, превращается в набор рассредоточенных во вре. мени одиночных ошибок, которые проще обнаруживаются и ис- правляются с помощью помехоустойчивого кодирования. Пример скремблирования и дескремблировапия показан на рис. 5.1. Исходный цифровой сигнал представляет собой последо- вательность 4-разрядных двоичных слов, передаваемых бит за би- том (рис. 5.1,а). Скремблирование выполняется в пределах каждых четырех слов, т. е. в пределах отрезка цифрового сигнала, содер- жащего 16 бит. Числа показывают номер бита в этом отрезке. В результате скремблирования биты переставляются (рис. 5.1,6). Биты, искаженные действием пакетной ошибки, отмечены звез- дочками. В результате дескремблирования (рис. 5.1,в) восстанав- ливается исходный порядок битов. Искаженные биты рассредота- чиваются. Как будет показано ниже, одиночные ошибки значи- тельно легче исправляются с помощью корректирующих кодов. а) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |10 111112|13 )14 115|1б] 6) | 1 | 5 | 9 113 | 2 | 6 110114 | 3 I 7 111 115 | 4 | 8 112116 | в) | 1 | ^ | 3 | 4 | 5 | 6 | 7 | 8 | 9 |10|П |12|13|14 |15|1б| Рис. 5.1. Скремблирование и дескремблирование Скремблирование используется и для шифровки передавае- мых данных, так как восстановить правильный порядок следова- ния битов при дескремблировании можно только обладая инфор- мацией о правилах перестановки битов. ( Рассмотрим теперь общий вопрос о возможности одновре- менного выполнения требований эффективного использования полосы частот канала связи и обеспечения помехоустойчивости в определенной мере. Эти требования взаимно противоположны- Пусть, например, для повышения эффективности использований полосы частот в каждый момент времени сигнал в канале связи будет иметь не 2, а 4 или более возможных значений. В случае применения AM это достигается наличием соответствующего ко- 152
дпчества уровней амплитуды несущей, при ЧМ должно быть соот- ветствующее количество возможных значений частоты, при ис- пользовании ФМ - возможных значений фазы сигнала и т. д. р общем случае можно сказать, что должен быть расширен алфа- вит символов в канале связи. Очевидно, что при этом ухудшится помехоустойчивость системы, так как приемник должен будет одновременно различать ие 2, а 4 или более значений сигнала. Чтобы обеспечить уверенное различение требуемого количества уровней сигнала необходимо увеличивать отношение сигнал/шум в канале связи, т. е. наращи- вать мощность передатчика. Это соответствует основным положе- ниям теории связи - для увеличения пропускной способности ка- нала связи при фиксированной ширине полосы частот необходимо повышать отношение сигнал/шум. 5.2. Помехоустойчивое кодирование Помехоустойчивое кодирование передаваемой информации позволяет в приемной части системы обнаруживать и исправлять ошибки. Коды, применяемые при помехоустойчивом кодировании, называются корректирующими кодами или кодами, исправляю- щими ошибки [20J. Если применяемый способ кодирования позволяет обнару- жить ошибочные кодовые комбинации, то в случае приема изо- бражения можно заменить принятый с ошибкой элемент изобра- жения на предыдущий принятый элемент или на соответствующий элемент предыдущей строки или предыдущего кадра. При этом заметность искажений на экране телевизионного приемника суще- ственно уменьшается. Такой способ называется маскировкой ошибки. Более совершенные корректирующие коды позволяют не только обнаруживать, но и исправлять ошибки. Как правило, кор- ректирующий код может исправлять меньше ошибок, чем обнару- живать. Число ошибок, которые корректирующий код может ис- править в определенном интервале последовательности двоичных символов, например, в одной кодовой комбинации, называется ис- правляющей способностью кода. Основной принцип построения корректирующих кодов за- ключается в том, что в каждую передаваемую кодовую комбина- 153
цию, содержащую к информационных двоичных символов, вводят р дополнительных двоичных символов. В результате получается! новая кодовая комбинация, содержащая п = к + р двоичных симво- лов. Такой код часто получает обозначение (и, к). Избыточность этого кода определяется как R = (n-k)/k. (5.1) Число возможных кодовых комбинаций кода (п, к) равно 1". к Из них передаваться могут 2 кодовых комбинации, называемых разрешенными. Остальные 2-2 кодовые комбинации являются запрещенными. Появление одной из этих запрещенных комбина- ций в приемной части означает, что имеется ошибка. Для оценки способности кода обнаруживать и исправлять ошибки используется понятие кодового расстояния (расстояний Хемминга). Кодовое расстояние di,n между кодовыми комбинация- ми {%/Д и {х„у} определяется соотношением di,n=Y(xU®x-nj)- (5’2| /=-1 Например, кодовое расстояние между кодовыми комбина- циями 0001 и ООП равно 1. Если разрешенные кодовые комбинации выбраны таким об- разом, что при изменении любого двоичного символа разрешенная кодовая комбинация переходит в запрещенную, то корректирую- щий код позволяет обнаруживать одиночные ошибки в отдельных кодовых комбинациях. Одиночная ошибка переводит исходную кодовую комбина- цию в кодовую комбинацию, отстоящую от нее на d = 1. Следова- тельно, для обнаружения одиночных ошибок необходимо, чтобы кодовое расстояние между любыми двумя разрешенными кодовы- ми комбинациями корректирующего кода было не менее 2. Для обнаружения ошибок в кодовой комбинации необходимо, чтобы кодовое расстояние между двумя разрешенными кодовыми ком- бинациями удовлетворяло неравенству d> ri + 1 . (5.3) Один из самых простых и известных примеров помехо- устойчивого кодирования - проверка на четность. В каждую кодо- вую комбинацию вводится один дополнительный (контрольный или проверочный бит) двоичный символ хр, равный 1, если сумма 154
единиц в исходной кодовой комбинации равна нечетному числу, и равный 0 в противоположном случае. Это правило выражается соотношением хр =Х] Фх2Ф...ФэсА , (5.4) где хр .хк - двоичные символы исходной кодовой комбинации; © - символ операции суммирования по модулю 2. Если в приемной части системы один из двоичных симво- лов кодовой комбинации принят с ошибкой, значение контроль- ного бита не будет удовлетворять указанному правилу. Это несо- ответствие будет обнаружено специальной схемой и явится при- знаком того, что произошла ошибка. Таким образом, проверка на четность позволяет обнаруживать одиночные ошибки, но не по- зволяет их исправлять. Данный метод широко применяется в вы- числительной технике, где наличие хотя бы одного ошибочного бита недопустимо. Рассмотрим пример кодирования с проверкой на четность для к = 8. Ниже приведены две допустимых кодовых комбинации, в которых последний бит, отделенный вертикальной чертой, явля- ется проверочным: 00000001|1; 00000011|0. Расстояние Хэмминга между этими кодовыми комбинациями равно 2. Кодовая комбина- ция 00000011|1, расстояние Хэмминга от которой до двух преды- дущих равно 1, является запрещенной, и ее появление в приемнике свидетельствует об ошибке. Для исправления одиночных ошибок необходимо, чтобы ко- довое расстояние между любыми двумя разрешенными кодовыми комбинациями корректирующего кода было не менее 3. В этом случае принятая запрещенная кодовая комбинация заменяется (Нижайшей к ней разрешенной кодовой комбинацией. Так как ошибки одиночные, то переданная разрешенная кодовая комбина- ция отстоит от принятой запрещенной кодовой комбинации на 1, а остальные разрешенные кодовые комбинации - не менее чем на 2. В этом случае ошибка надежно исправляется. В общем случае для коррекции п ошибок в кодовой комби- нации должно выполняться неравенство J>2r2+1, (5.5) где d — расстояние между любыми двумя разрешенными кодовыми Комбинациями. 155
Для увеличения кодового расстояния между разрешенными кодовыми комбинациями необходимо увеличивать число коц- трольных символов в передаваемых кодовых комбинациях. Из- вестно соотношение dnlin =р-1=П-к+1, (5.6) где drnin - минимальное кодовое расстояние между двумя разре- шенными кодовыми комбинациями. Одними из простых и широко используемых корректирую, щих кодов являются коды Хэмминга. Для d = 3, т. е. при обеспече- нии возможности исправления одиночных ошибок, коды Хэммин- га имеют вид (2р-1, 2р-1 - р), где р - число проверочных символов в передаваемой кодовой комбинации. Для р - 1 и р = 2 получаются коды (1, 0) и (3, 1), не имеющие практического значения. Для р = 3 получается код (7, 4), содержащий 16 допустимых кодовых ком- бинаций. Для р = 4 получается код (15, 11), содержащий 2048 до- пустимых кодовых комбинаций, и т. д. Проверочные символы по- лучаются как суммы по модулю двух разных комбинаций инфор- мационных символов. Возможно построение кодов Хэмминга и для d > 3. В телевизионных системах большое значение имеет возмож- ность коррекции пакетных ошибок, искажающих сразу несколько соседних двоичных символов. Кроме того, при выборе кода для системы цифрового телевидения необходимо учитывать слож- ность построения декодера, так как декодер должен быть в каждом телевизионном приемнике. В большинстве разработок систем цифрового телевидения для обеспечения помехоустойчивой передачи телевизионных сиг- налов по каналу связи используются коды Рида-Соломона (Reed- Solomon). Чтобы получить некоторое представление об этих кодах посмотрим, какое место они занимают в классификации корректи- рующих кодов (рис. 5.2). Корректирующие коды разделяются на блочные и сверточ- ные (непрерывные, рекуррентные). Блочные коды основаны на пе- рекодировании исходной кодовой комбинации (блока), содержа' щей к информационных символов, в передаваемую кодовую ком- бинацию, содержащую п > к символов. Дополнительные р = п - к символов зависят только от к символов исходной кодовой комби- нации. Следовательно, кодирование и декодирование осуществ- ляются всегда в пределах одной кодовой комбинации (блока)- 156
В противоположность этому в сверточных кодах кодирование и декодирование осуществляются непрерывно над последо- вательностью двоичных символов. Рис. 5.2. Место кодов Рида-Соломона в классификации корректирующих кодов Блочные коды бывают разделимые и неразделимые. В разде- лимых кодах можно в каждой кодовой комбинации указать, какие символы являются информационными, а какие - проверочными. В неразделимых кодах такая возможность отсутствует. Следующая ступень классификации - систематические ко- ды. Они отличаются тем, что в них проверочные символы форми- руются как линейные комбинации информационных символов. То есть для каждого проверочного символа xpj можно написать соот- ношение XPJ = )Ф )> (5’7) где «у, ..., akj - коэффициенты, принимающие значения 0 или 1, j= 1,2, ..., n-k. Соотношение (5.1) для формирования контрольного бита проверки на четность является частным случаем (5.6). Коды Хэм- минга также относятся к блочным разделимым систематическим кодам. 157
Перейдем к знакомству с циклическими кодами. Свойства этих кодов позволяют в достаточно компактной и ясной форме изложить правила как получения самого кода, так и построения декодера для него. В первую очередь введем запись кодовой комбинации или, как часто называют ее в литературе по корректирующим кодам, кодового вектора в виде полинома. Пусть имеется кодовая комби- нация aoala2...an.i, где а^- младший разряд кода, «„q- старший раз- ряд кода. Соответствующий ей полипом имеет вид п-1 а0 + а\Х + ... + ап.|Х . (5.8) Над полиномами, представляющими кодовые комбинации, определена математическая операция умножения. Особенность этой операции по сравнению с общепринятой заключается в том, что коэффициенты при х всех степеней суммируются по модулю 2, а показатели степени х при перемножении также суммируются по модулю п. Далее введем понятие производящего полинома. Производя- щим полиномом порядка (п-к) может быть полипом со старшей степенью х равной (п-к), на который без остатка делится двучлен (1+х). Разрешенные кодовые комбинации получаются перемно- жением полиномов порядка к — 1, выражающих исходные кодовые комбинации, на производящий полином. Циклические коды имеют следующее основное свойство. Если кодовая комбинация аоащг—an-i является разрешенной, то получаемая из нее путем циклического сдвига кодовая комбинация an.i<7oat—<2п-2 также является разрешенной в данном коде. При запи- си в виде полиномов операция циклического сдвига сводится к умножению исходного полинома на х с учетом приведенных ра- нее правил выполнения операции умножения. Циклический код с производящим полиномом g(x) строится следующим образом. 1. Берутся полиномы g(x), xg(x), х g(x),..., х g(x). 2. Кодовые комбинации, соответствующие этим полиномам, записывают в виде строк матрицы G, называемой производящей матрицей. 3. Формируется набор разрешенных кодовых комбинаций кода. В него входит нулевая кодовая комбинация, к кодовых ком- бинаций, указанных в п.1, а также суммы их всевозможных соче- 158
таний. При этом каждая строка производящей матрицы может вхо- дить в сумму не более одного раза. Суммирование осуществляется поразрядно, причем каждый разряд суммируется по модулю 2. Об- щее число полученных таким образом разрешенных кодовых ком- к би наций равно 2 , что соответствует числу информационных раз- рядов кода. Для построения декодера в первую очередь получают произ- водящий полином /г(х) порядка к для построения исправляющей матрицы Н. Кх} = 1+х" (5.9) Строками исправляющей матрицы Н будут кодовые комби- n-k-1 нации, определяемые полиномами й(х), xh(x), ... , х h(x). Исправ- ляющая матрица имеет п столбцов и п-к строк. При декодировании принятая кодовая комбинация аощаг—«п-1 скалярно умножается на каждую строку исправляющей матрицы. Эта операция может быть записана в виде соотношения cj = (hPa>) ® (^«2)®- • -®(hjna.), (5‘10) где hji - элементы j-й строки матрицы Н. Полученные п-к чисел с7 образуют исправляющий вектор или синдром. Если ошибок нет, то все с, = 0. Если же при передаче данной кодовой комбинации воз- никла ошибка, то некоторые из чисел Cj не равны 0. По тому, какие именно элементы исправляющего вектора отличны от нуля, можно сделать вывод о том, в каких разрядах принятой кодовой комбина- ции есть ошибка и, следовательно, исправить эти ошибки. При использовании циклических кодов кодирующие и деко- дирующие устройства можно строить в виде сдвиговых регистров с обратными связями через сумматоры по модулю 2. Различные виды циклических кодов получаются с помощью различных производящих полиномов. Существует развитая мате- матическая теория этого вопроса. Среди большого количества Циклических кодов к числу наиболее эффективных и широко ис- пользуемых относятся коды Бозе-Чоудхури-Хоквипгема (ВСН- коды по первым буквам фамилий Bose, Chaudhuri, Hockwinham, Или в русскоязычной записи БЧХ-коды), обладающие следующим свойством: для любых х и < (2s — 1)/2 существует циклический код длиной п - 2s - 1, исправляющий все возможные комбинации 159
из q или менее ошибок и содержащий не более sq проверочных символов. Например, БЧХ-код (63, 44), используемый в системе спутникового цифрового радиовещания, позволяет исправить 2 или 3 ошибки, обнаружить 4 или 5 ошибок на каждый блок из 63 символов. Избыточность такого кода равна R - (63 - 44)/63 = 0,33. Одним из видов ВСН-кодов являются коды Рида-Соломона. В простейшем случае производящий полином этих кодов имеет вид 2 d-1 g{x) = (х- а)(х - а - а ), (5.11) где d - кодовое расстояние в формируемом коде; а - 5-значная двоичная последовательность, задаваемая в качестве первообраз- ного элемента кода. Коды Рида-Соломона используются, как правило, вместе с каким-либо простым корректирующим кодом, выходные кодовые комбинации которого являются элементами для кода Рида- Соломона. Пусть на входе используется простой корректирующий код с ^-разрядными кодовыми комбинациями, исправляющий ошибки с кратностью не более t. Тогда в выходном коде будут по- лучаться кодовые комбинации длиной п = s(2 - 1) символов, из которых 2ts будут проверочными. Такой код будет исправлять па- кетные ошибки длиной до s(t — 1) + 1 символов. Способность эф- фективно исправлять пакетные ошибки является одним из главных достоинств кодов Рида-Соломона, обуславливающих их широкое применение в современной технике. В Европейском стандарте цифрового телевидения DVB (см. § 6.1) используется код Рида-Соломона (внешнее кодирование), записываемый как (204, 188, 8), где 188 - число байтов в пакете транспортного потока MPEG-2, 204 - число байтов в пакете после добавления проверочных символов, 8 - минимальное кодовое рас- стояние между допустимыми кодовыми комбинациями. Эффективность действия корректирующего кода оценивает- ся по формуле Р4 XK,= 101g (5.12) где Е\ — энергия сигнала на 1 бит передаваемой информации; No мощность шума на 1 Гц полосы частот канала связи; f Д, "1 и ( 160
_ отношения этих величин при использовании корректирующего кода и без него, при которых получаются одинаковые частоты ошибок. Коэффициент Ккк показывает, на сколько использование корректирующего кода позволяет ухудшить отношение сиг- цал/шум в канале связи с сохранением частоты ошибок на преж- нем уровне. Значение Ккк обычно находится в интервале 3...7 дБ, причем оно возрастает при уменьшении частоты ошибок, при которой производится оценка в соответствии с (5.12). Другой широко используемый в цифровом телевидении и других цифровых системах передачи информации класс кодов - коды с решетчатой структурой (trellis code) [21]. Эти коды отно- сятся к сверточным и преобразуют входную бесконечную после- довательность двоичных символов в выходную бесконечную по- следовательность двоичных символов, в которой на каждый сим- вол входной последовательности приходится более одного символа. Увеличение числа передаваемых двоичных символов при использовании сверточных кодов характеризуется относительной скоростью ^отн = QJQ^y. , (5.13) где QBX и QBblx — скорости передачи двоичных символов на входе и на выходе кодера, соответственно. Пример формирования кода такого типа приведен на рис. 5.3. Каждьп'1 двоичный символ входной последовательности пре- образуется в пару двоичных символов выходной последовательно- сти, определяемую двоичным символом входной последователь- ности и текущим состоянием кодирующего устройства. Таких со- стояний может быть четыре: 00, 01, 10 и 11. Каждому состоянию соответствует горизонтальный ряд узлов на диаграмме. Из каждо- го узла, соответствующего текущему состоянию, выходят две вет- ви. Верхняя (на рисунке) ветвь соответствует двоичному символу 0 входной последовательности, а нижняя ветвь - двоичному сим- волу 1. Пара цифр у каждой ветви показывает пару двоичных сим- волов выходной последовательности, формируемых при данном переходе кодирующего устройства из одного состояния в другое. Полученная структура переходов кодирующего устройства обра- зует решетку, что и объясняет название этого класса кодов. 161
Для декодирования решетчатых кодов чаще всего применя- ется алгоритм Витерби, который позволяет из множества возмож- ных путей, приводящих к последнему декодируемому символу принятой последовательности, выбрать относительно небольшое число путей, являющихся наиболее правдоподобными, и опреде- лить правильное значение символа исходной последовательности. В цифровом телевидении решетчатые коды применяются для помехоустойчивого кодирования передаваемых данных в ка- нале связи после кодирования с применением кодов Рида- Соломона (внутреннее кодирование). 5.3. Методы модуляции, применяемые при передаче сигналов цифрового телевидения по радиоканалу Главная особенность модуляции несущей цифровыми сигна- лами заключается в том, что модулируемый параметр несущей может принимать в результате модуляции ряд дискретных значе- ний. Такую модуляцию часто называют манипуляцией. Амплитудная манипуляция (АМи) заключается в дискретном изменении уровня амплитуды несущей. В простейшем случае од- ному уровню сигнала может соответствовать наличие несущей, а другому — отсутствие. Получение помехоустойчивой системы с АМн при количестве значений сигнала более 2 сопряжено с трудностями. Кроме того, при этом получаются значительные перепады излучаемой мощности. 162
Частотная манипуляция (ЧМн) осуществляется путем дис- кретного изменения частоты несущей при постоянной ее амплитуде. Фазовая манипуляция (ФМн) заключается в дискретном из- менении фазы несущей. В простейшем случае несущая может иметь два значения фазы - 0 и 180°. В приемнике может осущест- вляться как когерентное детектирование, требующее фазовой син- хронизации приемника с передатчиком, так и более простое неко- герентное детектирование. В последнем случае часто применяют относительную фазовую манипуляцию, при которой фаза несу- щей для каждого принятого символа сравнивается не с некоторой абсолютной начальной фазой, а с фазой несущей для предыдущего принятого символа. Для повышения эффективности использования полосы час- тот канала связи применяется многопозиционная ФМн [22]. При- мер соответствия фазы несущей передаваемому трехразрядному двоичному коду для восьмипозиционной ФМн приведен на рис. 5.4. Сдвиг между дискретными значениями фазы несущей равен О 45 . Эффективность использования полосы частот в такой системе повышается в три раза по сравнению с простой двухпозиционной ФМн, так как на несущей одновременно передаются три двоичных символа. Рис. 5.4. Восьмипозиционная фазовая манипуляция Следующий вид модуляции, часто применяемый для переда- чи цифровых сигналов - многопозиционная квадратурная ампли- тудная манипуляция (КАМн). Как известно, квадратурная ампли- тудная модуляция заключается в одновременной амплитудной мо- дуляции двумя сигналами щ (inphase) и uq (quadrature) двух квадратурных составляющих несущей с частотой щи получении суммарного сигнала: u(f) = Wi(r) cos (Dot + hq(0 sin (Dot. (5.14) 163
Для демодуляции используется синхронное детектирование состоящее в умножении сигнала u(t) на cos а^г и на sin W с после- дующим подавлением высокочастотных составляющих фильтром НЧ. В результате выделяются, соответственно, wj(r) и wQ(r). Сама по себе квадратурная амплитудная модуляция уже обеспечивает увеличение эффективности использования полосы частот в два раза, так как на одной несущей частоте одновременно передаются два сигнала. В случае КАМн уровни каждой квадра- турной составляющей несущей изменяются дискретно. На рис. 5.5 показана 4-позиционная КАМн, при которой каждая квадратурная составляющая может иметь два возможных уровня. В случае, по- казанном на рис. 5.5,а, каждая составляющая может или отсутст- вовать, или присутствовать с заданной амплитудой. В случае, при- веденном на рис. 5.5,6, каждая составляющая может быть в фазе, что соответствует уровню +0,5, или в противофазе, что соответст- вует уровню -0,5. Второй вариант предпочтительнее, так как в нем обеспечивается меньшее отношение пиковой мощности несущей к ее средней мощности. Q 10 ,11 I "оо ’ *01 10ф Ф11 I • • 00 01 Рис. 5.5. 4-позиционная квадратурная амплитудная манипуляция Если каждая квадратурная составляющая может иметь четы- ре уровня, что соответствует двум битам, то получается 16-позиционная КАМн, диаграмма возможных комбинаций сигна- лов I и Q для которой приведена на рис. 5.6. Такая модуляция дает выигрыш в эффективности использования полосы частот в четыре раза, так как одновременно передаются 4 бита. Применяются так- же 64-позиционная и 256-позиционная КАМн, при использовании которых одновременно передаются 6 и 8 битов, соот ветственно. 164
Q • 1011 • 1010 0010 ООП • 1001 • 1000 • 0000 • 0001 I • 1101 1100 0100 0101 11*1 1110 оно • 0111 Рис. 5.6. 16-позиционная квадратурная амплитудная манипуляция 6?Ж Если дискретно модулировать не амплитуду, а фазу каждой из двух квадратурных составляющих, получим квадратурную фа- зовую манипуляцию (КФМн). Сигнал, получаемый в этом случае, может быть представлен соотношением cos(tdf/ + 0С) + sin(tzw + 0S) = cos(oy/ +Оо), (5.15) где 0С , 0S - фазы квадратурных составляющих; во - фаза результи- рующего сигнала. В табл. 5.1 приведены значения фазы результи- рующего сигнала в случае, когда квадратурные составляющие мо- дулируются по фазе двухуровневыми сигналами соответственно dt и d2, имеющими уровни 1 и -1. В моменты, когда меняются фазы обеих квадратурных со- о сбавляющих, фаза в0 может меняться скачком на 180 . Это приво- дит к возникновению паразитной амплитудной модуляции при прохождении сигнала с КФМн через частотно-зависимые цепи. Для устранения этого нежелательного эффекта используют квад- ратурно-фазовую манипуляцию со сдвигом (КФМнС). Сущность ее заключается в том, что фазы двух квадратурных составляющих изменяются в разные моменты времени, и возможность скачка фа- О зы суммарного сигнала на 180 исключается. Таблица 5.1 ф 1 1 -1 -1 d2 1 -1 1 -1 е0 тг/2 0 л -л/2 165
DFPH Один из современных методов передачи цифровых сигналов по радиоканалам — ортогональное частотное мультиплексирова- ние^?,}. В англоязычной технической литературе такая модуляция называется OFDM (Orthogonal Frequency Division Multiplex). Сущ. ность этого метода поясняется рис. 5.7. Рис. 5.7. OFDM В стандартном канале телевизионного вещания, имеющем ширину полосы частот AFK выделяют N несущих частот, отстоя- щих друг от друга на равные частотные интервалы А/ Числа у оси частот показывают номера несущих от 0 до Л-1. Общий поток пе- редаваемых цифровых данных, имеющий скорость передачи дво- ичных символов (2о, разделяют на N параллельных подпотоков, каждый из которых имеет скорость передачи двоичных символов Gi = QdN. Каждый подпоток передается на своей несущей, например, с использованием КАМн. Таким образом, в одном канале телеви- зионного вещания получается N узкополосных подканалов. Коли- чество несущих в соответствии со стандартом DVB-Т (§ 6.1) мо- жет быть равно 6817 (А/= 1116 Гц) или 1705 (Д/= 4464 Гц). Модуляция и демодуляция выполняются с помощью ДПФ- Выбор частотных интервалов между несущими осуществляется так, чтобы соседние несущие колебания были ортогональны на отрезке времени, в течении которого передается один символ. Это позволяет избежать взаимного влияния соседних подканалов. 166
Данный метод передачи имеет следующие достоинства: - равномерное распределение энергии по полосе частот ка- нала связи; - возможность передавать наиболее важную часть информа- ции (синхронизацию, НЧ-составляющие сигнала яркости) на тех участках полосы частот, где меньше всего уровень помех от со- седних каналов, а области полосы частот канала, соответствующие несущим изображения и звука обычного телевизионного вещания вообще не использовать; - так как каждый из подканалов является узкополосным, то уменьшается влияние отраженных сигналов при многолучевом приеме. Последнее свойство особенно важно, так как многолучевой прием создает значительные сложности для цифрового телевизи- онного вещания в городах. При использовании OFDM длительно- сти интервалов времени, в течении которых передаются отдельные символы, увеличиваются и становятся больше, чем времена за- держек отраженных сигналов, благодаря чему обеспечивается без- ошибочный прием. Кроме того, для исключения влияния отраженных сигналов вводятся защитные интервалы. На рис. 5.8,а показаны отрезки времени, в течении которых на модулятор одной из несущих по- ступают символы передаваемого подпотока данных SI, S2, S3 и т. д. (В зависимости от используемого метода модуляции несу- щих количество битов в символе может быть различным/) Перед началом передачи символа S2 формируется защитный интервал Д1 (рис. 5.8,6), в течении которого на входе демодулятора в приемни- ке еще могут присутствовать отраженные сигналы, содержащие предыдущий символ S1 (рис. 5.8,в). Затем в течении интервала времени Тр2 передается символ S2. Аналогично формируется за- щитный интервал А2 перед символом S3 и т.д. а) ) SI S2 S3 S4 в) Si S2 S3 S4 { Рис.5.8. Формирование защитных интервалов 167
В современных системах передачи цифровых сигналов в том числе в системах цифрового телевидения, при модуляции несущей осуществляют дополнительное кодирование информа- ции, например, с использованием решетчатых кодов с целью по. вышения помехоустойчивости. При этом число возможных со- стояний несущей после модуляции превышает число символов которые должны быть переданы. То есть вводится дополнительная избыточность, обеспечивающая повышение помехоустойчивости. Такую модуляцию, совмещенную с кодированием, называют ко- дированной модуляцией (Coded modulation). В частности, сочета- ние помехоустойчивого канального кодирования с OFDM называ- ют COFDM (Coded Orthogonal Frequency Division Multiplex). Таким образом, при передаче сигналов цифровой системы телевидения по радиочастотным каналам связи используются две ступени помехоустойчивого кодирования. На первой ступени, на- зываемой внешней, осуществляется кодирование цифровой ин- формации с помощью кодов Рида-Соломона, как это было описано в предыдущем разделе. На второй ступени, называемой внутрен- ней, используется канальное кодирование, совмещенное с модуля- цией. В результате достигается требуемая помехоустойчивость. Контрольные вопросы 1. Что такое скремблирование и для чего оно применяется? 2. Как выполняется маскировка ошибки? 3. Что такое расстояние Хэмминга? 4. В чем состоит отличие блочных и сверточных корректирующих кодов? 5. Каким параметром характеризуется эффективность действия корректи- рующего кода? 6. Что такое многопозиционная фазовая манипуляция? 7. Что такое многопозиционная квадратурная манипуляция? 8. В чем состоит сущность OFDM? 9. Для чего при использовании OFDM вводят защитные интервалы? 10. Что такое внешнее и внутреннее кодирование? 168
г 6. Реализация цифровых телевизионных систем 6.1. Европейский стандарт цифрового телевидения DVB Работы по проекту DVB (Digital Video Broadcasting - Циф- ровое видеовещание) начались в 1993 г. В них принимает участие более 200 организаций и фирм многих стран Европы. В результате в 1994 г. были выработаны основные положения стандарта DVB-C (С - Cable, кабель) для кабельного телевизионного вещания и стандарта DVB-S (S - Sattelite - спутник) для спутникового теле- визионного вещания. Работа над стандартом наземного (т. е. обычного, эфирного) телевизионного вещания DVB-T (Terrestrial - наземный) была закончена позже, в 1996 г., так как в этом виде вещания внедрение цифрового телевидения столкнулось с наибо- лее серьезными сложностями [11]. В основе стандартов DVB лежит стандарт кодирования дви- жущихся изображений и звукового сопровождения MPEG-2, рас- смотренный в § 4.2. В стандартах DVB помимо методов кодирова- ния и параметров транспортного потока, описанных в MPEG-2, определены также методы помехоустойчивого кодирования, ка- нального кодирования, модуляции несущих частот, передачи до- полнительной информации, защиты информации от несанкциони- рованного доступа и другие методы, необходимые для организа- ции цифрового телевизионного вещания [24]. Параметры кодирования движущихся изображений, преду- смотренные в DVB, совпадают с приведенными в табл. 4.4. В на- стоящее время, как правило, используется основной профиль без масштабирования. Синтаксис транспортного потока DVB расширен по сравне- нию с транспортным потоком MPEG-2. Предусмотрены новые ти- пы пакетов, имеющие свои особые идентификаторы (PID). Среди них пакеты SI (Service Information - служебная информация), в ко- торых передаются сведения об источнике ТВ-программы, в том числе параметры канала связи (частота, скорость передачи данных, координаты спутника и т.д.), классификация содержания програм- мы, телефонные номера для обратной связи с телестудией и т. п. 169
В DVB предусмотрена передача пакетов, содержащих дац_. ные обычного Телетекста, который уже много лет широко исполь- зуется в европейских странах. Имеются возможности передачи субтитров с переводом, что весьма актуально для многоязычной Европы, а также графических элементов (логотипов ТВ каналов и т. п.). Стандарты DVB обеспечивают условный доступ (Conditional Access - СА) к передаваемым телевизионным программам, что позволяет организовывать платное ТВ-вещание. Система условно- го доступа включает механизм скремблирования ТВ-программ, подсистему хранения данных о пользователях (Subscriber Management System - SMS), и подсистему шифровки и пересылки ключей, обеспечивающих правильное дескремблирование прини- маемых программ, пользователям, внесшим соответствующую оп- лату (Subscriber Authorization System - SAS). При этом стандарти- зирован только общий алгоритм скремблирования (причем эта ин- формация недоступна для простых пользователей), а для SMS и SAS определены общие принципы построения. Конкретная реа- лизация системы условного доступа определяется фирмами, веду- щими ТВ-вещание и производящими аппаратуру. Одним из реко- мендованных методов шифровки ключей является SimulCrypt. Возможно одновременное использование нескольких способов шифровки (MultiCrypt). Стандарты DVB допускают возможность вводить дополни- тельные, не описанные в стандарте, пакеты данных с особыми идентификаторами. В этих пакетах ведущая вещание телевизион- ная компания может передавать ключи к шифрам условного дос- тупа, так называемые навигаторы или гиды (EPG - Electronic Program Guide), т. е. системы меню и таблиц для поиска нужной передачи и программирования времени включения телевизионного приемника для просмотра или записи выбранной передачи, и дру- гую информацию. Форматы данных в таких пакетах определяются телевизионными компаниями. Поэтому для приема ТВ-программ разных компаний могут понадобиться разные декодеры. Для многих видов сервиса, реализуемых в рамках стандар- тов DVB, необходим интерактивный режим работы, т. е. возмож- ность взаимодействия между пользователем и поставщиком ТВ- программы. Указанное взаимодействие может заключаться в по- 170
сылке команд по телефонному каналу, в обмене данными через Интернет и т. д. С этой целью в стандартах DVB описаны: а) независящие от вида используемой сети протоколы обме- на данными; б) средства обеспечения интерактивности для некоторых конкретных видов сетей (обычная телефонная сеть, сеть ISDN, сеть кабельного ТВ). В будущем предполагается введение в DVB стандарта, опре- деляющего построение цифровой системы сбора новостей через спутники (Digital Satellite News Gathering - D-SNG), которая должна включать средства двустороннего обмена данными. В соответствии со стандартами DVB для всех видов ТВ- вещания, сформированный транспортный поток данных подвер- гается скремблированию для устранения длинных серий 0 или 1 в транспортных пакетах MPEG-2, за счет чего обеспечивается устойчивая работа системы тактовой синхронизации приемного устройства. При этом, чтобы не нарушить в демодуляторе цикло- вую синхронизацию, стартовые синхрогруппы транспортных па- кетов скремблированию не подвергаются. Одновременно скремблирование обеспечивает защиту данных от несанкциони- рованного доступа. Далее поток данных поступает на кодер Рида-Соломона (внешнее кодирование), также общий для всех видов ТВ-вещания. Эта ступень кодирования транспортных пакетов MPEG-2 охваты- вает и стартовые синхрогруппы пакетов, и в результате длитель- ность транспортного пакета возрастает с 188 до 204 байтов. Затем данные, в которые добавлены контрольные биты, по- ступают на блоки канального кодирования (внутреннее кодирова- ние) и модуляции несущей частоты. Выполнение этих операций в разных видах ТВ-вещания рассматривается далее. КАБЕЛЬНОЕ И СПУТНИКОВОЕ ТВ-ВЕЩАНИЕ Кабельные каналы телевизионного вещания находятся в наиболее благоприятных условиях с точки зрения обеспечения помехоустойчивости, так как они защищены от действия атмо- сферных и индустриальных помех, и в них имеется возможность поддерживать достаточно высокое значение отношения сиг- нал/шум (не менее 30 дБ) за счет использования промежуточных усилителей. Основная задача в кабельном телевизионном вещании 171
- обеспечить наиболее эффективное использование полосы частот чтобы передавать по имеющимся кабельным сетям максимальное количество телевизионных программ. С этой целью в кабельных сетях в соответствии со стандар- том DVB используется многопозиционная квадратурная ампли- тудная манипуляция (КАМн), принципы которой были изложены в § 5.3. Для канального кодирования используются сверточные коды. В настоящее время применяются 16-, 32- и 64-позиционная КАМн. В перспективе предполагается применение 128- и 256- позиционной КАМн. Скорости передачи двоичных символов, по- лучаемые при разных количествах позиций КАМн, приведены в табл. 6.1. Полная скорость передачи оказывается выше скорости передачи полезных данных за счет введения дополнительных сим- волов при помехоустойчивом кодировании. Таблица 6.1 Вид модуляции Полная скорость передачи, Мбит/с Скорость передачи полезных данных, Мбит/с 16-КАМн 27,34 25,2 32-КАМн 34,61 31,9 64-КАМн 41,34 38,1 Сопоставляя параметры в последнем столбце табл. 6.1 со скоростями передачи двоичных символов, необходимыми для пе- редачи телевизионных программ с разными уровнями качества изображения (см. § 4.2), можно оценить, сколько программ с тем или иным качеством изображения можно передать в одном канале кабельного телевидения. Для спутниковых каналов телевизионного вещания характе- рен низкий уровень индустриальных помех и помех от других пе- редатчиков, так как в этих каналах используются остронаправлен- ные антенны. Основным фактором, создающим ошибки при прие- ме цифровых сигналов, является низкое отношение сигнал/шум на входе приемника, что обусловлено большим расстоянием до пере- датчика. В то же время ширина полосы частот спутниковых кана- лов связи значительно шире, чем каналов наземного и кабельного телевидения. 172
Таблица 6.2 Ширина канала, МГц Полная скорость передачи, Мбит/с Скорость передачи полезных данных, Мбит/с 54 42,2 38,9...68,0 36 28,1 25,9...45,4 33 25,8 23,8...41,6 26 20.3 18,7...32,8 Стандарт DVB предусматривает использование существую- щих каналов спутникового телевидения с шириной полосы частот 27 МГц в диапазоне частот 11... 12 ГГц. В перспективе предпола- гается использование диапазона 20...21 ГГц с более широкой по- лосой частот отдельных каналов. Для повышения помехоустойчи- вости применяются сверточные коды. В зависимости от конкрет- ного варианта канального кодирования пороговое отношение сигнал/шум на входе приемника равно 4,1...8,4 дБ. Используется фазовая манипуляция несущей. Получаемые для каналов связи с различной шириной полосы частот (по уровню 3 дБ) скорости передачи двоичных символов даны в табл. 6.2. Скорость передачи полезных данных (последний столбец) зависит от параметров канального кодирования. При по- вышении избыточности канального кода помехоустойчивость рас- тет, но скорость передачи полезных данных уменьшается. Число кабельных и спутниковых каналов цифрового телеви- дения по стандартам DVB в Европе исчисляется многими сотнями. ПРИЕМНОЕ УСТРОЙСТВО ДЛЯ КАБЕЛЬНОГО И СПУТНИКОВОГО ТВ-ВЕЩАНИЯ ПО СТАНДАРТАМ DVB Для приема сигналов цифрового телевидения необходимо особое устройство, получившее название "d-box" или "Set-Top- Box". Первый вариант названия, по-видимому, происходит от сло- ва "digital" - цифровой, а второй вариант скорее всего показывает, что такое приемное устройство ставится на телевизионный прием- ник сверху. Выпуск таких устройств, а также специальных микро- схем для них, осуществляется многими ведущими радиоэлектрон- ными фирмами в Европе, Японии и Корее. 173
Рассмотрим в качестве примера структурную схему устрой- ства "Set-Top-Box" на микросхемах фирмы Philips (рис. 6.1). Такое устройство принимает сигналы цифрового телевидения по кабель- ной линии и от спутниковой антенны и преобразует их в аналого- вые телевизионные сигналы для подачи на обычный телевизион- ный приемник. Рис. 6.1. Структурная схема приставки для приема DVB Высокочастотный тюнер имеет два входа. К одному из них (КТВ) подключается линия кабельной телевизионной сети. Диапазон частот сигнала на этом входе от 50 до 850 МГц. На второй вход тю- нера (СТВ) поступает сигнал с приемного устройства спугникового канала. Этот сигнал идет на несущей частоте, находящейся в диапа- зоне 1...2 ГГц, перенос на которую осуществляется в преобразовате- ле, расположенном непосредственно у приемной антенны. При рабо- те с любого из этих входов тюнер позволяет выбрать нужный телеви- зионный канал и переносит сигнал с несущей частоты выбранного канала на промежуточную частоту. Управление выбором режима ра- боты и настройкой на канал производится по шине 12С. В случае приема кабельного телевидения сигнал промежу- точной частоты (ПЧ) с выхода тюнера поступает на АЦП, в каче- стве которого могут использоваться микросхемы типов TDA8790 или TDA8761. Дальнейшая обработка сигнала производится в цифровой форме. В блоке ДМД КАМн выполняются демодуляция квадратурной амплитудной манипуляции и канальное декодирова- ние. Микросхема TDA8046 позволяет демодулировать КАМн, имеющую 4, 16, 32, 64 или 256 возможных состояний (позиций). В случае приема спутникового телевидения сигнал с выхода тюнера поступает на блок ДМД КФ Мн, в котором выполняется демодуляция квадратурной фазовой манипуляции и канальное де- 174
кодирование. Этот блок построен на микросхеме TDA8042, пред- ставляющей собой собственно демодулятор, и микросхеме TDA8043, которая выполняет функции управления демодулятором и канального декодирования (Упр ДМД). В обоих режимах приема сигналы после демодуляции и ка- нального декодирования поступают на декодер Рида-Соломона, (КОш - Корректор ошибок), в котором осуществляется коррекция ошибок в принятых данных. Этот блок выполняется на микросхе- ме SAA7207, на выходе которой формируется транспортный поток MPEG-2. АЦП, демодулятор КАМн, канальный декодер и декодер ко- да Рида-Соломона могут быть реализованы на одной микросхеме канального приемника кабельного ТВ типа TDA10021. Функции демодуляции, канального декодирования и декодирования кода Рида-Соломона для приема спутникового ТВ могут выполняться одной микросхемой типа TDA10085. Затем в блоке ДСкр выполняется дескремблирование сигна- ла, т. е. в соответствии с условиями доступа к конкретной телеви- зионной программе выполняется расшифровка данных. Дескремб- лер выполняется на микросхеме SAA7206. Наконец в блоке ДМп осуществляется демультиплексирование транспортного потока данных, который преобразуется в элементарные потоки видеодан- ных и звукового сопровождения в соответствии со стандартом MPEG-2. Этот блок реализуется на микросхеме SAA7205. Деск- ремблирование и демультиплексирование могут выполняться од- ной микросхемой SAA7219. Полученные элементарные потоки данных поступают на де- кодер MPEG-2 (ДКд MPEG), выполняемый на микросхеме SAA7201. Возможно также использование микросхемы SAA7215 или SAA7216. В этом блоке выполняются синхронизация по при- нятым меткам времени встроенного генератора тактовой частоты 27 МГц, полное декодирование данных изображения, звука и до- полнительной текстовой и графической информации в соответст- вии с главным уровнем главного профиля MPEG-2 (см. § 4.2) и формирование выходных цифровых сигналов изображения (в со- ответствии с Рекомендацией 601 МККР) и звукового сопровожде- ния. Данные изображения выводятся в виде цифровых сигналов Y (сигнал яркости) и U, V (цветоразностные сигналы) в формате 4:2:2 по 8 бит на элемент изображения. 175
Поток данных на входе декодера до 20 Мбит/с. К декодеру подключается внешнее ОЗУ объемом 16 Мбит (организация 1Мх16) для временного хранения данных. Управление работой декодера по цифровой шине от внешнего блока управления. На- пряжение питания 3,3 В. Корпус микросхемы имеет 160 выводов. Цифровой сигнал изображения поступает на микросхему ти- па SAA7124 (блок Видео ЦАП), в которой преобразуется в анало- говые видеосигналы. Эта микросхема имеет режимы формирова- ния полных сигналов систем PAL и NTSC, режим формирования сигналов стандарта S-видео, в соответствии с которым на одном выходе присутствует сигнал яркости, а на другом выходе - сигнал цветности на поднесущей, режим вывода сигналов основных цве- тов R, G, В и режим вывода сигнала яркости Y и цветоразностных сигналов U, V. Выбор одного из режимов производится в зависи- мости от наличия соответствующих входов у используемого телеви- зионного приемника или монитора. Число разрядов ЦАП 10 или 9. Выполняется обработка сигналов субтитров. Управление работой микросхемы осуществляется по шине 12С. Цифровые сигналы звукового сопровождения поступают на микросхему TDAI306T (Аудио ЦАП). Эта микросхема содержит два канала обработки звуковых сигналов для воспроизведения сте- реофонического звукового сопровождения. Число разрядов ЦАП 16. Динамический диапазон звука до 95 дБ. Отношение сигнал/шум не хуже 88 дБ. Управление по шине 12С. Кроме того, устройство "Set-Top-Box" содержит блок управ- ления (БУ) с микропроцессором и приемником сигналов дистан- ционного управления. Команды от БУ к другим блокам передают- ся по двухразрядной цифровой шине 12С. Приставка для приема наземного цифрового ТВ-вещания по стандарту DVB-Т (см. ниже) имеет сходную структуру. В качестве демодулятора и канального декодера может использоваться мик- росхемой VES9600 фирмы Philips, на вход которой поступает ра- диосигнал на промежуточной частоте, а цифровой сигнал с выхода подается на декодер Рида-Соломона. В системе цифрового телевидения должны быть методы и средства контроля параметров сигналов в различных частях сис- темы. Так как сигнал цифровой, то основным показателем качест- ва передачи становится частота ошибок. В табл. 6.3 перечислены параметры, контролируемые в приставке для приема цифрового 176
телевидения. Следует отметить, что, например, для контроля транспортного потока, требуется принципиально новое оборудо- вание, так как по осциллографу проверить поток данных невоз- можно. Примером такого оборудования может служить система MTS 100 фирмы Tektronix. Таблица 6.3 Где измеряется Что измеряется Спутниковая антенна (12 ГГц) Спектр сигнала Вход тюнера (до 1 ГГц) Мощности сигнала и шума Вход демодулятора Параметры квадратурных составляющих на промежуточной частоте Вход канального декодера Частота ошибок Вход декодера Рида- Соломона Частота ошибок Вход демультиплексора Частота ошибок Выход демультиплексора Анализ данных в элементарных потоках Выходы декодеров изобра- жения и звука Субъективная оценка качества изображения и звука НАЗЕМНОЕ ТЕЛЕВИЗИОННОЕ ВЕЩАНИЕ. СРАВНЕНИЕ DVB-Т И ATSC Переход к цифровому наземному ТВ-вещанию оказался трудной задачей, так как этот вид ТВ-вещания наиболее подвер- жен действию различных помех. При обычной передаче телевизи- онных сигналов по эфиру на качество приема помимо атмосфер- ных и индустриальных помех сильно влияют отраженные радио- волны (многолучевой прием) и помехи от других радиопередатчиков, работающих в этом же частотном диапазоне в соседних местностях. Стандарт DVB-Т предусматривает для передачи сигналов циф- рового телевидения по стандартным каналам ТВ-вещания использо- вание OFDM (см. § 5.3) [23]. Возможны два режима, называемые 8К (число несущих 6817) и 2К (число несущих 1705). Режим 8К позволя- ет использовать меньшие мощности передатчиков, но требует более производительных устройств обработки сигналов, чем режим 2К. Параметры для обоих режимов приведены в табл. 6.4. 177
Таблица 6.4 Режим модуляции 8К 2К Длительность рабоче- го интервала Тр, мкс 896 224 -4| - .. —.Я Частотный разнос несущих Д/, Гц 1116 4464 - —J Число несущих /V 6817 1705 Ширина занимаемой полосы частот, МГц 7,61 7,61 ——. Относительная дли- тельность защитного интервала, Д/ Тр . 1/4 1/8 1/16 1/32 1/4 1/8 1/16 1/32 Длительность защит- ного интервала Д, мкс 224 112 56 28 56 28 14 7 Длительность симво- ла Д+Тр, мкс 1120 1008 952 924 280 252 238 231 Максимальное удале- ние ТВ-передатчиков в одночастотной сети d = с х Д, км 67.2 33,6 16,8 8,4 16,8 8,4 4,2 2,1 Э Обозначения N, kf, А, Тр были введены на рис. 5.7 и 5.8, с - скорость света. Об одночастототной сети вещания будет сказа- но позже. Из приведенных данных видно, что сигнал цифрового теле- видения, передаваемый с помощью OFDM, можно разместить в стандартном радиоканале аналогового ТВ-вещания с полосой про- пускания 8 МГц, обеспечивая между соседними радиоканалами защитные частотные интервалы приблизительно по 0,39 МГц. В табл. 6.5 приведены значения скорости передачи двоич- ных символов для полезной информации и допустимого мини- мального отношения сигнал/шум в радиоканале для различных способов модуляции отдельных несущих OFDM. Эти результаты справедливы для обоих режимов: 8К и 2К. Значения отношения сигнал/шум даны для случаев приема на стационарную и на мобильную антенну. В последнем случае телевизионный приемник может быть установлен на автомобиле или другом транспортном средстве. Значения достижимой скоро- сти передачи даны для разных отношений Д/Тр (1/4, 1/8, 1/16 178
й 1/32). Относительная скорость кода характеризует избыточность, вносимую применяемым методом канального кодирования (см. § 5.3, формула (5.13)). Таблица 6.5 Вид моду- ляции Относи- тельная скорость кода Сигнал/шум, дБ Полезная скорость, Мбит/с Стационар- ная антенна Мобильная антенна 1/4 1/8 1/16 1/32 4-ФМн 1/2 3,6 5,4 4,98 5,53 5,85 6,03 4-ФМн 2/3 5,7 8,4 6,64 7,37 7,81 8,04 4-ФМи 3/4 6,8 10,7 7,46 8,29 8,78 9,05 4-ФМн 5/6 8,0 13,1 8,29 9,22 9,76 10,05 4-ФМн 7/8 8,7 16,3 8,71 9,68 10,25 10,56 16-КАМн 1/2 9,6 11,2 9,95 11,06 11,71 12,06 16-КАМн 2/3 11,6 14,2 13,27 14,75 15,61 16,09 16-КАМн 3/4 13,0 16,7 14,93 16,59 17,56 18,10 16-КАМн 5/6 14,4 19,3 16,59 18,43 19,52 20,11 16-КАМн 7/8 15,0 22,8 17,42 19,35 20,49 21,11 64-КАМн 1/2 14,7 16,0 14,93 16,59 17,56 18,10 64-КАМн 2/3 17,1 19,3 19,91 22,12 23,42 24,13 64-КАМн 3/4 18,6 21,7 22,39 24,88 26,35 27,14 64-КАМн 5/6 20,0 25,3 24,88 27,65 29,27 30,16 64-КАМн 7/8 21,0 27,9 26,13 29,03 30,74 31,67 Сопоставляя числа, приведенные в табл. 6.5, со значениями скорости передачи двоичных символов, соответствующими раз- личным уровням качества воспроизводимого изображения при сжатии по стандарту MPEG-2 (§ 4.2), можно выбирать способы модуляции несущих и значения защитных интервалов, обеспечи- вающие передачу требуемого количества ТВ-программ с заданным качеством изображения. По значениям отношения сигнал/шум можно рассчитывать требуемые мощности передатчиков и разме- ры зон уверенного приема. Из таблицы видно, что прием сигналов цифрового телевиде- ния возможен при низких отношениях сигнал/шум. Для сравнения напомним, что для получения качественного изображения при 179
приеме обычного аналогового телевизионного сигнала необходи- мо отношение сигнал/шум около 50 дБ. Рассмотрим другие особенности стандарта DVB-Т. Будем называть символом OFDM совокупность информационных симво- лов, передаваемых в данный момент времени на всех несущих час- тотах. Символы OFDM, организуются в кадры, каждый из которых содержит 68 символов OFDM. 4 кадра образуют суперкадр, кото- рый содержит целое число транспортных пакетов MPEG-2. В каждом символе OFDM для режимов модуляции 8К и 2К выделяется, соответственно, 769 и 193 опорных несущих, которые по сравнению с остальными несущими передаются с повышенной на 2,5 дБ мощностью. Часть опорных несущих имеют постоянные положения на оси частот, а положения остальных опорных несу- щих изменяются от одного символа OFDM к другому. На опорных несущих передаются сигналы для автоподстройки опорных частот демодулятора, сигналы тактовой синхронизации, сигналы управ- ления демодулятором, содержащие информацию об используемых режимах модуляции, и другая наиболее важная для обеспечения приема информация. Кадр содержит все необходимые сигналы для синхрониза- ции демодулятора. Поэтому длительность задержки начала приема после, например, переключения каналов, не превышает длитель- ности одного кадра. Стандарт DVB-Т предусматривает возможность использова- ния иерархической модуляции. Сущность этого метода состоит в том, что передаваемый цифровой поток разбивается на два потока. Первый поток кодируется с более высокой помехоустойчивостью, и в нем передается наиболее значимая часть информации, напри- мер, старшие разряды видео- и аудиоданных. Второй поток коди- руется с меньшей помехоустойчивостью и используется для пере- дачи менее значимой части информации. При использовании про- филей MPEG-2, имеющих масштабируемость (см. раздел 4.2.2), первый поток может соответствовать базовому слою потока дан- ных, а второй поток - дополнительному слою. Иерархическая модуляция дает возможность принимать те- левизионные программы, хотя и с пониженным качеством изобра- жения, при неблагоприятных условиях, например, на значитель- ном удалении от передатчика или при наличии существенных помех. 180
Еще одна особенность стандарта DVB-Т - возможность по- строения одночастотной сети телевизионного вещания (Single Frequency Network - SFN), в которой соседние передатчики могут одновременно вести вещание на одной несущей частоте, синхрон- но передавая одну и ту же ТВ-программу, причем области приема их сигналов перекрываются. В зонах перекрытия, благодаря при- менению OFDM, наличие сигналов от двух передатчиков не толь- ко не ухудшает качество приема, но наоборот, позволяет улучшить прием за счет сложения двух сигналов. Использование одночас- тотной сети позволяет охватить наземным ТВ-вещанием большую территорию, распределив по ней требуемое количество относи- тельно маломощных передатчиков. Канальное кодирование (внутреннее кодирование) в соответ- ствии со стандартом DVB-Т основано на применении сверточного кода и имеет целью защиту передаваемой информации от селек- тивных замираний несущих в групповом сигнале OFDM при рабо- те в синхронной одночастотной сети ТВ-вещания и от помех при многолучевом приеме в случае использования простых дипольных антенн. В результате частота ошибок на выходе демодулятора снижается с 10-1...10 2 до 2х10‘4, что обеспечивает нормальную ра- боту декодера Рида-Соломона. Кроме того, для защиты от селективных замираний несущих OFDM производится побитное и побайтовое перемежение данных с тем, чтобы соседние биты и байты не передавались на соседних несущих. DTV-T не единственная система наземного цифрового ТВ- вещания. В США принят свой стандарт наземного цифрового ТВ, называющийся ATSC (Advanced Television Systems Committee - Комитет по усовершенствованным системам телевидения). В ос- нове этого стандарта также лежит метод сжатия движущихся изо- бражений MPEG-2, позволяющий передавать как ТВ-программы обычной четкости, так и ТВЧ. Для сжатия звукового сопровожде- ния применен метод Долби АС-3 (см. § 4.4). Для передачи по обычным радиоканалам в ATSC применя- ется 8-позиционная амплитудная манипуляция с частично подав- ленной боковой полосой, обозначаемая 8VSB. Имеется несколько ступеней помехоустойчивого кодирования. Для подавления отра- женных сигналов при многолучевом приеме в приемнике исполь- 181
зуется адаптивный эквалайзер, представляющий собой цифровой фильтр с настраиваемыми коэффициентами. В передаваемый сигнал вводятся специальные опорные им- пульсы, форма и положение которых точно известны. В процессе приема адаптивный эквалайзер автоматически настраивается так, чтобы параметры опорных импульсов на его выходе максимально соответствовали заданным значениям. Тем самым обеспечивается коррекция искажений, создаваемых отраженными сигналами. Так как все сигналы в радиоканале передаются в одинаковых услови- ях, то в результате настройки эквалайзера по опорным импульсам обеспечивается подавление отраженных составляющих и в осталь- ном цифровом телевизионном сигнале. Сравним DVB-Т и ATSC. Параметры передаваемых изобра- жений в обоих стандартах одинаковы, так как определяются стан- дартом MPEG-2. По качеству звукового сопровождения стандарты также эквивалентны, так как в DVB звук тоже может кодироваться с применением стандарта АС-3. Основное различие заключается в применяемых методах модуляции и проявляется в различной ус- тойчивости к действию помех. В некоторых публикациях отмечалось, что DVB-Т имеет ряд преимуществ перед ATSC: - DVB-Т обеспечивает реальное уменьшение мощности ТВ- передатчиков в условиях городской застройки; - при использовании DVB-Т прием на комнатные антенны и антенны переносных телевизоров не создает проблем, а при ис- пользовании ATSC - в большинстве случаев невозможен; - DVB-Т обладает высокой устойчивостью к помехам, созда- ваемым аналоговым ТВ-вещанием, и может сосуществовать с ним; - DVB-Т дает возможность создания одночастотных сетей с перекрытием зон приема сигналов соседних передатчиков. В то же время в ряде публикаций предпочтение отдается ATSC. Еще один стандарт наземного цифрового ТВ-вещания, назы- ваемый ISDB-T, был разработан в Японии. Здесь этот стандарт не рассматривается. DVB И "СОТОВОЕ ТЕЛЕВИДЕНИЕ" В последние годы в телевидении наблюдается возобновле- ние интереса к эфирным каналам. Это системы сотового телевиде- 182
ния, которые как и системы сотовой радиосвязи, основаны на ис- пользовании большого количества относительно маломощных пе- редатчиков СВЧ-диапазона, каждый из которых обслуживает не- большую территорию. Наличие в сети множества ячеек позволяет предлагать пользователям свой набор ТВ-программ в каждой их них, что выгодно отличает сеть сотового ТВ от существующих систем эфирного ТВ-вещания в метровом и дециметровом диапа- зонах. Абонентское оборудование представляет собой обычный спутниковый тюнер, работающий в диапазоне частот 950...2050 МГц. Антенна с СВЧ-приемником представляет собой легкое ком- пактное устройство диаметром около 150 мм (40 ГГц) или 250 мм (28 ГГц). Так как антенна остронаправленная, то принимаются сигналы только того передатчика, на который она нацелена. Пре- образование частоты сигнала в рабочий диапазон тюнера выпол- няется СВЧ-блоком, расположенным в антенне. Аналоговая система сотового телевидения MMDS (Multichannel Microvave Distribution System) использует широко- полосные каналы с ЧМ в СВЧ диапазоне. К цифровым системам сотового телевидения относятся LMDS (Local Multipoint Distribution System) и MVDS (Multipoint Video Distribution System). Такие системы, как правило, работают в диапазонах радиочастот 27,5..29,5 ГГц (Северная Америка) и 40,5...42,5 ГГц (Европа) и ис- пользуют помехоустойчивые виды модуляции (QPSK). Известны варианты таких систем и для работы в других частотных диапазо- нах, например 24, 31 и 38 ГГц. В полосе частот 2 ГГц с помощью этих систем можно передавать от 96 до 128 аналоговых ТВ- каналов или в несколько раз больше цифровых. При этом передача радиосигналов осуществляется на экологически безопасных уров- нях мощности 100..300 мВт на канал. По данным зарубежных специалистов, стоимость разверты- вания сети сотового ТВ в городских условиях в 3-5 раз ниже стоимости строительства традиционных широкополосных кабель- ных сетей. Большое количество широкополосных каналов и низкая требуемая мощность передатчиков делают системы сотового теле- видения перспективными не только для обычного телевизионного вещания, но и для систем интерактивного телевидения и видеосвя- зи. Передача цифровых информационных потоков в обоих направ- 183
лениях, в таких системах может осуществляться со скоростями 2 34 и даже 155 Мбит/с. Перспективность новых методов ТВ-вещания нашла отра- жение в стандартах DVB. Методы передачи программ цифрового телевидения по сети MMDS для частот выше 10 ГГц описаны в стандарте DVB-MS, который является развитием стандарта DVB-S для спутникового ТВ, а для частот ниже 10 ГГц - в стандарте DVB-МС, основанном на стандарте DVB-С для кабельного ТВ. 6.2. Системы видеосвязи Система видеосвязи обеспечивает двустороннюю передачу изображения и звука между абонентами этой системы по провод- ным и радиоканалам. В этом ее принципиальное отличие от тра- диционных систем вещательного и прикладного телевидения, в которых передача изображения и звука осуществляется в одном направлении. Основные типы систем видеосвязи: видеотелефон, обеспечивающий связь между двумя абонентами, и системы ви- деоконференций, обеспечивающие одновременное участие более двух абонентов в сеансе связи. Структурная схема типовой системы видеосвязи приведена на рис. 6.2. Система в самом общем представлении состоит из сети передачи данных и множества абонентских терминалов, соединен- ных с сетью передачи данных абонентскими каналами (АК). Або- нентский терминал содержит средства ввода и вывода видеоин- формации (видеокамеру и монитор), средства ввода и вывода зву- ковой информации (микрофоны, динамики и соответствующие электронные схемы). Имеются также средства ввода и вывода дан- ных, т. е. числовой, символьной и другой информации. Каждая составляющая информации после ввода кодируется в соответствующем кодере, а перед выводом (воспроизведением) декодируется в соответствующем декодере. Мультиплексор (Мп) объединяет кодированную передаваемую информацию перед пе- редачей. Демультиплексор (ДМп) разделяет принятую из сети ин- формацию на составляющие перед декодированием. Модем (мо- дулятор-демодулятор) обеспечивает передачу и прием цифровой информации по абонентскому каналу. 184
Рис. 6.2. Структурная схема системы видеосвязи В качестве абонентского терминала, как правило, использует- ся ПК, дополненный звуковой платой, к которой подключены мик- рофон и громкоговорители, и платой ввода телевизионных сигна- лов, к которой подключена телекамера. При этом важной частью системы видеосвязи становится программное обеспечение, реали- зующее функции кодирования/декодирования, мультиплексирова- ния/демультиплексирования, посылки и приема данных через сеть. Для начала сеанса двусторонней видеосвязи один из абонен- тов посылает через сеть по адресу второго абонента сигнал вызова. После поступления ответного сигнала от второго абонента устанав- ливается связь и начинается обмен видео и звуковой информацией. Изображение и голос каждого из участников сеанса вводятся в ком- пьютер, кодируются, объединяются в общий поток данных и пере- даются по сети другому участнику, который слышит голос собесед- ника и видит его изображение на экране монитора. При многосто- ронней видеосвязи (видеоконференция) на экране монитора 185
каждого участника сеанса отображаются изображения остальных участников, а их голоса воспроизводятся вместе или по выбору. В системах видеосвязи с невысоким качеством изображения используются форматы QCIF и даже SQCIF (см. § 2.3). В системах с более высоким качеством изображения используется формат CIF. Частота передачи кадров может быть от 2...5 до 12... 15 и более кадров в секунду. При этом частота кадровой развертки в монито- ре существенно больше - 60..72 Гц. Согласование частоты переда- чи кадров по каналу связи и частоты кадровой развертки достига- ется путем запоминания принятого кадра в ОЗУ ПК и воспроизве- дения его несколько раз. Скорости передачи двоичных символов, необходимые для передачи видеоинформации указанных форма- тов, были даны в табл. 2.1. Речь передается обычно с частотой дискретизации 8 кГц и числом разрядов квантования не менее 12, что дает требуемую скорость передачи двоичных символов 96 кбит/с. Для отдельного абонента возможность передачи требуемых для видеосвязи объемов информации определяется параметрами абонентского канала. Далее даны краткие сведения об основных типах абонентских каналов. 1. Обычные телефонные линии, передача цифровых данных по которым осуществляется с помощью модемов. Как правило ис- пользуются модемы, обеспечивающие скорость передачи двоич- ных символов до 28,8 или 33,6 кбит/с. При использовании более быстродействующих модемов (56 кбит/с и более) основным фак- тором, ограничивающим скорость передачи, становится недоста- точно высокое отношение сигнал/шум в телефонной сети. 2. Каналы сети ISDN (Integrated Services Digital Network - цифровые сети интегрированного сервиса). Абонентский канал BRA (Basic Rate Access - Базовый доступ) представляет собой двухпроводную линию, как и в телефонной сети. С помощью од- ного BRA реализуются два В-канала по 64 кбит/с каждый и один служебный D-канал на 16 кбит/с. Для видеосвязи эти три канала могут объединяться, что дает 144 кбит/с. Подключение ПК к ISDN осуществляется через терминальный адаптер. ISDN такого типа называется узкополосной (N-ISDN) и, благодаря относительно не- высокой стоимости, получает все более широкое распространение. 3. Широкополосная ISDN (В-ISDN), использующая асин- хронный метод передачи (ATM - Asynchronous Transfer Mode). 186
В такой сети используются волоконно-оптические линии с пропу- скной способностью 155 Мбит/с и 622 Мбит/с. В-ISDN имеет вы- сокую стоимость, и использование таких каналов доступно далеко не всем. 4. Выделенные цифровые каналы, т. е. широкополосные ли- нии связи, например, через спутник. Например, канал типа Е1 имеет пропускную способность 2048 кбит/с. Аренда такого канала и оборудование для связи имеют высокую стоимость. Таким образом, доступные широкому кругу пользователей каналы имеют небольшую пропускную способность, и для реали- зации видеосвязи необходимо сжимать передаваемые изображения и звук. По способу коммутации можно выделить два типа сетей связи. 1. Сети с коммутацией каналов, к которым относятся обыч- ная аналоговая телефонная сеть и цифровая сеть ISDN. В таких сетях с помощью электрических коммутаторов (контактных или бесконтактных) организуется прямое соединение между абонен- тами. Пропускная способность линии связи полностью использу- ется для обмена информацией между участниками данного сеанса. 2. Цифровые сети с коммутацией пакетов. В таких сетях от- сутствует электрическая коммутация. Каждый абонент сети имеет индивидуальный адрес. Пересыпаемые данные организуются в ви- де пакетов, содержащих адрес получателя. На вход абонентского терминала поступают пакеты данных, передаваемые по сети не только этому абоненту, но и его "соседям", но принятыми могут быть только пакеты, адресованные именно этому абоненту. При- мерами сетей с коммутацией пакетов являются локальные вычис- лительные сети (ЛВС) и Интернет. Для абонента реальная пропускная способность сети с ком- мутацией пакетов зависит не только от пропускной способности абонентского канала, но и от того, какие объемы информации пе- редаются по сети в данное время. Этот факт хорошо известен всем, кто работает в Интернет. Если в сети всегда реализуется номи- нальная пропускная способность, то это сеть с гарантированным качеством обслуживания. В противном случае сеть обеспечивает негарантированное качество обслуживания. ITU разработала и утвердила ряд рекомендаций по системам видеосвязи : 187
- Н.320 - видеотелефония в узкополосных цифровых сетях с коммутацией каналов (N-ISDN); - Н.321 - видеотелефония в широкополосных цифровых се- тях с коммутацией каналов (В-ISDN, ATM); - Н.322 - видеотелефония в цифровых сетях с коммутацией пакетов и гарантированным качеством обслуживания (ЛВС); - Н.323 - видеотелефония в цифровых сетях с коммутацией пакетов и негарантированным качеством обслуживания (ЛВС, Ин- тернет); - Н.324 - видеотелефония в аналоговых сетях с коммутацией каналов (аналоговые телефонные сети общего пользования). Каждая из этих рекомендаций включает набор рекоменда- ций, определяющих параметры отдельных частей системы видео- связи. Например, рекомендация Н.320 включает: - рекомендации Н.261 и Н.263 определяющие методы коди- рования и декодирования видеоинформации (см. § 4.4); - рекомендации G.711, G.722, G.728, определяющие методы кодирования и декодирования аудиоинформации (см. § 4.4); - рекомендацию Н.221, определяющую методы мультиплек- сирования и демультиплексирования потоков данных; - рекомендации Н.230, Н.242, Н.243, определяющие сигнали- зацию (вызов и др.), управление и контроль; - рекомендации серии Т (Т.120 и др.), определяющие взаи- модействие программно-аппаратных средств при обмене данными. Перспективным средством для систем видеосвязи является стандарт MPEG-4 (см. § 4.3). Подробно с содержанием рекомендаций ITU, относящихся к системам видеосвязи, а также с примерами практической реали- зации таких систем можно ознакомиться в [18]. 6.3. Цифровое прикладное телевидение Системы прикладного телевидения предназначены для пере- дачи и приема изображений в промышленности, науке, образова- нии, медицине, военном деле, обеспечении безопасности и других областях деятельности человека. Главным отличием систем при- кладного телевидения от систем ТВ-вещания является ограничен- ное количество получателей информации. Поэтому в прикладном 188
телевидении нет необходимости в такой жесткой стандартизации параметров разверток и сигналов, как в ТВ-вещании. Цифровые технологии в прикладном телевидении исполь- зуются в первую очередь для сжатия видео и аудиоинформации с целью передачи по узкополосным каналам связи и записи в ЗУ и для анализа- изображений с целью автоматизации некоторых функций системы. В качестве примера рассмотрим систему наблюдения, разра- ботанную фирмой Intelligent Instruments Corporation, США [25]. Система обеспечивает наблюдение за многими зонами, располо- женными в разных частях города, автоматически выбирает для показа оператору зону, в которой что-то происходит и обладает другими полезными свойствами. Система состоит (рис. 6.3) из центральной станции ЦС и многих периферийных станций ПС, подключенных к сети ISDN через блоки управления и связи (БУиСв). Каждая периферийная станция содержит ТВ-камеру, кодер изображения (видеокодер), блок ввода/вывода звука (В/В звука), кодер/декодер звука (кодек звука), ЗУ. Центральная станция содержит декодер изображения (Декодер видео), монитор и указанные выше блоки звукового ка- пала. БУиСв на ЦС выполняется на основе ПК, а на каждой ПС - на основе микропроцессоров. Рис. 6.3. Структурная схема системы наблюдения 189
В процессе наблюдения в каждой ПС видеосигнал записыва- ется в ЗУ, которое все время содержит несколько последних кад- ров, сжатых методом JPEG. Каждый новый кадр сравнивается с запомненным предыдущим с целью обнаружения изменений, которые могут быть результатом наличия движения в наблюдае- мой зоне. При обнаружении движения данная ПС устанавливает через ISDN связь с ЦС и начинает пересылать в реальном времени движущееся изображение, сжатое в соответствии с Рекомендацией Н.261. Оператор на ЦС наблюдает полученное изображение на эк- ране монитора. Он может также слышать звуки и устанавливать голосовую связь с людьми в наблюдаемой зоне. При необходимо- сти оператор может вызвать пересылку с ПС запомненного непод- вижного изображения высокого качества (не в реальном времени). 6.4. Цифровое телевидение и компьютерные технологии Переход к цифровому представлению видеосигналов и сиг- налов звукового сопровождения и появление методов многократ- ного сжатия данных, рост производительности и объемов ЗУ пер- сональных компьютеров и рабочих станций при одновременном снижении их стоимости, стремительное развитие Интернет и других сетевых технологий создают предпосылки для широкого применения вычислительной техники в различных частях телеви- зионных систем. Ниже приведены несколько примеров таких применений. СИСТЕМЫ НЕЛИНЕЙНОГО МОНТАЖА Одна из важнейших областей применения компьютеров в телевидении - системы редактирования и монтажа видеомате- риалов и подготовки телевизионных программ. Сначала рассмотрим традиционную схему монтажа на осно- ве видеомагнитофонов (рис. 6.4,а). Исходные видеоматериалы в аналоговой или цифровой формах записаны на видеокассеты и воспроизводятся видеомагнитофонами ВМ1 и ВМ2 (источников монтируемых видеоматериалов может быть и больше). Видеосиг- налы поступают на устройство, выполняющее функции микшера и формирователя видеоэффектов. Полученный в результате мон- 190
тажа видеосигнал записывается на видеомагнитофон ВМЗ. Систе- ма содержит также не показанные на рисунке мониторы для кон- троля воспроизводимых и записываемых видеопрограмм. в) Рис. 6.4. Структурные схемы систем линейного (а) и нелинейного (б) монтажа и расположение видеоматериалов на диске (в) Система монтажа позволяет в требуемом порядке записы- вать фрагменты видеоматериалов. При этом видеомагнитофоны ВМ1 и ВМ2 необходимо включать и выключать, перематывать ленту и т.д. Формирователь видеоэффектов дает возможность вво- дить в изображение текст и графику и создавать плавные переходы от одного фрагмента к другому, например, путем постепенного вытеснения одного изображения другим. Возможно наложение одного изображения на другое (фрагмент А2+В2 в смонтирован- ном видеоматериале) с применением рир-проекции. Традиционный видеомонтаж называется линейным, так как видеомагнитофоны обеспечивают последовательный доступ к ин- 191
формации, и для того, чтобы найти какой-либо фрагмент на ленте необходимо перемотать ее до нужного места. Система нелинейного монтажа (рис. 6.4,6) содержит один или несколько цифровых видеомагнитофонов (ВМ) для хранения исходных материалов и конечного продукта. Центром системы является высокопроизводительный ПК или рабочая станция (ком- пьютер, по производительности и объему ЗУ значительно превос- ходящий обычные ПК), имеющий монитор с экраном, обеспечи- вающим высококачественное отображение нескольких кадров и различной вспомогательной информации. Фрагменты телевизионных программ, подлежащие редакти- рованию и монтажу, вводятся в компьютер с помощью специаль- ной платы ввода/вывода (платы "захвата" видеосигналов), сжима- ются и записываются на жесткие магнитные диски (НМД). Для сжатия обычно применяется метод Motion JPEG, в соответствии с которым каждый кадр кодируется независимо от других кадров. Это дает возможность индивидуального доступа к отдельным кад- рам. Операция сжатия в реальном времени выполняется аппарат- ными средствами в плате компрессии/декомпрессии и видеоэф- фектов. Хранение редактируемых материалов на диске дает возмож- ность быстро находить и переставлять в произвольном порядке фрагменты изображения и отдельные кадры, составляя нужную, видеопрограмму (рис. 6.4,в). При этом процесс монтажа значи- тельно ускоряется и возникают новые возможности, недоступные в ранее применявшихся системах. Операции повышения качества изображения путем коррекции цвета, фильтрации шумов и т. д., ввода в изображение текста и графики, синтеза искусственных изображений и видеоэффектов и др. выполняются как аппаратны- ми средствами, так и программно центральным процессором (ЦП). Выполнение всех операций внутри компьютера позволяет из- бежать потерь качества при многократной перезаписи, неизбежных даже при цифровой видеозаписи из-за дефектов магнитных лент. На последней стадии подготовки программы производится ее сжатие для записи на видеодиск или трансляции. Процесс сжа- тия контролируется оператором, который может регулировать сте- пень сжатия, корректировать положения 1-кадров и размеры групп кадров и выполнять другие действия для получения наилучшего качества изображения. 192
Снижение стоимости устройств ввода видеосигналов и ко- дирования по стандарту MPEG-2 постепенно делает системы не- линейного цифрового монтажа доступными для небольших теле- визионных и мультимедийных компаний и даже для любителей. ВИДЕОСЕРВЕРЫ Видеосерверы - новый класс устройств, появившийся с на- чалом перехода к цифровому телевидению. Видеосервер - это компьютер, существенно превосходящий по производительности обычные компьютеры и содержащий дисковую память большого объема и блоки ввода/вывода аналоговых и цифровых ТВ- сигналов и звуковых сигналов. На современных телестудиях ви- деосерверы заменяют видеомагнитофоны и становятся основным средством воспроизведения заранее записанных видеопрограмм. На рис. 6.5 показаны структура видеосервера и его связи с остальным студийным оборудованием. Видеосервер содержит блок памяти на жестких магнитных дисках большого объема (ДЗУ), центральный процессор ЦП, ОЗУ, блоки вывода потоков данных (БВПД), блоки связи с видеомагнитофонами (БСВМ), блок вывода на монитор (БВМ). Выходы БВПД подключаются ко вхо- дам трактов передачи ТВ-программ (ТПП). К видеосерверу под- ключаются также цифровые или аналоговые видеомагнитофоны (ВМ), монитор, локальная вычислительная сеть (ЛВС) и другие устройства, не показанные на рисунке. Помимо аппаратной части, видеосервер содержит также специализированное программное обеспечение. Рис. 6.5. Структурная схема видеосервера 193
На телестудии записанные на видеокассеты (в цифровой или аналоговой форме) видеопрограммы хранятся в Архиве видеокас- сет, который может быть автоматизирован и роботизирован. Ви- деопрограммы, которые предполагается передавать в ближайшее время, с помощью видеомагнитофонов переписываются с видео- кассет в ДЗУ. При этом выполняется сжатие видео и аудиоинфор- мации. Степень сжатия задается в соответствии с требуемым каче- ством изображения и звука. В процессе передачи видеопрограммы ее данные считываются из ДЗУ и через БВВП поступают в тракт передачи ТВ-программ, в котором выполняются формирование транспортного потока, скремблирование и помехоустойчивое ко-,] дирование, после чего поток данных направляется на передатчик. | Каждый БВПД может независимо считывать данные из ДЗУ и направлять их на соединенный с ним тракт передачи ТВ- программ. Это позволяет одновременно воспроизводить несколь- ких записанных в ДЗУ видеопрограмм. Для каждой из этих видео-:] программ обеспечиваются такие возможности, как стоп-кадр, ус- коренное или замедленное воспроизведение, перемотка вперед или назад. Таким образом, один видеосервер выполняет (эмулирует) функции сразу нескольких независимых видеомагнитофонов (вир- туальных видеомагнитофонов). Возможна параллельная передача нескольких копий одной и той же видеопрограммы со сдвигом во времени. При этом в ДЗУ записывается только один экземпляр этой видеопрограммы, и воспроизведение нескольких ее копий осуществляется путем одновременного формирования нескольких потоков данных, считываемых разными БВПД из разных мест ДЗУ. Видеосервер может использоваться также для записи посту- пающих по ЛВС или по другим линиям связи цифровых ТВ сигна- лов от различных источников (видеокамеры, кабельные и спутни-1 ковые каналы ТВ-вещания и т.д.) с последующей перезаписью на видеокассеты, для выполнения нелинейного видеомонтажа с запи- сью смонтированной программы на видеокассеты и для других операций. Вывод данных может производиться и через ЛВС. Видеосерверы должны удовлетворять следующим требова- ниям: - высокая надежность, достигаемая резервированием основ- ных узлов, в первую очередь жестких магнитных дисков; 194
- модульный принцип построения, позволяющий постепенно наращивать объем ДЗУ, число одновременно передаваемых ви- деопрограмм, функциональные возможности; - совместимость с существующим студийным оборудованием. Использование видеосерверов позволяет автоматизировать ТВ-вещание и существенно увеличить количество одновременно передаваемых телевизионных каналов, что является одной из ос- новных целей перехода на цифровое ТВ-вещание. При этом со- кращаются (в расчете на один передаваемый канал) занимаемые студийным оборудованием площади, количество обслуживающего персонала, расход электроэнергии. Применение видеосервера ста- новится экономически выгодным, если его стоимость в расчете на один канал меньше стоимости обычного студийного видеомагни- тофона. Видеосерверы выпускаются многими фирмами, и на рынке есть системы разных уровней сложности и стоимости. В качестве примера можно назвать систему MAV-1000 фирмы Sony, которая обеспечивает хранение видеопрограмм длительностью И или 23 часа (в зависимости от конфигурации), одновременную передачу до восьми каналов ТВ-вещания. Другая известная компания IBM производит мощный видеосервер MediaStreamer, содержащий дис- ковую подсистему MediaStreamer Archive емкостью до 6 Тбайт данных (что соответствует примерно 1000 двухчасовых видео- фильмов). Стоимость этого видеосервера от 129 тыс. долл. ИНТЕРАКТИВНОЕ ТЕЛЕВИДЕНИЕ В системах интерактивного ТВ пользователь имеет возмож- ность воздействовать на источник принимаемой им ТВ- программы, передавая команды или данные по обратному каналу на головную станцию системы. Интерактивные телевизионные системы смогут предоставлять своим абонентам ряд новых услуг: - передачу видеопрограмм по заказу абонентов (Video-on- Demand - Видео по заказу); - образование и обучение, доступ к библиотекам и базам данных; - заказ покупок и выполнение банковских операций на дому; - участие в телеиграх, конкурсах викторинах и т. д.; - участие в конференциях, голосовании, аукционах и т. п. 195
В системах интерактивного ТВ применяются три основных способа организации обратных каналов. 1. Использование существующих телефонных сетей общего пользования. В этом случае соединение абонента с головной стан- цией и передача данных от абонента могут осуществляться обыч- ным образом (набор номера и т. д.) или с применением какой-либо автоматизации. 2. Организация обратных каналов в существующих системах кабельного ТВ. Как правило, для этого используется диапазон час- тот 5..40 МГц, в котором нет ТВ-каналов. Передача данных в этом диапазоне от многих абонентов системы осуществляется с приме- нением частотного, временного или других способов разделения. 3. Передача обратной информации по радиоканалу. В этом случае в телевизор может быть встроен миниатюрный абонент- ский передатчик. Возможно использование систем подвижной свя- зи на базе низколетящих спутников. Например, по проекту ISIDE, разрабатываемому по инициативе Европейского космического агентства, передача обратной информации осуществляется на час- тоте 30 ГГц с использованием абонентского передатчика мощно- стью 1 Вт. Для передачи отведена полоса частот 500 МГц, в пре- делах которой расположены 625 несущих с разносом 0,8 МГц. Каждая несущая модулируется с применением 16-позиционпой частотной манипуляции и обеспечивает обратный цифровой канал передачи данных со скоростью 64 кбит/с. Различные виды сервиса в системах интерактивного ТВ тре- буют разных уровней пропускной способности обратных каналов. Для проведения видео- и аудиоконференций необходимы высоко- скоростные каналы с пропускной способностью порядка 64 кбит/с. Для выполнения торговых и банковских операций, участия в теле- играх и конкурсах требуются среднескоростные каналы с пропу- скной способностью порядка 6...7 кбит/с. Для передачи заказов на видеопрограммы, а также для участия в опросах и голосованиях могут использоваться низкоскоростные каналы связи с пропуск- ной способностью порядка 150 бит/с. Одним из первых типов систем интерактивного ТВ, получив- ших достаточно широкое распространение, стали системы Видео по заказу. Обычно такие системы реализуются на базе существующих систем кабельного ТВ. Пользователи вносят абонементную плату или оплачивают счета за реально просмотренные ими видеопрограммы. 196
Абонент выбирает интересующую его видеопрограмму в меню, отображаемом на экране его телевизора, и посылает заказ па головную станцию. В идеальном случае он сразу начинает по- лучать заказанную видеопрограмму по одному из ТВ-каналов. При этом в абонентскую приставку должны поступить с головной станции номер ТВ-канала, по которому будет идти передача, иден- тификаторы для выделения из транспортного потока пакетов с ви- део- и аудиоданными заказанной видеопрограммы, ключ для деск- ремблирования. Все эти данные, включая меню, могут быть пере- даны с головной станции по телевизионному кабелю, по телефонной сети или по какому-либо другому каналу связи. На- пример, эти данные могут передаваться в особых пакетах транс- портного потока в одном из ТВ-каналов. Число абонентов, которые могут одновременно получить та- кое идеальное обслуживание, определяется, во-первых, возможно- стями видеосервера на головной станции системы интерактивного ТВ, а во вторых, количеством ТВ-каналов, которые могут одно- временно передаваться по кабельной сети. Очевидно, что для соз- дания системы, способной обслужить достаточно много абонен- тов, необходимо использование достижений цифрового ТВ. Системы интерактивного ТВ начали свое распространение с гостиниц. Помимо Видео по заказу такие системы предоставля- ют возможность получения информации о гостинице, заказа блюд и напитков в номер, вызова такси и т.п. ТЕЛЕВИДЕНИЕ И ИНТЕРНЕТ Интернет (как синоним часто используется термин Сеть) объединяет бесчисленное множество локальных вычислительных сетей и индивидуальных пользователей по всей Земле. Основой Интернет являются протоколы передачи данных FTP и TCP/IP, в соответствии с которыми данные передаются пакетами, каждый из которых снабжается адресом получателя. Пакеты с данными передаются по Сети от одного узла к другому, пока не доходят до заданного адреса. Возможны два основных варианта передачи видео- и аудио- информации через Интернет. Первый вариант заключается в получении ("скачивании") из Сети файлов, содержащих в сжатом виде видеопрограммы со зву- ковым сопровождением, и последующее воспроизведении этих 197
файлов на компьютере. Скачивание файла может занимать суще- ственно большее время, чем длительность воспроизведения. Раз- меры получаемых таким образом файлов обычно ограничены сво- бодным объемом жесткого диска компьютера, реальной скоростью передачи данных и другими факторами. Такой вид сервиса нельзя назвать передачей ТВ-программ через Интернет. Второй вариант предполагает получение через Сеть сжатых видео- и аудиоданных со скоростью, позволяющей в реальном вре- мени воспроизводить движущиеся изображения и звук. Качество изображения определяется реальной пропускной способностью Се- ти на всем протяжении пути от видеосервера, который является от- правителем данных, до компьютера получателя видеопрограммы. Встречаются утверждения, что для получения изображения достаточно хорошего качества достаточно иметь пропускную спо- собность не менее 28,8 кбит/с. Однако такая скорость передачи двоичных символов может обеспечить лишь изображение формата SQCIF с сильно пониженной частотой передачи кадров. Для полу- чения действительно приемлемого качества изображения даже при использовании мощных методов сжатия из стандарта MPEG-4 не- обходимо, чтобы реальная пропускная способность была не менее 128 кбит/с, что требует подключения абонента по крайней мере к сети N-ISDN. Обеспечение более-менее полноценного ТВ-вещания через Интернет требует решения следующих задач: 1. Увеличение пропускной способности каналов связи, дос- тупных массовому пользователю. Один из путей решения этой за- дачи - использование для подключения к Интернет сети кабельно- го ТВ. Для этого у абонентов устанавливаются кабельные модемы, обеспечивающие скорость передачи по прямому каналу до 30 Мбит/с и создание обратного канала с пропускной способно- стью от 64 кбит/с до 1,5 Мбит/с. 2. Обеспечение передачи данных по всему пути от источни- ка до получателя с гарантированным качеством обслуживания. 3. Обеспечение возможности многоадресной передачи дан- ных, когда данные от одного источника (видеосервера) одновре- менно направляются многим адресатам. Решение последних двух задач связано с введением новых про- токолов передачи информации через Интернет, таких как RTP - Real- time Transport Protocol (Транспортный протокол реального времени). 198
ИНТЕГРАЦИЯ ФУНКЦИЙ ТВ-ПРИЕМНИКОВ И ПК Персональные компьютеры, число которых в домах быстро увеличивается, могут использоваться для приема и воспроизведе- ния телевизионных программ. Специальные платы, вставляемые в свободный разъем магистрали ПК и содержащие необходимые для приема аналоговых сигналов изображения и звука схемы блоков высокой и промежуточной частот, демодуляции, декодирования сигналов цветности и воспроизведения принятого телевизионного изображения синхронно с разверткой монитора ПК известны уже относительно давно. Для приема сигналов цифрового телевидения такие устройства должны дополнительно содержать узлы для де- кодирования, дескремблирования и т.д. (см. рис. 6.1). В 1997 г. лидеры в сфере производства компьютеров и про- граммного обеспечения для них фирмы Microsoft, Intel и Compaq (США) выступили с проектом, получившим название DVT (Digital Video Team). Суть проекта заключается в организации массового выпуска специальных плат для приема и декодирования сигналов цифрового телевидения и воспроизведения телевизионных изо- бражений с нормальной четкостью для уже существующих ком- пьютеров и установки этих узлов на системных платах новых мо- делей компьютеров, чтобы практически каждый компьютер мог использоваться в качестве приемника цифрового телевидения. При этом часть функций по декодированию данных может выполнять- ся программно, что позволит упростить аппаратную часть. Одна из целей, намеченных в проекте DVT, это обеспечение возможности передачи и приема телевизионных программ по ком- пьютерным сетям. Применение компьютера позволит значительно расширить возможности интерактивных телевизионных систем, в которых информация идет не только к зрителю, но и от него на телевизионную студию. Абоненты компьютерных сетей смогут получать не только тексты и неподвижные изображения, но и движущиеся изображения нормального вещательного качества со звуковым сопровождением. Это даст возможность смотреть фильмы, записанные в серверах сети, получать полноэкранные учебные, рекламные, спортивные и другие программы. Следует отметить, что параметры изображения на экране монитора компьютера не совсем эквивалентны параметрам изо- бражения на экране обычного телевизионного приемника. Размеры экрана монитора, как правило, меньше, чем у телевизора, так как 199
монитор рассчитан на положение оператора на небольшом рас- стоянии. В мониторах компьютеров применяется прогрессивная развертка. Поэтому необходимо преобразование передаваемых с чересстрочной разверткой телевизионных изображений. Наконец, количества строк и элементов основных графических стандартов VGA и SVGA не соответствуют этим параметрам телевизионных изображений. В силу этих и ряда других причин полная замена телевизоров на компьютере вряд ли произойдет, но определенная часть телезрителей видимо будет использовать компьютер для приема телевизионных программ по различным каналам связи. Другой вариант совмещения функций телевизионного при- емника и абонентского устройства Интернет заключается в допол- нении обычного телевизионного приемника не только декоди- рующим устройством MPEG-2, но и клавиатурой и микропроцес- сором для обеспечения работы в Сети. При этом клавиатура должна быть связана с телевизионным приемником по беспровод- ному каналу, например, с помощью ИК-лучей, чтобы пользователь мог свободно выбирать удобное место для работы на достаточном расстоянии от телевизионного экрана. Таким образом, происходит постепенное сближение тради- ционного телевизионного вещания с компьютерными информаци- онными сетями. 6.5. Перспективы развития цифрового телевидения ПРОЕКТ MPEG-7 Широкое распространение компьютеров и Интернет, а с другой стороны - бытовых видеокамер и другой видеотехники привело к тому, что производство и распространение аудиовизу- альной информации становятся доступными массовому пользова- телю. В результате каждый день в мире производится огромный объем такой информации и задача ее идентификации и поиска в Интернет стала актуальной. Для решения этой задачи группа MPEG в 1996 г. начала ра- боту над проектом "Интерфейс описания мультимедийного содер- жания" (Multimedia Content Description Interface), известного сей- час как MPEG-7. По плану проект международного стандарта 200
должен быть готов к июлю 2001 г,, а утвержден - в сентябре 2001 г. [26] MPEG-7 направлен на создание средств описания содержа- ния видео- и аудиофайлов, т. е. на решение совсем другой задачи, чем предыдущие стандарты группы MPEG. Эти средства должны быть стандартизированы для различных типов аудиовизуальной информации, включая любые неподвижные и движущиеся изо- бражения, речь, музыку, графику, 3-мерные модели и синтезиро- ванные звуки, независимо от формата представления. Между MPEG-7 и MPEG-4 имеется связь, так как описание содержания аудиовизуальной информации будет основано на по- нятиях аудиовизуальных объектов и состоящих из них сцен. В MPEG-4 есть возможность задавать описание для каждого объ- екта, a MPEG-7 даст правила построения таких описаний. Основные понятия MPEG-7: 1. Дескриптор (Descriptor - описатель) - описание объекта. 2. Схема описания (Description Scheme) - структура, содер- жащая описания отдельных объектов и взаимосвязей между ними. 3. Язык определения описаний (Description Definition Language - DDL) - язык, с помощью которого составляются схемы описаний. Непосредственно в стандарте будут содержаться DDL, набор дескрипторов объектов и набор схем описаний. С помощью DDL можно будет составлять новые описания сцен, используя как деск- рипторы, определенные в стандарте, так и вновь создаваемые по заданным правилам. Содержание одной и той же аудиовизуальной информации может быть описано на разных уровнях детальности, начиная с низкого уровня (цвет, форма, текстура, положение визуальных объектов, высота тона, громкость, темп, положение звуковых объ- ектов и т. п.), и заканчивая высоким уровнем, на котором описание может быть задано в виде обычного текста на естественном языке (семантическое описание), например, "Сцена, в которой присутст- вуют четверо молодых мужчин в черных пиджаках без воротни- ков, с темными волосами, закрывающими лицо почти до глаз. Трое играют на гитарах и поют, четвертый стучит по барабанам...". Кроме того, описание должно включать сведения об авторах аудиовизуального материала, дате его создания, условиях доступа, формате записи или кодирования и т.п. 201
Поиск аудиовизуальной информации будет осуществляться путем составления запроса, содержащего набор ключевых деск- рипторов, так же как сейчас осуществляется поиск текстов по ключевым словам. Примеры возможных вариантов такого поиска: - задав несколько нот, получить список музыкальных произ- ведений, которые содержат такую последовательность; - нарисовав несколько линий на экране, получить список ри- сунков содержащих данный фрагмент; - задав форму и текстуру объекта, получить список содер- жащих его изображений, а добавив сведения о движении, полу- чить список подходящих видеопрограмм; - задав образец голоса певца, получить список аудио- и ви- деофайлов, содержащих его записи. Чтобы аудиовизуальная информация могла быть найдена, для нее необходимо предварительно составить описание. Эта про- цедура включает выделение объектов и их характеристик, созда- ние дескрипторов, отсутствующих в стандартном наборе и состав- ление схемы описания на языке DDL. Перечисленные операции могут выполняться вручную, полуавтоматически или автоматиче- ски, причем, чем выше уровень абстракции описания, тем труднее автоматизировать его составление. Описание может затем хра- ниться вместе с аудиовизуальной информацией, для которой оно составлено,' или отдельно, например, в специальных базах данных. Отметим, что стандарт MPEG-7 не будет содержать сред- ства выделения объектов и их характеристик, средства полуавто- матического или автоматического составления описаний, правила построения баз данных для описаний и средства выполнения по- иска. Как уже указывалось, основное его содержание - язык DDL. Может возникнуть вопрос, а какое отношение имеет буду- щий стандарт MPEG-7 к телевидению? Ответ: MPEG-7 станет мощным средством поиска интересующих пользователя видеопро- грамм в Интернет, а также в видеотеках и архивах систем интерак- тивного телевидения. ТВЧ, СТЕРЕО-ТВ, ЧТО ДАЛЬШЕ? Одним из важнейших достижений в области телевидения самого последнего времени стало принятие Рекомендации ITU-R ВТ-709-3, которая определяет единый формат для телевидения вы- 202
сокой четкости (ТВЧ) и производства видеопрограмм. Основные параметры этого формата: - формат кадра 16:9; - число активных (видимых на экране) элементов изображе- ния в строке 1920; - полное число строк 1125, из них активных - 1080; - частота кадров 24, 25 или 30 Гц при чересстрочной раз- вертке, частота полей при чересстрочной развертке или частота кадров при прогрессивной развертке 50 или 60 Гц. Новый единый формат обеспечит международный обмен те- левизионными передачами и производство кинофильмов путем видеозаписи (электронный кинематограф). В США быстрыми темпами разворачивается ТВЧ-вещание. Параметры изображения соответствуют указанной выше Рекомен- дации. Сжатие изображения осуществляется по стандарту MPEG-2 до номинальной скорости передачи двоичных символов 18,9 Мбит/с. Сжатие звука выполняется по стандарту Долби АС-3 до номинальной скорости передачи двоичных символов 384 кбит/с при 5,1 -канальном звуке. Транспортный поток основан на стандар- те MPEG-2 и включает дополнительные пакеты с различной ин- формацией. Передача транспортного потока по наземным (эфир- ным) каналам связи с шириной полосы 6 МГц осуществляется с применением решетчатого канального кодирования и 8- позиционной АМн с частичным подавлением одной боковой поло- сы (8-VSB modulation). Для передачи по кабельным каналам с ши- риной полосы 6 МГц применяется 16-позиционная АМн (16-VSB). Развитие ТВЧ в Европе происходит в рамках проекта DVB. Следующим шагом развития телевидения может быть пере- ход к стереотелевидению, в котором правый и левый глаза зрите- ля получают, соответственно, правое и левое изображения стерео- пары, и у зрителя возникает ощущение объемности наблюдаемого изображения. Стерео-ТВ требует передачи двух видеосигналов. Далее возможен и переход к многоракурсному телевидению, в котором наблюдаемое зрителем изображение зависит от положения зрителя относительно воспроизводящего устройства. Для реализа- ции такой системы необходимо передавать информацию о вариан- тах изображений, наблюдаемых при разных положениях зрителя. Современное развитие цифрового телевидения делают впол- не возможной передачу сигналов стерео-ТВ и даже многоракурс- 203
ного ТВ по обычным каналам ТВ-вещания. Основные проблемы внедрения стерео-ТВ лежат в области создания удобных в экс- плуатации и доступных по цене устройств отображения. ЦИФРОВОЕ ТЕЛЕВИДЕНИЕ В РОССИИ В 1999 г. Госкомсвязи Российской Федерации одобрил "Концепцию внедрения цифровых наземных систем звукового и телевизионного вещания в России" [27]. В основе концепции ле- жит принцип создания в сетях вещания интегрированного транс- портного потока для передачи как вещательных программ, так и мультимедийной и другой информации. Внедрение цифрового телевидения в России предполагается осуществить в два этапа. На первом этапе создаются несколько опытных участков со смешанным (аналоговым и цифровым) ве- щанием для практической проверки и выбора методов и парамет- ров. Результатом первого этапа должны стать адаптация междуна- родных стандартов к условиям России и выработка временных норм на цифровое вещание. На втором этапе должны быть утверждены стандарты на цифровое ТВ- и звуковое вещание, после чего может начаться их массовое внедрение. Контрольные вопросы 1. Какие стандарты, помимо MPEG-2, лежат в основе системы DVB? 2. Какие виды модуляции используются в DVB-С и DVB-S? 3 Что зазрудняет развитие наземного цифрового ТВ-вещания? 4. От чего зависит скорость передачи двоичных символов полезной ин- формации в канале DVB-T? 5. Что такое одночастотная сеть цифрового ТВ-вещания? 6. Что такое "Сотовое телевидение"? 7. Что нового могут цифровые методы дать прикладному телевидению? 8. Какие преимущества обеспечивает нелинейный монтаж по сравнению с линейным? 9. Для чего могут использоваться видеосерверы? 10. Какими способами могут быть организованы обратные каналы в сис- темах интерактивного ТВ? 11. Для чего могут быть полезны кабельные модемы? 12. Что является основным содержанием проекта MPEG-7? 13. Назовите основные параметры единого формата ТВЧ. 204
Словарь терминов и сокращений Адаптивное распределение битов (англ, adaptive bit allocation) - распре- деление битов при квантовании, например, по частотным поддиапазонам, выполняемое в зависимости от параметров кодируемого фрагмента сиг- нала. (§ 4.2.2 и 4.4) АДИКМ - адаптивная дифференциальная импульсно-кодовая модуляция (англ. ADPCM). Разновидность ДИКМ, в которой шаг квантования и па- раметры предсказания изменяются в зависимости от текущих свойств кодируемого сигнала. (§ 3.5) Амплитудная манипуляция (АМн) - один из видов модуляции, приме- няемый при передачи цифровых сигналов. Заключается в дискретном изменении амплитуды несущей. (§ 5.3) Арифметическое кодирование - один из видов кодирования с перемен- ной длиной кодовых слов. Теоретически обеспечивает достижение наи- большей эффективности кодирования без потерь. АЦП - аналого-цифровой преобразователь. БИХ-фильтр — фильтр с бесконечной импульсной характеристикой. То же, что рекурсивный цифровой фильтр. (§ 3.2) БПФ - быстрое преобразование Фурье. Так называются алгоритмы уско- ренного выполнения ДПФ. (§3.1) Вектор движения (Вектор смещения) - пара чисел, выражающих най- денные в результате оценки движения смещения блока изображения по двум пространственным координатам. (§ 3.4 и 4.2.1) Векторное квантование - замена группы отсчетов сигнала или группы элементов изображения на наиболее близкую по заданному критерию группу отсчетов (элементов), называемую эталонным вектором. Все эта- лонные векторы предварительно занесены в кодовую книгу. (§ 3.6) Видеоконференцсвязь - система видеосвязи, обеспечивающая обмен в реальном времени видеоинформацией и звуком между несколькими абонентами. (§6.2) Видео по заказу (англ. Video-on-Demand) - один из новых видов систем ТВ-вещания, в которых абонент может заказать передаваемую програм- му. (§ 6.4) Видеопоследовательность (video sequence) - самая крупная структурная единица потока видеоданных MPEG-1, MPEG-2. Встречается также на- звание "видеоряд". Видеосервер - устройство на базе компьютера для хранения и воспроиз- ведения аудиовизуальной информации. С видеосервера производится передача ТВ-программ. (§ 6.4) 205
Видеостык — название интерфейсов для передачи цифровых ТВ-сигналов в соответствии с Рекомендацией ITU-R ВТ 601, в которой определены параллельный видеостык и последовательный видеостык. (§ 2.2) Видеотелефон - один из видов видеосвязи, обеспечивающий обмен в реальном времени видеоинформацией и звуком между двумя абонента- ми. (§ 6.2) Внутрикадровое кодирование (англ, intraframe) - сжатие видеоинфор- мации в одном отдельно взятом кадре, основанное на уменьшение внут- рикадровой избыточности. (§ 4.2) Вэйвлет-преобразование — ортогональное одномерное или двумерное преобразование, в результате которого исходный сигнал разделяется на составляющую с низкой разрешающей способностью и составляющую с высокой разрешающей способностью. (§ 3.3) Гамма-коррекция — нелинейное преобразование телевизионных сигна- лов, выполняемое с целью коррекции нелинейностей передаточных ха- рактеристик различных узлов телевизионной системы, например, кине- скопа. Одновременно гамма-коррекция способствует уменьшению влия- ния квантования на качество изображения. (§2.1, 2.2) Гибридное кодирование - метод кодирования движущихся изображе- ний, используемый в MPEG-1, MPEG-2, MPEG-4 и сочетающий внутри- кадровое и межкадровое кодирование. (§ 4.2) Головная станция - станция, с которой ведется вещание в системах кабельного ТВ, интерактивного ТВ и т. д. Деквантование - операция, обратная квантованию. В результате дскван- тования увеличивается число уровней квантования, которыми представ- ляются значения отсчетов цифрового сигнала или другой информации. Декодер - устройство, в котором выполняется декодирование. Декодирование - операция, обратная кодированию. В результате деко- дирования информация преобразуется к виду, который она имела до соответствующего кодирования. Декомпрессия - операция, обратная компрессии. Дематрицирование - операция, обратная матрицированию. Исходные сигналы вычисляются как суммы взятых с определенными коэффициен- тами сигналов, полученных при матрицировании. Демодуляция - операция, обратная модуляции. В результате демодуля- ции (часто называемой детектированием) восстанавливается модули- рующий сигнал. Дескремблирование - операция, обратная скремблированию. Восста- новление исходного порядка следования информации. (§ 5.1,6.1) Децимация - см. Прореживание. 206
ДИКМ - дифференциальная импульсно-кодовая модуляция (англ. DPCM). Также называют "Кодирование с предсказанием". Вид ИКМ, в котором на основе значений одного или нескольких предшествующих отсчетов сигнала формируется предсказанное значение текущего отсчета, а по каналу связи передается ошибка предсказания - разность истинного и предсказанного значений текущего отсчета сигнала. (§ 3.5) Дискретизация - представление непрерывного сигнала последователь- ностью его значений (отсчетов или выборок), следующих через опреде- ленные интервалы времени. В случае дискретизации изображения, по- следнее представляется матрицей отсчетов, заданным образом располо- женных в плоскости изображения. (§2.1, 2.2) Дискретная частота - частота дискретного сигнала, измеряемая в долях частоты дискретизации. (§ 3.1) ДКП - дискретное косинусное преобразование. (§3.1) ДПФ -дискретное преобразование Фурье. (§ 3.1) Заголовок (англ, header) — начальная часть структурной единицы потока данных. Как правило содержит синхрогруппу - один или более символов, по которым начало заголовка можно распознать в потоке данных. Иерархическая модуляция - способ модуляции, применяемый в DVB-Т. Более важная для получения устойчивого изображения инфор- мация передается с более высокой помехозащищенностью. (§ 6.1) Избыточность изображения - наличие в изображении составляющих, которые могут быть отброшены без существенного ухудшения визуально воспринимаемого качества воспроизводимого изображения. (§ 2.4) ИКМ — импульсно-кодовая модуляция (англ. РСМ). Способ передачи информации в цифровой форме. Цифровой код каждого отсчета сигнала передается по каналу связи в виде последовательности импульсов. Интерактивное телевидение - ТВ-системы, в которых зритель может воздействовать на получаемую им программу, передавая сигналы по об- ратному каналу на головную станцию. (§ 4.3,6.4) Интерполяция - 1) преобразование дискретного сигнала в непрерывный, путем заполнения по определенному правилу промежутков времени (или в случае изображений - пространства) между отсчетами дискретного сигнала; 2) увеличение количества отсчетов дискретного сигнала путем введения между отсчетами исходного дискретного сигнала дополнитель- ных отсчетов, значения которых определяются по заданным правилам. (§ 2.1, 3.3) Кабельный модем - модем, с помощью которого компьютер подключа- ется к сети кабельного ТВ, что обеспечивает высокую скорость передачи данных. (§ 6.4) 207
Кадр - 1) в телевидении кадрами называются передаваемые и воспроиз- водимые одно за другим неподвижные изображения. Если частота пере- дачи кадров достаточно велика, зритель воспринимает наблюдаемое изо- бражение как непрерывно движущееся. При передаче кадры расклады- ваются на строки; 2) во многих случаях кадрами называют структурные единицы потока данных, например, звуковые кадры. Кадровое кодирование - один из режимов кодирования видеоинформа- ции с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме в каждый макроблок входят элементы изображения из обоих по- лей кадра. (§ 4.2.1) Канальное кодирование - кодирование, выполняемое непосредственно перед передачей информации по каналу связи, часто совмещаемое с мо- дуляцией. Обычно имеет целью повышение помехоустойчивости, исклю- чение идущих слишком много раз подряд символов "1" или "О" и т. д. (§5.2, 5.3, 6.1) Квадратурная амплитудная манипуляция (КАМн) - один из видов модуляции, применяемый при передачи цифровых сигналов. Дискретно изменяются амплитуды двух квадратурных составляющих (cos и sin) не- сущей. (§ 5.3) Квантование - 1) преобразование непрерывного или дискретного сигна- ла путем округления каждого его значения до ближайшего уровня кван- тования; 2) при квантовании сигнала, уже представленного в цифровой форме, может уменьшаться количество битов на каждый отсчет сигнала. КЗФ - квадратурные зеркальные фильтры (англ. - QMF). Пара цифровых фильтров, имеющих взаимно-зеркальные АЧХ. Пара КЗФ позволяет раз- делить исходный цифровой сигнал на два сигнала частотных поддиапа- зонов, соответствующих нижней и верхней половинам его полосы частот, а пара обратных фильтров позволяет восстановить исходный сигнал по двум сигналам частотных поддиапазонов. (§ 3.3) КИХ-фильтр - фильтр с конечной импульсной характеристикой. То же, что нерекурсивный цифровой фильтр. (§ 3.2) Кодек - устройство, которое может выполнять как функции кодера, так и функции декодера. Кодер - устройство, в котором выполняется кодирование. Кодирование - 1) представление результата квантования каждого отсче- та дискретизированного сигнала двоичным числом по определенному правилу; 2) преобразование информации с какой-либо целью путем заме- ны групп символов на другие группы символов по определенным прави- лам. Целями кодирования могут быть сокращение избыточности или сжатие информации, повышение помехоустойчивости, защита информа- ции от доступа нежелательных лиц и т. д. 208
Кодирование по Хаффмену - вариант кодирования с переменной дли- ной кодовых слов. Основан на алгоритме построения кодовой таблицы для кодирования данных с известными вероятностями появления всех символов. Обеспечивает высокую эффективность кодирования переда- ваемой информации. Кодирование с переменной длиной кодовых слов (Кодирование сло- вами переменной длины, англ. VLC) - энтропийное кодирование. Уменьшение объема передаваемой информации достигается за счет того, что более вероятные символы представляются более короткими кодовы- ми словами. Кодирование с предсказанием - см. ДИКМ. Кодовая книга - перечень всех эталонных векторов, используемых при векторном квантовании. (§ 3.6) Коды Рида-Соломона - корректирующие коды, применяемые, в частно- сти, в системах цифрового ТВ. (§ 5.2, 6.1) Компенсация движения - формирование изображения из блоков (фраг- ментов, макроблоков) другого (опорного) изображения, путем их смеще- ний. Указанные смещения определяются векторами движения, найден- ными в результате оценки движения. Компенсация движения использует- ся при формировании предсказанных изображений в стандартах MPEG-1, MPEG-2, MPEG-4. (§ 3.4, 4.2.1, 4.3) Композитное кодирование - преобразование ПЦТС в цифровую форму. (§ 2.3) Компонентное кодирование - раздельное преобразование яркостного и цветоразностных сигналов в цифровую форму. (§ 2.2, 2.3) Компрессия - 1) сжатие информации путем эффективного кодирования, отбрасывания несущественных частей информации и т. д.; 2) сжатие ди- намического диапазона сигнала с помощью нелинейного преобразования. Корректирующие коды - коды, позволяющие обнаруживать и/или ис- правлять ошибки, возникающие нри передаче информации. (§ 5.2) ЛВС - локальная вычислительная сеть. Линейное предсказание (англ. Linear Prediction) - формирование пред- сказанного значения сигнала (см. ДИКМ) в виде линейной комбинации нескольких предыдущих значений. (§ 3.5) Макроблок - прямоугольная область изображения размером 16x16 пик- селов, являющаяся основной структурной единицей кодирования изо- бражений в стандартах MPEG-1, MPEG-2 и др. Для макроблоков выпол- няются оценка и компенсация движения. (§ 4.2.1) Маскирование звука - свойство слуха, используемое в MPEG-1, MPEG- 2 Audio и Долби АС-3. При наличии громкого звука с какой-либо часто- 209
той, более тихие звуки на близких частотах оказываются неслышимыми, то есть маскируются. (§ 4.2.2,4.4) Маскирование ошибки - замена группы символов, в которой обнаруже- на ошибка, на ранее принятую без ошибки группу символов. (§ 5.2) Масштабируемость (англ. Scalability) - свойство методов кодирования и синтаксиса потока данных MPEG-2, позволяющее получать изображение с неполным качеством, например, с уменьшенной разрешающей способ- ностью, из части потока видеоданных. В MPEG-4 свойство масштаби- руемости распространено и на звуковое сопровождение. (§ 4.2.1.4.3) Матрицирование - формирование нескольких выходных сигналов в ви- де сумм нескольких входных сигналов, взятых с заданными коэффициен- тами. МДКП - модифицированное дискретное косинусное преобразование. Разновидность ДКП. Используется в Долби АС-3 и MPEG-1, MPEG-2 Audio, Layer III. (§ 4.2.2,4.4) Медианная фильтрация - отсчет выходного сигнала определяется как медиана распределения значений нескольких отсчетов входного сигнала. Медианная фильтрация может быть как одномерная, так и двумерная, то есть пространственная. (§ 3.2) Межкадровое кодирование (англ, interframe) - сжатие видеоинформа- ции, основанное на использование межкадровой корреляции. (§ 4.2) МККР - Международный консультативный комитет по радиосвязи. Ны- не называется ITU-R. МККТТ - Международный консультативный комитет по телеграфии и телефонии. Ныне называется ITU-T. Модем - устройство, в котором выполняются модуляции и демодуляция. Модуляция - изменение одного или нескольких параметров электриче- ского сигнала, называемого несущим колебанием или просто несущей, в соответствии со значениями модулирующего сигнала. Нелинейный монтаж - метод монтажа видеоматериалов, при котором монтируемые материалы находятся в ЗУ компьютера, и оператор имеет произвольный доступ к любому кадру. (§ 6.4) Нерекурсивный цифровой фильтр - цифровой фильтр, в котором зна- чение формируемого отсчета выходного сигнала зависит только от зна- чений отсчетов входного сигнала. (§ 3.2) Объект - Основное понятие объектно-ориентированного подхода. В MPEG-4 и MPEG-7 используются понятия видеообъекта, которым мо- жет быть выделенный по какому-либо признаку фрагмент изображения или целое изображение, аудиообъекта, которым могут быть звуки, созда- ваемые одним источником, аудиовизуального объекта, в котором объе- диняются видеообъект и аудиообъект. (§ 4.3,6.5) 210
Одночастотная сеть (Single Frequency Network - SFN) - один из вариан- тов вещания в DVB-Т. Синхронная работа на одной частоте нескольких ТВ-передатчиков, области приема сигналов которых перекрываются (§6.1) Опорное изображение (Reference Picture) - кадр или поле, по которому выполняется предсказание с компенсацией движения макроблоков коди- руемого изображения. (§ 4.2.1) Оценка движения - определение смещений отдельных блоков, элемен- тов, фрагментов изображения относительно их положений в другом (опорном) изображении. Найденное смещение выражается вектором движения. По результатам оценки движения может выполняться компен- сация движения. (§ 3.4) Ошибка предсказания - разность предсказанного и действительного значений сигнала. При кодировании изображений ошибкой предсказания фрагмента (макроблока) изображения может быть матрица чисел, каж- дый элемент которой равен разности значений сигналов соответствую- щих элементов предсказанного и действительного фрагментов. (§ 3.5, 4.2.1) Пакет - структурная единица потока данных, представляющая собой группу информационных символов (битов, байтов и т. д.), передаваемых совместно по каналам связи. Как правило, пакет имеет заголовок, содер- жащий сведения о нем. Пакетные ошибки - ошибки, поражающие несколько соседних симво- лов (битов) передаваемой информации. (§ 5.1) Пиксел (или пиксель) (от англ, pixel) - элемент дискретного изображе- ния, яркость и цветность в пределах которого постоянны. ПК - персональный компьютер. Поле - полукадр при чересстрочной развертке, содержащий нечетные строки кадра (первое поле) или четные строки кадра (второе поле). Поле передается и воспроизводится за один период вертикальной развертки телевизора. Полевое кодирование - один из режимов кодирования видеоинформа- ции с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме макроблок состоит из элементов изображения только первого или только второго поля. (§ 4.2.1) Поток данных (англ, bitstream) - последовательность двоичных симво- лов, передаваемых по каналу связи или записываемых на носитель ин- формации. Состоит из структурных единиц (пакетов, кадров и т. д.), снабженных заголовками. Преобразование Хаара - один из видов вэйвлет-преобразования. (§ 3.3) 211
Программный поток (Program Stream) - один из видов мультиплексиро- ванного (объединенного) потока данных MPEG-2, аналогичный систем- ному уровню MPEG-1. В отличие от Транспортного потока, переносит данные только одной ТВ-программы. (§ 4.2.3) Прогрессивная развертка - вариант развертки, при котором все строки кадра передаются последовательно одна за другой. Пропущенный макроблок (англ, skipped) - макроблок, который не пе- редается, так как совпадает с соответствующим макроблоком опорного изображения. (§ 4.2.1) Прореживание — уменьшение количества отсчетов цифрового сигнала. В результате прореживания оставляют, например, каждый 2-й, или каж- дый 3-й, каждый 4-й и т. д. отсчет, а остальные отбрасывают. Пространственная фильтрация - преобразование изображения, при котором яркость и цвет каждого элемента формируемого изображения определяются как заданная функция от яркостей и цветов элементов ис- ходного изображения. (§ 3.2) Пространственная частота (для непрерывных изображений) - величи- на, обратная пространственному периоду. Показывает, сколько периодов изменения какого-либо параметра, например, яркости, укладывается на единицу длины. Размерность м1. (§ 2.1) Пространственный (двумерный) фильтр - устройство, с помощью ко- торого выполняется пространственная фильтрация. (§ 3.2) Профиль - в MPEG2 понятие профиль характеризует сложность исполь- зуемых методов кодирования и наличие масштабируемости. (§ 4.2.1, табл. 4.4) Психоакустическая модель (ПАМ) - алгоритм, учитывающий свойства слуха, по которому в MPEG-1, MPEG-2 Audio для каждого частотного поддиапазона оценивается маскирование звуками из других поддиапазо- нов и рассчитывается распределение битов для квантования. (§ 4.2.2) пцте - Полный Цветной Телевизионный Сигнал. Так называется сиг- нал аналогового цветного телевидения, содержащий сигнал яркости, цве- торазностные сигналы на цветовой поднесущей, синхроимпульсы, гася- щие импульсы if др. необходимые компоненты. Распределение битов (англ, bit allocation) - операция, применяемая во многих методах сжатия изображений и звукового сопровождения. Задан- ное количество двоичных разрядов (битов) при квантовании распределя- ется по нескольким составляющим общего потока данных, например, по частотным поддиапазонам. (§ 4.2.2,4.4) Расширение (англ, extension) - в MPEG-2 - части потоков видео и ау- диоданных, содержащие данные, которые дополняют обязательные (ба- зовые) части потоков. (§ 4.2.1,4.2.2,4.2.3) 212
Рекомендация 601 - полное название Рекомендация ITU-R ВТ 601. Ста- рое название Рекомендация 601 МККР или CCIR-601. Определяет пара- метры цифрового представления ТВ-сигналов телевидения обычной чет- кости. (§ 2.2) Рекомендация ITU-R ВТ-709-3 - документ, определяющий параметры циифрового представления сигналов ТВЧ, общие для Европы, США и Японии. (§ 6.5) Рекурсивный цифровой фильтр - цифровой фильтр, в котором значе- ние формируемого отсчета выходного сигнала зависит как от значений отсчетов входного сигнала, так и от значений ранее сформированных отсчетов выходного сигнала. (§ 3.2) Решетчатые коды (trellis code) - корректирующие коды, используемые при канальном кодировании (внутреннее кодирование) в системах циф- рового ТВ. (§ 5.2, 6.1) Синхроимпульсы - импульсы, входящие в состав полного телевизион- ного сигнала с целью синхронизации разверток в ТВ-приемнике с соот- ветствующими развертками в передающей телевизионной камере. Кадро- вые синхроимпульсы предназначены для синхронизации вертикальной (кадровой) развертки, а строчные синхроимпульсы - для синхронизации горизонтальной (строчной) развертки в телевизионном приемнике. Скорость передачи двоичных символов (англ, bitrate) - число битов информации, передаваемых за секунду. Единицы измерения бит/с, кбит/с, Мбит/с и т. д. Скремблирование - перестановка битов, байтов или более крупных блоков передаваемой информации для защиты от пакетных ошибок. Ис- пользуется также для защиты информации от несанкционированного доступа. (§ 5.1, 6.1) Слайс (англ, slice) - группа следующих один за другим в процессе коди- рования макроблоков. Для всех макроблоков слайса задается одинаковый параметр сжатия, который записывается в заголовок слайса. (§ 4.2.1) Соответствие блоков (англ, block matching) - один из методов оценки движения, в соответствии с которым для каждого блока (макроблока) кодируемого изображения находят в опорном изображении наиболее со- ответствующую по выбранному критерию этому блоку область таких же размеров. (§ 3.4, 4.2.1) Сотовое ТВ - системы ТВ-вещания СВЧ-диапазона, например MMDS, в которых используется сеть маломощных передатчиков. (§ 6.1) Строка - часть кадра, обычно представляющая собой горизонтальную или слегка наклонную узкую полосу передаваемого изображения. В про- цессе передачи кадра строки передаются одна за другой. 213
Сцена - одно из понятий MPEG-4. Совокупность аудиовизуальных объ- ектов, наблюдаемых и слышимых зрителем. (§ 4.3) ТВЧ -телевидение высокой четкости. (§ 6.5) Текстура - мелкая структура изображения. Заполнение контуров объек- тов, предметов и т. д. Транспортный поток (англ. Transport Stream - TS) - мультиплексиро- ванный (объединенный) поток данных MPEG-2, состоящий из транс- портных пакетов и объединяющий данные нескольких телевизионных программ и служебную информацию. (§ 4.2.3) Уровень (англ. - Layer) - в MPEG-1, MPEG2 Audio определены три уровня кодирования звукового сопровождения: Layer I, Layer II, Layer III. (§ 4.2.2) Уровень (англ, level) - в MPEG-2 определены уровни по разрешающей способности изображения. (§ 4.2.1, табл.4.4) Фазовая манипуляция (ФМн) - один из видов модуляции, применяе- мый при передаче цифровых сигналов. Заключается в дискретном изме- нении фазы несущей. (§ 5.3) ЦАП - цифроаналоговый преобразователь. Цветовая поднесущая - частота, на которую с помощью модуляции пе- реносятся цветоразностные сигналы при формировании ПЦТС в систе- мах аналогового цветного телевидения. Цветоразностные сигналы - сигналы в цветном телевидении, несущие информацию о цвете и не влияющие на яркость изображения. Определя- ются формулами: E'r.y = Е'ц - Е'у (красный); Е'с.у = Е'с - Е'у (зеленый); Е'в.у = Е'в - Е'у (синий); где Е'ц , Е'с, Е'в- сигналы красного, зеленого и синего цветов, соответст- венно, Е'у — яркостный сигнал. В системах цветного телевидения, как правило, передаются только сигналы Е'к.у и Е'в.у, или их линейные ком- бинации, так как третий цветоразностный сигнал Е'с-у может быть найден из соотношения 0,30 E'R.y + 0,59 Е'с.у + 0,11 Е'в.у = 0. Цифровой фильтр - устройство, преобразующее последовательность отсчетов входного цифрового сигнала в последовательность отсчетов выходного цифрового сигнала. (§ 3.2) ЦПОС - цифровой процессор обработки сигналов (англ. - DSP). Частота дискретизации - величина, обратная периоду следования от- счетов дискретного сигнала. В соответствии с теоремой Котельникова частота дискретизации должна по меньшей мере в два раза превышать верхнюю граничную частоту дискретизируемого сигнала. (§2.1) 214
Чересстрочная развертка - вариант развертки, при котором сначала передаются все нечетные строки кадра, составляющие первое поле, а по- том - все четные строки кадра, составляющие второе поле. Чересстроч- ная развертка применяется во всех широко используемых системах ТВ- вещания, так как позволяет увеличить в два раза частоту вертикальной развертки в ТВ-приемнике при заданной частоте передачи кадров. Шум квантования - ошибка, возникающая в результате квантования сигнала или вообще всякой информации. Элемент изображения - см. Пиксел. Элементарный поток (англ. Elementary Stream - ES) - поток данных на выходе кодера изображения или кодера звука. Элементарные потоки объ- единяются (мультиплексируются) в мультиплексированные потоки, на- пример, в транспортный поток MPEG-2. (§ 4.2.3,4.3) Энтропийное кодирование - кодирование информации, позволяющее уменьшить ее объем без необратимых потерь. Основано на использова- нии статистических свойств источника сообщения, например, распреде- ления вероятностей появления различных символов, слов и т. п. (См. также Кодирование с переменной длиной кодовых слов.) Яркостный сигнал (сигнал яркости) - сигнал, несущий информацию о яркости всех элементов изображения и соответствующий видеосигналу черно-белого телевидения. В цветном телевидении яркостный сигнал формируется из прошедших гамма-коррекцию сигналов основных цветов Е'к (красный), Е'с (зеленый), Е'в (синий) в соответствии с формулой Е'у = 0,30 E'r + 0,59 Е'с + 0,11 Е'в. АС-3 (Dolby АС-3) - Стандарт сжатия многоканального звука. Использу- ется, в частности, в системе цифрового ТВ ATSC. (§ 4.4) Adaptive bit allocation — см. Адаптивное распределение битов. ADPCM - Adaptive Differential Pulce Code Modulation. См. АДИКМ. ATM (Asynchronous Transfer Mode - Асинхронный режим передачи) - метод передачи в широкополосных цифровых сетях. Обеспечивает высо- кую пропускную способность. (§ 6.2) ATSC (Advanced Television Systems Committee - Комитет по усовершен- ствованным системам телевидения) - система цифрового ТВ-вещания, принятая в США. (§6.1) BER (Bit Error Rate) - частота ошибок на 1 бит передаваемой информа- ции. (§5.1) Bit allocation - см. Распределение битов. B-frame (В-кадр) - от Bidirectional - двунаправленный. Кадр, макроблоки которого могут кодироваться с предсказанием по двум опорным изобра- 215
жениям, одно из которых следует до кодируемого В-кадра, а другое - после. (§ 4.2.1) Block matching — см. Соответствие блоков. CCIR - Comite Consultativ International de Radio. - см. MKKP, ITU-R. CCIR-601 - см. Рекомендация 601. CCITT - Comite Consultatif International de Telegraphique et Telephoniqu. См. MKKTT, ITU-T. CELP (Code Excited Linear Predictive - кодирование возбуждений с ли- нейным предсказанием) - метод сжатия речи, обеспечивающий скорости передачи 6...24 кбит/с при частотах дискретизации 8 кГц или 16 кГц. CIF (Common Intermediate Format) - формат кадра, содержащий 288 строк по 352 элемента в строке для сигнала яркости и 176 строк по 144 элемента в строке для каждого из цветоразностных сигналов. (§ 2.3) COFDM (Coded Orthogonal Frequency Division Multiplex) - OFDM, со- вмещенная с канальным кодированием. (§ 5.3, 6.1) Content-based coding - кодирование, основанное на содержании. Один из вариантов кодирования изображений в MPEG-4, в котором могут ко- дироваться объекты сложной формы. (§ 4.3) D-box — см. Set-Top-Box. DCT- см. ДКП. DMIF (Delivery Multimedia Integration Framework - интегрированная сис- тема доставки мультимедиа) - протокол, обеспечивающий управление потоками данных в MPEG-4. (§ 4.3) DPCM (Differencial Pulce Code Modulation) - см. ДИКМ. DVB (Digital Video Broadcasting - Цифровое видеовещание) - система цифрового телевидения, развиваемая в Европе. Включает кабельное (DVB-С), спутниковое (DVB-S), наземное (DVB-Т), а в перспективе и другие виды ТВ-вещания. (§6.1) DVD (Digital Versatile Disk - Цифровой многосторонний диск. Встреча- ется также расшифровка Digital Video Disk) - новый вид оптических дис- ков, предназначенных, в частности, для записи видеопрограмм обычной четкости (704x576), сжатых по MPEG-2. DVT (Digital Video Team) - проект фирм Microsoft, Intel и Compaq (США), объявленный в 1997 г. и направленный на использование компьютера в качестве ТВ-приемников. (§ 6.4) Elementary Stream (ES) - см. Элементарный поток. Extension - см. Расширение. Field - см. Поле. Frame - см. Кадр. 216
G.711, G.721, G.722, G.726, G.728, G.729 — Рекомендации ITU-T, описы- вающие методы сжатия речи для систем связи, в том числе и видеосвязи. (§ 4.4) GOP (Group of Pictures) - группа изображений. В MPEG-1, MPEG-2 - группа следующих друг за другом изображений (кадров или полей), на- чинающаяся с 1-кадра. (§ 4.2.1) Н.261, Н.262, Н.263 - рекомендации ITU-T, описывающие методы коди- рования видеоинформации для систем видеосвязи. (§ 4.4) Н.320, Н.321, Н.322, Н.323, Н.324 - рекомендации ITU-Т, описывающие построение систем видеосвязи. (§ 6.2) HDTV (High-Definition Television) - телевидение высокого разрешения. См. ТВЧ. I-frame (1-кадр) (от Intraframe - внутрикадровый) - кадр, с которого на- чинается GOP в стандартах MPEG-1, MPEG-2. Все макроблоки 1-кадра кодируются внутрикадровым методом. (§ 4.2.1) ISDN (Integrated Services Digital Network - цифровые сети интегрирован- ного сервиса) - вид цифровых сетей связи с коммутацией каналов. (§ 6.2) ISO (International Organization for Standartization) - Международная орга- низация по стандартизации. Основана в 1947 г., включает в качестве чле- нов более 100 национальных организаций по стандартизации. ITU (International Telecommunication Union) - Международный союз электросвязи (МСЭ). Одна из функций этой организации - подготовка Рекомендаций, которые фактически являются международными стандар- тами. ITU-R - организация - часть ITU, отвечающая за Подготовку Рекоменда- ций в областях радиосвязи и телевидения. ITU-T - организация - часть ITU, отвечающая за подготовку Рекоменда- ций в областях телефонии и цифровой передачи данных. JPEG (Joint Photographic Experts Group) - объединенная группа экспертов по фотографии. Рабочая группа ISO, созданная в 1986 г. и занимающаяся разработкой носящих такое же название стандартов кодирования и сжа- тия неподвижных изображений. (§4.1) JPEG-2000 - Новый проект группы JPEG. Направлен на увеличение сте- пени сжатия и обеспечение сжатия анимированных изображений. Layer - См. Уровень. Level-См. Уровень. Linear Prediction - См. Линейное предсказание. Loseless JPEG (JPEG без потерь) - метод сжатия изображений, разрабо- танный группой JPEG и основанный на кодировании с предсказанием. Позволяет получить существенно меньшее сжатие, чем "обычный" JPEG. 217
LPC (Linear Predictive Coding) - кодирование методом линейного пред- сказания (см. ДИКМ, Линейное предсказание). MDCT-CM.7WZ7. MMDS (Multichannel Microvave Distribution System - Многоканальная система распределения на СВЧ) - см. Сотовое ТВ. Motion JPEG — метод сжатия движущихся изображений, в котором каж- дый кадр сжимается методом JPEG независимо от других кадров. Используется, в частности, в системах видеомонтажа. (§4.1, 6.4) MPEG (Moving Picture Expert Group) - группа экспертов по движущимся изображениям. Рабочая группа ISO, занимающаяся разработкой стандар- тов кодирования и сжатия видео- и аудиоданных. Название группы при- сутствует в названиях подготовленных ей стандартов. MPEG-1 - стандарт сжатия движущихся изображений и звукового со- провождения, утвержденный в 1993 году. В основном используется при записи видеопрограмм формата SIF на лазерные диски, обеспечивая сжа- тие до 1,5 Мбит/с. (§ 4.2) MPEG-2 - стандарт сжатия движущихся изображений и звукового со- провождения, утвержденный в 1994 г. Является основой современных систем цифрового телевидения. (§ 4.2) MPEG-3 - проект группы MPEG по сжатию изображений ТВЧ. Вошел в MPEG-2 и ныне отдельно не существует. (§ 4.2.1) MPEG-4 - стандарт сжатия движущихся изображений и звука. Принят в 1998-1999 годах. В первую очередь направлен на передачу аудиовизу- альной информации по узкополосным каналам связи и на создание инте- рактивных ТВ-систем. (§ 4.3) MPEG-7 - проект группы MPEG, основная цель которого - стандартиза- ция средств описания содержания видео- и аудиоинформации. Предпо- ложительный срок утверждения стандартов - 2001 год. (§ 6.5) MUSICAM (Masking Pattern Universal Subband Integrated Coding And Multiplexing) - метод кодирования звуковых сигналов, в значительной степени ставший основой стандарта MPEG-1 в части сжатия звука. NBC (Nonbackward compatible) - один из вариантов кодирования много- канального (более двух каналов) звука в MPEG-2, не совместимый "на- зад" с MPEG-1. (§ 4.2.2) NTSC (National Television System Committee) - система цветного телеви- дения, используемая в США, Канаде, Японии и ряде других стран Азии и Америки. Формат кадра 4:3; число строк 525, из них видимых на экране - 480, частота кадров 30 Гц, частота полей - 60 Гц, развертка чересстроч- ная. Два цветоразностных сигнала передаются одновременно с помощью квадратурной модуляции цветовой поднесущей, частота которой 3,58 МГц. 218
OFDM (Orthogonal Frequency Division Multiplex) - ортогональное частот- ное мультиплексирование. Один из видов модуляции, применяемых в системах цифрового ТВ. (§ 5.3, 6.1) PAL (Phase Alternating Line) - система цветного телевидения используе- мая во многих странах Европы, Китае и других странах. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразност- ных сигнала передаются одновременно с применением квадратурной мо- дуляции цветовой поднесущей, частота которой 4,43 МГц. PCM (Pulce Code Modulation) - см. ИКМ. P-frame (Р-кадр) (от Predictive - предсказанный) - кадр, макроблоки ко- торого могут кодироваться с предсказанием по опорному изображению, в качестве которого может использоваться предшествующий 1-кадр или Р-кадр. (§ 4.2.1) Pixel (Picture element) - элемент изображения. См. Пиксел. Profile - см. Профиль. QAM - см. Квадратурная амплитудная манипуляция. QCIF (Quarter Common Intermediate Format) - формат кадра, составляю- щий 1/4 от формата CIF, т. е. 176x144 элементов сигнала яркости. (§ 2.3) QMF (Quadrature Mirror Filter) - см. КЗФ. QPSK (Quadrature Phase Shift Key - квадратурная фазовая манипуляция) - метод модуляции несущей, используемый в системах цифрового ТВ. Основан на дискретном изменении фаз двух квадратурных составляющих (см. также ФМн). QSIF (Quarter SIF) - формат кадра, составляющий 1/4 от формата SIF. (§ 2.3) RLC (Runlength Coding) - метод кодирования, при котором идущие под- ряд одинаковые символы сообщения представляются парой чисел, одно из которых показывает количество идущих подряд одинаковых символов, а другое - сам символ. (§4.1) Scalability - см. Масштабируемость. Skipped macroblock - см. Пропущенный макроблок. SECAM (Sequentiel Coleur A Memoir) - система цветного телевидения, используемая во Франции, странах бывшего СССР, странах восточной Европы и некоторых странах Азии и Африки. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразностных сигнала пе- редаются поочередно, через строку. Применяется частотная модуляция цветовой поднесущей, начальная частота которой 4,406 МГц для красно- го цветоразностного сигнала и 4,250 МГц - для синего. Set-Top-Box - приставка для приема программ цифрового ТВ. (§ 6.1) 219
Single Frequency Network (SFN) - см. Одночастотная сеть. SIF - 1) Standard Interchange Format. Формат кадра, содержащий 288 строк по 352 элемента изображения в строке или 240 строк по 352 эле- мента изображения в строке; 2) Source Input Format. Формат кадра, со- держащий 240 строк по 320 элементов изображения в строке. (§ 2.3) SQCIF (Sub-Quarter Common Interchange Format) - формат кадра, содер- жащий 128x96 элементов сигнала яркости. (§ 2.3) S-Video - стандарт интерфейса телевизионной и видеоаппаратуры, в со- ответствии с которым по отдельным проводам передаются сигнал ярко- сти с синхроимпульсами (Y) и сигнал цветности, т. е. цветовая поднесу- щая, промодулированная цветоразностными сигналами (С). Обозначается также Y/C. Т.120 - Рекомендация ITU-T, определяющая взаимодействие программ- но-аппаратных средств при обмене данными в системах видеосвязи. (§ 6.2) Transport Stream (TS) — см. Транспортный поток. Video-on-Demand — см. Видео по заказу. VLBV (Very Low Bitrate Video) - уровень очень низкой скорости переда- чи данных в MPEG-4. (§ 4.3) VLC (Variable Length Coding) - см. Кодирование с переменной длиной кодовых слов. VSB (Vestigial side band) - амплитудная модуляция с частично подавлен- ной боковой полосой. (§ 6.1) Wavelet-Transform - см. Вэйвлет-преобразование. 4:2:2, 4:2:0 и т.д. - варианты форматов дискретизации яркостного и цве- торазностных сигналов. (§ 2.2). 5.1 (или 5,1) - условная запись в методах кодриования многоканального звукового сопровождения, показывающая, чт.е. пять основных каналов звука, и один узкополосный низкочастотный. (§ 4.2.2,4.4) 220
Список литературы 1. Птачек М. Цифровое телевидение: Теория и техника/Пер. с чеш.; под ред. Л.С.Виленчика. - М.: Радио и связь, 1990. - 528 с. 2. Хохлов Б.Н. Декодирующие устройства цветных телевизоров. - М.: Радио и связь, 1998. - 512 с. 3. Новаковский С.В., Котельников А.В. Новые системы телевидения. Цифровые методы обработки видеосигналов. - М.: Радио и связь, 1992. - 88 с. 4. ISO/IEC DIS 10918-1. Information Technology - Digital Compression and Coding of Continuous-tone Still Images: Requirements and Guidelines./Ed/1, JTS 1/SC 9, 1994. 5. ISO/IEC 11172-1. Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s. Part 1: Systems./ Ed/1, JTS 1/ SC 29, 1993. 6. ISO/IEC 11172-2. Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s. Part 2: Video./Ed/1, JTS 1/SC 29, 1993. 7. 15ОЛЕС 11172-3. Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s. Part 3: Audio./Ed/1, JTS 1/SC 29, 1993. 8. ISO/IEC 13818-1. Information Technology - Coding of Moving Pictures and Associated Audio Information. Parti: Systems./ Ed/1, JTS 1/ SC29, 1994. 9. ISO/IEC 13818-2. Information Technology - Coding of Moving Pictures and Associated Audio Information. Part 2: Video./ Ed/1, JTS 1/ SC 29, 1994. 10. ISO/IEC 13818-3. Information Technology - Coding of Moving Pictures and Associated Audio Information. Part 3: Audio./ Ed/1, JTS 1/ SC 29, 1994. 11. Schafer R. DVB bei den offentlich-rechtlichen Rundfunkanstallen // FKT: Femseh- und Kino-technik. - 1997. - 51, № 10, 620-630. 12. ITU-T Recommendation H.261. Line Transmission of Non-Telephone Signals. Video Codec for Audiovisual Services at px64 kbits. 03/93. 13. ITU-T Recommendation H.262. Transmission of Non-Telephone Signals. Information Technology - Generic Coding Of Moving Pictures and Associated Audio Information: Video. 07/95. 14. ITU-T Recommendation H.263. Transmission of Non-Telephone Signals. Video Coding for Low Bit Rate Communication. 03/96. 15. ISO/IEC JTC1/SC29/WG11 Coding of Moving Pictures and Audio. MPEG-4. Overview. 1999. 221
16 Цифровая обработка телевизионных и компьютерных изображе- ний/Под ред. Ю.Б.Зубарева и В.П.Дворковича. - М. Международный Центр научной и технической информации, 1997. - 212 с. 17. Дворкович А.В, Дворкович В П Макаров ДГ., Мохин ГН, Соколов А.Ю. Характерные искажения изображений при цифровом кодировании MPEG и тестовые сигналы для оценки качества кодирования/Доклады 1-й Международной конференции "Цифровая обработка сигналов и ее применения - DSPA'98". - Москва. 1998, Ш-221. 18. Синепол В С, Цикин И.А. Системы компьютерной видеоконференцс- вязи. -М/ ООО "Мобильные коммуникации", 1999 - 166 с 1? Digital Audio Compression (АС-3) ATSC Standard, 1994. 20. Харксвич A.A. Борьба с помехами. - М.: Наука, 1965. - 276 с. 21. Кларк Дж., мл , Кейн Дж. Кодирование с исправлением ошибок в системах цифровой связи: Пер. с англ. - М : Радио и связь, 1987. - 392 с. 22. Ninomiya У. Error Management in Digital Terrestrial Television Broadcasting // SMPTE Journal. - 1994. - 103, N 9, 595-607. 23. С овальнее Л.А. Эфирное вещание цифровых ТВ-программ со сжатием данных//Теле-Спутник. 1998, №10 (36) 24. Digital Video Broadcasting (DVB), A guideline for the use of DVB specifications and standards. Technical Report TR 101 200 VI.1.1. 1997. 25. Патент США № 5581297, 1996. 26. ISO/IEC JTC1/SC29/WGH Coding of moving pictures and audio. MPEG- 7 Context and Cbjectives. 1998. 27. Зубарев Ю.Б, Быховский M.A., Кривошеев М.И., Дотолев В.Г, Шав- дия Ю.Д Основные направления внедрения цифрового вещания ь Рос- сии//Broadcasting, №3 (7), 2000, с. 28-31 222
Оглавление Предисловие................................................ 3 1. Этапы развития цифрового телевидения.................... 5 2. Цифровой телевизионный сигнал.......................... 13 2.1. Преобразование аналогового телевизионного сигнала в цифровой.............................................. 13 2.2. Цифровые телевизионные сигналы согласно 30 Рекомендации ITU-R ВТ 601........................... 2.3. Другие стандарты цифровых телевизионных сигналов.. 40 2.4. Передача цифровых телевизионных сигналов по каналам 42 связи. Задача сжатия видеоинформации................... 3. Некоторые методы цифровой обработки и кодирования 49 телевизионных сигналов и изображений..................... 3.1. Дискретное преобразование Фурье и дискретное 49 косинусноепреобразование............................ 3.2. Цифровая фильтрация................................ 58 3.3. Обработка и передача сигналов с разложением на частотные поддиапазоны или на поддиапазоны по разрешающей способности. Вэйвлет-преобразование........ 66 3.4. Оценка и компенсация движения...................... 75 3.5. Дифференциальная импульсно-кодовая модуляция. Кодирование с предсказанием............................. 78 3.6. Векторное квантование. Фрактальное кодирование.... 83 4. Методы сжат ня изображений и звуковых сигналов......... 87 4.1. Сжатие неподвижных изображений по стандарту JPEG.. 87 4.2. Стандарты сжатия движущихся изображений и звукового сопровождения MPEG-1 и MPEG-2........................... 98 4.2.1. Кодирование и декодирование движущихся изображений........................................ 98 4.2.2. Кодирование и декодирование звукового сопровождения в стандартах MPEG-1 и MPEG-2........ 118 4.2.3. Системный уровень MPEG-2..................... 127 4.3. Стандарт кодирования видео- и звуковой информации MPEG-4............................................... 130 4.4. Другие стандарты кодирования видео и звуковой информации............................................. 140 5. Передача сигналов цифрового телевидения по каналам связи......................................... 150 5.1. Основные положения................................ 150 5.2. Помехоустойчивое кодирование...................... 153 5.3. Методы модуляции, применяемые при передаче сигналов цифрового телевидения по радиоканалу................... 162 223
6. Реализация цифровых телевизионных систем.............. 169 6.1. Европейский стандарт цифрового телевидения DVB... 169 6.2. Системы видеосвязи............................... 184 6.3. Цифровое прикладное телевидение.................. 188 6.4. Цифровое телевидение и компьютерные технологии... 190 6.5. Перспективы развития цифрового телевидения....... 200 Словарь терминов и сокращений............................ 205 Список литературы........................................ 221 Учебная литература Смирнов Александр Витальевич ОСНОВЫ ЦИФРОВОГО ТЕЛЕВИДЕНИЯ Учебное пособие . Редактор И.Н. Суслова Обложка художника В.Г. Ситникова ЛР № 071825 от 16 марта 1999 г. “Горячая линия-Телеком" Подписано в печать 21.09.2001. Формат 60x88 1/16. Печать офсетная. Бумага газетная Печ. л. 14 0 Тираж 3000 экз. Заказ 7348 Лицензия ИД № 05619 от 16.08 2001 г. Издательский Дом “Грааль" 141200, г. Пушкино Московской обл ул. Лесная, д. 5 Отпечатано в соответствии с качеством предоставленных диапозитивов в Производственно-издательском комбинате ВИНИТИ, 140010, г. Люберцы Московской обл., Октябрьский пр-т, 403 Тел. 554-21-86.
ВНИМАНИЕ! В издательстве «Горячая линия - Телеком» вышли следующие книги: Головин О.В., Чистяков Н.И., Шварц В., Хардон Агиляр И. Радиосвязь/Под ред. О.В. Головина. Рассмотрены этапы и итоги формирования знаний об электромагнитных волнах, их свойствах и ресурсах их технических применений для создания и развития систем и сетей беспроводной связи. Популярно показана физиче- ская картина процессов получения основных свойств и распространения радиоволн. Объяснены основные принципы различных современных систем радиосвязи и тенденции их дальнейшего развития. Для широкого круга читателей - от специалистов до студентов вузов элек- тротехнических профилей. Мамаев Н.С., Мамаев Ю.Н., Теряев Б.Г. Цифровое телевидение. Рассмотрены информационные системы, основанные на современных технологиях в телевидении. Основное внимание уделено цифровым системам Изложены принципы преобразования аналоговых сигналов в цифровые с устране- нием избыточности, введения помехоустойчивого кодирования, позволяющие существенно повысить качество сигналов изображения и звука. Для широкого круга читателей, включая радиолюбителей и студентов высших и средних учебных заведений радиотехнического профиля, может быть полезна инженерам, менеджерам и руководителям коммерческих и государственных структур, занимающихся проектированием и эксплуатацией телекоммуникационных систем. Книги можно заказать по почте через Интернет-магазин www.dessy.ru С авторскими предложениями просим обращаться по e-mail: radios@citvline.ru
Этот файл был взят с сайта http://all-ebooks.com Данный файл представлен исключительно в ознакомительных целях. После ознакомления с содержанием данного файла Вам следует его незамедлительно удалить. Сохраняя данный файл вы несете ответственность в соответствии с законодательством. Любое коммерческое и иное использование кроме предварительного ознакомления запрещено. Публикация данного документа не преследует за собой никакой коммерческой выгоды. Эта книга способствует профессиональному росту читателей и является рекламой бумажных изданий. Все авторские права принадлежат их уважаемым владельцам. Если Вы являетесь автором данной книги и её распространение ущемляет Ваши авторские права или если Вы хотите внести изменения в данный документ или опубликовать новую книгу свяжитесь с нами по email.