Текст
                    НАУЧНО-ПОПУЛЯРНОЕ ИЗДАНИЕ ОТ АВТОРА WEBSOUND.RU
ОСНОВЫ
АНАЛОГОВОГО
и ЦИФРОВОГО
4RVK Д
Александр Радзишевский
••••••••••••••••••••••••••
м Образование и распространение звука
м Математическое представление звуковой волны
 Способы преобразования звуковых сигналов
—j Восприятие звука человеком, психофизиологическая акустика
" Цифровой звук и его обработка
Издательский дом "Вильямс"
www.williamspublishing.com

основы АНАЛОГОВОГО и ЦИФРОВОГО ЗВУКА
gWQIilll Ш0 101010 0 110111 0 Александр Радзишевский основы АНАЛОГОВОГО и ЦИФРОВОГО ЗВУКА Москва • Санкт-Петербург • Киев 2006
ББК 32.87 Р15 УДК 534 Издательский дом “Вильямс” Зав. редакцией АВ. Слепцов Выпускающий редактор ЕЛ. Курбатова По общим вопросам обращайтесь в Издательский дом “Вильямс” по адресу: info@williamspublishing.com, http: //www.williamspublishing.com 115419, Москва, а/я 783; 03150, Киев, a/я 152 Радзишевский, А.Ю. Pl5 Основы аналогового и цифрового звука.— М. : Издательский дом “Вильямс”, 2006. — 288 с.: ил. ISBN 5-8459-1002-1 (рус.) В книге рассматривается широкий круг вопросов, связанных со звуком. В популярной форме излагаются основы теории звука и его обработки, начиная с физики образования и распространения звуковых волн, восприятия звука челове- ком и заканчивая подробным описанием и анализом существующих способов циф- рового представления звука и базисных методов его обработки и сжатия. Издание состоит двух из частей, первая из которых посвящена аналоговой, а вторая — цифровой форме представления звука. В книге ясно и доходчиво разъясняются фундаментальные теоретические основы звука, знание и понимание которых по- может не только расширить кругозор, но и повысить профессионализм в решении различных практических задач в области обработки звука. Книга предназначена для широкого круга читателей, интересующихся и увле- кающихся работой со звуком, аудиоаппаратурой и звукомузыкальным творчеством. ББК 32.87 Alex Radzishevsky The Basics of Analog and Digital Sound Все названия программных продуктов являются зарегистрированными торговыми марками соответ- ствующих фирм. Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фотокопирование и запись на магнитный носитель, если на это нет письменного разрешения издательст- ва Издательский дом “Вильямс”. Copyright © 2006 by WilliamsPublishing House. All rights reserved including the right of reproduction in whole or in part in any form. ISBN 5-8459-1002-1 (pyc.) © Издательский дом “Вильямс”, 2006
Оглавление ЧАСТЬ I. ОБРАЗОВАНИЕ И РАСПРОСТРАНЕНИЕ ЗВУКА, ЭЛЕМЕНТЫ ПСИХОФИЗИОЛОГИЧЕСКОЙ АКУСТИКИ 19 Глава 1. Физика образования и распространения звуковых волн 21 Глава 2. Математическое представление звуковой волны, гармонический и спектральный анализ 51 Глава 3. Восприятие звука человеком, элементы психофизиологической акустики 99 Глава 4. Способы преобразования звуковых сигналов, параметры звука 141 ЧАСТЬ П. ЦИФРОВОЙ ЗВУК И ЕГО ОБРАБОТКА 155 Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 157 Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 211 Глава 7. Сжатие (уплотнение) цифровых аудиоданных 245 ЧАСТЬ III. ПРИЛОЖЕНИЯ 255 Приложение А. Не вошедшее в основные разделы 257 Приложение Б. Дополнения 263 Заключение 267 Рекомендуемая литература 269 Предметный указатель 273

Содержание Введение 17 Часть I. Образование и распространение звука, элементы психофизиологической акустики 19 Глава 1. Физика образования и распространения звуковых волн 21 1.1. Природа звуковой волны 21 1.1.1. Твердое упругое тело 2 2 1.1.2. Газы 24 1.1.3. Жидкости 30 1.2. Явления, возникающие при распространении звуковых волн 33 1.2.1. Интерференция 33 1.2.2. Отражение и преломление 36 1.2.3. Поглощение и рассеяние 3 7 1.2.4. Волновое движение в замкнутом объеме 40 1.2.5. Дифракция 42 1.2.6. Вынужденные и собственные колебания, резонанс 42 1.2.7. Эффект Доплера 46 Глава 2. Математическое представление звуковой волны, гармонический и спектральный анализ 51 2.1. Уравнение звуковой волны 51 2.2. Основные понятия гармонического анализа 5 6 2.3. Гармонический анализ сложных непериодических функций 61 2.4. Гармонический анализ реальных звуковых сигналов 72 2.5. Блочный спектральный анализ, эффект Гиббса и сглаживающие функции 78 2.6. Способы графического отображения звуковых сигналов 88 2.7. Звуки различных источников 93 2.7.1. Человеческий голос 93 2.7.2. Музыкальные инструменты 9 5 Глава 3. Восприятие звука человеком, элементы психофизиологической акустики 99 3.1. Слуховой аппарат человека 100 3.2. Психофизиологические акустические параметры звука 105 3.2.1. Тон, высота тона и тембр звука 105 3.2.2. Интенсивность и громкость звука 109 3.2.3. Порог слышимости и маскировка 115
3.3. Восприятие пространственности звука 120 3.3.1. Бинауральный эффект 120 3.3.2. Пространственное звучание 127 3.4. Музыкальный звук и шумы 131 3.4.1. Музыкальный звук 131 3.4.2. Шум и его разновидности 133 Глава 4. Способы преобразования звуковых сигналов, параметры звука 141 4.1. Общая классификация преобразований 141 4.2. Фильтрация и эквализация 143 4.3. Параметры звука 150 4.3.1. Физические параметры звуковой волны 150 4.3.2. Психоакустические параметры звука 153 ЧАСТЬ II. ЦИФРОВОЙ ЗВУК И ЕГО ОБРАБОТКА 155 Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 157 5.1. Общие замечания 157 5.1.1. Представление звука в аудиоаппаратуре 157 5.1.2. Кратко о двоичной системе счисления 158 5.2. Дискретизация и квантование 163 5.2.1. Дискретизация во времени 163 5.2.2. Линейное (однородное) квантование 165 5.3. Цифроаналоговое преобразование 171 5.4. Передискретизация, дискретизация с повышенной частотой 175 5.5. Шум квантования 177 5.5.1. Образование шума квантования и способы борьбы с ним 177 5.5.2. Дизеринг и формовка шума 183 5.6. Джиттер и гранулярный шум 186 5.6.1. Джиттер 186 5.6.2. Гранулярный шум 187 5.7. Неоднородное квантование 188 5.8. Кодирование и декодирование звуковых сигналов 192 5.8.1. Обобщенная схема преобразования и передачи звуковых сигналов 192 5.8.2. Кодирование с “предсказанием” 194 5.9. Разностная ИКМ 197 5.9.1. Общие замечания 197 5.9.2. Разностное кодирование с предсказанием 198 5.9.3. Дельта-модуляция 202 5.10. Адаптивное квантование 204 5.10.1. Адаптивная дельта-модуляция 204 5.10.2. Адаптивная разностная ИКМ 206 5.11. Модуляция “сигма-дельта” 208 8 Содержание
Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 211 6.1. Линейная звуковая система и ее свойства 212 ’ 6.2. Синтез и разложение 216 6.3. Дельта-функция и отклик системы 220 6.4. Свертка 222 6.5. Цифровая фильтрация 230 6.5.1. КИХ-фильтры 230 6.5.2. БИХ-фильтры 235 6.5.3. БПФ-фильтры 238 Глава 7. Сжатие (уплотнение) цифровых аудиоданных 245 7.1. Общие замечания 245 7.2. Кодирование без потерь 248 7.3. Кодирование с потерями 251 Часть III. Приложения 255 Приложение А. Не вошедшее в основные разделы 257 Об “аналоге” и “цифре” 257 О возможности вычленения звуков из фонограмм 260 О возможности проеобразования МонофСтерео 262 Приложение Б. Дополнения 263 Дополнение 1. Резонанс 263 Дополнение 2. “Копирование” высокочастотных составляющих в нижнюю полосу частот 265 Дополнение 3. Что такое децибел 265 Заключение 267 Рекомендуемая литература 269 Предметный указатель 273 Содержание 9

Считается, что около 90% информации об окружающем мире человек получает через зрение, приблизительно 9% — через слух и 1% — через другие органы чувств. В этой книге речь пойдет о 9 процентах...

От автора Уважаемый читатель! Вы держите в руках, листаете и оцениваете мою книгу, а значит, наверняка относитесь к той категории людей, которые в той или иной сте- пени проявляют интерес к звуку, звуковой аппаратуре и звукомузыкальному твор- честву. Вероятно, вы, как и я, постоянно интересуетесь различными новинками в области звука, его обработки и воспроизведения, и следите за новыми публика- циями на эту тему. Коль это так, значит, вы наверняка заметили, что подавляющее большинство опубликованных популярных книг и статей по “звуковой теме” отно- сится, в основном, к той категории литературы, которая, образно выражаясь, учит, что и как делать практически, но по большому счету не отвечает на вопрос “Почему?”. В современной “звуковой литературе” в немалой степени прослежива- ется утилитарный, сообразующийся с сугубо практической и прикладной стороной подход, заключающийся в стремлении авторов научить читателя способам реше- ния тех или иных практических задач без разъяснения фундаментальных теорети- ческих основ, стоящих за осуществляемыми действиями. По таким статьям и кни- гам можно научиться создавать и обрабатывать звук, успешно эксплуатировать различную звукомузыкальную аппаратуру, программное обеспечение и вообще быть “на коне” в области практики звука, но вместе с тем иметь очень слабое пред- ставление о физических основах звука, о теории слышимого звука и его обработки. Из многочисленных электронных дискуссий на моем сайте1, а также из большого числа вопросов, писем и обсуждений в Интернете, я убедился в необходимости на- писания популярной книги о звуке, которая помогла бы желающим разобраться в основах его теории. Публикацией этой книги я в силу своих способностей хотел бы в какой-то степени восполнить указанный выше пробел, возбудить здоровый инте- рес к теоретическим основам звука и попытаться поднять престиж и роль научно- популярной литературы в этой области знаний. Несколько слов о материале книги и работе над ней. В книге нет ничего принци- пиально нового. Большая часть того, что в ней описывается, — это в той или иной степени известные факты, которые лучше или хуже изложены в различных кни- гах, учебниках, справочниках и статьях. В этой книге (как и на страницах моего сайта) я выступаю в основном в качестве популяризатора всего, что касается звуко- вой тематики. Решение написать научно-популярную книгу о звуке поставило меня перед поч- ти неразрешимой проблемой, заключающейся в невозможности “объять необъят- ное”. Поэтому, прежде чем включать в книгу тот или иной материал, его приходи- лось тщательно отбирать, фильтровать и “просеивать”, чтобы втиснуть в разумные рамки книги как можно больше полезной информации. Возможно, в чем-то меня выручило мое математическое образование. Введение в книгу в общем-то неслож- ной математики (как необходимого инструмента интерпретации физических явле- ний) и конкретных примеров на ее основе позволило мне “уплотнить” материал, но при этом, на мой взгляд, не лишить его при этом ясности и “доходчивости”. Насколько мне это удалось — судить вам, уважаемый Читатель. http://websound.ru— авторский некоммерческий электронный журнал, посвященный циф- ровому звуку и аудиомузыкальному творчеству.
Эту книгу я отношу к разряду научно-популярных, так как для понимания практически всех ее тем достаточно иметь хорошее современное полное среднее об- разование. Хочется верить, что эта книга окажется востребованной; лично я при- ложил все усилия, чтобы она не только расширяла кругозор и углубляла знания и понимание основ звука, но также создавала определенные предпосылки для роста профессионализма в решении различных практических задач в этой области. Я выражаю огромную признательность всем, кто прямо или косвенно помогал мне в написании книги. В этой связи мне хотелось бы упомянуть и поблагодарить: Евгения Данченко — за научное рецензирование, советы, дельные замечания и просто дружескую моральную поддержку; Александра Слепцова и коллектив Издательского дома “Вильямс” — за помощь в создании и выпуске книги. Я также искренне благодарен всей моей семье, особенно супруге и маме, вытер- певшим все лишения, на которые я обрек их своей перманентной занятостью и иногда беспричинным ворчанием. Особую благодарность я хочу выразить своему папе, Юрию Радзишевскому, ко- торый не просто помог привести всю мою писанину к удобочитаемому виду, но и фактически стал моим соавтором, так как благодаря именно ему мои черновики были дополнены пояснениями, примерами, выкладками и уточнениями, после че- го были многократно пересмотрены, переправлены и превращены в то, что вы сей- час держите в руках. С уважением, автор. Как связаться с автором Для того чтобы между читателями книги и ее автором существовала прямая связь, автор книги организовал специальную страничку в Интернете, расположен- ную по адресу http://soundbook.aradzish.info. На ней будут собираться по- правки к книге, уточнения, замечания, а также дополнительная информация по теме, в частности — список полезных ссылок в Интернете, дополненный список литературы и т.д. Свои письма направляйте автору книги по адресу электронной почты book@aradzish. info. 14 От автора
От Издательского дома “Вильямс” Вы, читатель этой книги, и есть главный ее критик. Мы ценим ваше мнение и хотим знать, что было сделано нами правильно, что можно было сделать лучше и что еще вы хотели бы увидеть изданным нами. Нам интересны любые ваши заме- чания в наш адрес. Мы ждем ваших комментариев и надеемся на них. Вы можете прислать нам бу- мажное или электронное письмо либо просто посетить наш Web-сервер и оставить свои замечания там. Одним словом, любым удобным для вас способом дайте нам знать, нравится ли вам эта книга, а также выскажите свое мнение о том, как сде- лать наши книги более интересными для вас. Отправляя письмо или сообщение, не забудьте указать название книги и ее ав- торов, а также свой обратный адрес. Мы внимательно ознакомимся с вашим мне- нием и обязательно учтем его при отборе и подготовке к изданию новых книг. Наши электронные адреса: E-mail: info@williamspublishing.com WWW: http: //www.williamspublishing.com Наши почтовые адреса: в России: 115419, Москва, а/я 783 в Украине: 03150, Киев, а/я 152 От Издательского дома “Вильямс1 15

Введение Название книги “Основы аналогового и цифрового звука” довольно точно отра- жает ее тематику и само по себе говорит, что книга подразделяется на две основные части: первая часть посвящена аналоговой форме представления звука (“ана- логовому звуку”), вторая — цифровой форме представления звука (“цифровому звуку”). И в первой, и во второй частях речь идет об основах звука, т.е. о совокуп- ности таких теоретических и практических знаний, накопленных человечеством, без которых природное явление под названием “Звук” никогда не стало бы наукой, а значит не участвовало бы в процессе технологического прогресса человечества. Термины “аналоговый звук” и “цифровой звук” означают соответственно анало- говый (от греч. “analogia” — “соответствие”, “сходство”) и цифровой способы пред- ставления звука, т.е. разные способы представления невидимых глазу колебаний частиц среды, собственно и являющихся звуковой волной. Разница между анало- говым и цифровым представлениями лежит в самой их сути; так, в аналоговой зву- ковой аппаратуре информация о звуковой волне представляется в виде непрерывного электрического сигнала, моделирующего форму звуковой волны, а в цифровой зву- ковой аппаратуре звуковая волна в конечном итоге представляется в виде набора чисел. При этом, несмотря на то что понятие “аналоговый” ассоциируется больше с понятием “электрический”, выражение “аналоговый звук” в контексте названия данной книги следует воспринимать в большей степени как всеобъемлющее поня- тие, обозначающее звук как физическое и психофизиологическое явление. Обозначив два вышеуказанных термина в качестве темы книги, вполне резонно будет задаться, например, следующими вопросами: как образуется и распространя- ется звуковая волна, т.е. звук, в различных средах и какие основные параметры ее характеризуют; какими явлениями и эффектами сопровождается распространение звуковой волны; какой вид (форму) имеет реальная звуковая волна и как форма звуковой волны влияет на звук, который мы слышим; как и что влияет на форму звуковой волны; каковы способы исследования звука и как теоретические исследо- вания совпадают с практикой “эксплуатации” звука; чем отличается шум с точки зрения науки от музыкального звука и от звука человеческого голоса; как человек слышит звук и какой звук он слышит и т.д., и т.п. На эти и другие вопросы можно найти ответы в первой части книги. Вторая часть книги посвящена цифровому звуку и его обработке. Вообще, циф- ровая запись и обработка звуковых сигналов — это сравнительно молодая область технологии, настоящий интерес к которой проявился в 70-х годах XX века, когда появились интегральные микросхемы и построенные на их основе персональные электронно-вычислительные машины (ЭВМ). А начиная с 90-х годов стала разго- раться уже настоящая революция в области цифровой аудиозаписи и обработки. Несмотря на сравнительную молодость цифровой звукообработки, в этой области накопилось достаточно много знаний (во многом унаследованных из математики и общей теории обработки сигналов), которые и позволили ей развиваться в ногу с научно-технологическим прогрессом.
Перечислим основные темы, которые отнесены к материалу второй части: двоичная система счисления, на которой базируются все современные циф- ровые устройства; процессы дискретизации, передискретизации и различных способов кванто- вания сигналов; восстановление аналогового сигнала из цифровой формы (цифроаналоговое преобразование); природа образования различных “цифровых шумов” и описание различных способов борьбы с ними; способы кодирования и декодирования звуковых сигналов; линейные звуковые системы и их свойства, синтез и декомпозиция (разложение) сигналов как базовые операции обработки сигналов; свертка, цифровая фильтрация; уплотнение (сжатие) цифровых аудиоданных. Неискушенному читателю, который еще не сталкивался не только с перечис- ленными вопросами, но и с приведенной терминологией, материал книги, в осо- бенности вторая ее часть, на первый взгляд может показаться просто непреодоли- мым барьером на пути самообразования в области звука. Хотелось бы сразу же успокоить такого читателя и привести здесь известную поговорку: “Не так страшен черт, как его малюют”. Автор настоящего научно-популярного издания приложил максимум усилий, чтобы точка равновесия между “степенью научности” и “степе- нью популярности” этой книги не выходила за допустимые рамки. Материал в книге подается в той последовательности, которая отражает видение ее автора. Не исключено, что последовательность изложения тем и способы их раскрытия в этой книге не совпадают с принятыми в классических академических учебниках, однако автор книги и не ставил себе целью следовать классической литературе. Основной целью было лишь ясное и доступное изложение материала. Можно с уверенностью утверждать, что сама по себе эта книга не способна нау- чить практическим навыкам звукозаписи, звуковоспроизведения и звукообработ- ки. С другой стороны, автор надеется, что основная задача — доступно изложить основы теории звука — им выполнена, и тот, кому небезразлична звуковая темати- ка, увидит в этой книге некое подспорье, если и не отвечающее на все вопросы, то хотя бы дающее базовые знания и задающее основное направление поиска ответов на дополнительные вопросы. 18 Введение
ЧАСТЬ I Образование и распространение звука, элементы психофизиологической акустики В ЭТОЙ ЧАСТИ... Глава 1. Физика образования и распространения звуковых волн Глава 2. Математическое представление звуковой волны, гармонический и спектральный анализ Глава 3. Восприятие звука человеком, элементы психофизиологической акустики Глава 4. Способы преобразования звуковых сигналов, параметры звука Эта часть является базовой для понимания физики образования и воспри- ятия звука, а также для понимания второй части книги, непосредственно касающейся вопросов цифрового звука. Несмотря на то что приведенные здесь сведения по теории звука и психофизиологической акустике в той или иной степени освещены в различной технической литературе, мы, учитывая фундаментальность и важность этих вопросов, посчитали целе- сообразным собрать их воедино, обобщить и рассмотреть в этой части, ак- центируя внимание на физической сущности рассматриваемых явлений. Уважаемый читатель, не стоит негативно реагировать на некоторую ка- жущуюся перенасыщенность материала формулами и математическими выкладками. Эта мера вынужденная, так как без математики невозможно приводить конкретные примеры и делать убедительные обобщающие вы- воды. Формализованным математическим инструментарием мы будем пользоваться аккуратно, не прибегая к нему без нужды.

Глава 1 Физика образования и распространения звуковых волн 1.1. Природа звуковой волны Понятие “звук” может быть рассмотрено с двух принципиально различных по- зиций. Звук как физическое явление — это волнообразно распространяющиеся колеба- ния частиц упругой среды. Другими словами, звук есть результат колебательного процесса, распространяющегося в упругой среде, в частности— в воздушной среде. Звук как физиологическое явление — это специфическое ощущение, вызывае- мое действием звуковых волн, распространяющихся в воздушной среде, на орган слуха. Ниже мы будем говорить о звуке как о физическом явлении. Звук как фи- зиологическое явление будет рассмотрен в главе 3. Звук может распространяться только в упругой среде, т.е. в среде, которая спо- собна восстанавливать свою первоначальную форму, искаженную (деформирован- ную) в результате кратковременного действия на нее возмущающей силы. Упруго- стью сжатия и растяжения обладают как твердые тела, так и жидкие и газообразные среды. В упругой среде деформация передается последовательно от некоторой точ- ки среды к соседней. Если, например, ударить по металлическому стержню молот- ком, то в месте удара образуется уплотнение металла (деформация сжатия), кото- рое будет распространяться внутри стержня с некоторой определенной скоростью С — скоростью распространения звука в металле. При этом в колебательное движе- ние придут все точки тела стержня одна за другой в направлении распространения звуковой волны. Абсолютно пластичные тела1, а также частично пластичные тела, первоначальная форма которых восстанавливается только частично, практически не способны передавать звук. Источником возникновения волнового движения (источником звука) может служить любое тело, способное совершать упругие колебания, — мембрана, диф- фузор, металлическая пластина, струна, столб воздуха (в трубах) и т.д. Звуковые 1 Абсолютно пластичное тело — это тело, не способное полностью восстанавливать свою первона- чальную форму после деформации под действием внешней силы (например, пластилин, пласта- масса).
волны возникают благодаря упругим связям между частицами (молекулами или атомами) тела или среды, в которой находится источник звука, совершающими уп- ругие механические колебания. Упругие периодические механические колебания источника звука вызывают колебания близлежащих к источнику частиц упругой среды, что приводит к периодическому сжатию (сгущению) и разрежению среды в этом месте. В областях сжатия давление среды возрастает, а в областях разрежения давление понижается, т.е. возникает перепад давления в близлежащей к источни- ку области среды и как следствие — избыточное давление в этом месте. Избыточное давление воздействует (“толкает”) на соседние слои (элементы объема) упругой среды, которые, в свою очередь, сжимаются, и возникает избыточное давление, ко- торое воздействует на соседний слой среды, и т.д. Приблизительно так происходит передача первоначального возмущающего импульса от источника звука в окру- жающей его упругой среде. Таким образом, благодаря упругим связям между мо- лекулами и атомами среды возникает волна, которая распространяется в общем случае сначала в той среде, в которой находится источник звука (например, в воде), затем переходит в воздушную среду, где расположен слушатель, распространяется в ней и, достигая уха человека, возбуждает в нем колебания, воспринимаемые че- ловеком как звук (вопросам восприятия звука человеком посвящена глава 3). При совпадении направления колебаний частиц среды с направлением распро- странения волны возникают так называемые упругие продольные волны. В про- дольной волне частицы колеблются вперед-назад около положения устойчивого равновесия в направлении распространения волны. Продольная волна представля- ет собой чередование сгущений (уплотнений) и разрежений в упругой среде в на- правлении перемещения волны. Упругие поперечные волны имеют место тогда, когда колебания частиц среды происходят в плоскости, перпендикулярной направлению распространения волны. Поперечные упругие волны возникают в твердых телах при сдвиге, кручении, изгибе. В этом случае возникающая деформация сдвига вызывает упругие силы, которые возбуждают упругие поперечные волны. Не вдаваясь в сложную физику явлений, отметим лишь, что звуковые волны — суть продольные волны. Рассмотрим особенности распространения звуковой волны (звука) в различных средах. 1.1.1. Твердое упругое тело Возьмем для примера тонкий металлический стержень конечной длины L, сече- нием S и плотностью р, по концу которого ударим молотком с силой F. За время Д/ под действием силы F торец стержня будет деформироваться (уплотняться), и в процессе деформации сжатия в конечном итоге переместится, например, на рас- стояние &L относительно его равновесного состояния до удара. При деформации конца стержня происходит смещение частиц (атомов), находящихся в узлах кри- сталлической решетки, из первоначального положения равновесия в новое поло- жение. Сжимаемый элемент объема ДУ на конце стержня в процессе сжатия “толкает” (сжимает) пограничный с ним элемент объема, который, в свою очередь, 22 Часть I. Образование и распространение звука...
сжимает следующий, и т.д. Иными словами, возникающая в результате удара уп- ругая деформация сжатия (т.е. уплотнение) на конце стержня перемещается вдоль стержня со скоростью С (т.е. со скоростью звука в данной металлической среде). За время Az каждая частица сжимаемого элемента объема будет перемещаться со скоростью • За это же время упругая деформация сжатия распространится в общем случае на отрезок длины стержня L, отвечающий равенству L = C&t (примем в нашем случае L = L). Исходя из второго закона динамики2 (Ньютона) можно записать для рассматриваемого примера следующее равенство: AL F&t = mv3 = pSLv3 = pSL-, (1.1) Д/ \в/ где т — масса стержня, пришедшая в движение за время Az. Разделив обе части равенства (1.1) на SAz, затем умножив числитель и знаменатель правой части фор- мулы на величину L, можно записать: FAz_pSLAL L S&t Sbt&t L' Заменив F величиной Fynp и сделав в последнем выражении несложные преобра- зования, получим: ( L'X bJLt . AL si q\ Q = P - ---= k---, (I-*) l l откуда * = p^’=pc-. II закон Ньютона формулируется следующим образом: изменение количества движения тела равно импульсу действующей на тело силы, т.е. FAt = mv2 -гт\, где F — внешняя возмущающая сила, действующая на твердое упругое тело; эта внешняя сила урав- новешивается внутренними упругими силами (точнее, результирующей упругой силой Fynp\ ко- торые возникают внутри тела вследствие его деформации (сжатия или растяжения); Д/ — промежуток времени, в течение которого сила F действует на тело и деформирует его; FAt — импульс силы; vp v2 — скорости тела соответственно в начале и в конце промежутка времени AZ ; mv — количество движения; (mv2 -mv^ — изменение количества движения (для рассматриваемого примера величина mvx равна нулю, поэтому F&t = mv2 или просто F&t = mv ). Глава 1. Физика образования и распространения звуковых волн 23
где q = _22Р- — напряжение, которое возникает в стержне при его упругой дефор- S мации. По закону Гука, напряжение о при упругой деформации тела про- &L AL порционально относительной деформации стержня —, т.е. в = к—, где L L al - у---мера деформации (для рассматриваемого примера это величина отно- сительного сжатия стержня); k — модуль линейной упругости (или модуль Юнга); а-\/к — коэффициент линейной упругости, который прямо пропорциона- лен степени сжимаемости (деформации) тела. Из аналитического выражения (1.3) следует, что скорость распространения звуковой волны в упругом твердом теле зависит при прочих равных условиях только от его физических свойств (т.е. от плотности вещества и его упругости) и характеризует физические свойства тела. Большая плотность тела приводит к уве- личению инерционности частиц тела и, следовательно, уменьшает скорость рас- пространения звуковой волны. Чем меньше при прочих равных условиях сжимае- мость вещества (т.е. коэффициент упругости а), тем выше упругость вещества, тем меньше способность тела к деформации и тем с большей скоростью распространя- ется эта деформация (т.е. тем выше скорость звука). Скорость звука в металлах ко- леблется в пределах 3 103-5 103 м/с, что говорит о больших упругих силах в ме- таллах, в основе структуры которых лежит кристаллическая решетка с атомами вещества в ее узлах. 1.1.2. Газы Звук в газах, в частности в воздушной среде, передается движением молекул среды. В газах положение атомов и молекул не фиксировано, как в металлах, дви- жение молекул имеет беспорядочный характер, т.е. скорости молекул не имеют какого-либо преимущественного направления, а распределены хаотически по всем направлениям. Вследствие столкновения молекул между собой их скорости все время меняются как по направлению, так и по величине (скорости отдельных мо- лекул могут сильно различаться). Поэтому в газах широко используются понятия средней скорости и средней длины свободного пробега. Средней длиной свободного пробега называется среднее расстояние, пролетае- мое молекулами между двумя последовательными столкновениями. Она зависит от плотности вещества. С уменьшением плотности газа средняя длина свободного про- бега увеличивается. При атмосферном давлении и температуре t = О °C средняя длина свободного пробега молекул воздуха лежит в пределах приблизительно от 10’6 до 10’5 см. 24 Часть I. Образование и распространение звука...
Под средней скоростью понимают среднюю величину скоростей всех молекул газа в данном объеме в данный момент времени. Она зависит от температуры и чис- ла молекул в единице объема. В газах силы сцепления молекул между собой (силы молекулярного сцепления) очень незначительны, поэтому молекулы газа, нахо- дясь в свободном полете, всегда полностью заполняют предоставленный им объем. Опишем процесс распространения звуковой волны в воздушной среде. Для этого нам достаточно будет рассмотреть распространение звука в одномерном простран- стве, а именно — в направлении движения волны. В качестве источника звука возьмем динамик, диффузор которого быстро перемещается (колеблется) в воздухе с длительностью и частотой передаваемых звуковых сигналов. Здесь сразу же от- метим тот неоспоримый факт, что звуки различных частот, независимо от нашего расположения относительно источника звука, воспринимаются нами строго в той последовательности, в какой они создаются источником, т.е. вслед за низкими час- тотами могут идти высокие, потом опять низкие, потом опять высокие и т.д. Если бы это было не так и высокие или низкие частоты (звуковые сигналы) распростра- нялись бы быстрее или, наоборот, медленнее, то вместо звуков музыки мы слыша- ли бы резкий и отрывистый шум. Отсюда первый вывод: звук распространяется в воздушной среде со скоростью, практически не зависящей от частоты звуковых колебаний. Но вернемся к нашему примеру. Диффузор, колеблясь в воздушной среде, сжи- мает (уплотняет) близлежащий к нему элемент объема воздуха с некоторой перио- дичностью. Причем каждое сжатие (уплотнение) происходит за время Дг, где А/ — очень малый промежуток времени. Важно подчеркнуть, что только при условии малости величины At воздух в процессе колебаний будет сжиматься. При мед- ленных колебаниях диффузора воздух будет успевать его обойти (обтекать) и диф- фузор не будет создавать давление на пограничный с ним элемент объема воздуха. В процессе сжатия воздуха возникает избыточное давление в этом слое по отноше- нию к последующему несжатому (разреженному) элементу объема воздуха. Моле- кулы сжатого слоя, вылетая из области с повышенными плотностью и давлением, передают импульс силы ГДг другим молекулам, находящимся в соседнем разре- женном слое. Этот элемент объема воздуха, в свою очередь, сжимается, в нем воз- никает избыточное давление и т.д. Таким образом, распространение звуковой вол- ны в воздушной среде, т.е. распространение деформации (уплотнения), происходит за счет упругой передачи импульса силы ГД/ от предыдущего элемента объема к следующему в направлении распространения волны. С точки зрения кинетической теории, если в одном месте имеется большая плотность молекул, а в соседнем — меньшая, то молекулы будут переходить из области с большей плотностью в об- ласть с меньшей плотностью так, чтобы уравнять плотности в обоих слоях. Тогда никаких колебаний не происходит и звук не возникает, так как нет звуковой вол- ны. Отсюда следует второй важный вывод: звуковая, волна (звук) возникает только в том случае, если размеры области изменения плотности и давления на- много больше расстояния, проходимого молекулами до соударения с другими моле- кулами. Это расстояние есть длина свободного пробега, и оно должно быть намного меньше расстояния между гребнями и впадинами давления. В противном случае молекулы перейдут с гребня во впадину, и волна моментально выровняется. Глава 1. Физика образования и распространения звуковых волн 25
Здесь уместно сделать следующее общее замечание, касающееся элемента воз- душной среды. Под этим понятием подразумевается сравнительно небольшой объем воздушного слоя (соответствующий размерам возмущающей механической системы) в пределах тропосферы3. В любом таком небольшом по толщине слое тро- посферы при отсутствии возмущений существует состояние равновесия, а именно, если мысленно разбить такой слой воздушной среды на равные элементы объема, то в каждом из них в любой момент времени будет находиться примерно одинаковое количество молекул воздуха. Такое состояние слоя воздушной среды может быть только при равенстве величин давления и температуры во всех элементах объема этого слоя. Равенство давлений означает, что не происходит движение отдельных частей воздуха в этом слое, а равенство температур означает, что не происходит пе- редача тепла от одного элемента объема к другому. Если происходит возмущение воздушной среды (например, из-за пролетевшего самолета), то состояние равнове- сия среды восстанавливается через короткий промежуток времени. Опишем процесс распространения звуковой волны в газах аналогично тому, как это было сделано для твердого упругого тела, но с учетом допущения, что газ иде- альный4. В реальном воздухе и других газах существуют слабые межмолекулярные упругие силы взаимодействия, но с достаточной степенью точности можно считать воздух идеальным газом. Для реальной упругой воздушной среды справедливы с определенными ограничениями законы динамики (т.е. законы Ньютона). Поэтому выведенная нами аналитическая зависимость (1.3) в общей формулировке справед- лива и для газов, и для жидкостей, но со своими специфическими оговорками, на которых мы подробно остановимся ниже. Итак, аналогично уравнению (1.3) скорость распространения звуковых волн (скорость звука С) в газах будет равна (гл’ где k — модуль объемной упругости (для газов); а=Л]к — коэффициент объемной упругости (сжимаемости); р —плотность невозмущенной среды. тт « я. AV Для газов мерой деформации является отношение , т.е. относительная де- формация сжатия (уплотнения) или разрежения элемента объема газа под действием Воздушная оболочка Земли (атмосфера) представляет собой слой воздуха, состоящий из смеси азота, кислорода, углекислого газа и других газов. В атмосфере различают несколько слоев воз- душной среды. Самый нижний слой толщиной около 11 км называется тропосферой; в этом слое происходят все процессы, влияющие на изменения погоды. В тропосфере температура воздуха уменьшается с высотой в среднем на 5-6 градусов на каждый километр. Под идеальным газом следует понимать такой газ, в котором отсутствуют силы межмолекуляр- ного сцепления. 26 Часть I. Образование и распространение звука...
звукового давления Р3. Для газов аналогично (1.2) а = Р3 = к-. Отсюда к =—- V ДУ С учетом сделанного замечания выражение (1.4) можно записать как 1Рз у у рДУ (1.5) Под звуковым давлением Р3 здесь следует понимать давление, возникающее в газообразной среде при прохождении через нее звуковой волны. Другими словами, это реакция воздушной среды на воздействие внешнего возмущения: = (1.6) где Pf — давление на элемент объема газа, вызываемое внешней возмущающей си- лой; Ратм —атмосферное давление. Процесс деформации газа при распространении в нем звуковых волн считается адиабатическим5. В этом случае при быстром (импульсном) сжатии элемента объема воздушной среды с уменьшением его объема повышается температура внутри него, увеличивается средняя скорость беспорядочного движения молекул воздуха, за счет чего увеличиваются давление и внутренняя энергия воздуха в элементе объема, при этом отток тепла из области сгущения в область разрежения пренебрежимо мал. Отток тепла из области повышенного давления (т.е. из сжимаемого элемента воздушной среды), по Лапласу, пренебрежимо мал потому, что процесс сжатия происходит очень быстро (импульсно). При медленном сжатии тепло успевает рас- пространиться на соседние элементы воздуха, т.е. в окружающую среду, и процесс изменения давления и плотности в элементе сжимаемого объема будет протекать при постоянной установившейся температуре внутри него, т.е. процесс будет изо- термическим. Считается, что при адиабатическом протекании процесса ничтожная утечка тепла в звуковой волне не влияет на скорость звука, хотя и может привести к небольшому поглощению звуковой энергии. Адиабатическое протекание процесса деформации газа учитывается путем вве- дения в выражение модуля объемной упругости k коэффициента У = — (показатель адиабаты), где Ср и Cv — удельные теплоемкости воздуха соответст- Рз V венно при постоянном давлении и постоянном объеме. Тогда к = у-, и формула ДУ (1.5) будет выглядеть следующим образом: 5 Адиабатическим называется процесс, при котором практически отсутствует теплообмен с окру- жающей средой. Глава 1. Физика образования и распространения звуковых волн 27
С=1рГV—(17) V pAV Объем V, давление Р и абсолютная температура Т массы газа m для идеального газа связаны известным уравнением Клайперона-Менделеева: PV=—RT, И где ц — молекулярный вес газа, R— универсальная газовая постоянная, Т — абсолютная температура газа6. Подставив значение PV в формулу (1.7) с учетом того, что для рассматриваемого элемента объема ДУ Р = Р3, a m = Aw , окончатель- но получим общее аналитическое выражение для скорости распространения звуко- вой волны в газах: с= №ТДт= 1^Г (1 8) V HP AV V н Aw где--= р — плотность газа. ДУ Выражение (1.8) можно записать в следующем виде: С = у[уВТ, (1.9) D R где В =-удельная газовая постоянная, зависящая от молекулярного веса газа. Н Из приведенных выше рассуждений, а также из выражений (1.8) и (1.9) следует общий вывод: скорость распространения звуковой волны (звука) зависит от температуры газа и его физических свойств. Используя полученные аналитические выражения (1.8) и (1.9), в качестве при- мера определим скорость звука в воздухе7 при температуре t = 20 °C, помня при этом, что данные формулы были выведены для идеальной воздушной среды: Iу I--- г- C = J—— = jycpBT = 71,383 • 286,5 • 293 = 341 м/с, V Н где: Под абсолютной температурой понимают температуру, которая отсчитывается по шкале Кель- вина, Т °К. В шкале Кельвина цена градуса оставлена такой же, как в шкале Цельсия, но за нуле- вую принята температура -273 °C. Нуль в этой шкале называется абсолютным нулем, такая шка- ла называется шкалой абсолютных температур. Связь между температурой t °C по шкале Цельсия и температурой Т °К следующая: Т = t + 273 . 7 Воздух по объему состоит из 78% азота, 21% кислорода и 1% других газов. 28 Часть I. Образование и распространение звука...
С 0 231 . у= -£•« —L—-1,383 (табл. 1.1); ср Cv 0,167 Ср и Cv — средние значения удельных теплоемкостей для составляющих воздуха (азота и кислорода, см. табл. 1.1): р 2 г • град кг • град С,Л'77+°-'”,О.,67..О- 2 кг • град R — универсальная газовая постоянная: « = 8,31 Д» =8,31 , ” (1 Д« = 1 моль град с • моль град с ц — молекулярный вес воздуха при t = 20 ° С : ц = 29 г/моль = 29 10"3 кг/моль ; D _ 8,31 103 м2 В — удельная газовая постоянная: В =------= 286,5 —-----; 29 с2 град Г = 20 + 273 = 293 ° К — абсолютная температура при t = 20 °C. Таблица 1.1. Величины удельных теплоемкостей для азота и кислорода Газ с кал р' г град с кал г • град <Je,| и* II У ср Азот 0,244 0,177 1,378 1,383 Кислород 0,218 0,157 1,388 Зависимость звуковой волны (звука) от температуры воздуха можно наглядно проиллюстрировать с помощью следующей известной аналитической зависимости, которая хорошо согласуется с (1.8) и (1.9): С = 331,3 y/l + a t м/с , (1.Ю) где а — коэффициент расширения газа (); t — температура воздуха в граду- сах Цельсия. При t = 0 °C С = 331,3 м/с; г = 15 °C, С = 340,3 м/с; / = 20 °C, С = 343,1 м/с. В заключение рассмотрим еще один интересный вопрос, касающийся распро- странения звуковой волны (звука) в газовой среде. Для этого воспользуемся из- вестной формулой для определения среднеквадратичной скорости молекул идеаль- /ЗЯТ _ С y/jRT 7Й /7 ного газа в виде vrn = I-. Возьмем соотношение — = -хА=--r- * отсюда Мн >/й '/зят Уз Глава 1. Физика образования и распространения звуковых волн 29
определим величину С как: С = vcpJ~ = Nvcp» где величина N = J- = const для данно- го газа. Определим величину N для воздуха: N 0,679 . Тогда С ~ 0,68vfp . Таким образом, скорость звука в идеальной воздушной среде составляет при- близительно 70% от средней молекулярной скорости молекул воздуха, т.е. получа- ется, что средняя скорость молекул в воздухе vcp выше, чем скорость звука. Это можно объяснить тем, что вектор скорости звука в продольной звуковой волне на- правлен в определенном направлении, а именно — в направлении распространения звуковой волны, а молекулы воздуха, даже при сжатии элемента объема, двигают- ся несколько хаотично. В результате, несмотря на сравнительно большую среднюю хаотическую скорость движения молекул vcp в промежутках между столкновения- ми и несмотря на то, что молекулы “нигде не задерживаются”, они продвигаются в направлении распространения звуковой волны медленнее, чем vcp, т.е. со скоро- стью звука С. 1.1.3. Жидкости В жидкостях положение частиц, как и в газах, не фиксировано. Молекулы жидкости совершают тепловые колебания около положения равновесия со средней частотой, близкой к частоте колебаний атомов в кристаллах твердых тел. По исте- чении времени эти положения равновесия смещаются на расстояние средней длины пробега молекул (порядка 10~s см). Эти перемещения совершаются не непрерывно, а скачкообразно. Продолжительность времени постоянства равновесного положе- ния молекулы уменьшается с ростом температуры. Постоянная (или переменная) внешняя сила F, действующая на жидкость, приводит к преимущественной на- правленности скачков частиц жидкости вдоль направления действия силы, и след- ствием этого является образование потока частиц вдоль направления действия силы, т.е. текучесть. Отсюда следует, что звуковая волна в жидкости является про- дольной волной. Целый ряд фактов свидетельствует о сходстве жидкостей с твер- дыми телами, и многие физические свойства жидкостей мало отличаются от свойств твердых тел. Жидкости отличаются сильным межмолекулярным взаимо- действием и вследствие этого — малой сжимаемостью, что объясняется появлением больших сил межмолекулярного отталкивания при незначительном уменьшении расстояния под действием возмущающей силы. Но, с другой стороны, жидкостям свойственны некоторые особенности, присущие газам: определенная хаотичность движения молекул в элементе объема, зависимость средней молекулярной скоро- сти и скорости распространения звуковой волны от температуры, процесс дефор- мации жидкости при распространении в ней звуковой волны также происходит адиабатически и т.д. Из приведенной далеко не полной характеристики жидкостей следует идентич- ность аналитических зависимостей для скорости распространения звуковых волн в жидкостях, твердых телах и газах, а именно: 30 Часть I. Образование и распространение звука...
C = xr = J—’ (1Л1> VP VflP где k — модуль сжатия жидкости; р — плотность жидкости, а = \/к — коэффици- ент сжимаемости. Коэффициент а (сжимаемость) при температуре t-const равен по абсолютному значению относительному уменьшению объема жидкости при уве- личении давления на единицу, а именно: 1 ДУ 1 ГдуА V\dPJ У ДР ДР< V J v 7 Для облегчения понимания аналитического выражения (1.12) рассмотрим сле- дующий пример. Определим скорость распространения звука С в воде, если извест- но, что при температуре г = 8 °C и при изменении давления на одну атмосферу (ДР = 1 атм) вода сжимается на величину 5 • 1(Г5 от своего первоначального объема ДУ (= 5 • 10“5). Подставив в формулу (1.11) исходные данные, получим: С = Р = J-др(—1 = J-^-105 — = = у/1 10‘ = 1414 м/с, \ap Vp I. ДУJ V103 5 V 5 1 где p = 1 г/см3 = 103 кг/m3 — плотность воды; д« . H кг тт , кг-м\ ДР = 1 ялш = 105 — = 105 —— 1 Я = 1 —— ; М С М V с J V 105 ----— —. ДУ 5 Скорость распространения звуковой волны в воде в пределах изменения темпе- ратуры t от 0 до 25 °C можно определить с достаточной степенью точности по анало- гии с воздухом (см. выражение 1.10) по следующей аналитической зависимости: С = 1390 + 3,3 t. (1.13) При 7 = 0 °C С = 1390 jw/c; при 7 = 15 °C С = 1440 м/с; при 7 = 20 °C С = 1456 м/с. В качестве примера в табл. 1.2 приведены скорости распространения звуковой волны (звука) в различных средах. Из таблицы следует, что скорость распространения звука в металлах выше при- близительно в 2-3 раза, чем в жидкостях, и приблизительно на порядок больше, чем в газах. Действительно, акустики на кораблях и на подводных лодках хорошо прослушивают интересующие их звуки и шумы через водную среду; мы можем Глава 1. Физика образования и распространения звуковых волн 31
услышать далеко идущий поезд не по воздуху, а приложив ухо к рельсу, и т.д. Из приведенных данных (см. таял. 1.2), а также из изложенных выше рассуждений и аналитических выражений для скорости распространения звуковой волны в раз- личных упругих средах можно сделать следуй щий ож>жцаи щий вывод: при прочих равных условиях (т.е. при одной и той же температуре и возмущающем давле- нии ) скорость звука будет выше там, где упругость среды больше, т.е. где меньше сжимаемость элемента объема. Несмотря на то что плотность металлов на 3-4 по- рядка выше, чем плотность газов, и в 4-5 раз выше, чем в жидкостях, все же ско- рость звука в металлах ж>лыпе за счет ж>лее совершенной (с точки зрения распро- странения звука) структуры металла. Таблица 1.2. Скорость звука в различных средах Среда р, г/ см3 при t ~ 20 °C С, м/с Твердые материалы Алюминий 2,7 5100 Сталь 7,8 5000 Медь 8,89 3600 Латунь 8,47 3400 Дерево 0,6-0,9 3000-4000 Пробка 0,22-0,26 500 Резина 0,95 35-70 Жидкости Вода 1 1456 Бензин 0,899 1200-1900 Спирт (этиловый) 0,791 1150 Ацетон 0,792 1190 Газы Воздух 1,29-10'3 344 Кислород 1,43 • 10’3 316 Водород 0,09 • 10-3 1269 Азот 1,251 • 10’3 337 32 Часть I. Образование и распространение звука...
1.2. Явления, возникающие при распространении звуковых волн В предыдущем разделе мы подробно рассмотрели физику образования звуковой волны в различных средах от одного источника звука на основе законов механики, теплоты и молекулярной физики, связали скорость распространения звуковой волны со свойствами среды. Однако звук, который мы слышим, — это сложное яв- ление. Звуковая волна, создающая давление на барабанную перепонку уха, на практике является результирующей звуковой волной от нескольких источников, звуковые волны которых накладываются друг на друга, отражаются, преломляют- ся и поглощаются на своем пути. Рассмотрим эти явления. 1.2.1. Интерференция Явление интерференции во времени базируется на известном принципе супер- позиции волн, смысл которого сводится к следующему: если в среде одновременно распространяется система п различных волн, то каждая из волн распространяется независимо от других. При этом результирующие скорость, смещение, ускорение каждой частицы среды равны векторным суммам соответствующих величин, обу- словленных каждой из волн порознь. Если, например, наложить две синусоидаль- ные волны 1 и 2 с различными амплитудами и длинами волн8 \ и Х2, то результи- рующая волна 3 получается в результате векторного суммирования смещений ве- личин и у2 обеих волн в каждой точке среды для данного момента времени t (рис. 1.1). В этом случае результирующая волна 3 уже не является синусоидальной. Рис. 1.1. Наложение двух волн с различными амплитудами и длинами волн 8 Длина волны X — это расстояние между двумя ближайшими точками среды по направлению распространения волны, для которых разность начальных фаз волны равна 2л . Длина периоди- ческой волны X всегда равняется периоду колебаний Т. Период колебаний Т — это время (в секундах), в течение которого совершается одно полное коле- бание. Обратная величина к периоду f = называется частотой колебаний, т.е. это число пол- ных колебаний (периодов) в одну секунду. Глава 1. Физика образования и распространения звуковых волн 33
Две волны 1 и 2 одинаковой частоты, амплитуды и фазы (т.е. одинакового на- чального смещения от начала координат в момент времени t = 0) дают при наложе- нии результирующую волну 3 той же частоты, но удвоенной амплитуды (рис. 1.2). Рис. 1.2. Сумма двух колебаний одинаковой частоты, амплитуды и фазы Две волны 1 и 2 равной частоты, имеющие разность фаз л, нейтрализуют (гасят) друг друга при одинаковых амплитудах (т.е. результирующей волны не будет) (рис. 1.3). Рис. 1.3. Сумма двух колебаний одинаковой частоты и амплитуды и разностью фаз п Итак, звуковым волнам присуще явление интерференции, т.е. усиление колеба- ний в одних точках пространства и ослабление колебаний в других точках в ре- зультате наложения двух или нескольких звуковых волн, приходящих в эти точки пространства. Когда мы слышим звуки разных, но близких по величине частот (мало отличающихся частот) сразу от двух источников, к нам приходят то гребни обеих звуковых волн, то гребень одной волны и впадина другой. В результате на- ложения двух волн звук то усиливается, то ослабевает, пока разность фаз невелика. Этот колебательный процесс с чередующимся нарастанием и убыванием амплиту- ды результирующей волны называют биением. На рис. 1.4 представлены два пе- риодических гармонических колебания 1 и 2 с разными, но близкими частотами / и /2 (/ < /2) и одинаковыми амплитудами П1ах = у2 1пах. 34 Часть I. Образование и распространение звука...
На этом же рисунке показано результирующее негармоническое колебание yp(t), являющееся суммой двух гармонических колебаний yx(t) и y2(t). Как видно из рис. 1.4, результирующее колебание yp(t) уже не имеет постоянной амплитуды: колебания то усиливаются, то ослабевают. При этом результирующая амплитуда УР периодически изменяется в пределах от |у, - у2 до |у, _ + у2 с час- тотой биения f6=\f2-fi\- Биения, надо заметить, достаточно хорошо различимы на слух. Явления интерференции и биения звуковых волн хорошо иллюстрируются на опыте с помощью трубки Квинке (рис. 1.5). Зуммер создает звук определенной частоты. Звуковые волны распространяются двумя путями по коленам трубки, после чего снова сходятся и дают интерференци- онные явления. Длину пути, проходимого одной из волн, можно регулировать с помощью подвижной части трубки. Стеклянный наконечник резинового шланга приставляется к уху. Звук будет отсутствовать при разности длин волн (путей), равной ^2» Наибольшая громкость получается соответственно при О, X, 2Х .... Эффект биения используется при настройке двух музыкальных тонов в унисон (например, при настройке гитары): настройку проводят до тех пор, пока Глава 1. Физика образования и распространения звуковых волн 35
биения перестают ощущаться. При этом степень различия частот двух тонов можно оценить по числу биений в секунду. Чем ниже частота биения, тем точнее настройка. наконечник звуковая резиновый шланг подвижная часть звуковая волна зуммер Рис. 1.5. Трубка Квинке 1.2.2. Отражение и преломление Если звуковая волна, распространяющаяся в некоторой среде 1, достигает гра- ницы раздела этой среды с другой средой 2, то возникают отраженная и прелом- ленная волны (рис. 1.6). Рис. 1.6. Отражение и преломление волн на границе двух сред 36 Часть I. Образование и распространение звука...
Отраженная волна распространяется от границы раздела в этой же среде 1, что и первичная (падающая) волна. Преломленная волна распространяется в среде 2. Звуковые волны подчиняются законам отражения и преломления. По закону от- ражения, отраженная волна (отраженный луч OL’) лежит в одной плоскости с па- дающей волной (падающим лучом OL) и нормалью к поверхности раздела сред, проведенной в точке падения О, при этом угол отражения а’ равен углу падения а (а’ = а ). По закону преломления, преломленный луч (OL") лежит в одной плоско- сти с падающим лучом OL и нормалью к поверхности раздела сред, проведенной в точке падения О. Отношение синуса угла падения а к синусу угла преломления р равно отношению скоростей звуковых волн в первой и второй средах Ct и С2 (закон Снеллиуса): sing _ С, sin р С2 Из закона преломления следует, что чем выше скорость звука в той или иной среде, тем больше угол преломления. Свойство отражения звуковой волны можно использовать на практике, например, для получения эффекта эха (отзвука). Эхо возникает при перпендикулярном отражении звуковой волны (звуковых лучей) от не- которого препятствия. При этом углы падения (а) и отражения (а’) будут равны 0. Ухо человека способно раздельно воспринять в течение секунды около 10 коротких звуков. Поэтому для возникновения эха отражающая поверхность должна быть удалена настолько, чтобы между моментом появления и моментом возврата одного звука прошло не менее 0,1 с. При скорости распространения звуковой волны в воз- духе С ~ 340 jw/c такое минимальное расстояние составляет около 17 метров. 1.2.3. Поглощение и рассеяние Энергия звуковой волны в процессе ее распространения поглощается средой. Этот эффект называют поглощением звуковых волн. Существование эффекта по- глощения обусловлено процессами теплообмена и межмолекулярного взаимодей- ствия в среде, точнее — внутренним трением и теплопроводностью. Под энергией звуковой волны следует понимать кинетическую и потенциальную энергию частиц (атомов и молекул) сжимаемого элемента объема упругой среды в направлении распространения звуковой волны. Кинетическая энергия частиц зависит от величины средней скорости молекул в этом объеме, плотности вещества (т.е. от количества и массы молекул в сжимаемом объеме), а также от температуры внутри сжимаемого элемента объема. По мере пе- редачи кинетической энергии от одного элемента объема к другому по ходу распро- странения звуковой волны часть тепла постепенно передается в окружающую среду (т.е. происходит нарушение условия адиабатического процесса, которое справед- ливо только для идеального газа), в результате чего кинетическая энергия волны уменьшается, и волна затухает (поглощается). Конечно же, кинетическая энергия элемента объема зависит также от степени сжатия первоначального объема эле- мента воздушной среды, т.е. от начального возмущающего давления. Глава 1. Физика образования и распространения звуковых волн 37
Потенциальная энергия — это энергия, зависящая от взаимного расположения молекул. В газах этой энергией пренебрегают из-за слабых молекулярных сил сце- пления. Таким образом, с учетом сказанного, энергию продольной плоской звуковой волны и\ , заключенной в сжимаемом объеме ДУ и распространяющейся в воз- душной среде, можно в общем виде выразить следующим образом: где р — плотность воздушной среды при ее равновесном (невозмущенном) состоя- нии; vcp — средняя скорость колебательного движения частиц (молекул) воздуха в объеме ДУ после его сжатия. Степень поглощения звуковой энергии при распространении звуковой волны в жидкостях и газах зависит, с одной стороны, от свойств среды, а с другой — от частоты звуковых колебаний. Чем выше частота звуковых колебаний, тем боль- ше хаотическая молекулярная скорость молекул в элементе сжимаемого объема, тем большее молекулярное рассеяние претерпевает на своем пути звуковая волна и тем на меньшее расстояние передаются звуковые колебания. Для уяснения явления поглощения звуковых волн можно воспользоваться из- вестным эмпирическим выражением для коэффициента поглощения звуковой вол- ны (звука) р , который характеризует относительную величину поглощаемой зву- ковой энергии, приходящейся на единицу длины (1м) распространения звуковой волны в свободной газовой и жидкостной средах, т.е. при отсутствии на пути рас- пространения звуковой волны звукопоглощающих преград: ?=0,1 4 t C-Cv ---т -Г| + ^ + К—£-- 2рСф CpCv (1.14) где со = 2л/ — циклическая (угловая) частота, рад 1с ; С — скорость распространения звуковой волны, м/с ; р —плотность среды, кг/м3 ; Т| — динамическая вязкость жидкости или газа (коэффициент внутреннего ч Нс трения), ——; м с, — вторая вязкость (так как £ « ц , примем £ = 0 ); , , кал к — коэффициент теплопроводности среды,---------; см-с- град 38 Часть I. Образование и распространение звука...
Ср и Cv — удельные теплоемкости среды соответственно при постоянном дав- кал лении и постоянном объеме,-------. град • г Для воздушной среды указанное уравнение можно записать как р=/2д. (2л)2 Г4 Cp-Cv} ----п + к—2--- 2рС\з' CpCv } где Д = 9 = const , т.е. постоянная величина для данной темпера- туры и при равновесном (невозмущенном) состоянии воздушной среды. Например, с2 для температуры г = 20 °C величина Д = 1,26-10"п—. Таким образом, коэффици- м ент поглощения звуковой волны в воздушной среде при прочих равных условиях пропорционален квадрату частоты звуковых колебаний и зависит от темпера- туры воздушной невозмущенной среды. Для примера рассчитаем коэффициент поглощения звуковой волны, если дано: температура воздуха г = 20 °C; со = 341 и /=54,3 Гц; С = 341 м/с; Т| = 18,1-10-6 -^ = 18,110^ —; Л=0,610’4 — = 0,6 10-2 ———; м м-с см-с-град м-с• град С = 0,231 • 103 ; Cv = 0,167 • 103 КаЛ ; р = 1,29 кг/м3. Тогда: р кг • град кг • град СО2 4 С,-С^ 3412 (4 18,1 0,6 64 9 , ----? -Т| + к—£ =--------г г + -Ц---------« 37-ю 9 м~!, 2рС\3 CpCv ) 2-1,29-34143 106 102 38577) т.е. при частоте /=54,3 Гц и температуре г = 20 °C доля поглощаемой звуковой энергии от полной звуковой энергии волны при прохождении волной одного метра воздушной среды будет приблизительно равна р==37-10"9. С помощью аналитиче- ской зависимости (1.14), варьируя частотой и температурой, можно рассчитать ве- личину р и качественно оценить влияние указанных параметров в отдельности и в различных сочетаниях на относительную величину поглощения звуковой энергии. Заметим, что в рассмотренном примере расчет р выполнен для частоты / = 54,3 Гц звуковой волны в воздухе. Эта частота взята для того, чтобы упростить расчет, так как в этом случае со= 2 л/ = 2л • 54,3 = 341 рад/с , что совпадает с числен- ным значением С = 341 м/с . Так как скорость звука С практически не зависит от частоты колебаний воздушной среды, то при дальнейших изменениях величины f будет меняться только величина со, а значение Д останется постоянной величиной. 9 Все величины, входящие в формулу для Д , берутся из соответствующих справочных таблиц для какой-то определенной температуры. Глава 1. Физика образования и распространения звуковых волн 39
Как можно видеть, коэффициент поглощения звуковой волны р в свободной воздушной среде при низких частотах пренебрежимо мал и его можно не учиты- вать при практических расчетах в свободной воздушной среде10. Так чем же обу- словлено затухание звуковой волны (звука) в свободной воздушной среде при низких частотах? Есть вторая (основная) причина — рассеяние звука, которое возникает в результате взаимодействия звуковой волны со встречающимися на ее пути многочисленными препятствиями (встречные потоки воздуха, завихрения, ветер). В результате столкновения с этими препятствиями звуковая волна как бы “рассыпается” на множество волн, которые распространяются во всевозможных направлениях. 1.2.4. Волновое движение в замкнутом объеме С отражением и поглощением звука тесно связано явление волнового движения в замкнутом объеме, когда волны отражаются то от одной, то от другой стенки по- мещения (потолка, пола). Отражения звуковых колебаний могут сильно влиять на конечное восприятие звука: они могут изменять окраску звука, насыщенность, глубину. Так, звук, идущий от источника, расположенного в закрытом помеще- нии, многократно ударяясь и отражаясь от стен помещения, воспринимается слу- шателем как звук, сопровождающийся специфическим гулом. Такой гул называет- ся реверберацией (от лат. “reverbero” — “отбрасываю”). Появление реверберации связано с тем, что звуковая волна, исходящая от источника звука, на пути к слу- шателю накладывается на многократно отраженные от стен и потому сдвинутые во времени копии самой себя (рис. 1.7). Теоретически, если бы стены, пол, потолок совсем не поглощали звуковые коле- бания и полностью отражали бы их, то реверберация (гул) нарастала бы бесконеч- но. Однако на практике из-за эффекта сильного поглощения при отражении звуко- вой волны от твердой стенки, а также ввиду того, что каждое отражение звуковой волны уменьшает переносимую волной энергию, время реверберации является ко- нечным, а громкость реверберации не поднимается выше некоторого значения. Временем реверберации называется время, в течение которого громкость зву- кового сигнала падает на 60 децибел относительно ее первоначального значения (о том, что такое децибел, см. приложение Б). При этом объемная плотность энер- гии звуковых волн уменьшается в 106раз по сравнению с ее первоначальным зна- чением. Время реверберации характеризует затухание звука в закрытых помеще- ниях после прекращения действия источника звука. Считается, что в акустическом отношении помещение можно считать наилучшим, если время реверберации в нем составляет 0,5-1,5 с. Если время реверберации находится в пределах 1,5-3 с, то помещение можно считать хорошим. Акустика помещения считается очень пло- хой, если время реверберации в нем превосходит 5 с. Как показывают опыты, сильное поглощение звуковой волны, в том числе и с низкими часто- тами, происходит при распространении звуковой волны в закрытых помещениях. 40 Часть I. Образование и распространение звука...
закрытое помещение Рис. 1.7. Диаграмма прохождения звуковой волны от источника к слушателю в закрытом помещении Отражения звука принято делить на ранние отражения и собственно ревербера- цию. Ранними отражениями называют повторения прямого звука, пришедшие к слушателю в течение первых 50 мс. Остальные отражения приходят к слушателю многократно наложенными друг на друга и составляют тот самый гул ревербера- ции. Ранние отражения являются особо важными для человеческого слуха в виду эффекта, известного как эффект Хааса11. Эффект Хааса заключается в том, что слуховая система человека определяет направление прихода звука по направлению прихода прямого звука, а не по его ранним отражениям. Ввиду разницы в физиче- ских свойствах различных материалов их отражающая способность разная. По этой причине, а также ввиду различий в конфигурации помещений, время, состав реверберации и количество ранних отражений в разных помещениях может сильно отличаться. Принято считать, что количество, время и сила ранних отражений не- сут информацию о геометрии помещения, а состав реверберации — о материале поверхностей. Эффект назван в честь немецкого ученого Гельмута Хааса (Helmut Haas), опубликовавшего в 1949 году результаты своих исследований о восприятии человеком задержанных во времени зву- ковых сигналов. Хаас опытным путем обнаружил целый ряд различных эффектов и явлений, ко- торые нашли свое применение в расчете, построении и моделировании акустических систем, уст- ройств и помещений. Глава 1. Физика образования и распространения звуковых волн 41
1.2.5. Дифракция Очень важное свойство звуковых волн — способность огибать малые препятст- вия. Это явление называют дифракцией звуковых волн. Суть этого явления заклю- чается в том, что плоская звуковая волна возбуждает у краев препятствия элемен- тарные волны, сходящиеся позади препятствия. Таким образом волна проникает в область геометрической тени. Степень огибания зависит от соотношения между длиной приходящей звуковой волны и размером стоящего на ее пути препятствия (или отверстия). Если размер препятствия намного больше длины волны, то звуко- вая волна отражается от такого препятствия. Если же размеры препятствия сопос- тавимы с длиной волны или меньше ее, то звуковая волна дифрагирует. С дифракцией звука мы сталкиваемся в повседневной жизни постоянно. Если бы дифракции звука не существовало, то мы бы не слышали, например, музыку, звучащую за углом дома, не смогли бы слышать разговор за закрытой дверью и т.д. 1.2.6. Вынужденные и собственные колебания, резонанс Рассмотрим еще одно явление, связанное с распространением звука в воздушной среде, — явление звукового резонанса. В общем случае, резонанс — это эффект резкого возрастания амплитуды вынужденных колебаний какой-то упругой систе- мы при близком приближении или полном совпадении частоты вынужденных ко- лебаний с собственной частотой этой системы. Вынужденные колебания системы вызываются действием на нее периодических внешних возмущающих сил. Вынужденные периодические колебания в упругой звуковой среде могут создавать любые тела, совершающие периодические механи- ческие колебания (мембрана, диффузор, струна и т.д.). Собственная частота некоторой системы — это частота свободного колебания этой системы. Свободными колебаниями называются такие колебания, которые возникают в упругой системе в результате какого-либо одноразового начального отклонения системы от состояния устойчивого равновесия. В частности, свободные колебания в воздушной среде можно создать путем импульса давления на элемент воздушной среды (удар по какому-либо предмету, короткий звуковой сигнал, хло- пок и т.д.). При этом свободные звуковые колебания упругой воздушной среды бу- дут периодическими затухающими колебаниями, т.е. колебаниями, в процессе ко- торых будут повторяться через промежутки времени так называемого условного периода12 убывающие по величине такие физические величины, как ускорение, скорость, звуковое давление, звуковая энергия, интенсивность (сила звука). Например, гитарная струна при ударе по ней начинает колебаться довольно про- должительное время, т.е. совершать свободные затухающие колебания. При этом воздушная среда вокруг колеблющейся струны начинает колебаться с частотой струны (собственно, благодаря этому мы и слышим звук гитары), т.е. совершать вынужденные колебания с частотой свободных колебаний струны. Аналогичное 12 Условным периодом затухающих колебаний называется промежуток времени между двумя по- следовательными состояниями системы, при которых колеблющаяся величина (параметр систе- мы) проходит через максимальное или минимальное значение. 42 Часть I. Образование и распространение звука...
явление происходит с камертоном. Собственная частота стандартного камертона является частотой ноты “ля” первой октавы (440 Гц). Удар по камертону застав- ляет его колебаться с этой частотой, что вызывает вынужденные колебания возду- ха вокруг него, в результате чего мы и слышим звук, соответствующий по высоте ноте “ля”. Вернемся к обсуждению резонанса. В качестве примера звукового резонанса рассмотрим водопроводную трубу, которая иногда внезапно начинает гудеть. Это явление объясняется тем, что поток воды внутри трубы бьет о ее стенки с силой, которая изменяется с некоторой периодичностью. Это вызывает вынужденные ко- лебания трубы. Сама труба (точнее, ее участок между крепежными скобами) сво- бодно висит в воздухе и представляет собой что-то вроде очень толстой струны. Этот кусок трубы, как и любой другой предмет, характеризуется некоторой собственной частотой. Если частота вызываемых потоком воды вынужденных колебаний трубы в некоторый момент времени начинает совпадать с собственной частотой колебания самой трубы, то возникает эффект резонанса, амплитуда колебаний трубы резко возрастает, в результате чего можно слышать довольно сильный гул. Явление резонанса следует отличать от эффекта усиления вынужденных коле- баний, возникающих при несовпадении частоты возмущающей силы и собственной частоты. Например, если поставить звучащий камертон на стол, то доска стола приходит в вынужденные колебания и звук усиливается, но это объясняется про- стым увеличением площади колеблющейся поверхности, а не совпадением частот. А вот если камертон поставить на специальный резонаторный ящик (резонатор), длина которого равна четверти длины звуковой волны, создаваемой камертоном, то слышимость звука камертона улучшается из-за резонанса в воздушной среде. Рассмотрим это явление подробно с учетом того обстоятельства, что длина резона- торного ящика равна четверти длины звуковой волны, создаваемой камертоном. Но сначала нам нужно обратиться к понятию стоячей волны и ее основным пара- метрам. Стоячая звуковая волна возникает в результате наложения двух одинаковых бегущих звуковых волн, распространяющихся во взаимно противоположных на- правлениях и имеющих одинаковые параметры (рис. 1.8). Возникновение стоячих волн (т.е. специфического колебательного движения воздушной среды) является частным случаем явления интерференции волн. Плоская продольная стоячая волна возникает, например, при наложении па- дающей и отраженной плоских волн, если углы падения и отражения равны нулю, а в точке отражения волны имеют место одинаковые или противоположные фазы. При этом отражение должно происходить от среды с очень большим или, наоборот, с очень малым волновым сопротивлением, т.е. или pjC, » р2С2, или р2С2 » р,С| , где pjCj и р2С2 — волновые сопротивления соответственно среды 1 и среды 2. Точки нулевых значений (узлы) стоячей волны находятся постоянно в состоянии покоя. * 13 В акустике октава — интервал между двумя частотами и f2 , логарифм отношения которых при основании 2, т.е. log2(/2/Л) > равен единице, что соответствует отношению верхней гранич- ной частоты к нижней граничной частоте, равному двум f2/ f\ = 2 . Глава 1. Физика образования и распространения звуковых волн 43
Все частицы среды в стоячей волне, находящиеся между двумя соседними узлами, одновременно приходят в положения равновесия (на оси абсцисс), колеблются в одной и той же фазе, но с разными максимальными смещениями от положения равновесия. Посредине между узлами находятся участки наиболее интенсивного движения — пучности смещения. Расстояние между соседними узлами Хст назы- вается длиной стоячей волны: = % » гДе — длина бегущей звуковой волны. кт Расстояние между соседними узлом и пучностью равно —. 2 4 Рис. 1.8. Возникновение стоячей волны как суммы двух бегущих волн Стоячие волны могут образовываться в трубах (трубках) при движении в них цилиндрического столба газа (воздуха). Трубки могут быть: с обоими открытыми концами, с одним закрытым концом и с обоими закрытыми концами, но с отвер- стием на боковой поверхности 4. Принципиальное их отличие заключается в том, 14 14 Примеры труб, в которых образуются стоячие звуковые волны: открытые и закрытые органные трубы, язычковые трубы (кларнет, гобой, фагот), резонаторные ящики и др. 44 Часть I. Образование и распространение звука...
что на концах открытой с обеих сторон трубки, а также возле отверстия (щели) час- тицы воздуха могут свободно колебаться и в этих местах образуются пучности смещения (движения), в то время как закрытый конец трубки представляет собой нечто вроде зажима (узла) — воздух здесь двигаться не может. Собственная частота „ тС колебании для открытой трубки составляет fc =-, где т = 1, 2, 3, ... — порядок 2L гармоники собственной частоты звуковой волны в воздухе; L — длина трубки; С — гл а » а г (2m-V)C скорость звука. Собственная частота для закрытой трубки составляет fc = --— . 4L Вернемся к рассмотрению примера с камертоном, установленным на резонатор- ном ящике. При ударе камертоном собственная частота камертона возбуждает в С воздушной среде вынужденные колебания с частотой fe = —, где \ — длина зву- к ковой волны. Предположим, что длина резонаторного ящика составляет Сам резонаторный ящик представляет собой некое подобие описанной выше за- крытой трубки с отверстием посредине. Таким образом, воздушный столб внутри резонаторного ящика имеет основную собственную частоту fc (для ти=1), которая определяется как fc = [(2m-l)C]/(4L) = C/(4L) = C/(4(Xe/4)) = C/Xe. В результате совпадения частоты звуковой волны fe, создаваемой камертоном, с собственной частотой fc воздушного столба внутри ящика (т.е. в результате резонанса) интен- сивность слышимого нами звука увеличивается. Собственную частоту резонатора (или, точнее, воздушного столба внутри резо- натора) называют резонансной частотой. Поскольку собственных частот может быть несколько, резонансных частот тоже может быть несколько. Резонансные час- тоты называют по старшинству: первая — самая низкая, затем вторая, третья и т.д. Снова возвращаясь к примеру с резонаторным ящиком камертона, давайте за- дадимся вопросом “Почему резонатор камертона — это довольно простой ящик не- замысловатой формы, в то время как корпуса гитары, скрипки и других музы- кальных инструментов представляют собой нечто намного более сложное?”. Дело в том, что если резонатор камертона должен усиливать звук только одной частоты (частоты звуковой волны, создаваемой камертоном), то резонатор, например, гита- ры должен усиливать звуки самых разных частот. Поэтому корпус музыкального инструмента устроен так, что воздушный столб внутри него в разных направлениях имеет разную длину и, таким образом, множество различных собственных частот. А значит, такой корпус способен создавать резонанс для звуков самых разных час- тот, что и требуется от корпуса музыкального инструмента. Резонанс звука может быть желательным и нежелательным явлением. Напри- мер, телефонные и микрофонные мембраны могут колебаться на различных выну- ждающих частотах, но при этом резонанса стараются избежать (резонанс должен лежать вне желаемой области частот, иначе резонансные частоты будут воспроиз- водиться чрезмерно громко). А вот в акустике при прослушивании шумов, созда- ваемых различными объектами, при настройке различной радиоаппаратуры, при Глава 1. Физика образования и распространения звуковых волн 45
выборе нужной частоты в радиоприемнике и т.д. явление резонанса создается спе- циально. В конце книги приводится казус, связанный с возникновением механического резонанса (см. приложение Б). 1.2.7. Эффект Доплера Рассмотрим еще одно явление, связанное с распространением звуковых волн — эффект Доплера15. До сих пор предполагалось, что источник звуковой волны и ее приемник неподвижны по отношению к среде, в которой происходит распростра- нение звуковых колебаний. Своеобразные эффекты, проявляющиеся при взаимном перемещении относительно неподвижной среды источника и приемника звуковых волн, впервые обнаружил Доплер в 1842 году. Он обратил внимание на то обстоя- тельство, что при перемещении только лишь источника или только лишь приемни- ка или при одновременном перемещении и источника, и приемника относительно среды, в которой распространяется звуковая волна, частота колебаний, восприни- маемая приемником, изменяется. Зависимость частоты колебаний, воспринимае- мых приемником, от скоростей движения источника волн и приемника по отноше- нию к среде, в которой распространяется звуковая волна, была названа эффектом Доплера. Наглядно проиллюстрировать эффект Доплера можно с помощью простейшего примера, представленного на рис. 1.9. Рис. 1.9. Иллюстрация эффекта Доплера 15 Кристиан Доплер (Christian Doppler, 1803-1853) — австрийский физик и астроном, член Вен- ской АН. 46 Часть I. Образование и распространение звука...
Наверное, все когда-нибудь замечали, что звук мотора приближающегося авто- мобиля кажется нарастающим по высоте, в то время как высота звука, издаваемого мотором удаляющегося автомобиля, наоборот, — падающей. Этот пример и явля- ется простейшей демонстрацией эффекта Доплера. В основе эффекта Доплера лежит принцип независимости движений, который был упомянут при рассмотрении явления интерференции. Согласно принципу не- зависимости движений, звуковая волна, вышедшая из источника, распространяет- ся в звуковой среде совершенно независимо от движения источника и приемника. Источник и приемник могут двигаться относительно распространяющихся в среде звуковых колебаний в любых направлениях, в частности — “надвигаться” или “убегать” от движущейся звуковой волны, при этом их скорости должны векторно складываться со скоростью звуковой волны по принципу суперпозиции. Почему же подобные взаимные перемещения приводят к изменению воспринимаемой прием- ником частоты звуковых колебаний по сравнению с той частотой, которую он вос- принимает, будучи неподвижным относительно неподвижного источника? Для то- го чтобы понять это явление, сделаем два важных замечания. Первое касается связи длины волны X, частоты колебаний f и скорости распро- странения в среде звуковой волны (звука) С. Эта связь представляет собой следую- щую зависимость: с=ут=\ f, где Т — период колебаний. Как мы уже говорили, для газовой среды, в частности воздушной среды, С = Х f = const, т.е. величина С не зависит ни от длины волны X, ни от частоты колебаний f, а зависит только лишь от свойств самой среды. Отсюда следует, что с изменением частоты /, т.е. с изменением числа периодов в се- кунду, или, что одно и то же, числа длин волн в секунду (так как X = Т ), длина вол- ны X должна изменяться обратно пропорционально частоте. Только в этом случае будет сохраняться постоянство скорости распространения звука (С = const). И второе замечание: наблюдатель (приемник) определяет частоту колебаний звуковой волны как число длин волн X, которое приходит к нему за единицу вре- мени. Теперь с учетом этих замечаний рассмотрим эффект Доплера. Предположим, что в воздушной среде расположены источник звука И и приемник П (наблюда- тель). Предположим также, что источник звука И генерирует звуковую волну с не- которой фиксированной длиной волны Хи (параметры, относящиеся к источнику И, будем обозначать индексом “и”, а параметры, относящиеся к приемнику П — индексом “п”). Рассмотрим различные варианты взаимодействия Пи И. 1. П и И неподвижны в пространстве. В этом случае воспринимаемая приемни- ком частота звука f' , т.е. f' = fu. 2. Предположим теперь, что П движется в пространстве навстречу неподвиж- ному источнику И (против направления звуковой волны) со скоростью Vn . В этом случае для приемника П скорость распространения звуковой волны, Глава 1. Физика образования и распространения звуковых волн 47
выпущенной И, теперь равна С + Vn (поскольку С — собственная неизменная скорость звука в пространстве, Vn — собственная скорость приемника). В та- ж C + V ком случае воспринимаемая П частота звука составит fn =—-—т.е. К fn > fu • Определим, во сколько раз увеличилась частота f” по сравнению с А' f’ C + V„ f' ~ с ’ отсюда ( V у; =/; i+^lI J n J И I I Если приемник П (наблюдатель) будет удаляться от источника И (т.е. пере- мещаться по направлению распространения звуковой волны), то регистри- руемая П частота будет уменьшаться. В этом случае две последние формулы примут такой вид: fn =с~уп f’„ ~ с ’ . , ( V А А = А • \ / 3. Теперь рассмотрим случай, когда источник И, не меняя частоты испускае- мых колебаний, будет двигаться навстречу неподвижному приемнику П со скоростью Уи . В этом случае П будет воспринимать большее число волн в единицу времени (большую частоту), чем в случае, когда П и И неподвижны. Однако причина увеличения частоты здесь иная. При приближении источ- ника И к неподвижному приемнику П уменьшается расстояние между ними на величину Д, но при этом частота испускаемых И колебаний остается прежней — fu, т.е. число длин волн, поместившихся в отрезке среды между П и И, остается неизменной. Это возможно только в случае изменения длины распространяющейся волны, которая действительно уменьшается пропор- ционально увеличению скорости движения источника И в пространстве. Таким образом, длина волны V , воспринимаемая приемником, оказывает- ся меньшей, чем длина волны Хи, испускаемая источником, а значит, и вос- принимаемая приемником частота // выше, чем частота от источника fu: Г=С_=_С_=_с/, = _с_ " х; х„-д х„/„-да Лс-У„’ 48 Часть I. Образование и распространение звука...
где Х* = Хм - Д , Vu — скорость источника звука в среде. Естественно, при уда- лении И от приемника с некоторой положительной скоростью V предыду- щая формула остается в силе, но со знаком “плюс” в знаменателе. Итак, мы показали, что при взаимном сближении источника и наблюдателя из- меряемая приемником (в любых вариантах) частота излучаемых источником зву- ковых колебаний возрастает, а при удалении — уменьшается. Для полноты картины заметим, что рассмотренные выше примеры являются частным случаем, поскольку они описывают эффект Доплера, когда источник и приемник двигаются только по оси распространения звуковых колебаний (т.е. когда угол между векторами скорости звука и скорости движения приемника и источника равен нулю). В общем случае, когда скорости распространения звука, движения источника и приемника звука не совпадают по направлению, справедлива следующая общая аналитическая зависи- мость: ( V 1 + — COS0„ С f = f z----------, Jn Ju ( \J X ’ 1 + — COS0„ V с) где 0И и 0М — углы, образуемые соответственно векторами Vu и Vn с вектором, со- единяющим приемник волн с их источником. Эффект Доплера используется в самых различных отраслях человеческой дея- тельности для измерения скорости объектов на расстоянии. Так, например, в ме- дицине с помощью ультразвука (высокочастотных звуковых колебаний) измеряют скорость прохождения крови по сосудам. Принцип действия устройства, осуществ- ляющего такое измерение, заключается в следующем: источник ультразвука испускает ультразвуковую волну, которая, встречаясь в крови с эритроцитом, уда- ряется о него и отражается в обратном направлении, после чего улавливается дат- чиком. По разнице длин выпущенной и пришедшей волн можно определить скорость движения эритроцитов, а значит, и скорость прохождения крови. На ана- логичном принципе действия основаны и самые различные средства радиолокации. Глава 1. Физика образования и распространения звуковых волн 49

Глава 2 Математическое представление звуковой волны, гармонический и спектральный анализ 2.1. Уравнение звуковой волны В предыдущей главе мы подробно рассматривали и анализировали физику обра- зования и распространения звуковых волн (звука) в различных средах, увязывая эти вопросы только со свойствами среды, не касаясь математической интерпрета- ции звуковой волны. Восполним здесь этот пробел, но начнем с определений и по- нятий, общих для вопросов, вынесенных в заголовок этой главы. Итак, звуковые (или любые другие) колебания называются периодическими, если значения физических величин, изменяющихся в процессе колебаний, повто- ряются через равные промежутки времени, а именно через период колебания Т. За это время совершается одно полное колебание. В непериодических звуковых ко- лебаниях отсутствует указанное выше понятие периода, т.е. отсутствует периоди- ческая повторяемость физических величин, изменяющихся в процессе колебания. Примером периодического звукового колебания может служить приятно воспри- нимаемый на слух музыкальный звук. К непериодическим звуковым колебаниям относятся различные шумы и многие другие природные звуки. Простейшим видом периодических колебаний являются синусоидальные (или гармонические) колеба- ния, которые описываются математически с помощью следующего уравнения: y(z) = Asin(coz + ф), где y(t) — условное обозначение физической величины, которая изменяется в функции времени по синусоидальному закону; А — амплитуда колебания, т.е. максимальное значение функцииy(t)\ 2л со = 2nf = — угловая (циклическая) частота колебаний; f — частота колебаний;
ф — начальная фаза колебаний, т.е. сдвиг по оси абсцисс от начала коорди- нат функции y(t) в момент t = 0. Под понятием спектра звукового сигнала (звуковой волны) следует понимать совокупность составляющих синусоидальных звуковых волн, в результате нало- жения которых получается исходная результирующая звуковая волна. Совокуп- ность (набор) значений амплитуд и частот составляющих синусоидальных волн на- зывается соответственно спектром амплитуд и спектром частот. При выводе уравнения звуковой волны рассмотрим колебания воздушной сре- ды, в которой источником возмущения является камертон. Как известно, колеб- лющийся (звучащий) камертон возбуждает в воздушной среде почти чистую сину- соидальную продольную звуковую волну (такую волну называют простым или чис- тым тоном). Пусть частица воздушной среды, находящаяся в начале отсчета про- странства (т.е. частица, находящаяся возле колеблющейся пластины камертона в точке пространства х = 0) в момент времени t — О начинает колебательное движение в направлении распространения продольной звуковой волны по закону (2.1): y(t) = Asin(cor) = Asin —t (2.1) где y(t) — величина смещения по оси ординат от нулевого значения (х = 0) в зави- симости от времени t. Эта частица, как и все последующие частицы (точки) воз- душной среды, придет в колебательное движение около своего положения равнове- сия в направлении распространения звуковой волны по синусоидальному закону. Последующие частицы будут начинать свои колебания на Дг секунд позже в зави- симости от удаленности частицы от начала координат по оси абсцисс (расстояние х). Этот промежуток времени можно определить как где С — скорость распространения звуковой волны в воздушной среде. Тогда вели- чину смещения у для любой точки среды в направлении распространения звуковой волны можно выразить как y(t) = Asin[co(r-Ar)] = Asin со г- — Учитывая, что C-Xf =— и /V =— , это уравнение можно записать как л . _ [ t х = Asin 2л------- IT X (2.2) где X — длина звуковой волны. 52 Часть I. Образование и распространение звука...
Полученное уравнение (2.2) называется уравнением звуковой волны и описыва- ет колебания всех частиц (точек) звуковой волны, расположенных на любых рас- стояниях х по отношению к начальной точке. При А/ = 0 (т.е. х = 0) получим урав- нение (2.1) для начальной частицы (точки) воздушной среды. Используя уравнения звуковой волны, покажем, как можно математически смоделировать (описать) и проанализировать уже рассмотренные нами такие явле- ния интерференции звуковых волн, как образование стоячих волн, исчезновение результирующей звуковой волны и т.д. Рассмотрим самый простой случай, а имен- но — спектр звукового сигнала, состоящий из двух синусоидальных волн. Пример 1 Интерференция двух одинаковых плоских продольных звуковых волн, бегущих в противоположных направлениях, т.е. навстречу друг другу. В этом случае урав- нения звуковых волн будут отличаться только знаками координат х, а именно: если то ^(0 = Asin y2(r) = Asin со2 Так как А1=А2=А и со, = со2 = со, то получаем уРЮ = У1(0 + У2(0 = Asin + Asin со z + — I С Преобразуем это уравнение с учетом того, что . О о . Г а + Р^ («~Р sina + sinp = 2sin -- cos -- I 2 J I 2 где a = co r--- I c p = col t + — I и cos(-0) = cos(0). В результате преобразования получим ( X \ [ X ] ( X ]( t } у (z) = 2Acos со— sin(coz) = 2Acos 2л;— sin(coz) = 2Acos 2л— sin 2л— . v C J \. X J \ к) \ T j (2.3) Здесь уместно напомнить, что множитель, стоящий перед синусоидальной функцией, является амплитудой данной синусоидальной функции (обозначим ее I X 1 как Ар). Тогда Ap=2Acos 2л— . На рис. 2.1 показаны графики звуковой волны, описываемой функцией yp(t), в разные моменты времени rp t2, t3, t4 и t5. Глава 2. Математическое представление звуковой волны... 53
Рис. 2.1. График стоячей волны в моменты времени tJt t2, t3, t4 и ts Проанализируем полученное уравнение (2.3). Полученная результирующая звуковая волна yp(f) не является бегущей (перемещающейся) волной, так как она не перемещается, а лишь колеблется в пространстве; это уравнение является урав- нением уже рассмотренной нами в разделе 1.2.6 стоячей волны. Чем же отличается уравнение стоячей волны от общего уравнения волны (2.2), другими словами, в чем же особенность этого колебательного процесса? Прежде всего, из уравнения (2.3) следует, что не все точки среды совершают колебание: в местах пространства, удов- летворяющих условию * = %, 3%, 5^/ и т.д., амплитуды колебаний равны нулю (в узлах стоячей волны); расстояние между соседними узлами, называемое длиной стоячей волны (Хст), равно половине длины бегущей волны, т.е. = % ; между двумя узлами лежат точки (пучности), которые колеблются с наибольшей ампли- тудой, равной 2А; при г = 0, — наступает такой момент, когда все точки стоячей волны одновременно проходят положение равновесия (все точки находятся на оси абсцисс), т.е. оказываются неподвижными. Все перечисленные особенности стоячей волны отличают ее от бегущей волны. К этому можно добавить еще два об- стоятельства: в бегущей звуковой волне максимумы и минимумы волны в каждое следующее мгновение перемещаются в новые места по ходу ее распространения за счет передачи этой волной энергии из одной точки в другую. В стоячей волне пере- дачи энергии нет. При колебательном процессе она только преобразуется из кине- тической энергии (все точки проходят положение равновесия) в потенциальную энергию (в положении максимального отклонения). 54 Часть I. Образование и распространение звука...
Пример 2 Две синусоидальные звуковые волны с одинаковыми амплитудами Д = А^ = А и частотой колебания cty = со2 = со сдвинуты по фазе на угол ср. Определим аналитическое выражение для результирующей звуковой волны и проанализируем явление ин- терференции для этого случая. В рассматриваемом случае уравнения для первой и второй волн запишутся как = Asin y2(t) = Asin Поскольку две продольные звуковые волны распространяются в одном направ- лении, то результирующую волну можно записать как Ур(0 = У1(0 + У2(0 = А8т + Asin col Г + —1 + Ф . Преобразуем это равенство по аналогии с предыдущим примером и в результате получим I ф I = 2Acos — sin I 2 J Из последнего уравнения следует, что результирующая звуковая волна также будет бегущей синусоидальной (гармонической) волной с амплитудой колебания Ар = 2 A cos I I. Проанализируем полученное уравнение для различных углов ср: при угле сдвига по фазе ф = 0 (cos 0 = 1) yp(r) = 2Asin т.е. результирующая звуковая волна будет иметь ту же частоту, что и ее состав- ляющие, но удвоенную амплитуду; при угле ф = л получим Г я ] yp(r) = 2Acosl — Isin = 0, в этом случае две волны, у2 и у2, уничтожают (гасят) друг друга; Глава 2. Математическое представление звуковой волны... 55
при 0 < ф < п в рассматриваемом уравнении амплитуда результирующей волны 2 будет принимать значения 0< Ар < 2 А , в частности при ф = — п (120 градусов) амплитуда Ар=А. 2.2. Основные понятия гармонического анализа Прежде чем непосредственно перейти к рассмотрению указанной темы, решим следующую задачу. Определить аналитическое выражение и график результирую- щей звуковой волны, если ее спектр состоит из следующих двух плоских звуковых волн: y1(r) = B1sin y2(r) = B2sin при условии, что BjB2 =3 , со2/со1 = 3 и начальная фаза ф = 0. Эта задача решается путем сложения двух гармонических колебаний с разными частотами. Решим ее графоаналитическим способом, предварительно записав приведенные уравнения (с учетом того, что В2=-В( 2 3 ' и со2 = 3cOj) в следующем виде (аналогично уравне- нию (2.2)): _ I t X 2л-------- 1?] К (0 = ^841 J'J(O=ySin в. • —sin 3 о [ t X 3-2л-------- 1т; К Произведем вычисления в относительных единицах (т.е. приняв Вх =1 и 7] =1) для первой точки (частицы) звуковой волны (т.е. для х =0). Результаты вычисле- ний представлены ниже. По этим данным построим график в относительных единицах, описывающий результирующее колебание первой точки (частицы) звуковой волны около своего положения равновесия (рис. 2.2). Любая другая точка звуковой волны, находящаяся на расстоянии х от начала координат (в частности, точка А, соответствующая х = = 2л), будет совершать ко- лебания аналогично первой точке, но со сдвигом во времени At = х/С . 56 Часть I. Образование и распространение звука...
Рис. 2.2. График результирующего колебания первой точки звуковой волны (х=0)
Из графика видно, что два гармонических колебания (две синусоиды) с соотно- шением частот co2/cOj =3 при наложении дали результирующее периодическое не- синусоидальное колебание с частотой (Oj (основной частотой) и с периодом Т2 (основным периодом колебания). Таким образом, полученную результирующую функцию на рис. 2.2 можно записать как В, 1 y(r) = y1(r) + y2(r) = B1sinco1r + -^-sin3co1r = l sincor +—sin3cor, (2.4) где yp(t) = y(t) — результирующее смещение первой точки (частицы) воздушной среды в функции времени в процессе ее колебания около положения равнове- сия в направлении распространения звуковой волны со скоростью С; CDj = со, со2 = 3(0j = 3со, =1, В2 =^. Этот пример был приведен в качестве иллюстрации основного положения гар- монического анализа, суть которого сводится к следующему: любое периодическое колебание с частотой со можно представить в виде суммы гармонических коле- баний, и наоборот, зная параметры отдельных гармоник (амплитуду, частоту и начальную фазу), можно с помощью их тригонометрического суммирования полу- чить (или приближенно смоделировать) результирующее колебание. Другими словами, любую сложную периодическую функцию можно разложить в тригоно- метрический гармонический ряд (называемый рядом Фурье) и анализировать эту функцию при помощи гармонического анализа, т.е. анализа гармоник, состав- ляющих эту результирующую функцию. В общем случае ряд Фурье1 для временной периодической функции у(t) выгля- дит следующим образом: у(г)« 4- а{ coscor 4- а2 cos 2сог 4-... 4- av cos vcm 4-... + +bx sin cor + b2 sin 2см 4-... 4- bv sin vcor 4-.. . или y(z) = —+ ^(avcosvcof+/>vsinv®z), (2.5) 2 v=i Назван в честь французского математика Жана Фурье (Jean Baptiste Joseph Fourie, 1768-1830). В такой записи ряда Фурье начальная фаза ф учтена при конструировании данного вида ряда Фурье. Ниже мы приведем также другую форму записи ряда Фурье с явно выраженной начальной фазой тригонометрических составляющих ряда. 58 Часть I. Образование и распространение звука...
где а0 — постоянный коэффициент с нулевой частотой, т.е. это величина сдвига функции у(t) по оси ординат при t = 0; коэффициент а0 рассчитывается по 2 т формуле а0 = — jy(t)dt; * о av, bv — коэффициенты ряда Фурье, т.е. амплитуды соответствующих гар- моник (где v = l, 2, 3,... — гармоники ряда Фурье). Коэффициенты рассчи- тываются по формулам av = — jy(r)cosvcorJr, bv = — jy(r)sinvcorJr. Г о T о Вернемся к рассмотренному выше примеру. Разложим нашу результирующую функцию у(О = У1(О + у2(О в РЯД Фурье, для чего предварительно определим коэф- фициенты этого ряда как 2 2г ~ 1 аа = — |[У|(0 + Уг (0] = — J 1 • sin (0Z + -sin Зиг т о т 0L з dt, о oL av = — j[y1(0 + y2(0]cOSVCOtafr =— j l-sincor+-sin3coz cosvwtdt, T о T oL 3 _ 2 2r' 1~ Z?v = y f[yi(O + y2W]sinvcofcfr =y j 1 sin coz +-sin Зои sinvcozdz . OL О Расчеты коэффициентов ряда Фурье показывают следующее: aQ=ax=... = av=Q , ^=i, z?2=o, ьъ=уу Z>4=0, 65=0, .... После подстановки полученных коэффициентов в общее выражение ряда (2.5) для рассматриваемой результирующей функции получим следующий ряд Фурье: /ч • 1 . о y(z) = sin coz +—sin 3coz. Как можно видеть, полученный ряд Фурье для функции y(t) совпадает с перво- начальным видом (2.4) этой функции. Из этого можно сделать следующий общий вывод: выражение ряда Фурье для функции, составленной из отдельных тригоно- метрических составляющих ряда, совпадает с выражением этой функции. Сделаем еще несколько выводов из рассмотренного примера. Сумма гармониче- ских колебаний с периодами 7J, -^7], ..., —7J (где — Тх = TV — период v -й гар- моники) дает результирующее колебание с периодом Т2. Это же правило относится Глава 2. Математическое представление звуковой волны... 59
и к частотам со , а именно: сумма любого числа гармонических колебаний с часто- тами, кратными со,, т.е. сор 2сор Зсор vco, (vco,=cov — угловая частота v-й гармоники), дает результирующее колебание с частотой со,. Угловая частота СЦ = 2/gfj называется основной частотой или основной гармоникой. Частоты со2=2сор со3 =Зсо,, cov=vco, — это обертоны или просто гармоники (говорят, “вторая гармоника”, “третья гармоника” и т.д.). Как уже указывалось выше, представление какой-то функции y(t) в виде сум- мы гармонических колебаний называется разложением функции в спектр. Под спектром функции y(t) следует понимать данные о частотах (частотный спектр), амплитудах (амплитудный спектр) и начальных фазах (спектр начальных фаз). Амплитуда v -й составляющей спектра определяется выражением \ +Ь* ; фаза v-й спектральной составляющей определяется выражением <bv=arctg—. С bv учетом амплитуды Д, и фазы Фу спектральных составляющих формулу ряда Фу- рье (2.5) можно переписать в альтернативном виде: y(t)»+ д sin(cw + Ф,) + Д sin(2cor + Ф2) + ...+ Д sin(vcw + Фу) +... = = -у + £( л sin vcw + Фу). 2 v=i Спектр звукового сигнала является одним из важнейших инструментов анализа и обработки звука. Так как на практике в подавляющем большинстве случаев приходится иметь дело со сложными звуковыми сигналами, которые невозможно описать и проана- лизировать с помощью какой-либо математической функции или аналитического выражения, такой сигнал представляется для его анализа либо в виде осцилло- граммы, либо в виде спектрограммы (см. раздел 2.6). На практике регистрация звуковых колебаний, их разложение на гармонические составляющие и их анализ осуществляются с помощью различных типов анализаторов. Принцип действия самого простого анализатора следующий. Входной звуковой сигнал (колебания воздуха, преобразованные в электрический сигнал) усиливается и попадает в уст- ройство, состоящее из большого числа фильтров, каждый из которых пропускает определенную полосу частот. Выделенная фильтром часть спектра звукового сиг- нала через усилитель подается на вход осциллографа, который графически ото- бражает входной сигнал в функции времени (осциллограмма). Звуковой сигнал, будучи поданным на вход спектрометра, отображается в виде спектрограммы на экране прибора, что позволяет визуально анализировать его спектральный состав без необходимости проведения каких-либо математических расчетов. Подытоживая сказанное, попробуем кратко ответить на вопрос “Зачем нужен гармонический анализ звуковых сигналов?”. Дело в том, что качество музыкального (и немузыкального) звука зависит от состава его частотного спектра и правильного выбора пропорций частот, входящих в этот спектр. Другими словами, упомянутое 60 Часть I. Образование и распространение звука...
“качество” определяется, во-первых, относительным количеством различных гар- моник в спектре звука, а во-вторых, относительными значениями коэффициентов ряда Фурье, которые указывают, с “каким весом” каждая гармоника входит в об- щее колебание (т.е. в результирующую функцию). Считается, что из неэлектрон- ных средств и устройств только камертон может обеспечить практически чистый тон. Все музыкальные и немузыкальные звуки, не говоря уже о звуковых шумах, имеют широкий частотный спектр . Даже один и тот же музыкальный тон, взятый на разных инструментах, будет иметь одну и ту же основную частоту, но разные частотные спектры, т.е. разный тембр. Тембровая окраска звука определяется рас- пределением интенсивности обертонов (высших гармоник). Всем хорошо извест- но, что чем сложнее спектр, тем богаче тембр звука в музыкальном отношении. Сегодня существует мдого разнообразных электронных музыкальных инструмен- тов, в которых, благодаря использованию осцилляторов (устройств, генерирую- щих чистые гармонические колебания), усилителей звука и других специальных преобразователей, смешивают гармоники в любой желаемой пропорции и тем са- мым создают звуки различного качества (синтез звука). Гармонический анализ различных шумов имеет большое практическое значение (особенно это касается производства и специальной техники, где шумы просто не- допустимы, например подводные лодки, авиация и т.д.), так как по частотному и амплитудному спектрам устанавливают причины шума, чтобы затем устранить их полностью или ослабить до допустимых норм; анализ шумовых характеристик приборов и механизмов позволяет обнаруживать и устранять неполадки в них и т.д. 2.3. Гармонический анализ сложных непериодических функций В предыдущем разделе на простейшем примере была сделана попытка объяс- нить “на пальцах”, что представляет собой гармонический анализ, его место и назначение в теории и практике звука. В этом разделе мы чуть глубже коснемся рассмотрения техники гармонического анализа с тем, чтобы перейти затем к об- суждению вопросов его практического применения при анализе реальных звуко- вых сигналов. Для удобства последующего изложения материала ряд Фурье (2.5) преобразуем следующим образом: временную функцию y(t) заменим функцией f(x), период Т m , 2л 2л лч заменим произвольным периодом Т = 2L (в этом случае со = —= —= —), а обозна- чение порядка гармоники v заменим обозначением k. Тогда тригонометрический ряд Фурье для периодической функции f(x) с произвольным периодом 2L будет иметь следующий вид: 2 Говорят, что сигнал имеет “широкий частотный спектр”, если в его спектре присутствует боль- шое число высших гармоник. Глава 2. Математическое представление звуковой волны... 61
а /(х) «-у+ Д1 coscox + a2 cos2cnx + ... + a* cosfcwx+ ... + $ +6lsintox + 62sin 2cnx + ... + ^ sin£tox + ... или r/ 4 a0 nx _ tix , tix f (x) ~ — + a, cos— + a, cos 2 — +... + cl cos к— + J 2 1 L 2 L k L . . TIX . . TlX . . . TlX +p, sin— + я, sin 2 — +... + bk sin к— +... 1 L 2 L k L или f(x) ~S(x) = —+ X| a* cos£—+ ^sin£—|, 2 L L) где S(x) — сумма бесконечного числа составляющих ряда Фурье3. Обозначим сум- му конечного числа составляющих ряда Фурье как CL . Tlx , . TlX ] S(x,i) = ~ + 2J akcos^— + ^sinZ:— , 2 *=i\ L L) где S(x,i) — сумма i начальных членов ряда Фурье (i = 1, 2, 3, ...). S(x,i) называет- ся частичной суммой ряда. Например, первая частичная сумма ряда: $(л,1)=-^ + £ 2 к=\ . Tlx . . t Tlx] ап кх , . кх a.cosk— + bk sin к— = — + a,cos— + д sin— ; ‘ L k L) 2 1 L 1 L . Tix , . , лх ] an Ttx . . Tix ^tix t . ^tix at cos к— + by sink — = — + a, cos — + b, sin— + a, cos 2— + b. sin 2— k L k L) 2 1 L 1 L 2 L 2 L вторая частичная сумма ряда: 2 5(л,2)=^- + £ 2 к=\ и т.д. Для такого варианта записи ряда Фурье коэффициенты ряда вычисляются по следующим формулам Эйлера-Фурье: ак =— j/(x)cos£—dx, к = 1, 2, 3, ..., (2.6) 1 L тг bk— — j/(x)sin£—dx,k=l, 2, 3, .... Ряд Фурье является конечным далеко не для каждой функции. В массе случаев ряд Фурье функции оказывается бесконечным из-за того, что коэффициенты Фурье aki и Ьк^ не равны нулю для некоторого кх> к , сколь большим мы не возьмем значение k. Здесь мы не будем рассматри- вать этот вопрос. 62 Часть I. Образование и распространение звука...
Такой вариант разложения функции f(x) с произвольным периодом T = 2L при условии, что эта функция в пределах [-L, L] удовлетворяет условию Дирихле4, дает возможность раскладывать в ряд Фурье не только периодические, но и непериоди- ческие, а также разрывные функции. При этом непериодические и разрывные функции считаются периодическими только в пределах [-L, L]. Как правило, при рассмотрении сложной непериодической функции нас не интересуют ее значения на всей области определения, на практике нам достаточно рассмотреть функцию лишь на определенном непрерывном конечном интервале. Рассмотрим несколько примеров. Пример 1 Рассмотрим непериодическую временную функцию y(t) = t. Это сплошная ли- ния (рис. 2.3), которая проходит через 0 и устремляется в бесконечность с обеих сторон. Рис. 2.3. График функции y(t) = t Заменим функцию y(t) = t функцией f(x) = х с периодом 2L и ограничим эту прямую на интервале —к < х < л . В результате получим прерывную периодическую функцию f(x) с периодом Т = 2L = 2n в замкнутом промежутке [-л,л) (рис. 2.4). 4 Говорят, что функция f(x) удовлетворяет условию Дирихле, если интервал, на котором функ- ция определена, может быть разбит на конечное число интервалов, в каждом из которых f(x) не- прерывна и монотонна. Функция f(x) называется непрерывной в точке х = а , если при х = а функция f(x) имеет опре- деленное значение Ь; при х —» а функция имеет предел, также равный Ь (т.е. lim/(x) =b ). При нарушении хотя бы одного из указанных условий функция называется разрывной в точке а. На- пример, функция f{x)—^/x_ з непрерывна в точке х = 5 и имеет разрыв в точке х = 3. Глава 2. Математическое представление звуковой волны... 63
Рис. 2.4. График функции f(x) Эту периодическую функцию мы получили искусственным путем за счет перио- дического повторения отрезка прямой, принадлежащего функции y(t) = t, на ин- тервале -п<х< л. Разложим функцию f(x) в ряд Фурье, для чего сначала вычис- лим коэффициенты ряда Фурье: 1 п ак Jxcoskxdx , 1 п Ь. =— Гxsinkxdx . Для k = 0 имеем 1 "г п , 1 > , х2 1 2 1 2 п ап=— х cos Охах = — \хах = — =—л--------л =0. л { л { 2л 2л 2л -Я -п -Л Для k = 1, 2, 3, ... 1 7 . . if cosfac xsin^xV a.=— \x cos кхах = —\—-—н-= ‘л J л I к1 к ) -л х z -л _lfcosfoc собЦ-л) лзт£л л< к2 к2 + к (-л)зтЦ-л) j = 0 к ) Таким образом, коэффициенты ряда а0, av а2, ... = 0. Коэффициенты Ь* опреде- лим интегрированием по частям: 64 Часть I. Образование и распространение звука...
1 Л 1 * j Я 1 bk~— fxsinfaxZx =--------х cos far +— |cosfao/x =----------(n cos к л-(-л) cos к (-л)) + я.' пк Ttf.J лк 1 . , 2 , <ч4+11 +—- sin кх =—cosJtfc=2(-l) —. ml2 _п к к Таким образом, для k = 1, 2, 3, ... коэффициенты будут иметь следующие значе- ния: Ь, =2 , Ь, = — 1 2 2 Ь3=- 3 3 .... Ряд Фурье функции f(x) на интервале -л<х<л имеет вид [ 1 1 1 1 (-1)*+I f(x) ~ 2 -sinx—sin2x + —sin3x—sin4x + ...+-—-—sin far . 11 2 3 4 к J Частичные суммы полученного ряда: 5(x,l) = 2sinx, 5(х,2) = 2|-sinx-—sin2х|, U 2 J 5(x,3) = 2|-sinx-—sin 2x+—sin3x 11 2 3 5(x,5) = 2|-sinx-—sin2x + -sin3x-—sin4x +—sin5x |, U 2 3 4 5 J На рис. 2.5 изображены функция f(x) на интервале -л<х<л в виде сплошной прямой линии и графики частичных сумм S(x,l), S(x,5) и S(x,15). По графику можно судить о близости частичной суммы S(x,15), колеблющейся около прямой f(x), к самой функции f(x). Из графика видно, что чем выше k, тем точнее график частичной суммы S(x,k) приближается к функции f(x). Это утвер- ждение справедливо всегда, например частичная сумма S(x, 70) почти точно по- вторяет график функции внутри интервала, и визуально трудно отличить прямую линию /(х) от S(xt70). Глава 2. Математическое представление звуковой волны... 65
Справка При расчетах коэффициентов ряда Фурье функции f(x) мы сталкивались со следующими элементами математики: интегрирование по частям: bk = fadV = UV - frdU , где U = х, dU =dx ; V = jsinfcxdr = ~y^coskx , dV=sinkxdx; г x2 c , , costa xsinta вычисление интеграла: jxdx = — ; J л: cos kxdx = — H--— ; sin(-a) = -sina , cos(-a) = cosa , sin А:л = 0 при k = 0, 1, 2, cos£rc = l, -1, 1, -1, ... при k = 0, 1, 2,.... Здесь нужно отметить следующее обстоятельство. Функция f(x) непрерывна только внутри промежутка [-я, л) • Ввиду неравенства значений функции f(x) на концах интервала [-л, л), полученная нами из исходной непериодической функции y(t) периодическая функция f(x) имеет точки разрыва х = ±л, ±2л, ±3л, Пример 2 Рассмотрим тригонометрическую функцию f(x)= — -sinx (рис. 2.6). х Это непериодическая функция, и поэтому она не может быть разложена в ряд Фурье на всей области определения. Однако для ее разложения в ряд Фурье, на- пример, на интересующем нас интервале [хр х2] (где х2 = 2,772, х2 = 6,439) мы мо- жем искусственно представить /(х) в виде периодической функции /'(х) путем периодического повторения фрагмента функции f(x) на интервале [х2, х2] с пе- риодом Т = х2-хх (рис. 2.7). 66 Часть I. Образование и распространение звука...
X Рис. 2.7. График периодической функции f'(x) на несимметричном интервале [xr x2J В этом примере мы не будем подробно расписывать математические преобразо- вания, а лишь ограничимся приведением последовательности преобразований. Преобразуем интервал [хр х2] в симметричный относительно оси ординат интер- вал [-L, L] (где L = *2 ) путем искусственного сдвига функции /'(*) по оси абс- цисс на величину г = х} + L . Результатом модификации становится функция /"(х) , которая является периодической на симметричном интервале [-L, L] и, следова- тельно, может быть разложена в ряд Фурье (рис. 2.8). Глава 2. Математическое представление звуковой волны... 67
Рис. 2.8. График периодической функции f"(x) на симметричном интервале [-L,L] Коэффициенты ряда Фурье функции f"(x) вычисляются следующим образом: а0=7 L-l 1 L ak= — j f''(x)cos(kx)dx, ^-L 1 bk =— f^(x)sin(kx)dx , L-l где на интервале [-L, L\ Г\х) = f(x + r) при r = xx + L. Таким образом, функция Г'(х) будет иметь следующий вид: -------г - sin(x + х, + L), где |x + Xj + L| L = ——— = 1,833 . Коэффициенты ряда Фурье функции /"(*), вычисленные по 2 формулам Эйлера-Фурье (2.6), имеют следующие значения: а0 =1,507 , ах =0,525 , а2 =-0,092 , а3 =0,039 , ..., ап =0,002 , ... =0,040 , Ь2 =-0,004 , Ь3 =0,001, Ь4 =0,0005 , ... Ряд Фурье для функции /ч'(х) имеет следующий вид: У''(Х)» 1122.+ 0,525 совл———+ 0,04 sinn—---0,092 cos2л—----0,004sin2n-^—+... 2 1,833 1,833 1,833 1,833 Графики частичной суммы S(х,2) и самой /"(*) представлены на рис. 2.9. Представим функцию /"(*) в виде амплитудно-частотного спектра в прямо- угольной системе координат, где по оси абсцисс откладываются порядковые номера гармоник k, соответствующие частотным составляющим ряда Фурье, а по оси 68 Часть I. Образование и распространение звука...
ординат — соответствующая амплитуда А(k) частотной составляющей спектра, где А(к) = (рис. 2.10). A(k) Рис. 2.9. Графики частичной суммы S(х,2) и функции f \x) 05 Рис. 2.10. Спектр фрагмента функции f(x) на исходном интервале [хр x2J Из графика видно, что с увеличением порядка гармоники k амплитуда соответ- ствующей частотной составляющей спектра уменьшается, а значит, уменьшается и влияние частотных составляющих на форму колебаний. Из расчетов и приведенно- го амплитудно-частотного спектра видно, что для анализа функции /"(х) можно ограничиться только постоянным коэффициентом и двумя первыми гармониками (ввиду малости амплитуд третьей и последующих гармоник). Глава 2. Математическое представление звуковой волны... 69
Пример 3 Рассмотрим еще один пример. За основу примем ту же функцию, что и в приме- ре 2, но исследуемый интервал [zp z2] расширим: zt = 1,114, z2 = х2 = 6,439 (рис. 2.11). По аналогичной описанной в примере 2 схеме получим периодическую функцию g'(x) (рис. 2.12). Рис. 2.12. График периодической функции g'(x) на несимметричном интервале [zr z2J Описанным выше способом сдвигаем функцию g\x) по оси абсцисс влево и по- лучаем преобразованную периодическую функцию g'\x) на симметричном интер- вале [-М, М] (рис. 2.13). 70 Часть I. Образование и распространение звука...
Рис. 2.13. График периодической функции g"(x) на симметричном интервале f-M, М] График полученного амплитудно-частотного спектра периодической функции #"(х) представлен на рис. 2.14. А(к) г 0.8- 06- 0.4- 02- _______________________________i 0 1 2 к 10 Рис. 2.14. Спектр фрагмента функции f(x) на исходном интервале [zlt z2] Рассмотрим результаты двух последних приведенных примеров. Исходной функцией в обоих примерах являлась одна и та же функция f(x) =—-sinx . В при- X мере 1 рассматривался чуть более узкий интервал, чем в примере 2. Результатом разложения в ряд Фурье фрагментов функции f(x) на двух разных интервалах стали два совершенно непохожих частотных спектра. Спектр фрагмента функции /(х) в первом случае (для исходного интервала [х2, xj) оказался отличным от спектра фрагмента функции /(х) во втором случае (для интервала [zn z2]). Это произошло потому, что разным интервалам соответствовали разные фрагменты ис- ходной функции и, соответственно, разные периодические функции f'(x) и g\x), что в конечном итоге привело к совершенно разным частотным спектрам. Отсюда напрашивается вывод: на получаемый спектр влияет как вид анализируемого Глава 2. Математическое представление звуковой волны... 71
фрагмента непериодической функции, так и интервал, на котором этот фраг- мент рассматривается. Этот в крайней степени важный вывод будет неоднократ- но использован нами впоследствии. Сделаем еще два важных вывода: гармонический анализ применим практичес- ки к любому фрагменту сложной непериодической функции; чем ближе форма ис- следуемого фрагмента функции приближается к форме синусоиды, тем “проще” спектр этого фрагмента, т.е. тем меньше доля высших гармоник в спектре фраг- мента. Таким образом, чем “глаже” функция (т.е. чем меньше явно выраженных пиков в ее кривой), тем более узок ее спектр, т.е. тем меньше высокочастотных составляющих он содержит. 2.4. Гармонический анализ реальных звуковых сигналов Теперь рассмотрим, как на практике реализуются сделанные нами выше выво- ды. Как уже говорилось, на практике реальные звуковые сигналы являются слож- ными и их практически невозможно описать в виде какой-либо математической функции или с помощью эмпирической аналитической зависимости. Анализируе- мый реальный звуковой сигнал является, как правило, “вырванным из контекста”, т.е. фрагментом некоторой длины, являющимся частью общего, возможно, очень продолжительного, звукового материала. Таким образом, фрагментальный спек- тральный анализ может осуществляться как по чисто объективным причинам (в частности, из-за невозможности и нецелесообразности спектральной обработки целиком продолжительных звуковых сигналов), так и при необходимости оценки шумовых, тембровых и других характеристик в отдельных фрагментах звукового материала. Реальный звуковой сигнал может быть графически представлен в виде сигна- лограммы и спектрограммы (см. раздел 2.6). Поскольку сегодня большинство операций обработки и анализа сигналов проводят с использованием цифровой аппаратуры, во всех перечисленных способах графического представления сиг- нал в большинстве случаев описывается его дискретными параметрами: дискрет- ной амплитудой, дискретной частотой и дискретным временем, что объясняется способом регистрации сигнала (см. часть II). Конечно, сейчас еще применяются различные аналоговые анализаторы, самописцы, осциллографы и другие прибо- ры, регистрирующие непрерывные аналоговые сигналы и оперирующие ими. Но получаемые в результате применения таких аналоговых приборов сигнало- граммы, осциллограммы, и т.д. используются в основном лишь для визуальной оценки сигналов и их обработки вручную, в то время как детальный анализ про- водят именно с помощью цифровой вычислительной техники. Для того чтобы ре- альную звуковую волну можно было анализировать с помощью гармонического анализа с применением цифровой вычислительной техники, волну представляют в некотором дискретном виде, т.е. в виде ряда чисел, тем или иным образом опи- сывающих ее форму. Для получения частотного спектра сигнала, описанного его дискретными зна- чениями, применяют дискретное преобразование Фурье, или ДПФ (Discrete 72 Часть I. Образование и распространение звука...
Fourier Transform — DFT), — специально созданную разновидность преобразования Фурье, предназначенную для спектрального разложения дискретных сигналов. Чтобы сделать вычисления ДПФ в цифровой вычислительной технике более эф- фективными, был создан алгоритм, названный быстрым преобразованием Фурье5, или БПФ (Fast Fourier Transform — FFT). Здесь уместно заметить, что все разно- видности преобразования Фурье при достаточной точности вычислений дают аб- солютно одинаковые результаты. Их отличие заключается лишь в средствах дос- тижения этого результата и скорости вычислений. Отметим, что наряду с алгоритмами, реализующими прямое преобразование Фурье, существуют и обратные алгоритмы, инвертирующие спектр обратно в сиг- нал (обратное преобразование Фурье). Подобно частичным суммам, которые путем суммирования “преобразовывают” информацию о частотах, амплитудах и фазах гармоник обратно в форму исходной функции, алгоритмы, реализующие обратное преобразование Фурье, преобразуют информацию о составляющих спектра обратно в дискретный сигнал. С использованием ДПФ звуковой сигнал, описанный дискретными численными значениями, может быть представлен в виде амплитудно-частотного спектра. Любой, даже самый сложный по форме сигнал (например, звук голоса человека), можно представить суммой простейших синусоидальных колебаний определенных частот и амплитуд. Помимо специальной техники разложения в спектр сигналов, заданных именно дискретными значениями (а не аналитическим выражением), в основе ДПФ лежит идея, аналогичная идее спектрального разложения непе- риодических функций: произвольный (непериодический) сигнал, точнее — ана- лизируемый фрагмент сигнала, представляется как один период некоторого бес- конечного периодического сигнала, который и раскладывается в частотный спектр. Рассмотрим пример такого спектрального разложения. Возьмем сложную ре- альную звуковую волну, заданную дискретными значениями ее амплитуды в функции времени, и проследим, как на практике она раскладывается в тригоно- метрическую сумму синусоидальных составляющих (ряд Фурье) и анализируется. На рис. 2.15 представлен фрагмент сигналограммы реальной звуковой волны — фрагмент музыкальной аудиозаписи6 продолжительностью 0,25 с (на графике по оси абсцисс откладывается время, а по оси ординат — дискретные значения ампли- туд А, которые на сигналограмме сливаются в сплошную линию). Будем считать, что представленный на сигналограмме звуковой сигнал явля- ется рабочим фрагментом, выбранным для проведения спектрального анализа. Теперь с помощью ДПФ (БПФ) проведем спектральное разложение представленно- го фрагмента звукового сигнала. При спектральном разложении обрабатываемый фрагмент представляется в виде одного периода некоторого бесконечного периоди- ческого звукового сигнала, полученного путем периодического продолжения ана- лизируемого фрагмента (рис. 2.16). 5 БПФ оперирует количествами дискретных значений анализируемых функций (сигналов), равными степеням двойки, т.е. количествами значений, равными 2К , где К= 1,2,... (2, 4,16, 32 и т.д.). 6 Аудио (от лат. “audio” — “слышу”) — “звуковой”,“слышимый”. Глава 2. Математическое представление звуковой волны... 73
Ai Рис. 2.15. Сигналограмма фрагмента музыкальной аудиозаписи продолжи- тельностью 0,25 с ДПФ раскладывает анализируемый фрагмент в амплитудно-частотный спектр и дает на выходе в четкой последовательности набор гармоник и соответствующие им значения амплитуд. Из полученного набора гармоник можно составить частичные суммы с тем, чтобы наглядно наблюдать за приближением гармонического ряда к исходному сигналу. Посмотрим, как соотносится первая частичная сумма S(x,l) с анализируемым фрагментом аудиосигнала (рис. 2.17). Мы не приводим здесь громоздкие результаты расчета амплитудно-частотного спектра анализируемого фрагмента, поскольку в данном случае они не являются определяющими для наших дальнейших выводов и рассуждений. Частичная сумма S(x,l) представляет собой основную гармонику спектра. Как видно из рисунка, S(x,l) является синусоидой, лишь приблизительно по- вторяющей очертания исходного сигнала. Теперь возьмем вторую частичную сумму S(х,2), состоящую из первых двух гармоник спектра (рис. 2.18). Как видно из рис. 2.18, ив этом случае S(x,2) лишь приблизительно повторяет очертания исходного сигнала. На рис. 2.19 и 2.20 представлены частичные суммы S(х,15) и S(х,40) соответственно. Из приведенных графиков видно, что чем большее число гармоник мы сумми- руем, тем более точное приближение исходного сигнала мы получаем. В данном приближении при суммировании 130 членов ряда частичная сумма S(x,130) приобретает очертания оригинального сигнала с неотличимыми на глаз разли- чиями. Рассмотренный пример позволяет нам еще раз убедиться в том, что низ- кочастотные составляющие спектра придают суммирующей волне общую пра- вильность формы, тогда как высокочастотные составляющие уточняют форму волны, привнося в нее мелкие детали исходного сигнала. Для полноты картины на рис. 2.21 представлен график амплитудно-частотного спектра рассмотренного аудиосигнала. 74 Часть I. Образование и распространение звука...
Рис. 2.16. График периодического сигнала, составленного из анализируемого фрагмента
A 76 Часть I. Образование и распространение звука...
Глава 2. Математическое представление звуковой волны... 77
Рис. 2.21. Полный спектр анализируемого аудиофрагмента 2.5. Блочный спектральный анализ, эффект Гиббса и сглаживающие функции С элементами блочного спектрального анализа мы уже столкнулись, когда рас- смотрели гармонический анализ сложных непериодических функций и реальных звуковых сигналов. В первом и во втором случаях гармоническому анализу подвер- галась не вся функция целиком, не весь звуковой сигнал, а лишь “куски” (фраг- менты) функции звукового сигнала. Раскладывая эти фрагменты в ряд Фурье и по- лучая амплитудно-частотный спектр, мы решаем только первую задачу, а именно — даем ответы на вопросы о составе амплитудно-частотного спектра, о “весомости” (или вкладе) той или иной гармоники в частотном спектре данного фрагмента и ро- ли составляющих спектра в формировании вида (формы) кривой анализируемого фрагмента. Теперь пойдем дальше и решим следующую задачу, а именно — “привяжем” частотный спектр к нужному нам моменту времени. Для этого введем понятия “блок” и “блочный спектральный анализ”. Под словом “блок” будем по- нимать небольшой подфрагмент в составе сравнительно большого анализируемого фрагмента звукового сигнала, т.е. некоторый фиксированный малый промежуток времени звучания этого сигнала. Под выражением “блочный спектральный ана- лиз” будем понимать гармонический анализ не всей звуковой волны, соответст- вующей какому-то промежутку времени, а анализ этой звуковой волны за данный промежуток времени поблочно (по отдельным подфрагментам). Здесь сразу же за- метим, что основные выводы, сделанные при рассмотрении гармонического анали- за сложных непериодических функций и реальных звуковых сигналов, справедли- вы и для блочного спектрального анализа. Напомним их: на получаемый частот- ный и амплитудные спектры влияют как вид (форма) кривой анализируемого фрагмента (теперь — “блока”), так и интервал, на котором этот фрагмент (блок) 78 Часть I. Образование и распространение звука...
рассматривается; чем глаже функция (т.е. форма кривой), тем меньше высокочас- тотных составляющих содержит спектр анализируемого фрагмента (блока). Идея блочного Спектрального анализа заключается в проведении гармоническо- го анализа реального звукового сигнала таким образом, который позволил бы ви- деть динамику изменения частотного и амплитудного спектров анализируемого сигнала во времени. Другими словами, идея заключается в осуществлении спек- трального анализа так, чтобы можно было увязать, грубо говоря, звук в какой-то момент времени и соответствующий этому моменту времени спектр звуковой вол- ны. До этого же речь шла как бы о “статическом анализе”, т.е. для какой-то функ- ции (или фрагмента) определялся частотный и амплитудный спектры, но при этом мы не могли даже приблизительно ответить на вопрос “Какая частота или диапазон частот соответствует звуковому сигналу в тот или иной момент времени?”. Чтобы конкретизировать идею блочного спектрального анализа, рассмотрим следующий реальный пример. Предположим, что перед нами стоит задача проанализировать аудиофрагмент длительностью 50 секунд некоторой фонограммы с целью выявления каких-то спектральных характеристик на определенных интересующих нас временных уча- стках этого фрагмента. Если мы “по привычке” разложим этот фрагмент фоно- граммы целиком в амплитудно-частотный спектр, то в результате получим статич- ную картинку спектра (подобную представленной на рис. 2.21), которая даст нам четкое представление о том, какие частоты и с какими амплитудами присутствуют в рассматриваемом звуковом фрагменте длительностью 50 секунд. А теперь возни- кает вопрос “Что же делать дальше с полученной спектральной информацией?”. Ведь, с одной стороны, нам приблизительно известны временные координаты ин- тересующих нас участков пятидесятисекундного фрагмента фонограммы, но, с другой стороны, мы не можем привязать полученный амплитудно-частотный спектр к этим отдельным участкам. Таким образом, спектральный анализ всего пя- тидесятисекундного фрагмента фонограммы целиком не отражает динамику раз- вития звуковых колебаний во времени внутри этого фрагмента; получаемая спек- тральная картина является общей для всего пятидесятисекундного фрагмента и характеризует весь фрагмент целиком, но не отдельные его части. Понимание этого факта является очень важным и принципиальным. Выражаясь математическим языком, преобразование Фурье переносит анализируемую величину из амплитуд- но-временного пространства в амплитудно-частотное (рис. 2.22). Таким образом, по спектру всего сигнала целиком невозможно судить о дина- мике его развития во времени, спектр не предоставляет информацию о том, в ка- кой именно момент происходили те или иные изменения сигнала Есть еще одна причина, по которой применение блочного спектрального анализа на практике просто необходимо, а именно — практически невозможно подвергать спектральному анализу цельный дискретный звуковой сигнал большой продолжи- тельности, поскольку процедура спектрального разложения (ДПФ, БПФ) такого сигнала может оказаться чрезмерно ресурсоемкой. Глава 2. Математическое представление звуковой волны... 79
преобразование спектр фрагмента Фурье фрагмент, 50 с А, дБ часть, 10 с Рис. 2.22. Наглядная иллюстрация действия преобразования Фурье Итак, чтобы иметь представление об изменении спектра во времени, аудиосиг- нал необходимо анализировать не целиком, а по частям (говорят — “блоками” или “окнами”). На рис. 2.23 представлены звуковой сигнал с условной продолжительностью звучания N секунд и для примера — три возможных способа разделения его на блоки для проведения спектрального анализа по частям. а *________1_______> <______2________> 5 i 1> <__________2_____11 3 I в <___1_____>1 2_____> 1 3) i____4_____/1___5,.____I Рис. 2.23. Несколько способов разделения аудиосигнала на блоки По первому способу (вариант а) предлагается разделить сигнал пополам и про- анализировать его в два приема. Два полученных спектра позволят нам понять, какие частотные составляющие присутствовали в первые секунд звучания, а какие — в оставшиеся секунды. Если такого временного разрешения недоста- точно, то анализ сигнала можно провести в несколько приемов, разделив его на три (вариант б) или больше частей. Казалось бы, что для получения полной динамиче- ской спектральной картины с хорошим временным разрешением и с возможностью 80 Часть I. Образование и распространение звука...
подробного слежения за динамикой развития спектра сигнала во времени иссле- дуемый сигнал нужно делить на большое число коротких отрезков и рассчитывать спектр для каждого из них. Это рассуждение, в общем-то, справедливо, но имеется одна тонкость, которую нельзя не учитывать. Ведь чем короче раскладываемый в спектр участок сигнала, тем меньше информации о спектре он несет. Иначе говоря, чем более короткий участок сигнала подвергается анализу, тем менее информа- тивный спектр получается в результате. Проанализировав сигнал целиком, мы можем получить детальную спектральную картину, несущую максимально четкую информацию о частотных составляющих, минимально разнящихся по частоте; проанализировав же лишь небольшой отрезок сигнала, мы получаем огрубленный спектр низкого разрешения, несущий лишь приблизительную информацию об ос- новных, наиболее выделяющихся частотных составляющих. В этом явлении все логично. Ведь, с одной стороны, чем меньший отрезок сиг- нала мы рассматриваем, тем “проще” его форма, т.е. тем меньше деталей исходной волны он несет. С другой стороны, чем менее “сложную” форму имеют звуковые колебания, тем “проще” их спектр (тем меньше в нем высших гармонических коле- баний), и наоборот, чем “сложнее” форма колебаний, тем “сложнее” получаемый спектр7. Таким образом, чем меньший отрезок исходной волны мы рассматриваем, тем “проще” этот отрезок выглядит на графике, а значит, тем проще его спектр. В итоге цри проведении блочного спектрального анализа мы сталкиваемся с проблемой, решение которой строго индивидуально для каждого конкретного слу- чая. Стремясь получить высокое временное разрешение с тем, чтобы суметь распо- знать более детально изменения спектра сигнала в динамике, мы вынужденно су- жаем анализируемый фрагмент (блок), тем самым упрощаем его частотный спектр и теряем в частотном разрешении. Наоборот, стремясь получить как можно более детальный частотный спектр, приходится жертвовать временным разрешением, т.е. увеличивать (удлинять) анализируемый фрагмент. Эта дилемма называется принципом неопределенности спектрального анализа. Описанная проблема накладывает серьезные ограничения на параметры блоч- ного спектрального анализа. Поэтому, чтобы получить достаточное временное и одновременно с этим приемлемое спектральное разрешение, спектральный анализ проводят с перекрытиями блоков. На рис. 2.23 (вариант в) показано, каким обра- зом можно проводить такой спектральный анализ. Как видно из диаграммы, спек- тральный анализ сигнала можно провести, например, в пять приемов (всего два прохода по сигналу). Сначала сигнал делится на три равных блока, и для каждого блока рассчитывается его спектр (шаги 1, 2 и 3). Затем проводится еще два “перекрывающих” спектральных разложения, начиная с первого блока, со сдвигом 7 По виду колебаний можно приблизительно судить об их спектре. Если форма волны гладкая, без резких скачков и мелких деталей, то тригонометрическая сумма в формуле разложения Фурье будет содержать лишь несколько членов ряда с весомыми по величине коэффициентами (низкочастотные составляющие для маленьких к). Если же форма колебаний имеет резкие пере- пады и всплески, то, чтобы “повторить” такую сложную волну, ряд Фурье должен содержать большое число высокочастотных составляющих (с большими к) со значительными по величине коэффициентами (амплитудами) Глава 2. Математическое представление звуковой волны... 81
в полблока вправо (шаги 4 и 5). По окончании расчета всех спектров полученные спектры во всех блоках тем или иным способом усредняются между собой. Какие же преимущества дает блочный спектральный анализ с перекрытиями? Возвращаясь к примеру на рис. 2.23, с одной стороны, мы имеем пять спектраль- ных картин сигнала, соответствующих пяти временным интервалам. С другой сто- роны, частотное разрешение каждого из пяти полученных спектров оказывается почти таким же, каким оно было в случае б. В результате количество и точность полученной об анализируемом сигнале информации в среднем является намного лучшей, чем в случае, если бы спектральный анализ проводился путем деления ау- диосигнала на пять непересекающихся интервалов (тогда интервалы были бы ко- роче и, соответственно, спектральное разрешение — ниже). Существует еще одна особенность, связанная с проведением поблочного спек- трального анализа. Как мы уже говорили, в результате анализа цельного (нефраг- ментированного) аудиосигнала мы получаем его точный спектр. Разделив же зву- ковой сигнал на блоки и проведя поблочный спектральный анализ, мы получаем другой частотный спектр, который, как правило, по своим амплитудно-частотным характеристикам не совпадает с частотным спектром целого звукового сигнала. Одну из причин этого явления мы достаточно подробно рассмотрели и проанализи- ровали в конце примера 3 в разделе 2.3. Однако существует еще одна немаловаж- ная причина несовпадения упомянутых частотных спектров — появление допол- нительных высокочастотных составляющих в спектрах отдельных блоков при про- ведении поблочного спектрального анализа. С этим явлением мы также уже стал- кивались в разделе 2.3 при рассмотрении функции /(х) = х, однако не обсуждали его подробно. Рассмотрим явление возникновения дополнительных высокочастотных состав- ляющих в спектрах отдельных блоков на примере функции f(x) = sinx + —sinЗх . Заметим, что рассматриваемый нами эффект справедлив как в случае спектрально- го разложения функций, записанных аналитическим выражением, так и в случае реальных аудиосигналов. На рис. 2.24 представлен график этой функции, а также отмечен интересующий нас ее фрагмент на интервале [хрх2] = На рис. 2.25 представлена периодическая функция /"(х) на симметричном ин- тервале [-L, L], являющаяся функцией /(х), фрагментированной в рамках границ интересующего нас интервала [хр х2] и сдвинутой влево (в соответствии с уже отра- ботанной нами ранее схемой). Как видно, на краях интервала [-L, L] (где L = ^ ) Функция /"(х) имеет резкие скачки, т.е. точки разрыва (из-за неравенства значений функции /"(х) на краях интервала )• Посмотрим, как выглядят частичные суммы S(x,k) ряда Фурье этой функции (рис. 2.26). я Зя 2’Т 82 Часть I. Образование и распространение звука...
Рис. 2.24. График функции f(x) = sin х 4- —sin Зх Рис. 2.25. График функции f'\x) Легко заметить, что в окрестностях точек разрыва проявляются всплески ам- плитуд высокочастотных составляющих спектра. При этом с увеличением порядка гармоники k всплески становятся ближе к точкам разрыва, но не исчезают. График амплитудно-частотного спектра /чч(х) представлен на рис. 2.27. Эффект появления высокочастотных составляющих в спектре функции в окре- стностях точек разрыва называется эффектом Гиббса. Эффект Гиббса является крайне нежелательным и отрицательно сказывается на точности спектрального анализа, проводимого поблочно. Так же, как и на краях фрагмента разрывной функции, паразитные высокочастотные составляющие по- являются на краях блока анализируемого сигнала. Чтобы максимально ослабить влияние этого эффекта при проведении спектрального анализа, исследуемую функцию (или реальный сигнал) стараются “сгладить” в исследуемом блоке так, чтобы ее значения в точках разрыва на краях блока (рабочего интервала) Глава 2. Математическое представление звуковой волны... 83
отличались минимально. С этой целью проводят спектральное разложение в блоке не самой функции /"(х), а функции ур(х) = Я(х)- /чч(х), где Н(х) — специальная сглаживающая оконная функция (весовая функция). Рис. 2.27. Спектр f"(x) 84 Часть I. Образование и распространение звука...
Существует несколько распространенных сглаживающих функций. Одна из са- мых распространенных— функция, предложенная Хэммингом8 (Hamming). Она задается следующим аналитическим выражением: Н(х) = 0,54 + 0,46- cosy, где L — граница рассматриваемого фрагмента функции (или блока реального сиг- нала) по оси X. График функции Хэмминга представлен на рис. 2.28. Чтобы объяснить действие сглаживающей функций Хэмминга, рассмотрим элементарную функцию /(x) = sinx на интервале [-L, L], где//= 2 (рис. 2.29). Применим сглаживающую функцию Н(х) к функции f(x) = sinx , для чего пере- множим эти две функции. Посмотрим на график их произведения — функцию ур(х) = H(x)sinx (рис. 2.30). Как видно из приведенного графика, в результате умножения функции sin х на сглаживающую функцию Н(х) результирующая функция ур(х) на интервале [-L, L] оказалась как бы вписанной под графиком Н(х), а ее значения с приближе- нием к краям рабочего интервала все больше приближаются к нулю. Вернемся к нашему примеру и рассмотрим действие сглаживающей функции Хэмминга Н(х) на рассмотренную выше функцию /чч(х) на интервале [-L, L] (рис. 2.31). Выбор и применение сглаживающих функций — это специальная тема, изучению которой по- священы целые научные труды. По понятным причинам мы не будем углубляться в этот вопрос, а перечислим лишь некоторые наиболее распространенные сглаживающие функции: Hamming, Triangular, Hanning, Blackman, Welch и Blackman-Harris. Глава 2. Математическое представление звуковой волны... 85
86 Часть I. Образование и распространение звука...
Рис. 2.31. Эффект применения Н(х) к f"(x) на интервале [-L, L] Как видно, функция ур(х) = Н(х) f"(x) на краях интервала [-L, L] уже не имеет таких резких скачков, какие наблюдались у /"(х). В результате частичные суммы S(x,k) приближают функцию ур(х) на этом интервале значительно лучше и быст- рее, чем это происходит в случае с функцией f"(x) (рис. 2.32). График спектра функции ур(х) = H(x)f"(x) представлен на рис. 2.33. Глава 2. Математическое представление звуковой волны... 87
А(к) 0.8- 0.6-• 0.4- 0.2- к - - -(- — г. у - а । с .-rmf 0 5 10 15 20 25 30 35 Рис. 2.33. Спектр Как и следовало ожидать, спектр функции ур(х) = H(x)f"(x) стал более узким (т.е. в его составе появляется меньше высших гармоник) по сравнению со спектром /"(•*) • Таким образом, применение сглаживающей функции Н(х) оправдало себя: паразитные высокочастотные составляющие на краях интервала практически ис- чезли. При этом спектр ур(х) = H(x)f"(x) по-прежнему несет основную информа- цию о фрагменте /"(х). Применение оконных функций широко распространено на практике, однако и здесь имеются свои недостатки. В частности, умножение анализируемой функции на сглаживающую функцию приводит не только к сглаживанию краев, но также к некоторому искажению анализируемого фрагмента, что вносит определенную по- грешность в конечный результат. Кроме того, информация об анализируемой функции по краям блока после сглаживания теряется. Однако, несмотря на эти из- держки, использование сглаживающих функций на практике приносит больше пользы, чем вреда. Достаточно сказать, что при проведении поблочного спектраль- ного анализа цифровых звуковых сигналов с перекрытиями рекомендуется обяза- тельное применение сглаживающих функций. 2.6. Способы графического отображения звуковых сигналов В предыдущих разделах книги мы уже сталкивались с графическим представ- лением звуковой волны (звука) и такими понятиями, как осциллограмма, сигнало- грамма9 и спектрограмма. Рассмотрим эти и другие способы графического пред- ставления звуковых сигналов более подробно. Понятия “осциллограмма” и “сигналограмма” синонимичны, т.е. тождественны по смыслу. В силу сложившихся традиций все графики, которые получают с помощью осциллографа, назы- вают осциллограммами. А, например, аналогичные кривые, отражающие какую-то временную зависимость и полученные с помощью компьютера, называют сигналограммами. 88 Часть I. Образование и распространение звука...
Когда в предыдущих разделах книги мы представляли и анализировали графи- ки звуковой волны (звука) в функции времени, мы “по умолчанию” подразумевали реальную упрощенную звуковую волну (звук), преобразованную с помощью соот- ветствующей аппаратуры в электрический сигнал, изменяющийся во времени идентично звуковой волне (т.е. моделирующий ее форму) и выведенный либо на экран осциллографа или монитора компьютера, либо с помощью различных само- писцев на бумагу и т.д. Способ графического отображения звукового сигнала в виде значений его уров- ня (амплитуды) во времени называют амплитудно-временным, а сам график, ото- бражающий зависимость амплитуды текущего звукового сигнала10 в функции вре- мени, — осциллограммой или сигналограммой. В качестве примера на рис. 2.34 представлена сигналограмма записи человеческой речи (произнесенная вслух фра- за “раз-два-[пауза]-три-четыре”), записанной с помощью компьютера. Рис. 2.34. Сигналограмма записи человеческой речи: фраза “раз-два- [ пауза ]-три-четыре” Если очертить сигналограмму сверху и снизу таким образом, что изображенные на ней колебания окажутся “вписанными” между очерчивающими их линиями, то в результате получится график амплитудной огибающей сигнала. На рис. 2.35 по- казан график амплитудной огибающей сигнала, представленного на рис. 2.34. По форме амплитудной огибающей (как и по форме самой сигналограммы) можно судить о характере изменения интенсивности звука на всей его протяженно- сти и тем самым визуально определять, например, где находятся промежутки ме- жду словами (на рисунке такой промежуток обозначен в) и паузы (промежуток б), а где — громкие звуки (промежуток а). Под амплитудой (текущей амплитудой) звукового сигнала здесь и далее следует понимать те- кущее значение звукового сигнала, отсчитываемое по оси ординат в данный момент времени. За- метим, что в некоторых случаях под амплитудой может подразумеваться не мгновенное значение сигнала в конкретный момент времени, а некоторое задержанное значение амплитуды сигнала, а именно, значение его амплитудной огибающей. Глава 2. Математическое представление звуковой волны... 89
Обобщенная форма амплитудной огибающей большинства существующих в природе одиночных звуков может быть представлена в виде графика, показанного на рис. 2.36. Рис. 2.36. График типичной амплитудной огибающей реального одиночного звукового сигнала Эта форма подразумевает условное деление огибающей амплитуды на пять час- тей, т.е. пять фаз развития звуковой волны. 1. Атака, подъем (от англ, “attack”). 2. Стабилизация (от англ. “hold”). 90 Часть I. Образование и распространение звука...
3. Спад (от англ, “decay”). 4. Удержание (от англ, “sustain”). 5. Затухание (от англ, “release”). В отношении фазы удержания нужно отметить, что она различима только в тех звуках, которые вызваны каким-то продолжительным во времени воздействием. Звуки, вызванные кратковременным, почти мгновенным воздействием, имеют почти нулевую фазу удержания. На рис. 2.37 представлена сигналограмма короткого звука виолончели, из кото- рой видно, что очертания этой сигналограммы очень схожи с типичной амплитуд- ной огибающей, рассмотренной выше, т.е. налицо все пять фаз развития звуковой Рис. 2.37. Сигналограмма короткого звука виолончели Звук большинства духовых инструментов также имеет амплитудную огибаю- щую со всеми пятью перечисленными фазами. В то же время большинство немузы- кальных звуков, как, например, звук щелчка пальцами, имеют очень непродолжи- тельную фазу стабилизации и почти нулевую фазу удержания. Второй способ графического представления звуковых сигналов заключается в его отображении в виде амплитудно-частотной зависимости, т.е. в виде графика амплитудно-частотного спектра, на котором по оси абсцисс откладываются частоты составляющих спектра, а по оси ординат — амплитуды соответствующих частот- ных составляющих. Таким способом представления мы уже многократно пользо- вались, когда обсуждали спектр сигнала (см. главу 2). В качестве примера на рис. 3.28 приведен график спектра реального аудиосигнала (речи), сигналограмма которого показана на рис. 2.34. На приведенном графике амплитуды спектральных составляющих можно соединить кривой, которая называется амплитудной оги- бающей спектра сигнала или просто спектральной огибающей. По причинам, подробно рассмотренным в разделе 2.5, разложение реального звукового сигнала в спектр целиком на практике применяется редко; реальные Глава 2. Математическое представление звуковой волны... 91
звуковые сигналы на практике чаще всего анализируют поблочно. В этом случае спектр всего сигнала представляет собой уже не один амплитудно-частотный график, а целую серию таких графиков (каждому блоку анализируемого сигнала соответствует отдельная спектральная картинка). Серию таких спектров можно отобразить в виде так называемой спектрограммы. Спектрограмма — это псевдо- трехмерный график в прямоугольной системе координат, на котором по оси X откладывается время, по оси У — частота, а амплитуды частотных составляю- щих изображаются в соответствующих точках графика насыщенностью цвета11. На рис. 2.39 в качестве примера показана спектрограмма аудиозаписи речи (сигналограмма этого звукового сигнала представлена на рис. 2.34). Рис. 2.38. Спектр записи речи Рис. 2.39. Спектрограмма записи речи В литературе можно встретить другое название спектрограммы — сонограмма. 92 Часть I. Образование и распространение звука...
Спектрограмма— это очень мощный графический инструмент спектрального анализа, поскольку она обеспечивает наилучшее визуальное представление спектра и позволяет в подробностях анализировать динамику развития сигнала. Нередко встречается также непосредственно трехмерное представление спектра сигнала в виде трехмерной спектрограммы. Способ отображения спектра в случае трехмерной спектрограммы фактически аналогичен способу, примененному в обык- новенной спектрограмме, с той лишь разницей, что амплитуды частотных состав- ляющих изображаются на трехмерной спектрограмме не интенсивностью цвета (точнее, не только интенсивностью цвета), а путем откладывания величины ампли- туды по третьей координатной оси Z. На рис. 2.40 представлена трехмерная спек- трограмма звукового сигнала с записью речи (его сигналограмма показана на рис. 2.34). Рис. 2.40. Трехмерная спектрограмма звукового сигнала с записью речи Здесь следует заметить, что трехмерное спектрографическое представление зву- ковых сигналов хотя и является наиболее наглядным, тем не менее не вполне удоб- но в практическом использовании. 2.7. Звуки различных источников В заключение этой главы рассмотрим обобщенные результаты гармонического и спектрального анализов наиболее часто встречающихся сложных звуковых сигна- лов, издаваемых различными источниками. 2.7.1. Человеческий голос Источником человеческого голоса, точнее — основной частоты голоса, являются голосовые связки. Звучание голоса представляется в виде сложного периодическо- го сигнала приблизительно пилообразной формы (рис. 2.41). Глава 2. Математическое представление звуковой волны... 93
Рис. 2.41. Сигналограмма звука “и” Низшая (основная) частота в общем спектре частот у отдельных людей может составлять от 70 до 400 Гц (т.е. в одну секунду могут укладываться от 70 до 400 наибольших (основных) периодов Т), в связи с чем основные частоты различных по типу голосов лежат в таких пределах: для баса: от 70 до 400 Гц; для баритона: от 110 до 440 Гц; для тенора: от 130 до 590 Гц; для контральто: от 175 до 780 Гц; для меццо-тинто: от 220 до 1050 Гц; для сопрано: от 350 до 1320 Гц. Таким образом, можно с определенной долей вероятности говорить о нижней и верхней границах частоты основной гармонической составляющей голоса челове- ка. При формировании звуков речи и пения, осуществляемом системой природных резонаторов речевого аппарата, подчеркиваются те или иные группы близлежащих частот их гармонического спектра (спектральные максимумы). Таких спектраль- ных максимумов в звуке может быть четыре и больше, однако распознавание каж- дого звука связано с одним или двумя первыми усиленными участками спектра, которые называются формантами. На рис. 2.42 показано частотное размещение формантных областей некоторых звуков. Кривая на этом графике показывает относительное содержание формант (в про- центах) в различных областях частотного диапазона. Наибольшее число формант расположено в области частот от 100 Гц до 8 кГц. Для гласных звуков характерны форманты с дискретным спектром (т.е. с явно выраженными пиками, всплесками частот); для согласных, особенно глухих, таких как “с”, “ш” и “х”, характерны форманты со сплошным спектром. Полный спектр речевого сигнала образуется из основных тонов вместе с гармоническими составляющими, а также с формантными и неформантными областями. Голос и речь человека являются предметами изучения различных наук как с позиций семантики, так и с позиций эстетики и пр. Так, например, наука, зани- мающаяся изучением человеческого голоса с медицинской точки зрения, назы- вается фониатрией (от греч. “phone” — “звук”, “голос” и “iatreia” — “лечение”). 94 Часть I. Образование и распространение звука...
Существуют специальные устройства, методы и алгоритмы, предназначенные для распознавания человеческой речи, а также идентификации человека по голосу. Рис. 2.42. Частотное размещение формантных областей 2.7.2. Музыкальные инструменты Кратко охарактеризуем звуки, издаваемые струнными, духовыми и ударными инструментами. Струнные инструменты. Эти инструменты представляют собой акустические системы, в которых звукообразующими элементами (вибраторами) являются туго натянутые струны, а резонаторами — деки и объем корпуса инструмента. По спо- собу возбуждения вибраторов струнные инструменты делятся на смычковые, щип- ковые и ударные. К распространенным смычковым инструментам относятся, например, скрипка и виолончель. Максимальный уровень звукового сигнала этих инструментов не превышает 75 дБ (см.приложение Б). При возбуждении смычком струн создаются пилообразные колебания с почти постоянной амплитудой. Воздействие резонатора сказывается в нескольких частотных областях; эти формантные области для скрипки лежат вблизи частот 400 и 800 Гц, в полосах от 2000 до 2600 Гц и от 3000 до 4000 Гц. По мере смещения главной форманты к частоте 4000 Гц качество зву- чания скрипки возрастает до максимума за счет подключения к главной форман- те большого числа высших гармоник, с чем и связано богатство тембра, певучесть и звучность этого инструмента. При сравнении спектральных огибающих звуча- ния струн скрипки и виолончели обнаруживается, что последние из них более плавные (“спокойные”). Однако и они имеют формантные выбросы в областях час- тот от 250 до 300, от 400 до 500 Гц, и в области 1500 Гц. Щипковые инструменты делят на две группы: грифовые и безгрифовые. К грифовой группе относятся, например, гитара, балалайка и т.д. Каждый из этих инструментов в зажатом состоянии создает ряд основных тонов, а все струны вме- сте обеспечивают достаточно широкий частотный диапазон. Ко второй группе отно- сятся инструменты, струны которых не изменяются по длине в процессе игры. Это Глава 2. Математическое представление звуковой волны... 95
могут быть арфа, цитра и пр. Струны всех этих инструментов при возбуждении их щипком совершают собственные затухающие колебания. Для гитары общий час- тотный диапазон с обертонами имеет границы приблизительно от 70 Гц до 9 кГц, причем число формант, расположенных в области низких и средних частот, неве- лико. Основная форманта совпадает с резонансной частотой объема воздуха в кор- пусе. Различия в характере щипка (пучками пальцев, ногтями или медиатором) приводят к изменению частотного состава звучания. Например, при щипке с по- мощью ногтей или медиатора атака получается более жесткой, а звук приобретает дополнительное число гармонических составляющих. Динамический диапазон (см. раздел 4.3.1) щипковых инструментов составляет порядка 20 дБ. К струнным ударным инструментам относят фортепиано. Этот инструмент для создания широкого звукоряда имеет большое количество струн. Динамический диапазон равен приблизительно 45-50 дБ. Фортепиано позволяет извлекать 88 ос- новных тонов. Самый низкий из них имеет частоту 27,5 Гц (нота “ля” субконтрок- тавы). Частоты всех последующих звуков увеличиваются в 1,059 (на полтона, см. раздел 3.4) или в 1,122 (на тон) раза. Поэтому самый высокий из основных звуков имеет частоту 4186 Гц (нота “до” пятой октавы). Частоты и амплитуды гармониче- ских составляющих, так же как и основных тонов, зависят от материала и разме- ров струн, силы их натяжения, места, длительности и силы удара молоточков по струне. Наибольшее число этих составляющих сосредоточивается в области низких частот и усиливается резонатором, особенно в пределах от 100 до 1200 Гц. Для фор- тепиано очень большое значение имеют временные процессы. Нарастание уровня звука при ударе молоточком по струне и почти сразу же следующее за ним затуха- ние влияют на изменение частотного состава звучания. Так, короткое время нарас- тания, равное примерно 10 мс для высокочастотных и 20 мс для низкочастотных сигналов, обеспечивает большую четкость и “разделение” отдельных тонов. Дли- тельный процесс затухания делает звучание фортепиано близким по мелодичности к стационарному звучанию скрипки. Духовые инструменты. В духовых инструментах звукообразующим элемен- том является объем воздуха, заключенного в трубе и совершающего колебания под воздействием воздушной струи, вдуваемой через отверстие. Усиление или ослабле- ние потока вдуваемого воздуха соответственно повышает или понижает частоту колебаний. В тромбонах изменение частоты достигается также путем изменения мензуры, т.е. отношения длины потока воздуха в трубе к ее диаметру. Различают следующие духовые инструменты: дульцевые, язычковые и язычковые с амбушю- ром (с мундштуком). В дулъцевых инструментах возбуждение звуковых колебаний происходит при ударе вдуваемого потока воздуха о края отверстия, имеющегося в трубе. К таким инструментам относятся флейты, органные трубы и т.д. Основные тона звукоряда большой флейты лежат в пределах от 286 до 1200 Гц, а флейты- пикколо — в пределах от 576 до 2500 Гц. Низкочастотные трубы органа создают звучания очень низкой частоты, начиная с 16 Гц. Спектр их не очень богат. В язычковых инструментах звук возбуждается благодаря периодическому ко- лебанию одной-двух пластинок, перекрывающих отверстие для вдувания воздуха. К инструментам такого типа можно отнести, например, кларнет, гобой и фагот. 96 Часть I. Образование и распространение звука...
Полный частотный спектр фагота укладывается в пределах от 60 до 2500 Гц. Силь- ные форманты для этого инструмента располагаются у частот 500 и 1500 Гц. К числу язычковых инструментов с амбушюром относятся труба, валторна, тромбон. Чашкообразный мундштук подчеркивает высокочастотные составляю- щие звуков трубы и тромбона. Воронкообразный мундштук валторны, наоборот, ослабляет составляющие на высоких частотах. В среднем эти инструменты имеют динамический диапазон 40 дБ. Ударные инструменты. В инструментах ударного типа в качестве звукообра- зующего элемента используются бруски, пластины или мембраны, а их возбужде- ние осуществляется ударом пластин друг о друга (тарелки) или ударом колотушки (ксилофон, челеста). Очень тонкие, гибкие пластины натягиваются на жесткие каркасы (барабаны, литавры). Ударные инструменты пластинчатого типа делят на инструменты с опреде- ленной частотой колебаний (ксилофон, челеста) и с неопределенной частотой коле- баний (тарелки и пр.). В последних одиночный звук имеет сложную непериодиче- скую структуру и как следствие — большое число негармонических составляющих. Динамический диапазон зависит от материала, из которого изготовлены пластины: для тарелок — около 60 дБ, для ксилофона и металлофона — 25-30 дБ, для челес- ты — 20 дБ. Основные звуки таких инструментов укладываются в диапазон частот от 300 до 4500 Гц. Мембранные инструменты отличаются большой мощностью и широким диа- пазоном звучания. Яркими представителями инструментов мембранного типа являются литавры и барабаны. Динамический диапазон литавр равен приблизи- тельно 80 дБ, большого и малого барабанов — 70 дБ. Барабаны имеют звуковые колебания с большим количеством негармонических составляющих. Их частот- ные диапазоны лежат в пределах от 50 до 6000 Гц. Длительность послезвучия этих инструментов зависит от массы и силы натяжения мембраны и достигает не- скольких секунд. Глава 2. Математическое представление звуковой волны... 97

Глава 3 Восприятие звука человеком, элементы психофизиологической акустики Одной из ключевых тем, связанных со звуком, является восприятие звука чело- веком. Понятно, что не имеет смысла говорить об анализе и обработке восприни- маемого (слышимого) человеком звука, не затронув указанную выше тему. Поэтому в этой главе, опираясь на науку “Психофизиологическая акустика”1, мы рассмотрим комплекс вопросов, связанных с восприятием звука человеком, в частности — как и в каком частотном диапазоне человек воспринимает звук, каковы особенности и возможности слухового аппарата человека, а также психофизиологические аку- стические параметры звука и т.д. При рассмотрении этих и других сопутствующих вопросов мы будем постоянно ссылаться на слуховой аппарат человека, поэтому начнем главу с анатомического строения уха с точки зрения восприятия звука че- ловеком. Но прежде несколько слов о психофизиологической акустике. Психофизиологическая акустика — это наука, изучающая психологические и физиологические особенности восприятия звука человеком. Основными задачами психофизиологической акустики являются: исследование влияния звука на чело- века, исследование процесса получения и обработки звуковой информации мозгом человека, выработка правил, норм и рекомендаций по нейтрализации вредного влияния звука на человека при нахождении его в звуковой среде, а также при ис- пользовании различной звуковой аппаратуры и приборов и другие вопросы. В по- следние несколько десятков лет психофизиологическая акустика стала одной из наиболее важных отраслей в области звуковых технологий. Это произошло потому, что благодаря знаниям и опыту, полученным именно в этом разделе акустики, со- временные звуковые технологии стали возможными и получили свое дальнейшее развитие. Акустика (от греч. “akustikos* — слуховой) в широком смысле — это область физики, изучаю- щая возникновение, распространение и взаимодействие с веществом звуковых волн от самых низких частот до самых высоких (10t2-10t3 Гц); в узком смысле — учение о звуке. Основными раз- делами акустики являются общая акустика, прикладная акустика и психофизиологическая акус- тика.
3.1. Слуховой аппарат человека В анатомии ухо человека принято делить на три части: наружное ухо, среднее ухо и внутреннее ухо (рис. 3.1). Рис. 3.1. Анатомия уха человека К наружному уху относятся ушная раковина, помогающая сконцентрировать звуковые колебания, и наружный слуховой канал. Звуковая волна, попадая в уш- ную раковину, проходит дальше по слуховому каналу (его длина составляет около 3 см, а диаметр — около 0,5 см) и попадает в среднее ухо, где ударяется о барабан- ную перепонку, представляющую собой тонкую полупрозрачную мембрану. Бара- банная перепонка преобразует звуковую волну в вибрации, при этом усиливая эф- фект от слабой звуковой волны и ослабляя от сильной. Эти вибрации передаются по присоединенным к барабанной перепонке косточкам (молоточку, наковальне и стремечку) во внутреннее ухо, представляющее собой завитую трубку с жидкостью диаметром около 0,2 мм и длиной около 4 см. Эта трубка называется улиткой. Внутри улитки находится еще одна мембрана, называемая базилярной мембраной, напоминающая узкую ленту длиной 32 мм, вдоль которой располагаются нервные окончания (более 20 тысяч волокон). Толщина базилярной мембраны в начале улитки и в ее вершине различна. В результате такого строения мембрана резониру- ет разными своими частями в ответ на звуки разной высоты. Так, звуковые колеба- ния высокой частоты затрагивают нервные окончания, располагающиеся в начале улитки, а колебания низкой частоты — нервные окончания в ее вершине. Звуковые колебания воспринимаются нервными окончаниями по двум принципам — удар- ному и частотному. Ударный принцип заключается в том, что нервные окончания в вершине улитки сами по себе способны передавать мозгу информацию не только о наличии сигнала, но и о частоте колебаний, если эта частота не превышает 400-450 Гц. Таким образом, низкочастотные колебания передаются в мозг нервными окончаниями, 100 Часть I. Образование и распространение звука...
расположенными в вершине улитки, в виде импульсов определенной частоты. Но благодаря примененной Природой хитрости этими нервными окончаниями в мозг передаются колебания с частотами вплоть до 4000 Гц. Суть хитрости состоит в том, что колебания затрагивают не один нерв, а сразу несколько. При этом затро- нутые нервные окончания в вершине улитки воспринимают колебания с опреде- ленной временной задержкой (ведь окончания расположены вдоль мембраны, а значит, время прихода колебаний на разные участки мембраны различно). Так, проанализировав частоту колебаний на разных участках мембраны, мозг способен различить колебания с частотами приблизительно до 4 кГц. Более высокочастотные колебания передаются уже в соответствии с частот- ным принципом, когда колебания различных частот затрагивают нервные окон- чания в разных участках в начале улитки. При этом мозг уже различает частоту колебаний не по частоте нервных импульсов, как в предыдущем случае, а лишь по месторасположению затронутых нервных окончаний в улитке. Таким обра- зом, улитку можно сравнить с набором резонаторов, каждый из которых чувст- вителен к колебаниям звука в некоторой полосе частот. Итак, основную информацию о звуковых колебаниях мозг получает в области частот до 4 кГц. Этот факт оказывается вполне логичным, если учесть, что все ос- новные жизненно необходимые человеку звуки (голоса людей, животных, шум во- ды, ветра и пр.) находятся именно в этой спектральной полосе. Частоты выше 4 кГц являются для человека вспомогательными, что подтверждается многими опытами. Например, можно легко убедиться в том, что человек почти не способен разобрать речь и другие природные звуки, если из этих звуков “удалить” частоты от 0 до 4 кГц, оставив только более высокие частотные составляющие. Одновре- менно с этим слышимость частот выше 4 кГц, как дополнение к основным часто- там, создает у человека ощущение более качественного звучания. Поэтому принято считать, что низкие частоты “ответственны” за разборчивость и ясность ау- диоинформации, а высокие частоты — за субъективное качество звука. Слуховой аппарат человека способен различать частотные составляющие звука приблизительно в пределах от 20-30 Гц до 20 кГц (слышимый звук). Ука- занная верхняя граница может колебаться в зависимости от возраста человека и других факторов. Заметим, что речь идет именно о способности слухового аппара- та. Частоты ниже 20-30 Гц (инфразвук) человек также способен воспринимать, но только уже не ухом, а всем телом, как вибрации. В настоящее время многие спе- циалисты склонны полагать, что и вибрации на частотах, намного превышающих порог 20 кГц (ультразвук) также воспринимаются человеком, но уже не ушами или телом, а непосредственно мозгом, на подсознательном уровне. Особое место в слуховом аппарате человека занимает базилярная мембрана. Все специфические особенности слуха человека связаны с устройством и механизмом ее работы. Рассмотрим механизм работы базилярной мембраны подробнее. Как мы уже говорили, базилярная мембрана имеет длину 32 мм и является той частью слуховой системы, которая улавливает звуковые сигналы и передает их в мозг. Для наглядности “развернем” эту мембрану и рассмотрим происходящие в ней процессы (рис. 3.2). Глава 3. Восприятие звука человеком... 101
источник звука, 1 кГц Ширина и толщина “ленты” мембраны в начале улитки меньше ширины и тол- щины в конце улитки (в ее вершине). Звуковой сигнал, приходящий со стороны начала улитки, заставляет мембрану резонировать в разных частях. Мембрана уст- роена так, что высокие частоты вызывают возбуждения в начале мембраны (там мембрана жестче), а низкие частоты — в конце (там она мягче). Максимальные ко- лебания мембраны происходят в той ее части, которая соответствует частоте при- ходящей звуковой волны. Тонкие волокна, расположенные вдоль мембраны и ока- завшиеся в резонирующей области, начинают колебаться, возбуждая тем самым нервные окончания, которые передают информацию о колебаниях в мозг. При этом, конечно, начинает колебаться не какая-то одна точка мембраны, а целый отрезок мембраны (ведь мембрана — это своего рода узкая лента типа струны) с центром в точке, соответствующей частоте возбуждения. Так мозг получает и идентифицирует информацию о возмущениях с той или иной частотой. Анализи- руя информацию о характере возмущений мембраны (месте и времени), мозг, вы- ступая в роли, подобной спектроанализатору, интерпретирует их, как звук той или иной высоты. В качестве примера на рис. 3.2 схематично показано воздействие на мембрану сигнала с частотой 1 кГц. Как видно из рисунка, приходящий звуковой сигнал колеблет мембрану на некотором определенном ее участке. Этот эффект похож на принцип действия обыкновенного полосно-пропускающего фильтра (см. раз- дел 4.2) с той лишь разницей, что центр полосы пропускания в случае базилярной мембраны будет находиться в точке, соответствующей частоте возбуждающего сиг- нала (назовем эту частоту центральной частотой). Всю мембрану в целом можно представить как набор слуховых полосно-пропускающих фильтров, расположен- ных в определенном порядке (по частоте убывания от 20 кГц до 20 Гц) с определен- ной величиной перекрытия, покрывающих всю полосу слышимых частот. При этом физическая ширина (площадь) каждого такого слухового фильтра на мембра- не тем больше, чем выше его центральная частота, и наоборот. Ширина слухового фильтра, измеренная в герцах, составляет приблизительно 10-20% от его цен- тральной частоты. Например, ширина фильтра с центральной частотой 13,5 кГц составляет приблизительно 3,5 кГц. Примечательно, что для частот до 500 Гц ши- рина слуховых фильтров остается приблизительно постоянной и составляет 100 Гц. 102 Часть I. Образование и распространение звука...
На рис. 3.3 показан график, отображающий зависимость ширины слуховых фильтров от их центральной частоты. Рис. 3.3. График зависимости ширины слуховых фильтров от их центральной частоты На приведенном графике по оси абсцисс откладывается значение центральной частоты, а по оси ординат — ширина соответствующего слухового фильтра. С наличием описанных слуховых фильтров связывают понятие критической полосы. Критическая полоса (ее также называют полосой равной разборчиво- сти) — это минимальная полоса частот, которая возбуждает одну и ту же часть ба- зилярной мембраны. В частотном промежутке от 0 до 16 кГц опытным путем были определены 24 критические полосы: 0-100 Гц, 100-200 Гц, 200-300 Гц, 300- 400 Гц, 400-510 Гц, 510-630 Гц, 630-770 Гц, 770-920 Гц, 920-1080 Гц, 1080- 1270 Гц, 1270-1480 Гц, 1480-1720 Гц, 1720-2000 Гц, 2000-2320 Гц, 2320- 2700 Гц, 2700-3150 Гц, 3150-3700 Гц, 3700-4400 Гц, 4400-5300 Гц, 5300- 6400 Гц, 6400-7700 Гц, 7700-9500 Гц, 9500-12 000 Гц и 12 000-15 500 Гц. Звуковой сигнал в пределах одной и той же критической полосы как бы обобща- ется мозгом, создавая близкие слуховые ощущения. Если же звуковой сигнал пе- реходит из одной критической полосы в другую, то слуховые ощущения в момент перехода заметно изменяются, потому что мозг анализирует информацию, полу- ченную из разных критических полос, раздельно. Это совершенно не значит, что два тона, попавшие в одну критическую полосу, не различимы на слух, просто это значит, что слуховые ощущения внутри одной полосы очень близки, а в разных по- лосах — отличаются существенно (об этом мы еще будем говорить чуть ниже). Участки базилярной мембраны, соответствующие критическим полосам, имеют приблизительно равную длину, которая составляет 1,2 мм на полосу. Для удобства работы с критическими полосами существует специальная единица измерения Глава 3. Восприятие звука человеком... 103
частоты — Барк2. В табл. 3.1 приведены 24 критические полосы и соответствую- щие им параметры. Таблица 3.1. Критические полосы и соответствующие им параметры Номер полосы, Барк Критическая полоса (диапазон), Гц Ширина критической полосы, Гц Центральная частота критической полосы, Гц 0 0-00 100 50 1 100-200 100 150 2 200 - 300 100 250 3 300 - 400 100 350 4 400-510 110 450 5 510-630 120 570 6 630 - 770 140 700 7 770 - 920 150 840 8 920 - 080 160 1000 9 1080-1270 190 1170 10 1270-1480 210 1370 11 1480-1720 240 1600 12 1720 - 2000 280 1850 13 2000-2310 320 2150 14 2320 - 2700 380 2500 15 2700-3150 450 2900 16 3150-3700 550 3400 17 3700-4400 700 4000 18 4400 - 5300 900 4800 19 5300 - 6400 1100 5800 20 6400 - 7700 1300 7000 21 7700 - 9500 1800 8500 22 9500-12 000 2500 10 500 23 12 000-15 500 3500 13 500 И еще об одной важной особенности базилярной мембраны. На “распознавание” высокочастотных сигналов на мембране отведено меньше площади поверхности, чем на распознавание низких частот. По-видимому, это можно объяснить двумя 2 Названа в честь немецкого ученого Генриха Георга Баркгаузена (Barkhausen, 1881-1956), пред- ложившего в 20-е годы XX века понятие “уровень громкости”. 104 Часть I. Образование и распространение звука...
причинами. Во-первых, высокие частоты менее важны для человека, чем низкие. Во-вторых, длина мембраны ограничена 32 мм, а для определения низкочастот- ных колебаний требуется большая площадь, чем для определения высокочастот- ных из-за существенной разницы длин волн. Как бы то ни было, такое распреде- ление площади мембраны повлияло на частотную разрешающую способность слуха: человек легче (увереннее) распознает изменения в полосе низких частот, чем в полосе высоких. 3.2. Психофизиологические акустические параметры звука 3.2.1. Тон, высота тона и тембр звука В спектре звука большинства музыкальных инструментов всегда присутствует наиболее выделяющаяся по амплитуде и периоду частотная составляющая (эта частотная составляющая соответствует наименьшей частоте и наибольшему перио- ду в данном звуковом спектре). Как уже указывалось, ее называют основной часто- той или основным тоном. Тоны, соответствующие остальным частотам спектра, на- зываются обертонами. Если частоты обертонов кратны частоте основного тона, то обертоны называют гармоническими составляющими (гармониками), при этом основной тон называется первой гармоникой. Основная частота является очень важным параметром звучания, и вот почему. Для периодических сигналов слуховая система человека способна различать высо- ту звука. В соответствии с определением международной организации стандартов, высота звука — это характеристика, условно распределяющая звуки по некоторой шкале от низких к высоким. На воспринимаемую высоту звука влияет, главным образом, частота основного тона, однако форма периода звуковой волны и ее состав также могут оказывать влияние на высоту звука. Высота звука может определять- ся слуховой системой и в сложных сигналах, но только в том случае, если сигнал является периодическим (например, звук хлопка или выстрела не является перио- дическим, и поэтому слух не способен оценить его высоту). В зависимости от соотношения амплитуд частотных составляющих спектра, звук может приобретать различную окраску и восприниматься, как тон3 или как шум. В случае дискретного частотного спектра (т.е. когда на графике спектра при- сутствуют явно выраженные пики) звук воспринимается, как тон, если имеет место один пик, или как созвучие, если имеют место несколько явно выраженных пиков. Если же звук имеет сплошной спектр (т.е. когда амплитуды частотных составляю- щих спектра примерно равны), то на слух звук воспринимается, как шум. 3 В отношении понятия «тон» удобно применять две его производные: понятие «частота тона» как физическая характеристика раздражителя слуха и понятие «высота тона» как характери- стика ощущения; высота тона — это субъективная характеристика ощущения физической час- тоты тона. Глава 3. Восприятие звука человеком... 105
Очень важной характеристикой слуховой системы человека является способ- ность различать два тона с разными частотами. По упомянутым выше причинам, способность слуха различать два тона в нижней полосе частот намного выше, чем в верхней полосе. Иными словами, частотная разрешающая способность слуха ухудшается при переходе от нижних частот к верхним. Опыты показали, что в по- лосе частот от 0 до 16 кГц слух человека способен различать до 620 градаций частот (в зависимости от интенсивности звука), при этом примерно 140 градаций находят- ся в промежутке от 0 до 500 Гц4. На восприятии высоты звука чистых тонов сказываются также интенсивность и длительность звучания. В частности, низкий чистый тон покажется еще более низ- ким, если увеличить интенсивность его звучания. Обратная ситуация наблюдается с высокочастотным чистым тоном — увеличение интенсивности звучания делает субъективно воспринимаемую высоту тона еще более высокой. Существует несколько различных шкал, предназначенных для измерения высо- ты тона как параметра ощущения. Единицей измерения одной из них является мел (“melody” — “мелодия”). На этой шкале равное изменение частоты в мелах соответствует равному изменению ощущения высоты тона. Уже привычная нам шкала частот с единицей измерения “герц” такого свойства не имеет. Например, изменения частоты от 500 до 1000 Гц и от 1000 до 2000 Гц воспринимаются на слух слушателем, как неравные (т.е. слушатель затрудняется определить степень нера- венства изменений высоты тона). В то же самое время звуковой сигнал с частотой 1000 мел кажется слушателю ровно в два раза “выше”, чем сигнал с частотой 500 мел, и в два раза “ниже”, чем сигнал с частотой 2000 мел. На рис. 3.4 показан график соотношения между шкалами герц и мелов. Как видно на графике, частоте 2000 Гц соответствует 1521 мел, тогда как часто- те 6000 Гц — 2545 мел. Эмпирическая формула перевода герц в мелы выглядит следующим образом: [л»ел] = 1127,01048 log10 1+^ где f — частота, измеренная в герцах, т — частота, измеренная в мелах. Формула перевода мелов в герцы: т [л«ел] f [Лу] = 700- е1127’01048 -1 k ) “Общей точкой” двух шкал является отметка 1000 мел, соответствующая часто- те 1000 Гц при громкости звука 40 дБ (о громкости речь пойдет ниже). Шкала ме- лов практически совпадает со шкалой герц в пределах от 0 до 500 Гц. Чтобы слуховой аппарат человека смог отличить один тон от другого, два тона должны возбуж- дать участки базилярной мембраны, удаленные друг от друга на расстояние не менее 52 мкм (что соответствует приблизительно 3,9 мел). 106 Часть I. Образование и распространение звука...
f [^] 7500 Рис. 3.4. График соотношения между шкалами герц и мелов Уже упомянутая нами единица измерения Барк, как и мел, является достаточно распространенной единицей измерения высоты тона. При этом шкалы барков и ме- лов очень близки. Одна из существующих эмпирических формул перевода герцев в барки выглядит следующим образом: b [Ьарк] -13 • arctg(0,00076/ [Zi/]) + 3,5 • arctg где f — частота, измеренная в Гц, Ъ — частота, измеренная в Барк. Итак, частотные параметры звука могут измеряться в герцах, мелах и Барках. Герц — это единица измерения, которой удобно пользоваться при проведении спек- трального анализа. Мел и Барк — это психофизиологические акустические едини- цы измерения высоты тона, используемые в психоакустике при оценке субъектив- ной высотой тона. На рис. 3.5 показан график соотношения трех шкал: шкала бар- ков (сплошная линия), шкала мелов (пунктирная линия) и шкала герц (совпадает с осью абсцисс). Для удобства сравнения графиков шкалы барков и мелов нормали- зованы (т.е. масштабированы так, что максимальным значением на шкалах явля- ется единица). Как видно из графика, шкалы барков и мелов приблизительно совпадают, хотя некоторые расхождения наблюдаются в области средних частот. Глава 3. Восприятие звука человеком... 107
Рис. 3.5. График соотношения трех шкал Длительность звука сказывается на высоте тона критическим образом. Так, очень кратковременное звучание (менее 15 мс) любой частоты покажется на слух просто резким щелчком — человек не сможет различить высоту тона для такого сигнала. Высота тона начинает восприниматься лишь после 15 мс для частот в полосе 1000-2000 Гц и лишь спустя 60 мс — для частот ниже 500 Гц. Это явление называется инерционностью слуха. Инерционность слуха связана с устройством базилярной мембраны. Кратковременные звуковые всплески не могут заставить мембрану резонировать на нужной частоте, а значит, мозг не получает информа- цию о высоте тона при очень коротких звуках. Минимальное время, требуемое для распознавания высоты тона, зависит от частоты звукового сигнала, а точнее — от длины звуковой волны. Чем выше частота звука, тем меньше длина звуковой вол- ны и тем меньше инерционность слуха, т.е. тем быстрее мозг улавливает звуковые колебания. В природе мы почти не сталкиваемся с чистыми тонами. Звучание любого му- зыкального инструмента является сложным и состоит из множества частотных со- ставляющих. Как мы сказали выше, даже при очень сложных звуковых колебани- ях слух человека способен распознать высоту звучания. Тем не менее даже при одинаковой высоте звучания звучание, например, скрипки отличается на слух от звучания рояля. Это связано с тем, что, помимо высоты звучания, слух способен оценивать также “окрас” звучания, т.е. его тембр. Тембром звука называется та- кое качество звука, которое, вне зависимости от частоты и амплитуды, позволяет отличить одно звучание от другого. Тембр звука зависит от общего спектрального состава звука и соотношения амплитуд составляющих спектра и фактически не за- висит от высоты основного тона. Другими словами, тембр звука с одним и тем же 108 Часть I. Образование и распространение звука...
основным тоном определяется составом обертонов (их частотами и амплитудами), а также характером нарастания амплитуд в начале звучания и их спадания в конце звучания. Немалое влияние на воспринимаемый тембр звучания оказывает явле- ние инерционности слуховой системы. Оно выражается, например, в том, что на распознавание тембра слуховой системе требуется около 200 мс. На рис. 3.6 пред- ставлены сигналограммы двух звуковых сигналов — трубы и фортепиано. Фортепиано А Труба Рис. 3.6. Сигналограммы звучания трубы и фортепиано Оба звуковых сигнала представляют собой запись ноты “ля” первой октавы. Высота тона у обоих сигналов одинакова и определяется периодом колебаний (оба графика вмещают ровно по два периода колебаний). Тем не менее слух совершенно ясно отличает звучание одного инструмента от другого благодаря разнице в форме периода (т.е. разнице в формах кривых в пределах периода). Надо заметить, что сама по себе воспринимаемая высота тона тоже зависит от тембра звука. Так, например, высота тона для звуков с богатым спектром опреде- ляется слуховой системой даже в том случае, если из них удалить основной тон. 3.2.2. Интенсивность и громкость звука Интенсивность звуковой волны (сила звука) — это параметр, характеризующий звук не как психофизиологическое, а как физическое явление. Однако между ин- тенсивностью и громкостью звука существует тесная взаимосвязь, а именно — уро- вень громкости звука является функцией его интенсивности и частоты. Рассмот- рим сначала параметр “интенсивность звука”. Итак, интенсивностью звука (или силой звука) I называется количество звуко- вой энергии W , переносимой звуковой волной за единицу времени t через единицу площади поверхности S, нормальной к направлению распространения звуковой волны: Глава 3. Восприятие звука человеком... 109
l=XL=!L. , Вт/ (3.1) St S /м w где N = — — звуковая мощность, Вт; W — звуковая энергия, Дж; S — площадь t 3 поверхности, перпендикулярной к направлению распространения звуковой волны (звука), м . Значение интенсивности звука в течение периода меняется от нуля до макси- мального значения. Поэтому по формуле (3.1) получаем некоторое усредненное значение интенсивности. Эта формула справедлива только в случае, когда t» Т, где Т — период колебания звуковой волны. Так как период звуковых волн, воспри- нимаемых человеком, лежит в пределах 0,5 • 10^ < Т <0,05 с, полагая в формуле (3.1) t = 1 с, мы не выходим из области, для которой эта формула справедлива. Для плоской синусоидальной звуковой волны интенсивность звука может быть также определена по формуле Р 2 Р^ /=_£_ = Zk , Вт/ (3.2) 2рС рС / м где Р3 и — соответственно амплитуда и эффективное (среднеквадратичное) звуковое давление, Н/ 2; р — плотность среды (воздуха), кг/ ; С — скорость звука, м/с . / м / м3 Мерой силы слухового ощущения является громкость звука. Громкость звука — это психофизиологическая характеристика восприятия звука, определяющая ощущение интенсивности (силы звука), т.е. громкость звука является мерой силы слухового ощущения. Громкость звука нарастает непропорционально увеличению интенсивности сигнала. На ощущаемую громкость влияют величина звукового давления, частота и длительность звукового сигнала. Чтобы правильно судить о связи ощущения звука (его громкости) с раздражением (уровнем силы звука), нуж- но учитывать, что интенсивности звука соответствует ощущение громкости звука, которое возрастает значительно медленнее, чем увеличивается сила звука, подчи- няясь закону Вебера-Фехнера: прирост силы ощущения пропорционален логариф- му отношения интенсивностей двух сравниваемых раздражений. Величина, оценивающая громкость звука, — это уровень интенсивности звука Lz, который определяется соотношением L,=* logl0y, дБ, (3.3) *0 где I— измеряемая интенсивность (сила) звука, ^т/ 2 ; /о==1О-12, ^т/ 2 — интен- / м / м сивность самого слабого звука, воспринимаемого человеческим ухом, принятая за порог интенсивности (т.е. за нижний предел чувствительности (слышимости) человеческого уха); k — коэффициент пропорциональности: при k = 1 уровень зву- ка выражается в белах, при k = 10 уровень звука выражается в децибелах, 110 Часть I. Образование и распространение звука...
дБ (см. приложение Б). На практике используется единица “децибел” , так как ми- нимальный прирост громкости, воспринимаемый ухом, примерно равен 1 дБ. При 1 = 1о Li -10 1°g10 2 = 0 , т.е. нижний уровень интенсивности (слышимости) звука равен 0 дБ. Согласно выражению (3.2), интенсивность звука 10 можно определить как Р2 / / - 0 Вт/ 0 рС ’ /м2 ’ отсюда ^o^=V^oPC=21O-5 Н/ / м где величина произведения рС (акустическое сопротивление) для воздуха — рС = 400 (р = 1,21 кг/у, С = 331,3 м/ при z = 0 °C). Величину МС /м /С Ро эф =210'5 ^/2 называют порогом звукового давления; это наименьшая вели- чина эффективного звукового давления, соответствующая порогу интенсивности 10. Теперь объясним существующее понятие порога слышимости. Порогом слы- шимости принято называть то наименьшее значение величины эффективного зву- кового давления, при котором звук еще воспринимается органами слуха (это дав- ление мы обозначили .=210-5 Н/ 2, т.е. порог звукового давления). Порог слышимости также зависит от частоты звука и может достигать своего минималь- ного значения в широком диапазоне частот (700-6000 Гц). Поэтому принят так на- зываемый стандартный порог слышимости, соответствующий частоте f* = 1000 Гц (стандартная частота), отсюда =210-5 Н/ 2 (стандартный порог звукового / м давления при стандартной частоте /0*) и /q = 10“12, 2 (стандартная интенсив- / м ность звука при стандартной частоте /0*). Переходя к логарифмическим величинам, уровень звукового давления Lp мож- но представить следующим образом: L,,=101og)0-^ = 201ogIO-^, дБ, *0 эф *0 эф (3.4) Упомянутый выше закон Вебера-Фехнера является приближенным. Примени- тельно к психофизиологической акустике этот закон недостаточно точно учитывает влияние частоты звука на его громкость. Поэтому для сравнения громкости звуко- вых волн всевозможных частот пользуются величиной, которая называется уров- нем громкости звука и выражается следующим образом: Глава 3. Восприятие звука человеком... 111
£ = 20 1og10-4*-, дБ, (3.5) ^0 эф где РД — эффективное давление звука при стандартной частоте (f0 = 1 000 Гц) рав- ногромкого с исследуемым звуком. Для звуковых волн частотой f= 1000 Гц уро- вень громкости L* совпадает с уровнем звукового давления Lp , т.е. L* -Lp. При рассмотрении сложного звука его интенсивность может быть представлена как сумма интенсивностей отдельных составляющих: i=£/v) V=1 где Zv ( v = 1, 2, 3, ...) — интенсивность отдельных гармонических составляющих звука (или отдельных источников). Соответственно, для звукового давления можно записать: ^=^1+^2+-+^„=Z^v. (3-6) V=1 где v — V -я составляющая эффективного звукового давления. Аналогично для любой V-й составляющей уровень звукового давления Ц, можно записать как Р1 Zv=101og10-^, дБ. *0 эф Из последнего выражения путем элементарного математического преобразова- ния получим р2 р* 2 1 Гэф v Г0 эф 1и Подставив последнее выражение в (3.6), а затем в (3.4), в результате получим Lp =10 1og10ХЮ10 , дБ. V=1 Таким образом, при наличии п одинаковых источников суммарный уровень звукового давления Lp = Ц, +10 - logI0 п , где — уровень звукового давления каждо- го источника звука. Например, если в помещении установлено 5 одинаковых аку- стических колонок, каждая из которых при частоте f=l ООО Гц выдает громкость 60 дБ, то в этом случае суммарный уровень громкости в помещении от этих источ- ников звука составит = 60 + 10-log105 = 67 дБ. 112 Часть I. Образование и распространение звука...
В табл. 3.2 приведены приблизительные значения уровней громкости звуков из различных источников. Таблица 3.2. Приблизительные значения уровней громкости звуков различных источников Источник звука Уровень громкости, дБ Интенсивность (сила) звука, Вт/ /м2 Эффективное давление, н/ /м2 Нижний предел чувствительности человеческого уха 0 10“2 2-10“ Шепот, шорох листьев 10 10” 6,5-10“ Тихий сад 20 10“° 2-10“ Скрипка пианиссимо 30 10“ 6,5-10“ Шаги, тихая музыка 40 10“ 2-10“ Шум в ресторане 50 10“ 6,5- 10“ Разговор, шум в магазине 60 10“ 2-10“ Громкая речь, шум автомобиля 70 10“ 6,5-10“ Шум в машинописном бюро 80 10“ 0,2-0,4 Шумная улица, гудок автомобиля 90 10“ 0,645 Сирена, фортиссимо оркестра 100 10“ 2,04 Пневматический молот 110 10“ 6,45 Гром, реактивный двигатель 120 1 20,4 Болевой порог 130 10 64,5 Используя закон Вебера-Фехнера и на основе экспериментальных исследований Флетчера и Мансона, которые изучали восприятие человеком громкости чистых тонов на различных частотах, была построена известная шкала единиц измерения громкости звука — так называемые кривые равной громкости (рис. 3.7). Глава 3. Восприятие звука человеком... 113
По этой шкале измеряется не абсолютное значение громкости, а уровень громкос- ти звука, который отсчитывается от условного нуля (аналогично уровню звукового давления). За условный нуль громкости принимается громкость эталонного звука при частоте f0* = 1000 Гц и звуковом давлении Рц . = 210'5 2, т.е. при стан- дартном пороге слышимости, когда звук еще воспринимается органами слуха. При этом единицей измерения уровня громкости является фон. Под одним фоном (от англ, “phon” ) следует понимать уровень громкости звука, для которого уровень звукового давления равногромкого с ним звука частоты 1000 Гц равен 1 дБ. Таким образом, для эталонного звука частоты 1000 Гц уровень громкости в фонах числен- но равен уровню звукового давления в децибелах. Уровень громкости звуков дру- гих частот является функцией частоты и уровня звукового давления. Чтобы выра- зить уровень громкости какого-либо звука, необходимо сравнить его с уровнем громкости звука на эталонной частоте /0* = 1000 Гц. Уровень громкости любого звука, выраженный в фонах, численно равен уровню звукового давления равно- громкого ему эталонного звука, выраженного в децибелах. Кривые равной громкости, представленные на рис. 3.7, показывают, что чело- век (среднестатистический) начинает слышать звук с определенного значения уровня звукового давления, и на различных частотах уровень звукового давления, начиная с которого звук воспринимается ухом, оказывается различным. 114 Часть I. Образование и распространение звука...
Каждая кривая на графике показывает уровень равной громкости с начальной точкой отсчета (точка А) на частоте 1000 Гц. На этом графике каждая линия соот- ветствует некоторому значению громкости, измеренной в фонах. Например, линия “10 фон” показывает уровни сигнала в децибелах на разных частотах, восприни- маемых среднестатистическим слушателем, как равные по громкости сигналу с частотой 1000 Гц и уровнем 10 дБ. Важно заметить, что приведенные кривые яв- ляются усредненными и ни в коем случае не эталонными. Современные исследова- ния свидетельствуют, что вид кривых в достаточной степени зависит от условий проведения измерений, акустических характеристик помещения, а также от типа источников звука (громкоговорители, наушники). Поэтому эталонного графика кривых равных громкостей не существует. Существует еще одна относительная единица измерения уровня громкости зву- ка — сон (от лат. “sonus” — “звук” ). Уровень громкости величиной 1 сон соответ- ствует уровню громкости 40 фон при частоте звука 1000 Гц. При каждом увеличе- нии громкости звука на 10 фон число единиц “сон” приблизительно удваивается. График отношения шкалы сонов и шкалы фонов представлен на рис. 3.8. 0.063 0.125 0.25 0.5 1 2 4 8 16 32 64 128 256 III I I I соны III I I I фоны 0 10 20 30 40 50 60 70 80 90 100 ПО 120 Рис. 3.8. Шкала сонов и шкала фонов Под конец рассматриваемой темы заметим, что под уровнем громкости на прак- тике иногда подразумевают уровень интенсивности звука. Для достаточно мощных источников звука такая путаница понятий вполне справедлива — различие между субъективной громкостью и ее уровнем (интенсивностью) для таких источников невелико, в то же время для источников малой мощности это различие становится большим. Заметим также, что субъективная громкость природных сигналов выше, чем субъективная громкость чистых тонов той же интенсивности. 3.2.3. Порог слышимости и маскировка Как мы отметили ранее, уровни равной громкости звука для слуха человека не остаются постоянными с изменением частоты, т.е. чувствительность слуховой сис- темы человека зависит как от громкости звука, так и от его частоты. И порог слы- шимости также не одинаков на разных частотах, например порог слышимости сиг- нала на частоте около 3 кГц составляет приблизительно 0 дБ, а на частоте 200 Гц — около 15 дБ. Напротив, болевой порог слышимости мало зависит от частоты звука и колеблется в пределах 110-130 дБ. 5 Порогом болевого ощущения называется то наибольшее эффективное давление звука, при кото- ром восприятие звука еще не вызывает болевого ощущения. Если эффективное давление звука превосходит эту величину, то нормальное восприятие звука становится невозможным. Глава 3. Восприятие звука человеком... 115
График порога слышимости6 представлен на рис. 3.9. Обратим внимание, что, поскольку острота слуха с возрастом меняется, график порога слышимости в верх- ней полосе частот различен для разных возрастов. Частотные составляющие с амплитудой ниже порога слышимости (т.е. находящиеся под графиком порога слышимости) оказываются незаметными на слух. На рис. 3.10 представлена диаграмма слуховых восприятий, на которой прибли- зительно показаны области громкости речи и музыки, а также порог риска и боле- вой порог. Кривая порога слышимости, по сути, представляет собой кривую равной громкости для минимальной воспринимаемой громкости и соответствует прибли- зительно 4 фонам (см. рис. 3.7). Интересным и исключительно важным является тот факт, что порог слышимо- сти слуховой системы, так же как и кривые равных громкостей, является непосто- янным в разных условиях. Представленные выше графики порога слышимости справедливы для полной тишины. В случае проведения опытов по измерению поро- га слышимости не в полной тишине, а, например, в зашумленной комнате или при наличии какого-то постоянного фонового звука, графики окажутся другими. Это и График порога слышимости строится следующим образом. Громкость тестового сигнала опреде- ленной частоты увеличивают (начиная от 0) до тех пор, пока слушатель начинает слышать сиг- нал. Полученное значение громкости фиксируют. Опыт повторяют для разных частот. 116 Часть I. Образование и распространение звука...
не удивительно. Идя по улице и разговаривая с собеседником, мы часто вынужде- ны прерывать свою беседу, когда мимо нас проезжает какой-нибудь грузовик, по- скольку шум грузовика не дает нам слышать собеседника. Этот эффект называется частотной маскировкой. На рис. 3.11 схематично показано, каким образом чистый тон частоты fm создает маскирующий эффект и видоизменяет кривую порога слы- шимости в тишине. Глава 3. Восприятие звука человеком... 117
Как видно из рисунка, присутствие чистого тона при проведении измерений по- рога слышимости ощутимо видоизменяет его график (сплошная линия) по сравне- нию с тем же опытом, проведенным в тишине (пунктирная линия). Частотная со- ставляющая f имеет амплитуду выше порога слышимости в тишине, а значит, была бы отчетливо слышна в условиях тишины. Наличие же маскирующего тона fm из- меняет порог слышимости, “накрыв” его маскирующим порогом (следует отметить несимметричность формы маскирующего порога: в сторону увеличения частоты он более пологий). В результате частота f оказывается ниже порога слышимости и на слух не ощущается (в то время как сама составляющая fm слышна хорошо). Гово- рят, что частота fm маскирует частоту f. Конечно, приведенный пример являет- ся одним из простейших, однако он наглядно демонстрирует эффект частотной маскировки. График маскирующего порога может оказаться куда более сложным при наличии нескольких маскирующих тонов разных амплитуд и частот. Причиной эффекта частотной маскировки является уже рассмотренная нами схема восприятия звука слуховой системой. Сильный по амплитуде тон некоторой частоты fm вызывает возмущения базилярной мембраны на некотором ее участке. Близкий по частоте, но более слабый по амплитуде тон с частотой f из этой же кри- тической полосы возбуждает соседний участок базилярной мембраны и уже не спо- собен заметно повлиять на ее колебания, и поэтому остается “незамеченным” нервными окончаниями и мозгом. Как в качестве маскирующего, так и в качестве маскируемого сигнала, может выступать не только тон, но и шум. Похожим на описанный выше образом тон может маскировать шум или другой сигнал в некоторой частотной полосе, и наоборот — шум может маскировать тон. Если в качестве фонового маскирующего звука использовать широкополосный белый шум (см. раздел 3.4.2), то кривая порога слышимости окажется накрытой маскирующим порогом, высота которого зависит от уровня шума. На рис. 3.12 графически показана зависимость высоты маскирующего порога от уровня маски- рующего белого шума. Сплошная кривая на графике показывает порог слышимости в тишине, пунк- тирные кривые показывают высоту маскирующего порога при наличии фонового белого шума с указанным (в децибелах) уровнем. Как видно, увеличение уровня шума поднимает маскирующий порог, маскируя все более громкие звуки. В этой связи нельзя не вспомнить критические полосы, рассмотренные ранее. Как мы уже говорили, мозг как бы обобщает, интегрирует информацию в пределах одной критической полосы, в то время как информация из разных критических полос анализируется мозгом раздельно. Сказанное напрямую касается эффекта маскировки. В частности, эффект маскировки одного тона другим хорошо прояв- ляется внутри одной критической полосы и почти не проявляется тогда, когда мас- кирующий и маскируемый сигналы находятся в разных критических полосах. Эффект частотной маскировки дает следующее определение ширины критичес- кой полосы. Предположим, что в качестве маскирующего некоторый тон сигнала выступает белый шум в какой-то достаточно широкой полосе частот, причем маски- руемый тон находится внутри полосы шума и шум едва маскирует тон. Сужение час- тотной полосы маскирующего шума приводит к изменению маскирующего порога. 118 Часть I. Образование и распространение звука...
Такое значение ширины частотной полосы маскирующего шума, при котором маскируемый тон начинает ощущаться на слух, соответствует ширине крити- ческой полосы. Как мы говорили, эта ширина зависит от частоты, на которой рас- положен центр полосы, и составляет от 10 до 20 процентов от ее значения. А, дБ 130 120 НО 100 90 20 40 60 100 200 500 1000 2000 5000 10000 20000 * Рис. 3.12. График зависимости высоты маскирующего порога от уровня шума Рассмотренный нами эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако ввиду инерционности слуха эффект маскировки может простираться и во времени. В частности, одна частотная составляющая может маскировать другую частотную составляющую даже тогда, когда они появляются в спектре не одновременно, а с некоторой задержкой во времени. Этот эффект называется частотно-временной маскировкой. В случае, когда маскирующий тон прекращается во времени раньше появления маскируемого тона, эффект называют постмаскировкой. В случае же, когда маскирующий тон появляется позже маскируемого (возможна и такая мас- кировка), эффект называется пред маскировкой. Временная предмаскировка является вполне логичным эффектом, поскольку, как мы говорили, слушателю нужно некоторое время, чтобы начать ощущать тот или иной тон (объяснение этому снова кроется в механизме принципа действия ба- зилярной мембраны, которая не всегда успевает среагировать на очень кратковре- менное возбуждение). В случае же, когда еще до нужного момента тон оказывается замаскированным другим тоном, слух так и не успевает зафиксировать присутст- вие замаскированного тона, и последний оказывается неуслышанным. Глава 3. Восприятие звука человеком... 119
Постмаскировка также объясняется инерционностью слуха. Для переключения слуха с восприятия одного тона на восприятие другого требуется некоторое время. Некоторый (маскирующий) тон даже после его исчезновения как бы “продолжает звучать” в голове слушателя еще определенный промежуток времени (время зату- хания колебаний базилярной мембраны). Если за этот промежуток времени успева- ет появиться и исчезнуть некоторый близкий к предыдущему по частоте тон, то он оказывается замаскированным, т.е. незамеченным органами слуха. На рис. 3.13 продемонстрирован эффект маскировки во времени в виде диа- граммы, иллюстрирующей длительность и уровень маскировки в случае пред- и постмаскировки. Рис. 3.13. Диаграмма временной маскировки Из диаграммы видно, что эффект предмаскировки появляется приблизительно за 15 мс до маскирующего тона. Начиная с момента появления маскирующего тона имеет место одновременная (частотная) маскировка. После исчезновения маски- рующего тона на протяжении еще приблизительно 150 мс можно наблюдать эф- фект постмаскировки. Естественно, значения времени усреднены и могут сильно меняться в зависимости от частоты маскирующего тона. Эффект частотной маскировки, а также понятия порога слышимости и маски- рующего порога являются ключевыми и широко используются в самых различных технологиях сжатия цифровых аудиоматериалов. 3.3. Восприятие пространственности звука 3.3.1. Бинауральный эффект Человек способен определять, откуда слышен звук. Эту способность называют бинауральным эффектом. Бинауральный эффект можно объяснить, исходя из ос- новных положений физиологической акустики. Уши человека расположены на оп- ределенном расстоянии “по ширине головы”. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и слуховой аппарат (мозг) интерпретирует это, как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук попадает в одно ухо быстрее, чем 120 Часть I. Образование и распространение звука...
во второе, что позволяет мозгу соответствующим образом фиксировать это, как прием сигнала слева или справа, и даже приблизительно определять угол направ- ления, в котором находится источник звука. Слуховой аппарат человека способен оп- ределить направление звукового сигнала по разнице во времени попадания сигнала в левое и правое ухо в пределах до 1 мс. Такой способ определения направления ис- пользуется слуховым аппаратом (мозгом) в полосе частот 300-1000 Гц. Направление, в котором находится источник звука в полосе частот выше 1000 Гц, определяется мозгом человека путем анализа громкости звука. Дело в том, что звуковые волны с частотой выше 1000 Гц сравнительно быстро затухают в пространстве. Поэтому амплитуды звуковых волн, доходящих до левого и право- го ушей слушателя, довольно заметно отличаются, что позволяет мозгу определять направление прихода сигнала по разнице громкостей. Немаловажной здесь являет- ся способность человека поворачивать голову в сторону кажущегося источника звука. Эта способность является естественным механизмом контроля правильности определения направления, в котором находится источник звука. На рис. 3.14 показан источник звука, смещенный влево относительно центра головы слушателя. Поскольку расстояние Ll от левого уха до источника меньше, чем соответствующее расстояние LR до правого уха, то звук от источника приходит быстрее в левое ухо, и, кроме того, в нем же звук кажется громче. Несмотря на ка- жущуюся незначительную разницу в расстояниях Ll и Ьд, слуховая система чело- века все же фиксирует эту разницу и слушатель, даже закрыв глаза, может вполне уверенно определить, что звук приходит к нему слева. Рис. 3.14. Физический источник расположен слева от слушателя Глава 3. Восприятие звука человеком... 121
Способность слухового аппарата человека определять направление звукового сигнала по разнице во времени прихода сигнала в левое и правое ухо, а также спо- собность идентифицировать разницу в интенсивности слухового ощущения, вызы- ваемого звуковой волной в левом и правом ушах, используется в стереофонии7. Так, имея два физических источника звука, можно создать у слушателя ощущение наличия мнимого источника звука, расположенного между двумя физическими. Причем этот мнимый источник звука можно “расположить” в любой точке на ли- нии, соединяющей два физических источника. Для этого нужно воспроизвести одну аудиозапись (например, фонограмму со звуком рояля) через оба физических источника, но сделать это с некоторой временной задержкой в одном из них и соот- ветствующей разницей в громкости. Изменяя указанную временную задержку (увеличивая или уменьшая) в одном из физических источников и одновременно изменяя в этом источнике громкость звука (соответственно увеличивая или умень- шая), можно менять расположение мнимого источника звука на упомянутой выше мнимой линии. Мнимая линия, соединяющая два физических источника звука при воспроизведении звукового сигнала, на которой располагаются мнимые источники звука, называется стереобазой. Предположим, что два динамика расположены перед лицом слушателя и рас- ставлены по сторонам под равными углами к слушателю (рис. 3.15). правый физический источник левый мнимые физический источник источники слушатель Рис. 3.15. Диаграмма восприятия слушателем звуковой стереокартины “Стереофония” происходит от греч. “stereos” — “объемный”, “пространственный”. “Стереофо- ния” в устаревшей, но наиболее верной трактовке — донесение до слушателя пространственного звучания; в более современной (но исторически искаженной трактовке) — донесение до слушате- ля звуковой картины с помощью двухканальной системы. 122 Часть I. Образование и распространение звука...
Теперь воспроизведем одновременно (т.е. с нулевой временной задержкой) и с одинаковой громкостью одну и ту же запись через оба источника. Поскольку время прихода сигнала в оба уха слушателя (так же, как и громкость сигналов справа и слева) одинаково, у слушателя создастся ощущение, что источником звука являет- ся точка пространства, расположенная ровно по центру между динамиками. Про- ведем этот же эксперимент, задержав сигнал в левом динамике на 0,5 мс и немного ослабив его амплитуду. В результате мнимый источник звука сдвинется с точки зрения слушателя вправо, так как сигнал придет в правое ухо слушателя раньше, чем в левое, и будет слышен в нем громче. Дальнейшее увеличение временной за- держки и соответствующее понижение громкости сильнее сдвигает мнимый источ- ник вправо (рис. 3.16). Рассмотрим возникновение стереоэффекта несколько шире. Если допустить, что расстояние между двумя физическими источниками, т.ё. стереобаза, равно 2L (рис. 3.16), то график зависимости величины смещения от центра стереобазы у (у — ) мнимого источника звука в функции временной задержки сигнала Ат в одном из каналов при одинаковых уровнях громкости в них будет иметь вид, пред- ставленный на рис. 3.17. слушатель Рис. 3.16. Диаграмма восприятия слушателем звуковой стереокартины (мнимый источник сдвигается вправо) На графике видно, что нулевая задержка (Ат = 0 мс) сигнала в каналах соответ- ствует нулевому смещению мнимого источника звука от центра стереобазы (точка А). При Ат = 0,4 мс, например, в левом канале, мнимый источник звука смещается в точку В посредине между центром стереобазы (точка А) и источником опере- жающего сигнала в правом канале (при Ат = 0,4 мс, у = 0,5 , что соответствует сме- щению источника в точку у = , т.е. в точку В). При Ат = 1 мс мнимый источник звука окажется расположенным на месте физического источника опережающего сигнала (при у = 1 y = L). Глава 3. Восприятие звука человеком... 123
Рис. 3.17. График зависимости у = f(At) при одинаковых уровнях громкости в каналах Теперь проанализируем график зависимости величины смещения У мнимого источника звука в функции разницы уровней громкости в каналах AL* при Ат = О (рис. 3.18). Из графика8 видно, что при равной громкости сигналов в левом и правом кана- лах (AL* = 0) мнимый источник звука оказывается в центре между каналами (точка Графики уЛ=/(Ат) и у = f общеизвестны; они являются усредненными и справедливы для полосы частот приблизительно от 500 до 5000 Гц. 124 Часть I. Образование и распространение звука...
А). Разница уровней громкости, равная 7 дБ (AL* = 7), например, в пользу правого канала смещает мнимый источник звука в точку В, находящуюся посредине между центром стереобазы и источником более громкого сигнала (правый канал). При разнице уровней громкости, равной 15 дБ и более, мнимый источник звука окажет- ся расположенным на месте физического источника более громкого сигнала. Возвращаясь к обсуждению влияния временной задержки сигнала, следует от- метить следующее. При одинаковой громкости сигнала в обоих физических источ- никах увеличение временной задержки, например, во втором канале от 0 до 1 мс вызывает постепенное смещение мнимого источника сигнала от центра к первому физическому источнику опережающего сигнала. Наращивание временной задерж- ки сигнала во втором источнике в пределах до 30 мс уже не влияет на локализацию мнимого источника звука; мнимый источник звука окажется расположенным на месте физически существующего источника, излучающего опережающий сигнал (первый источник). Источник звука, излучающий задержанный сигнал, при этом почти не ощущается (источник опережающего сигнала маскирует источник за- держанного сигнала), хотя практика показывает, что его присутствие добавляет звучанию четкости и громкости. Дальнейшее наращивание задержки до 35-50 мс влечет за собой потерю четкости звучания и появление эффекта перенасыщенности и гулкости звука, т.е. начинает ощущаться звучание второго источника сигнала; локализация сигнала при этом по-прежнему не меняется. Если время задержки сигнала во втором канале увеличить до величины 50 мс и более, то общее звучание перестанет быть цельным и, с точки зрения слушателя, “расщепится” на два — основное звучание и его отзвук (эхо). Описанное явление имеет отношение к уже рассмотренному нами эффекту Хааса (см. раздел 1.2.4). Отметим здесь, что точные временные рамки этого явления зависят от частоты звука, типа источников звука и других факторов. Используя описанный бинауральный эффект, можно при помощи двухканаль- ной аудиозаписи и соответствующего воспроизведения донести до слушателя почти такую же картину звучания, какую он ощутил бы сам, если бы лично присутство- вал, например, на каком-нибудь концерте. Действительно, представим себе, что мы установили два микрофона (каждый из которых осуществляет независимую за- пись) на равных расстояниях от центра оркестровой ямы (рис. 3.19). Тогда, как следует из рисунка, звук альта будет приходить в оба микрофона од- новременно и слышаться в них одинаково громко; звук скрипки будет приходить в левый канал записи чуть раньше, чем в правый, и звучать слева чуть громче; звук гитары будет хорошо слышен в точке, где расположен правый микрофон, и почти не слышен в точке, где расположен левый, и т.д. Теперь, если полученные от обоих микрофонов аудиозаписи воспроизвести с помощью двух правильно расставленных перед слушателем динамиков (см. рис. 3.16), звук гитары будет идти только из правого динамика, звук альта — из обоих одновременно, а звук скрипки — из левого раньше и громче, чем из правого. Таким образом, мнимый оркестр как бы распо- ложится на невидимой линии, соединяющей два динамика, а вместо микрофонов перед центром оркестровой ямы (точка А на рис. 3.19) будет стоять сам слушатель. При этом слушатель получит почти полное представление о “живом” звучании ор- кестра. Такая (мысленно проделанная нами) двухканальная запись называется Глава 3. Восприятие звука человеком... 125
стереофонической, а ширина, которую занимает мнимый оркестр на пространст- венной стереокартине, называется шириной стереопанорамы9. Рис. 3.19. Запись звучания оркестра с помощью двух микрофонов Если осуществить запись звукового сигнала с помощью одного приемника (микрофона), то при воспроизведении этого сигнала через один или даже несколько динамиков слушатель не сможет ощутить пространственность оригинального зву- чания, поскольку записанный сигнал есть монофоническая запись (одноканальная запись), т.е. запись оригинального звучания, сделанная лишь из одной точки про- странства. Качество донесения до слушателя оригинальной пространственной звуковой картины можно повышать путем добавления в запись дополнительных каналов (трех- и более канальная запись), осуществляя одновременно несколько отдельных записей в трех (и более) разных точках пространства. Несмотря на все вышеизложенное, на самом деле для качественного донесения до слушателя “живого” пространственного звучания обычной стереофонической записи оказывается не всегда достаточно. Основная причина этого кроется в том, что стереосигнал, приходящий к слушателю от двух физических источников звука, позиционирует мнимые (слышимые) источники лишь в той плоскости, в которой расположены реальные (физические) источники звука. Естественно, “окружить слушателя звуком” при этом не удается. Заблуждением является и расхожая мысль о том, что объемное звучание обеспечивается квадрофонической системой (четырехканальной: два источника перед слушателем и два позади него). Вообще, любая многоканальная запись, вне зависимости от того, где и как расставлены микрофоны, позволяет донести до слушателя лишь такой звук, какой был “услы- шан” расставленной звукопринимающей аппаратурой (микрофонами), и не более Стереопанорама — это воображаемая слушателем поверхность излучения звуковых волн. Сте- реопанорама является частью стереобазы. Ширина стереопанорамы является максимально воз- можной при данном конкретном расположении физических источников звука, если она равняется ширине стереобазы (исключая специальные искусственные методы мнимого расширения стерео- панорамы). 126 Часть I. Образование и распространение звука...
того. Для воссоздания же более или менее реалистичного, действительно “объем- ного” звучания необходим принципиально другой подход, который учитывал бы особенности восприятия звука человеком. 3.3.2. Пространственное звучание Продолжим обсуждение вопроса о том, что нужно сделать, чтобы донести до слушателя оригинальное пространственное звучание. Суть проблемы заключается в следующем. Человек всегда хотел услышать у себя дома голос исполнителя, ре- акцию зала, шумовую атмосферу, например, концерта так, как если бы он сам присутствовал в концертном зале. Как это осуществить, что нужно делать с ори- гинальным звуком при его записи, как вообще нужно его записывать, какая зву- козаписывающая и звуковоспроизводящая аппаратура необходима, как она должна быть расставлена в пространстве — вот комплекс вопросов, на которые в конечном итоге нужно ответить, чтобы решить поставленную задачу. Попробуем найти под- ход к ее решению, для чего вернемся к упомянутому примеру с концертным залом. Звуковая волна, приходящая к каждому конкретному слушателю в зале, явля- ется очень сложной результирующей волной. Дело в том, что звук, исходящий, скажем, от исполнителя на сцене, расходится во все стороны от него, “рассыпаясь” на множество звуковых волн, часть из которых напрямую приходит к слушателю, а часть, отражаясь от сцены, стен, потолка, сидений, обивки, других слушателей, огибает различные препятствия (в том числе и голову самого слушателя), частично поглощается, трансформируется и только после этого достигает слухового аппарата слушателя. Таким образом, то, что слышит слушатель, есть сложная результи- рующая звуковая волна, являющаяся результатом суперпозиции множества дру- гих волн. Понятно, что состав этой волны зависит также и от положения слушате- ля в зале. Учитывая изложенное, можно сказать, что, в целом, задача донесения до сред- нестатистического слушателя настоящего живого звучания в записи (будь то зву- чание в концертном зале или где-то еще) состоит в как можно более точном модели- ровании всех тех процессов и преобразований, которые звук претерпевает на своем пути от настоящего источника звука к слушателю. От совершенства принятой мо- дели и правильности ее реализации зависит конечный результат — качество и дос- товерность воспринимаемого слушателем звучания при воспроизведении записи. Все общепринятые схемы звукозаписи и звуковоспроизведения, начиная с са- мой примитивной [один микрофон — устройство записи — громкоговоритель] и заканчивая базовой моделью на основе многоканальных систем, обобщенную схему которой можно описать как [т микрофонов — устройство высококачественной многоканальной записи — п динамиков], не могут сами по себе обеспечить по- настоящему реалистичного эффекта пространственного звучания. Справедливости ради следует сказать, что последняя схема способна доносить до слушателя звучание, близкое к реальному, или, точнее, имитировать его, но и она крайне далека от со- вершенства. Основная проблема описанных моделей звукозаписи и звуковоспроиз- ведения заключается в том, что они построены без учета всех упомянутых выше факторов, деформирующих исходную звуковую волну, а также без достаточного учета психофизиологических особенностей восприятия звука человеком. Глава 3. Восприятие звука человеком... 127
Как показывают исследования в области звука, без учета перечисленных выше факторов, влияющих на звуковую волну при ее распространении, а также без дос- таточного учета психоакустических особенностей восприятия звука человеком не- возможно добиться дальнейшего прогресса в области звукозаписи и звуковоспроиз- ведения. В основе более развитой модели, пришедшей на смену предыдущим, лежит сле- дующая концепция: источник звука, слушатель и пространство, в котором распро- страняется звук, — это некая система, на входе которой находится источник зву- ка, на выходе — слушатель, а все преобразования, которые претерпевает звук на своем пути, заключаются внутрь этой системы (рис. 3.20). источник звука пространство, в котором распространяется звуковая волна (комната / зал / стадион / открытая местность /...) слушатель система Рис. 3.20. Модель прохождения звука от источника к слушателю Суметь смоделировать происходящие внутри этой системы процессы — значит суметь смоделировать все то, что происходит со звуковой волной на ее пути от ис- точника звука к уху слушателя. Как изучить такую систему, как смоделировать происходящие в ней процессы? Один из подходов моделирования процессов внутри системы заключается в фи- зико-математическом моделировании на уже существующей научной и практиче- ской базах в области волновых процессов и психофизиологической акустики, а также в проведении дальнейших научных исследований (теоретических и экспе- риментальных) в этой области. Понятно, что такой путь моделирования сложный, трудоемкий и длительный, особенно когда это касается сложных систем (например, если нужно рассчитать и реализовать физико-математическую модель распространения звуковой волны в концертном зале с учетом всех перечисленных выше факторов). А вот если решать аналогичную задачу, например, для несложно- го (геометрически и пр.) помещения, то такой подход может быть реализован, хотя и в этом случае из-за различных допущений в существующих теоретических расче- тах возможна сравнительно большая погрешность на выходе системы. Поэтому существует второй, параллельный, так называемый эксперименталь- ный, подход к решению проблемы, суть которого состоит в следующем. Исследуе- мую систему в каждом конкретном случае рассматривают как некий “черный ящик”. Подавая на вход анализируемой системы различные тестовые звуковые сигналы, на выходе проверяют реакцию на эти сигналы и делают конкретные вы- воды о том, что происходит внутри данной конкретной системы, т.е. какие преоб- разования претерпевает звуковая волна. Создавая таким образом библиотеку — каталог тестов, можно воспроизвести искусственную модель, осуществляющую приблизительно те же преобразования, какие происходят внутри черного ящика (системы), и тем самым имитировать реальные процессы. Конечно, этот метод в 128 Часть I. Образование и распространение звука...
чистом виде также имеет свои допущения и погрешности, однако в совокупности с физико-математическим моделированием такой комбинированный подход дает неплохие результаты. Одна из технологий, основанных на описанной идее моделирования, получила название HRTF (Head Related Transfer Function — передаточные функции, относи- тельные головы). Суть HRTF— накопление библиотеки передаточных функций, описывающих психофизиологическую модель восприятия пространственности звучания слуховой системой человека. Для создания библиотек HRTF применяют- ся различные устройства и методики, одна из которых основывается на использо- вании искусственного манекена KEMAR (Knowles Electronics Manikin for Auditory Research). Суть проводимых измерений состоит в следующем. Манекен располагают в тестовом помещении (пространстве), моделирующем некую акустическую среду. Форма манекена повторяет форму тела человека. В уши манекена встраиваются микрофоны, с помощью которых ведется аудиоза- пись (эти микрофоны располагаются как бы на выходе исследуемой системы — окружающей среды, помещения). Звук воспроизводится источниками (на входе системы), расположенными вокруг манекена. В результате аудиозапись от каждо- го микрофона представляет собой звук, “прослушанный” соответствующим ухом манекена, и естественным образом учитывает все изменения, которые звук претер- пел на своем пути от источников к уху (отражение, поглощение, преломление, оги- бание препятствий, стен, углов, частей тела и пр.). Расчет передаточных функций HRTF производится путем сравнения оригинального, воспроизведенного звука и звука, “считанного” (“услышанного”) микрофоном в ухе манекена. По разнице различных параметров этих звуков оцениваются и анализируются изменения, ко- торые претерпевает звуковая волна при прохождении через систему. Собственно, сами опыты заключаются в воспроизведении разных тестовых и ре- альных звуковых сигналов, их записи с помощью манекена и дальнейшем анализе. Выражаясь математически, HRTF — это, по сути, набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе чело- века. Рассчитанные однажды опытным путем, HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Различные формы реализации HRTF нашли свое применение в разнообразных технологиях объемного звучания, в частности в мето- дах имитации пространственного звучания при воспроизведении звука с помощью наушников. Использование идеи HRTF, как оказалось, также не решает поставленную зада- чу в полной мере. Дело в том, что один и тот же комплект HRTF не подходит оди- наково для всех слушателей. Идея создания некоего сбалансированного усреднен- ного единого комплекта HRTF для среднестатистического слушателя, который смог бы подойти всем слушателям, не получила широкого распространения из-за ее проблематичности ввиду специфики индивидуального восприятия звука каждым слушателем в отдельности. Помимо проблемы необходимости усреднения HRTF, существует также про- блема, связанная с поворотами слушателем головы, когда речь идет о воспроизве- дении звука не через наушники. Дело в том, что если источниками звука являются, Глава 3. Восприятие звука человеком... 129
например, две акустические колонки, то для создания реального (естественного) пространственного звучания необходимо среди прочего точно отслеживать поворо- ты головы слушателя для соответствующей корректировки сигналов каждого фи- зического источника. Кроме того, при воспроизведении звука сигналы от двух колонок смешиваются, в результате чего появляются перекрестные искажения звуковых волн и бинауральный эффект ухудшается (чего, естественно, не происхо- дит при использовании наушников). В дополнение ко всему при использовании в качестве источников звука акустических колонок возникает проблема необходимо- сти расположения слушателя строго в определенной области пространства между источниками звука (поскольку библиотека HRTF не может быть рассчитана на лю- бое местоположение слушателя в пространстве). Область, в которой должен нахо- диться слушатель, называется Sweet Spot. Sweet Spot накладывает строгие ограни- чения на расположение слушателя. Если слушатель покидает область Sweet Spot, то звучание, создаваемое источниками звука, перестает восприниматься им как пространственное. Поэтому при разработке технологий пространственного звуча- ния перед разработчиками, помимо перечисленных проблем, возникает также про- блема необходимости расширения области Sweet Spot. Наряду с описанными проблемами реализации звучания с помощью HRTF у лю- бой системы звуковоспроизведения есть проблемы другого плана, например наушни- ки слабо справляются с воспроизведением фронтальных сигналов; при использова- нии наушников возникает проблема локализации звукового сигнала внутри головы слушателя, а также эффект бесконечного расширения стереобазы (стереопанорамы) из-за размещения источников звука строго по разные стороны от головы; двухка- нальные системы плохо обеспечивают восприятие слушателем звучания сзади; в реализации многоканальных систем слабым местом является необходимость дос- таточно точного расположения источников сигнала и другие проблемы. Конечно, существуют способы борьбы с этими проблемами, однако их эффективность не сто- процентна. Таким образом, несмотря на теоретически правильно выбранный об- щий подход к моделированию пространственного звучания, его практическая реа- лизация сталкивается с серьезными трудностями, связанными с необходимостью учета: множества особенностей реальных помещений, их конфигураций; расположения слушателя в пространстве (в том числе в динамике); особенностей звуковоспроизводящей аппаратуры и т.д. Тем не менее можно сказать, что подход, комбинирующий экспериментальное и физико-математическое моделирование, все-таки наиболее совершенен, поскольку он хотя бы теоретически учитывает все тонкости звукопередачи, а связанные с его реализацией сложности могут решаться в каждом конкретном случае с той или иной степенью надежности. 130 Часть I. Образование и распространение звука...
3.4. Музыкальный звук и шумы 3.4.1. Музыкальный звук Как вы уже успели заметить, уважаемый читатель, несмотря на общность фор- мулировки названия книги, излагаемый в ней материал ориентирован в основном на слышимый (человеком) звук, частотный диапазон которого находится прибли- зительно в пределах от 16 до 20 000 Гц. Понятие “слышимый звук” можно тракто- вать и понимать широко: это и музыкальный звук, и шумы, и человеческая речь, и звуки живой природы, животных, зверей, птиц и т.д. и т.п. По каждой из перечис- ленных тем можно проводить отдельные обширные исследования, писать статьи, книги и т.д. В этом разделе мы кратко остановимся на рассмотрении музыкального звука. Несмотря на кажущуюся чисто профессиональную специфику этого вопро- са, а также отдельных музыкальных понятий и терминов, тема “Музыкальный звук” наверняка будет полезна читателю. Рассмотрим отличительные особенности музыкального звука от перечисленных выше звуков. Музыкальный звук — это звук тональный, имеющий так называе- мый линейчатый дискретный частотный спектр (в отличие от шумов, имеющих так называемый сплошной частотный спектр). Это значит, что взятый конкретный фрагмент музыкального звука состоит из набора звуков, дискретных по частоте, т.е. частоты заполняют этот фрагмент с определенным интервалом или между со- бой, или между определенными группами частот. Почему в основу построения музыкального звука заложена дискретность по частоте набора звуков? Теперь мы можем кратко ответить на этот вопрос. Это связано с природными особенностями и возможностями слухового аппарата человека к восприятию звука вообще и музы- кального звука в частности. Если несколько детализировать сказанное, то можно выделить следующие основные причины, относящиеся к психофизиологическим особенностям восприятия музыкального звука человеком: инерционность слухово- го аппарата человека и его избирательность в распознавании низких и высоких частот в звуковом частотном спектре, а также способность памяти человека лучше распознавать, усваивать и запоминать дискретную по частоте аудиоинформацию. Существует еще одна причина, которая обусловлена возможностями музыкальных инструментов, а именно — большинство музыкальных инструментов не позволяет извлекать с их помощью звуки произвольной высоты и ограничивают музыканта конкретным набором дискретных значений высоты тона10. Музыкальный звук характеризуется определенной высотой (от 16 Гц до 4,5 кГц), громкостью, длительностью и тембром. Высота музыкального звука отно- сится к психофизиологическим параметрам, определяется каждым человеком субъективно и зависит, в основном, от частоты. С ростом частоты высота музы- кального звука увеличивается (см. раздел 3.2.1). О громкости звука было сказано достаточно (см. раздел 3.2.2). Здесь лишь еще раз подчеркнем, что громкость звука вообще и музыкального звука в частности — Тон в музыке — это звук, обладающий определенной высотой звучания. В современной 12- тоновой музыкальной системе различают целый тон — расстояние между двумя звуками, равное 1/6 октавы, и полутон — наименьшее расстояние между двумя звуками. Глава 3. Восприятие звука человеком... 131
это параметр, который также связан с психофизиологией восприятия звука чело- веком и является мерой силы слухового ощущения интенсивности (силы звука). Применительно к музыке под громкостью звука еще понимают различную отно- сительную степень силы звучания голоса, инструмента, оркестра и т.д. В нотах громкость обозначают итальянскими терминами: пиано (от лат. “piano”, сокра- щенно — Р) — тихо; форте (от лат. “forte” — F) — громко и др. Длительность звукового сигнала— это временная характеристика звучания. В музыке существует такое понятие, как ритмическое деление длительности музы- кального звука на равные части, которое лежит в основе ритмической организации музыки. Основной вид деления — это деление на две части: целой ноты на две по- ловинные, половинной ноты на две четверти, четвертной — на две восьмые и т.д., а также деление трех дольных длительностей на три части. Тембр музыкального звука характеризует его качество (окраску), определяемое положением формант в частотном спектре. Тембр музыкального звука зависит от того, какие обертоны сопутствуют основному тону, какова интенсивность каждого из них и в каких областях звуковых частот образуются их скопления (форманты). Чем качественнее музыкальный звук, тем более насыщена его окраска, тем лучше и точнее различаются звуки одинаковой высоты различных музыкальных инстру- ментов. Музыкальный звук лежит в основе построения так называемой музыкальной системы11, которая представляет собой высотную (интервальную) организацию му- зыкальных звуков на основе какого-либо единого принципа. Известны музыкаль- ные системы из трех (трихорд — звукоряд из трех звуков), четырех (тетрахорд — 4-ступенный звукоряд), пяти (пентахорд), шести (гексахорд) и семи (диатоника) звуков в одной октаве12. В настоящее время в музыке широкое распространение по- лучила так называемая равномерно темперированная 12-ступенная музыкальная система (12-ступенный звукоряд). В этом звукоряде последовательно расположены семь полных и две неполные октавы. В каждую полную октаву входят 12 звуков, последовательно расположенных по высоте звучания (по высоте тона). Название этой музыкальной системы (“равномерно темперированная”) проис- ходит от одного важного ее свойства: все тоны на музыкальной шкале находятся в строгой математической зависимости (от лат. “tempere” — “упорядочивать”). Основой равномерно темперированной шкалы является нота “ля” первой октавы, имеющая частоту 440 Гц. Шкала содержит всего двенадцать полутонов и семь це- лых тонов (в одной октаве), обозначаемых “до”, “ре”, “ми”, “фа”, “соль”, “ля”, “си” (рис. 3.21). Термин музыкальная система соответствует по смыслу терминам “звукоряд”, “музыкальный строй”, “звуковая система”. Октава (от лат. “octava” — “восьмая”) — один из музыкальных интервалов или часть музы- кального звукоряда, в которую входят все звуки музыкальной системы. Высоты крайних звуков октавы различаются на слух ровно вдвое. 132 Часть I. Образование и распространение звука...
Рис. 3.21. Ноты одной октавы на клавиатуре фортепиано Шкала имеет единый интервальный коэффициент для всех интервалов, равный '^2 =1,0595 . Это значит, что для вычисления частоты ноты z/, зная частоту ноты х, нужно умножить частоту ноты х на число ($2) , где а — количество полутонов, отделяющих ноту у от ноты х. Например, частота ноты “си” равна частоте “ля” (440 Гц — частота ее основной гармоники), умноженной на , т.е. 493,9 Гц. Равенство интервального коэффициента для любых интервалов шкалы является важнейшим свойством равномерно темперированной шкалы. Оно позволяет, на- пример, с легкостью транспонировать13 любую мелодию в любую тональность. Интересно заметить: октава равномерно темперированной шкалы имеет больше полутонов (двенадцать), чем любая другая принятая шкала, что позволяет музы- кантам писать музыку, используя 84 тональности (в семи октавах). При этом час- тотная разрешающая способность слуховой системы человека, как мы говорили раньше, намного выше, и позволяет ему различать около 620 тональностей. Следо- вательно, равномерно темперированная шкала в этом смысле является далеко не идеальной, и, возможно, будут придуманы другие не менее удобные шкалы, обес- печивающие большую свободу действий. 3.4.2. Шум и его разновидности Шум сопровождает человека везде. С этим явлением человек сталкивается в бы- ту (это нежелательные звуки, мешающие отдыху, восприятию речи, музыки и т.д.), на работе (длительные монотонные или повторяющиеся кратковременные звуки, издаваемые рабочими механизмами), на улице (гул, скрежет, различного рода звуковые сигналы и пр.), на концерте, в театре (звуки, издаваемые при на- стройке музыкальных инструментов оркестра, многоголосный слабый гул в зале перед началом спектакля, аплодисменты) и т.д. Можно приводить еще много дру- гих примеров, демонстрирующих явление шума. Так какое дать определение этому явлению? Медики, например, дали такое определение: шум — это звук, который оказывает вредное влияние на среднестатистического человека. И медики правы. Но с этим определением мы заходим в тупик, так как оно учитывает только физио- логию человека. Есть другой подход к определению шума, и этот подход опирается 13 Транспонирование — перенесение музыкального произведения из одной тональности в другую. Глава 3. Восприятие звука человеком... 133
на физическую основу звука, т.е. на состав амплитудно-частотного спектра. Ранее мы отмечали, что характер восприятия звука органами слуха человека зависит от состава спектра частот и в зависимости от этого звук может приобретать различную окраску и восприниматься, как тон или как шум. Если тональному звуку (речь, музыка, голос и т.д.) соответствует линейчатый (дискретный) спектр частот, то шумы обладают сплошным спектром, т.е. частоты такого спектра образуют непре- рывный ряд значений и целиком (без каких-либо интервалов) заполняют некото- рый звуковой фрагмент. И еще одна отличительная особенность шума— это в большинстве своем беспорядочные непериодические звуковые колебания, характе- ризующиеся случайными изменениями амплитуды, частоты и фазы звуковых волн, входящих в результирующую звуковую волну. В табл. 3.3 представлены примеры шумов с их приблизительными уровнями громкости. Таблица 3.3. Примеры шумов с их приблизительными уровнями громкости Пример шума Уровень громкости, дБ Тихая улица без транспорта 30-35 Городская улица с транспортом 70-80 Авторемонтная мастерская 80-90 Кузнечный заводской цех 100-110 Самолет на близком расстоянии 120-130 Несмотря на достаточную четкость сформулированных отличий шума от то- нального звука, мы не можем провести на практике резкую границу между шума- ми и тонами, так как многие шумы все же обладают некоторым преимуществен- ным тоном. Рассмотрим некоторые из упоминаемых в профессиональной литературе разно- видностей шумов. Белый шум (шум Джонсона). Такой шум имеет спектр с приблизительно по- стоянной спектральной плотностью14 на всей протяженности спектра. Соно- грамма белого шума выглядит так, как показано на рис. 3.22. Розовый шум. Спектр такого шума имеет спектральную плотность, умень- шающуюся на 3 дБ с каждой последующей октавой (спектральная плотность обратно пропорциональна частоте). На рис. 3.23 представлена типичная со- нограмма такого шума. Оранжевый шум. Это квазипостоянный шум с конечной спектральной плот- ностью. Спектр такого шума имеет полоски нулевой энергии, рассеянные на всей его протяженности. Такие полоски находятся около частот, соответст- вующих музыкальным нотам. Спектральная плотность — это количество звуковой энергии, приходящейся на единичный ин- тервал частотного спектра. 134 Часть I. Образование и распространение звука...
Рис. 3.22. Типичная спектрограмма белого шума f, кГц А, дБ Рис. 3.23. Типичная спектрограмма розового шума Зеленый шум. Подобен розовому шуму с усиленной областью частот в районе 500 Гц. Синий шум. Его спектральная плотность увеличивается на 3 дБ с каждой по- следующей октавой (спектральная плотность пропорциональна частоте). Фиолетовый шум. Это дифференцированный белый шум. Его спектральная плотность увеличивается на 6 дБ с каждой последующей октавой (спектраль- ная плотность пропорциональна квадрату частоты). Серый шум. Спектр такого шума имеет график, аналогичный графику пси- хоакустической кривой порога слышимости. Это значит, что для слухового аппарата человека этот шум имеет одинаковую громкость на всем слышимом диапазоне частот. Коричневый шум. Его спектральная плотность уменьшается на 6 дБ с каж- дой последующей октавой (спектральная плотность обратно пропорциональна Глава 3. Восприятие звука человеком... 135
квадрату частоты). На рис. 3.24 представлена типичная спектрограмма ко- ричневого шума. f, кГц А, дБ Рис. 3.24. Типичная спектрограмма коричневого шума Черный шум. Определений этого шума существует достаточно много. Мы ос- тановимся на следующем. Черным шум — это сверхзвуковой белый шум. Такой шум имеет постоянную конечную спектральную плотность за преде- лами порога слышимости (20 кГц). Помимо рассмотренных “цветных” видов шумов, существует также понятие то- нального шума. Тональный шум — это шум, в спектре которого имеются слыши- мые дискретные тоны. Шум считается тональным, если на частотах свыше 300 Гц уровень звукового давления в одной полосе шириной в треть октавы превышает уровни звукового давления в соседних полосах частот не менее чем на 10 дБ. При описании характеристик различных звуковых сигналов, приборов и уст- ройств часто употребляется понятие уровня шума. Уровень шума — это обобщен- ное понятие, которое может употребляться в отношении шумов и подразумевать как звуковое давление, так звуковую мощность и интенсивность (энергию) шумо- вого звука. Как мы сказали, шумы сопутствуют нам везде. Мы еще будем говорить об этом подробнее, однако уже сейчас стоит сказать, что почти любая более или менее серь- езная процедура, проводимая над звуковым сигналом, неизбежно ведет к его за- шумлению. Шумы появляются и при записи, и при воспроизведении, и при обра- ботке звука. При этом стоит отметить, что шум может оказаться как вредным, так и полезным. Так, например, “хитрости”, применяемые при уплотнении цифровой аудиоинформации, основываются на косвенном подмешивании шумов к сжимае- мому аудиоматериалу (см. раздел 7.3). В качестве простого наглядного примера влияния шумов на качество записи аудиосигналов на рис. 3.25 представлена сигналограмма записи человеческой речи в малозашумленном помещении, а на рис. 3.26 для сравнения — эта же запись, но выполненная при наличии постоянной фоновой шумовой помехи (белый шум). 136 Часть I. Образование и распространение звука...
Рис. 3.25. Сигналограмма записи речи в малозашумленном помещении Рис. 3.26. Сигналограмма записи речи в зашумленном помещении Спектрограммы этих сигналов представлены на рис. 3.27 и 3.28. Как можно видеть, на сигналограмме более зашумленного сигнала участки с по- лезным сигналом и участки шума определить трудно даже на глаз. Аналогично по- лезный сигнал на спектрограмме также слабо выделяется на фоне общей зашум- ленности. Малая разница между уровнем полезного сигнала и уровнем фонового шума отрицательно сказывается на разборчивости и “чистоте” аудиоинформации при прослушивании. Нужно отметить, впрочем, что одной из психоакустических особенностей слуховой системы человека является ассоциативность слухового вос- приятия, которая помогает мозгу как бы “отфильтровывать” фоновые шумы на подсознательном уровне. Глава 3. Восприятие звука человеком... 137
f, кГц А, дБ Рис. 3.27. Спектрограмма малозашумленной записи речи Рис. 3.28. Спектрограмма зашумленной записи речи В отношении уровней шума и полезного сигнала часто пользуются понятием от- ношение сигнал/шум, сокращенно — С/Ш (Signal-to-Noise Ratio — SNR). Величи- на С/Ш показывает отношение уровня полезного сигнала к уровню шума15. Поня- тие С/Ш тесно связано с понятием динамического диапазона (см. раздел 4.3.1). В то время как динамический диапазон показывает соотношение максимального и ми- нимального по уровню сигналов, С/Ш показывает отношение уровня шума к неко- торому произвольному сигналу. По этой причине измерение С/Ш требует выбора опорного (эталонного) сигнала. В аудиоаппаратуре в качестве опорного сигнала часто выбирают синусоидальный сигнал. Аналогично динамическому диапазону отношение С/Ш обычно измеряется в децибелах. Естественно, чем выше значение С/Ш, тем лучше. Вообще, соотношение С/Ш является общей характеристикой, с помощью которой измеряют от- ношение количества полезной информации к количеству бесполезной. 138 Часть I. Образование и распространение звука...
На рис. 3.29 приведена иллюстрация отношения С/Ш на выходе некоторого ау- диоустройства (например, усилителя мощности). в а На графике а показана сигналограмма сигнала на выходе устройства в отсутст- вие полезного сигнала. Сигналограмма представляет собой шум некоторого уровня ТУ. На вход устройства подается чистая синусоида (график б), после чего на выходе устройства регистрируется сигнал уровня S, форма которого представлена на гра- фике в. Как видно из графика, это “зашумленная” синусоида, получившаяся в ре- зультате наложения внутреннего шума устройства на входной сигнал. Отношение С/Ш устройства рассчитывается по формуле S7V7? = 20 1og10l — I, дБ. В качестве примера в табл. 3.4 представлены приблизительные значения соот- ношения С/Ш для некоторых типов аудиоаппаратуры. Глава 3. Восприятие звука человеком... 139
Таблица 3.4. Отношение С/Ш для некоторых типов аудиоаппаратуры Тип аудиоаппаратуры С/Ш, дБ Телефонный канал 10-20 Воспроизводящая аудиоаппаратура среднего класса 60-80 Качественная аудиоаппаратура 80-100 140 Часть I. Образование и распространение звука...
Глава 4 Способы преобразования звуковых сигналов, параметры звука 4.1. Общая классификация преобразований Перейдем к обсуждению существующих методов преобразования звуковых сиг- налов. К преобразованию звукового сигнала прибегают, в основном, с целью изменения каких-то его характеристик (например, характеристик его звучания). Подобные преобразования основываются на уже описанных способах представления звуко- вых сигналов. С одной стороны, звуковая волна (как зависимость амплитуды коле- баний от времени ее распространения) описывается в амплитудно-временной об- ласти. С другой стороны, звуковая волна может быть представлена в виде частотно- го спектра, а значит, может быть описана в амплитудно-частотной области. Таким образом, преобразования звукового сигнала можно условно разделить на четыре основных класса (типа): амплитудные; частотные; временные; фазовые. Рассмотрим более подробно эти классы преобразований. Амплитудные преобразования выполняются над амплитудой сигнала путем ее изменения по некоторому закону. Иначе говоря, амплитуда сигнала фактически умножается на некоторую модулирующую1 функцию. Одним из примеров исполь- зования модулирующей функции является применение оконной функции при про- ведении спектрального анализа (см. раздел 2.5). Простое усиление или ослабление сигнала, при котором амплитуда сигнала умножается на некоторое фиксированное число, является частным случаем использования модулирующей функции. В этом 1 X J. Модуляция сигнала — изменение формы сигнала по некоторому закону.
случае значение модулирующей функции является постоянным и равно коэффи- циенту усиления. Изменение амплитуды сигнала с использованием модулирую- щей функции называют амплитудной модуляцией, сокращенно AM (Amplitude Modulation — AM). Частотные (спектральные) преобразования выполняются над частотными составляющими спектра сигнала. Вообще говоря, любые преобразования сигнала косвенно влияют на его спектр. Преобразования непосредственно спектра сигнала проводят путем изменения частотных составляющих спектра по некоторому зако- ну. Такое преобразование называют частотной модуляцией, сокращенно — ЧМ (Frequency Modulation — FM). Вот один из возможных путей (упрощенный алго- ритм) проведения частотного преобразования звукового сигнала: разложение сигнала в частотный спектр (с применением, например, быстрого преобразования Фурье (БПФ), если преобразованию подвергается цифровой сигнал); изменение амплитуд составляющих спектра — частотная модуляция; обратное преобразование (инверсия) спектра в сигнал. Фильтрация аудиосигнала (о ней мы будем говорить ниже) является частным случаем преобразований спектра сигнала. Способы, которыми добиваются преобра- зований спектра, могут быть разными. Более подробно о таких преобразованиях мы будем говорить в части П. К временным преобразованиям аудиосигналов можно отнести любые преобра- зования, влияющие на временные характеристики сигнала. В специальной литера- туре по обработке сигналов класс временных преобразований четко не определен. Тем не менее к такому типу преобразований можно отнести и задержку сигнала во времени, и “растягивание” длительности сигнала, и наложение на сигнал его за- держанных во времени копий, и многие другие преобразования подобного рода. Фазовые преобразования сигналов оперируют фазой обрабатываемого звуково- го сигнала. Такие преобразования выполняются либо путем постоянного сдвига фа- зы сигнала, либо путем использования некоторой фазомодулирующей функции. Важно понять, что на самом деле все перечисленные типы преобразований тесно связаны, поскольку, например, любое изменение амплитуды сигнала ведет к неиз- бежному изменению его частотного спектра, и наоборот, любое изменение частот- ного спектра сигнала ведет к изменению его амплитудной картины. Поэтому любой алгоритм2 (метод) преобразования звукового сигнала можно отнести к одному (или сразу к нескольким) из перечисленных типов преобразований. Таким образом, приведенная классификация преобразований звуковых сигналов является услов- ной и основывается на различиях в подходах к преобразованиям сигналов, а не на различиях получаемых результатов. Алгоритм — точное предписание (программа) исполнителю (человеку, компьютеру и пр.) совер- шить определенную последовательность конкретных действий для достижения поставленной це- ли за конечное число шагов. 142 Часть I. Образование и распространение звука...
На практике существует множество различных алгоритмов преобразования аудиосигналов. На вышеописанных классах преобразований звуковых сигналов основаны механизмы создания и имитации различных звуковых эффектов, а так- же способы очистки звука от нежелательных шумов, изменения тембра, состава звучания и др. 4.2. Фильтрация и эквализация Фильтрация — одна из важнейших операций и обширнейших тем в области об- работки звуковых сигналов. Механизмы фильтрации сигналов являются сложны- ми и зачастую ресурсоемкими, а качество и точность фильтрации имеют ключевое значение. Это очень сложная и обширная тема, требующая специального направ- ленного обсуждения, что не планировалось в данном формате книги. Поэтому здесь мы коснемся лишь ее важнейших и наиболее общих моментов, необходимых для понимания дальнейшего материала. К фильтрации (эквализации) прибегают в случаях, когда необходимо ограни- чить или изменить спектр звукового сигнала в каком-то определенном частотном диапазоне, а также при необходимости внести изменения в форму сигнала. Фильт- рация аудиосигнала позволяет, например, подавить какие-то частотные полосы спектра и тем самым полностью или частично избавиться от нежелательных фоно- вых шумов; сгладить резкие скачки сигнала, нежелательный треск и помехи и т.д. К фильтрации прибегают также в случае использования звукопреобразующей и звукопередающей аппаратуры, имеющей нелинейную зависимость амплитуды сигнала от частоты, и т.д. Работа с такой аппаратурой в некоторых случаях может привести к искажению формы оригинальной звуковой волны (исходного звучания) из-за неточности передачи спектра сигнала, что зачастую сказывается негативно на качестве звучания выходного сигнала. Фильтрация в этом случае может исправить положение и “выровнять” спектр выходного сигнала. Одной из важнейших характеристик любого фильтра является амплитудно- частотная характеристика (АЧХ). Эта характеристика представляет собой график зависимости коэффициента передачи фильтра К от частоты /, т.е. K(f). Если для некоторой частоты Д выполняется К( это значит, что частота Д при прохож- дении через данный фильтр не претерпевает никаких изменений. Если K(fl)<l,TQ амплитуда частотной составляющей во время прохождения через фильтр будет уменьшена. Таким образом, на графике АЧХ можно увидеть, в какой полосе частот сигнал будет передаваться без изменений (K(f) = 1) и в какой полосе частот сигнал будет ослаблен или не пропущен совсем (в случае K(f) = O). Существует четыре основных типа фильтров. Фильтр нижних частот, ФНЧ (low-pass filter — LP filter); типичная АЧХ та- кого фильтра представлена на рис. 4.1. Фильтр нижних частот из широкопо- лосного звукового сигнала выделяет спектральные составляющие, лежащие ниже частоты среза, т.е. в пределах от 0 до/0, и подавляет все остальные. Фильтр верхних частот, ФВЧ (high-pass filter — HP filter); типичная АЧХ такого фильтра представлена на рис. 4.2. Фильтр верхних частот выделяет Глава 4. Способы преобразования звуковых сигналов, параметры звука 143
спектральные составляющие, лежащие выше частоты среза /0, и подавляет остальные. Рис. 4.2. Типичная АЧХ фильтра высоких частот (ФВЧ) Полосно-пропускающий (полосовой) фильтр, ППФ (band-pass filter — BP filter); типичная АЧХ такого фильтра представлена на рис. 4.3. Полосно- пропускающий фильтр из всего спектра сигнала выделяет определенную по- лосу частот, расположенную вокруг некоторой центральной частоты f0. Полосно-запирающий фильтр, ПЗФ (band-reject filter — BR filter); типич- ная АЧХ такого фильтра представлена на рис. 4.4. Полосно-запирающий фильтр подавляет спектральные составляющие в некоторой узкой полосе частот вокруг центральной частоты f0. 144 Часть I. Образование и распространение звука...
Как видно из приведенных графиков, типичные АЧХ реальных фильтров явля- ются гладкими, т.е. имеют “плавные очертания”. В идеале было бы намного лучше, если бы, например, фильтр нижних частот (ФНЧ) имел идеально крутую АЧХ, как на рис. 4.5. Такой фильтр мог бы четко отделять “нужные” частоты от “ненужных” и качественно отфильтровывать последние. К сожалению, идеальных фильтров не существует и любой, даже самый качественный фильтр, не может обеспечить столь высокую точность фильтрации. Поэтому АЧХ реального фильтра обычно больше походит на одну из представленных выше. Важными характеристиками любого фильтра являются частота среза и порядок фильтра. Частота среза (cutoff frequency) f0 — это частота, на которой уровень по- давляемого фильтром сигнала становится на 3 дБ меньше, чем уровень пропускае- мого сигнала (рис. 4.6). Областью спада (затухания) АЧХ называется область частот, заключенная ме- жду частотой среза и такой наименьшей (для ФНЧ) частотой /, для которой K(f) = 0 (см. рис. 4.6). Крутизна спада АЧХ фильтра в области за пределами полосы пропускания определяет порядок фильтра — чем быстрее спадает (нарастает) АЧХ, тем выше порядок фильтра. Фильтр первого порядка, например, имеет АЧХ, кото- рая за пределами полосы пропускания спадает на величину 6 дБ на октаву. АЧХ фильтра, имеющего порядок п, спадает на б и ^/октава * рис* схематично показаны АЧХ фильтров различных порядков. Помимо АЧХ фильтра, существует еще одна очень важная характеристика — фазочастотная характеристика (ФЧХ). Эта характеристика представляет собой график зависимости фазового сдвига ф от частоты f пропускаемого через фильтр сигнала. Иначе говоря, ФЧХ — это частотная зависимость разности фаз синусои- дальных сигналов на выходе и входе фильтра. Глава 4. Способы преобразования звуковых сигналов, параметры звука 145
В общем случае фильтрация почти всегда приводит к изменению не только амплитудно-частотного, но и фазочастотного спектра сигнала. Изменение фазо- частотного спектра при фильтрации является результатом задержки фильтром отдельных частот сигнала относительно других. В результате нарушаются вре- менные соотношения между обертонами сигнала, что может заметно сказаться на его форме и звучании. Поэтому идеальным случаем считается постоянная ФЧХ (ф(/) = const), при которой фильтр задерживает все частотные составляющие сиг- нала на равную величину. К сожалению, идеальная ФЧХ не всегда достижима. Для примера типичная ФЧХ фильтра нижних частот представлена на рис.4.8. 146 Часть I. Образование и распространение звука...
Рис. 4.6. К характеристикам фильтра: “частота среза ” и “область затухания" Рис. 4.7. АЧХ фильтров различных порядков Расчет и реализация фильтров — это целая наука. Существует множество раз- личных фильтров и их типов (о цифровых фильтрах мы будем говорить в разде- ле 6.5). В целом, как правило, фильтры высокого порядка (с быстроспадающей АЧХ) имеют существенные искривления АЧХ вокруг частоты среза (рис. 4.9), а также фазочастотную характеристику ф(/) * const. Глава 4. Способы преобразования звуковых сигналов, параметры звука 147
Рис. 4.8. Типичная ФЧХ фильтра нижних частот Фильтры же с гладкой АЧХ и постоянной ФЧХ, не вносящие сильно ощутимых фазовых и частотных искажений, — это преимущественно фильтры низкого по- рядка. Таким образом, чем выше порядок фильтра, тем лучше его фильтрующие свойства, но тем ощутимее недостатки его фазочастотной и амплитудно-частотной характеристик и, следовательно, искажения, вносимые фильтром. Поэтому в це- лом рекомендуется использование фильтров как можно более низких порядков. В заключение, в качестве наглядного практического примера фильтрации рас- смотрим применение фильтра верхних (ФВЧ) и нижних частот (ФНЧ). На рис. 4.10, а представлен пилообразный сигнал с частотой следования импульсов 500 Гц. Рис. 4.9. Пример искривления АЧХ фильтра высокого порядка 148 Часть I. Образование и распространение звука...
Рис. 4.10. Пример фильтрации пилообразного сигнала (а) с использованием ФНЧ (б) и ФВЧ (в) Мы упоминали о том, что чем больше резких скачков содержит сигнал, тем ши- ре его спектр (тем больше высокочастотных составляющих он включает). Анало- гично мы делали и обратный вывод: чем меньше высокочастотных составляющих содержится в спектре сигнала (т.е. чем уже его спектр), тем форма сигнала более “гладкая”, плавная. Отсюда следует, что ФНЧ — это такой фильтр, который, грубо говоря, сглаживает пропускаемый через него сигнал, отфильтровывая из его спек- тра высокочастотные составляющие и оставляя низкочастотные. На 4.10, б показан сигнал, являющийся результатом фильтрации представлен- ного пилообразного сигнала с использованием БПФ-фильтра нижних частот (ФНЧ- фильтра, основанного на разложении сигнала в спектр с помощью БПФ — Быстрого Преобразования Фурье) с частотой среза 500 Гц. Как можно видеть, отфильтрован- ный сигнал представляет собой почти чистую синусоиду с частотой 500 Гц, — рез- кие переходы исходного сигнала (4.10, а) сгладились и спектр сигнала стал узким. На 4.10, в представлен сигнал, полученный в результате фильтрации пило- образного сигнала с использованием БПФ-фильтра верхних частот с частотой среза 500 Гц. В целом, можно сказать, что путем фильтрации мы разделили исходный пило- образный сигнал на две его составляющие: первая — с частотами ниже 500 Гц, вто- рая — с частотами выше 500 Гц. Если представленные на графиках бив сигналы сложить, то результатом сложения станет исходный сигнал пилообразной формы. Глава 4. Способы преобразования звуковых сигналов, параметры звука 149
4.3. Параметры звука Этот раздел введен здесь для того, чтобы собрать воедино разбросанную по части I книги уже имеющуюся информацию об основных параметрах звука с целью об- легчить читателю поиск нужного ему параметра (т.е. в качестве некоего предмет- ного указателя). С другой стороны — чтобы ввести некоторые новые параметры, характеризующие звук, и дополнить информацию об отдельных параметрах звука. 4.3.1. Физические параметры звуковой волны Скорость распространения звуковой волны (скорость звука С) в различных сре- дах; см. разделы 1.1 и 1.2.7. Длина звуковой волны X; см. разделы 1.2.1 и 1.2.7. Период колебания Т и частота звуковой волны /; см. разделы 1.2.1 и 1.2.7. Звуковое давление, возникающее в газообразной среде при прохождении через нее звуковой волны Г ; см. раздел 1.1. Дополним информацию о звуковом давле- нии. Звуковое давление — величина переменная, меняющаяся периодически с час- тотой, равной частоте звуковой волны. Для синусоидальной звуковой волны мгно- венное значение звукового (избыточного) давления в некоторой точке среды в мо- мент времени t (за вычетом статического (атмосферного) давления в этой точке) оп- ределяется как р3 = Ро sin cor, где Ро — максимальная величина звукового давления (амплитуда давления), опре- деляется по формуле где: со — циклическая (угловая) частота звуковой волны, Z — волновое сопротивление среды, м2 с А — амплитуда колебания частицы среды, т.е. амплитуда смещения частицы звуковой волны, м; р — плотность среды, кг/ 3; / — частота звуковой волны, Гц. Коэффициент поглощения звуковой волны (звука) р ; см. раздел 1.2.3. Волновое (акустическое) сопротивление среды Z — это произведение плотности среды р и скорости С распространения в этой среде продольной звуковой волны: 150 Часть I. Образование и распространение звука...
Плотность звуковой энергии w3; см. раздел 1.2.3. Дополним информацию об этом параметре. Под плотностью звуковой энергии ю3 следует понимать количест- во звуковой энергии W 9 заключенное в единице объема упруг,ой среды V, в которой распространяется звуковая волна: W3 Дж/ w =—, 3 V /м Звуковая мощность N3\ см. раздел 3.2.2. Уровень мощности аналогового звукового сигнала Р* используется для измере- ния мощности звукового оборудования и рассчитывается по следующей формуле: P*=10 1og10 —-------- , дБм (англ. dBm), [MBmjJ где Р — мощность звука, измеренная в милливаттах. В качестве опорной величины для расчета берется значение 1 мВт. Уровень напряжения звукового сигнала (для звукового оборудования) может рассчитываться по двум формулам в зависимости от величины входного сопротив- ления оборудования. ( V I V =20-log10l 775 — I, дБ (англ. dBu)— при входном сопротивлении 600 Ом. Обозначение “dBu” (международное) или просто “дБ” (русское) ис- пользуется именно в том случае, когда в качестве опорной величины измере- ний берется значение 0,775 В. ( V v=204w дБв (англ. dBV) — в случае, если входное сопротивле- ние достаточно большое. Обозначение “dBV” (международное) или “дБв” (русское) используется именно в том случае, когда в качестве опорной вели- чины измерений берется значение 1 В. Интенсивность звука (сила звука)!; см. раздел 3.2.2. Диапазон, в котором может изменяться интенсивность звука, называется дина- мическим диапазоном звука (dynamic range). Динамический диапазон D — это диапазон наибольшего и наименьшего уровней звука. Для звуковой волны его удобно оценивать в децибелах в соответствии со следующей формулой: D = 201og10 дБ, I min ) где Рз и Р3 т1п — соответственно максимальное и минимальное значения звуково- го давления. Предельный динамический диапазон, например голоса, составляет примерно 57 дБ. Заметим, что динамический диапазон может также рассчитывать- ся как разность предельных значений величин (мощностей, напряжений и т.д.). Глава 4. Способы преобразования звуковых сигналов, параметры звука 151
Понятие динамического диапазона также широко используется, как параметр, характеризующий аудиоаппаратуру. В этом случае под динамическим диапазоном подразумевается отношение на выходе аппаратуры уровня максимально громкого неискаженного сигнала к уровню минимально громкого неискаженного сигнала (т.е. фактически к уровню шума на выходе в отсутствие полезного сигнала). В качестве опорных величин выбирают, например, минимальное и максимальное значения сигнала, измеренные в вольтах. Сигналы, имеющие слишком широкий динамический диапазон, могут вызы- вать перегрузки в аппаратуре и, как следствие, искажения выходного сигнала. Особенно это касается различных устройств, предназначенных для записи и оциф- ровки звука. По этой причине прибегают к искусственному сужению динамическо- го диапазона. Устройства, называемые компрессорами3, производят сужение дина- мического диапазона звука. Устройства, служащие для обратного восстановления динамического диапазона, называют экспандерами (декомпрессорами). Изменение динамического диапазона выполняется путем усиления или ослабления амплиту- ды сигнала по некоторому закону. Например, колебания сигнала лежат в пределах от -5 до +5 В, что означает, что динамический диапазон сигнала составляет 10 В, то сужение динамического диапазона до 5 В можно произвести путем деления любых значений амплитуды сигнала пополам; в таком случае колебания амплитуды ком- прессированного сигнала будут лежать уже в пределах от -2,5 до +2,5 В. Конечно, закон, в соответствии с которым происходит изменение значений амплитуды сиг- нала, может быть произвольным и совершенно не обязательно линейным4. Компрессоры и экспандеры очень широко применяются на практике. Без их использования не обходится практически ни одна студийная обработка звука. Простейшим примером практического применения компрессии динамического диапазона может стать такой простой пример. Аудиозапись с широким динамиче- ским диапазоном, содержащую очень тихий шепот и следующую за ним громкую речь, можно уравнять по громкости (сузить ее динамический диапазон), усилив участки слабого сигнала (с записью шепота) и ослабив участки сильного (с записью громкой речи). Следует обратить внимание на то, что компрессия динамического диапазона должна использоваться с осторожностью, поскольку с помощью ком- прессии можно легко нарушить музыкально-художественную полноту звуковой картины. Так, возвращаясь к приведенному примеру, с точки зрения слушателя, одинаково громкое звучание записи шепота и громкой речи не вполне логично. Кроме того, неграмотное использование компрессора может привести вообще к то- тальному разрушению качества звучания аудиоматериала. Полноценное восста- новление динамического диапазона аудиосигнала после его обработки компрессо- ром невозможно никакими средствами. Здесь, забегая вперед, отметим, что компрессию динамического диапазона звукового сигнала не следует путать с компрессией (сжатием) цифровых данных (см. главу 7). Существует множество различных типов устройств, предназначенных для обработки и измене- ния динамического диапазона сигналов, например гейт (gate), максимайзер (maximizer). Каждое из этих устройств имеет свои характеристики и свою передаточную функцию. В дополнение заме- тим, что существует общее название для устройств, изменяющих динамический диапазон сигна- ла, — компандер (сочетание слов “компрессор” и “экспандер”). Т52 Часть I. Образование и распространение звука...
4.3.2. Психоакустические параметры звука Критические полосы; см. раздел 3.1. Тон, обертон, высота тона, тембр; см. раздел 3.2.1. Громкость звука; см. раздел 3.2.2. Уровень интенсивности звукасм. раздел 3.2.2. Порог интенсивности /0; см. раздел 3.2.2. Порог звукового давления Ро ; см. раздел 3.2.2. Стандартный порог интенсивности Р*^ ; см. раздел 3.2.2. Порог слышимости, стандартный порог слышимости; см. раздел 3.2.2; болевой порог слышимости; см. раздел 3.2.3. Уровень громкости L ; см. раздел 3.2.2. Единицы измерения ощущения громкости “сон” и “фон”; см. раздел 3.2.2. Уровень звукового давления Lp; см. раздел 3.2.2. Дополним сведения об уровне звукового давления. В связи с неизбежным влиянием порога слышимости на вели- чину ощущаемого звукового давления, введено понятие корректированных значе- ний уровней звукового давления. Это измененные значения уровней звукового давления, скорректированные на величину поправки, зависящей от частоты звука. Эти поправки стандартизованы. Например, для расчета корректированного уровня звукового давления Lp кор используют следующую формулу: L = L -А , дБА , где окончание А в обозначении децибел означает Ар — поправка к уровню звукового давления (табл. 4.1). Таблица 4.1. Стандартные значения Ар в функции частоты звука Частота, Гц 16 31,5 63 125 250 500 1000 2000 4000 8000 Коррекция 80 42 26,3 16,1 8,6 3,2 0 -1,2 -1,0 -1,1 Ар, дБ Единицы измерения частоты и высоты тона Барк и мел; см. разделы 3.1 и 3.2.1. Глава 4. Способы преобразования звуковых сигналов, параметры звука 153

ЧАСТЬ II Цифровой звук и его обработка В ЭТОЙ ЧАСТИ... Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука Глава 6. Базисные операции, применяемые при обработке звуковых сигналов Глава 7. Сжатие (уплотнение) цифровых аудиоданных

Глава 5 Аналогово-цифровое и цифроаналоговое преобразование звука 5.1. Общие замечания 5.1.1. Представление звука в аудиоаппаратуре Звук представляется в звуковой аппаратуре либо в виде непрерывного электри- ческого сигнала, либо в закодированном цифровом виде. Аппаратура, в которой рабочим сигналом является непрерывный электрический сигнал, описывающий звуковые колебания, называется аналоговой1 аудиоаппаратурой (например, быто- вой магнитофон, аудиоусилитель, динамик, осциллограф и т.д.), а сам сигнал — аналоговым аудиосигналом. В аналоговой звуковой аппаратуре информация о звуковой волне представляет- ся в виде непрерывного электрического сигнала, моделирующего форму (вид) зву- ковой волны и ее параметры в функции времени на основе законов Ома и Кирхгофа для электрической цепи. Устройством для преобразования звуковых колебаний в электрический (аналоговый) сигнал является микрофон, а аналогового сигнала звуковой частоты в звуковые колебания — акустический динамик (электродинами- ческий громкоговоритель). Принцип действия микрофона и динамика основан на взаимодействии переменного тока, протекающего в электрической цепи катушки индуктивности, с магнитным полем постоянного магнита. В динамике классической конструкции подвижная катушка индуктивности, жестко скрепленная с диафрагмой динамика, подключается к источнику электри- ческого сигнала звуковой частоты (например, к аудиоусилителю). В результате взаимодействия электрического тока, протекающего по катушке, с магнитным по- лем постоянного магнита катушка приходит в движение (колебания с частотой на- пряжения источника) в продольном направлении (т.е. по оси катушки), что, в свою 1 От греч. “analogia” — соответствие, сходство явлений, процессов, предметов и т.д.
очередь, приводит к аналогичным колебаниям прикрепленной к катушке диа- фрагмы, которая и излучает звук (т.е. создает звуковую волну) с частотой колеба- ний напряжения на катушке. В электродинамическом микрофоне2 упругая мембрана из тонкого металла, же- стко соединенная с катушкой индуктивности, под действием переменного давления звуковой волны перемещается (колеблется) в магнитном поле с частотой звуковой волны. С такой же частотой колеблется (перемещается вдоль оси мембраны) ка- тушка индуктивности в магнитном поле постоянного магнита, в результате чего в ней индуцируется переменная Э.Д.С. (электродвижущая сила) с частотой колеба- ния мембраны. Если электрическую цепь катушки подключить, например, к ка- тушке записывающей головки магнитофона, то в образованной электрической це- пи под действием Э.Д.С. будет протекать ток с частотой звуковой волны (звука), с ' помощью которого реализуется запись исходного звукового сигнала на магнитную ленту. Так происходит преобразование звуковых колебаний в аналоговый аудио- сигнал. Цифровая аппаратура оперирует дискретными, цифровыми сигналами. Цифро- вой аудиосигнал — это лишь форма (способ) записи аналогового сигнала, т.е. это аналоговый аудиосигнал, представленный некоторым образом в виде дискретных численных значений. Преобразование аналогового звукового сигнала в цифровой вид называется ана- логово-цифровым преобразованием или оцифровкой, а устройство, предназначен- ное для осуществления такого преобразования, называют аналогово-цифровым преобразователем, сокращенно — АЦП (Analog-to-Digital Converter — ADC). Про- цесс аналогово-цифрового преобразования с помощью АЦП заключается в осуще- ствлении замеров текущих величин амплитуды аналогового сигнала с некоторым временным шагом и последующей записи полученных значений амплитуды в не- которой численной форме. Наиболее общим примером цифрового устройства (т.е. электронного устройства, в котором рабочим сигналом является дискретный сигнал3) является компьютер. В компьютере взаимодействие всех составляющих компьютер блоков происходит пу- тем обмена и обработки одного или одновременно нескольких двоичных сигналов. 5.1.2. Кратко о двоичной системе счисления В этом разделе мы в сжатой форме изложим суть и основы двоичного счисления в том необходимом объеме, которого будет достаточно для понимания дальнейшего материала. Как мы упоминали выше, в цифровых устройствах, в частности в ЭВМ, применя- ется двоичная система кодирования дискретных сигналов, в основе которой лежат всего два состояния: первое состояние — “ДА”, т.е. “есть сигнал”, что соответствует Основные типы микрофонов: электродинамический, угольный, электростатический, пьезоэлек- трический. Мы уже неоднократно упоминали понятие “дискретный сигнал” (в частности, в разделе 2.4). Да- дим здесь еще одно его определение. Дискретным сигналом называется сигнал, имеющий конеч- ное число значений его величины. 158 Часть II. Цифровой звук и его обработка
числу (коду) “1”, второе состояние — “НЕТ”, т.е. “нет сигнала”, что соответствует числу (коду) “0”. Такая система счисления, в которой любое число выражается с помощью набора цифр 0 и 1, называется двоичной системой счисления (сокра- щенно — Crf>). Двоичная система счисления получила широкое применение в авто- матике и вычислительной технике4. В основе системы С(2) лежит число 2, которое называется основанием двоичной системы счисления. Так же, как и в привычной нам десятичной системе счисления (сокращенно — Спо>)5 *, системе С(2) соответствует своя разрядность, приведенная в табл. 5.1. Таблица 5.1. Разряды и разрядные числа в двоичной и десятичной системах счисления Номер разряда К Разрядное число в системе С(10) Десятичное значение разрядного числа в системе С(2) 0 10° 2°= 1 1 10' 2'=2 2 ю2 22=4 6 10е 2’=64 7 ю7 27=128 8 10’ 2’= 256 13 10” 2”=8192 14 10м 2М=16 384 15 10” 2”=32 768 Рассмотрим подробно несколько примеров представления десятичных чисел в двоичной форме записи. 1. Представить (или записать) десятичное число 7 в системе С(2) • Определяем (подбираем) наибольшее разрядное число (делитель) двоич- ной системы, на которое делится с остатком (или без остатка) число 7. Это разрядное число 4, которое соответствует второму разряду (К = 2): 7 : 4 = 1 и 3 в остатке. 4 В основе современной цифровой электроники лежит применение транзисторов — управляемых электрических ключей, имеющих два логических состояния: “открыто” и “закрыто”. Этот факт делает использование двоичной системы счисления в цифровых системах вполне логичным и обоснованным. 5 В широко распространенной десятичной системе счисления (сокращенно — С(ю) каждое число выражается с помощью набора цифр 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Происхождение С(10) связано с паль- цевым счетом. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 159
• Определяем наибольшее разрядное число, на которое делится с остатком (или без остатка) остаток от предыдущего деления, т.е. число 3. Таким числом является разрядное число 2, соответствующее первому разряду (К = 1): 3 : 2 = 1 и 1 в остатке. • Остаток 1 делим на 1 (номер разряда К = 0): 1:1 = 1 и 0 в остатке. Число 7, соответствующее системе С(10), запишется в системе С(2) как 7(10)= 111(2), где три единицы соответствуют результатам первого, второго и третьего делений. Иначе говоря, это трехразрядное число в системе С(2), последняя цифра (единица справа) которого соответствует нулевому раз- ряду, а первая цифра (единица слева) соответствует наивысшему разряду для данного числа (в нашем случае второму разряду). 2. Представить десятичное число 265 в системе С(2). • Определяем наибольший делитель для числа 265. Это разрядное число 256 (К = 8 разряд): 265 : 256 = 1 и 9 в остатке. • Определяем делитель для числа 9. Это разрядное число 8 (К = 3 разряд), соответствующее разряду 3:9:8 = 1и1в остатке. • Для остатка 1 разрядным числом является 1 (К = 0 разряд): 1: 1 = 1 и 0 в остатке. В этом примере были активно задействованы разрядные числа из разря- дов 8, 3 и 0. “Проходными” разрядами (т.е. незадействованными разря- дами, начиная с разряда 8 к нулевому) в этом примере являются разряды 7, 6, 5, 4, 2 и 1. Эти разряды представляются в двоичной форме записи ну- лями. Таким образом, десятичное число 265 запишется в системе С(2) как 265(10) = 100001001(2), где первая единица слева соответствует делителю 256 из разряда 8, следующий нуль соответствует разряду 7, и т.д. Послед- няя единица в этом числе (крайняя справа) соответствует нулевому раз- ряду. Таким образом, это девятиразрядное число в системе С(2Г 3. Записать десятичное число 128 в системе С(2). Определяем наибольший делитель. Это число 128, соответствующее раз- ряду 7: 128 :128 = 1 и остаток 0. Это восьмиразрядное число, у которого “проходными” разрядами будут все разряды вниз, начиная от разряда 7, т.е. 6, 5, 4, 3, 2, 1, 0. Этим разрядам будут соответствовать нули в форме записи системы С(2). Таким образом, число 128 в системе С(2) запишется как 128(10) = 10000000(2), т.е. восьмиразрядное число в системе С(2). Для перевода двоичного числа С(2) = (где AN...A2AlAQ — двоичный код числа С в виде набора цифр 0 или 1) в десятичную систему счисления С(10) исполь- зуют следующее известное равенство: С(|0) = Д,-2° + Д-21 + Д-22+...+Ад,-2* . 160 Часть II. Цифровой звук и его обработка
Например, представим двоичное число С(2) = 111 в десятичной форме С(10). В приведенном двоичном числе (читаем справа налево) А0=1,А1 = 1,А2 = 1. Таким образом, число С(10) можно записать как С(10) =1-2° + 1-21 +1-22 =7 (т.е. двоичное число 100111 равно десятичному числу 7). Еще один пример. Запишем двоичное число С(2) = 10000000 в системе С(10): С(10)=0-2° +0-21 + ... + 0-26 + 1-27 =128. Как же двоичная система счисления используется на практике, в частности — в цифровой аппаратуре? В основе принципа действия цифровой аппаратуры лежит двоичная система кодирования электрического сигнала. Цифровое устройство по- шагово оперирует одним или одновременно несколькими электрическими сигна- лами, каждый из которых имеет всего два возможных логических состояния: 0 (т.е. “нет”, что соответствует, например, номинальному напряжению в цепи U = 0 В) и 1 (т.е. “да”, что соответствует, например, U = 5 В). Таким образом, каж- дый такой электрический сигнал фактически представляет собой один двоичный разряд и способен передавать информацию, скажем так, по однобитному каналу (1 разряд двоичного числа — это 1 бит) об одном из двух состояний: 0 — “нет” или 1 — “да”. С помощью двух одновременно обрабатываемых (считываемых) двоич- ных сигналов (обозначим их А и В) на одном шаге (такте) можно передать резуль- тирующую информацию по двухбитному каналу уже об одной из четырех возмож- ных комбинаций (об одном из четырех возможных логических состояний) сигналов А и В в данный момент времени (табл. 5.2). Под результирующей информацией здесь следует понимать какую-то одну из возможных четырех комбинаций, кото- рая считывается в данный момент времени на данном шаге (такте) одновременно с сигналов А и В и передается дальше по спаренному (двухбитному) каналу связи. В следующий момент времени, т.е. на следующем шаге (такте), по этому же двух- битному каналу связи будет проходить другая (или такая же, как и предыдущая) результирующая комбинация из нулей и единиц. Таблица 5.2. Пояснение двоичной кодировки Номер возможной комбинации Значение сигнала А Значение сигнала В Результирующая информация 1 0 0 нет, нет 2 1 0 да, нет 3 0 1 нет, да 4 1 1 да, да Таким образом, с помощью N сигналов за один шаг (такт) передается одновре- менно N бит, несущих вместе результирующую информацию об одной из 2N воз- можных комбинаций (положений) значений “да” и “нет” (нулей и единиц). В при- веденном в табл. 5.2 примере N = 2, отсюда 2? = 4. На рис. 5.1 схематично показано, каким образом происходит передача цифровой информации между блоками в циф- ровом устройстве для случаев 1-, 2- и 4-битного устройств. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 161
1-битное 2-битное 4-битное Рис. 5.1. Иллюстрация передачи цифровой информации между блоками в цифро- вых устройствах Базисной единицей информации в современных компьютерах является 1 бит, имеющий состояние “0” или “1”. Один бит — это один разряд 0 или 1 в двоичном числе. Исторически так сложилось, что компьютеры оперируют более крупными единицами информации — байтами. 1 байт содержит 8 бит. Иными словами, если 1 байт рассматривать как объем информации, выраженной численно в системе С(2), то можно сказать, что байт несет информацию об одном из 28 = 256 возмож- ных состояний (комбинаций), т.е., по сути, один байт — это просто число от 0 до 255, преобразованное (записанное) в системе С(2) следующим образом: например, 7(Ю) = 00000111(2), 127(10) = 01111111(2), 255(10)= 11111111(2). Собственно, то, что байт — это именно восемь, а не, скажем, двенадцать или какое-то другое число би- тов, является результатом соображений технической и математической целесооб- разности. В принципе, байтом можно было бы обозначить любое количество битов. Числа, которые больше 255, но меньше 65 536 (216 = 65 536), можно записать, ис- пользуя два байта, поскольку в двух байтах содержатся 16 бит, а 16 бит несут информацию об одном из 216 положений, и т.д. Таким образом, любое число может быть записано в двоичной форме с использованием достаточного количества битов (байтов). При этом количество необходимых для записи байтов тем больше, чем больше десятичное число. Попутно заметим, что для удобства работы часто исполь- зуют шестнадцатеричную систему6. Собственно, на этом рассмотрение двоичной системы счисления мы и завершим, поскольку приведенной информации вполне достаточно, чтобы двигаться дальше. 6 Шестнадцатеричное А-значное число С(1б) = НN...H2HXHQ равно десятичному Gio, = Н016° + Н, 16’ + Н2162+ ...+//„ 16* . При этом каждая из цифр Но, Яр Н2, HN может принимать одно из 16 значений: 0,1, 2, 3, 4, 5, 6, 7, 8, 9, А, В, С, D, Е, F (где “А” обозначает деся- тичное число 10, “В” — 11, “С” — 12, “D” — 13, “Е” — 14, “F” — 15). Например, шестнадцатерич- ное число 1FOC равно десятичному С 16° + 0 • 16* + F • 162 +1 • 163 = 12 • 1+0+15 - 256 + 4096 = 7948 . 162 Часть II. Цифровой звук и его обработка
5.2. Дискретизация и квантование 5.2.1. Дискретизация во времени Начальным этапом аналогово-цифрового преобразования сигнала является про- цесс дискретизации (осуществление выборки) сигнала во времени7. Дискретизация во времени — это процесс регистрации мгновенных значений амплитуды преобразуемого аналогового сигнала8 (измеряемой в вольтах) через оп- ределенные промежутки времени, т.е. с определенным временным шагом, назы- ваемым шагом дискретизации (рис. 5.2). Номер шага дискретизации (в дальней- шем мы будем обозначать его п) условимся нумеровать от нуля, т.е. О, 1, 2,... . Рис. 5.2. Иллюстрация процесса дискретизации исходного аналогового сигнала во времени Количество осуществляемых в одну секунду замеров амплитуды сигнала назы- вают частотой дискретизации или частотой выборки, или частотой сэмплирова- ния (от англ, “sampling” — “выборка”, “замер”). Как и всякая другая частота, час- тота дискретизации измеряется в герцах (Гц). Заметим здесь, что ось времени t на рис. 5.2 прочерчена в том месте, где прохо- дит так называемый аналоговый нуль сигнала — условная линия равновесия (“ти- шины”) аналогового сигнала, т.е. линия условного нулевого значения амплитуды Этот этап преобразования мы называем “начальным” лишь условно, поскольку на самом деле процесс временной дискретизации и процесс квантования сигнала по уровню протекают одновре- менно пошагово в аналогово-цифровом преобразователе (АЦП). 8 Подобное замечание уже делалось нами ранее, но здесь его уместно повторить снова. Под ампли- тудой (текущей амплитудой) реального звукового сигнала здесь и далее следует понимать теку- щее значение уровня звукового сигнала, отсчитываемое по оси ординат в данный Момент времени. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 163
аналогового сигнала, относительно которой совершаются колебания электрическо- го тока, моделирующего колебания звуковой волны (звука)9. Очевидно, что чем меньше шаг дискретизации, тем выше частота дискретиза- ции, т.е. тем чаще происходит регистрация значений амплитуды сигнала, тем бо- лее точное представление об аналоговом сигнале мы получаем. Эти рассуждения подтверждаются теоремой Котельникова10. Согласно этой теореме, аналоговый сигнал с ограниченным спектром может быть точно описан дискретной последова- тельностью значений его амплитуды, если эти значения следуют с частотой, как минимум вдвое превышающей наивысшую частоту спектра11. Иначе говоря, анало- говый сигнал, в котором частота наивысшей составляющей спектра равна Fm, мо- жет быть точно описан последовательностью дискретных значений амплитуды, если для частоты дискретизации сигнала Fd выполняется условие Fd > 2Fm (об этом условии мы будем говорить подробнее в разделе 5.3). На практике условие теоремы Котельникова означает следующее: для того, чтобы оцифрованный сигнал содер- жал информацию обо всем диапазоне слышимых человеком частот (0-20 кГц) ис- ходного аналогового сигнала, частота дискретизации при оцифровке должна со- ставлять не менее 40 кГц, т.е. 40 000 замеров амплитуды в одну секунду. Отсюда нетрудно рассчитать минимальный временной шаг дискретизации, равный 0,000025 с = 25 мкс. Теорема Котельникова является фундаментальной и лежит в основе теории и практики цифровой обработки сигналов. Казалось бы, что для завершения процесса оцифровки теперь остается лишь за- писать измеренные мгновенные значения амплитуды аналогового сигнала в чис- ленной форме; полученная последовательность чисел (по одному результату замера амплитуды сигнала на каждый шаг) и образует цифровую форму исходного анало- гового сигнала — так называемый импульсный сигнал. Однако здесь и обнаружи- вается основная трудность оцифровки. Суть проблемы заключается в следующем. С одной стороны, необходимо сохранить точность значений замеров амплитуды сигнала, т.е. сохранить как можно большее количество знаков после запятой. С другой стороны, сделать это нужно в как можно более компактной форме с тем, чтобы в результате оцифрованные данные имели приемлемый объем. При этом компактность записи не должна повредить точности значения каждого отдельного замера амплитуды, так как в противном случае записанная последовательность 9 В электрической цепи аналогового аудиоустройства протекает переменный ток, моделирующий звуковые колебания (звуковую волну). В отсутствии звуковых колебаний на аналоговую цепь по- дается постоянный потенциал некоторой величины (постоянное напряжение +J7 В). Этот потен- циал является аналоговым нулем. Звуковые колебания моделируются в аналоговом тракте коле- баниями напряжения относительно аналогового нуля. 10 Теорема сформулирована В.А. Котельниковым и опубликована в 1933 году в работе “О пропускной способности эфира и проволоки в электросвязи”. В зарубежной литературе аналогичная теорема встречается как теорема Шеннона {Shannon theorem) и Найквиста (Nyquist theorem) (названа в честь ученых, опубликовавших свои работы на эту тему в 40-х годах XX столетия). 11 тт Частоту, вдвое превышающую значение наивысшей частотной составляющей рабочего сигнала, часто называют частотой Найквиста. Следует оговориться, что с точным определением понятия “частота Найквиста” имеются серьезные разночтения. Так, например, многие авторы в своих тру- дах употребляют это понятие в отношении половины частоты, устанавливаемой теоремой Котель- никова. Поэтому понятием “частота Найквиста” следует пользоваться с осторожностью. 164 Часть II. Цифровой звук и его обработка
чисел уже не сможет обеспечить необходимой точности описания исходного аудио- сигнала, что в конечном итоге может отрицательно сказаться на качестве воспро- изведения полученного цифрового сигнала. Заметим попутно, что при оцифровке звуковых сигналов вполне достаточным условием является точная передача слышимого диапазона частот преобразуемого сигнала. Остальными частотами можно пренебречь, поскольку слушатель так или иначе не способен ощущать частоты выше 20-22 кГц. По этой причине значение частоты дискретизации цифрового аудиосигнала в пределах 40-44 кГц, в соответ- ствии с теоремой Котельникова, вполне удовлетворяет требованиям качественной передачи звучания. Дальнейшее повышение частоты дискретизации нецелесооб- разно, поскольку оно почти не способно повлиять на качество звучания, при этом оно может привести к нежелательному увеличению объемов данных. Вообще гово- ря, соображения целесообразности являются ключевыми во всем, что касается цифровой аппаратуры и практической обработки сигналов, в том числе оцифровки сигналов. По большому счету именно соображения целесообразности, одновремен- но со стремлением достижения лучших результатов по комплексу параметров, ле- жат в основе всех цифровых технологий. 5.2.2. Линейное (однородное) квантование Линейное (однородное) квантование звукового сигнала является одним из спо- собов преобразования аналогового звукового сигнала в описывающую его последо- вательность чисел. В процессе линейного квантования непрерывный аналоговый звуковой сигнал представляется на каждом шаге дискретизации в виде прямо- угольных импульсов текущей амплитуды. Поэтому аналоговая кривая в процессе линейного квантования приобретает ступенчатую форму и представляется непре- рывной последовательностью прямоугольных импульсов различной величины, вписанных в аналоговую кривую. Рассмотрим процесс линейного квантования подробнее и попутно приведем но- вые термины и понятия. Допустим, что на запись одного измеренного значения амплитуды сигнала мы отводим строго N бит. Как мы уже говорили, одной Дебитной записью можно пред- ставить любое десятичное число в диапазоне от 0 до 2N -1, а значит, с помощью N бит можно представить (описать) 2? возможных различных значений амплитуды сигнала. Предположим теперь, что значения оцифровываемого аналогового сигнала ко- леблются в максимальных пределах от-1 до +1 некоторых условных единиц12 (у.е.) относительно упомянутого нами аналогового нуля. Назовем этот диапазон значений аналогового сигнала динамическим диапазоном аналогового сигнала (см. раздел 4.3.1). Таким образом, динамический диапазон аналогового сигнала 12 Позволим себе здесь это допущение, поскольку в любом случае пределы колебаний амплитуды сигнала можно привести к описанным. Например, если колебания напряжения в электрической цепи (т.е. колебания амплитуды аналогового сигнала) находятся в пределах от 0 до 5 В, то этот диапазон колебаний может быть приведен к нужному нам диапазону от -1 до 1 у.е. путем деления каждого измеренного значения амплитуды на 2,5 и вычитания 1. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 165
составляет 2 у.е. Заметим, что измеряемые значения сигнала могут быть дробными (например, 0,126 у.е. или 0,997375 у.е.). Произведем разбиение амплитудной шка- лы в пределах от-1 до +1 у.е. на 2N-1 равных интервалов (рис. 5.3), в результате чего на шкале получим 2N горизонтальных отметок (линий). Каждую полученную линию назовем квантом (уровнем квантования). Расстояние между двумя бли- жайшими уровнями квантования называется шагом квантования, мы будем обо- значать его А. В рассматриваемом случае, когда динамический диапазон сигнала Рис. 5.3. Разделение амплитудной шкалы на уровни квантования Разделение амплитудной шкалы на равные промежутки называется линейным или однородным. Самый нижний уровень амплитуды, соответствующий мини- мальной расчетной величине входного сигнала (-1 у.е.), назовем младшим квантом, а самый верхний уровень, соответствующий максимальной расчетной величине (+1 у.е.), — старшим квантом. Кванты пронумеруем от 0 до ^-1. Таким образом, для записи номера некоторого кванта в двоичной форме нам понадобится ТУбит (или N/8 байт) и не более. Линию, проходящую через отметку на оси ординат, рас- положенную ровно на половине расстояния между старшим и младшим квантами, называют цифровым нулем (на рис. 5.3 цифровой нуль расположен ровно между квантами с номерами -1 и 2(N'1)). В идеальном случае значения цифрового ну- ля квантователя и аналогового нуля входного сигнала совпадают. При записи каждого отдельного значения измеренной амплитуды преобразуе- мого аналогового сигнала это значение округляют до ближайшего уровня (кванта). Этот процесс называется квантованием исходного аналогового сигнала по ампли- туде. Другими словами, квантование по амплитуде — это процесс замены реаль- ных (измеренных) значений амплитуды сигнала приближенными значениями с определенной точностью. Устройство, осуществляющее такое преобразование, 166 Часть II. Цифровой звук и его обработка
называют квантователем. В случае линейного разбиения амплитудной шкалы на уровни квантование называют линейным (однородным), а квантователь, соответ- ственно, — линейным квантователем. Разницу между величинами входного сиг- нала, соответствующими младшему и старшему квантам, называют динамическим диапазоном квантователя. На рис. 5.4 представлена иллюстрация метода однород- ного квантования для общего случая13. Как видно из рис. 5.4, результатом дискретизации и квантования, т.е. результа- том оцифровки аналогового сигнала, стал ступенчатый сигнал, составленный из прямоугольных импульсов, каждый из которых имеет ширину, равную величине шага дискретизации, и высоту, равную округленному (квантованному) значению амплитуды сигнала. Таким образом, можно сказать, что полученная последова- тельность квантованных значений амплитуды входного аналогового сигнала яв- ляется цифровым описанием исходного сигнала, т.е. цифровым аудиосигналом. В качестве наглядного примера рассмотрим квантование аналогового сигнала с помощью трехбитного квантователя (т.е. для записи каждого квантованного зна- чения сигнала отводятся N = 3 бит). Таким образом, в распоряжении квантователя находятся 23 = 8 квантов, т.е. 8 уровней квантования амплитуды входного аналого- вого сигнала, при этом шаг квантования А составляет 2/7 у.е. (рис. 2.5). На рисунке можно видеть разницу между измеренными значениями амплитуды сигнала и квантованными (округленными) значениями, форму ступенчатого сиг- нала, а также двоичные значения сигнала на выходе квантователя. Чтобы сохранить полученный цифровой сигнал, например, в памяти компьюте- ра, достаточно сохранить последовательность чисел, считанную на выходе кванто- вателя, т.е. квантованные значения амплитуды последовательно для каждого шага преобразования (шага дискретизации). В дальнейшем, зная величину шага дискре- тизации, на основе записанной последовательности чисел можно воссоздать сту- пенчатую форму исходного аналогового сигнала. 13 На рисунке продемонстрирован идеальный случай, когда цифровой нуль квантователя совпада- ет с аналоговым нулем сигнала. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 167
A, № кванта шаг дискретизации двоичное значение на 100 101 101 011 010 101 110 101 011 011 выходе квантователя Рис, 5,5. Пример квантования сигнала при N = 3 На рис. 2.5 последовательность дискретных значений (т.е. номеров квантов), со- ставляющая результирующий цифровой сигнал, выглядит как 4, 5, 5, 3, 2, 1, 0, 5, 6, 5, 3, 3. Она же в двоичной форме (теоретический вид) выглядит как 100, 101, 101, 11, 10, 1, 0, 101, 110, 101, 11, 11. В двоичной форме на выходе трехбитного квантователя получаем 100 101 101 011 010 001 000 101 110 101 011 011 (отсутствие запятых между числами указывает на то, что на практике эта последо- вательность представляет собой непрерывный трехразрядный бит-поток.) Вернемся к вопросам квантования. Очевидно, что точность округления значе- ний амплитуды зависит от выбранного количества уровней квантования 2*, кото- рое, в свою очередь, зависит от количества N бит, отведенных для записи значений амплитуд. Чем больше уровней квантования и чем ближе они друг к другу (т.е. чем меньше А), тем на меньшую величину приходится округлять измеренные значе- ния амплитуды в процессе квантования, и, таким образом, тем меньше получаемая погрешность квантования. Число N называют разрядностью квантования, подра- зумевая при этом количество разрядов в двоичной записи одного квантованного значения амплитуды на выходе квантователя, а “снятые” с выхода квантователя округленные значения сигнала — отсчетами или сэмплами. Эффективность квантования зависит от правильности выбора квантователя. Если, например, динамический диапазон преобразуемого в цифровую форму ана- логового сигнала будет превышать динамический диапазон квантователя, то на вход последнего могут попадать значения сигнала, превышающие максимально допустимые для квантователя, что приводит к “зашкаливанию” сигнала на входе 168 Часть II. Цифровой звук и его обработка
квантователя. В этом случае квантователь “обрезает” сигнал на уровне, соответст- вующем его динамическому диапазону. Явление обрезывания сигнала называется клиппингом (от англ, “clipping” — “обрезывание”). Клиппинг, по сути, является результатом перегрузки сигнала на входе квантователя и приводит к возникнове- нию в цифровом сигнале неприятных аудиопомех. На рис. 2.6 представлен нагляд- ный пример возникновения клиппинга. Дополнительные проблемы в процессе оцифровки сигнала может вызвать не- совпадение уровней аналогового и цифрового нулей, а точнее — смещение оси ана- логового сигнала относительно цифрового нуля. Это несовпадение проявляется в случае неверного сопряжения аналоговой схемы со входом цифрового блока и са- мим АЦП. Расстояние между аналоговым и цифровым нулями называется сдвигом постоянной составляющей или DC-офсетом (от англ. “DC-offset”, от “offset” — “сдвиг”, “смещение”). Результатом возникновения DC-офсета может стать рас- смотренный выше клиппинг. На рис. 5.7 показано, как наличие ненулевого DC- офсета приводит к нежелательным побочным эффектам. Так, можно наблюдать возникновение клиппинга в области зашкаливания аналогового сигнала за преде- лы динамического диапазона квантователя. Кроме того, наблюдается общее сни- жение фактической разрядности квантования (фактического динамического диа- пазона квантования). На этом же рисунке пунктирной линией показано откорректированное положе- ние входного аналогового сигнала (когда аналоговый нуль совпадает с цифровым); в этом случае клиппинг не возникает и аналогово-цифровое преобразование прохо- дит в нормальном режиме. Описанный способ оцифровки сигнала, осуществляемой с помощью АЦП, а именно — дискретизация сигнала во времени в совокупности с методом линейного (однородного) квантования, называется импульсно-кодовой модуляцией, ИКМ (Pulse Code Modulation — PCM). Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 169
Замечание. Здесь нужно особо отметить, что на практике в реальной цифровой аппаратуре процессы дискретизации сигнала во времени и квантования значений сигнала по амплитуде неразрывны и происходят одновременно на каждом шаге дискретизации, а условное разделение этих процессов на два независимых было сделано нами исключительно для упрощения объяснений. В реальности на вход АЦП подается непрерывный аналоговый сигнал. АЦП регистрирует значения входного сигнала с некоторой частотой (частотой дискретизации), а входящий в состав АЦП квантователь мгновенно квантует каждое измеренное значение амплитуды, выдавая на выход АЦП квантованные значения в виде двоичного кода. Таким образом, преобразование аналогового сигнала в цифровой происходит “на лету”. Стандартный аудиокомпакт-диск, применяемый с начала 80-х годов XX столетия, хранит информацию в формате ИКМ с частотой дискретизации 44,1 кГц (шаг дис- кретизации составляет y/44iQQ = 22,676 мкс ) и разрядностью квантования 16 бит (таким образом, один отсчет представляет значение амплитуды исходного аналого- вого сигнала числом от 0 до 65 535)14. Попутно отметим здесь одну очень важную деталь, с которой нам неоднократно придется встречаться в дальнейшем. Как мы сказали, в результате ИКМ исходного аналогового сигнала последний преобразуется в импульсный сигнал ступенчатой CD DA (Compact Disc Digital Audio) — стандарт записи данных на оптических аудиокомпакт- дисках. Стандарт устанавливает следующие параметры кодирования: двух- или одноканальная запись (т.е. стерео или моно) в формате ИКМ с частотой дискретизации 44,1 кГц и разрядностью квантования 16 бит. Одна секунда аудио в таком формате занимает 176 400 байт (2 канала X 44 100 отсчетов в секунду X 2 байт на отсчет) или 1 411 200 бит. Говорят, что битрейт (от англ, “bit rate” — “скорость бита”, “скорость потока информации”) данных в формате CD-DA составляет 1 411 200бит/с. Выходит, что один час аудио в этом формате занимает объем около 600 Мбайт (60 мин X 60 с X 2 канала X 44 100 отсчетов в секунду X 2 байт на отсчет = ~605 Мбайт). 170 Часть II. Цифровой звук и его обработка
формы. Как нам уже известно (см. “эффект Гиббса”, раздел 2.5), каждая “угло- ватость” сигнала (т.е. ступенька на переходе между двумя соседними импульсами) привносит в его спектр высокочастотные составляющие. Отсюда следует, что чем больше ступенек содержит импульсный сигнал, тем при прочих равных условиях шире его результирующий спектр за счет привнесения в последний высших гармо- ник; чем выше частота дискретизации сигнала, тем i/же импульсы результирующего импульсного сигнала, тем их больше, а значит, тем шире спектр сигнала. В итоге вы- ходит, что повышение частоты дискретизации ведет, с одной стороны, к получе- нию более точного описания исходного аналогового сигнала, а с другой стороны — к расширению высокочастотной составляющей спектра импульсного сигнала. Этот вывод является важным, и в дальнейшем мы неоднократно будем к нему воз- вращаться. 5.3. Цифроаналоговое преобразование Чтобы яснее понять, почему точность округления при квантовании и частота дискретизации являются столь критичными параметрами оцифровки, рассмотрим процесс обратного преобразования цифрового сигнала в аналоговую форму. Но сна- чала сделаем небольшое отступление и ответим на два вопроса, которые уже как бы “зависли в воздухе”: “Зачем нужно выполнять обратное преобразование с таким трудом оцифрованного исходного аналогового сигнала?” и “Зачем вообще нужно кодировать звуковой сигнал?”. Все дело в том, что цифровой и аналоговый аудиосигналы — это две формы представления оригинального звукового сигнала, придуманные человеком для то- го, чтобы сделать возможным эффективное хранение, обработку, анализ и воспро- изведение звуковой информации. Закодированная в аналоговой или цифровой форме звуковая волна является промежуточной стадией в записи и воспроизведении звука. Понятно, что набором цифр или аналоговой моделью звуковой волны не вы- зовешь колебания воздушной среды. Однако эти вспомогательные формы пред- ставления звука позволяют оперировать его параметрами и производить над ним необходимые действия. Из приведенного небольшого отступления следует, что для того, чтобы “прослушать” цифровой сигнал, нужно восстановить (декодировать) его аналоговый вид, т.е. представить цифровой звуковой сигнал в виде электриче- ской модели, а именно — в виде непрерывных колебаний напряжения и тока в электрической цепи, что, в свою очередь, будет аналогом механических колебаний диффузора и частиц воздушной среды. Процесс восстановления аналогового сигнала из цифровой формы называется цифроаналоговым преобразованием. Устройство, осуществляющее это преобразо- вание, называется цифроаналоговым преобразователем, ЦАП (digital-to-analog converter — DAC). Цифро-аналоговое преобразование представляет собой процесс, обратный процессу дискретизации: аналоговый сигнал “реконструируют” из им- пульсного сигнала путем интерполяции15, беря определенное количество отсчетов (сэмплов) в единицу времени. 15 Интерполяция — обнаружение (восстановление) значения функции (сигнала) в некоторой про- межуточной точке по известным значениям этой функции (сигнала) в соседних точках. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 171
Как мы говорили выше, согласно теореме Котельникова, восстановление анало- гового сигнала из цифровой формы может быть достаточно точным лишь в том слу- чае, если использованная при оцифровке частота дискретизации Fd как минимум в 2 раза превышает частоту Fm наивысшей спектральной составляющей исходного аналогового звукового сигнала, т.е. должно выполняться условие Fd > 2Fm, отсюда F / Fm < ^2 • Если при оцифровке это условие выполнено не было, то точное восста- новление полезной (прослушиваемой) части спектра аналогового сигнала оказыва- ется невозможным. Причина невозможности точного восстановления сигнала в случае невыполне- ния указанного условия заключается в следующем. Дело в том, что в результате дискретизации в частотном спектре цифрового (импульсного) сигнала появляется дополнительный спектр высших гармоник, располагающийся вокруг гармоник частоты дискретизации (т.е. вокруг спектральных составляющих с частотами v • Fd для v = 1, 2, 3, ...) в диапазоне D, ширина которого равна удвоенной ширине М спектра исходного аналогового сигнала. Эти высшие гармоники (“паразитные” спектральные компоненты) являются составляющими так называемых зеркаль- ных отражений спектра исходного аналогового сигнала (рис. 5.8, а). Иными сло- вами, в спектре импульсного сигнала вокруг частот Fd, 2Fd, 3Fd, ... появляются по две копии спектра исходного сигнала, одна из которых является зеркальным от- ражением другой. Этот эффект называется алиазингом (от англ, “alias” — “псев- доним”) a Fd>2Fm (---М----(-------------D----------i (------D---------> М кипой копия М М кппол копия М f Гн ----1— ....................................................> О Fm Fd Fd-Fm Fd Fd+Fm 2Fd-Fm 2Fd 2Fd+Fm 2 6 Fd<2Fm /--M----» n <------------D---------> < U ' f Гц 0 Fd Fm Fd 2Fd t 2 ____f наложение наложение Рис. 5.8. Диаграмма состава спектра импульсного сигнала _ _ р / Если Fт превышает половину частоты дискретизации Fd (т.е. если Fm > у^ )» то в результате дискретизации дополнительные паразитные компоненты (из состава зеркальных отражений) попадают в область М исходного аналогового сигнала (см. рис. 5.8, б). В этом случае восстановить исходный сигнал без искажений из цифро- вой формы уже не удается. В качестве наглядного примера описанного эффекта рассмотрим влияние про- цесса дискретизации на спектр аналогового звукового сигнала, представленного на 772 Часть II. Цифровой звук и его обработка
рис. 5.9, а. Спектр исходного аналогового сигнала состоит из 5 составляющих с частотами 100, 200, 300, 400 и 500 Гц (таким образом, Fm = 500 Гц). На рис 5.9, б показан спектр этого же сигнала, но дискретизованного с частотой Fd=1200nj (заметим, что в этом случае Fd > 2Fln). Из представленного графика видно, что спектр импульсного сигнала содержит как спектр исходного аналогового сигнала, так и его зеркальные отражения вокруг частот Fd, 2Fd, 3Fd, (частоты 2Fd, 3Fd, ... на рисунке не показаны; спектральные компоненты, расположенные слева от частоты Fd=1200r4, образованы путем последовательного вычитания спектра частот 0-Fm исходного аналогового сигнала из значения частоты Fd\ соот- ветственно, путем сложения получаются частоты справа от FJ. Для сравнения на рис. 5.9, в представлен импульсный сигнал, полученный путем дискретизации ис- ходного аналогового сигнала с несколько меньшей частотой дискретизации, Fd= 750nj. Как видно из графика, зеркальные отражения спектра исходного аналогового сигнала, как и прежде, расположились вокруг частот Fd, 2Fd, 3Fd, спектр исходного аналогового сигнала I I I I I ._______________£гц 0 100 200 300 400 500 М , М инпох копия М D Рис. 5.9. Пример появления паразитных спектральных составляющих в дискрети- зованном сигнале При этом, однако, из-за невыполнения условия Fd > 2Fln первое зеркальное отраже- ние наложилось на полосу частот исходного сигнала 0-Fm. Таким образом, в рабочей Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 173
полосе частот 0-Fn появились паразитные спектральные компоненты, исказившие спектр исходного аналогового сигнала. Процесс цифроаналогового преобразования на практике проходит фактически в два этапа: генерирование ступенчатого аналогового сигнала на основе известной инфор- мации об отсчетах цифрового сигнала, взятой, например, из памяти компью- тера (ЦАП получает на входе последовательность отсчетов, т.е. цифровых значений сигнала, и выводит на выходе аналоговые импульсы соответст- вующей величины); сглаживание импульсного аналогового сигнала с помощью аналогового фильтра нижних частот (ФНЧ) с частотой среза, равной половине частоты дискретизации. ФНЧ на втором этапе используется с тем, чтобы отсечь от спектра ступенчатого аналогового сигнала указанные выше зеркальные отражения спектра и тем самым сгладить ступенчатую форму волны. На практике ввиду неидеальности ФНЧ часто- та дискретизации Fd на этапе аналогово-цифрового преобразования выбирается не- сколько больше 2Fm т.е. “с запасом”. Это делается из соображений технико- экономической целесообразности, так как если Fm окажется строго равной половине Fd, то качественное цифроаналоговое преобразование потребует использования фильтра высокого порядка с очень крутым срезом, в противном случае паразитные примеси зеркальных отражений спектра останутся неотфильтрованными. Но хо- рошо известно, что фильтры с крутым срезом имеют искажения АЧХ (искривления вокруг частоты среза). Таким образом, чтобы использование ФНЧ высокого поряд- ка не потребовалось, выбирают Fd > 2Fm. На рис. 5.10 представлена диаграмма, наглядно демонстрирующая необходи- мость использования ФНЧ при цифроаналоговом преобразовании. На представленной диаграмме видно, что, поскольку АЧХ ФНЧ в области час- тоты среза спадает не мгновенно, в случае невыполнения условия Fd > 2Fin спектр декодированного аналогового сигнала может содержать остатки паразитных зер- кальных отражений (на рисунке это заштрихованная область). Нужно отметить, что аналоговый ФНЧ используется и на этапе аналогово- цифрового преобразования, непосредственно перед АЦП. Это делается с тем, чтобы помехи, расположенные выше полосы слышимых частот, в результате дискретиза- ции не попали в область слышимых частот. Такая неприятность может случиться по причинам, о которых мы уже говорили выше. Рассмотрим простой пример. Представим себе, что исходный аналоговый сигнал содержит помеху на неслы- шимой человеческим ухом частоте /\ = 30 кГц. Оцифруем этот сигнал с частотой дискретизации Fd = 44,l кГц. Ввиду присутствия в полученном импульсном сигна- ле зеркальных отражений спектра оригинального сигнала вокруг частоты дискре- тизации, помеха, бывшая на частоте 30 кГц, теперь окажется “скопированной” на частоте f2 = ^d~^r т-е- на частоте 14,1 кГц. Это означает, что изначально неслы- шимая в исходном аналоговом сигнале помеха переместилась в нижнюю полосу 174 Часть II. Цифровой звук и его обработка
частот и теперь различима на слух (пояснение этого эффекта также можно найти в приложении Б). Если же исходный аналоговый сигнал перед оцифровкой предва- рительно пропустить через аналоговый ФНЧ, то помеха на частоте /2 просто “не пройдет” через фильтр, а значит, описанный неприятный эффект не проявится. I___________ Д_____________Л_____________I исходный отражение М отражение М спектр, М *-------------—-------------> i________________________) спектр сигнала после фильтрации Рис. 5.10. Иллюстрация необходимости применения ФНЧ при цифроаналоговом преобразовании 5.4. Передискретизация, дискретизация с повышенной частотой Передискретизацией (resampling) называется, в общем случае, дискретизация сигнала с частотой, отличной от некоторой исходной частоты дискретизации Fd. К использованию передискретизации прибегают как на этапе аналогово-цифрового преобразования, так и на этапе цифроаналогового преобразования. Как мы уже выяснили в предыдущем разделе, качественное преобразование аналогового сигнала в импульсную (цифровую) форму и обратно не обходится без использования ФНЧ. При этом использование ФНЧ сопряжено с некоторыми трудностями: ФНЧ высоких порядков, как правило, вносят в сигнал искажения вследствие резко выраженной крутизны кривой АЧХ, тогда как ФНЧ низкого по- рядка имеют низкую крутизну спада АЧХ и плохо отфильтровывают высшие гар- моники выше частоты среза. Чтобы избежать негативных эффектов использования ФНЧ, прибегают к методу дискретизации сигнала на повышенной частоте. В основе идеи дискретизации аналогового сигнала на заведомо повышенной частоте (over-sampling) лежит следующий факт: чем выше частота дискретизации Fd, тем дальше зеркальные копии спектра аналогового сигнала в спектре импульс- ного сигнала отстоят от верхней границы Fm полосы полезных частот (предполо- жим, это полоса слышимых частот от 0 до 20 кГц). Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 175
Еще раз отметим, что при аналогово-цифровом преобразовании использование ФНЧ требуется для того, чтобы частоты, расположенные в спектре выше частоты F , в результате дискретизации не попали в диапазон частот от 0 до Fm. При этом чем ниже тем выше требования к фильтрующим свойствам ФНЧ (т.е. к порядку ФНЧ, характеризующему крутизну спада АЧХ) ввиду необходимости качествен- ной фильтрации высокочастотных составляющих спектра результирующего сиг- нала. ФНЧ высоких порядков обеспечивают нужную степень фильтрации, но при этом сами вносят искажения в сигнал за счет искривлений АЧХ и ФЧХ. ФНЧ низ- кого порядка, имеющие пологую АЧХ, хотя сами и не вносят ощутимых помех, не- достаточно хорошо отфильтровывают высшие гармоники. Если дискретизацию аналогового сигнала проводить с некоторой повышенной частотой Fd > Fd , то расстояние г окажется большим, чем значение г в случае дис- кретизации на частоте Fd (рис. 5.11). Это значит, что высокочастотные составляю- щие спектра, которые появятся после дискретизации исходного аналогового сиг- нала с частотой Fd , окажутся разбросанными в более широком частотном проме- жутке, чем в случае использования Fd. Благодаря этому на стадии предварительной фильтрации (до АЦП) можно ограничиться использованием аналогового ФНЧ низ- кого порядка. a Fd>2Fm "полезный г__ спектр" ( 1 отражение отражение отражение отражение ••• г 1^*1—I—> О Fm £d Fd-Fm Fd Fd+Fm 2Fd-Fm 2Fd 2FdfFm ‘2 6 F’d>Fd "полезный__г»____ спектр" f ^отражение отражение f -----1----- О Fm Fji F'd-Fm F'd F'd+Fm 2F'd-Fm 2 Puc. 5.11. Иллюстрация эффекта дискретизации с повышенной частотой После оцифровки сигнала с повышенной частотой дискретизации Fd и после- дующей его фильтрации с помощью цифрового ФНЧ, эффективно ослабляющего паразитные спектральные составляющие, расположенные выше полезной частоты Fm, частоту дискретизации цифрового сигнала можно снизить до желаемого значения Fd Понижение частоты дискретизации (от англ, “decimation”, “down-sampling” — “децимация”, “прореживание”) проводится различными способами в зависимости от фактора понижения. Идея применения передискретизации при обратном цифроаналоговом преобра- зовании схожа с описанной. Перед цифроаналоговым преобразованием цифровой 176 Часть II. Цифровой звук и его обработка
сигнал можно предварительно передискретизовать с повышенной частотой F' > Fd . Эта процедура осуществляется путем вставки в сигнал промежуточных отсчетов между уже существующими; значения дополнительных отсчетов рассчитываются путем интерполяции. Такая передискретизация “отодвигает” отражения спектра исходного аналогового сигнала дальше по оси частот, что на последнем этапе циф- роаналогового преобразования позволяет использовать ФНЧ низкого порядка и тем самым избежать нежелательных искажений сигнала (рис. 5.12). Рис. 5.12. Иллюстрация применения передискретизации при цифроана- логовом преобразовании На приведенном графике показана диаграмма состава спектра импульсного сигнала, передискретизованного с частотой F'd > Fd . Из диаграммы видно, что пе- редискретизация отодвигает друг от друга области полезного спектра и области паразитных отражений, что на этапе цифроаналогового преобразования позволя- ет использовать ФНЧ низкого порядка. Нельзя не отметить, что на практике всякая передискретизация цифровых сиг- налов в большинстве случаев приводит к появлению в сигнале паразитных гармо- ник. Доля этих гармоник в общем спектре сигнала зависит в разной степени как от техники выполнения передискретизации, так и от коэффициента передискретиза- ции и самого обрабатываемого сигнала. Поэтому передискретизацией следует поль- зоваться с осторожностью. 5.5. Шум квантования 5 .5.1. Образование шума квантования и способы борьбы с ним Введем понятие шума квантования (его называют также шумом дробления). Шумом квантования называют аудиосигнал, составляющий разницу между анало- говым импульсным сигналом, восстановленным из цифрового сигнала на выходе ЦАП, и исходным аналоговым аудиосигналом (до оцифровки). Обозначим исход- ный аналоговый сигнал A(t), а импульсный аналоговый сигнал, восстановленный Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 177
из цифрового,— D(t). Тогда шум квантования— это сигнал N(t) = D(t) -A(t), отсюда D(t) =A(t) + N(t). Фактически N(t) — это сигнал, каждый отсчет которо- го равен ошибке при округлении текущего значения амплитуды сигнала A(t) до ближайшего уровня квантования (кванта) на соответствующем шаге процесса оцифровки сигнала А(t). Другими словами, шум квантования — это те искажения, которые добавляются к исходному аналоговому сигналу в процессе его оцифровки. Отсюда можно дать следующее определение цифровому (импульсному) звуковому сигналу D(t): это исходный аналоговый сигнал А(t) с подмешанным к нему шумом квантования N(t). На рис. 5.13 показана наглядная иллюстрация процесса образо- 16 вания шума квантования . Рис. 5.13. Иллюстрация образования шума квантования На верхнем графике показаны аналоговый сигнал А(t) в виде наклонной линии и образующийся в процессе его оцифровки импульсный сигнал D(t). На нижнем графике приведена кривая N(t)B виде пунктирной линии, огибающей ошибки, по- лученные в результате округления измеренных значений амплитуды сигнала А( t) до ближайших уровней квантования (сплошные вертикальные жирные линии на каждом шаге дискретизации) в процессе его оцифровки, т.е. график шума кванто- вания. На рис. 5.13, б ддя ясности масштаб по оси ординат увеличен приблизительно в два раза по сравнению с рис. 5.13, а. 178 Часть II. Цифровой звук и его обработка
В целом, величина шума квантования, т.е. величина погрешности квантования на каждом шаге дискретизации, колеблется в пределах величины А . Иными сло- вами, разброс значений шума квантования не превышает Д. Поэтому, чем выше разрядность квантования (чем больше число квантов), тем ниже уровень шума квантования, поскольку с увеличением разрядности квантования шаг квантования Д уменьшается. В предельном случае, если ошибки квантования на каждом шаге дискретизации будут достигать их максимально возможного значения, общий (наибольший) уровень шума квантования S, для данной разрядности квантования N можно определить по известной зависимости: S, =20 1gflL дБ, где к = 2N . Например, для 8-разрядного преобразования (т.е. для 8-битного кванто- вателя) & = 256, Sf=-48 дБ; для 15-разрядного — к = 32 768, 5=-90 дБ; для 16-разрядного — к = 65 536 , S, = -96 дБ ; для 20-разрядного — к = 1645 676, Si = -120 дБ ; для 1-разрядного — к = 2 , S..= -6 дБ. Замечание. На практике в звуковой аппаратуре ввиду ограничений, накладываемых на динамический диапазон сигнала, отсчет уровня звукового сигнала идет от 0 дБ, который соответствует максимально допустимому уровню сигнала в аппаратуре. Таким образом, 0 дБ соответствует максимальному уровню сигнала, а все другие значения откладываются на отрицательной шкале децибелов (при этом положительные значения сигнала в децибелах считаются зашкаливающими). Учитывая, что 0 дБ — это величина максимального по уровню сигнала, a S, — уровень шума квантования, т.е. минимально возможный уровень полезного сигна- ла17, можно сказать, что динамический диапазон АЦП составляет St (рис. 5.14). Несмотря на кажущуюся независимость процессов квантования и дискретиза- ции, связь между уровнем шума квантования и частотой дискретизации существует, и при том довольно жесткая. Дело в том, что в идеальном случае (о реальных си- туациях мы поговорим чуть ниже) спектр шума квантования равномерно распре- F / деляется в полосе частот от 0 Гц до частоты у^ » т-е- в полосе частот до поло- вины частоты дискретизации. Это означает, что в результате цифроаналогового преобразования сигнала с частотой дискретизации Fd = 2Fn (где Fn — значение наи- высшей частоты полезной (прослушиваемой) составляющей аналогового сигнала) спектр шума квантования равномерно распределится в рабочей (полезной) полосе от 0 до Fn (рис. 2.15, а). При дискретизации сигнала с некоторой повышенной 17 ,г Уровень шума квантования в составе импульсного сигнала является минимально возможным уровнем полезного сигнала по простой причине. Окажись полезный сигнал ниже по уровню, чем уровень шума квантования (т.е. окажись амплитуда колебаний полезного сигнала меньше А), полезный сигнал в оцифрованном сигнале никак бы не проявился, а был бы полностью “погло- щен” шумом квантования. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 179
частотой Fd > Fd спектр шума квантования распределится в более широкой полосе F' / от 0 до у2 , а значит, на полезную полосу частот от 0 до Fm придется меньшая ин- тенсивность (доля) шума квантования (рис. 5.15, б). С помощью цифровой фильт- F' / рации шум квантования, расположенный в полосе от Fm до , теперь можно отфильтровать более качественно и тем самым заметно улучшить шумовые харак- теристики результирующего импульсного сигнала. я о Т И А _______максимально допустимый О дБ уровень сигнала 5 и С/5 я V ____, -Si, дБ минимально допустимый уровень сигнала 3 Рис. 5.14. Диаграмма уровней сигнала на входе АЦП Известно, что дискретизация сигнала с частотой F' = 2k+xFin (k > 0), по сравне- нию с дискретизацией на частоте Fd = 2Fm, уменьшает интенсивность шума кван- тования в рабочей частотной полосе от 0 до Fm на 3k дБ. Таким образом, в случае, если величина F'=4Fin (т.е. при & = 1), интенсивность шума квантования в час- тотной полосе от 0 до Fm снизится на 3 дБ по сравнению со случаем, когда Fd = 2Fm. Другими словами, увеличение частоты дискретизации вдвое (по срав- нению с вариантом Fd = 2Fm) уменьшает интенсивность шума квантования в рабочей полосе частот на 3 дБ; соответственно, увеличение частоты дискре- тизации вчетверо (k = 2) уменьшает интенсивность шума квантования в ра- бочей полосе частот на 6 дБ и т.д. Этот факт имеет большое практическое значение, так как фактически повышение частоты дискретизации (помимо уже рассмотрен- ных преимуществ) позволяет заметно снизить уровень шума квантования. 180 Часть II. Цифровой звук и его обработка
a Fd=2Fm полоса полезных частот ( ' 1 отражение отражение О р = £а Fd Fd+Fm Гт 2 I__________) шум квантования б F'd>Fd полоса полезных частот ( 1 отражение отражение f V//////A---------1------> О Fm Fj F’d-Fm Fd Fd+Fm 2 i________________) шум квантования Рис. 5.15. Диаграмма распределения шума квантования в спектре импульсного сигнала Например, 15-битный АЦП (S, =-90 дБ), оцифровывающий сигнал на частоте дискретизации 4 - 44,1 = 176,4 кГц ( Fd = 23 Fm = 23 • 22 050 = 176,4 кГц ), выдает на вы- ходе импульсный сигнал с таким же уровнем шума квантования в рабочей полосе частот от 0 до 22,050 кГц, как и 16-битный АЦП ( Si =-96 дБ), оцифровывающий сигнал с частотой Fd = 2Fm = 44,1 кГц. Таким образом, увеличение частоты дискре- тизации в 4 раза в 15-битном АЦП по сравнению с частотой Fd 16-битного АЦП позволило получить при прочих равных условиях такой же уровень шума кванто- вания в рабочей полосе частот от 0 до 22,050 кГц, как и в 16-битном АЦП, а именно — 96 дБ. Отсюда можно сделать общий вывод: увеличение частоты дис- кретизации в четыре раза позволяет снизить разрядность используемого АЦП на единицу. Интересен также другой пример. Однобитный АЦП (N = 1) на частоте дискрети- зации 2*+1 Fm при k = 30 способен обеспечить такой же уровень шума квантования в полосе частот от 0 до Fm, какой обеспечивается 16-битным АЦП при частоте дис- кретизации 2Fm. Только представьте себе! Вместо “сложного” 16-битного АЦП, ок- ругляющего каждое измеренное значение амплитуды до одного из 65 536 квантов, однобитный АЦП, работающий на намного более высокой частоте дискретизации, но округляющий каждый замер амплитуды до всего двух возможных квантов, спо- собен обеспечить такое же качество преобразования с точки зрения шумовых ха- рактеристик. В частности, относительно стандарта CD-DA, предусматривающего оцифровку с параметрами [16 бит / 44,1 кГц], заметим, что аналогичных по качеству результатов оцифровки можно добиться, применив однобитный АЦП на частоте 230 • 44100 Гц = 47 352 ТГц . Конечно, это просто гигантская частота дискретизации, Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 181
однако на запись каждого отсчета в случае такого преобразования требуется всего лишь один бит. Следует заметить, что характер распределения шума квантования в полосе час- F / тот от 0 до у,2 зависит от самого оцифровываемого сигнала. Действительно, в случае, когда преобразуемым сигналом является некий “случайный” некоррелиро- ванный18 19, т.е. не взаимосвязанный сигнал (каковым является, например, белый шум), ошибки квантования также будут “случайными”, в результате чего шум F / квантования будет распределен равномерно по всей полосе частот от 0 до у^ Гц. На практике же реальные звуковые сигналы являются следствием далеко не случай- ных, а вполне предсказуемых процессов (см. раздел 2.7); значит, и шум квантования реального аудиосигнала является в некоторой степени не случайным и зависит от са- мого сигнала. Эта зависимость шума квантования от преобразуемого сигнала мо- жет очень негативно сказаться на качестве аналогово-цифрового преобразования 9, т.е. на шумовых характеристиках результирующего импульсного сигнала. Наглядным примером к сказанному может стать квантование слабого по уровню сигнала с применением АЦП высокой разрядности. Собственно, тот факт, что входным сигналом является слабый по уровню сигнал, уже говорит о том, что входной сигнал является в некотором смысле неслучайным. При преобразовании такого сигнала квантователь регистрирует значения амплитуды ниже некоторой величины а у.е. (рис. 5.16). Это значит, что*динамический диапазон квантователя оказывается выше дина- мического диапазона преобразуемого сигнала и для квантования амплитуды сиг- нала преобразователь использует меньшее число уровней квантования, чем мог бы. Таким образом, преобразуемый сигнал квантуется как будто бы с помощью АЦП меньшей разрядности, и в результате вклад шума квантования в импульсный сиг- нал оказывается значительно больше ожидаемого. Так, оцифровка слабого по уровню аудиосигнала с помощью 16-битного АЦП может иметь следствием такой же по уровню шум квантования, как при использовании 8-битного АЦП. Описанное явление диктует свои правила оцифровки сигналов. Так, чтобы по- лучить качественно оцифрованный сигнал и максимально снизить влияние шума квантования, преобразуемый аналоговый сигнал должен максимально использо- вать весь динамический диапазон АЦП и его уровень не должен снижаться ниже определенных границ. Этого добиваются путем использования компандера (см. раздел 4.3.1). Применение обработки динамического диапазона, однако, дале- ко не всегда является удачным выходом из положения. Так, например, компрессия 18 Корреляция (от лат. “correlatio” — “соотношение”) — это взаимосвязь, взаимозависимость, со- отношение предметов или понятий. В математической статистике это вероятностная или статиче- ская зависимость. 19 Шум квантования, равномерно распределенный по всей полосе полезных частот, на слух почти не заметен или улавливается, как равномерный фон. В случае же проявления некой зависимости шума квантования от преобразуемого сигнала, т.е. в случае коррелированности шума квантова- ния с последним (в результате модуляции шума квантования преобразуемым сигналом), звучание становится “грязным” и сопровождается специфическими помехами, обусловленными появлени- ем паразитных обертонов. 182 Часть II. Цифровой звук и его обработка
динамического диапазона аудиозаписи, которая содержит чередующиеся тихий шепот и громкую игру на рояле, может привести к резкому усилению шепота, что с художественной точки зрения нежелательно или даже бессмысленно. В та- ком случае для уменьшения влияния шума квантования прибегают к использова- нию другого приема, называемого дизерингом. 5 .5.2. Дизеринг и формовка шума К дизерингу (от англ, “dithering” — “дрожание”) прибегают в тех случаях, когда в результате оцифровки сигнала шум квантования, вместо того чтобы равномерно распределиться по всей полосе полезных частот от 0 до Fm, оказывается “зависимым” от сигнала, т.е. является своего рода его функцией, в результате чего его спектр оказывается неравномерным, что проявляется на слух в виде возникно- вения неприятных специфических помех. Собственно, так происходит на практике почти всегда, поскольку в практических случаях мы имеем дело с реальными сиг- налами, параметры которых являются кореллированными. Дизеринг — это искус- ственный прием, который позволяет улучшить субъективное качество звучания звукового сигнала за счет некоторого умышленного ухудшения его объективных параметров. Дизеринг заключается в намеренном “подмешивании” к преобразуемому циф- ровому сигналу слабого по уровню (с амплитудой в пределах до 2Д ) псевдослучай- ного постороннего сигнала, так называемого дизеринг-шума. Этот, казалось бы, довольно странный прием позволяет придать ошибкам квантования “более случай- ный” характер путем их рассеяния по спектру и тем самым нарушить зависимость шума квантования от самого преобразуемого сигнала. Применение дизеринга при- водит фактически к подмене побочных эффектов корреляции шума квантования с преобразуемым сигналом некоторым повышением общей зашумленности сигнала. Выясняется, что подобное повышение уровня зашумленности сигнала оказыва- ется для слуха более приемлемым, чем побочные эффекты шума квантования. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 183
Механизм подмешивания дизеринг-шума к сигналу основан на генерации слу- чайных чисел, с помощью которых формируются отсчеты дизеринг-сигнала. Суще- ствуют различные методики генерации случайных чисел. Основой каждой такой методики является функция распределения вероятностей (Probability Distribution Function — PDF) появления чисел. Существует ряд таких функций. Например, функция Rectangular (прямоугольная) обеспечивает равновероятную возможность появления чисел в пределах рабочего диапазона20, в то время как функция Triangular (треугольная) обеспечивает большую вероятность появления чисел ближе к середине рабочего диапазона и меньшую — по его краям. Очевидно, что ввиду равной вероятности появления чисел функция Rectangular обеспечивает бо- лее низкий общий уровень подмешиваемого шума, при этом такой шум подвержен модуляции исходным сигналом, т.е. подвержен определенной зависимости от ис- ходного сигнала. Функция Triangular, применяемая для генерации дизеринг- сигнала с динамическим диапазоном, равным 2Д , дает более высокий уровень шума, но при этом обеспечивает практически полную независимость шума от исходного сигнала. Применение дизеринга — это не единственный метод борьбы с шумом квантова- ния, и в погоне за лучшими результатами квантования были разработаны дополни- тельные методы, в частности, метод формовки шума. Идея метода формовки шума (noise shaping) следующая — преобразовать (точнее — перераспределить) шум квантования таким образом, чтобы большая часть его энер- гии расположилась в наименее заметных на слух частотных областях. Формирова- ния шума с таким спектром добиваются путем использования специального фильт- ра-преобразователя, моделирующего соответствующую кривую равной громкости (о кривых равной громкости мы говорим в разделе 3.2.2). При правильном приме- нении этого метода можно перераспределить спектр шума квантования таким об- разом, что общий шум будет менее ощутим на слух, хотя при этом общая энергия шума не изменится. На рис. 5.17 представлена общая схема организации дизеринга и формовки шу- ма. Буквами D (дизеринг) и F (формовка шума) на схеме обозначаются ключи, раз- решающие или запрещающие использование соответствующих механизмов (1 со- ответствует замкнутому состоянию ключа; 0 — разомкнутому); буквой S обозначен входной сигнал, буквой N — шум квантования; знаками и обозначаются знаки, с которыми осуществляется суммирование соответствующих сигналов в сумматорах ©. 20 Под рабочим диапазоном здесь подразумевается некоторый фиксированный числовой интервал от 0 до А, в котором 0 соответствует нулевой амплитуде отсчета дизеринг-сигнала, а. А — макси- мально допустимой амплитуде отсчета дизеринг-сигнала. Как уже было сказано, верхняя грани- ца диапазона, в котором допускается изменение значений амплитуды отсчетов дизеринг-сигнала, обычно выбирается равной Д или 2Д . 184 Часть II. Цифровой звук и его обработка
блок дизеринга формовка шума Рис. 5.17. Общая схема организации кванотвания сигнала, дизеринга и формовки шума Представленная схема является общей для процессов квантования сигнала, ди- зеринга и формовки шума: при разомкнутых ключах D и F (D = О, F = 0) происходит только процесс квантования аудиосигнала (без дизеринга и формовки шума); при замкнутом ключе D и разомкнутом F (D = 1, F = 0) происходит процесс квантования с дизерингом (без формовки шума); формовка шума выполняется по одной из двух схем: с включенным дизерин- гом (D = 1, F = 1) и с выключенным дизерингом (D = О, F = 1). Выбор схемы, в соответствии с которой производится квантование сигнала, за- висит от конкретных задач и условий. Здесь мы не будем рассматривать эту доста- точно обширную тему подробно, а лишь отметим следующее: очевидно, что применение варианта D = О, F = 0 наименее предпочтительно, поскольку не предусматривает вообще никаких методов борьбы с шумом квантования; общий уровень ошибки квантования в случаях D = О, F = 1 hD = O,F = O оди- наков, поскольку в варианте D = 0,F = 1 за счет фильтрации и суммирования происходит просто переформирование спектра шума квантования; в случае применения чистого дизеринга (D = l, F = 0) в шум квантования представляет собой белый шум. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 185
Основным недостатком метода формовки шума является необходимость нахож- дения подходящей кривой равной громкости для построения фильтра. Как было отмечено в разделе 3.2.2, абсолютных (эталонных) кривых равных громкостей не существует, так как эти кривые зависят от условий прослушивания звука и аку- стических свойств помещения. Поэтому и результаты формовки шума в большой степени оказываются зависимыми от условий прослушивания аудиоматериала, не говоря уже о том, что даже при стационарных условиях прослушивания выбор кривой равной громкости зависит от громкости самого сигнала. Беря во внимание сказанное, становится очевидным, что сделать идеальный преобразователь для формовки шума просто невозможно, однако применение существующих схем для формовки шума оказывается оправданным и дает положительный эффект даже при упрощении требований, предъявляемых к фильтру моделирования спектра. Применение технологий дизеринга и формовки шума допустимо далеко не все- гда. Если аудиоматериал является “рабочим” и впоследствии предполагается его дальнейшая обработка и доработка, то использование дизеринга и формовки шума абсолютно недопустимо. Это объясняется следующими причинами. Шум кванто- вания, с таким трудом “спрятанный” методом формовки шума под кривой равной громкости, может оказаться оголенным в результате таких операций, как увеличе- ние скорости воспроизведения аудиоматериала, изменение высоты звучания, на- ложение, микширование и т.д. Вместе с тем добавленный дизерингом высокочас- тотный шум вследствие использования компрессора, сужающего динамический диапазон сигнала, может стать намного более заметным, а также сделать примене- ние алгорйтмов сжатия аудиоданных (см. главу 7) неэффективным. По этим и дру- гим причинам обработку и редактирование аудиоматериалов проводят на гораздо более высокой частоте дискретизации и с более высокой разрядностью, чем пред- полагаемые значения этих двух параметров для финального аудиоматериала, а ди- зеринг и формовку шума применяют на самой последней стадии подготовки мате- риала при понижении разрядности и частоты дискретизации. 5.6. Джиттер и гранулярный шум 5.6.1. Джиттер Управляющая, сопрягающая и преобразующая аппаратура, участвующая в аналогово-цифровом и цифроаналоговом преобразованиях, на практике оказыва- ется далеко не идеальной. Так, осуществление выборки аналогового сигнала в АЦП может происходить не через абсолютно равные промежутки времени, а с некоторыми случайными откло- нениями. Если, например, дискретизация сигнала проводится с номинальной час- тотой 44,1 кГц, то значения сигнала могут фиксироваться не точно через каждые /^44100 с’ а пеРемежаясь то немного раньше, то немного позднее, приводя к реги- страции не совсем точного уровня сигнала. 186 Часть II. Цифровой звук и его обработка
Аналогичная нестабильность может проявляться также на стадии цифроанало- гового преобразования в случайных отклонениях длительностей (ширины) прямо- угольных импульсов от величины шага дискретизации и в отклонениях крутизны фронтов отдельных импульсов. Описанный эффект, связанный с несовершенством преобразующей аппаратуры, называется джиттером (от англ, “jitter” — “дрожание”) и является исключительно результатом нестабильности в работе АЦП, ЦАП и тактующих схем. На слух джиттер ощущается, как некое “дрожание” сигнала на высоких частотах; на низ- ких частотах джиттер выражается в некоторой размытости спектра сигнала. Для борьбы с джиттером применяют высокостабильные тактовые генераторы. Следует заметить, что проявление джиттера может наблюдаться не только при аналогово-цифровом и цифроаналоговом преобразованиях сигнала, но также при передаче сигналов по цифровым каналам от одного устройства к другому. В этом случае появление джиттера может быть объяснено несовершенной коммутацией или синхронизацией устройств и устраняется только путем использования специ- альной сопрягающей аппаратуры, высокоточно корректирующей и регенерирую- щей цифровой сигнал. 5.6.2. Гранулярный шум Гранулярным шумом (granular noise) называют эффект, проявляющийся при имеющей место нестабильности операции округления в процессе квантования сигнала. Если текущая амплитуда сигнала имеет незначительные колебания от- носительно величины сигнала на границе между двумя соседними уровнями квантования, то эти даже самые незначительные колебания могут вызывать за- метные изменения результатов округления при квантовании значений амплитуды. Поясним этот эффект на наглядном примере. На рис. 5.18 показан аудиосигнал, уровень которого располагается приблизи- тельно посередине между двумя ближайшими уровнями квантования j и j+I, и ам- плитуда которого в рассматриваемом временном интервале незначительно колеб- лется вокруг этого центрального значения. А, № кванта Рис. 5.18. Пример возникновения шума квантования Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 187
Предположим, что используемое в данном случае правило округления при квантовании (способы округления могут быть разными) состоит в округлении из- меренного значения амплитуды до ближайшего уровня квантования. Тогда, если амплитуда А сигнала будет находиться ниже значения + у (А. — уровень сигна- ла, соответствующий j-му кванту), квантователь округлит значение амплитуды до уровня у. Если же величина А превысит величину Aj +у или станет равной этому значению, то квантователь округлит амплитуду до величины кванта с номером j+1. Результатом квантования рассматриваемого почти постоянного (очень незначи- тельно колеблющегося по уровню) сигнала становится импульсный сигнал, состав- ленный из отсчетов переменной величины; составляющая гранулярного шума в этом импульсном сигнале может оказаться значительной при относительно боль- шом значении Д . Отсюда можно сделать вывод, что при прочих равных условиях с уменьшением разрядности АЦП уровень гранулярного шума увеличивается. 5.7. Неоднородное квантование В разделе 3.2.2 было отмечено, что между интенсивностью (силой звука) и громкостью звука существует тесная взаимосвязь, в основе которой лежит закон Вебера-Фехнера. Этот закон применительно к звуку можно интерпретировать сле- дующим образом: прирост силы слухового ощущения интенсивности (т.е. прирост громкости звука) пропорционален логарифму отношения двух сравниваемых раз- дражений, т.е. логарифму отношения двух значений интенсивности звука, опреде- ляющих этот прирост громкости звука (см. формулу 3.3). Отсюда следует, что громкость звука, пропорциональная уровню интенсивности звука Lz, при прочих равных условиях растет с увеличением интенсивности I; при этом любые измене- ния амплитуды слабого по интенсивности сигнала наша слуховая система различа- ет намного лучше (острее), чем изменения амплитуды в областях высокой интен- сивности. Это означает, что погрешность квантования сигнала в областях со слабой амплитудой оказывается намного более заметной на слух, чем погрешность кван- тования в областях, где сигнал характеризуется высокими значениями интен- сивности. Другими словами, в областях, где амплитуда сигнала является зна- чительной, мы можем позволить себе допускать более высокую погрешность квантования, чем в областях со слабой амплитудой. Это обстоятельство и легло в основу метода неоднородного квантования. Любой способ квантования, предусматривающий использование непостоянного шага Д (Д const ) с наперед заданным разбиением амплитудной шкалы, называется неоднородным. Здесь мы рассмотрим лишь один из таких способов, называемый логарифмическим квантованием. Логарифмическое квантование предусматривает разбиение амплитудной шкалы на уровни в соответствии с логарифмическим зако- ном. На рис. 5.19 наглядно продемонстрирована такая амплитудно-временная сетка. При использовании логарифмической амплитудной шкалы в области малых значений (низких амплитуд) оказывается большее число уровней квантования, чем в области высоких амплитуд (при этом общее число уровней квантования 188 Часть II. Цифровой звук и его обработка
остается таким же, как и в случае однородного квантования, а именно — 2?). Поэтому при квантовании слабый по амплитуде сигнал округляется на меньшие значения, чем сигнал с более высокой амплитудой, в результате чего обеспечивает- ся эффект субъективного снижения общей погрешности при квантовании звуково- го сигнала, т.е. погрешность квантования при прочих равных условиях становится менее заметной на слух по сравнению с методом однородного квантования. Здесь следует подчеркнуть, что при логарифмическом квантовании эффект субъек- тивного снижения погрешности квантования получается только за счет исполь- зования психоакустических особенностей слуха человека, его способности “не за- мечать” низкий уровень шума на фоне громкого полезного сигнала и выделять тот же уровень шума при малой громкости, т.е. низкой амплитуде полезного сиг- нала. Рис. 5.19. Амплитудно-временная сетка при логарифмическом квантовании Логарифмическое квантование может быть организовано по-разному. Вместо построения нового типа квантователя, реализующего логарифмическое разбиение амплитудной шкалы, логарифмическое квантование может быть осуществлено с использованием обычного однородного (линейного) квантователя по схеме, пред- ставленной на рис. 5.20. Принцип работы схемы состоит в следующем. На первом этапе вместо логариф- мического разбиения амплитудной шкалы (с помощью специального логарифмичес- кого квантователя) производится квазилогарифмическое21 преобразование С измерен- ных значений амплитуды входного сигнала х с помощью специального компрессора (см. раздел 4.3.1). После этого преобразованные значения амплитуды С(х) направ- ляются в обычный линейный квантователь Q, на выходе которого уже квантованные значения Q(C(x)) попадают в блок С’2, где они с помощью экспандера преобразуются Приставка “квази” (от лат. “quasi” — “якобы”, “как будто”) соответствует по значению словам “мнимый”, “не настоящий”. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 189
обратно из логарифмической шкалы в линейную. В математической интерпрета- ции сказанное можно представить в общем виде следующим образом: х _> С(х) Q(C(xJ) -> C-’(e(C(x))). Рис. 5.20. Схема построения логарифмического квантователя с использованием компрессора, линейного квантователя и экспандера Q(C(xJ) В качестве преобразователя С используется специальный компрессор, суть дей- ствия которого сводится к преобразованию текущих значений амплитуды входного аналогового сигнала по некоторому квазилогарифмическому закону с тем, чтобы усилить малые значения амплитуды и оставить без изменения большие. Другими словами, значения текущих амплитуд входного сигнала х преобразуются таким об- разом, чтобы при пропускании этого преобразованного сигнала через линейный квантователь его значения соотносились с линейной шкалой так же, как непреоб- разованные значения входного сигнала х соотносились бы с логарифмической шкалой. Существует два стандартных широко используемых типа квазилогарифмиче- ских компрессоров, в одном из которых используется закон преобразования, обо- значаемый Л-law, а в другом — ц-law. Формула преобразования входного сигнала х в |1 -law-компрессоре выглядит следующим образом: loge(l+g) sgn(x), где ц>0 (в соответствии со стандартом The North American PCM Standard, ц = 255 ); х — значение текущей амплитуды сигнала (-х^ < х < xinax); sgn(x) — функция, равная -1 для х<Ои 1 — для х > 0 . Пример действия |1 -law-компрессора представлен на рис. 5.21. На этом рисунке показан исходный входной сигнал х, а также преобразованный с помощью |1 -law-компрессора С сигнал С(х). Для большей наглядности на рисун- ке также показан фрагмент сигнала х и соответствующий ему фрагмент сигнала С(х), преобразованного согласно вышеприведенной формуле. Формула преобразования входного сигнала х в A-law-компрессоре выглядит следующим образом: ——sgn(x), OS—— < — 1 + 1оМ А С(х) = - l + logf A-li | UI л sg”(x), — I l + IogeA А хгак 190 Часть II. Цифровой звук и его обработка
где А > 1 (по стандарту The European PCM Standard, A = 87,56); x — значение те- кущей амплитуды входного сигнала (< х< xinax); sgn(x) — функция, равная -1 для х < 0 и 1 — для х > 0 . Нужно заметить, что, несмотря на разницу в определении A-law и ц -law, конечные результаты их применения очень близки22. Рис. 5.21. Пример применения ц -law-компрессора Итак, мы рассмотрели два способа реализации логарифмического квантования: использование так называемого логарифмического квантователя в чистом виде и квазилогарифмическое квантование с помощью линейного квантователя по специ- альной схеме. Их принципиальная разница заключается в том, что в случае непо- средственного построения неоднородного логарифмического квантователя с целью получения большего количества уровней квантования для слабых амплитуд произ- водится логарифмическое разбиение амплитудной шкалы. По второму способу ква- зилогарифмическому преобразованию подвергается сам сигнал, а используемый квантователь остается линейным. Оба рассмотренных выше способа реализации логарифмического квантования дают одинаковые конечные результаты. Однако на практике, исходя из экономической целесообразности, логарифмические кванто- ватели не строят, а логарифмическое квантование реализуют по рассмотренной выше схеме с использованием компандера и однородного (линейного) квантователя. 22 Стандарты A-law и |1 -law утверждены Интернациональным объединением по телекоммуника- циям (International Telecommunications Union — ITU), G. 711. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 191
Аналогово-цифровое преобразование, основанное на применении метода неод- нородного квантования, называется неоднородной импульсно-кодовой модуляци- ей, неоднородной ИКМ (Nonuniform PCM). 5.8. Кодирование и декодирование звуковых сигналов 5.8.1. Обобщенная схема преобразования и передачи звуковых сигналов Прежде чем продолжить рассмотрение различных способов представления ана- логового сигнала в цифровом виде, представим процесс преобразования звуковых сигналов в виде некой обобщенной схемы, представленной на рис. 5.22. входной сигнал кодер передающий канал выходной сигнал декодер Рис. 5.22. Обобщенная схема преобразования и передачи звуковых сигналов Рассмотрим различные варианты работы этой обобщенной схемы. 1. Схема кодирования и декодирования звуковых сигналов на базе аналогового (непрерывного) электрического сигнала. Составляющие элементы этой схе- мы следующие: • входной сигнал — это колебания звуковой волны в воздушной среде, т.е. слышимый звук; • кодер23 — это микрофон, преобразующий звуковые колебания в аналого- вый электрический сигнал, т.е. во входное напряжение (точнее — Э.Д.С.), моделирующее вид звуковой волны и ее параметры в функции времени; • передающий канал — это электрические провода (кабели), звукозаписы- вающая, усиливающая, преобразующая звуковой сигнал аппаратура, ко- торые в совокупности составляют аналоговую электрическую цепь, по ко- торой протекает электрический ток, моделирующий вид и параметры звуковой волны; • декодер24— это динамик, преобразующий аналоговый электрический сигнал обратно в звуковые колебания воздушной среды. 2. Схема кодирования и декодирования звуковых сигналов, совмещающая в се- бе аналоговый (непрерывный) и импульсный электрические сигналы (схема Код — совокупность знаков (символов) и система определенных правил, при помощи которых информация может быть представлена (закодирована) в виде набора из таких символов для пере- дачи, обработки и хранения (запоминания). Кодер (coder) — это программный или аппаратный блок, предназначенный для кодирования данных. В частности, АЦП — это кодер, преобразую- щий аналоговую форму сигнала в цифровой код. 24 Декодер (decoder) — это программный или аппаратный блок, предназначенный для декодиро- вания данных. 192 Часть II. Цифровой звук и его обработка
аналогово-цифрового кодека25). При применении такого типа схем услови- лись, что на входе и на выходе схема оперирует аналоговым сигналом, т.е. входной и выходной сигналы — это не звуковые колебания в пространстве, а аналоговый электрический сигнал. Схема работает следующим образом. Входной электрический аналоговый сигнал подается в кодер (аналогово- цифровой преобразователь, АЦП), который преобразует аналоговый сигнал в импульсный, оцифровывает его, т.е. описывает входной сигнал с помощью последовательности чисел. Эта последовательность чисел затем передается в передающий канал (цифровой канал связи, оптический или магнитный но- ситель цифровых данных, устройство цифровой обработки и пр.), после чего попадает на вход декодера. Декодер (цифроаналоговый преобразователь, ЦАП) на основе полученных цифровых данных воссоздает аналоговый вы- ходной сигнал, который снимается с его выхода. Безусловно, поскольку аналогово-цифровой кодек (схема 2) на входе и на выхо- де оперирует аналоговым сигналом, его можно рассматривать как составную часть передающего канала схемы 1. Нужно отметить, что описанные варианты схем 1 и 2 — не единственные варианты трактовки обобщенной схемы. Так, многие устрой- ства преобразования и передачи цифровых сигналов также можно представить в виде аналогичной схемы с той лишь разницей, что кодер и декодер будут выпол- нять какие-то другие определенные взаимообратные преобразования уже цифро- вых сигналов. Например, устройство цифрового фильтра, осуществляющего фильтрацию цифровых аудиосигналов путем применения БПФ (быстрое преобра- зование Фурье), может быть представлено и описано как раз в виде подобной схе- мы: в качестве кодера будет выступать механизм, осуществляющий БПФ, в качест- ве передающего канала — механизм преобразования спектра, а в качестве декоде- ра — механизм обратного преобразования (синтеза) спектра в сигнал. Таким обра- зом, предложенная на рис. 5.22 схема является вполне универсальной схемой представления процессов преобразования звуковых сигналов. Сделаем некоторые существенные замечания, касающиеся обобщенной схемы кодирования и декодирования звуковой информации. Во-первых, сигналы на входе и на выходе, даже при условии отсутствия в ней всякой внутренней обработки сигнала, не всегда совпадают, точнее — на практике почти никогда не совпадают. Данные на выходе декодера в лучшем случае лишь близко повторяют исходные данные, поступившие на вход кодера. Например, в случае схемы 1 сигнал на выходе (звуковые колебания) не будет совпадать с исход- ными звуковыми колебаниями на входе, поскольку в процессе регистрации и запи- си последних они претерпели необратимые изменения (влияние сопротивления со- единительных кабелей, неидеальность магнитной пленки, микрофона, динамиков и т.д.). В случае схемы 2 аналоговый сигнал на выходе декодера также будет отли- чаться от входного аналогового сигнала за счет погрешностей, появляющихся на стадиях преобразования аналогового сигнала в цифровой и обратно. 25 Кодек (codec — coder/decoder) — программный или аппаратный блок, предназначенный для ко- дирования и декодирования данных; совокупность кодера и декодера. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 193
Замечание, касающееся работы кодера и декодера. Кодер и декодер, хотя и вы- полняют взаимообратные операции, на самом деле в общем случае является совер- шенно разными механизмами. Единственное, в чем декодер должен быть согласо- ван с кодером, — это в формате данных в передающем канале и методе кодирова- ния. Декодер должен быть способен достаточно точно восстановить (точнее — вос- создать) исходные данные, опираясь только на информацию, полученнур на своем входе. Например, чтобы считывающая магнитная головка смогла “прочесть” дан- ные с магнитной ленты, ее механизм должен быть точно позиционирован на до- рожке с магнитной записью; чтобы цифроаналоговый преобразователь мог пра- вильно декодировать цифровые данные, он должен их правильно интерпретиро- вать: не важно, с помощью каких блоков и механизмов было осуществлено кодиро- вание исходного аналогового сигнала в цифрой, важно то, в каком формате АЦП передал оцифрованные данные в передающий канал, чтобы декодер смог верно ин- терпретировать набор цифр на входе и успешно его декодировать. Наконец, отметим следующее. На основе рассмотренной выше обобщенной схе- мы преобразования и передачи звуковых сигналов можно описать обобщенную схему передачи любой информации по аналогичному алгоритму, причем схема преобразования и передачи звуковых сигналов будет являться частным случаем обобщенной схемы преобразования и передачи любой информации. Такая обоб- щенная схема представлена на рис. 5.23. входная информация ------ передающий канал ------------ выходная информация ----► кодер ------Н I---► декодер ——► Рис. 5.23. Обобщенная схема преобразования и передачи информации На этой схеме функции всех звеньев точно такие же, как и на схеме на рис. 5.22, а именно: преобразование определенным образом и кодирование входной инфор- мации, передача эффективным способом закодированной информации по назначе- нию с помощью передающего канала, декодирование информации в исходное состояние на выходе. Такому алгоритму соответствуют самые разные способы пе- редачи информации, будь то почтовый голубь, азбука Морзе, магнитные ленточные накопители или цифровые оптические носители данных и др. На протяжении всего времени развития науки и техники передающий канал играл одну из важнейших ролей в передаче информации. Именно ради его упрощения и увеличения его про- пускной способности и защищенности создавались и создаются все новые и новые способы кодирования информации, а значит, все новые и новые кодеры и декоде- ры. Поэтому можно считать, что передающий канал является центральным, веду- щим звеном в обобщенной схеме передачи и преобразования информации. 5.8.2. Кодирование с “предсказанием” В ходе описания в предыдущем разделе обобщенной схемы преобразования и передачи звукового сигнала по схеме 2 (схема аналогово-цифрового кодека) мы не останавливались подробно на особенностях преобразования входного сигнала на этапах его кодирования, передачи и декодирования. Здесь мы укажем на эту осо- бенность, суть которой состоит в следующем. Кодирование входного аналогового 194 Часть II. Цифровой звук и его обработка
сигнала сопровождается возникновением погрешностей (ошибок), косвенно зало- женных в алгоритм кодирования. Кроме того, передающий канал ввиду своей не- идеальности также может вносить ошибки и погрешности в передаваемую инфор- мацию. Все это усложняет процесс декодирования информации, вынуждая разра- батывать такие кодеры и декодеры, которые в связке способны обеспечить сниже- ние результирующей величины погрешности до регламентируемых пределов в процессе преобразования и передачи звуковой информации. Если бы у нас была возможность заложить в кодер механизм, умеющий в какой- то степени предугадывать (предсказывать) кодируемый аналоговый сигнал, то со- вершенно аналогичный механизм можно было бы заложить и в декодер, а от кодера к декодеру через передающий канал передавать “ошибку предсказания”. Это по- зволило бы разгрузить передающий канал, так как чем более качественно кодер смог бы предсказывать входной сигнал, тем реже бы он ошибался, а значит, тем меньшее количество ошибок предсказания ему бы пришлось передавать в пере- дающий канал, т.е. тем меньший объем данных пришлось бы передавать по пере- дающему каналу. Такие схемы кодирования, работающие на основе идеи предска- зания входного сигнала, существуют. Рассмотрим на упрощенном примере работу схемы кодирования с предсказани- ем. Предположим, что входной сигнал — это бесконечный набор хаотически чере- дующихся букв трехбуквенного алфавита, состоящего из “А”, “В” и “С”. Предпо- ложим также, что наш кодер за буквой “А” всегда “ожидает” букву “В”, за “В” — букву “С”, а за “С” — “А”. В передающий канал, соединяющий кодер и декодер, кодер в виде некоторого кода передает декодеру ошибку своего предсказания. В случае, если кодер верно предсказал текущую полученную со входа букву (опираясь на уже известную ему предыдущую букву), то в канал он посылает ус- ловный сигнал (т.е. код) “0”, в случае же, если с предсказанием текущей буквы он ошибся, в канал посылается код текущей полученной буквы. Посмотрим на про- цесс кодирования последовательности букв “А В С А С В А В В”: Номер шага кодирования :012345678 Кодер получил : АВСАСВАВВ 26 Кодер ожидал получить : —ВСАВАСВС Кодер ошибся (да — 1, нет —0): 100011101 Кодер отправил код буквы: A000CBA0B Как видно, чем реже кодер ошибается в своих предсказаниях, тем больше нулей он отправляет в передающий канал и тем “проще” выглядит передаваемая кодером в канал последовательность. Как же дешифрует полученную из передающего канала последовательность букв декодер? Декодер предсказывает сигнал точно по такой же схеме, по какой это делает кодер. Иными словами, декодер согласован с кодером в правилах предсказания сигнала. Взглянем на процесс декодирования: Прочерк означает начало работы кодера (т.е. его включение); на этом шаге кодер еще “ничего не ожидает” и, значит, ничего не предсказывает. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 195
Номер шага декодирования :012345678 Декодер собирался выводить: -ВСАВАСВС Декодер получил: A000CBA0B Кодер ошибся в предсказании: 100011101 Декодер вывел на выход: АВСАСВАВВ Как видно, декодер совершенно точно восстановил данные, и на его выходе был получен сигнал, идентичный тому, который был подан на вход кодера. Проверим работу схемы для случая, когда кодер вообще “не умеет” ничего пред- сказывать: Номер шага передачи:012345678 Кодер получил: АВСАСВАВВ Кодер ожидал получить: — - — Кодер ошибся (да — 1, нет —0): 111111111 Кодер отправил код буквы: АВСАСВАВВ Как видно, в этом случае кодер отправляет в передающий канал коды всех по- лученных со входа букв, потому что ни одну букву ему верно предсказать не уда- лось. Очевидно и то, что в этом случае декодер также работает по тривиальной схе- ме, выводя на выход буквы, коды которых точно соответствуют полученным из пе- редающего канала кодам. Теперь сделаем наш кодер еще “умнее”. Пусть теперь наш кодер предсказывает входной сигнал не по одной букве, а по двум в соответствии со следующими прави- лами: за последовательностью “А В” кодер ожидает букву “С”, за последовательностью “В А” кодер ожидает букву “В”, за последовательностью “А С” кодер ожидает букву “В”, за последовательностью “С А” кодер ожидает букву “С”, за последовательностью “В С” кодер ожидает букву “А”, за последовательностью “С В” кодер ожидает букву “А”. Посмотрим, что же в этом случае произойдет при передаче той же самой после- довательности “А В С А С В А В В”: Номер шага кодирования :123456789 Кодер получил: АВСАСВАВВ Кодер ожидал получить: САСВАВС Кодер ошибся (да — 1, нет —0): 110000001 Кодер отправил код буквы: AB000000B 196 Часть II. Цифровой звук и его обработка
Как мы видим, результатом усложнения предсказывающего механизма кодера стало заметное упрощение сигнала, выводимого кодером, — нулей в выходном сиг- нале стало заметно больше. Если в первом случае, когда кодер предсказывал вход- ной сигнал лишь по одной букве, на 9 шагов передачи было 5 ошибок предсказа- ния, то теперь при кодировании того же самого входного сигнала кодер ошибся лишь трижды. Обобщим результаты и сделаем краткое резюме. Так как речь идет об аналого- во-цифровом преобразовании сигналов, в соответствии со схемой кодирования- декодирования сигнала, под словом “кодер” будем понимать используемый при оцифровке аналогово-цифровой преобразователь (АЦП), или, точнее, квантова- тель, а под словом “декодер” — цифроаналоговый преобразователь (ЦАП). На вход квантователя поступают неокругленные (измеренные) значения текущей амплиту- ды сигнала, которые он должен округлить до ближайших к ним уровней квантова- ния. Из приведенного примера видно, что квантователь (АЦП) можно снабдить механизмом предсказания значений входного сигнала, что позволит с учетом ска- занного добиться более эффективного (с точки зрения уменьшения погрешности) цифроаналогового преобразования. Квантователь, не имеющий механизма предсказания сигнала, называют кван- тователем без предсказателя. Кодер, описанный вторым в вышеприведенном при- мере, является кодером без предсказателя. Рассмотренные нами ранее однородный и неоднородный квантователи округляли (квантовали) абсолютные значения по- следующих отсчетов независимо от того, какие значения принимали предыдущие отсчеты, — эти квантователи также являются квантователями без предсказателя. Квантователь, предсказывающий сигнал по k предыдущим отсчетам, называют квантователем с предсказателем k-го порядка. Первый и третий кодеры в приве- денном выше примере — это кодеры с предсказателями соответственно первого и второго порядка. О квантователях с предсказателем мы подробно поговорим ниже. 5.9. Разностная ИКМ 5.9.1. Общие Замечания Обсуждение цифроаналогового преобразования мы вели до сих пор, рассматри- вая импульсно-кодовую модуляцию (ИКМ), подразумевающую квантование абсо- лютных величин текущей амплитуды сигнала (т.е. в случае ИКМ кодированию подвергались непосредственно измеренные значения входного аналогового сигна- ла). Помимо этого способа модуляции, применяется так называемая разностная (дифференциальная) ИКМ, сокращенно — ДИКМ (Differential PCM — DPCM). В случае ДИКМ квантованию подвергают так называемые разностные значения ве- личины амплитуды входного сигнала. Другими словами, кодированию в случае ДИКМ подвергается не сам сигнал, а некоторая его производная. Метод ДИКМ, аналогично ИКМ, может сочетаться с использованием как однородного (линей- ного), так и неоднородного методов квантования. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 197
Прежде чем приступить к рассмотрению ДИКМ, сделаем важные замечания, касающиеся используемых нами в дальнейшем обозначений. А именно, условимся, что здесь и далее: s(n) и s[n] в общем случае означают, что речь идет соответственно об анало- говом (круглые скобки) и цифровом (квадратные скобки) сигналах; под s(n) в конкретном случае мы будем подразумевать величину аналогового сигнала з, измеренного на шаге дискретизации и, где п — 0,1,2,например, s(0) — численное значение первого (на шаге дискретизации п = 0) замера те- кущей амплитуды аналогового сигнала з; запись s[n] будет подразумевать, что сигнал з дискретен, т.е. представляет собой последовательность чисел, описывающих дискретные значения сиг- нала; в большинстве случаев общее количество дискретных значений сигна- ла (отсчетов) мы будем обозначать N, и нумероваться они будут, как и ранее, начиная с 0, например в цифровом сигнале s[n] в формате ИКМ, представ- ленном последовательностью из шести отсчетов (N = 6), S [п] = {5, 12, 1, 3, 5, 67} номера отсчетов: п = О, 1, 2, 3, 4, 5, запись s[2] подразумевает третий по счету отсчет (и = 2), значение которого равно 1, т.е. s[2] = 1; функцией Q[] мы будем при необходимости обозначать функцию квантова- ния; например, запись a[n] = C[s(n -1)] будет означать, что численное значе- ние цифрового сигнала а на n-м шаге преобразования (или, другими словами, л-й отсчет дискретного сигнала а) равно квантованному значению аналого- вого сигнала з на шаге п-1. 5.9.2. Разностное кодирование с предсказанием В основе разностного (дифференциального) кодирования с предсказанием (Predictive Differential Coding — PDC) лежит использование предсказателя Л-го порядка. Идея такого кодирования состоит в следующем. На каждом шаге преоб- разования (шаге дискретизации) квантованию подвергается не само измеренное значение амплитуды входного сигнала (как происходит в случае ИКМ), а разни- ца между измеренным значением текущей амплитуды сигнала и предсказанным значением сигнала по некоторому алгоритму. Иначе говоря, на вход квантователя на каждом шаге аналогово-цифрового преобразования подается значение = ^(л) - 1[л], (5.1) где s(n) — измеренное значение сигнала на шаге дискретизации п, s[n] — предска- занное значение сигнала на шаге дискретизации и. Таким образом, d[n] представ- ляет собой ошибку предсказания на шаге дискретизации п. Именно она, а не исходный сигнал s(n), подается на вход квантователя, квантуется (кодируется) и 198 Часть II. Цифровой звук и его обработка
затем передается в передающий канал в виде цифрового сигнала Q[d[n]]. Если предсказание на n-м шаге дискретизации является абсолютно верным, т.е. если 5[n] = s(n), то на вход квантователя подается d\n] — s(n) — 5[n] = 0, что в случае ис- пользования в квантователе подходящего алгоритма квантования (при котором существует уровень квантования, соответствующий нулю, сводит ошибку кванто- вания на нет). При таком кодировании, в случае относительного точного (эффективного) пред- сказания сигнала, диапазон разброса значений сигнала d[n] (т.е. динамический диапазон ошибки предсказания) оказывается меньше диапазона разброса значений входного сигнала s(ri) (т.е. динамического диапазона входного сигнала), что при заданном количестве уровней квантования (2*) и прочих равных условиях позволя- ет осуществлять эффективное кодирование. Существуют различные алгоритмы, которые используются в предсказателях для расчета предсказуемого значения s[n]. Все они основываются на вычислении величины s[n] путем “взвешивания” (оценки) и анализа значений итогового (результирующего) импульсного сигнала на выходе кодера на предыдущих шагах преобразования. Рассмотрим один из таких алгоритмов. Предсказатель £-го поряд- ка вычисляет значение s[n] на основе уже известных ему значений результирую- щего импульсного сигнала на k предыдущих шагах преобразования, используя при этом так называемое линейное приближение (метод линейного предсказания, (Linear Prediction — LP) в соответствии со следующим аналитическим выражением: к - j] = О) -1] + a2s[n - 2] +... + ats[n - fc], (5.2) 7=1 где k — порядок предсказателя; n = 0, 1, 2, ... — номер текущего шага дискретиза- ции (преобразования); s[n - j] — численное значение итогового импульсного сигна- ла на предыдущем (п - j) шаге преобразования ( j = 1, 2, 3, к ); aj — коэффици- ент предсказания на предыдущем (и - j) шаге. Здесь крайне важно четко понять, что значение $[и] — это не квантованное зна- чение ошибки предсказания d[ri\ на выходе квантователя (т.е. это не величина Q[d[n]]), а численная величина итогового импульсного сигнала на п-м шаге преоб- разования. Передача с помощью передающего канала значения Q[d[n]], т.е. кван- тованной ошибки предсказания d[ri\ на n-м шаге преобразования, — это лишь один из способов увеличения эффективности работы передающего канала (разгрузки ка- нала) за счет попытки снижения погрешности кодирования аналогового сигнала. При этом само по себе значение Q[d[n]] информации о кодируемом сигнале не не- сет, но является обязательной составляющей численного описания этого сигнала (т.е. обязательной компонентой, необходимой для построения декодированного сигнала s[n]), которое состоит из предсказанного значения s(n) входного аналого- вого сигнала и его “поправки” Q[d[n]], т.е. s[n] = s[n] + Q[d[n]]. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 199
Значения aj в (5.2) выбирают опытным путем, в зависимости от типа преобра- зуемого аудиосигнала. Например, при оцифровке аудиоматериала с записью речи с использованием предсказателя пятого порядка можно воспользоваться, например, следующими значениями а*. ат = 0,86, а2 = 0,64, а3 = 0,40, а4 = 0,26, а5 = 0,20. В простейшем случае рассмотренная схема кодирования использует предсказа- тель первого порядка (k = 1) с коэффициентом а2 = 1. В этом случае формула пред- сказателя в соответствии с (5.2) выглядит так: s[n] = s[n -1], т.е. на каждом n-м ша- ге преобразования предсказанное значение сигнала s[n] выбирается равным значе- нию результирующего импульсного сигнала на предыдущем шаге дискретизации (и-1) и, таким образом, ошибка предсказания d[ri\ равна разности текущего изме- ренного значения сигнала и значения результирующего импульсного сигнала на предыдущем шаге: d[w] = s(n) —s[n-l]. Иными словами, в этом случае кодированию подвергается приращение сигнала на текущем шаге относительно предыдущего оцифрованного (закодированного) значения (о таком способе кодирования мы бу- дем говорить чуть ниже). На рис. 5.24 представлен упрощенный пример работы кодера, использующего достаточно простой линейный предсказатель второго порядка. Используемая этим предсказателем формула вычисления значений s[n] в рассматриваемом случае вы- глядит как 5[л] = 2-5[и-1]-1-5[и-2], (5.3) и получена из формулы (5.2) при k = 2, а} = 2, а2 = -1. Рассмотрим представленные графики подробнее (заметим лишь, что численные значения, указанные и использованные на графиках, не играют принципиальной роли и выбраны лишь для примера). На графике а сплошной линией показан ис- ходный аналоговый сигнал s(n). На этом же графике ромбиками отмечены расчет- ные значения предсказаний 5[м]. Значение j[m] на n-м шаге преобразования, вы- числяемое в соответствии с формулой (2.3), легко находится графически путем проведения прямой через значения s[n -1] и - 2] и нахождения точки пересече- ния этой линии с вертикальной чертой, проведенной через отметку п на временной оси (точки s[n] на графике отмечаются крестиками). Например, через точки s[0] и s[l] проведена прямая, которая на пересечении с п = 2 образует точку s[2] — пред- сказанное значение сигнала на втором шаге дискретизации (и = 2). Заметим, что при расчете s[l] в соответствии с (5.3) значение несуществующей точки s[-l] выби- рают равным 0. График разности между предсказанными значениями s[n] и изме- ренными значениями s(n), т.е. график ошибки предсказания d[n\ = s(n) - s[n], по- казан на рисунке б. Именно сигнал d[n] подвергается кодированию квантователем. Итак, рассмотренный метод разностного кодирования с предсказанием подра- зумевает кодирование не самого входного сигнала s(n), а ошибки предсказания d[n] входного сигнала и, таким образом, с выхода квантователя в передающий 200 Часть II. Цифровой звук и его обработка
канал подается квантованный сигнал ошибки предсказания Q[d[n]]. Здесь уместно напомнить о том, каким образом происходит декодирование такого сигнала. Вос- становление исходного аналогового сигнала и в этом случае производится так, как описано в разделе 5.8.2, а именно: декодер цифрового сигнала использует точно такой же предсказывающий механизм, какой используется в кодере (в противном случае правильное декодирование сигнала невозможно). На каждом n-м шаге деко- дирования декодер, получая с помощью предсказателя значения $[л] и прибавляя к ним “поправку” Q[d[n]], направляет полученную сумму s[n] + Q[d[n]] на вход ЦАП, который и формирует уже упомянутый нами выше выходной итоговый им- пульсный аналоговый сигнал $[л] = s[n] 4- Q[d[n]]. Рис. 5.24. Пример работы линейного предсказателя второго порядка Помимо рассмотренного линейного метода предсказания существуют и другие методы, часть из которых основывается на более глубоком анализе кодируемого сигнала. Это гораздо более сложные алгоритмы кодирования, применение которых усложняет цифроаналоговую аппаратуру, но при этом значительно снижает ошиб- ки кодирования и в конечном итоге улучшает качество выходного сигнала и общую эффективность кодирования. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 201
5.9.3. Дельта-модуляция Наиболее простым способом разностного кодирования является кодирование на базе квантователя с предсказателем первого порядка. Этот способ кодирования называется дельта-модуляцией27, сокращенно — ДМ (Delta Modulation — DM), и чаще всего реализуется на основе однобитного квантователя. Метод дельта- модуляции был разработан еще в 40-х годах XX века для использования в телефо- нии. Суть такого кодирования состоит в следующем. На вход однобитного (одноразрядного) квантователя на n-м шаге преобразования подается сигнал ошиб- ки предсказания: d[n\ = s(n) - 5[п]. Величина $[л] рассчитывается по формуле (5.2) при k = I, а, = 1 и выглядит как s[n] = Ял -1]. Таким образом: d[n] = s(n) - Я и -1], где Ял-1] — значение итогового импульсного сигнала на предыдущем (п-1) шаге дискретизации. Однобитный квантователь имеет только два положения (два уров- ня квантования): “0” и “1” (младший и старший кванты), при этом расстояние Д 28 между этими уровнями , как и во всех рассмотренных ранее методах, является по- стоянным на каждом шаге дискретизации (поэтому такую ДМ называют линейной ДМ). Поэтому квантователь, квантуя поданный на вход сигнал d[n]b выводит “1”, если d[n]>0, и “0”, если d[n]<0. Таким образом, схема ДМ-кодирования сводится к следующей (рис. 5.25): на n-м шаге квантователь выводит “1”, если значение сиг- нала s(n) на этом шаге оказалось больше либо равно значению Ял-1] итогового импульсного сигнала на предыдущем (п-1) шаге (т.е. если d(ii) >0), и “0” — в про- тивном случае. Полученный на выходе ДМ-кодера поток битов в виде последовательности из двоичных нулей и единиц представляет собой оцифрованный сигнал ошибки пред- сказания Q[d[n]], который через передающий канал в конечном счете попадает на вход ДМ-декодера. Каждый n-й шаг декодирования представляет собой следую- щую процедуру: если из передающего канала на вход декодера поступает значение Q[d[n]] = 1, то к выведенному из декодера на предыдущем шаге (л-1) итоговому значению * 28 Еще одно название дельта-модуляции, используемое в электронике, — широтно-импульсная модуляция, сокращенно — ШИМ (Pulse Width Modulation — PWM). 28 -г - A Поскольку квантователь является однобитным, т.е. имеет всего два уровня квантования, Д яв- ляется одновременно и шагом квантования, и динамическим диапазоном квантователя. Важно заметить, что величина динамического диапазона квантователя Д выбирается гораздо меньшей, чем величина динамического диапазона кодируемого сигнала, поскольку на вход квантователя подается ошибка предсказания, диапазон разброса которой в общем случае гораздо меньше дина- мического диапазона входного сигнала. 202 Часть II. Цифровой звук и его обработка
импульсного сигнала s[n -1] прибавляется величина А , после чего значение $[л] = £[л -1] + А передается в ЦАП для формирования выходного аналогового сигнала; А, № кванта '1 клиппинг d[n] = наклонная перегрузка гранулярный шум +1 ............................. ; t ' значения Q[d[n]] на выходе квантователя: 1011111000000010101011011 Рис. 5.25. Наглядный пример делыпа-модуляции если же из передающего канала на вход ЦАП поступает значение Q[d[n]] = 0 , то в этом случае в аналоговый импульсный сигнал преобразуется величина 5[n] = s[n-l]-А . Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 203
Дельта-модуляция является вполне приемлемым способом кодирования в слу- чае преобразования сигнала с высокой степенью корреляции его значений. Помимо рассмотренного выше простейшего двухразрядного примера (N = 2), вполне допус- тима также реализация дельта-модуляции с использованием многобитного (N > 2) квантователя. В этом случае качество ДМ-кодирования будет зависеть от частоты дискретизации, величины шага квантования А и от разрядности N используемого квантователя. Применение дельта-модуляции привносит в сигнал помехи, которые можно ус- ловно разделить на два типа: гранулярный шум и наклонная перегрузка (slope overload). Причина возникновения гранулярного шума не отличается от причин, рассмотренных в разделе 5.6.2. Наклонная перегрузка при дельта-модуляции (ее также называют перегрузкой крутизны) возникает из-за неспособности ДМ-кодера быстро реагировать на резкие повышения и спады уровня входного аналогового сигнала. На рис. 5.25 на шагах квантования 2-6 видно, как быстро растущий вход- ной сигнал вынуждает квантователь выводить много единиц подряд, однако ввиду фиксированности приращения А итоговый импульсный сигнал растет недостаточ- но быстро; больше того, наблюдается его запаздывание. Аналогичная картина на- блюдается и при резком спаде уровня входного сигнала. Выбор большего по вели- чине шага квантования может частично решить проблему наклонной перегрузки, но одновременно с этим увеличивает энергию гранулярного шума. Наоборот, уменьшение значения А приводит к ослаблению уровня гранулярного шума, но одновременно с этим ведет к более серьезным проблемам наклонной перегрузки. Единственный способ решения проблемы перегрузки, не вызывающий усиления гранулярного шума, заключается в увеличении частоты дискретизации, поскольку повышение частоты дискретизации “с точки зрения” ДМ-кодера приводит к уменьшению скорости изменения входного сигнала, а значит, и к уменьшению крутизны наклона последнего на конкретных его участках. Выражаясь численно, чтобы дельта-модулятор смог описать форму входного аналогового сигнала с такой же точностью, с какой это делает стандартный импульсно-кодовый 16-битный мо- дулятор на частоте дискретизации 44 100 Гц, дельта-модулятор на каждом шаге дискретизации должен быть способен “перескакивать” сразу через 216 уровней квантования, т.е. истинная частота дискретизации дельта-модулятора должна быть не ниже 216.44 100 Гц, т.е. приблизительно 2,9 ГГц. 5.10. Адаптивное квантование 5.10.1. Адаптивная дельта-модуляция Одним из недостатков процесса квантования сигнала является необходимость нахождения компромисса при выборе количества уровней квантования (разряд- ности квантования N) и величины шага квантования (расстояния А между двумя ближайшими уровнями). Как мы уже смогли убедиться, при фиксированной раз- рядности квантования величина А, с одной стороны, должна быть достаточно большой, чтобы уровни квантования смогли покрыть весь динамический диапазон входного сигнала (будь то непосредственно кодируемый входной аналоговый сигнал 204 Часть II. Цифровой звук и его обработка
или ошибка предсказания). С другой стороны, значение А должно быть достаточно маленьким, чтобы уровни шума квантования и шума дробления не оказались чрезмерно высокими. Рассмотренное нами ранее нелинейное (неоднородное) кван- тование решает эту проблему путем логарифмического разбиения амплитудной шкалы на уровни (см. раздел 5.7). Другой подход к решению этой проблемы за- ключается в квантовании сигнала с использованием шага квантования перемен- ной величины, когда величина А по определенному алгоритму выбирается срав- нительно небольшой на участках сигнала с узким динамическим диапазоном и, наоборот, сравнительно большой на тех участках, где динамический диапазон сиг- нала оказывается широким. Такой метод квантования сигнала называют адаптив- ным. Адаптивное квантование зачастую позволяет снизить уровень шума квантова- ния даже ниже отметки, достигаемой с применением нелинейного квантования. Рассмотренное выше ДМ-кодирование (линейная дельта-модуляция) может быть модифицировано таким образом, что шаг квантования А будет меняться на каждом шаге преобразования в зависимости от характера входного сигнала. При использовании ДМ участки наклонной перегрузки характеризуются непре- рывными цепочками из нулей (или единиц) на выходе квантователя, тогда как участки гранулярного шума характеризуются чередой сменяющих друг друга ну- лей и единиц. Отслеживая сигнал на выходе квантователя, можно с достаточной долей вероятности определять характер поступающего на его вход сигнала и соот- ветственно этому изменять шаг квантования. Эта идея лежит в основе адаптивной дельта-модуляции, сокращенно — АДМ (Adaptive DM — ADM). Существует множество способов реализации АДМ. Рассмотрим один из них в качестве искусственного наглядного примера. На рис. 5.26 представлен пример АДМ-кодирования. В качестве исходного сиг- нала взят тот же сигнал, что и в случае рассмотренной выше дельта-модуляции (см. рис. 5.25). За начальное значение шага квантования А принимается некоторое значение А[О] = Ао. В случае, если на текущем шаге преобразования п значение Q[d[n]] на выходе квантователя оказывается таким же, каким оно было на предыдущем шаге (п-1), величина шага квантования Д[л] на текущем n-м шаге преобразования уве- Ао личивается на величину —, т.е. 2 Д[п] = Д[п -1] +^-, если Q[d[n]] = Q[d[n -1]], в противном случае величина шага квантования уменьшается на (это при усло- вии, что после уменьшения шаг квантования не окажется меньше, чем значение —), т.е. 2 Д[п] = Д[п -1], если Q[d[n]] * Q[d[n -1]]. 2 Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 205
значения Q[d[n]] на выходе квантователя: 1011111000010101010110111 величина шага квантования Д[п]=кДо, где к: 1 1/2 1/2 1 3/2 2 5/2 2 5/2 3 7/2 3 5/2 2 3/2 1 1/2 1/2 1/2 1/2 1 1/2 1/2 1 3/2 Рис, 5,26, Пример применения адаптивной дельта-модуляции Под представленным на рисунке графиком показаны двоичные значения Q[d[n]] на выходе квантователя на каждом шаге преобразования, а также значения вели- чины шага квантования Д[л]. Итоговый импульсный сигнал s[n], полученный в результате АДМ-кодирования, как и прежде, показан на графике в виде значений, отмеченных крестиками. Из рисунка видно, что применение адаптивной дельта- модуляции способно в некоторой степени решить проблему перегрузки наклона и снизить долю гранулярного шума. Следует подчеркнуть, что представленная схема АДМ является простой, а приведенный пример — искусственным, поэтому эффек- тивность применения данной конкретной схемы ограничена. Таким образом, в случае кодирования быстро нарастающего или быстро спа- дающего по величине сигнала с каждым новым шагом преобразования величина Д будет автоматически увеличиваться, что частично или полностью компенсирует нежелательный эффект наклонной перегрузки. В случае кодирования сигнала, амплитуда которого колеблется вокруг некоторого значения, гранулярный шум будет компенсирован за счет автоматического уменьшения шага квантования на каждом новом шаге преобразования. 5.10.2. Адаптивная разностная ИКМ Адаптивная относительная (дифференциальная, разностная) ИКМ, сокращен- но — АОИКМ (Adaptive Differential PCM — ADPCM), является вариацией уже рас- смотренной нами выше ИКМ с предсказателем и отличается от последней своей способностью изменять шаг квантования в ходе кодирования. Техника АОИКМ реализуется с предсказателем первого порядка и выше. Различные алгоритмы АОИКМ используют разные методы изменения шага квантования. 206 Часть II. Цифровой звук и его обработка
В качестве примера рассмотрим один из способов реализации АОИКМ, предло- женный Cummiskey, Jayant и Flanagan. Суть предложенного механизма преобра- зования для случая трехбитного квантователя (N = 3) заключается в следующем. На вход квантователя на n-м шаге преобразования подается значение ошибки пред- сказания d[n] = s(ri) - s[л], где s(n) — измеренное значение сигнала на шаге п, s[n] — предсказанное значение сигнала. Значение d[n]y как и прежде, квантуется квантователем и выводится в передающий канал в виде значения бдм|//[л]]. Здесь бд(и] — функция квантования с возможными восемью уровнями (2ЛГ = 23 = 8 ) и шагом квантования Д[л]. Шаг квантования А[л] является переменным и зависит от результата кодирования на предыдущем шаге (п-1): Д[и] = Л/ • Д[и -1], где М — фактор (коэффициент), увеличивающий или уменьшающий шаг кванто- вания на некоторую величину, зависящую от величины ошибки предсказания на предыдущем шаге (п-1). Значение фактора М выбирается из табл. 5.3. Таблица 5.3. Выбор фактора М Абсолютное значение d[n -1] по отношению к шагу квантования А[л -1] Значение фактора М 0 < |d[n -1]| < Д[п -1] М = 0,5 Д(п-1) <|d[n-1]| < 2Д[п-1] М = 1,5 2Д(п -1) < |d[n -1]| < ЗД[п -1] М = 2,5 ЗД[п -1] < |</[п -1]| М = 3,5 Таким образом, динамический диапазон квантователя на каждом шаге преобра- зования не постоянен и зависит от соотношения ошибки предсказания с величиной шага квантования на предыдущем шаге. Представленная схема АОИКМ является достаточно простой, но вполне эффек- тивной. Существуют более сложные и более эффективные схемы реализации АОИКМ, в частности стандарт ITU-T G.726 устанавливает правила реализации АОИКМ29, в которых предусматривается использование как адаптивного квантова- теля, так и адаптивного предсказателя сигнала. В соответствии с G.726 на выходе АОИКМ-кодера может быть сигнал со скоростью выходного потока 40, 32, 24 и 16 Кбит/с (для частоты дискретизации 8 кГц и, соответственно, для 5-, 4-, 3- и 2-битного квантователя). 29 ITU (International Telecommunications Union Technical standards group) — Международный союз телекоммуникаций. Организация, разрабатывающая стандарты в области связи. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 207
5.11. Модуляция “сигма-дельта” Метод сигма-дельта-модуляции, сокращенно — СДМ (Sigma-Delta Modulation — SDM), был разработан в 60-х годах XX столетия с целью преодоления ограничений, накладываемых дельта-модуляцией. В основе СДМ, как и в основе ДМ, лежит ис- пользование однобитного квантователя. В общих чертах идея сигма-дельта-модуляции заключается не в кодировании приращений сигнала, как в случае ДМ, а в кодировании значений самого преобра- зуемого сигнала (как в случае ИКМ). Точнее, сигма-дельта-модулятор на каждом шаге преобразования квантует разницу между текущим значением входного сиг- нала и суммой этих разниц на предыдущих шагах. В конечном итоге сигнал на выходе модулятора представляет собой череду (последовательность) двоичных зна- чений “1” и “0”, при этом чем выше значение входного аналогового сигнала, тем “плотнее” единицы следуют друг за другом в выходном бит-потоке, и, наоборот, чем ниже значение входного сигнала, тем более “кучно” идут нули. На рис. 5.27 в общих чертах показан пример такого способа кодирования. На графике а показана сигналограмма кодируемого сигнала (синусоида), а на гра- фике б — форма волны получаемого импульсного СДМ-сигнала. б А, № кванта JlHIIIIin п Рис. 5.27. Пример работы сигма-дельта-модулятора Приведенные графики наглядно иллюстрируют общий смысл СДМ-кодирова- ния, заключающийся в кодировании нарастающего сигнала более плотным пото- ком единиц (темные области на графике б) и кодировании спадающего сигнала бо- лее плотным потоком нулей (светлые области). Рассмотрим более подробно процесс кодирования сигнала с использованием СДМ. Принципиальная схема СД-модулятора выглядит, как показано на рис. 5.28. 208 Часть II. Цифровой звук и его обработка
Рис. 5.28. Принципиальная схема СД-модулятора Предположим, как и раньше, что значения входного аналогового сигнала из- меняются в пределах от -1 до +1 у.е. Оговорим также, что значение, интерпрети- рованное квантователем как логическая единица (“1”), соответствует величине выходного сигнала (единичного импульса) +1 у.е., в то время как значение, ин- терпретированное квантователем как логический нуль (“0”), соответствует вели- чине сигнала -1 у.е. Поясним действие представленной выше схемы. На n-м шаге преобразования с помощью сумматора Ф из очередного измеренно- го значения входного сигнала s(n) вычитается величина квантованного на шаге (п-1) значения сигнала (в интерпретации “+1 у.е.” или “-1 у.е.”), после чего полу- ченный результат вычитания передается в интегратор. В интеграторе результат вычитания суммируется со значением, уже хранящимся в интеграторе (получен- ным на предыдущем шаге преобразования), после чего полученное значение пере- дается в квантователь. В случае, если поданное на вход квантователя значение больше нуля либо равно нулю, СДМ-кодер выводит на выход логическую единицу (“1”), в противном случае— “0”. На следующем, (п+1) шаге, описанный процесс повторяется. На рис. 5.29 графически представлен процесс такого кодирования для случая с простейшим синусоидальным сигналом. Для наглядности шаг дискретизации вы- бран достаточно большим. На каждом шаге преобразования значком “о” (кружком) отмечено значение на выходе сумматора, а значком “х” (крестиком) — значение на выходе интегратора. По описанной схеме работы модулятора, а также воспользовавшись значениями, отмеченными на графике, несложно проследить процесс кодирования СДМ. Положительной стороной использования СДМ является, например, тот факт, что реализация СДМ технически намного более проста, чем реализация ИКМ с ли- нейным многобитным квантователем. Кроме того, поскольку СДМ применяется обычно на намного более высоких частотах сэмплирования, чем ИКМ, шум кванто- вания при использовании СДМ простирается в намного более широкой частотной полосе, чем в случае применения ИКМ. В частности, при ИКМ-кодировании с па- раметрами [44,1 кГц /16 бит] шум квантования простирается в полосе от О до 22,050 кГц; в случае СДМ-кодирования с частотой дискретизации 705,6 кГц30 шум квантования простирается в полосе от 0 до 352,8 кГц, и, таким образом, на рабочий диапазон частот (в частности, на диапазон слышимых частот 0-20 кГц) приходится намного меньшая энергия шума, чем в случае ИКМ. 30 Частота 705,6 кГц выбрана потому, что данные в формате [ИКМ / 44,1 кГц / 16 бит] занимают такой же объем памяти, какой необходим для их хранения в формате [СДМ / 705,6 кГц]. Расчет прост: 44 100 Гц X 16 бит = 705 600 Гц X 1 бит. Глава 5. Аналогово-цифровое и цифроаналоговое преобразование звука 209
Рис. 5.29. Пример сигма-делыпа-модуляции синусоидального сигнала К недостаткам СД-модулятора можно отнести тот факт, что так же, как и в дру- гих методах, использующих низкоразрядный квантователь, при использовании СД-модулятора достижение высокого качества кодирования требует высокой час- тоты дискретизации сигнала. Ввиду того, что значение амплитуды входного аналогового сигнала в каждый момент времени представляется при использовании СДМ в виде плотности им- пульсов, метод также называют модуляцией плотностью пульсов (Pulse Density Modulation — PDM). Нелишне заметить, что сигнал в формате СДМ может быть легко преобразован в формат ИКМ. Использование сигма-дельта-модуляции лежит в основе стандарта SACD (Super Audio CD), разработанного компаниями Sony и Phillips и утвержденного в 1997 году. Стандарт предусматривает применение СДМ на частоте сэмплирования, равной 2,8224 МГц на канал. 210 Часть II. Цифровой звук и его обработка
Глава 6 Базисные операции, применяемые при обработке звуковых сигналов В предыдущей главе были рассмотрены основные методы оцифровки звукового сигнала, т.е. способы преобразования звукового сигнала из аналоговой формы в цифровой вид и обратно, а также основные вопросы и проблемы, сопутствующие указанным преобразованиям. В той же главе мы привели и рассмотрели схему пре- образования и передачи звуковых сигналов, которая вписывается в определенную обобщенную схему, справедливую для преобразования и передачи любой информа- ции. В обобщенной схеме преобразования и передачи звуковых сигналов есть вход- ная информация (это входной звуковой сигнал), обобщенная система кодирования и передачи информации внутри схемы (это кодер, передающий канал и декодер) и выходная информация (выходной сигнал). В этой главе мы пойдем дальше, а именно — введем понятие “система”1 применительно к звуку, рассмотрим свойства и характеристики линейной звуковой системы, рассмотрим различные операции и способы, применяемые при формировании (обработке) звуковых сигналов на входе и выходе линейной звуковой системы, в частности синтез и разложение (декомпозицию) сигнала, свертку сигналов, цифровую фильтрацию сигналов и другие вопросы. Под звуковой системой здесь и в дальнейшем будем понимать совокупность зву- ковой аппаратуры и различного рода приборов, кабелей и т.д., участвующих в ка- ком-то данном процессе (конкретной схеме) преобразования и передачи звукового сигнала. Прежде чем перейти к изложению материала, заметим, что здесь и далее, говоря о цифровых сигналах, мы будем подразумевать сигналы в формате ИКМ, т.е. сигналы, представленные собой последовательностью отсчетов. Система (от греч. “systema” — “целое, составленное из частей”, “соединение”) — это множество элементов, находящихся в отношениях и связях друг с другом и образующих определенную цело- стность, единство.
6.1. Линейная звуковая система и ее свойства По общему определению под линейными системами понимают колебательные системы, свойства и характеристики которых (упругость, масса, коэффициент тре- ния — для механических систем и емкость, индуктивность, сопротивление — для электрических систем) сохраняются постоянными при изменении состояния сис- темы, т.е. не зависят от величин смещения, скорости, напряжения и тока. Отсюда следует, что процесс образования и распространения звуковой волны (звука) в раз- личных средах связан с линейной механической колебательной системой частиц (молекул, атомов). Поэтому звуковые колебания справедливо отнести к линейным механическим колебательным системам. О линейных системах, относящихся к об- работке аудиосигналов, и о предъявляемых к ним требованиям мы будем говорить подробнее в этом разделе, а для начала приведем примеры линейных систем, свя- занных со звуком. В качестве примера линейной системы могут выступать: слухо- вая система человека; музыкальные системы на основе клавишных, духовых и струнных музыкальных инструментов; системы, собранные для той или иной цели (в различных сочетаниях) из звуковой аппаратуры, не допускающей перемножение входных сигналов (микрофон, магнитофон, усилитель мощности, эквалайзер, раз- личного рода фильтры, эффект-процессоры, АЦП, ЦАП и т.д.); измерительные приборы, измеряющие физические величины. Системы, относящиеся к обработке аудиосигналов, делятся на две основные категории: дискретные системы и непрерывные системы. Непрерывная система отвечает непрерывным выходным сигналом на непрерывный входной сигнал (рис. 6.1, а). Рис. 6.1. Непрерывная и дискретная линейные системы Примером такой системы может служить система, состоящая из аналоговой ау- диоаппаратуры. Дискретная система (рис. 6.1, б)— это система, отвечающая дис- кретным выходным сигналом на дискретный входной сигнал (например, цифровой фильтр, цифровой эквалайзер). Здесь, пожалуй, еще раз уместно напомнить, что цифровой аудиосигнал — это лишь форма записи аналогового сигнала в виде дис- кретных численных значений. 212 Часть II. Цифровой звук и его обработка
Все рассматриваемые в этом разделе свойства систем справедливы как в отно- шении непрерывных систем, так и в отношении дискретных систем. Применительно к обработке аудиосигналов систему называют линейной, если она является гомогенной и аддитивной . Если хотя бы одно из этих свойств не вы- полняется для данной системы, то такая система является нелинейной. При обра- ботке сигналов к линейности системы добавляется еще одно жесткое требование — инвариантность3 к сдвигу во времени. Рассмотрим подробнее понятия “гомоген- ность", “аддитивность” и инвариантность к сдвигу во времени". Гомогенность линейной системы заключается в том, что изменение амплитуды входного сигнала влечет за собой соответствующее изменение амплитуды выходно- го сигнала. Обозначим входной сигнал линейной системы как x(t), а выходной сигнал — y(t)- Гомогенность системы S подразумевает выполнение в любой момент времени следующей пропорциональной зависимости: Лх(О ~ ky(t), где k — любое действительное число, большее нуля. Линейную систему S считают гомогенной, если на усиление (или ослабление) входного сигнала в k раз система реагирует усилением (или ослаблением) выходного сигнала в те же k раз. Свойство гомогенности можно представить графически, как это сделано на рис. 6.2. если выходной сигнал Здесь следует особо подчеркнуть, что в этом случае речь идет не о равенстве ам- плитуд сигналов на входе и выходе системы, а лишь о пропорциональном увеличе- нии (или уменьшении) последних. Из свойства гомогенности линейной системы следует также, что поданный на вход системы сигнал некоторой постоянной величины х вызовет на выходе системы Гомогенный — однородный. Гомогенная система — это система, физические свойства которой во всех частях одинаковы или меняются непрерывно без скачков. Аддитивный (от лат. “additives” — “прибавляемый”) — свойство величин, состоящее в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответст- вующих его частям, каким бы образом не был разбит объект. Инвариантность (от лат. “invarians” — “неизменяющийся”) — неизменность количества вели- чины при изменении физических условий или по отношению к тем или иным преобразован иям. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 213
также постоянный сигнал величины kx. Это свойство называется статической ли- нейностью. Примером гомогенной линейной системы является простой телефон. При исправ- ной телефонной линии (линейной системе S) увеличение громкости голоса говоря- щего в k раз приводит к ^-кратному усилению громкости звука на другом конце провода (на выходе системы S). Рассмотрим теперь свойство аддитивности линейной системы. Предположим, что входному сигналу ^(г), поданному на вход системы S, соответствует выходной сигнал yx(t) . Предположим также, что входному сигналу x2(t) соответствует вы- ходной сигнал y2(t). Теперь подадим на вход системы S суммарный сигнал jq (г) + х2 (t) . Тогда, если система является аддитивной, на выходе системы S будет получен сигнал yx(t) + y2(t), в противном случае система не является аддитивной (рис. 6.3). входной сигнал выходной сигнал ТО X](t)+x2(t) yi(t)+yz(t) Рис. 6.3. Аддитивная линейная система Применительно к примеру с телефоном аддитивность подразумевает, что если ваш собеседник может слышать отдельно ваш голос и отдельно шум находящейся неподалеку от вас стройки, то он так же успешно может слышать в тех же пропор- циях ваш голос на фоне шума стройки. Поскольку при разговоре по телефону это свойство действительно имеет место, то можно сказать, что телефон — это адди- тивная линейная система. Наконец рассмотрим свойство инвариантности линейной системы к сдвигу во времени. Такая инвариантность предполагает, что сдвиг во времени входного сиг- нала вызывает аналогичный по величине сдвиг во времени выходного сигнала. То есть, если x(t) — это входной сигнал системы S, а у(t) — соответствующий, ему выходной сигнал, инвариантность подразумевает, что для любого действительного 214 Часть II. Цифровой звук и его обработка
числа Az > О сигнал x(t + Дг) вызовет на выходе системы S выходной сигнал y(t + Д/) (рис. 6.4). Рис. 6.4. Инвариантность к сдвигу во времени линейной системы Инвариантность линейной системы к сдвигу во времени можно пояснить на примере с телефоном следующим образом. Все четко сказанные слова в трубку пе- редаются собеседнику одинаково четко вне зависимости от того, с каким интерва- лом времени Дг произносятся отдельные звуки и слова, и воспринимаются собе- седником с теми же интервалами времени. Если бы телефон не был инвариантной линейной системой, то собеседник на другом конце провода слышал бы сказанное с какими-то другими интервалами времени, т.е. в искаженной во времени форме. Инвариантность линейной системы к сдвигу во времени является очень важным свойством системы, так как оно гарантирует, что система обрабатывает звуковой сигнал одинаково, вне зависимости от временных интервалов на входе. К важнейшим свойствам линейных систем относится так называемая синусои- дальная верность. Это свойство означает, что поданная на вход системы синусоида генерирует на выходе системы также синусоидальный сигнал, причем частота вы- ходного сигнала будет совпадать с частотой входного. При этом фазы и амплитуды сигналов могут отличаться друг от друга. Заметим, что свойство линейности систе- мы автоматически гарантирует свойство синусоидальной верности, но не наоборот. Линейные системы обладают свойством коммутативности. Если две линейные системы S и Т соединить последовательно и подать на вход какой-то входной сиг- нал, то полученная в результате такого соединения результирующая линейная система будет работать одинаково, независимо от последовательности подключе- ния S и Т (S-Т или Т-S). Другими словами, линейные системы можно соединять последовательно в цепочку, при этом порядок их соединения не имеет значения. Сказанное относится также к последовательному подключению нескольких (более двух) линейных систем, и в этом случае от последовательности их подключения не будет зависеть результат работы объединенной (результирующей) линейной системы. Важное замечание следует сделать в отношении систем с несколькими входами и выходами. Система с несколькими входами и выходами является линейной тогда и только тогда, когда она состоит исключительно из линейных систем и включает, как было сказано выше, только операции сложения сигналов, умножения на кон- Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 215
станту k и сдвига во времени. Если хотя бы одна из составляющих системы с не- сколькими входами и выходами оказывается нелинейной, то вся система также оказывается нелинейной. 6.2. Синтез и разложение Здесь и далее мы будем говорить о дискретных (цифровых) системах, опери- рующих цифровыми сигналами: на вход дискретной системы подается (в виде по- следовательности чисел) дискретный сигнал и также дискретный сигнал выводит- ся с ее выхода. Базисными операциями, применяемыми при обработке звуковых сигналов яв- ляются две операции — синтез и разложение. Соединение (формирование) в один результирующий сигнал нескольких сигналов, называется синтезом. Преобразова- ние, обратное синтезу, т.е. разбиение одного сигнала на несколько составляющих, называется разложением или декомпозицией. В линейных системах формирова- ние одного сигнала из нескольких может быть осуществлено путем использования следующих операций: умножения сигналов на константы, сдвига сигналов во вре- мени, сложения сигналов между собой (суперпозиция сигналов); способов разло- жения сигнала на несколько составляющих может быть бесконечное множество. Например, из чисел 25 и 75 можно “ синтезировать" (путем сложения) только лишь число 100, при этом число 100 можно разложить и на 10 + 90, и на 30 + 70, и т.д. Сигналы, получаемые в результате разложения исходного сигнала х[п], называют компонентами сигнала х[nJ, т.е. составляющими сигнала х[п]. Обозначим их как х0[п], х,[п],.... xN1[п]*. Определим основное свойство линейных систем, связанное с синтезом и разло- жением. Для этого возьмем произвольный входной сигнал х[п] и пропустим его через некоторую линейную систему S, в результате чего получим какой-то выход- ной сигнал у[п] (рис. 6.5, а). Теперь возьмем тот же сигнал х[п] и некоторым обра- зом разложим его на компоненты х0[nJ, xt[nJ,..., xN_t[п]. Затем каждую компоненту xjn] (где i = 0, 1, 2, ..., W-1) пропустим через нашу линейную систему S, в ре- зультате чего на ее выходе получим реакцию (“ответ") системы S в виде выходных сигналов z0[п], zjn],..., zN_t[n]. Теперь путем синтеза сформируем один сигнал из компонент z.[n]. В результате синтеза получим результирующий сигнал z[n] (рис. 6.5, б). Сравнение двух результирующих сигналов у[п] и z[n] покажет их идентичность по всем параметрам. Отсюда можно сделать два вывода. В линейных системах операции разложения и.синтеза, применяемые при об- работке звуковых сигналов, при прочих равных условиях не влияют на со- став и параметры выходного сигнала. Здесь и далее мы будем нумеровать компоненты, начиная с нуля, т.е. первой компонентой сиг- нала х[п] будет х0[п]. 216 Часть II. Цифровой звук и его обработка
Чтобы понять реакцию системы на некоторый сложный входной сигнал, дос- таточно изучить реакцию этой системы на более простые составляющие этого сигнала. Рис. 6.5. Применение декомпозиции и синтеза Существуют различные способы декомпозиции сигналов. Рассмотрим некото- рые из них. Импульсная декомпозиция предполагает разложение сигнала х[п], состоящего из N отсчетов, на компоненты х0[п], xt[пJ,..., xN_t[пJ, где каждая i-я (0 < i < N -1) компонента xt[n] является импульсом, т.е. отвечает следующему требованию: все отсчеты г-й компоненты х/п] равны 0, кроме г-го отсчета, который по своей вели- чине равен г-му отсчету исходного сигнала х[п]. Графически импульсное разложе- ние выглядит, как показано на рис. 6.6. Например, для х£п] при i = 4 все отсчеты равны нулю, кроме 5-го отсчета (с учетом отсчета под номером 0), величина которого равна величине 5-го отсчета исходного сигнала х[п]. Очевидно, что суммирование всех импульсных компонент xof пJ, xt[п],..., xN_t[п] сигнала х[п] дает в сумме исходный сигнал х[п]. Шаговая декомпозиция раскладывает сигнал х[п] на набор N компонент — х0[п 1* ХЛп 1» •••» xN-it71]> каждая из которых имеет вид ступеньки: начальные отсче- ты i-й компоненты имеют нулевое значение вплоть до отсчета с номером i-1; отсче- ты, начиная с i-ro, имеют величину x[i]-x[i-l] (отметим, что x0[j] = х[0] &ля всех j). Этот способ декомпозиции продемонстрирован на рис. 6.7. Для примера рассмотрим компоненту х/п] для i = 4. Отсчеты этой компоненты с номерами О, 1, 2 и 3 в соответствии с определением равны 0. Все другие отсчеты, начиная с 4-го, по величине равны значению х[4]-х[3] (в данном случае это отри- цательное значение). Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 217
Рис. 6.6. Импульсная декомпозиция сигнала х[п] 218 Часть II. Цифровой звук и его обработка
Рис. 6.7. Шаговая декомпозиция сигнала х[п] Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 219
Чересстрочная декомпозиция разделяет сигнал х[п] на две составляющие — четную и нечетную. Нечетная составляющая совпадает с исходным сигналом х[п] на всех нечетных отсчетах, при этом все четные отсчеты (нулевой, второй, четвер- тый и т.д.) обнулены. Четная составляющая, по аналогии, состоит только из чет- ных отсчетов х[п], тогда как все нечетные составляющие равны 0. Помимо перечисленных методов декомпозиции сигналов, существуют и другие. Следует сказать, что одним из наиболее широко используемых и важных разложе- ний является уже обсуждавшаяся нами ранее (см. главу 2) декомпозиция Фурье — разложение сигнала на набор синусоидальных составляющих. Отметим здесь, что при реализации быстрого преобразования Фурье (БПФ) используется чересстроч- ная декомпозиция5. 6.3. Дельта-функция и отклик системы Определим понятие дельта-функции. Дельта-функция (ее также называют функцией Кронекера6 и единичным импульсом) — это так называемый нормализо- ванный импульс, точнее — это такой сигнал, нулевой отсчет которого имеет вели- чину 1, а все остальные отсчеты приравниваются к нулю (рис. 6.8). о •••••••••• > п Рис. 6.8. Делыпа-функция Дельта-функцию обозначают 8[и]. С понятием дельта-функции связано очень важное понятие — реакция на единичный импульс (impulse response). Реакция (или отклик) на единичный импульс — это сигнал на выходе системы S, являю- щийся результатом подачи на вход этой системы дельта-функции 8[и] (рис. 6.9); реакцию на единичный импульс обозначают как h[n]. В математической записи сказанное выглядит следующим образом: Я8[/г]] = /г[/г]. Отклик системы на единичный импульс также называют импульсной характе- ристикой системы. Мы опустим здесь рассмотрение алгоритма БПФ, ограничившись лишь его общим описанием, приведенным в части I. Названа в честь выдающегося немецкого математика и логика Леопольда Кронекера (Leopold Kronecker, 1823-1891). 220 Часть II. Цифровой звук и его обработка
5[n] h[n] СИ Рис. 6.9. Пример реакции линейной системы S на единичный импульс 8[и] Любые две неодинаковые линейные системы по-разному реагируют на единич- ный импульс, что прямо следует из свойства линейности. Теперь отметим важный момент: любой сигнал g[n], состоящий из одного импульса, можно представить сдвинутой и усиленной (или ослабленной) дельта-функцией, т.е. g[n] = k S[n- i] для некоторого подходящего коэффициента усиления (или ослабления) k и некото- рого подходящего сдвига i, при которых соблюдается указанное равенство. Напри- мер, если g[n] является сигналом, 5-й отсчет которого (i = 4) равен 0,5, а остальные отсчеты являются нулевыми, то g[n] можно представить в виде #[и] = к • 8[и -«], где k=0,5, i=4. Далее, так как, исходя из свойств линейности системы S, коэффициент усиле- ния (ослабления) k и индекс сдвига i входного сигнала при прохождении через сис- тему сохраняются, то можно смело утверждать, что поданный на вход системы S импульс #[и] = к • S[n - /] даст на выходе системы сигнал kh[n - /], т.е. Я g[n] ] = S[ k8[n-i] ] = kh[n-i], где h[n] — это реакция системы на дельта-функцию. Отсюда следует, что отклик системы на любой импульс может быть представлен в виде усиленной (или ос- лабленной ) и сдвинутой во времени реакции на единичный импульс. Подытожим все вышесказанное: любой сигнал х[п] может быть разложен с помощью импульсной декомпо- зиции на ряд импульсов х0[пJ, xt[пJ,...»xN_t[п]; реакция системы S на сигнал х[п] может быть представлена в виде суммы реакций системы S[ хДи] ] на импульсные компоненты хДи] этого сигнала: S[ 4п] ] = £3[ х,[п] ]; любой импульс х{п] можно представить в виде дельта-функции k^n-i] с реакцией на нее системы S в виде k.h[n - i]: Я хДи] ] = Я kftn-i] ] = kih[n-i], Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 221
где i = О, 1, 2, N -1, kt — коэффициент усиления (ослабления) дельта- функции на f-м отсчете, h[n] — импульсная характеристика системы (реакция системы на единичный импульс); таким образом, отклик системы S на исходный входной сигнал х[п] можно представить в виде суммы сдвинутых во времени и усиленных (ослабленных) реакций на единичный импульс: S[ х[п] ] = i=0 Из последнего равенства следует основной вывод: для того чтобы знать реак- цию системы S на какой-то сигнал, достаточно знать реакцию h[n] этой систе- мы на дельта-функцию. Другими словами, чтобы составить полное представление о том, какие изменения претерпевает при прохождении через линейную систему S произвольный сигнал xfnj, достаточно “изучить” систему путем подачи на ее вход единичного импульса (дельта-функции). Более того, так же, как система определя- ет реакцию на единичный импульс, так и, наоборот, реакция на единичный им- пульс определяет систему. Таким образом, для построения (задания) некоторой новой линейной системы достаточно описать ее импульсную характеристику и, собственно, реализовать ее расчетным путем (или аппаратно). Существует уни- версальный способ построения линейных систем, который позволяет для любой ре- акции на единичный импульс (т.е. импульсной характеристики) построить соот- ветствующую ей линейную систему. Такая универсальная операция называется сверткой. 6.4. Свертка Свертка (конволюция)7— это математическая операция, с помощью которой два сигнала образуют третий. Свертка применима как к непрерывным, так и к дис- кретным сигналам. Наряду с декомпозицией Фурье, свертка является одним из ключевых приемов в обработке цифровых сигналов. Важность и значимость опера- ции свертки заключается в том, что с ее помощью, путем задания импульсной характеристики h[n], можно получить расчетную (т.е. путем расчета) линейную систему обработки аудиосигналов. С помощью свертки можно реализовать боль- шинство механизмов обработки цифровых сигналов — от создания различных зву- ковых эффектов до фильтрации и исправления искажений. Обсудим подробнее операцию свертки для дискретных сигналов. Итак, свертка — это математическая операция сродни, например, сложению, вычитанию и другим арифметическим операциям. Свертка обозначается знаком (звездочкой). Если привычные для нас арифметические операции выполняются над числами, то свертка выполняется в рассматриваемом случае над цифровыми сигналами, заданными множеством дискретных значений (отсчетов). Причем на Конволюция — от лат. “convolutes” — “свернутый”, “сплетенный”. 222 Часть II. Цифровой звук и его обработка
количество отсчетов подвергаемых свертке сигналов никакие ограничения не на- кладываются. Для сигналов х[п] и у[п], состоящих из какого-то конечного числа отсчетов, свертка указанных сигналов в самом общем виде как математическая операция обозначается следующим образом: zW = x[n]*y[w], где г[п] — это результирующий сигнал свертки, а сигнал у[п] — ядро свертки (kernel); ядром свертки называется сигнал, стоящий справа от знака свертки. Когда речь идет о свертке двух конкретных сигналов х[п] иу[п], состоящих из N и М отсчетов соответственно, для расчета каждого i-ro отсчета результирующего сигнала z[n] свертки используется формула tf+M-2 z[i]= £ х[Л]у[/-Л], к=0 или в развернутом виде: z[Z] = 40]уШ + x[l]y[i-1] + 42]у[i- 2] +... +x[N + М-2]y[i-(N + М-2)]. k=Q k=l k=2 k=N+M-2 Как видно, каждый i-й отсчет результирующего сигнала z[n] вычисляется не- зависимо от других отсчетов путем суммирования произведений значений отсчетов сигналов х[п] и у[п]. При расчете свертки следует обратить внимание на одно об- стоятельство: поскольку ядро свертки у[п] состоит из отсчетов, нумеруемых от 0 до М-1, то отрицательные значения индекса (i-k) внутри формулы (для y[i - Л]) не имеют смысла, и поэтому величина у[/ - Л] для несуществующего отсчета с номером i-k<0 приравнивается к нулю. Аналогичное правило действительно и для несу- ществующих отсчетов с номерами (т.е. у[/-Л] = 0для i-k> М -1). Рассмотрим подробно пример свертки двух сигналов z[n] = 4и] * у[и] • Предполо- жим, что сигналы х[п] и у[п] задаются тремя отсчетами каждый (т.е. N = 3, М = 3). Рассчитаем результирующий сигнал z[n] в соответствии с приведенной формулой свертки: z[0] = £4*]у[0 - Л] = 40]у[0] + 4UX-1] + 42]у[-2] + 43] у [—3] + х[4]у[-4] = 1=0 J=0 »=1 »=2 »=3 *=4 = х[0] у[0]+0 + 0 + 0 + 0 = 40]у[0]; z[l]=£ 4*]у[1 - *] = 40]у[1-0]+,41]у[1-1]+42]у[1-2]+43]у[1-3] + 44]у[1-4] = = 40]у[1]+41]у[0] + 42]у[-1] + 43]у[-2] + 44]у[-3] = 40]у[1] + 4Иу[0]+0+0+0 = = 40]у[1] + 4Иу[0]; Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 223
42] = 2>[*]y[2 - *] = 40]y[2-0] + 4Uy[2-l] + 42]у[2-2] + х[3]у[2-3] + 44]у[2-4] = к=0 к=0 к=\ к=2 к=3 к=4 = х[0] у[2] + х[1]у[1] + 42]у[0] + х[3]у[-1] + 44] у [-2] = = 40]у[2] + 41] у[1] + 42] у[0]+0+0 = 40]у[2]+4ОД1]+42]у[0]; 43] = 1>[*]у[3 -к] = 40]у[3-0] + 41]у[3~1] + 42]у[3-2] + 43]у[3-3] + 44]у[3-4] = = 40] у[3] + 41]у[2] + 42]у[1] + х[3]у[0] + 44]у[-1] = = 0 + 4Иу[2] + 42]у[1] + 0 + 0 = 41]у[2] + 42]у[1]; 44] = - *] = 40]у[4-0] + 41]у[4-1] + 42]у[4-2] + 43]у[4-3] + 44]у[4-4] = = 40]у[4] + 41] у[3] + 42]у[2] + 43]у[1] + 44]у[0] = = 0 + 0 + 42]у[2] + 0 + 0 = 42]у[2]. Если провести аналогичные расчеты для отсчетов i >5 , то окажется, что резуль- тирующий сигнал z[n] jsjlsl этих отсчетов будет равняться нулю. Например, рас- считаем z[5]'. 45] = g4*]y[4- Л] = 40] у [5-0] + 41]у[5-1] + 42]у[5-2] + 43]у[5-3] + 44]у[5-4] = = 40] у[5] + 41]у[4] + 42]у[3] + 43]у[2] + 44]у[1] = = 0 + 0 + 0 + 04-0 = 0 Теперь поговорим о свойствах свертки. Количество отсчетов в результирующем сигнале z[n] составляет N+M-1 (приведенный выше пример расчета свертки подтвердил это положение). Отсюда становится очевидным, что свертка — это ресурсоемкая операция. В частности, чем большее число отсчетов содержат сигналы х[п] и у[п], тем длиннее суммы в фор- муле вычисления каждого отдельного i-ro отсчета результирующего сигнала z[n], а значит, тем больше общее число арифметических операций, которые требуется произвести для расчета всего результирующего сигнала z[n]. Самой простой реакцией системы на единичный импульс является также еди- ничный импульс без изменений. Система, реагирующая таким образом на единич- ный импульс, никак не видоизменяет пропускаемый через нее входной сигнал. Другими словами, всякий сигнал, будучи пропущенным через систему с импульс- ной характеристикой h\n\ = 5[и], не претерпевает никаких изменений. Так как с помощью операции свертки сигналов получают расчетную линейную систему, из сказанного можно сделать вывод: свертка любого сигнала х[п] с дельта-функцией 5[и] всегда дает исходный сигнал х[п] на выходе расчетной линейной системы, т.е. х[и] * 5[и] = х[и]. 224 Часть II. Цифровой звук и его обработка
Таким образом, дельта-функция 8[и] в операции свертки выступает в роли тож- дества (аналогично, например, числу 0 в операции сложения: 5 4-0 = 5). Ввиду ли- нейности свертки можно также записать для любого действительного числа k Кроме того, для любого сдвига i (сдвиг номеров отсчетов) выполняется х[и]*8[и + fl = х[и + Л. С помощью последнего свойства можно объяснить, например, прием радиосиг- нала из какой-нибудь удаленной точки. С момента синхронизации приемника и передатчика сигнал х[п], отправленный передатчиком, принимается приемником безо всяких изменений, но сдвинутым во времени на некоторую величину i, т.е. приемник получает задержанный сигнал х[n+iJ. Приведенные выше свойства свертки можно применить для создания математи- ческой модели эффекта эха. Чтобы придать некоторому сигналу х[п] эхообразное звучание, необходимо, воспользовавшись принципом суперпозиции, сложить сам сигнал х[п] с его задержанными во времени и ослабленными копиями. Ослаблять и задерживать сигнал во времени мы уже умеем (это делается с помощью дельта- функции и свертки). Таким образом, эффект эха может быть легко реализован в виде следующей математической модели: z[n] = (4п]*8[л]) + (x[n]*^,8[n + i1]) +...+(x[n]*£8[n+ /,„]), копия первый отзвук т-й отзвук где т — число отзвуков в эхе, k19 ...» km — коэффициенты ослабления для каждого отзвука, ilf..., im — количество отсчетов (импульсов) задержки отзвуков во времени. Рассмотрим два простых графических примера, характеризующих свойства свертки. На рис. 6.10 представлены три графика: верхний отображает дискретный сигнал х[п] (всего 10 отсчетов, N = 10), средний — ядро свертки 8[и] (всего три от- счета, М = 3), нижний — результат свертки z[n] = х[и] * 6[и] (всего 12 отсчетов). Рассмотрим процесс вычисления свертки для данного примера. Сигнал х[п] (см. рис. 6.10, верхний график) задан десятью отсчетами (N = 10) со следующими значениями: 0х 0.618, 0.971, 0.909, 0.457, -0.190, -0.756, -0.998, -0.813, -0.279. Сигнал 8[и] (дельта-функция; см. рис. 6.10, средний график) задан тремя отсче- тами (М = 3) со значениями 1, О, 0. Произведем расчет результирующего сигнала z[n] = х[и] * 8[и] в соответствии со стандартной формулой расчета свертки N+M-2 zli]= X *=0 с учетом, что Лг4-М-2 = 10 4-3-2 = 11. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 225
Рис. 6.10. Пример свертки сигнала с дельта-функцией z[0] = 40]8[0] + 41]8[-1]+4 2]8[-2]+...+41 Ц8[-11] = 40]5[0] = *=о *=1 к=г *=п = 01 = 0, 41] = 40]6[1] + 41]8[0]+42]5[-1]+42]8[-2]+...+41ОД-10] = *=0 *=1 *=2 *=3 *=11 = 40]8[1] + 4ОД0] = О-1 + 0,618 • 1 = 0,618, z[2] = 40]8[2] + 41]8[1] + 42]8[0] + 43]8[-1] + л[4]8[-2] +... + 411]§[-9] = = 40]8[2] + 4ОД1] + 42]8[0] = 0 • 0 + 0,618 • 0 + 0,971 • 1 = 0,971, z[3] = 40]8[3] + 4ОД2] + 42]8[1] + 43]8[0] + 44]8[-1] + 45 ]5[-2] +... + 41ОД-8] = *=0 *=1 к-2 к=3 *=4 *=5 *=11 = 41]6[2] + 42]8[1] + 43]8[0] = 0,618 • 0 + 0,971 0 + 0,909 1 = 0,909, 226 Часть II. Цифровой звук и его обработка
z[4] = х[0]8[4] + х[1]8[3] + 4 2]8[2] + х[3]8[1] + х[4]8[0] + х[5]8[-1] + х[6]8[-2] +... + х[11]8[-7] = к=0 к=\ к=2 *=3 к=4 к=5 к=6 *=11 = х[2]8[2] + х[3]8[ 1] + х[4]8[0] = 0,971 • О + 0,909 • 0 + 0,457 • 1 = 0,457, z[5] = х[0]8[5] + х[1]8[4] + х[2]8[3] + х[3]8[2] + х[4]8[1] + х[5]8[0] + х[6]8[-1] + х[7]8[-2] +... + к=0 *=1 к =2 к=3 к=4 к =5 к =6 к=7 +х[11]8[-6] = х[3]8[2] + х[4]8[1] + х[5]8[0] = 0,909 0+0,457 • 0 - 0,190 • 1 = -0,190 *=и И т.д. Таким образом, результирующий сигнал z[n] (см. рис. 6.10, нижний график) состоит из 12 отсчетов со следующими значениями: 0, 0.618, 0.971, 0.909, 0.457, -0.190, -0.756, -0.998, -0.813, -0.279, 0, 0. Как видно из проведенных расчетов, а также из нижнего графика на рис. 6.11, в результате свертки входного сигнала х[п] с ядром свертки, являющимся единич- ным импульсом (т.е. дельта-функцией), выходной сигнал z[n] полностью повторя- ет форму входного сигнала х[п]. Значит, линейная система, заданная дельта- функцией 8[м], никак не преобразует поданные на ее вход сигналы. Второй пример. На рис. 6.11 представлены три графика8: верхний отображает дискретный сигнал х[п] (всего 260 отсчетов, N = 260), средний — ядро свертки у[п] (всего 130 отсчетов, М=130), нижний— результат свертки z[w] = х[и] * у[и] (соответственно, всего 389 отсчетов). Как видно из графика, входной сигнал х[п] представляет собой последователь- ность из двух сглаженных импульсов разных знаков. В качестве ядра свертки у[п] выбраны три чередующихся импульса, отстающих друг от друга на 60 отсчетов каждый: единичный импульс, половина единичного импульса и четверть единич- ного импульса. Свертка z[w] = х[и] * у[л] в данном случае представляет собой некую имитацию эффекта эха, когда в результирующем сигнале z[n] импульсы исходно- го сигнала х[п] повторяются с затухающей амплитудой. К свойствам свертки относится и свойство коммутативности, которое означает, что для любых сигналов х[п]ъу[п] справедливо следующее равенство: х[и]*у[и] = у[и]*х[и], т.е. порядок, в котором два сигнала подвергаются свертке, не имеет никакого значения. Отсюда следует, что в любой линейной системе S свертка входного сиг- нала х[п] и реакции системы на единичный импульс h[n] дает один и тот же ре- зультат z[n] независимо от перестановки сигналов x[n]nh[n] (рис. 6.12). 8 На приведенных графиках из-за малости масштаба и сравнительно большого количества отсче- тов огибающая ломаная линия дискретных значений текущих амплитуд визуально воспринима- ется, как сплошная плавная линия, похожая на аналоговый сигнал. \ Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 227
Рис. 6.11. Пример свертки, моделирующей эффект эха если ТО х[п] h[n] > z[n] z[n] Рис. 6.12. Коммутативность свертки Последовательность (очередность) при свертке трех произвольных сигналов также не имеет значения благодаря свойству ассоциативности. Математически это свойство записывается следующим образом: (х[и] * у[и]) * и[п] - х[л] * (у[и] * и[п]). 228 Часть II. Цифровой звук и его обработка
В левой части приведенного равенства свертке подвергаются сначала сигналы х[п] и у[п]9 после чего результат подвергается свертке с сигналом и[п]. В правой же части свертке подвергаются сначала сигналы у[п] и и[п], а затем полученный результат подвергается свертке с х[п]. Из равенства правой и левой частей следует, что, несмотря на совершенно разный порядок свертки, результат операции в обоих случаях оказывается одним и тем же. Это свойство является очень важным на практике, поскольку позволяет составлять сложные линейные системы из каска- дов9 более простых систем. Кроме того, любой каскад линейных систем может быть заменен одной линейной системой, реакцию на единичный импульс которой нахо- дят путем свертки реакций на единичный импульс систем, составляющих каскад. К свойствам свертки относится и чисто математическое свойство, называемое дистрибутивностью10, согласно которому для трех произвольных сигналов х[п], у[п],и[п] справедливо следующее равенство: (х[и] + у [л]) * и[п\ = х[и] * и[и] + у[и] * и[п]. Свойство дистрибутивности позволяет строить сложные линейные системы, состоящие из нескольких более простых линейных систем, подключенных парал- лельно. Другими словами, дистрибутивность позволяет подавать некоторый вход- ной сигнал на вход сразу нескольких систем параллельно, а затем складывать ре- зультирующие сигналы. В заключение еще раз отметим, что свертка представляет собой мощнейший практический инструмент обработки сигналов, но с одним серьезным недостатком, а именно — ресурсоемкость ее выполнения. Как мы смогли убедиться выше, чем больше отсчетов содержат подвергаемые свертке сигналы, тем больше арифметиче- ских операций требуется для расчета результирующего сигнала. Например, при свертке двух сигналов, состоящих соответственно из М и N отсчетов, требуется осуществление MxN операций умножения (см. пример вычисления свертки в нача- ле раздела). Для сигналов, состоящих из миллионов отсчетов, операция свертки может потребовать минут, часов и даже дней машинного времени. С целью значи- тельного сокращения времени выполнения свертки был разработан ускоренный алгоритм, названный БПФ-сверткой или скоростной сверткой (FFT-convolution, high-speed convolution). Результат БПФ-свертки абсолютно идентичен результату классической свертки, при этом алгоритм ускоренной свертки выполняется во много раз быстрее стандартной свертки. БПФ-свертку мы не будем рассматривать в этой книге, отметим лишь, что она основывается на применении алгоритма БПФ, а также на идее перемножения сигналов в частотной, а не во временной области. 9 Каскадом называют две (или более) системы, когда выход одной системы подключен ко входу другой. Дистрибутивность — от лат. “distributivus”— “распределительный”. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 229
6.5. Цифровая фильтрация В главе 4 были рассмотрены вопросы фильтрации, в частности были приведе- ны амплитудно-частотные характеристики (АЧХ) различных типов фильтров. В этом разделе мы продолжим тему фильтрации, но уже применительно к циф- ровым аудиосигналам. Вообще, важность этой темы трудно переоценить. В цифровой обработке звука фильтрация применяется повсеместно. Фильтрация, применяемая к цифровым сигналам, называется цифровой фильтрацией. Методы цифровой фильтрации очень развиты, а цифровые фильтры позволяют осуществлять фильтрацию с недос- тижимой для аналоговых фильтров точностью. Здесь мы не будем рассматривать фильтрующую аппаратуру и ее характеристики (это предмет отдельного обсужде- ния), мы лишь вкратце, по возможности на примерах, рассмотрим существующие методы цифровой фильтрации. 6.5.1. КИХ-фильтры Любой фильтр в составе линейной системы является линейным, ибо в против- ном случае сама система будет нелинейной. Поэтому все рассмотренные выше свой- ства линейных систем справедливы и для линейных фильтров. В первую очередь, это касается реакции на единичный импульс (или импульсной характеристики фильтра), т.е. сигнала на выходе линейного фильтра при подаче на вход последнего дельта-функции 8[и]. Как мы говорили выше, эта реакция совершенно четко и од- нозначно характеризует линейную систему, а значит, и линейный фильтр. Поэтому для определения (задания) цифрового фильтра достаточно описать его реакцию на единичный импульс (т.е. описать импульсную характеристику фильтра), а фильтрация сигнала будет производиться путем его свертывания с заданной им- пульсной характеристикой. Другими словами, как для линейных систем, так и для линейных фильтров с помощью операции свертки с наперед заданной им- пульсной характеристики фильтра h[n] и произвольным входным цифровым сиг- налом х[п] можно моделировать расчетный отфильтрованный сигнал z[n] на вы- ходе предполагаемого расчетного фильтра. Цифровые фильтры, реализованные с использованием свертки, называются фильтрами с конечной импульсной характеристикой, сокращенно — КИХ- фильтрами (Finite Impulse Response Filters — FIR-filters), а импульсная характе- ристика, определяющая такой фильтр, называется ядром фильтра (filter kernel). КИХ-фильтры принято делить на два основных типа по способу их применения: фильтры, предназначенные для изменения сигналов в амплитудно- временной области; фильтры, предназначенные для изменения сигналов в амплитудно-частотной области. 230 Часть II. Цифровой звук и его обработка
Замечание. Всякая фильтрация, будучи примененной к некоторому сигналу, вызывает изменения как его спектрального состава, так и формы его сигналограммы, поэтому представленная классификация фильтров очень условна. Тем не менее фильтры принято делить на типы именно в соответствии с их назначением. КИХ-фильтры, которые относят к первому типу, — это фильтры, предназна- ченные преимущественно для изменения или коррекции амплитудной огибающей сигнала. К фильтрам этого типа можно отнести фильтр, подавляющий (сглажи- вающий) резкие всплески сигнала (например, щелчки или потрескивания звука). Фильтры, предназначенные для выделения (ограничения) спектральных областей сигналов или разделения сигналов на спектральные полосы, относятся ко второму типу. Примером КИХ-фильтра первого типа может стать так называемый фильтр скользящего среднего (moving average filter). Этот фильтр предназначен для по- давления и сглаживания шума и резких всплесков сигнала. Принцип действия фильтра заключается в усреднении значений отсчетов фильтруемого цифрового сигнала путем нахождения их среднего арифметического. Такой фильтр может быть “построен”, например, в соответствии со следующим аналитическим выраже- нием для расчета конечного выходного отфильтрованного сигнала z[n] (заметим, что это выражение не имеет отношения к свертке): 2L k=i где z[i]— i-й отсчет результирующего сигнала z[n], х[п]— входной (подвергае- мый фильтрации) сигнал, z[n] — выходной сигнал, L — положительное целое чис- ло (коэффициент), задающее степень сглаживания сигнала фильтром. Как видно из формулы, каждый i-й отсчет z[i] выходного сигнала z[n] представляет собой сред- нее арифметическое 2L отсчетов входного сигнала х[п] на интервале с центром в i-м отсчете. Легко заметить, что этот же фильтр может быть задан с помощью операции свертки. Ядро свертки h[n] этого фильтра задается следующими коэффициентами (рис. 6.13, б)-. .... О, y2L, ^2L.^2L. ^2£’ °’ 2L раз Таким образом, общее выражение свертки, задающее фильтр, выглядит так: z[n] = x[n]*/i[n], где х[п] — фильтруемый (входной) цифровой сигнал, h[n] — ядро фильтра, z[n] — сигнал на выходе фильтра. На рис. 6.13, а в качестве примера показан входной (фильтруемый) сигнал х[п], состоящий из 40 отсчетов. На графике б показано ядро фильтра h[n] L = 4 (ядро задается для наглядности всего двадцатью отсчетами, значение восьми из ко- торых равно 1/8). Результат фильтрации (свертки) сигнала показан на графике в. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 231
Рис. 6.13. Фильтрация сигнала с применением фильтра скользящего среднего Из графика рис. 6.13, в можно видеть, что фильтрация, усредняющая значения отсчетов исходного сигнала, действительно заметно сгладила острые пики входного сигнала. К фильтрам, которые изменяют сигнал в амплитудно-частотной области (КИХ- фильтрам второго типа), относится, например, так называемый фильтр взвешен- ного синуса (windowed-sine filter). Этот фильтр является фильтром нижних частот (ФНЧ), т.е. он осуществляет цифровую фильтрацию, подавляющую спектральные составляющие в области высоких частот. В качестве ядра (т.е. в качестве импульс- ной характеристики) фильтра взвешенного синуса выбирают функцию вида (рис. 6.14). Разберемся в принципе действия фильтра взвешенного синуса. Идея построения этого фильтра основывается на известном математическом факте: преобразование Фурье трансформирует функцию вида из амплитудно-временной области в сигнал прямоугольной формы11 в амплитудно-частотной области (рис. 6.15). Доказательство этого факта мы опустим. 232 Часть II. Цифровой звук и его обработка
Рис, 6,14, График функции sin-^ функция преобразование амплитудно-частотный спектр А* fo Рис. 6,15, Преобразование функции вида s*n^ в амплитудно-частотный спектр Нам уже известно, что АЧХ идеального ФНЧ представляет собой именно пря- моугольный импульс с резким спадом на частоте среза (типичная АЧХ реального фильтра нижних частот была приведена в разделе 4.2; там же была приведена АЧХ идеального ФНЧ, представляющая собой прямоугольник идеальной формы с абсо- лютно крутым спадом на частоте среза). Выберем в качестве ядра фильтра функ- цию вида т.е. реакцией h[n] (импульсной характеристикой) фильтра на единичный импульс 5[п] будет функция вида s^n^/. В таком случае реакция фильтра на пропущенный через него единичный импульс 5[л] выглядит в ампли- тудно-частотной области так же, как выглядит АЧХ идеального ФНЧ. Вспомним теперь, что любой сигнал с помощью импульсной декомпозиции можно представить набором единичных импульсов 5[и], сдвинутых во времени и различных по ампли- туде. На каждый импульс из состава входного сигнала фильтр будет реагировать Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 233
сигналом, не содержащим частот выше частоты среза. Значит, и суммарный сиг- нал, представляющий собой сумму откликов фильтра на импульсы из состава входного сигнала, не будет содержать частот выше частоты среза. Отсюда можно сделать вывод, что любой сигнал, будучи свернутым с ядром фильтра вида sin^/, окажется фактически отфильтрованным фильтром нижних частот (ФНЧ), по- скольку в результирующем сигнале не будет частот выше частоты среза фильтра. Поэтому ядро идеального цифрового ФНЧ задается функцией вида s*n^ • Основная проблема, которая возникает при реализации фильтра взвешенного синуса, заключается в том, что функция вида имеет ненулевые значения на бесконечном отрезке, в то время как свертка на практике оперирует сигналами ко- нечной протяженности. По этой причине использовать функцию вида s*n^ в каче- стве ядра фильтра в виде “как есть” не представляется возможным. Данная про- блема решается ограничением функции s*n^ и применением в качестве ядра лишь ее “основной” части (с ограниченным числом отсчетов), преобразованной с исполь- зованием одной из сглаживающих оконных функции (см. раздел 2.5). Конечно, та- кое решение сразу же лишает фильтр его абсолютной идеальности, однако качество фильтрации при использовании рассматриваемого фильтра все равно оказывается очень высоким. Крутизна АЧХ фильтра взвешенного синуса регулируется длиной его ядра: чем больше отсчетов оно содержит, тем больше крутизна АЧХ фильтра. Частота среза фильтра выбирается путем подбора соответствующего значения дополнительного коэффициента k, вводимого в формулу, задающую ядро фильтра взвешенного си- нуса: sin 2лкх х В качестве примера действия фильтра взвешенного синуса на рис. 6.16 пред- ставлены исходный аудиосигнал х[п] прямоугольной формы (график а; всего 60 отсчетов), ядро фильтра h[n] (график б; всего 60 отсчетов), а также результат фильтрации z[n] (график в; всего 199 отсчетов). В качестве ядра фильтра исполь- зовалась функция, заданная вышеуказанной формулой (с & = 0,1) и сглаженная с помощью оконной функции Хэмминга (см. раздел 2.5). Как видно из приведенных графиков, результатом фильтрации прямоуголь- ного сигнала стал сигнал почти правильной синусоидальной формы, что указы- вает на отсутствие в нем высокочастотных составляющих. Таким образом, смо- делированный фильтр взвешенного синуса действительно сработал, как фильтр нижних частот. КИХ-фильтрация — это мощный и сравнительно точный инструмент обработки звука; КИХ-фильтры позволяют осуществлять фильтрацию такой высокой точ- ности, какая для обычных аналоговых фильтров оказывается абсолютно недос- тижимой. Основным недостатком этого метода цифровой фильтрации являются повышенные требования к вычислительной мощности аппаратуры. Так, например, 234 Часть II. Цифровой звук и его обработка
реализация качественного фильтра нижних частот требует использования сравни- тельно “длинного” ядра с большим числом отсчетов, что в ряде случаев может от- рицательным образом сказаться на скорости (производительности) фильтрации. Рис. 6.16. Пример фильтрации с помощью фильтра взвешенного синуса 6.5.2. БИХ-фильтры Применение свертки — это широко распространенный, но не единственный спо- соб реализации цифровой фильтрации. Существует другой, принципиально отлич- ный от рассмотренного способ. Напомним, что происходит при свертке, применяемой в уже рассмотренных КИХ-фильтрах. Каждый отдельный i-й отсчет выходного сигнала z[n] получается путем суммирования произведений значений входного (обрабатываемого) сигнала и соответствующих значений отсчетов ядра фильтра: z[z] = лох[Л + axx[i -1] +... + - у], Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 235
где z[n] — выходной сигнал, х[п] — входной фильтруемый сигнал, а0, а19 ..., а.— коэффициенты, задаваемые ядром фильтра. Другой способ реализации цифровых фильтров основан на идее рекурсивного12 использования некоторой таблицы коэффициентов. При использовании этого ме- тода расчет значения каждого отдельного i-ro отсчета выходного сигнала z[n] про- водится с использованием как отсчетов входного сигнала х[п]> так и уже получен- ных на предыдущих шагах вычисления значений отсчетов выходного сигнала г[п]. Расчет i-ro отсчета выходного сигнала z[n] по рассматриваемому методу вы- глядит как z[i] = а04Л + -1] +... + a}x[i - j] + +fyz[i -1] + b2z[i - 2] +... + bjz[i - j] ’ где a0, a19 ...» а. и bt, b2> ...» bj— наборы расчетных коэффициентов, определяющих фильтр. Фильтры, основанные на рекурсивном методе вычислений, называются фильт- рами с бесконечной импульсной характеристикой, сокращенно — БИХ-фильтра- ми (Infinite Impulse Response Filters — IIR-filters). Коэффициенты, определяющие такой фильтр, называются коэффициентами рекурсии, а уравнение, заданное эти- ми коэффициентами, — уравнением рекурсии. Название БИХ-фильтров отражает саму суть их отличия от КИХ-фильтров: поскольку БИХ-фильтры являются рекур- сивными, их реакция на входной сигнал теоретически длится бесконечно, в то вре- мя как свертка, лежащая в основе КИХ-фильтров, является операцией с вполне конечным числом шагов. На практике реакция БИХ-фильтра на входной сигнал также является конечной ввиду того, что в некоторый момент эта реакция стано- вится ниже по уровню, чем минимально возможный уровень полезного сигнала. В качестве примера рассмотрим два так называемых однополюсных БИХ- фильтра (single-pole filter). На рис. 6.17 приведен пример работы (фильтрации) однополюсного БИХ- фильтра нижних частот (однополюсный БИХ ФНЧ, от англ. “HR single-pole low- pass filter")» который задан с помощью всего двух коэффициентов рекурсии, на- пример: ао=О,15, 6, =0,85. Расчетная формула для выходного сигнала z[n] на i-м отсчете имеет для этого случая следующий вид: z[i] = 0Д5-4Л + 0,85 z[i-l], где i = 0, 1, 2, ..., 49. Рекурсия — вызов функции или процедуры из нее же самой (обычно с другими значениями входных параметров) непосредственно или через другие функции (например, функция А вызыва- ет функцию В, а функция В — функцию А). Глубиной рекурсии называется количество вложен- ных вызовов функции или процедуры. 236 Часть II. Цифровой звук и его обработка
Рис. 6.17. Пример фильтрации сигнала однополюсным БИХ-фильтром нижних частот На графике рис. 6.17, а показан входной сигнал х[п] (50 отсчетов), имеющий резкий скачок. Общий вид реакции фильтра на такой сигнал полностью соответст- вует реакции стандартного ФНЧ, т.е. сигнал z[n] на выходе фильтра (график б) оказывается плавным, что свидетельствует об отсутствии в его спектре составляю- щих из верхнего частотного диапазона. Аналогичным образом с помощью всего трех коэффициентов рекурсии может быть задан однополюсный БИХ-фильтр высоких частот (однополюсный БИХ ФВЧ, от англ. “HR single-pole high-pass filter"): а0 = 0,8, ах = -0,8, bx = 0,6 . Расчетная формула для выходного сигнала г[п] на i-м отсчете для этого случая имеет следующий вид: z[z] = 0,8 • x[Z] - 0,8 • x[i -1] + 0,6 • z[i -1]. Пример работы этого фильтра представлен на рис. 6.18. На графике рис. 6.18, а показан входной сигнал (аналогичный взятому в преды- дущем примере), на графике рис. 6.18, б— результат фильтрации. График выход- ного сигнала свидетельствует об отсутствии в его спектре низкочастотных состав- ляющих, что и требуется от ФВЧ. С помощью БИХ-фильтров осуществляется достаточно эффективная фильтра- ция. Благодаря своему рекурсивному устройству БИХ-фильтры являются намного более быстрыми и поэтому намного более удобными в применении, чем КИХ- Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 237
фильтры. Тем не менее и они имеют недостаток, а именно — вносимые БИХ- фильтром искажения в выходной сигнал: чем выше порядок фильтра (т.е. чем кру- че его АЧХ в области частоты среза), тем больше погрешностей вносит фильтр в фа- » 13 зовыи спектр сигнала на границе частотного раздела . Рис. 6.18. Пример фильтрации сигнала однополюсным БИХ-филыпром ФВЧ 6.5.3. БПФ-фильтры Цифровые фильтры, в основу которых положен метод преобразования сигна- лов с помощью дискретного преобразования Фурье (ДПФ) или быстрого преобра- зования Фурье (БПФ), являются, пожалуй, самыми непредсказуемыми в части получения желаемой точности цифровой фильтрации, что объясняется появле- нием “незапланированных" и трудно прогнозируемых нежелательных побочных эффектов. Основная причина возникновения таких нежелательных эффектов при исполь- зовании ДПФ в качестве метода фильтрации лежит в самой сути преобразования Фурье, а именно — в том, что преобразуемый фрагмент (блок) сигнала трансфор- мируется в амплитудно-частотный спектр целиком. Поэтому любое, даже самое не- значительное изменение спектра в процессе фильтрации может привести при обратном синтезе сигнала к изменениям (деформации) формы всего рабочего фраг- мента и, как результат, к искажению сигнала. Одной из иллюстраций подобного нежелательного эффекта является так называемое пре-эхо (pre-echo). По сути пре- 13 К важным свойствам БИХ-фильтров относится возможность их использования для двухсторон- ней фильтрации сигналов, когда фильтруемый сигнал пропускается через такой фильтр сначала в прямом, а потом в обратном направлении. Этот прием позволяет осуществлять фильтрацию без каких-либо фазовых искажений. 238 Часть II. Цифровой звук и его обработка
эхо — это одно из проявлений эффекта Гиббса, обсуждавшегося нами ранее (см. раз- дел 2.5). Рассмотрим простой пример возникновения этого нежелательного эффекта. На рис. 6.19 показаны три графика. Рис. 6.19. Пример возникновения пре эха при использовании БПФ-филътра На графике рис. 6.19, а изображен входной сигнал х[п] длительностью 1 с, дис- кретизованный с частотой 128 Гц (т.е. всего 128 отсчетов, N = 128). Сигнал пред- ставляет собой функцию, значение которой в первые полсекунды равно нулю, а на- чиная с отметки 0,5 с и далее функция выглядит, как синусоида с частотой 8 Гц (на графике приведены 4 периода синусоиды в интервале времени длиной 0,5 с). Как было отмечено в разделе 2.4, алгоритм БПФ работает с дискретными сигнала- ми, состоящими из набора отсчетов, число которых является степенью двойки. Поскольку выбранная нами частота дискретизации сигнала является именно такой (ведь 128 = 27), мы можем воспользоваться алгоритмом БПФ для всего сигнала це- ликом. На графике рис. 6.19, б представлен полученный в результате применения БПФ спектр сигнала. Обратим внимание, что, помимо основной частоты f = 8 Гц, в спектре сигнала вокруг отметки 8 Гц имеются другие ненулевые составляющие спектра. Именно эти составляющие “ответственны” за формирование резкого пере- хода на границе 0,5 с (т.е. они участвуют в формировании этого перехода). Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 239
Теперь произведем “низкочастотную" фильтрацию сигнала с частотой среза 10 Гц (будем считать, что для данного примера частоты выше 10 Гц являются вы- сокими): в полученном амплитудно-частотном спектре обнулим все частоты выше 10 Гц (включая 10 Гц) и в завершение с помощью обратного преобразования синте- зируем из измененного нами спектра результирующий сигнал z[n] (см. график рис. 6.19, в). Из графика результирующего сигнала z[n] видно, что исходный сигнал, состав- ленный из “тишины" (первые полсекунды) и синусоиды 8 Гц (вторые полсекунды), в процессе проведенной фильтрации претерпел серьезные искажения. Удалив из его спектра частоты 10 Гц и выше, мы уничтожили те составляющие, которые от- вечали за правильное “построение" резкого перехода на границе 0,5 с. В результате оставшиеся спектральные компоненты, расположенные ниже 10 Гц, оказались “некомпенсированными” и сформировали колебания на том участке сигнала, где изначально была тишина. Эти колебания продолжаются от отметки 0,5 с влево, об- разуя пре-эхо. Поскольку на практике БПФ-фильтрацию проводят поблочно (см. раздел 2.5) возникновение пре-эха внутри блоков может серьезно исказить временные и ам- плитудные характеристики сигнала. Поэтому, чтобы снизить влияние эффекта пре-эха, приходится уменьшать размер блока. С другой стороны, укорочение (сужение) блока может ощутимо сказаться на точности фильтрации. Таким обра- зом, выбор размера блока в каждом конкретном случае индивидуален, а критерия- ми выбора являются характер обрабатываемого сигнала и поставленные задачи об- работки. Помимо возникновения эффекта пре-эха, БПФ-фильтрации сопутствуют и дру- гие трудности. Дело в том, что разложение сигнала в амплитудно-частотный спектр с помощью БПФ имеет определенную частотную разрешающую способность14. Если некоторые присутствующие в исходном сигнале частоты не попадают в частотную сетку БПФ, то БПФ представляет этот сигнал с помощью других частот, имеющихся в спектральной сетке. Проведение фильтрации в этом случае может привести к сильным искажениям сигнала, так как ослабление каких-то даже малозначитель- ных по амплитуде спектральных составляющих может привести к ощутимому ис- кажению формы волны. Чтобы лучше понять, о чем идет речь, рассмотрим нагляд- ный пример. На рис. 6.20 представлены три графика: синусоида с частотой 8 Гц (график а), спектр этого сигнала, полученный с применением БПФ (график б), и результат * 22 Например, для сигнала, дискретизованного на частоте 22 050 Гц, БПФ-разложение с размером блока 22 050 / 1024 отсчета дает спектр с частотной разрешающей способностью -21 Гц ( /1024 Гц). Это значит, что частотная сетка БПФ-разложения состоит из частот со значениями, отличающимися друг от друга на -21 Гц (существует интуитивно понятное объяснение этого факта: чтобы собрать информацию о 1024 отсчетах, нужно «подождать» 1024-^2 050 с» т-е- ~ с’ что соответствУет -21 Гц). < 240 Часть II. Цифровой звук и его обработка
БПФ-фильтрации сигнала15, которая состояла в обнулении всех частотных компо- нент, начиная с 9 Гц (график в). Рис, 6.20. БПФ-филътрация синусоиды частотой 8 Гц Для сравнения на рис. 6.21 также представлены три графика: сигнал, состоя- щий из синусоиды на частоте 8,5 Гц (график а), спектр этого сигнала (график б) и результат БПФ-фильтрации (график в), которая так же, как и в предыдущем слу- чае, состояла в удалении всех частот, расположенные выше 9 Гц (включительно). В первом случае частота сигнала 8 Гц оказалась в частотной сетке БПФ, что на- глядно показал полученный с помощью БПФ спектр сигнала. В результате фильт- рация, обнулившая все составляющие спектра, начиная с 9 Гц, совершенно никак не повлияла на сигнал (поскольку никак не видоизменила его спектр), что ярко продемонстрировано на графике рис. 6.21, в. Во втором случае произошла неприят- ность — разрешающая способность БПФ по частоте не позволила преобразованию 15 Число отсчетов на сигнал и размер использованного БПФ-блока в данном случае составляют 128. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 241
четко определить (отобразить) частоту входного сигнала 8,5 Гц, в результате чего проведенное преобразование представило входной сигнал с помощью целого набора частотных составляющих вокруг частоты 8,5 Гц (см. рис. 6.21, б). Естественно, об- нуление составляющих спектра, которые выше 9 Гц (включительно), сильно по- влияло на состав спектра, а значит, и на форму результирующего сигнала, и в ре- зультате итоговый сигнал очень заметно исказился (см. рис. 6.21, в). Теоретически этого не должно было бы произойти, поскольку входной сигнал вообще не содер- жал частот выше 8 Гц. Однако зачастую на практике, особенно при обработке сложных непериодических сигналов, разрешающей способности БПФ оказывается недостаточно (как в данном случае), и тогда не все реальные составляющие частот- ного спектра сигнала попадают в сетку частот БПФ. В результате БПФ описывает эти частоты “доступными средствами” с помощью других частотных составляю- щих, что при проведении БПФ-фильтрации может вылиться в сильные искажения. Рис. 6.21. БПФ-фильтрация синусоиды частотой 8,5 Гц Эти и другие побочные эффекты применения БПФ-фильтрации указывают на то, что БПФ-фильтрами следует пользоваться с крайней осторожностью, так как даже вполне простые и “безобидные” действия с применением БПФ-фильтров мо- гут привести к возникновению очень значительных искажений сигнала. 242 Часть II. Цифровой звук и его обработка
Рассмотрев основные вопросы цифровой фильтрации, в заключение этой темы кратко сформулируем основные выводы о преимуществах и недостатках цифровых и аналоговых фильтров. Цифровые фильтры — это сравнительно точные фильтры в части прогнозирова- ния и достижения нужного спектра выходного сигнала. Каждый отдельный тип цифровых фильтров имеет свои плюсы и свои минусы, однако в целом цифровая фильтрация несоизмеримо более точна, чем аналоговая. Выбор типа цифрового фильтра, с одной стороны, зависит от условия конкретной задачи, а с другой — диктуется экономической целесообразностью, поэтому универсального рецепта по выбору фильтра не существует. При этом от правильности этого выбора зависит не только точность и качество фильтрации, но и ее стоимость (прямо или косвенно). Несмотря на Сложность выбора и указанные выше недостатки, цифровая фильтра- ция в целом является намного более универсальной, точной и прогрессивной, чем аналоговая. К основным преимуществам аналоговых фильтров можно отнести скорость фильтрации. По этому критерию цифровая фильтрация проигрывает аналоговой. Если скорость цифровой фильтрации для различных цифровых фильтров различна и зависит в большой степени от типа фильтра, от его параметров и параметров фильтруемого сигнала, то скорость аналоговой фильтрации практически мгновен- на, так как такая фильтрация осуществляется в режиме реального времени. Немаловажным плюсом аналоговой фильтрации является широкий динамиче- ский диапазон аналоговых фильтров (как по амплитуде, так и по частоте) по срав- нению с цифровыми фильтрами. Чем выше рабочий частотный диапазон цифрового фильтра, тем более высокие требования предъявляются к параметрам оцифровки сигнала (АЦП), что, соответственно, сказывается на объемах данных, которые не- обходимо переработать цифровому фильтру, а значит, и на скорости фильтрации. В аналоговой же аппаратуре работа с высокими частотами лишь повышает требо- вания к элементной базе, но при этом никак не сказывается на скорости фильт- рации. Таким образом, как следует из всего вышеизложенного, вопрос о применении аналоговой или цифровой фильтрации в общем случае не имеет однозначного отве- та, для каждого конкретного случая этот выбор является индивидуальным. Здесь лишь еще раз отметим, что цифровая фильтрация является, без сомнения, гораздо более универсальной и точной, чем аналоговая, а с постоянным ростом вычисли- тельных мощностей она становится все более и более доступной для применения во всех областях. Глава 6. Базисные операции, применяемые при обработке звуковых сигналов 243

Глава 7 Сжатие (уплотнение) цифровых аудиоданных 7.1. Общие замечания До сих пор мы говорили о различных способах представления аудиосигналов в цифровом виде и почти не касались таких важных вопросов, как объем, занимае- мый аудиоматериалами в цифровом виде, и способы уплотнения (сжатия) послед- них. В этой главе мы рассмотрим основные критерии и способы сжатия цифровых аудиоданных. Под способами уплотнения (сжатия, компрессии) аудиоданных мы будем понимать любые методы и алгоритмы, позволяющие снизить объем, зани- маемый цифровыми данными в их исходном виде1. Прежде чем мы непосредствен- но перейдем к рассмотрению различных способов уплотнения (сжатия) цифровой аудиоинформации, постараемся ответить на следующие вопросы: зачем, когда и в какой степени нужно уплотнять (сжимать) аудиоинформацию. В разделе 5.8.1 была рассмотрена обобщенная схема преобразования и передачи звуковых сигналов, в которой центральное место отведено передающему каналу, где звуковая информация хранится, обрабатывается и передается и откуда в ко- нечном итоге подается в систему воспроизведения (акустические колонки, науш- ники и т.д.). В этом разделе, употребляя понятие “передающий канал”, мы будем подразумевать непосредственно каналы передачи данных в их привычном понима- нии (цифровые сети обмена информацией, цифровые носители данных и т.д.). Основным параметром, характеризующим передающий канал, является его ширина, которая определяет максимальный объем передаваемой аудиоинформа- ции в единицу времени, т.е. определяет возможности канала по скорости и объему передаваемых данных. Ширина канала определяется совокупностью технических параметров и возможностей аппаратуры, участвующей в организации канала. Уплотнение данных иногда также называют кодированием, однако применение слова “кодирование” в этом случае не совсем верно, поскольку различные методы представления анало- говых сигналов в цифровом виде сами по себе являются кодированием. Уплотнение данных под- разумевает применение специальных алгоритмов, позволяющих уменьшить занимаемый уже имеющимися цифровыми данными объем.
Параллельно с объективными параметрами канала передачи существуют требо- вания, предъявляемые к качеству звучания аудиоинформации и необходимому ко- личеству передаваемых параллельно через передающий канал независимых друг от друга аудиопотоков. Естественно, чем выше требования к качеству и количеству аудиопотоков, тем большие объемы данных нужно передавать через передающий канал. К уплотнению (сжатию) аудиоданных прибегают в общем случае тогда, когда объемы несжатых данных, которые необходимо передать через передающий канал, превышают его возможности или, другими словами, когда эффективность пере- дающего канала оказывается недостаточной. Применение различных алгоритмов уплотнения цифровых данных позволяет косвенно увеличить пропускную способ- ность канала передачи. Для того чтобы ответить на вопросы, когда и “как сильно” (в какой степени или с каким коэффициентом сжатия) нужно уплотнять аудиоинформацию, рассмотрим три типичных примера. Пример 1 Предположим, что профессиональной звукозаписывающей студии требуется донести до слушателя с помощью записи на цифровых носителях звучание какого- то музыкального концерта из концертного зала. Поскольку речь в данном случае идет о качественной записи музыки из концертного зала, очевидно, что основным требованием здесь является донесение до слушателя максимально точного, качест- венного звучания музыки вместе с атмосферой концертного зала. Под понятием “качественное звучание” в данном случае следует понимать не только четкость (разборчивость) звучания отдельных инструментов и голосов, но также “живость”, создаваемую звучанием всего оркестра в целом вместе с приглушенным шумовым фоном зала, создающим эффект присутствия на концерте. Другими словами, в за- писи должны присутствовать все нюансы и тонкости живого звучания. Поставленному требованию должна отвечать как сама структура канала переда- чи, так и формат передаваемых через канал аудиоданных. Так, с одной стороны, используемый формат цифровых данных должен обеспечивать максимально каче- ственное звучание, а с другой стороны, ввиду ограниченности объема всякого носи- теля данных (т.е. ввиду конечности ширины всякого канала передачи), требующееся количество носителей данных должно быть оптимальным и не выходить за преде- лы разумного. Таким образом, решение по хранению цифровых аудиоданных должно быть в целом уравновешенным с точки зрения числа используемых носи- телей и обеспечиваемого качества звучания, причем применение алгоритмов сжа- тия аудиоинформации, приводящих к хоть сколько-нибудь заметной потере ори- гинального качества звука, в данном случае неприемлемо. В подобных описываемому в примере случаях к сжатию данных не прибегают вообще или пользуются специальными алгоритмами сжатия, не приводящими к потерям качества звучания (о таких алгоритмах мы будем говорить ниже). Выбор же типа носителя данных при этом осуществляется в соответствии с нуждами и со- ображениями технико-экономической целесообразности. 246 Часть II. Цифровой звук и его обработка
Пример 2 Рассмотрим теперь пример передачи аудиоинформации через публичные цифро- вые каналы связи (Интернет, кабельные и беспроводные абонентские сети, циф- ровое ТВ и т.д.). В этом случае мы чаще всего “обречены” иметь дело с передачей данных по сравнительно узким каналам связи. Ограниченность ширины таких ка- налов обусловлена не заниженными возможностями используемой аппаратуры и инфраструктуры связи, а постоянной перегруженностью каналов ввиду неограни- ченного роста запросов и потребностей потребителей этих каналов, что ограничива- ет “проходимость” последних для каждого отдельного потребителя. В этих условиях так называемое сжатие аудиоинформации с потерями приво- дит к уменьшению времени ожидания при получении и отправке сжатых данных по сравнению с временем ожидания при операциях с несжатыми аудиоданными. Методы сжатия с потерями (о них пойдет речь ниже) позволяют довольно значи- тельно снизить объемы передаваемых аудиоданных за счет “упрощения” послед- них, которое при воспроизведении на слух выражается в потере детализации зву- чания. От степени упрощения данных зависит степень их сжатия и, как следствие, скорость передачи сжатой таким образом информации. На практике при передаче аудиоданных по таким каналам вопрос уменьшения времени прохождения данных решается путем нахождения компромисса между качеством звучания аудиоматериалов и степенью их сжатия, от которой и зависит скорость передачи. Чем выше коэффициент сжатия, тем сильнее проявляются на слух искажения аудиосигнала, но при этом меньше времени (при прочих равных условиях) требуется для передачи аудиоматериала. Нахождение баланса между оп- тимальным качеством звучания и степенью сжатия в каждом конкретном случае индивидуально, поскольку оптимальное соотношение между указанными пара- метрами в большой степени зависит от типа и характера аудиоматериала, а также от его целевого назначения. Пример 3 Передача общей голосовой (речевой) аудиоинформации. В телефонии довольно широкий цифровой канал связи разделяется между абонентами на большое число параллельных каналов связи, что позволяет вести разговоры одновременно многим тысячам людей. К качеству телефонной связи предъявляются, в основном, лишь два основных требования: устойчивая разборчивость речи и узнаваемость голоса собеседника. Поскольку речь о “качестве звучания” как таковом в данном случае не ведется, передаваемую между каждыми двумя собеседниками аудиоинформацию подвергают более жесткой компрессии с применением специальных алгоритмов, адаптированных для высокоэффективного сжатия речи. Такие алгоритмы позво- ляют достигать очень высоких степеней компрессии голосовой (речевой) аудиоин- формации и тем самым эффективно разгружать передающий канал2. 2 Как известно, частотный диапазон голоса лежит, в основном, в пределах от 0 до 4 кГц. Специа- лизированные алгоритмы сжатия речевой аудиоинформации используют этот и многие другие специфические особенности, присущие исключительно речи и голосу, и поэтому не применимы для сжатия общей аудиоинформации (например, музыки). Глава 7. Сжатие (уплотнение) цифровых аудиоданных 247
Итак, оцифрованный аудиосигнал “в чистом виде” (например, в форме одной из рассмотренных выше вариаций ИКМ) является если и достаточно точной, то, одно- значно, не самой компактной формой хранения информации. Существуют различ- ные способы, с помощью которых можно уменьшать занимаемый аудиоданными объем. Идея, лежащая в основе всех существующих способов сжатия данных, за- ключается в том, что цифровая информация в ее исходном непреобразованном виде избыточна. Лишнюю (избыточную) информацию можно удалить с тем или иным успехом и за счет этого уменьшить общий объем цифровой информации, переда- ваемой по передающему каналу связи. Все существующие методы сжатия аудиоинформации можно условно разделить на два типа: кодирование без потерь и кодирование с потерями. 7.2. Кодирование без потерь Сжатие данных без потерь (lossless coding) — это способ сжатия (уплотнения) данных, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатой формы (под понятием “исходные данные” здесь подразумевают- ся исходные цифровые данные до сжатия). Кодирование без потерь базируется на идее удаления из аудиосигнала так назы- ваемой статистической избыточности. Чтобы сократить (уплотнить) занимаемый аудиоданными объем, проводят статистический анализ массива обрабатываемого цифрового сигнала с целью выявления наиболее часто встречающихся цифровых последовательностей его значений и перекодирования таких последовательностей короткими кодами, а последовательностей, встречающихся редко, — длинными кодами. Такое перекодирование сигнала сокращает общий объем данных, т.е. уменьшает общее количество бит, необходимых для их записи. Этот способ сжатия не влечет за собой вообще никаких потерь информации, а сжатые аудиоданные аб- солютно точно восстанавливаются в их исходный вид путем обратного преобразо- вания. Общая схема кодирования большинства существующих (на момент написания книги) программных безпотерьных кодеров выглядит примерно следующим образом. Обрабатываемый одно- или многоканальный цифровой сигнал (обычно в форма- те ИКМ) разбивается на блоки некоторой фиксированной длины. Обычно размер блока выбирается небольшим для того, чтобы данные в нем было легче восстано- вить в случае повреждения информации. Кодирование в каждом блоке происходит отдельно и осуществляется в два этапа. Этап 1. На этом этапе в блоке происходит подготовка сигнала к перекодирова- нию (сжатию). Подготовка направлена на выявление степени коррелированности сигнала. С этой целью сначала проводится перераспределение цифровой канальной информации (для многоканальных аудиоданных). Например, в случае кодирова- ния стереосигнала цифровую информацию в левом (L) и правом (R) каналах пере- распределяют так, чтобы максимально исключить возможность “подобия” сигнала в каналах. Один из методов такого перераспределения канальной информации состоит в следующем: из каналов L и R формируют два других (новых) канала: 248 Часть II. Цифровой звук и его обработка
средний (М) и разностный (D). Это делается путем сложения и вычитания сигналов R и L на каждом отсчете: D = R-L. Дело в том, что информация в каналах обычной стереозаписи на практике очень избыточна. Например, при стереозаписи пения под аккомпанемент обычно испол- нитель располагается приблизительно в центре стереопанорамы. Таким образом, звук голоса исполнителя оказывается одновременно и в левом (L), и в правом (R) каналах, что обусловливает избыточность аудиоданных и образует некое “подобие” сигналов в каналах. Приведенный способ искусственного перераспределения канальной информации позволяет использовать этот факт и увеличить степень компрессии данных за счет переразбиения аудиоинформации на два новых, менее зависимых друг от друга канала. Так, канал М будет содержать усредненный аудиосигнал каналов R и L, при этом в канале D ввиду его образования как разно- сти каналов R и L аудиоинформация, находящаяся по центру стереопанорамы, бу- дет ощутимо ослаблена. Далее проводится перекодирование отсчетов сигналов в каналах М и D с ис- пользованием предсказателя аналогично тому, как это делалось в случае разност- ной ИКМ (см. раздел 5.9). Ошибка предсказания d[n] вычисляется как d[i] = s[i] — s[i], где s[i] — значение i-ro отсчета (на i-м шаге) цифрового сигнала s[n] в канале, ЭД — предсказанное значение сигнала на i-м отсчете. Методы предсказания ЭД] могут быть разными. В качестве предсказателя может использоваться как линей- ный предсказатель (см. раздел 5.9.2), так и более сложные алгоритмы. В частности, в качестве линейного предсказателя может быть использован адаптивный БИХ- фильтр с динамически изменяющимися в процессе кодирования параметрами. На этом подготовительный этап кодирования завершается. Этап 2. На втором этапе происходит собственно уплотнение (сжатие) данных. Сигналы d[n] (ошибки предсказания) каналов М и D блока направляются в специ- альный кодер, где проводится их статистический анализ и переназначение кодов, в результате чего наиболее часто встречающимся последовательностям значений сигналов d[n] назначаются короткие коды, а сравнительно редко встречающимся последовательностям — длинные. Закодированная таким образом информация по- дается на выход безпотерьного кодера. Статистические алгоритмы, с помощью которых проводится описанное переко- дирование на этапе 2, называют жадными. Известными жадными алгоритмами яв- ляются алгоритм Хаффмана (Huffman), арифметическое кодирование, интерваль- ное кодирование и др. Глава 7. Сжатие (уплотнение) цифровых аудиоданных 249
Чтобы лучше понять работу жадного алгоритма, рассмотрим простой пример, относящийся к работе алгоритма Хаффмана. Предположим, что цифровой ИКМ- сигнал с разрядностью 4 бит представлен следующей последовательностью 12 от- счетов (всего 48 бит): 0010, 0100, 0010, 1100, 0101, 0010, ООН, 0100, 1010, 1111, 0100, 0101. Число появлений отсчетов с одинаковыми значениями в данном сигнале приве- дено в табл. 7.1. Таблица 7.1. Применение алгоритма Хаффмана Значение отсчета Число появлений в сигнале 0000 — 0001 — 0010 3 0011 1 0100 3 0101 2 0110 — 0111 — 1001 — 1010 1 1011 — 1100 1 1101 — 1110 — 1111 1 Отсортируем значения отсчетов сигнала в порядке убывания частоты их появ- ления в сигнале: 0010, 0100, 0101, ООН, 1010, 1100, 1111. Поскольку отсчеты со значениями 0010 и 0100 появляются в сигнале чаще ос- тальных (по 3 раза каждый), назначим3 им самые короткие коды, соответственно 00 и 10; отсчету со значением 0101, появляющемуся в сигнале 2 раза, назначим код 11; отсчетам ООН, 1010, 1100 и 1111 (по одному появлению каждый) назначим са- Способ назначения кодов регламентируется алгоритмом Хаффмана и его реализацией. 250 Часть II. Цифровой звук и его обработка
мые длинные коды, соответственно 0100, 0101, ОНО и 0111. Таким образом, ис- ходный цифровой сигнал, составленный из 12 четырехбитных отсчетов 0010, 0100, 0010, 1100, 0101, 0010, ООН, 0100, 1010, 1111, 0100, 0101, используя новые укороченные коды, можно переписать следующим образом: 00, 01, 00, 1111, 11, 00, 0100, 01, 0101, 0111, 01, 11. Итого — 32 бит. Как можно видеть, применение жадного алгоритма в данном слу- чае позволило сократить объем исходного сигнала с 48 до 32 бит. Лучшие (из существующих на момент написания книги) алгоритмы сжатия ау- диоданных без потерь позволяют на практике сократить занимаемый данными объем в среднем на 10-30%. В целом, кодирование без потерь хотя и идеально с точки зрения сохранности качества аудиоматериалов, не способно обеспечить вы- сокий уровень компрессии. Там, где стопроцентная сохранность исходных аудио- данных не является обязательным условием сжатия, гораздо большей эффективно- сти компрессии можно достичь с применением кодирования с потерями. 7.3. Кодирование с потерями К способу кодирования аудиоданных с потерями (lossy coding) прибегают тогда, когда эффективности компрессии беспотерьных алгоритмов недостаточно. Сущест- вуют различные подходы к кодированию с потерями; эти подходы определяются типом сжимаемых аудиоданных и целевым назначением последних. Приведем один довольно “крайний” пример. Общеизвестно, что в армии с целью обеспечения максимальной надежности и секретности каналы связи стремятся де- лать как можно более простыми и узкими. Организация таких каналов требует ис- пользования специальных методов сверхэффективного сжатия голосовых аудио- данных. Поэтому в условиях армии, где узнаваемость голоса необязательна, а важ- на лишь разборчивость и четкость передаваемой голосовой информации, применя- ются так называемые вокодеры (от англ, “vocoder” — “vocal coder”). В вокодерах кодирование информации осуществляется путем моделирования человеческой ре- чи. При кодировании аудиоданных кодер в соответствии с используемой кодером моделью анализирует речевую информацию и выделяет в ней характеризующие ее параметры. Эти параметры передаются от кодера к декодеру через передающий ка- нал. Декодер, используя речевую модель, искусственно синтезирует (воссоздает) речь на основе полученных параметров. В результате такого кодирования на выхо- де декодера зачастую практически невозможно распознать голос говорящего (вместо этого слышен как бы “роботизированный” голос), однако при этом сама ре- чевая (семантическая) информация сохраняется, речь остается разборчивой, а объ- ем данных в канале передачи оказывается минимальным (единицы килобитов в се- кунду и даже меньше). Конечно, существуют самые разные подходы к кодирова- нию речи, но это уже отдельная специальная тема. Глава 7. Сжатие (уплотнение) цифровых аудиоданных 251
К кодированию аудиоданных с потерями часто прибегают также при необхо- димости высококачественного (с точки зрения качества звучания) кодирования аудиоинформации . В этом случае используется идея об имеющей место в реаль- ном звуке так называемой акустической избыточности цифровой звуковой ин- формации. В разделе 3.2.3 мы рассматривали такие особенности восприятия человеком звуковых сигналов, как эффекты частотной и временной маскировки и др. Оказы- вается, что с учетом этих особенностей большинство реальных звуковых сигналов являются избыточными, т.е. в них присутствуют многочисленные составляющие, совершенно незаметные и практически невоспринимаемые слуховой системой че- ловека. В дополнение к этому следует заметить, что требования, предъявляемые к качеству звучания аудиоматериалов, сильно разнятся в зависимости от использо- вания последних, т.е. от их целевого назначения. Поэтому там, где требования к качеству звучания не слишком высоки, можно прибегать к намеренному заниже- нию качества звучания с целью “упрощения” кодируемых данных, т.е. к кодирова- нию с потерями. Правильное применение методов кодирования с потерями может очень сущест- венно увеличить эффективность компрессии по сравнению с кодированием без по- терь и при этом в полной мере удовлетворить требования к качеству звучания. Однако в отличие от кодеров без потерь, не вносящих вообще никаких изменений в сжимаемые данные, кодирование с потерями “вмешивается” в исходную информа- цию и преобразует ее, что всегда приводит к частичной потере исходной акустиче- ской информации. Эффективность кодирования напрямую зависит от степени этого вмешательства. В основу методов высококачественного кодирования с потерями положен про- цесс переквантования цифрового сигнала. Переквантование проводят с тем, чтобы сэкономить количество бит, требуемых для записи значений отсчетов кодируемого аудиосигнала, и таким образом “разгрузить” передающий канал. Действительно, если вместо исходных п бит на запись каждого отсчета аудиосигнала отвести n-k бит, то это позволит уменьшить объем, занимаемый исходной цифровой аудиоин- формацией. Но поскольку в процессе такого “экономного” переквантования уро- вень шума квантования обязательно возрастает, важным условием процесса пере- квантования является удержание уровня шума квантования ниже порога слыши- мости. Заметим теперь, что порог слышимости в процессе звучания непрерывно изменяется из-за накрывающих его маскирующих порогов, форма которых зави- сит от самого сигнала в каждый конкретный момент времени. Если с помощью специального механизма в процессе кодирования отслеживать изменение маски- рующих порогов, то это позволит непрерывно вычислять максимально допустимое значение уровня шума квантования и, таким образом, выделять нужное количест- во битов для переквантования, следя за тем, чтобы шум квантования не оказался “оголенным”. Высококачественное кодирование с потерями применяется в цифровом теле- и радиовещании, в телефонии, интерактивном общении через цифровые сети и т.д. 252 Часть II. Цифровой звук и его обработка
Таким образом, в целом, кодирование аудиосигнала с потерями заключается в его переквантовании с переменными параметрами, динамически зависящими от текущей формы маскирующих порогов, которые, в свою очередь, зависят от формы (спектрального состава) самого сигнала. Существующие на момент написания книги кодеры, реализующие высококаче- ственное кодирование аудиоинформации с потерями, можно разделить на два типа: кодеры, осуществляющие переквантование самих отсчетов сигнала; кодеры, осуществляющие квантование составляющих спектра сигнала. Обобщенная схема высококачественного кодирования с потерями может быть представлена в виде блок-схемы на рис. 7.1. Рис. 7.1. Обобщенная блок-схема высококачественного кодирования с потерями К ратко опишем назначение и работу отдельных блоков приведенной на рис. 7.1 блок-схемы. Блок предварительных преобразований включает механизмы декомпозиции входного цифрового сигнала на частотные подполосы и спектрального раз- ложения (если требуется), а также механизмы предсказания сигнала и т.д. Блок психоакустического моделирования является “сердцем” кодера. Основной задачей этого блока является оценка максимально допустимого уровня шума квантования. От этой оценки зависит результат операций в блоке переквантования. Расчет количественной оценки максимально допус- тимого уровня шума квантования проводится с учетом порога слышимости и эффектов маскировки внутри критических полос. Примечательным являет- ся тот факт, что если блоки предварительных преобразований, перекванто- вания и формирования выходного потока почти однозначно определяют структуру потока данных на выходе кодера, то блок психоакустического мо- делирования является в этом смысле практически произвольным: от его структуры не зависит формат выходных данных, но при этом в крайней сте- пени зависит эффективность самого кодирования (сжатия). Этот факт позво- ляет для установленного стандартом формата закодированного потока строить разные по продуктивности кодеры, что и происходит на практике: стандарт утверждает основные механизмы кодирования и структуру формата выход- ного потока, а разные производители, соревнуясь друг с другом, совершенст- вуют механизмы психоакустического моделирования и предсказания и вы- пускают кодеры той или иной эффективности. Глава 7. Сжатие (уплотнение) цифровых аудиоданных 253
В блоке переквантования осуществляется собственно переквантование сиг- нала в соответствии с параметрами, установленными блоком моделирования. Блок формирования выходного потока осуществляет компоновку и компрес- сию преобразованных данных с помощью той или иной безпотерьной техни- ки кодировки, после чего происходит формирование выходного потока за- данного формата. В соответствии с описанной выше схемой кодирования работают, например, следующие аудиокодеки: кодеки, разработанные группой MPEG5 и вошедшие в комплекты стандартов MPEG-1, MPEG-2, MPEG-4; кодек Ogg Vorbis, разработан- ный группой Xiphophorus\ кодек MusePack, разработчиками которого являются не- зависимые программисты Андре Бушман (Andre Buschmann), Фрэнк Клейм (Frank Klemm) и др. Говоря о схемах кодирования, используемых в перечисленных коде- ках, можно сказать, что, например, кодек MPEG-1 Layer 26 основывается на идее кодирования (переквантования) отсчетов входного сигнала в нескольких частот- ных подполосах (т.е. относится к первому типу кодеков), в то время как MPEG-1 Layer 3, известный как просто “MP3”, предполагает кодирование коэффициентов МДКП7 сигнала внутри частотных подполос (что относит этот кодек ко второму ти- пу). В зависимости от параметров указанные аудиокодеки позволяют осуществлять кодирование аудиосигналов с частотами во всем слышимом диапазоне без слишком заметных искажений на битрейтах от 96 до 320 Кбит/с (например, против 1411 Кбит/с для “чистого” несжатого ИКМ-потока, предусмотренного стандартом CD-DA). MPEG — Moving Picture Experts Group — группа экспертов по движущимся изображениям. Группа работает в рамках ISO (International Organization of Standardization). Некоторые из стан- дартов MPEG — MPEG-1 (ISO/IEC 11172-3), MPEG-2 (ISO/IEC 13818-3, 13818-7), MPEG-4 (ISO/IEC 14496-3). MPEG-1 является, по сути, комплектом кодеков и включает в себя три подкодека (“уровня”): Layer 1, Layer 2 и Layer 3. Уровни (layers) различаются схемой кодирования, ее сложностью и це- левым назначением. Модифицированное дискретное косинусное преобразование, МДКП (Modified Discrete Cosine Transform — MDCT), — один из представителей методов декомпозиции сигналов. Между БПФ и МДКП существует довольно простая связь. 254 Часть II. Цифровой звук и его обработка
ЧАСТЬ III Приложения В ЭТОЙ ЧАСТИ... Приложение А. Не вошедшее в основные разделы Приложение Б. Дополнения

Приложение А Не вошедшее в основные разделы Об “аналоге” и “цифре” Люди довольно давно спорят о том, какой способ представления звуковых коле- баний лучше — аналоговый или цифровой. Здесь мы не дадим однозначного ответа на этот вопрос, а лишь попытаемся разобраться в нем и поразмышляем, оставив выводы за читателем. Начнем с того, что, когда Эдисон придумал электрическую лампочку, люди го- рячо спорили о ценности сделанного им изобретения: одни говорили, что идея хо- роша, но ее практическая реализация слишком накладна, другие вообще смотрели на изобретение сквозь призму скептицизма, но, конечно, были и те, кто уже тогда предвидел, что изобретение это поистине революционное и что за ним будущее. Так или иначе, но время расставило все по своим местам. Электрическая лампочка пришла на смену газовым фонарям, свечам, коптилкам и всему остальному, све- тившему “по старинке”. Как лампочка Эдисона когда-то осветила людям дорогу в “электрическое буду- щее”, так и аналоговые записывающие устройства и аналоговые носители открыли человечеству дорогу в мир звукозаписи. Если до эры звукозаписи большинство лю- дей и подумать не могли о том, что живой звук можно записывать и воспроизво- дить, то сегодня эта возможность кажется сама собой разумеющейся. Цифровая форма записи сигналов зародилась одновременно с первыми ЦВМ, в середине 40-х годов XX века. Техника записи, хранения и воспроизведения цифро- вого звука развивалась очень медленно по сравнению с вычислительной техникой, в частности с ЭВМ. И только в 60-70-х годах, когда появились интегральные мик- росхемы и ЭВМ на больших интегральных микросхемах, цифровая форма записи звука стала набирать обороты. А с появлением и широким внедрением в быт персо- нальных ЭВМ произошла революция в области записи и цифровой обработки звука. Как мы говорили, цифровой код, описывающий аудиосигнал, — это лишь фор- ма, способ представления аналогового аудиосигнала, точно так же как аналоговый аудиосигнал — это лишь способ представления реальных звуковых колебаний в воздушной среде. Ни аналоговый, ни цифровой сигналы не являются звуком как таковым, кроме самого звука, т.е. колебаний частиц воздушной среды, воздейст- вующих на слуховую систему человека и создающих слуховые ощущения. Именно этот факт и будет основополагающим в наших дальнейших размышлениях. Вопрос о том, какая форма представления звуковых колебаний лучше, является неоднозначным, поскольку подразумевает сразу три различные трактовки:
какая форма представления звуковых колебаний обеспечивает сравнительно более точное приближение к звучанию источника звука; какая форма представления звуковых колебаний обеспечивает наиболее приятное звучание с точки зрения слушателя; какая форма представления звуковых колебаний обеспечивает максималь- ную компактность, сохранность и предоставляет эффективную возможность преобразования аудиоданных (их монтажа, коррекции и пр.). Кратко ответим на эти три поставленных вопроса в той последовательности, в какой они были сформулированы. Из материала книги должно быть понятно, что звучание на выходе системы тем качественнее, с точки зрения идентичности со звучанием источника звука, чем меньше стадий обработки и преобразований прошли звуковые колебания на пути от исходного источника звука к слушателю. С этой точки зрения можно считать, что аналоговая аудиоаппаратура выглядит привлекательнее цифровой, поскольку всякая цифровая аппаратура представляет собой как бы надстройку над аналого- вой, включая в себя как аналоговый тракт, так и дополнительные цифровые блоки, а значит, звук в цифровой аппаратуре проходит большее число преобразований, чем в аппаратуре аналоговой. Чем больше различных устройств и схем участвует в аудиотракте, тем больше вероятность неверного их сопряжения, состыковки, а значит, тем выше вероятность потерь и искажений сигнала. К этому можно доба- вить также тот факт, что с точки зрения психоакустики человек заметно более вос- приимчив к гармоническим (линейным) искажениям, зависящим от самого сигна- ла, нежели к нелинейным (независящим от сигнала)1. А ведь в основном именно гармонические искажения и сопутствуют цифровым формам представления сигна- лов, тогда как аналоговая аппаратура привносит в сигнал преимущественно нели- нейные искажения (независящие от сигнала), которые, как мы сказали, менее за- метны на слух. Что касается качества звучания, то альтернативный взгляд на это понятие та- ков: качественным звучанием считается не то звучание, которое максимально приближено к оригинальному, а то, которое положительно воспринимается скажем, среднестатистическим слушателем. Эти два подхода являются прин- ципиально отличными, поскольку первый предполагает объективное сходство воспроизводимого с записи звука с оригинальным, в то время как второй подход является субъективным и такого сходства не предполагает, а предполагает лишь положительное эмоциональное воздействие воспроизводимого звука. Другими словами, не идентичность с исходным сигналом определяет качество выходного звучания, а тембровая насыщенность, окрас, ясность звучания и т.д.. Гармонические (линейные) искажения выражаются в нарушении амплитудных и фазовых со- отношений между спектральными компонентами сигнала. Такие искажения воспринимаются на слух, в основном, как искажения тембра. Негармонические (нелинейные) искажения выражаются в возникновении в спектре сигнала HOBbix паразитных составляющих, отсутствующих в исходном сигнале. Нелинейные искажения являются результатом наличия в аппаратуре нелинейной зависимости выходного сигнала от входного. 258 Часть III. Приложения
Существует множество самых различных технологий “облагораживания” зву- чания, которые преобразуют звучание, делая его неидентичным оригинальному, но при этом применение таких технологий “насыщает” звук, делает его тембр бога- че и красочнее и положительно влияет на эмоции слушателя при восприятии обра- ботанного таким образом звука. Существует также множество технологий, которые призваны “исправлять” звучание, искаженное ввиду использования в той или иной степени некачественной или несоответствующей записывающей или обрабаты- вающей аппаратуры. С точки зрения первого подхода к пониманию качества зву- чания применение всех таких технологий решительно неуместно, так как они лишь искажают оригинальное звучание ввиду большого числа стадий обработки. При этом описанный второй подход к понимаю качества ни в коем случае не отри- цает прямое или косвенное влияние на характер и состав звучания (обработку зву- ка). И даже наоборот, с упором именно на такой подход были созданы технологии, которые путем некоторого уклонения от стремления к идеализированной записи и воспроизведению звука позволили очень заметно экономить объемы данных (речь идет о технологиях кодирования с потерями; см. раздел 7.3). На определенном этапе своего развития аудиоаппаратура, делившаяся когда-то просто на аппаратуру среднего качества и аппаратуру высокого качества, раздели- лась на два принципйально разных класса: так называемые Hi-Fi и Hi-End2. Это разделение служит ярчайшей иллюстрацией принципиально разных подходов к пониманию понятия “качество звука”. В то время как аппаратура класса Hi-Fi включает самые различные средства обработки звука (фильтры, эквалайзеры, шу- моподавители и т.п.), аппаратура класса Hi-End этого не приемлет — здесь нет ни- чего, что влияет на звучание, кроме ручки громкости. Таким образом, в аппаратуре Hi-Fi к пониманию понятия “качество звучания” подходят с точки зрения эмоцио- нального оттенка при восприятии звука, а в аппаратуре класса Hi-End под поняти- ем качества понимают максимальную приближенность звучания к тому живому звучанию, которое было подвержено записи. Оба описанных подхода к пониманию понятия “качество звука” имеют полное право на существование, поскольку оба базируются на вполне логичных вещах. Ни один из этих подходов не может быть сочтен эталоном, поскольку оба они отно- сятся к звуку, восприятие и осмысление которого само по себе является делом очень субъективным. На вкус и цвет товарища нет, и каждый должен самостоя- тельно решить для себя, какой подход ближе лично ему. С уверенностью можно ут- верждать лишь одно: окажись практическая точность записи, хранения и воспро- изведения звука близкой к идеальной, вопрос о вариантах понимания понятия “качества” отпал бы сам по себе, поскольку тогда каждый смог бы самостоятельно решать, крутить ему ручки эффект-обработки звука или оставить их в нейтральном положении и слушать лишь абсолютно точную копию настоящего, живого звучания. “Hi-Fi” (от англ, “high fidelity”) — высокая верность. Обозначению “Hi-End” точного определе- ния не существует; по некоторым данным, это обозначение придумал один из редакторов журнала “Absolute sound” в начале 80-х годов XX столетия. “Hi-End” означает высочайший класс качества аппаратуры; стоимость такой аппаратуры очень высока, а изготавливается она почти поштучно и преимущественно вручную. Приложение А. Не вошедшее в Основные разделы 259
На третий из поставленных нами вопросов напрашивается однозначный ответ — цифровая форма записи в совокупности с использованием современных цифровых носителей данных является с точки зрения техники записи, хранения и воспроиз- ведения гораздо более удобной и выгодной, чем аналоговая. Даже при допущении стопроцентной сохранности данных на аналоговых носителях возможности анало- говой записывающей аппаратуры по обеспечению высококачественного звучания ограничены — они упираются в физические свойства материалов носителей и со- ображения практической целесообразности использования последних3. При этом возможности цифровых методов записи и хранения аудиоматериалов почти без- граничны. Эта безграничность выражается, например, в том, что в цифровой ап- паратуре цифровые данные оказываются абсолютно “отвязанными” от носителя и могут свободно переноситься с одного носителя на другой вообще без каких- либо повреждений или искажений, в то время как в аналоговой аппаратуре дан- ные довольно жестко привязаны к носителю (в частности, каждая новая копия фактически никогда не оказывается идентичной другим копиям). Практическая безграничность возможностей цифровой аудиоаппаратуры выражается и в том, что возможности улучшения параметров цифровых устройств упираются лишь в со- вершенство технологий и применяемых алгоритмов, тогда как возможности анало- говой аппаратуры сильно зависят от предела возможностей используемых носите- лей (эти пределы на практике довольно ограничены). О возможности вычленения звуков из фонограмм Наверняка нет ни одного аудиолюбителя, который хотя бы раз не задался во- просом “А можно ли выделить из фонограммы отдельно голос певца или полностью звук (или партию) какого-то отдельно взятого инструмента? Можно ли разложить общее звучание фонограммы на отдельные составляющие?”. Это вполне естествен- ный вопрос. Действительно, ведь на слух в звучании целого оркестра мы можем бо- лее или менее легко проследить звучание партии скрипки или фортепиано. Значит, специальными современными методами уж наверняка можно произвести “вычле- нение” отдельных звуков из общего звучания... К сожалению, оказывается, что та- кая процедура невозможна принципиально. Попробуем обосновать это утвержде- ние, опираясь на материал, изложенный в этой книге. Слуховая система человека распознает звучание путем анализа звука в частот- но-временной области. Базилярная мембрана, колеблющаяся “в такт” с поступаю- щей в слуховой канал звуковой волной, выступает в роли динамического спектроа- нализатора, информирующего мозг о спектральном составе звуковой волны. При этом способность человека определять в общем звучании некоторые отдельные звуки связана с тем, что мозг, в отличие от цифровых устройств, имеет память, работаю- щую на принципе распознавания образов и ассоциаций. Будучи хорошо “знакомым”, например, со звуками скрипки во время прослушивания звучания целого оркестра, В частности, хотя использование, например, широкой магнитной ленты в совокупности с высо- кой скоростью ее “прогона” при записи и воспроизведении положительно сказывается на качестве звука, точнее на точности его передачи, вряд ли кто-то станет использовать километры магнитной ленты метровой ширины для записи одноминутной музыкальной композиции. 260 Часть III. Приложения
мозг находит в спектре общей звуковой волны частоты и особенности звучания, присущие именно скрипке, а затем как бы воссоздает ее звучание, мысленно дост- раивая его образ. Таким образом, слуховому аппарату совсем не обязательно отчет- ливо слышать звук скрипки, достаточно лишь наличия некоторых характерных особенностей ее звучания, и тогда мозг воссоздаст образ ее звучания в голове слу- шателя так, что слушателю покажется, будто звук скрипки он слышит достаточно четко. Цифровые устройства (по крайней мере существующие сегодня) основаны на иных принципах, принципах точного “механического” анализа и обработки звука. В отличие от мозга человека, эти механизмы лишены способности оперировать ка- кими бы то ни было образами или ассоциациями. Это точные алгоритмы, реаги- рующие конкретным выводом на конкретный ввод и оперирующие только числа- ми. С точки зрения машины, подвергающей звук четкому числовому анализу, звучание, например, некоторого оркестра, является суммой звуковых волн, пришедших от различных музыкальных инструментов, составляющих оркестр. Частотные диапазоны звуковых инструментов во многом перекрываются, что приводит к тому, что в результирующей звуковой волне отдельные звуковые ин- струменты выделяются лишь присущими только им формантными областями, при этом мелкие нюансы звучания заглушаются (перекрываются) другими звуками. Таким образом, если звучание какого-то отдельного инструмента и можно опреде- лить по каким-то характерным только ему спектральным событиям, то качествен- но разделить цельное звучание на его составляющие в общем случае не представля- ется возможным, так как исходные звуки отдельных инструментов, сливаясь в общее звучание, накладываются и перекрывают друг друга. Даже если когда-нибудь и будут созданы механизмы, способные оперировать псевдообразами, которые, распознав тот или иной звук в общем звучании, смогут достраивать (“додумывать”) недостающие, замаскированные другими звуками ню- ансы искомого звучания, то такие механизмы, как и человеческий мозг, уже не бу- дут точными, поскольку фактически будут реконструировать отсутствующую ин- формацию путем генерирования новой, опираясь на некоторую базу “знаний” (память, хранящую звуковые образы). От этой “базы знаний” и комплекса методов работы с ней будет зависеть способность этих механизмов “додумывать” получен- ную звуковую информацию. Поэтому можно сказать, что такие механизмы также не будут объективными из-за очеловечивания алгоритмов их работы. Таким образом, цельное звучание не может быть разделено на отдельные со- ставляющие, поскольку информация о том, какие именно спектрально-временные области общего звучания относятся к звучанию того или иного музыкального инст- румента, в общем слитном звучании просто отсутствует. Совершенно по тем же причинам эффективное шумоподавление, не влекущее за собой вообще никаких искажений сигнала, также невозможно в принципе. Справедливости ради нужно отметить, что существуют некоторые специальные искусственные приемы и методы, применимые только для многоканальных записей (двух- и более), сделанных в специальных условиях, которые позволяют с довольно неплохой эффективностью очищать фонограммы от шумов, а также в некоторых случаях отделять, например, голос исполнителя от общего аккомпанемента Приложение А. Не вошедшее в основные разделы 261
(эффект “караоке”)- Тем не менее ни один из этих приемов и методов не является универсальным и тем более не способен обеспечить стопроцентно качественный ре- зультат. Перефразировав известную песню А. Пугачевой “Жизнь невозможно повернуть назад...”, кто-то написал: “Фарш невозможно провернуть назад, И мясо из котлет не восстановишь...”. Эти две очень забавные строчки целиком и полностью отражают саму суть отве- та на поднятый здесь вопрос. О возможности проеобразования Моно-»Стерео Возможно ли превратить одноканальную монозапись в стереозапись? Как и в вопросе о возможности вычленения голоса из фонограммы, ответ основывается на аксиоме: воссоздать утерянную звуковую информацию невозможно в принципе. Одноканальная запись в силу ее специфики вообще не передает пространственную картину звучания: фонограмма одноканальной записи не содержит никакой ин- формации о пространственном расположении источников звука, с помощью кото- рых создавалась эта фонограмма. Поэтому единственное, что можно сделать из мо- нозаписи, — это с помощью специальных трюков и хитростей искусственно сыми- тировать стереозвучание. В частности, одну и ту же монофоническую запись можно воспроизводить одно- временно через два источника звука с небольшой временной задержкой в одном из них. Это создаст у слушателя некоторое ощущение “глубины” звучания; при этом, однако, определить направление на мнимые источники звука слушатель все равно не сможет, поскольку этот метод не предусматривает какой-либо имитации рас- пределения мнимых источников звука на стереопанораме. Этот метод позволяет лишь создать у слушателя ощущение “размазывания” мнимого источника звука в пределах линии, на которой установлены два физических источника. Более сложные методы “превращения” монозвучания в стерео (или даже много- канальное звучание) основаны на динамико-статическом распределении монока- нальной информации в двух (или более) физических аудиоканалах на основании спектрального анализа монофонической записи. Так, например, в монофонической записи звучание голоса исполнителя можно попытаться отделить от звучания ка- кого-то музыкального инструмента (если только они не накладываются друг на друга в частотной области) и распределить их по разным аудиоканалам. Это ухищ- рение позволяет располагать мнимые источники звука на пространственной звуко- вой картине раздельно друг от друга. Однако приведенные в разделе “О возможности вычленения звуков из фоно- грамм” этого приложения обоснования и аргументы, а также практическая невоз- можность качественного разделения цельного звучания на несколько составляю- щих позволяют сделать вывод о том, что по большому счету одноканальную запись невозможно преобразовать в качественную стереозапись, и тем более невозможно создать универсальные методы имитации пространственного звучания на базе мо- нофонического . 262 Часть III. Приложения
Приложение Б Дополнения Дополнение 1. Резонанс С эффектом резонанса связано множество удивительных, а иногда даже очень трагических происшествий. Стоит вспомнить одно из них, вошедшее во многие учебники физики. В 1940 году через залив Пьюджет-Саунд (Puget Sound) был про- тянут подвесной мост Такома-Нэрроуз (Tacoma Narrows Bridge), соединивший го- род Такома (Tacoma, штат Вашингтон) с полуостровом Олимпик (Olympic Peninsula). Это был один из самых крупных в то время мостов — его общая длина составляла около 1780 метров, а высота двух поддерживающих его опор — 127 метров. Тогда большинство автомобильных мостов были именно подвесными, поскольку смотре- лись такие мосты элегантно, с экономической точки зрения они были более выгод- ными, чем другие, более прочные типы мостов, и их устойчивости вполне хватало, чтобы выдержать движение автомобилей и пешеходов. Как результат некоторых достаточно смелых допущений в конструкции моста под действием ветра мост на- чинал волнообразно “гулять”, что дало ему название “Несущаяся Герти” (“Gallo- ping Gertie”). 7 ноября 1940 года спустя всего лишь 4 месяца после открытия моста ветер с силой 65-75 км/ч разрушил мост (рис. Б.1). Рис. Б.1. Фотография моста Такома-Нэрроуз в мо- мент его обрушения 7 ноября 1940 года
Обрушение произошло приблизительно в 11 часов после трех часов непрерыв- ных колебаний моста (рис. Б.2 и Б.З) под действием сильного ветра. Рис. Б.2. Колебания моста Такома-Нэрроуз под дей- ствием ветра Рис. Б.З. Колебания моста Такома-Нэрроуз под дей- ствием ветра Ученные до сих пор спорят о точных истинных причинах обрушения моста. Тем не менее все сходятся во мнении, что причиной обрушения стали угловые и верти- кальные колебания моста под действием ветра, частота которых в определенный момент совпала с собственной резонансной частотой моста, в результате чего ам- плитуда колебаний резко усилилась и мост обрушился1. 1 Дополнительную информацию о мосте Такома-Нэрроуз можно прочитать в Интернете: http: //www. vibrationdata. сот/Tacoma. htm, http: //www. civeng. carleton. ca/Exhibi ts/Tacoma_Narrows/DSmith/photos. html, http://homepages.tscnet.com/rickc/tnb 264 Часть III. Приложения
Дополнение 2. “Копирование” высокочастотных составляющих в нижнюю полосу частот В том, что высокочастотные составляющие аналогового сигнала, расположен- ные за пределами полосы слышимых частот, могут после дискретизации оказаться “скопированными” в более низкую частотную полосу, можно убедиться на простом наглядном примере. На рис. Б.4 сплошной линией показана синусоида условного исходного аналогового высокочастотного сигнала с периодом То и частотой f0. Про- изведем дискретизацию этого сигнала с шагом дискретизации Td > То , т.е. разобьем ось абсцисс, начиная от 0, на равные отрезки Td. То.,' Рис. Б.4. Иллюстрация копирования высокочастотных состав- ляющих в нижнюю полосу частот Результатом проведенной дискретизации является набор числовых значений (отсчетов), обозначенных на графике числами 0, 1, 2.... Обратим внимание на то, что этот же набор отсчетов описывает и другой синусоидальный сигнал с периодом Tt и частотой Д, значение которой гораздо меньше значения f0 (для рассматривае- мого примера 7J = 4,5 • То, /0 = 4,5 • fx). Таким образом, несмотря на то, что изначаль- но дискретизации подвергался один высокочастотный сигнал, полученный набор отсчетов описывает также другой, низкочастотный сигнал. Это означает, что оциф- рованная нами высокочастотная помеха на частоте f0 в результате дискретизации трансформировалась и оказалась скопированной на другую частоту, Д < f0. Нужно заметить, что показанные на графике синусоиды с частотами f0 и ft — это далеко не единственные синусоиды, которые могут соответствовать одному и тому же набору отсчетов. Так, дискретизация любого сигнала приводит к возникнове- нию дополнительных паразитных гармоник (подробнее этот вопрос обсуждался в разделе 5.3). Дополнение 3. Что такое децибел Для измерения и анализа акустических параметров, а также акустических ха- рактеристик различных объектов и установок широко используется единица изме- рения децибел (дБ). Приложение Б. Дополнения 265
Децибел — это логарифмическая единица измерения (десятичный логарифм) отношения каких-то двух одноименных физических величин (например, интен- сивностей, громкостей и т.д.): Lx =10 log * дБ- ^0 С помощью этой единицы измеряется не абсолютное значение величины X, а ее значение по отношению к некоторой одноименной базовой величине Хо, прини- маемой за эталон. Иначе говоря, измеряется уровень Lx , например, уровень интен- сивности, уровень громкости и т.д. 2 Децибел — это одна десятая часть бела . Децибелы удобно использовать тогда, когда отношение двух сравниваемых величин неудобно измерять в тех единицах, в каких измеряются сами сравниваемые физические величины (например, в случае,, если отношение сравниваемых величин характеризуется слишком большим чис- лом или изменение сравниваемых величин происходит нелинейно). Назван в честь Александра Грейама Белла (Alexander Graham Bell, 1847-1922), профессора Бос- тонского университета, изобретателя. Белл наиболее известен как изобретатель телефона. 266 Часть III. Приложения
Заключение В заключение книги хотелось бы сказать вот о чем. В процессе прочтения ма- териала книги вы, безусловно, обратили внимание на его теоретическую направ- ленность — упор сделан на раскрытие и объяснение физических основ звука и связанных с ним явлений, на теоретические основы аналогово-цифрового и циф- роаналогового преобразований звука, а также на математическую интерпрета- цию физики звука, методов анализа и преобразования звуковых сигналов, и.т.д. При этом в книге отсутствует, казалось бы, самое важное — конкретные примеры и рекомендации, непосредственно касающиеся практической работы с аудиомате- риалами и аппаратурой. В этой связи возникает принципиально важный вопрос “А нужны ли вообще книги, речь в которых идет только о теории?”. Ведь почти без особого труда можно получить практические навыки работы со звуком и научиться технике работы со звуковой аппаратурой; все, что для этого требуется, — лишь ба- зовые пользовательские знания, навыки использования того или иного программ- ного обеспечения, понимание основных методов сопряжения аппаратуры, мини- мальное представление о параметрах аппаратуры и их номинальных значениях, или, проще говоря, понимание того, что и куда подключать, на что нажимать и как регулировать. На этот вопрос, уважаемый читатель, я хочу, чтобы вы ответили для себя сами. Когда я задумал написать эту книгу, я уже знал ответ на него; я надеюсь, что тот, кто внимательно прочел книгу, также определился с ответом. В любом случае я искренне надеюсь, что мои старания сделать чтение книги интересным и познавательным не пропали даром. Если при прочтении книги вы обнаружите какие-то неточности в тексте или изъяны в логике и последовательности изложения материала, если у вас возник- нут какие-то вопросы или сомнения в достоверности той или иной информации либо если вы просто захотите поделиться своими впечатлениями о книге, а также задать любые свои вопросы, вы можете это сделать, посетив мой сайт1 или напи- сав мне электронное письмо по адресу book@aradzish. info. Я вам обязательно отвечу. С уважением, автор Xhttp: //websound, ru— авторский некоммерческий электронный журнал, посвященный циф- ровому звуку и аудиомузыкальному творчеству; http: //aradzish. info — домашняя страничка автора книги в Интернете.

Рекомендуемая литература Статьи 1. Алдошина И. Музыкальные шкалы и интервалы. Психоакустические основы их строения // Звукорежиссер. — 2003. — № 10 (www. 625-net. ru/archive/z 1003/aldo. htm). 2. Алдошина И. Основы психоакустики, часть 9: слуховые пороги, часть 2 // Звукорежиссер. — 2000. — №6 (http://www.625-net.ru/archive/Z0600/6.htm). 3. Алдошина И. Основы психоакустики, часть 1 // Звукорежиссер. — 1999. — № 6 (http: / /www. 62 5-net. ru/archive/z0699/2 .htm). 4. Попов Д. Реализация пространства // Музыкальное оборудование. — Март 1998 (http: //www.moline . ru/articles/space .php). 5. Симаненков Д. Увеличение разрядности // Музыкальное оборудование. — Март 1998 (http: //www.moline . ru/articles/dig/mb. php). 6. Алдошина И. Основы психоакустики, часть 4: бинауральный слух и пространственная локализация //Звукорежиссер. — 1999. — № 10 (http://www.625-net.ru/archive/zl099/7.htm). 7. Алдошина И. Основы психоакустики, часть 5: бинуаральный слух // Звукорежиссер. — 2000. — № 1 (http: / /www. 62 5- net .ru/archive/z0100/aldoshina.htm). 8. Шитов Ю. Direct Stream Digital: однобитный цифровой формат записи // Звукорежиссер. — 1999. — № 2 (http: / /www. 62 5- net . ru/archive/z0299/c5 .htm). 9. Алдошина И. Субъективная оценка нелинейных искажений // Звукорежиссер. — 2004. — № 6 (http: //www .625- net . ru/archive/z0604/nld. htm). 10. Симаненков Д. Цифровой звук // Музыкальное оборудование. — Май 1998 (http://www.moline.ru/articles/dig/dig.php). 11. Чернецкий M. Психоакустические процессоры — что это такое? // Звукорежиссер. — 1999. — №8 (http: //www. 625- net . ru/archive/z0 8 99/6 . htm).
12. Лукин А. Системы понижения разрядности в мастеринге // Звукорежиссер. — 2003. — №1 (http: //www. 625-net. ru/archive/z0103 /lukin. htm). 13. Балабан А. Многоканальный окружающий звук // Музыкальное оборудование. — Март 2002 (http://www.moline.ru/articles/sur/surround.php). 14. Ковалгин Ю. Компрессия цифрового звука: психоакустические основы и алгоритмы // Звукорежиссер. — 2000. — № 6. 15. Лукин А, Системы понижения разрядности в мастеринге // Звукорежиссер. — 2003. — №1. 16. Чудновский Л., Морозов С., Чудновская И. Особенности восприятия музыкальных образов аудиосенсорной системой человека //ChipNews. — 2000. — № 8. 17. Р.С. Craven, М. J. Law, and J.R. Stuart, “Lossless Compression using IIR Prediction Filters”, 102nd AES Convention, Munich, March 1997. 18. N.S. Jayant and P. Noll, “Digital Coding of Waveforms: Principles and Applications to Speech and Video”, Prentice-Hall, Englewood Cliffs, N. J., 1984. 19. A.B. Jerri, “The Shannon Sampling Theorem — Its Various Extensions and applications: A Tutorial Review”, Proceedings of the IEEE, pp. 1565-1596, November 1977. 20. A. Gersho, “Principals of Quantization”, IEEE Transactions on Circuits and Systems, pp. 427-436, July 1978. 21. P. Cummiskey, N.S. Jayant, J.L. Flanagan, “Adaptive quantization in differential PCM coding of speech”, Proc. IEEE Int. Commun. Conf., Seattle, WA, June 1973; Bell Syst. Tech Jour., vol. 52, pp. 1105-1118, Sept. 1973. 22. Daniel Pressnitzer, Stephen McAdams, “Acoustics, psychoacoustics and spectral music”, Contemporary Music Review, 2000, Vol.19, Part 2, pp. 33-59. 23. Frank Baumgarte, Charalampos Ferekidis, Hendrik Fuchs, “A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder”, AES 99th Convention, 1995. 24. David J.M. Robinson, Malcolm O.J. Hawksford, “Psychoacoustic models and non-linear human hearing”, AES 109th Convention, 2000. Книги 1. Barry Truax, No. 5, Music of the Environment Series, World Soundscape Project. Vancouver: ARC Publications, 1978, http://www.Sfu.ca/~truax/handbook2.html. 2. H. Fletcher and W.A. Munson, “Loudness, Its Definition, Measurement and Calculation”, J. Acoustical Society of America, Vol. 5, pp. 82-108, October, 1933. 270 Рекомендуемая литература
3. S.S. Stevens and H. Davis, “Hearing — Its Psychology and Psysiology”, New York: Wiley, 1938, p. 124. 4. M.A. Gerzon and P.G. Craven, “Optimal Noise Shaping and Dither of Digital Signals”, presented at the 87th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 37, p. 1072, Dec. 1989, preprint 2822. 5. R. Goldberg, L. Riek, “A Practical Handbook of Speech Coders”, CRC Press, 2000. 6. Wai C. Chu, “Speech coding algorithms: Foundation and Evolution of Standardized Coders”, Wiley-Interscience, 2003. 7. Оппенгейм Э. Применение цифровой обработки сигналов. — М.: Мир, 1980. 8. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. — М.: Радио и связь, 1981. 9. Колесник ВД., Полтырев Г.1П. Курс теории информации. — М.: Наука, 1982. 10. Richard G. Lyons, “Understanding Digital Signal Processing”, Second Edition, Prentice Hall PTR, 2004. 11. “Applications of digital signal processing to audio and acoustics”, edited by Mark Kahrs, Kluwer Academic Publishers, 2002. 12. Кормен T., Лейзерсон Ч., Ривест P. Алгоритмы: построение и анализ. — М.: МЦНМО, 2001. 13. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. — М.: Диалог-МИФИ, 2002. Рекомендуемая литература 271

Предметный указатель А Adaptive Differential PCM (ADPCM), 207 Adaptive DM (ADM), 205 ADC, 158 ADM, 205 ADPCM, 207 Aliasing, 172 AM, 142 Analog-to-Digital Converter, 158 В Band-pass filter (BP filter), 145 Band-reject filter (BR filter), 145 Bit rate, 170 BP filter, 145 BR filter, 145 C Clipping, 169 Codec, 193 Coder, 192 D DAC, 171 DC-офсет, 169 Decimation, 176 Decoder, 192 Delta Modulation (DM), 202 Descrete Fourier Transform (DFT), 72 DFT, 72 Differential PCM (DPCM), 197 Digital-to-analog converter, 171 Dithering, 183 DM, 202 Adaptive DM (ADM), 205 Down-sampling, 176 DPCM, 197 Dynamic range, 152 F Fast Fourier Transform (FFT), 73 FFT, 73 FFT-convolution, 229 FFT-filter, 238 Filter band-pass filter (BP filter), 145 band-reject filter (BR filter), 145 FFT-filter, 238 FIR-filter, 230 high-pass filter (HP filter), 143 IIR-filter, 236 kernel, 230 low-pass filter (LP filter), 143 moving average filter, 231 single-pole filter, 236 windowed-sine filter, 232 FIR-filter, 230 FM, 142 Frequency Modulation (FM), 142 H Head Related Transfer Function (HRTF), 129 Hi-End, 259 Hi-Fi, 259 High-pass filter (HP filter), 143 High-speed convolution, 229 HP filter, 143 HRTF, 129
I IIR-filter, 236 Impulse response, 220 J Jitter, 187 К KE MAR, 129 L Linear Prediction (LP), 199 Lossless coding, 248 Lossy coding, 251 Low-pass filter (LP filter), 143 LP, 199 LP filter, 143 M Modulation amplitude modulation (AM), 142 differential PCM (DPCM), 197 frequency modulation (FM), 142 nonuniform PCM, 192 pulse code modulation (PCM), 169 pulse density modulation (PDM), 210 pulse width modulation (PWM), 202 sigma-delta modulation (SDM), 208 Moving average filter, 231 MPEG, 254 N Noise shaping, 184 Nonuniform PCM, 192 О Over-sampling, 175 P PCM, 169 adaptive differential PCM (ADPCM), 207 differential PCM (DPCM), 197 nonuniform PCM, 192 PDC, 198 PDF, 184 PDM, 210 Predictive Differential Coding (PDC), 198 Pre-echo, 239 Probability Distribution Function (PDF), 184 Pulse Code Modulation (PCM), 169 Pulse Density Modulation (PDM), 210 Pulse Width Modulation (PWM), 202 PWM, 202 R Resampling, 175 S Sampling, 163 SDM, 208 Sigma-delta modulation (SQM)» 208 Signal-to-Noise Ratio (SNR), 138 Single-pole filter, 236 SNR, 138 Sweet Spot, 130 U Up-sampling, 177 V Vocoder, 251 W Windowed-sine filter, 232 A Абсолютная температура, 28 Адаптивная ДМ (АДМ), 205 Адаптивная относительная ИКМ (АОИКМ), 207 Адаптивное квантование, 205 Аддитивность, 213 Адиабатический процесс, 27 АДМ, 205 274 Предметный указатель
Акустика, 99 Акустическая избыточность, 252 Акустическое сопротивление, 111; 151 Алгоритм, 142 жадный алгоритм, 249 Алиазинг, 172 AM, 142 Амплитуда текущая, 89; 163 Амплитудная модуляция (AM), 142 Амплитудная огибающая, 89 спектра, 91 Амплитудно-частотная характеристика (АЧХ), 143 Аналогово-цифровое преобразование, 158 Аналоговый аудиосигнал, 157 Аналоговый нуль, 163 АОИКМ, 207 Ассоциативность свертки, 228 АЦП, 158 динамический диапазон АЦП, 179 АЧХ, 143 область спада АЧХ, 145 Б Базилярная мембрана, 100 Байт, 162 Барк,104 Белый шум, 134 Биение, 34 Бинауральный эффект, 120 Бит, 161 Битрейт, 170 БИХ-фильтр, 236 Блок,80 БПФ, 73 БПФ-свертка, 229 БПФ-фильтр, 238 Быстрое преобразование Фурье (БПФ), 73 В Вокодер, 251 Волна длина волны,33 длина стоячей волны, 54 отраженная, 36 поглощение звуковых волн, 37 преломленная, 36 пучности в стоячей волне, 43; 54 стоячая, 43;54 узел стоячей волны, 43; 54 упругая поперечная, 22 упругая продольная, 22 уравнение звуковой волны, 53 фазы развития, 90 Волновое движение в замкнутом объеме, 40 Волновое сопротивление, 151 Время реверберации, 40 Вынужденные колебания, 42 Высота звука, 105 Г Гармоника, 60; 105 основная, 60 Гармонические колебания, 51 Гармонический анализ, 58 Гексахорд, 132 Гранулярный шум, 187 Громкость звука, 110 кривые равной громкости, 113 уровень громкости, 112 условный нуль, 114 д Давление звука, 110 Двоичная система счисления, 159 Декодер, 192 Декомпозиция, 216 импульсная, 217 чересстрочная, 220 шаговая, 217 Декомпрессор, 152 Дельта-модуляция (ДМ), 202 Дельта-функция, 220 Децибел, 266 Децимация, 176 Джиттер, 187 Диатоника, 132 Предметный указатель 275
Дизеринг, 183 Дизеринг-шум, 183 ДИКМ, 197 Динамический диапазон, 165 АЦП, 179 звука, 152 квантователя, 167 Дискретизация во времени, 163 частота дискретизации, 163 шаг дискретизации, 163 Дискретное преобразование Фурье (ДПФ), 72 Дискретный сигнал, 158 Дифракция, 42 Дифференциальная ИКМ (ДИКМ), 197 Дифференциальное кодирование с предсказателем, 198 Длина волны, 33 средняя длина свободного пробега, 24 ДМ адаптивная ДМ (АДМ), 205 линейная ДМ, 202 ДПФ, 72 Е Единичный импульс, 220 Ж Жадный алгоритм, 249 3 Закон Вебера-Фехнера, 110 Снеллиуса, 37 Запись монофоническая, 126 стереофоническая, 126 Звук,21 высота звука, 105 громкость звука, 110 давление звука, 150 звуковое давление, 110 интенсивность звука, 109 инфразвук, 101 источник звука, 21 порог звукового давления, 111 порог интенсивности звука, 110 сила звука, 109 синтез звука, 61 слышимый, 101 тембр звука, 108 ультразвук, 101 уровень звукового давления, 111 уровень интенсивности звука, 110 Звуковое давление, 110; 150 Зеленый шум, 135 Зеркальные отражения спектра, 172 И Идеальный газ, 26 Избыточность акустическая, 252 статистическая, 248 ИКМ, 169 адаптивная относительная ИКМ (АОИКМ), 207 неоднородная ИКМ, 192 разностная, дифференциальная, 197 Импульс, 217 единичный, 220 Импульсная декомпозиция, 217 Импульсная характеристика, 220 Импульсно-кодовая модуляция (ИКМ), 169 Импульсный сигнал, 164 Инвариантность, 213 Инерционность слуха, 108 Интенсивность звука, 109 Интервальный коэффициент, 133 Интерполяция, 171 Интерференция во времени, 33 Инфразвук, 101 Искажения гармонические (линейные), 258 негармонические (нелинейные), 258 Источник звука, 21 276 Предметный указатель
к Каскад, 229 Квант, 166 младший, 166 старший, 166 Квантование адаптивное, 205 линейное (однородное), 165 неоднородное, логарифмическое, 188 погрешность квантования, 168 разрядность квантования, 168 шаг квантования, 166 Квантователь, 167 динамический диапазон квантователя,167 линейный (однородный), 167 КИХ-фильтр, 230 Клиппинг, 169 Код, 192 Кодек, 193 Кодер, 192 Колебания амплитуда колебаний, 51 вынужденные, 42 гармонические, 51 период колебаний, 33; 51 периодические, 51 свободные, 42 частота колебаний, 33 Компандер, 152 Компонента сигнала, 216 Компрессия данных, 245 Компрессор, 152 Конволюция, 222 Коричневый шум, 135 Корреляция, 182 Коэффициент интервальный, 133 рекурсии, 236 Кривые равной громкости, 113 Критическая полоса, 103; 118 Л Линейная дельта-модуляция, 202 Линейная система, 213 Линейное предсказание, 199 М Маскировка маскирующий порог, 118 маскирующий тон, 118 постмаскировка, 119 предмаскировка, 119 частотная, 117 частотно-временная, 119 Маскирующий порог, 118 Маскирующий тон, 118 Мел, 106 Мензура, 96 Модуляция амплитудная (AM), 142 дельта-модуляция (ДМ), 202 линейная дельта-модуляция, 202 плотностью импульсов, 210 сигма-дельта-модуляция (СДМ), 208 сигнала, 141 частотная (ЧМ), 142 широтно-импульсная (ШИМ), 202 Монофоническая запись, 126 Мощность аналогового звукового сигнала, 151 Музыкальная система, 132 равномерно темперированная, 132 Н Наклонная перегрузка, 204 Напряжение звукового сигнала, 151 Нелинейная система, 213 Неоднородная ИКМ, 192 О Обертон, 60; 105 Обратное преобразование Фурье, 73 Огибающая амплитудная огибающая, 89 Однополюсный БИХ-фильтр, 236 Окно, 80 Оконная (весовая) функция, 84 Октава, 43,132 Оранжевый шум, 134 Основная частота, 105 Основной тон, 105 Предметный указатель 277
Осциллограмма, 89 Осциллятор, 61 Отношение “сигнал/шум” (С/Ш), 138 Отображение амплитудно-временное, 89 амплитудно-частотное, 91 Отсчет, 168 Оцифровка, 158 П Пентахорд, 132 Перегрузка, 152 крутизны, 204 наклонная, 204 Передискретизация, 175 Перекрытия, 81 Период колебаний, 33 ПЗФ, 145 Плотность звуковой энергии, 151 спектральная,134 Поглощение звуковых волн, 37 Погрешность квантования, 168 Полоса критическая, 103 равной разборчивости, 103 Полутон, 131 Порог болевой порог слышимости, 114; 115 звукового давления, 111 интенсивности звука, 110 слышимости, 111 стандартный порог слышимости, 111 Порядок предсказателя, 197 фильтра, 145 ППФ, 145 Предсказание линейное, 199 Предсказатель, 197 порядок предсказателя, 197 Пре-эхо, 239 Принцип неопределенности спектрального анализа, 81 суперпозиции волн, 33 суперпозиции сигналов, 216 Прореживание, 176 Простой тон, 52 Р Разложение, 216 в спектр, 60 Разностная (дифференциальная) ИКМ (ДИКМ), 197 Разностное кодирование с предсказателем, 198 Разрядность квантования, 168 Ранние отражения, 41 Реакция на единичный импульс, 220 Реверберация, 40 время реверберации, 40 Резонанс, 42 Резонансная частота, 45 Резонатор, 43 Резонаторный ящик, 43 Рекурсия, 236 коэффициент рекурсии, 236 уравнение рекурсии, 236 Розовый шум, 134 Ряд Фурье, 58 частичная сумма, 62 С С/Ш, 138 Свертка, 222 дистрибутивность свертки, 229 коммутативность свертки, 227 скоростная (БПФ) свертка, 229 ядро свертки,223 Свободные колебания, 42 Сдвиг постоянной составляющей, 169 СДМ, 208 Серый шум, 135 Сжатие данных, 245 без потерь, 248 с потерями, 251 Сигма-дельта-модуляция (СДМ), 208 Сигнал аналоговый, 157 импульсный, 164 278 Предметный указатель
цифровой, 158 Сигналограмма, 89 Сила звука, 109 Синий шум, 135 Синтез, 216 звука, 61 Система, 211 аддитивная,214 гомогенная, 213 дискретная, 212 импульсная характеристика системы, 220 инвариантность линейной системы к сдвигу во времени, 214 коммутативная, 215 линейная, 213 музыкальная, 132 музыкальная равномерно темперированная, 132 нелинейная, 213 непрерывная, 212 синусоидальная верность линейной системы, 215 статическая линейность системы, 214 Скоростная свертка, 229 Слышимый звук, 101 Собственная частота, 42 Созвучие, 105 Спектр, 73 амплитуд, 52; 60 амплитудная огибающая спектра, 91 звукового сигнала, 52 зеркальные отражения, 172 линейчатый дискретный частотный, 131 начальных фаз, 60 принцип неопределенности спектрального анализа, 81 разложение в спектр, 60 частот, 52; 60 широкий частотный спектр, 61 Спектральная огибающая, 91 Спектрограмма, 91 трехмерная, 93 Средняя длина свободного пробега, 24 Средняя скорость, 25 Стандартная частота, 111 Статистическая избыточность, 248 Стереобаза, 122 Стереопанорама, 126 ширина стереопанорамы, 126 Стереофоническая запись, 126 Стереофония, 122 Стоячая волна, 43 Суперпозиция сигналов, 216 Сэмпл,168 Т Текущая амплитуда, 89; 163 Тембр,61 звука,108 тембровая окраска, 61 Теорема Котельникова, 164 Тетрахорд, 132 Тон, 105 в музыке, 131 основной, 105 полутон, 131 простой, 52 целый, 131 чистый, 52 Тональный шум, 136 Точка разрыва функции, 63 Транспонирование, 133 Трехмерная спектрограмма, 93 Трихорд, 132 Трубка Квинке, 35 У Узел стоячей волны, 43 Ультразвук, 101 Уплотнение данных, 245 Уравнение звуковой волны, 53 Клайперона-Менделеева, 28 рекурсии, 236 Уровень громкости, 112 звукового давления,111 корректированный, 153 интенсивности звука, 110 квантования, 166 Предметный указатель 279
шума, 136 шума квантования, 179 Условие Дирихле, 63 Условный нуль громкости, 114 Условный период затухающих колебаний, 42 Ф Фаза, 34 Фазочастотная характеристика (ФЧХ), 147 ФВЧ, 143 Фильтр БИХ-фильтр, 236 БПФ-фильтр, 238 верхних частот, 143 взвешенного синуса, 232 идеальный, 145 КИХ-фильтр, 230 нижних частот, 143 однополюсный БИХ-фильтр, 236 полосно-запирающий, 145 полосовой, полосно-пропускающий, 145 скользящего среднего, 231 ядро фильтра, 230 Фильтрация цифровая, 230 Фиолетоый шум, 135 ФНЧ, 143 Фон, 114 Фониатрия, 94 Форманта, 94 Формовка шума, 184 Формула перевода герц в барки, 107 перевода герц в мелы, 106 перевода мелов в герцы, 106 Эйлера-Фурье, 62 Функция Кронекера, 220 непрерывная, 63 оконная (весовая), 84 разрывная, 63 распределения вероятностей, 184 сглаживающая оконная, 84 Фурье обратное преобразование Фурье, 73 ряд Фурье, 58 ФЧХ, 147 ц ЦАП, 171 Цифроаналоговое преобразование, 171 Цифровая фильтрация, 230 Цифровой аудиосигнал, 158 Цифровой нуль, 166 Ч Частичная сумма ряда Фурье, 62 Частота выборки, 163 дискретизации, 163 колебаний, 33 Найквиста, 164 основная, 60; 105 резонансная,45 собственная, 42 среза фильтра, 145 стандартная, 111 сэмплирования, 163 центральная, 102 Частотная маскировка, 117 Частотная модуляция (ЧМ), 142 Чересстрочная декомпозиция, 220 Черный шум, 136 Чистый тон, 52 ЧМ, 142 Ш Шаг дискретизации, 163 квантования, 166 Шаговая декомпозиция, 217 ШИМ, 202 Ширина стереопанорамы, 126 Широтно-импульсная модуляция (ШИМ), 202 Шум, 105; 133 белый, Джонсона, 134 гранулярный, 187 280 Предметный указатель
дизеринг-шум, 183 дробления, 177 зеленый, 135 квантования, 177 коричневый, 135 оранжевый, 134 отношение сигнал/шум (С/Ш), 138 розовый, 134 серый, 135 синий, 135 тональный, 136 уровень шума, 136 фиолетовый, 135 формовка шума, 184 черный, 136 э Экспандер, 152 Эффект бинауральный, 120 Гиббса, 83 Доплера, 46 Хааса, 41; 125 эха, 37; 225 Эхо, 37; 225 Я Ядро свертки, 223 фильтра, 230 Предметный указатель 281
Научно-популярное издание Александр Юрьевич Радзишевский Основы аналогового и цифрового звука Литературный редактор Верстка Обложка Л.Н. Красножон МЛ. Смолина С.П. Мягков Корректор А.В. Луценко Издательский дом «Вильямс». 101509, Москва, ул. Лесная, д. 43, стр. 1. Подписано в печать 17.05.2006. Формат 70X100/16. Гарнитура Times. Печать офсетная. Усл. печ. л. 23,22. Уч.-изд. л. 15,82. Тираж 3000 экз. Заказ № 1942. Отпечатано с диапозитивов в ОАО «Печатный двор» им. А. М. Горького. 197110, Санкт-Петербург, Чкаловский пр., 15.
основы АНАЛОГОВОГО и ЦИФРОВОГО ЗВУКА Александр Радзишевский Книга состоит из двух частей, которые охватывают широкий круг вопросов,связанных со звуком. В популярной форме излагаются основы теории звука и его обработки, начиная с физики образования и распространения звуковых волн, восприятия звука человеком и заканчивая подробным описанием и анализом существующих способов цифрового представления звука и базисных методов его обработки и сжатия. Книга предназначена для широкого круга читателей, интересующихся и увлекающихся работой со звуком, а также аудиоаппаратурой и звукомузыкальным творчеством. ОБ АВТОРЕ Александр Радзишевский, родился в 1978 в Харькове. Выпускник Израильского технологического инсти- тута (Технион) по специальности “Теоретическая математика и компьютерные науки”. Автор книги “Компьютерная обработка звука”, а также электронных и печатных публикаций по цифровому звуку. Автор некоммерческого электронного журнала WebSound.Ru, посвященного компьютерному звуку, музыке и цифровому аудиомузыкальному творчеству. »••••••••••••••••••••••• ИНН