Основные понятия теории цифрового звука

Звук — это, в общем случае, колебания упругой среды. Вызывается звук механическими колебаниями некоторого объекта (это может быть струна, голосовые связки и пр.), контактирующего со средой. Частота колебаний (она измеряется в герцах) определяет высоту звука. Чем больше частота, тем выше звук. Человеческий слух способен воспринимать звуковые колебания воздуха с частотой от 20 Гц до 20 кГц. Амплитуда колебаний воспринимается ухом как громкость. Чем больше амплитуда, тем более громким будет звук.

Прямым аналогом звуковых волн являются волны электромагнитные. Последние менее подвержены рассеянию средой, переносимую ими информацию проще сохранять и обрабатывать. Электромагнитные волны — это важнейший вторичный носитель звука. Преобразование акустических волн в электромагнитные (равно как и обратная операция) осуществляется за счет обычного индукционного эффекта, который заключается в возникновении в проводнике тока при его помещении в переменное магнитное поле.

Проще говоря, колебание магнита мембраны динамика около катушки вызывает в ней переменный ток. Если этот ток подать на другой динамик, то магнит его мембраны придет в движение, создавая соответствующий звук.


Так работают телефон и радио.

Звук, преобразованный в форму электромагнитных колебаний, может быть легко сохранен. Для этого некоторый параметр носителя (глубина дорожки пластинки или степень намагниченности пленки) должен быть сопоставлен с амплитудой колебаний (т. е. силой тока, индуцируемого в катушке динамика). Звук, преобразованный в электромагнитные колебания напрямую, называется аналоговым. Главная его характеристика — прямое соответствие передаваемых или записываемых электромагнитных волн акустическим.

Цифровой звук появился относительно недавно. Основное его отличие от аналогового заключается в дискретности. При оцифровке специальное устройство, аналого-цифровой преобразователь (АЦП), измеряет через равные промежутки времени (порядка 0,001-0,0001 секунды) величину амплитуды электромагнитной волны, соответствующей аналоговой форме звука, и записывает ее значение с заданной точностью в файл. Это значение принято называть выборкой, или на жаргоне — сэмплом (от англ. sample — выборка). Саму же оцифровку нередко называют дискретизацией, или сэмплингом.

При обратном преобразовании звука из цифровой формы в аналоговую (эту операцию проводит устройство, называемое цифро-аналоговым преобразователем (ЦАП)).


Выполняется интерполирование (приближение) промежуточных значений амплитуды по известным. Так как частота дискретизации обычно высока, эта операция позволяет довольно точно восстановить исходный аналоговый сигнал.

Цифровая форма звука характеризуется пятью параметрами.

1. Частотой дискретизации;
2. Разрядностью выборок.
3. Количеством каналов или дорожек.
4. Алгоритмом компрессии/декомпрессии (кодеком).
5. Форматом хранения.

Так как каждый из этих параметров довольно специфичен, рассмотрим их по отдельности.

Частота дискретизации
Частота дискретизации определяет, сколько выборок в секунду будет производиться при оцифровке. Если сопоставить цифровой звук с цифровыми изображениями, то частоте дискретизации будет соответствовать разрешение (более «приземленная» аналогия — частота кадров в кино). Чем выше частота дискретизации, тем лучше затем удастся на основании цифровой формы звука восстановить аналоговый сигнал (точнее, чем больше частота дискретизации, тем больший спектр частот удастся зафиксировать при оцифровке).
Знаменитая теорема Найквиста — Котельникова гласит, что для правильного восстановления аналогового сигнала по его цифровой записи необходимо, чтобы частота дискретизации по меньшей мере в два раза превосходила максимальную частоту звука.


Так как верхний предел слуха 20 кГц, то в идеале частота дискретизации должна быть не меньше 40 кГц. Именно поэтому стандартная частота дискретизации, использующаяся при записи компакт-дисков, составляет 44.1 кГц (так называемое CD-качество). Впрочем, частота дискретизации может быть и выше, но такое качество звука используется лишь и звукозаписывающих студиях и особо требовательными меломанами.

Частота дискретизации 44.1 кГц — это не всегда достижимый идеал. При передаче данных по сети с низкой пропускной способностью качеством звука приходится жертвовать в пользу его размера, На практике обычно используются частоты дискретизации в два, четыре и восемь раз меньшие 44.1 кГц:

• 22.05 кГц — так называемое радио-качество. Используется при кодировании звука FM- радиостанциями. В случае Flash неплохо подходит для создания фоновой музыки и событийных звуков. Для передачи человеческого голоса даже несколько избыточно;

• 11.025 кГц — телефонное качество. Частота дискретизации, оптимально подходящая для передачи человеческого голоса. Используется в 1Р-телефонии;

• 5,5 кГц — звук на грани потери информационной составляющей. Эта частота дискретизации может быть применена для передачи низких звуков, а также голоса (правда, с посредственным качеством).

Flash-плейер поддерживает частоты дискретизации 44,1: 22,05; 11,025; 5,5 кГц.


Выбор частоты должен определяться типом звука, а также тем, насколько важно сохранить небольшой размер SWF-файла. Однако нужно помнить, что не имеет смысла повышать частоту дискретизации звукового фрагмента по сравнению с начальной. Это не приведет к росту качества, а только неоправданно увеличит размер фильма.

Разрядность выборок
Разрядность выборки определяет, сколько различных значений амплитуды может быть зафиксировано при оцифровке. Если разрядность равна 4 бита, то интервал значения амплитуды от нуля до максимума будет разбит всего на 16 промежутков. Естественно, что погрешность при восстановлении аналогового сигнала при этом будет очень высока. Подобная разрядность подходит для представления очень простых звуков, а также голоса (качество его будет низким).

Разрядность 8 битов дает возможность представить 256 значений амплитуды. С такой разрядностью передают данные FM-радиостанции. Ее достаточно для представления любых звуков с вполне удовлетворительным качеством. Оптимальной же является 16-битовая кодировка. При этом можно работать с 65 536 вариантами амплитуды, чего достаточно для покрытия всего слышимого диапазона.

Разрядность 16 битов применяется при записи компакт-дисков.


Более высококачественное квантование оправданно использовать лишь в случае студийной обработки звука.

Flash-плейер поддерживает 8- и 16-битовое квантование в случае несжатых форматов (например, WAV) и только 16-битовую разрядность для сжатых форматов (к ним относится МР3). Это нужно учитывать при импорте звукового файла в фильм.

Количество каналов
Стереозвук был разработан, чтобы придать воспроизводимому звуку природную объемность. Достигается это за счет того, что в каждой колонке проигрывается различная составляющая звука. В общем, звук каждого канала представляет собой отдельный звуковой файл, поэтому размер стереозвука пропорционален количеству поддерживаемых каналов.

Обычные непрофессиональные звуковые карты работают с двухканальным звуком. Столько же каналов поддерживает и Flash-плейер. Используя ActionScript, можно микшировать звук каналов, воспроизводя звук левого канала в правом динамике, а правого канала — в левом. Как это делается, мы поговорим немного ниже.

Если звук кодируется в МР3-формате, то можно выбирать один из трех форматов стерео.

• Dual Channel. Каждый канал получает половину потока и кодируется отдельно как моносигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал, скажем, текст на разных языках.

• Stereo. Каналы кодируются отдельно, но программа кодировки может при необходимости отдать одному каналу больше места, чем другому. Наиболее стандартный формат.

• Joint Stereo. Стереосигнал раскладывается на два новых канала. Один представляет собой среднее исходных каналов, а второй — разность между каналами. В этом режиме качество звука получается чаше всего выше, чем в остальных.

К сожалению, в среде разработки Flash нельзя задавать, какой формат стерео будет применяться. Поэтому, если качество звука имеет принципиальное значение, то создавать МР3-файлы с нужными параметрами стоит при помощи одной из специализированных программ.

Так как стереозвук «весит» в два раза больше, чем его моноаналог, в подавляющем большинстве случаев в настройках экспорта стоит активизировать опцию Convert Stereo to Mono (Конвертировать стерео в моно). При этом каналы стереозвука будут микшированы в монозвук.

При всех типах сжатия, поддерживаемых Flash, можно использовать как одноканальные, так и двухканальные звуки. Исключение представляет сжатие по алгоритму Nellymoser, которое может быть применено лишь к одноканальному звуку.

Алгоритмы компрессии
Попробуем посчитать, сколько места на диске займет средняя музыкальная композиция, оцифрованная с CD-качеством. Очевидно, что для этого нужно использовать формулу ,t K B F size ⋅ ⋅ ⋅ = где F — частота дискретизации, В — разрядность выборок, К — количество канатов, t — время.

Полагая травным 44,1 кГц, В = 2 байта, К = 2 канала и t = 300 секунд, получим, что оцифрованная песня займет приблизительно 50 Мб.

Это означает, что на компакт-диске может быть записано всего лишь около 10 несжатых песен. Так как каждая секунда звука, оцифрованного с CD-качеством, занимает почти 200 Кб, то такой звук будет весьма проблематично использовать в телефонии, радио или интернете. Даже если оцифровать звук как одноканальный с частотой дискретизации 11,05 кГц и разрядностью 8 битов, каждая его секунда займет 11 Кб.

Для обычных телефонных сетей это слишком много, чтобы звук можно было передавать как потоковый, Возникает проблема: каким-то образом необходимо уменьшить размер звуковых файлов.

Решается она довольно эффективно за счет использования ряда алгоритмов компрессии.
Flash-плейер поддерживает следующие типы компрессии.

• ADPCM (Adaptive Differential Pulse Code Modulation — адаптивная разностная импульсно-кодовая модуляция). Это тип компрессии базируется на двух идеях. Во-первых, установлено, что в подавляющем большинстве воспринимаемых нами звуков преобладают низкочастотные медленно изменяющиеся составляющие. Из этого факта следует, что разность между соседними выборками зачастую мала (вернее, существенно меньше абсолютной величины самих выборок).

Это означает, что оцифрованный звуковой сигнал можно представить не самими выборками, а разностями между ними, которые меньше по величине, а следовательно, требуют меньше битов для своего описания. Во-вторых, кодирование разности соседних выборок производится с учетом величины амплитуды и частотного состава, так как ухо человека имеет пределы чувствительности (так называемая адаптация).

Алгоритм ADPCM активно используется в IP-телефонии. Для передачи музыки он плохо подходит из-за вносимых им в звук существенных искажений (искажения, естественно, вносятся и в речь, но в ней они малозаметны). Коэффициент сжатия при применении ADPCM обычно невысок и лежит в пределах от 8:1 до 3:1. Кодек ADPCM Flash-плейера позволяет использовать для представления разности между выборками 2, 3,4 или 5 битов. Реально можно добиться приемлемого качества звука при разрядности (bitrate, т. е. «весе» одной секунды звука) 16 Кбит.

Алгоритм ADPCM существенно уступает МРЗ, поэтому использовать такую компрессию в принципе не стоит. МР3-сжатие даст на порядок лучшее качество при той же разрядности. Наличие же соответствующего кодека объясняется принципами обратной совместимости: кодек для МРЗ встроен в плейер только во Flash 4. До этого применялся только кодек ADPCM, что связано, вероятно, со свободным распространением данного алгоритма. Причиной же того, что ADPCM до сих пор используется в IP-телефонии, является то, что он не требует таких объемных математических вычислений, как МРЗ, поэтому компрессия может быть проведена «на лету».

• МР3. Один из первых и наиболее распространенный алгоритм компрессии, базирующийся на так называемом психоакустическом сжатии. Использует следующие особенности человеческого слуха:

o если тихий звук следует за очень громким, то мы его не слышим. Поэтому его можно отбросить;

o составляющая звука с большой амплитудой маскирует составляющие, близкие к ней по частоте, нос меньшими амплитудами. Поэтому ими можно пожертвовать без заметной потери качества;

o чувствительность уха к частотным искажениям низка, поэтому, если составляющие близки, их можно считать одинаковыми;

o мы плохо воспринимаем очень низкие и очень высокие звуки, поэтому для их кодирования можно выделить меньше битов, чем для звуков со средней частотой.

Технически алгоритм МР3 реализуется следующим образом. Звук разбивается на участки некоторой длины, называемые фреймами (frames), и к каждому набору выборок применяется прямое преобразование Фурье. Его результатом является разложение звуковой волны на элементарные синусоиды разной частоты — гармоники. Коэффициент гармоники определяет ее вклад в результирующую волну. Производится сопоставление коэффициентов гармоник, и наименее значимые из них отбрасываются.

Алгоритм МР3 позволяет сжать звук в 20-30 раз с сохранением хорошего качества. Считается, что полностью CD-качество сохраняется при битрейте порядка 160 Кбит/с (понятия «частота дискретизации» и «разрядность выборки» неприменимы к МР3-файлам). Однако в большинстве случаев вполне приемлем и куда более сжатый звук. Так во Flash-анимациях обычно применяется МР3-сжатие, дающее битрейт порядка 16-32 Кбит/с. Flash-плейер поддерживает ряд битрейтов в промежутке от 16 до 160 Кбит/с, Выбор наиболее подходящего должен осуществляться на основании требований к размеру фильма и качеству звука. Зачастую стоит оставлять МР3-файл в том качестве, в котором он был импортирован (поэтому по умолчанию активна настройка Use imported mp3 quality). Если же качество изменяется, то изменение должно производиться в сторону уменьшения качества, но не увеличения. Иначе звук улучшен не будет, а рост размера файла произойдет.

Если звук обрабатывается во внешнем редакторе, то можно учесть тот факт, что Flash-плейер поддерживает не только алгоритм МРЗ, который является частью стандарта MPEG1 Layer 3, но и более новые алгоритмы (MPEG2 и MPEG2.5), которые дают лучшее качество звучания при низкой разрядности. Кроме того, плейером поддерживается МР3-кодирование как с постоянной разрядностью, так и с переменной (во втором случае достигается лучшая степень сжатия).

МР3-формат оптимален в случае Rash-проектов. Поэтому на практике используется практически только он. Тем более, МР3-файлы можно динамически подгружать, а также у них имеются весьма полезные ID3-теги с информацией о данном звуке.

• Nellymoser. Относительно новый алгоритм компрессии, разработанный компанией Nellymoser Inc. Предназначен для сжатия человеческой речи. Основная его идея заключается в том, что голос человека может включать колебания с частотами из довольно узкого промежутка. Более высокие и низкие составляющие можно отбросить. Также удаляются гармоники с очень малой амплитудой. В результате достигается сжатие, сопоставимое с МР3-сжатием, однако качество звука оказывается более высоким. Более подробно об алгоритме Nellymoser можно прочитать на сайте разработчика http://www.nellymoser.com/.

Кодек алгоритма Nellymoser включен в плейер только во Flash MX.

В среде разработки Flash сжатие по алгоритму Nellymoser называется Speech (речь). Регулировать соотношение качество/размер при использовании компрессии Nellymoser можно, изменяя частоту дискретизации.

Включать в SWF-фильм можно и несжатый звук. В среде разработки этот режим называется Raw. При этом вы можете изменять разрядность и частоту дискретизации. Теоретически несжатый звук можно применять, если качество озвучивания значительно важнее размера фильма (или, что еще менее вероятно, если необходимо сэкономить вычислительные ресурсы компьютера). На практике же при этом все же лучше использовать МР3-сжатие с высоким (более 120 Кбит/с) битрейтом.

Форматы хранения
Существует довольно значительное количество звуковых форматов. По умолчанию Flash позволяет импортировать файлы лишь двух из них.

• WAV. Основной формат для хранения несжатого звука на платформе Windows. Поддерживает моно- и стереозвук, различные значения дискретизации и разрядности. Обычно именно и WAV производится оцифровка аналогового сигнала, и лишь затем применяется один из алгоритмов компрессии. WAV-файлы имеют чрезвычайно большой размер, поэтому этот формат значительно потеснен МРЗ. Впрочем, WAV остается основным форматом профессиональных звуковых редакторов, таких как SoundForge.

• МР3. Звуковой формат, использующий описанный выше алгоритм сжатия. Основной в случае Flash формат, так как он замечательным образом совмещает хорошее качество звучания и малый размер файла. Кроме того, звуковые файлы в этом формате, в отличие от WAV-файлов, можно динамически подгружать в фильм при помощи метода loadSound() класса Sound.

Если у вас установлен QuickTime 4 или выше, то вы дополнительно сможете импортировать файлы форматов AIFF, QuickTime, Sun AU.

Существует две формы цифрового звука — Wave и MIDI. Все, что было сказано выше, касалось Wave-звука. Звук же в форме MIDI представляет собой некоторый аналог нотной записи, т. е. в MIDl-файлах записывается лишь то, какая нота и каким инструментом должна исполняться в некоторый момент времени. Описание же звучания самих инструментов хранится в драйверах звуковой карты. MIDI-файлы чрезвычайно компактные, однако звук, генерируемый на их основе, может радикально отличаться на разных звуковых картах.

Flash-плейер не работает с MIDI-звуком. В принципе, в этой возможности нет особой необходимости. Исключение представляют фильмы, создаваемые для мобильных устройств, так как они поддерживают в основном МIDI-звук. Во Flash MX 2004 Professional имеется возможность включения в фильм, публикуемый для проигрывания на мобильных устройствах, MIDI-файла. Подробно о ней вы можете прочитать в справке программы или на сайте компании Macromedia.

Оцените статью: (0 голосов)
0 5 0

Статьи из раздела Action Script на эту тему:
Динамическое присоединение звука. Метод attachSound()
Импортирование внешних МР3-файлов
Операции со звуком без использования программирования
Свойства position и duration
Событийный (event) и потоковый (stream) звук

Вернуться в раздел: Action Script / 15. Работа со звуком