PROFILPELAJAR.COM

Морфинг (англ. morphing — трансформация) — звуковой эффект, заключающийся в наложении характеристик одного звука на другой. В качестве характеристик могут выступать огибающая, спектр или временная структура сигнала. Часто говорят о тембральном морфинге — процессе комбинирования двух или более звуков различного тембра для получения нового звука, тембр которого включает в себя отдельные характеристики обоих звуков^[1].

В звуковой обработке морфинг, как правило, используется для решения двух типов задач:

получения плавного перехода между двумя звуками;
создания нового звука, обладающего характеристиками исходных звуков.

Принцип действия

Морфинг по принципу своего действия схож с вокодером, в котором тембр одного инструмента управляется динамическими характеристиками звукоизвлечения другого. Когда человек произносит какой-либо звук, его речевой аппарат работает как сложная система фильтров, пройдя через которую поданная голосовыми связками звуковая волна преобразуется. Если через такую же систему фильтров подать другой звук, например гитары, то она начнет «разговаривать». В этом случае говорят о спектральном или частотном морфинге.

Помимо этого существует морфинг по времени. Например, звук гитарной струны имеет быструю атаку и длительное затухание, а трубы — наоборот, медленную атаку и быстрое затухание. Временной морфинг заключается в том, что возможно подменить исходный тембр, сохранив принципы воспроизведения.

Морфинг также схож с амплитудной модуляцией, однако при морфинге на каждой полосе частот имеется своя форма изменения амплитуды.

Реализация

Известно множество реализаций морфинга. В большинстве из них звуковой эффект достигается путём интерполяции характеристик сигнала, полученных с помощью таких методов анализа или синтеза, как оконное преобразование Фурье, синусоидальное моделирование или кодирование с линейным предсказанием. Далее разобраны наиболее часто встречающиеся алгоритмы аудиоморфинга.

Линейная интерполяция с плавным переходом

Одними из первых подходов, используемых для реализации задач аудиоморфинга, стали линейная интерполяция и кроссфейд. В этом случае выходной сигнал $y(t)$ определяется по формуле:

y(t)=\alpha s_{1}(t)+(1-\alpha )s_{2}(t)

,

где $s_{1}$ и $s_{2}$ — входные сигналы, $\alpha$ — коэффициент интерполяции.

В частности, с помощью кроссфейда — плавного снижения громкости одного звука одновременно с плавным увеличением громкости другого — происходит постепенная трансформация одного звука в другой (при этом значение $\alpha$ должно изменяться), а благодаря линейной интерполяции выходной сигнал обладает усредненной характеристикой исходных сигналов.

Несмотря на то, что эти подходы удобны для вычислений, они редко используются на практике, так как с их помощью невозможно создать высококачественный звук в случае, если тембры входных сигналов сильно различаются, — в выходном сигнале слышны оба исходных сигнала.

Амплитудный морфинг

Амплитудный морфинг достигается с помощью следования огибающей сигнала. Для этого выделяется амплитудная огибающая управляющего сигнала, которая затем используется для управления амплитудой синтетического сигнала. Так, например, амплитуда огибающей речи может быть использована для контроля амплитуды широкополосного шума. При этом шум будет звучать так, как если бы его произносили вслух. Уточнение этого метода привело к изобретению вокодера, где данный алгоритм применяется в каждой из частотных полос, на которые делятся голос и шум.

Морфинг достигается при изменении амплитуды входного сигнала с помощью заранее определенной амплитудной огибающей или амплитуды другого сигнала. Если используется готовая огибающая сигнала, то входной сигнал умножается на выходной сигнал генератора огибающей. Если используется управляющий сигнал, то необходимо сначала выделить амплитудную огибающую этого сигнала. Для точных измерений следует использовать среднеквадратичный детектор. Однако амплитуда сигналов акустических инструментов обычно слабо изменяется, а их громкость больше зависит от изменений спектра, чем от изменений амплитуды. Если громкость выходного сигнала должна быть аналогична громкости управляющего сигнала, то необходимо расширить динамический диапазон управляющего сигнала.^[2]

Амплитудные вариации управляющего сигнала, приложенного к входному сигналу, создают эффект, который воспринимается во временной или частотной области сигнала в зависимости от частоты модулирующего сигнала. Для частот ниже 20 Гц этот эффект проявляется во временной области и называется следованием амплитуде. Для частот выше 20 Гц этот эффект воспринимается в частотной области и называется амплитудной модуляцией.

Если управляющий сигнал обладает широкой полосой пропускания, ширину спектра сигнала необходимо уменьшить с помощью блока усреднения сигнала. Типичная постоянная времени спада в блоке усреднения сигнала составляет 30...100 мс. Такие значения сглаживают амплитуду сигнала, поэтому он остается в суб-звуковом диапазоне. Однако часто бывает желательно трансформировать атаки входного сигнала без усреднения. Поэтому для постоянной времени атаки рекомендуется использовать значения, меньшие чем для постоянной времени спада. Типичная постоянная времени атаки сигнала составляет 1...30 мс.

Амплитудные вариации входного сигнала и управляющего сигнала могут находиться в противофазе, тем самым уменьшая воздействие эффекта, или быть софазны, что приводит к расширению динамического диапазона. Чтобы амплитудные вариации выходного сигнала были аналогичны амплитудным вариациям управляющего сигнала, рекомендуется предварительно пропустить входной сигнал через компрессор-ограничитель.

Кросс-синтез

Идея кросс-синтеза состоит в комбинировании двух сигналов таким образом, что спектр первого сигнала формируется с помощью спектра второго сигнала, при этом высота первого звука сохраняется. Данный метод может быть усовершенствован путём удаления спектральной огибающей первого сигнала перед фильтрацией.

Кросс-синтез состоит из следующих шагов^[3]:

Выполнить оконное преобразование Фурье для каждого из входных сигналов.
Вычислить спектральную огибающую для каждого кадра.
Дополнительно разделить спектр каждого кадра несущего сигнала на его спектральную огибающую, тем самым сделав его плоским.
Умножить плоский спектральный кадр на огибающую соответствующего модулирующего кадра, тем самым заменив несущую огибающую модулирующей.

Кепстральный анализ

Обработка сигналов построенная на кепстральном анализе также называется гомоморфной. С помощью кепстра можно получить спектральную огибающую сигнала. Изменение звука происходит благодаря фильтрации обратной огибающей ${\dfrac {1}{|H_{1}(f)|}}$ с последующей фильтрацией огибающей второго сигнала $|H_{2}(f)|$ . Последовательное соединение обоих фильтров приводит к передаточной функции вида ${\dfrac {|H_{2}(f)|}{|H_{1}(f)|}}$ . C учетом того, что $\log {\dfrac {|H_{2}(f)|}{|H_{1}(f)|}}=\log {|H_{2}(f)|}-\log {|H_{1}(f)|}$ , фильтрация построена на разности двух спектральных огибающих. Обратная фильтрация первого сигнала и последующая фильтрация спектральной огибающей второго сигнала могут быть выполнены за один шаг при использовании быстрой свертки.

Синусоидальное моделирование

При использовании синусоидальной модели меняющиеся во времени спектральные характеристики представляют в виде сумм синусоид, называемых обертонами. Входной сигнал $s(t)$ можно представить следующим образом^[4]:

s(t)=\sum _{n=1}^{N}A_{n}(t)\cos {\Theta _{n}(t)}

,

где $A_{n}$ — амплитуда n-ной синусоиды, $\Theta _{n}$ — фаза n-ной синусоиды, N — число рассматриваемых обертонов.

Более общее представление можно получить используя синусоидальную модель с остатком. Её можно считать обобщением над оконным преобразованием Фурье и синусоидальным моделированием. Используя данный подход, можно определить, какая часть спектральной информации представляется в виде синусоид, а какая является остатком оконного преобразования Фурье. При хорошем анализе это очень гибкая и эффективная модель, сохраняющая хорошую звуковую точность. При таком подходе синусоидальное представление используется только для стабильных обертонов, а остаток в идеале должен представлять собой стохастическую компоненту. Входной сигнал при этом выглядит следующим образом:

s(t)=\sum _{n=1}^{N}A_{n}(t)\cos {\Theta _{n}(t)}+e(t)

,

где $e(t)$ — шумовая компонента в момент времени $t$ (в секундах).

Данный алгоритм предоставляет три интерполирующих фактора, каждый из которых может быть использован для контроля над генерируемым звуком: фундаментальную частоту, гармонический тембр и остаточную огибающую.

Применение

Морфинг активно применяется в индустрии развлечений: созданные звуки используются в саундтреках к фильмам и в рекламе на телевидении. Также морфинг применяется в психоакустических экспериментах, в частности для изучения пространства тембров.

Морфинг может быть использован для создания новых звуков, обладающих различными характеристиками, а также для обеспечения более реалистичного синтеза существующих в природе тонов, что может быть применено, например, при повышении громкости тихого звука.

Одним из наиболее известных примеров аудиоморфинга стало воссоздание голоса Фаринелли для фильма о жизни известного кастрата XVIII века. Тогда морфинг применили для создания диапазона голоса певца, соединив колоратурное сопрано и контратенор.

Примечания

↑ Holloway B., Tellman E., Haken L. Timbre Morphing of Sounds with Unequal Numbers of Features. // Journal of the Audio Engineering Society — 1995 — № 43 (09) — p. 678-689.
↑ DAFX – Digital Audio Effects / Ed. Udo Zolzer. – Chichester: John Wiley & Sons, 2002. – 554 p.
↑ Cross Synthesis (неопр.). Дата обращения: 15 января 2014. Архивировано 27 декабря 2013 года.
↑ F. Primavera, F. Piazza and J. Reiss. Audio Morphing for Percussive Hybrid Sound Generation. – In Proc. 45th # "Audio Engineering Society Conference", 2012. – 8 p.