Цифровая обработка речевых сигналов

с помощью программного обеспечения ZETLAB

Методы цифровой обработки предполагают возможность их использования для решения задач речевой коммуникации. Для того чтобы уяснить механизм их действия, необходимо сначала получить общее представление о сущности речевого сигнала и о возможных методах его цифровой обработки. Настоящая статья предлагает вниманию обзор современных исследований в рассматриваемой области.

Понятие речевого сигнала

Речь служит средством обмена информацией. Существует два подхода к ее определению: через теорию информации, разработанную Шенноном, и через акустические колебания, т.н. сигналы. В качестве начала общения выступает формирование некого послания в голове диктора, которое он хочет передать слушателям. Оно преобразовывается в акустическое речевое колебание. Передаваемое таким способом сообщение можно охарактеризовать как дискретное, то есть его можно представить как последовательность символов с конечным числом. Эти символы называют фонемами. Через них речь можно перевести в двоичный код, который легко обрабатывается машиной.

Сущность обработки сигналов

Именно человек выступает источником информации при обработке речевых сигналов. Акустическое колебание измеряется или наблюдается с последующим описанием. Создается определённая модель, преобразующая полученные данные в необходимую форму. Заключительным этапом выступает выведение и применение информационного наполнения сигнала. Это может осуществляться через прослушивание человеком или путем обработки машиной.

Цифровое представление колебания основывается на сохранении стабильности формы колебания в процессе квантования и дискретизации. Параметрическое представление осуществляется через описание сигнала как отклика, получаемого на выходе модели образования речи. Речевое колебание после обработки преобразовывается в модель, созданную по его параметрам. Они разделяются на параметры возбуждения и голосового такта.

Речевая связь применяется в области цифровой передачи и хранения, синтеза речи, верификации и идентификации диктора, распознавании речи, устранении дефектов речи, улучшении качества речевого сигнала.

Цифровое представление речевых сигналов

Дискретизация речи заключается в преобразовании непрерывного потока в дискретную форму множества значений. То есть речь представляется в форме совокупности кодов. Речевое колебание, выступая непрерывной функцией, через дискретизацию становится последовательностью отсчетов, которые принимают форму непрерывного множества значений. Поток речи также подвергается квантованию, то есть разбиению ее непрерывного течения на диапазоны значений отсчетов с конечным числом уровней. То есть речь разбивается на отрезки по времени. И они, в свою очередь, дискретизируются – переводятся в цифровое значение.

Чтобы получить цифровое представление нужно проквантовать и продискретизировать каждый отдельно взятый отсчет до конечного множества значений. Эти два действия являются основой цифровой обработки речи.

Спектральные характеристики речевых сигналов

Сигнал можно представить в виде сумм синусоид и экспонент. Такое отображение называется Фурье-представлением. Причины, по которым этот метод эффективен:

  • Отклик легко определяется в линейных системах на суперпозицию синусоид или экспонент;
  • можно выявить скрытые или неочевидные свойства сигнала.

Интерпретировать полученные данные можно с помощью линейной фильтрации. В данном случае применяется линейный оператор к сигналу на входе, подавляя определенные частоты сигнала. Этот метод исключает шумы. Линейные фильтры бывают с бесконечной импульсной характеристикой (БИХ), и с конечной импульсной характеристикой (КИХ). БИХ фильтр образует обратную связь, КИХ-фильтр – нет.

При наложении двух функций образуется новая, позволяющая вывести коэффициенты или амплитуды при разложении исходной на гармонические колебания, являющиеся ее составляющими.

Спектрографическое отображение помогает визуализировать в рамках спектрограммы двумерное представление с отображением частоты и времени. В определенно взятый момент времени спектр меняется с частотой. Он состоит из пиков, соотносящихся с резонансными частотами тракта (т. н. формантами). Таким способом очень просто получить на практике данные о свойствах речи. Этот способ еще можно назвать визуализацией речи.

В случае узкополосного кратковременного преобразования Фурье усиление звуковой речи отображается через узкие пики на частотах, которые кратны основной частоте. Выделяется основной тон. Через спектральный анализ его легко вычленить методом визуализации спектрограмм.

Анализ через синтез заключается в анализе отдельно взятой системы, например, извлечения звуков и кратковременное преобразование Фурье. Обе модели имеют ряд параметров. Находятся такие позиции, которые наиболее отображают друг друга без искажений. Таким образом, при устранении погрешностей и неточностей получается новая модель, при которой параметры модели соответствуют параметрам речи.

Таким образом, программное обеспечение, позволяющее отцифровывать речь, представляет широкий практический интерес. Оно способно анализировать голос, изменять его параметры. Извлекать информацию из речи и переводить ее в другую систему кодов. Программы представляют бесконечное количество способов использования речи.

Авторизация
*
*

9 − четыре =

Регистрация
*
*
*

2 + 20 =

Генерация пароля

13 − одиннадцать =