DisCollection.ru

Авторефераты и темы диссертаций

Поступления 18.03.2008

Материалы

загрузка...

Разработка метода и технических средств компандирования спектров речевых сигналов

Маркин Дмитрий Николаевич, 18.03.2008

 

В работе предложено речевые сигналы описывать функциями двух ступеней модуляционного разложения следующим образом –

где ?0(t) – природная несущая частота сигнала, ?d(t) – девиация мгновенной частоты сигнала, ?m(t) – модулирующая частота природной частотной модуляции сигнала. Описание речевого сигнала в виде сложно-модули-рованного процесса моделью (7) совпадает по виду с формулой при объединении классических амплитудной и частотной модуляций, при модуляции гармоническими сигналами

Разница в том, что в формуле (7) все параметры сигнала являются функциями времени, а в модели (8) – постоянными величинами.

Разработан способ и устройство для двухступенного модуляционного разложения речевых сигналов в соответствии с их представлением моделью (7). Структурная схема разработанного способа представлена на рис. 5. Для двухступенного модуляционного разложения РС предлагается последовательно выполнить два раза процедуру неполного модуляционного анализа сигнала. Приведены характеристики и описание работы отдельных блоков и узлов разработанного устройства для выполнения двух ступеней модуляционного разложения речевых сигналов.

В четвертой главе, прежде всего, экспериментально определены условия выполнения второй ступени модуляционного разложения РС: 1) оп-

Рис. 5. Структурная схема устройства для двухступенного модуляционного разложения речевых сигналов. А1, А2 – первый и второй анализаторы; ДО1, ДО2 – детекторы огибающей; ДКФ1, ДКФ2 – детекторы косинуса фазы; ФВЧ – фильтр высоких частот с граничной частотой 15 Гц; Выч – вычитатель

ределены оптимальные с точки зрения обеспечения качества передачи речи параметры и схема устройства для двухступенного модуляционного разложения РС; 2) экспериментально установлено, что преобразование Гильберта огибающей РС необходимо выполнять в полосе частот приблизительно 15Гц – 4кГц (при ограничении спектра речевого сигнала верхней граничной частотой 4кГц); 3) установлено, что для обеспечения коммерческого качества передачи речи (не ниже первого класса качества по ГОСТ Р 50840 – 95) при двухступенном модуляционном разложении необходимо передавать низкочастотную часть огибающей РС Sнч(t).

Экспериментально исследованы спектральные и информационные свойства огибающей, косинуса фазы и мгновенной частоты огибающей РС. Установлено, что верхние границы спектров огибающей и косинуса фазы огибающей близки к верхней границе спектра самого сигнала. Также установлено, что модулирующие частоты природных частотных модуляций сигнала и его огибающей в значительной степени совпадают. Часть информации дублируется в модулирующих функциях второй ступени модуляционного разложения речевого сигнала.

Для некоторых фонем русского языка, для мужского и женского голосов проведено измерение основных параметров (при описании моделью частотной модуляции) мгновенной частоты речевого сигнала и мгновенной частоты огибающей сигнала. Исследование мгновенной частоты огибающей РС выполнено впервые. Экспериментально установлено, что: во-первых, модулирующие частоты природной частотной модуляции гласных фонем русского языка могут принимать значения превышающие 1 кГц, во-вторых, для всех фонем русского языка природная несущая частота сигнала превышает несущую частоту огибающей сигнала, в-третьих, несущие частоты звуков русской речи могут принимать значения приблизительно от ста герц до нескольких килогерц, а модулирующие частоты – приблизительно от семидесяти герц до нескольких килогерц, причём низким модулирующим частотам соответствуют низкие значения несущей частоты.

Теоретически и экспериментально исследовано влияние ограничения сверху спектра косинуса фазы сигнала без деления мгновенной частоты и с делением мгновенной частоты. Установлено, что при соответствующем подборе коэффициента деления мгновенной частоты и верхней граничной частоты фильтра низких частот ограничение сверху спектра косинуса фазы с деленной мгновенной частотой после восстановления масштаба мгновенной частоты эквивалентно ограничению сверху спектра мгновенной частоты, при этом сохраняется величина природной несущей частоты и часть модулирующих частот природной частотной модуляции сигнала.

В работе для сжатия спектра РС на базе математической модели модуляционной теории при устранении психофизической избыточности сигнала предложена новая психоакустическая модель, учитывающая особенности слухового восприятия модулированных по амплитуде и частоте сигналов. Ранее( было экспериментально установлено, что человеческий слух различает амплитудную и частотную модуляции только в пределах одной частотной группы (в случае равенства несущих и модулирующих частот амплитудной и частотной модуляций, когда энергетические спектры частотно- и амплитудно- модулированного сигналов совпадают). На рис. 6 представлена экспериментально полученная зависимость слухового различения амплитудной и частотной модуляций от значения несущей

Рис. 6. Зависимость граничной частоты слуховой дифференциации амплитудной и частотной модуляций от несущей частоты (по [Цвикер Э., Фельдкеллер Р. Ухо как приёмник информации. – М.: Связь, 1971, с. 190])

В области спектральных частот, где сосредоточена основная часть энергии речевых сигналов (100 – 3000 Гц) ширина критической полосы чувствительности к разнице амплитудной и частотной модуляций составляет приблизительно 50 – 250 Гц (рис. 6), для бoльшей части значений модулирующих частот природных модуляций речевых сигналов спектральные продукты амплитудной и частотной модуляций выходят за пределы одной частотной группы, то есть не различаются на слух.

Экспериментально установлено, что при сохранении информации о величине природной несущей частоты незаметно для человеческого слуха можно подменить природную частотную модуляцию речевых сигналов их природной амплитудной модуляцией, так как их модулирующие частоты в значительной степени совпадают, а спектральные продукты выходят за пределы одной частотной группы.

На основе экспериментально полученных данных о свойствах функций двух ступеней модуляционного разложения РС и предложенной психоакустической модели разработан способ и устройство компандирования спектра РС (структурная схема которого изображена на рис. 7) при делении мгновенной частоты сигнала и его огибающей и ограничении сверху спектров огибающей огибающей, косинусов фазы сигнала и огибающей с деленными мгновенными частотами. При такой обработке сигнала частично ограничивается сверху спектр частотно-модулирующей функции сигнала, сохраняется информация о величине природной несущей частоты РС и ее изменении при переходе от одного звука речи к другому. Информация о природных модулирующих частотах речевого сигнала передается, в основном, в амплитудно-модулирующей функции РС, чей спектр сжимается на передающей стороне и восстанавливается на приемной стороне. На приемной стороне часть модулирующих частот природной частотной модуляции незаметно для слуха подменяется модулирующими частотами природной амплитудной модуляции сигнала. На разработанные способ и устройство получен патент РФ на изобретение.

Рис. 7. Структурная схема способа компандирования спектра речевых сигналов при обработке модулирующих функций двух ступеней модуляционного разложения. А1, А2 – первый и второй анализаторы (рис. 5); ДЧ1, ДЧ2 – делители мгновенной частоты в 32 раза; ФНЧ1, ФНЧ2, ФНЧ3 – фильтры низких частот; КУ – комбинирующее устройство; РУ – распределительное устройство; УЧ1, УЧ2 – умножители мгновенной частоты в 32 раза; СИНТЕЗАТОР – синтезатор, состоящий из двух перемножителей и сумматора

На передающей стороне сигнал разделяется на функции: Sнч(t), cos?S(t), cos?(t). После этого мгновенная частота сигнала и его огибающей делится в 32 раза, спектры косинусов фазы сигнала и его огибающей после деления мгновенной частоты ограничиваются сверху с помощью фильтров низких частот, полученные таким образом функции после их объединения методами вторичного уплотнения в комбинирующем устройстве передаются по каналу связи. На приемной стороне восстанавливается масштаб мгновенных частот сигнала и его огибающей, после чего по формуле

формируется репродукция речевого сигнала.

На рис. 8 приведена измеренная зависимость слоговой разборчивости речи от полосы частот канала связи при компандировании спектра РС разработанным способом (2). По этим результатам оценена эффективность разработанного способа компандирования спектра речевых сигналов.

Рис. 8. Зависимость слоговой разборчивости речи от полосы частот канала связи при сжатии спектра речевого сигнала разработанным способом

Сжимая спектр РС разработанным способом, полосу частот канала связи можно сократить примерно до 220 Гц, слоговая разборчивость при этом составит не ниже 86%, что соответствует первому классу качества речи по разборчивости в соответствии с ГОСТ Р 50840 – 95 для систем передачи речи с пониженными скоростями.

ЗАКЛЮЧЕНИЕ

На основе результатов экспериментальных исследований сделаны выводы, что для обеспечения коммерческого качества передачи речи (не ниже первого класса качества в соответствии с ГОСТ Р 50840 – 95) и решения задачи эффективного компандирования спектра речевых сигналов на основе модуляционной теории необходимо передавать огибающую и косинус фазы, и сжимать спектры огибающей, и косинуса фазы сигнала.

Экспериментально установлено, что модулирующие частоты природной амплитудной и природной частотной модуляций речевых сигналов в значительной степени совпадают.

Для сжатия спектра речевых сигналов на основе модуляционной теории при устранении психофизической избыточности сигнала предложена новая психоакустическая модель, учитывающая особенности слухового восприятия модулированных по амплитуде и частоте процессов. Человеческий слух различает амплитудную и частотную модуляции только в пределах одной частотной группы слуха.

Экспериментально установлено, что при сохранении информации о величине природной несущей частоты речевых сигналов можно незаметно для слуха подменить модулирующие частоты природной частотной модуляции на аналогичные модулирующие частоты природной амплитудной модуляции речевых

На основе предложенной психоакустической модели разработан способ и устройство компандирования спектра речевых сигналов при обработке их модулирующих функций двух ступеней модуляционного разложения: при ограничении сверху спектра природной частотно-модули-рующей функции сигнала, сохранении информации о величине природной несущей частоты сигнала и сжатии спектра природной амплитудно-модулирующей функции сигнала. Информация о природной модуляции речевого сигнала передается, в основном, в его природной амплитудно-модулирующей функции. На приемной стороне незаметно для слуха недостающие модулирующие частоты природной частотной модуляции речевого сигнала заменяются аналогичными модулирующими частотами природной амплитудной модуляции сигнала. На разработанные способ и устройство для его реализации получен патент РФ на изобретение.

Разработанный способ компандирования спектра речевого сигнала позволяет сократить полосу частот, требуемую для передачи речи по каналу связи с качеством не ниже первого класса по разборчивости в соответствии с ГОСТ Р 50840 – 95 (для систем передачи речи с пониженными скоростями), примерно до 220 Гц. Выигрыш в полосе частот канала связи при этом составляет около 15 раз (по отношению к полосе 3400 Гц, принятой для телефонных сетей общего пользования). При менее жестких требованиях к качеству речи и более высоких требованиях к степени компрессии (например, в частных коммерческих и специализированных системах связи) полосу частот канала связи можно сократить еще больше, например, приблизительно до 170 Гц, то есть в 20 раз, обеспечивая при этом второй класс качества по разборчивости речи в соответствии с ГОСТ Р 50840 – 95 (для систем передачи речи с пониженными скоростями).

Результаты диссертационного исследования внедрены в учебный процесс и научно-исследовательскую работу Института ФСБ России (г. Санкт-Петербург) и кафедры акустики Санкт-Петербургского государственного университета кино и телевидения, а также в НИР ООО «Неватон».

В диссертации поставлена и решена актуальная научно-техническая задача в области преобразования речевых сигналов. На основании выполненных исследований в диссертации изложены научно обоснованные технические разработки, имеющие значение для экономики страны. Разработаны способ и устройство компандирования спектра речевых сигналов при обработке их модулирующих функций двух ступеней модуляционного разложения.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНО В СЛЕДУЮЩИХ РАБОТАХ

Маркин Д.Н., Уваров В.К. К вопросу о необходимой точности настройки звеньев фазовращателя в канале модуляционного анализа-синтеза// Проблемы развития кинематографа и телевидения/Сборник научных трудов СПбГУКиТ, Вып. 18. – СПб.: Изд. СПбГУКиТ, 2005. С. 69 – 79.

Маркин Д.Н., Уваров В.К. Результаты новых исследований на основе модуляционной теории звуковых сигналов/В сб. Факультету аудиовизуальной техники – 75 лет. – СПб.: Изд. СПбГУКиТ, 2005. С. 36 – 41.

Маркин Д.Н., Уваров В.К. О применении преобразования Гильберта к звуковым сигналам. Деп. рук. № 186кт-Д07, ОНТИ НИКФИ, 2007. – 12 с.

Маркин Д.Н., Уваров В.К. Актуальность исследования свойств модулирующих функций огибающей речевых сигналов. Деп. рук. № 183кт-Д07, ОНТИ НИКФИ, 2007. – 22 с.

Маркин Д.Н., Уваров В.К. Результаты исследований, подтверждающих возможность технической реализации второй ступени модуляционного разложения речевых сигналов. Деп. рук. № 185кт-Д07, ОНТИ НИКФИ, 2007. –

Маркин Д.Н., Уваров В.К. Математическая модель огибающей речевых сигналов и способ реализации второй ступени модуляционного разложения речевого сигнала. Деп. рук. № 187кт-Д07, ОНТИ НИКФИ, 2007. – 14 с.

Маркин Д.Н., Уваров В.К. Обзор исследований, посвящённых решению задачи сжатия спектра речевых сигналов на основе модуляционных представлений. Деп. рук. № 182кт-Д07, ОНТИ НИКФИ, 2007. – 24 с.

Маркин Д.Н., Уваров В.К. Результаты практических исследований соотношений между спектрами сигнала, его огибающей, косинуса фазы и мгновенной частоты. Деп. рук. № 181кт-Д07, ОНТИ НИКФИ, 2007. – 32 с.

Маркин Д.Н., Уваров В.К. Результаты практических исследований информационных свойств огибающей и косинуса фазы речевых сигналов. Деп. рук. № 188кт-Д07, ОНТИ НИКФИ, 2007. – 28 с.