Актуальность темы В настоящее время обработка аналоговых сигналов с использованием цифровых методов все шире используется для решения множества прикладных задач в связи, измерительной технике, медицине и других областях, в которых прежде доминировали аналоговые системы. Преимущества цифровых систем обусловлены рядом факторов. Прежде всего, это фактор качества. Аналоговые реализации зачастую не позволяют обеспечить высоких показателей качества передачи и воспроизведения сигнала, а переход на мировые стандарты ужесточает требования, предъявляемые к таким параметрам систем, как помехоустойчивость, точность, быстродействие. Если раньше основным сдерживающим фактором внедрения методов цифровой обработки было отсутствие требуемой элементной базы, то при современном уровне развития вычислительной техники об этом говорить уже не приходится. Цифровые методы, реализованные на современной элементной базе, находят все большее применение в различных областях обработки данных. В частности, в задачах обработки звуковых сигналов применение цифровых систем имеет ряд преимуществ по сравнению с аналоговыми методами: Хорошая стабильность и воспроизводимость. Характеристики цифровых цепей никак не меняются от устройства к устройству, тогда как две аналоговые цепи, например, использующие одни и те же элементы, могут работать по разному: Отсутствие таких дестабилизирующих факторов, присущих аналоговым устройствам как температурный и временной дрейф, разброс параметров, воздействие наводок и помех. Свойства и характеристики аналоговых цепей, состоящих из резисторов, конденсаторов, диодов и других операционных усилителей, изменяются с температурой. Старение перечисленных деталей также влияет на эксплуатационные качества и работу аналоговых систем обработки. Гибкость - возможность программной реализации алгоритмов обработки звуковой информации и изменение параметров аппаратуры; Возможность создание адаптивных систем с перестраиваемой структурой; Простота настройки и повышение метрологических характеристик без использования трудоемких и прецизионных операций (подгонка образцовых резисторов). Точность - степень точности определяется количеством используемых разрядов и гарантированно остается неизменной, в отличие от аналоговых цепей, точность результатов которых может меняться очень широко от цепи к цепи; Цифровые методы позволяют не только повысить метрологические показатели по сравнению с аналоговыми приборами, но и максимально автоматизировать процесс измерения и обработки. Специальные функции - некоторые специальные функции обработки сигналов могут быть реализованы только цифровыми методами. Аналоговая электроника просто не может выполнять их эффективно. Указанные преимущества от применения цифровых методов находят свое полное подтверждение в области обработки звуковой информации для измерения параметров звуковых сигналов при их воспроизведении с аппаратуры магнитной записи звука. Такие параметры, как колебания скорости (КС) и детонация звука являются одними из важнейших характеристик звуковой аппаратуры, определяющих качество звучания фонограммы [14,22]. Колебания скорости возникают из-за не идеальности изготовления элементов лентопротяжного механизма; они, в свою очередь, приводят к появлению паразитной частотной модуляции сигнала - детонации с разной частотой. Колебания скорости и детонацию измеряют аналоговым прибором -детонометром. В разрабатываемых в последнее время цифровых системах контроля за указанными параметрами измерение КС и детонации также возложено на аналоговую технику [4]. Применение для измерений подобных аналоговых приборов обусловливает ряд существенных недостатков, среди которых основным является невысокая точность измерений. Эти недостатки можно полностью исключить при использовании цифровых технологий и повысить при этом качество, надежность и достоверность как хранения, так и обработки звуковой информации. Однако, в настоящее время не разработаны необходимые методы и алгоритмы для реализации на ПЭВМ с целью измерения указанных параметров в реальном масштабе времени. Основная трудность состоит в необходимости обработки больших объемов оцифрованных данных звукового сигнала. Поэтому возникает актуальная задача создания специального математического и программного обеспечения обработки звуковой информации во временной и частотной областях для измерения названных параметров в реальном масштабе времени с учетом заданных требований по точности и достоверности, а также по визуализации результатов. Как уже отмечалось, специальные функции обработки сигналов могут быть реализованы только цифровыми методами. К таким функциям относятся методы сжатия звуковых сигналов. Сжатие применяется для уменьшения количества бит, используемых для представления данных. Полученное в результате сжатия компактное представление данных эффективно для организации хранения данных с точки зрения уменьшения объема занимаемого пространства на носителях информации. Сжатие данных, в частности речевых сигналов, позволяет улучшить эффективность использования полосы пропускания канала передачи. При цифровом представлении речевого сигнала считается достаточным рассматривать полосу сигнала до 4000 Гц, следовательно, согласно теореме отсчетов дискретизация сигнала осуществляется с частотой взятия выборок (отсчетов) сигнала равной 8000 Гц [10, 11]. Для получения цифрового, т.е. дискретного по амплитуде и по времени, представления необходимо проквантовать каждый отсчет до конечного множества значений. Для цифрового представления речевого сигнала принято использовать 28 значений амплитуды, т.е. отводить 8 бит на отсчет. Тогда скорость передачи речевого сигнала составит 8000 8 = 64000 бит в секунду (бит/сек.). Для передачи данного сигнала требуется канал передачи с широкой полосой пропускания. Также известно, что средства передачи дороги, и в общем случае, чем шире их полоса, тем дороже они стоят. Тогда под эффективностью использования полосы пропускания канала передачи подразумевается передача сигналов с наиболее возможной скоростью по относительно дешевым линиям связи (с узкой полосой пропускания). В результате применения методов сжатия речевых сигналов, реализованных в виде специальных средств кодирования (на входе, перед передачей), а затем декодирования (восстановления на выходе, после передачи) достигается низкая скорость передачи и, следовательно, для передачи требуются более дешевые, доступные средства связи. Еще одним преимуществом от использования сжатия является уменьшение времени передачи данных. Особенно это актуально при использовании дорогих средств связи, когда за переданный трафик взимается определенная плата. Использование методов сжатия позволяет передать большой объем данных за меньшее время. Таким образом, компрессия речевых сигналов приводит к удешевлению услуг связи, к возможности создания речевой коммуникации по компьютерным сетям. Кроме того, интерес к системам компрессии возникает в военной области и других ведомствах для обеспечения закрытой связи [9]. Активно развивающаяся в последнее время теория вейвлет-преобразования [3,8,17, 18,21,40,41,43] позволяет применять эффективные с вычислительной точки зрения алгоритмы и методы спектрально-временного анализа для обработки информации во многих областях исследований. В частности, в такой актуальной на сегодняшний день области, как сжатие речевых сигналов. В большинстве устройств и приложений, реализующих компрессию речи, используются следующие два основных подхода [9]: кодирование формы волны речевого сигнала, позволяющее достичь относительно небольшой степени сжатия, и параметрическое кодирование. Методы параметрического кодирования позволяют достичь достаточно больших степеней сжатия с приемлемым качеством восстановленной речи, однако требуют для своей реализации больших вычислительных затрат. В настоящий момент не существует стандартов компрессии речи, использующих в той или иной степени методы теории вейвлет-анализа, т.е. спектрально-временных методов обработки информации, особенностями которых является, в частности, и высокая эффективность в вычислительном отношении. Таким образом, разработка и применение спектрально-временных методов и алгоритмов в задачах обработки звуковых сигналов и компрессии речевых сигналов является актуальной темой исследования и ее выполнение позволит повысить эффективность и качество как систем обработки звуковой информации в области измерения параметров частотно-модулированных сигналов, так и систем компрессии речи в таких областях как речевая справочная служба, Интернет, беспроводная связь. Цели и научные задачи Целью работы является разработка математических методов и алгоритмов цифровой обработки звуковой информации для измерения коэффициентов колебаний скорости и детонации, а также компрессии речевых сигналов для их хранения и передачи по каналам с ограниченной полосой пропускания. Для достижения этой цели в диссертации выполнена разработка метода и программно-реализуемого алгоритма измерения коэффициентов КС носителя магнитной записи и детонации звука в реальном масштабе времени; - методов компрессии речевых сигналов на основе применения дискретного вейвлет-преобразования; - программного обеспечения для компрессии речевых сигналов. Методы исследования Для решения названных задач использованы методы спектрального анализа, цифровой обработки сигналов, линейного предсказания, сжатия информации дискретного вейвлет-преобразования. Положения, выносимые на защиту Метод и алгоритм обработки звуковой информации для измерения в реальном масштабе времени параметров КС носителя магнитной записи и детонации звука в аппаратуре звукозаписи и воспроизведения. Метод основан на цифровом спектральном разложении звукового сигнала и оценке параметров частотных составляющих. Программное обеспечение системы обработки звуковых сигналов для проведения измерений коэффициентов КС и детонации в реальном масштабе времени.
3. Методы компрессии речевых сигналов на основе вейвлет- преобразования, обеспечивающие высокое качество их восстановления при малых затратах вычислительного ресурса. Научная новизна 1. Метод обработки звуковой информации для измерения параметров КС и детонации включает новое алгоритмическое решение, заключающееся в переносе на величину несущей частоты спектра, низкочастотной фильтрации и децимации анализируемого звукового сигнала, что позволяет сократить объем обрабатываемой информации без снижения точности и обеспечить обработку в реальном масштабе времени. 2. Метод компрессии речевых сигналов, в отличие от известных, построен на основе оптимизации параметров сжатия с использованием дискретного вейвлет-преобразования, что обеспечивает варьирование длиной сегментов сигналов и сокращение числа операций, необходимых для их сжатия и воспроизведения. 3. Метод сжатия остаточного сигнала, основанный на использовании вейвлет-преобразования при линейном предсказании речевых сигналов. Метод обеспечивает существенное повышение степени сжатия по сравнению с известными, основанными на децимации остаточного сигнала и последующим его кодированием. Теоретическая значимость Теоретическая значимость работы заключается в развитии методов обработки и компрессии звуковой информации, основанном на внедрении вейвлет-анализа, быстрого дискретного вейвлет-преобразования в задачах восстановления и передачи речевых сигналов. Практическая значимость Метод обработки звуковой информации для измерения коэффициентов КС и детонации представляет собой определенный вклад в развитие программно-реализуемых методов обработки в реальном масштабе времени на базе измерения параметров частотно-модулированных сигналов и может служить основой для проведения исследований по измерению указанных параметров не только для аппаратуры звукозаписи, но и для аппаратуры видеозаписи и воспроизведения. Разработанное программное обеспечение системы обработки звуковой информации может быть использовано в такого рода организациях, которые занимаются эксплуатацией и ремонтом звукозаписывающего и звуковоспроизводящего оборудования, киностудий, студий телевидения и звукозаписи, киноремонтных мастерских, предприятиях, занимающихся производством магнитофонов и звукотехнической аппаратуры. Методы компрессии речи, основанные на дискретном вейвлет-преобразовании, в силу своей эффективности в вычислительном отношении, могут быть использованы для организации передачи речевой информации по компьютерным сетям, в частности, в Интернет. Достоверность и обоснованность Достоверность и обоснованность научных результатов базируются на корректном использовании методов цифровой обработки сигналов и теории вейвлет-анализа. Достоверность измерений коэффициентов КС и детонации обеспечивается математическим обоснованием разработанных методов. Достоверность и обоснованность результатов компрессии речевых сигналов подтверждена проведением вычислительных экспериментов в широком диапазоне условий. Апробация работы Приведенные в диссертации результаты представлялись автором на Шестой научно-техн. конференции «Современное телевидение», Москва, 1998 г. Седьмой научно-техн. конференции «Современное телевидение», Москва, г. Восьмой научно-техн. конференции «Современное телевидение», Москва, 2000 г. XXVI военно-научной конференции, Тверь, 2 ЦНИИ МО РФ, г. Девятой научно-техн. конференции «Современное телевидение», Москва, 2001 г. Десятой научно-техн. конференции «Современное телевидение», Москва, 2002 г. Одинадцатой научно-техн. конференции «Современное телевидение», Москва, 2003 г.
Публикации Основные результаты диссертационной работы и отдельные положения опубликованы в двенадцати печатных работах. Структура диссертации Диссертация состоит из введения, трех глав, заключения, перечня библиографических источников и приложений. Работа изложена на 145 листах. Перечень библиографических источников включает 77 наименований. В первой главе выполнена постановка задач на разработку спектрально-временных методов и алгоритмов обработки звуковой информации, а также представлены спектрально-временные методы обработки звуковой информации для осуществления компрессии речевых сигналов и для измерений колебаний скорости носителя магнитной записи и детонации звука. Во второй главе изложен программно-реализуемый алгоритм и программное обеспечение для измерения коэффициентов колебаний скорости носителя магнитной записи и детонации звука в реальном масштабе времени. В третьей главе описана реализация методов компрессии речевых сигналов в виде специального программного обеспечения для исследования и оптимизации в интерактивном режиме разработанных методов. В приложениях 1-5 представлены основные функции в виде набора ш-файлов системы Matlab, представляющие реализацию методов компрессии речевых сигналов.
|