Глава1 Кодеры формы.
Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. Кодеры формы не являются специфичными для речи в том смысле, что они с успехом работают с любой формой входного сигнала, и их применение ограничено только пределами амплитуды и шириной полосы. Сохраняя огибающую формы сигнала, подобные кодеры работают по принципу выборка-выборка, и их характеристики эффективно измеряются отношением сигнал/шум (ОСШ), так как квантование является основным источником искажений формы выходного сигнала.
ИКМ — первый мировой стандарт кодирования речи со скоростью 64 кбит/с с логарифмическим сжатием (по μ-закону для Северной Америки и А-закону для Европы). ИКМ-кодер является кодером формы и все еще широко используется в цифровых системах. ИКМ со скоростью 64 кбит/с в основном используется как предварительное звено низкоскоростных речевых кодеров, поскольку ее характеристики считаются очень высококачественными. Позже был разработан стандарт на адаптивную дифференциальную ИКМ (АДИКМ) со скоростью 32 кбит/с. Снижение скорости цифрового потока наполовину было достигнуто благодаря использованию адаптивного предсказания и адаптивных квантователей для устранения избыточности речи. Некоторые другие кодеры, например с дельта-модуляцией и плавно изменяющейся крутизной (CVSDM — Continuous Variable Slope Delta Modulation) на скорости 32 кбит/с, используются для решения специфичных задач. Хотя подобные высокоскоростные алгоритмы кодирования малоэффективны, они, тем не менее, остаются самыми эксплуатируемыми системами и, возможно, будут оставаться таковыми еще некоторое время.
Импульсно-кодовая модуляция ИКМ (РСМ – Pulse Code Modulation). Рекомендация G.711 При построении систем цифровой передачи непрерывных сообщений принципиальным моментом является определение полосы частот, требуемой для обеспечения заданного качества воспроизведения переданного сообщения. Вообще говоря, для высококачественной передачи речевого сообщения требуется полоса не менее 10 кГц.
Однако для достижения удовлетворительного уровня разборчивости при передаче речи по телефонным каналам достаточно передать спектр в полосе 300...3400 Гц. Именно такой спектр звуковых частот обычно передается в современных системах передачи речевой информации.
Как правило, максимальная частота передаваемого спектра аудиосигнала выбирается равной ,а частота дискретизации (например, рекомендации G.711, G.721), хотя в ряде случаев с целью повышения качества передачи используются и более высокие значения этих величин (например, рекомендация G.722).
При использовании ИКМ дискретизированное сообщение подвергается квантованию по L уровням (рис. 1.1), в результате чего каждому значению ставится в соответствие число , , представленное n-разрядной комбинацией двоичного кода.
Для достижения приемлемого качества восприятия восстановленного речевого сообщения при равномерном (простом) квантовании необходимо . Столь большое число уровней квантования при требует скорости передачи символов в канале не менее .
Рисунок 1.1
Однако в связи с тем, что при восприятии речи человеческим ухом в области больших мгновенных значений оказываются допустимыми значительно большие искажения сообщения, чем в области малых мгновенных значений, требуемое число уровней квантования может быть существенно снижено путем использования неравномерного квантования, используя компрессию исходного сообщения по логарифмическому закону с последующим равномерным квантованием при сравнительно малом числе уровней (например, при или путем соответствующего цифрового преобразования (цифровой компрессии) сообщения, предварительно преобразованного в цифровую форму при сравнительно большом исходном числе уровней квантования (например, при ).
Оптимальный квантователь имеет преимущества, если динамический диапазон входного сигнала фиксирован и достаточно мал. ............