Межкадровое кодирование с предсказанием

Внутрикадровое и межкадровое кодирование в MPEG.

В MPEG при обработке видеоданных применяются два типа сжатия: внутрикадровое и межкадровое кодирование.

Межкадровое кодирование основано на кодировании с предсказанием и интерполятивном кодировании. Кадры, последовательно «перехватываемые» из «живого» видео содержат множество идентичных данных. Не требуется кодировать весь кадр целиком (как при внутрикадровом кодировании). Достаточно закодировать лишь различия («дельты») в информации этих кадров. В результате намного увеличится степень сжатия. Такой тип межкадрового кодирования называется кодированием с предсказанием. Схема двунаправленного предсказания позволяет кодировать текущий кадр на основе различий между ним, предыдущим и следующим кадрами видеоданных. Этот тип межкадрового кодирования называется компенсирующим движение интерполятив-ным кодированием.

Для поддержки межкадрового и внутрикадрового кодирования поток данных MPEG содержит три типа закодированных кадров:

• I-кадры (внутрикадровое кодирование),

• Р-кадры (кодирование с предсказанием),

• В-кадры (двунаправленное кодирование).

В I-кадре записан один кадр видеоданных, который никак не связан с информацией любого другого кадра.

Р-кадр содержит различия между текущим кадром и предыдущим I- или Р-кадром.

В-кадр состоит из различий между текущим кадром и двумя (предыдущим и последующим) I- или Р-кадрами.

Типичная последовательность кадров в потоке MPEG выглядит так: IBBPBBPBBPBBIBBPBBPBBPBBI

Между каждым I-кадром располагаются двенадцать Р-кадров и В-кадров. Данные MPEG декодируются и отображаются не в том порядке, в котором кадры располагаются в потоке. Поскольку В-кадры связаны с двумя справочными кадрами (предыдущим и последующим), то последние должны быть декодированы раньше, чем можно будет декодировать и отобразить заключенный между ними В-кадр. В примере первым декодируется I-кадр. Однако, прежде чем декодировать следующие за ним два В-кадра, необходимо декодировать Р-кадр и сохранить его в памяти вместе с I-кадром. Только после этого можно будет декодировать два В-кадра, расположенных между этими I- и Р-кадрами. I-кадр сжимается с применением метода сжатия DCT (подобно JPEG). Если межкадровое кодирование уменьшает временную избыточность, то DCT-кодирование позволяет снизить избыточность пространственную. За счет объединения пространственной и временной составляющих кодировании вMPEG можно получить степень сжатия до 200:1.

В соответствии со стандартом MPEG, применение Р- и В-кадров не обязательно. Многие кодировщики MPEG считают Р- и В-кадры «излишеством» и кодируют только I-кадры. При этом каждый захваченный видеокадр сжимается и сохраняется целиком, подобно тому, как это делается в JPEG. Но степень сжатия файла MPEG, содержащего только I-кадры, значительно ниже, чем у такого же файла, закодированного с применением компенсации движения.

MPEG 1.

Первый MPEG стандарт появился в 1992 г. и был рассчитан па передачу видео по низкоскоростным сетям или для записи на компакт-диски (Video-CD). Максимально возможная скорость цифрового потока была изначально ограничена порогом в 150 Кбайт/с. Чтобы уложиться в заданные рамки, конечно, пришлось поступиться качеством, В MPEG1 разрешающая способность картинки снижена, по сравнению с разверткой вещательного телевидения, в 2 раза. То есть снижение разрешения автоматически делает внутрикадровую компрессию более грубой и как следствие — более заметными становятся ее последствия. Однотонные поверхности оказываются как бы составленными из рассыпающихся квадратиков, особенно назойливо квадратики «вылезают» на динамичных сценах. В целом качество фильмов в МРЕG 1 сравнимо с бытовой VНS-кассетой и полнометражный фильм можно уместить на 2 компакт-дисках, так что в середине просмотра предстоит их менять. По этим причинам, а также по причине прогресса цифровых технологий стандарт MPEG1 не успел получить большого распространения. От него остались в основном стандарты сжатия звука, существующие сегодня самостоятельно.

MPEG 2.

Прогресс в области цифровых технологий позволил существенно усовершенствовать процесс компрессии видеоданных. MPEG2 предназначался для обработки видеоизображения, соизмеримого по качеству с телевизионным вещательным, при пропускной способности каналов передачи данных от 3 до 15 Мбит/с.

Усовершенствования коснулись практически всех этапов «упаковки»; более того, появились операции, ранее не применявшиеся. К примеру, после разбивки видеопотока на кадры и группы кадров кодер анализирует содержимое очередного кадра на предмет повторяющихся, избыточных данных. Составляется список оригинальных участков и таблица повторяющихся участков. Оригиналы сохраняются, копии удаляются, а таблица повторяющихся участков используется при декодировании сжатого видеопотока. Значительное повышение плотности упаковки было также достигнуто благодаря применению во внутрикадровом сжатии нелинейного преобразования Фурье, взамен линейного. Оптимизации подвергся алгоритм предсказания движения, а также введены несколько новых, ранее не используемых алгоритмов компрессии видеоданных. В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720×576 при 25 кадрах в секунду при качестве, практическине уступающем вещательному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являются просто картинками и не имеют прямого отношения к исходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров. В части аудио в MPEG2, посравнению с MPEG 1, добавлена поддержка многоканального звука (Dolby Digital 5.1, DTS). Компьютерная техника 1992гг. не могла обеспечить и нужную полосу пропускания. Зато спутниковое телевидение с новейшим по тем временам оборудованием уже тогда готово было предоставить, канал передачи с необходимыми характеристиками. С появлением же в середине 90-х гг. цифрового многоцелевого диска DVD, обладающего в простейшей версии емкостью 4,7 Гб,он становится практически безальтернативным массовым носителем для распространения качественной кинопродукции, сжатой по стандарту MPEG2. Это обусловило массовое производство DVD-проигрывателей и, конечно, появление недорогих аппаратных кодеров/декодеров.

MPEG 3.

Стандарт MPEG3 первоначально разрабатывался для Использования в системах телевидения высокой четкости (High- definition Television, HDTV) со скоростью потока данных 20 – 40 Мбит/с. Но еще в процессе разработки стало очевидно, параметры, требуемые для передачи HDTV, вполне обеспечиваются использованием стандарта MPEG2 при увеличении скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.

MPEG 4.

В стандарте MPEG 4, полнившемся и самом конце 1999г., предложен более широкий взгляд на медиа-данные. Стандарт задаёт принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа, графических приложений (синтетического контента) и цифрового телевидения (DTV).

В МPEG 4 определен двоичный язык описания объектов, классов и сцен BIFS, который разработчики характеризует как «расширение C++». Картинка разделяется на составные элементы — медиа-объекты, описывается структура этих объектов и их взаимосвязи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объединенных в иерархическую структуру.

а) неподижные картинки (фон);

б) видеообъекты (говорящий человек);

в) аудиообъекты (голос, связанный с этим человеком);

г) текст, связанный с данной сценой;

д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например, синтезируется говорящая голова);

е) текст (например, связанный с головой), из которого в конце синтезируется голос. С точки зрения сжатия видеоматериалов стандарт MPEG4 является наиболее часто используемым стандартом, т.к. фильмы, сжатые по этому стандарту имея довольно приличное качество, умещаются на стандартном CD –диске (700 Мбайт). Алгоритм компрессии видео в стандарте MPEG4, в основном, работают по той же схеме, как и в предыдущих стандартах.Основное отличие алгоритма MPEG 4 от MPEG 2 заключаются в том, что применен интеллектуальный способ расстановки I- кадров. Также в отличие от предыдущих стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер оперирует целыми объектами произвольной формы. Фильмы на компакт-дисках с маркировкой МР4 уже давно появились в продаже, их можно смотреть на большинстве современных компьютеров вычислительной мощности которых достаточно для декодирования МР4-фильма в реальном масштабе времени. Можно и самому упаковать свое видео, установив программный DivX-кодер.

MPEG 7.

В конце 2001 года группа MPEG выпустила новый стандарт MPEG 7, который вовсе не является непосредственным продолжением линейки MPEG предшественников. MPEG 7 был разработан для формализации и стандартизации описания различных видов мультимедийной информации, а не ее кодирования, чтобы гарантировать эффективный и быстрый ее поиск. Официально новый стандарт называется Multimediа Content Description Interfаce- интерфейс описания мультимедийных данных. В нем определен стандартный набор дескрипторов для различных типов мультимедиа- информации. Этот стандарт призван обеспечить поиск мультимедийной информации аналогично тому, как сейчас осуществляется поиск текста по ключевым словам или фразе. Например,

· Музыка. Сыграв несколько нот на клавиатуре, можно получить список музыкальных произведений, которые содержат такую последовательность звуков;

· Графика. Нарисовав эскиз на экране, получим набор рисунков, содержащих подобный фрагмент.

· Картины. Определив объект (задав его форму и текстуру), получим перечень картин, в которых такой фрагмент содержится.

· Видео. Задав соответствующий объект и его движение, получим набор видео и анимационных роликов.

· Голос. Задав фрагмент голоса певца, получим набор песен и видеоклипов, где он поет.

Источник

Межкадровое кодирование с предсказанием

В ряде практически важных случаев, например, при передаче речи, телевизионных изображений и т. п., между отсчетами передаваемых сообщений имеются статистические, в частности, корреляционные взаимосвязи. Наличие таких взаимосвязей позволяет повысить эффективность систем передачи информации Рассмотрим один из распространенных способов передачи — способ передачи с предсказанием (рис. 7.5).

Рис. 7.5. Структурная схема системы связи с предсказыванием

Последовательность коррелированных отсчетов исходного сигнала подается на один из входов вычитающего устройства, а на его

другой вход поступает сигнал предсказания сформированный из предыдущих отсчетов. Полученный таким образом сигнал ошибки предсказания поступает в тракт передачи. Поскольку в сигнале ошибки как раз и содержатся новые сведения, представляющие разность между нстинпым и предсказанным значениями, то такой способ передачи называется передачей с предсказанием. Для упрощения считаем, что помехи в канале ошибок не создают. На приемном конце имеется такой же предсказатель, как и на передающем. Поскольку он оперирует с теми же предыдущими отсчетами, предсказанное им значение нового отсчета будет таким же, как и на пердатчике. Добавив к нему принятое значение ошибки предсказания можно восстановить истинный отсчет:

Очевидно, что чем сильнее корреляционные связи, тем точнее можно сформировать сигнал предсказания и, следовательно, тем меньшая энергия потребуется для передачи сигнала ошибки по сравнению с исходным сигналом. При сильных корреляционных связях, а также при марковских сообщениях значение может быть предсказано по одному предыдущему отсчету:

Обычно можно получить достаточно малую ошибку предсказания, положив просто

Действительно, для средней энергии сигнала ошибки по ансамблю имеем

где коэффициент корреляции между отсчетами. Из (7.23) следует, что при энергия сигнала ошибки Ее меньше энергии исходного сигнала

При цифровых системах передачи отсчеты сигнала ошибки подвергаются обычным операциям квантования и кодирования. Результатом такого преобразования на передающей стороне является импульсно-кодовое представление сигнала ошибки, или сигнал дифференциальной импульсно-кодовой модуляции (ДИКМ). В настоящее время известно большое число вариантов технического осуществления кодирования с предсказанием. Основное их различие сводится к различию операций формирования сигнала ошибки: в одних системах сигнал ошибки формируется в аналоговой форме, а затем кодируется, в других — в начале

кодируется исходный аналоговый сигнал, а затем формируется сигнал ошибки.

В системах с ДИКМ обычно применяют неравномерное квантование сигнала ошибки, так как наиболее вероятны малые ошибки. Поскольку мощность шума квантования составляет определенную долю мощности квантуемого процесса, а мощность ошибки предсказания, как правило, существенно меньше мощности сообщения, шум квантования при ДИКМ меньше, чем при обычной ИКМ при том же числе уровней.

Как показывает анализ, система ДИКМ обеспечивают одинаковое с ИКМ качество передачи при меньшем числе символов в кодовой комбинации (на один — два и более символов в зависимости от степени корреляции отсчетов).

Шум ложных импульсов также имеет место при ДИКМ, причем он ухудшает верность приема в большей мере, чем при обычной ИКМ. Дело в том, что ошибочный прием кодовой комбинации ведет к ошибочному приему не только одного отсчета сообщения, но и ряда последующих отсчетов, поскольку предсказанные значения на приемной стороне будут отличаться от предсказанных на передатчике. Поэтому допустимая вероятность ошибок при ДИКМ меньше, чем при следовательно, пороговая мощность сигнала выше. Существуют различные способы уменьшения влияния «размножения» ошибок.

Корреляция между отсчетами возрастает по мере сокращения интервала между ними. Поэтому при большой частоте дискретизации число уровней квантования сигнала ошибки можно уменьшить до двух и перейти к одноразрядным системам. Такой способ кодирования называют дельта-модуляцией.

Квантованный сигнал ошибки имеет вид

По существу, сигнал на выходе дельта-модулятора содержит лишь сведения о полярности (знаке) сигнала ошибки. На приемной стороне интегратор прибавляет или вычитает обеспечивая, таким образом, уменьшение погрешности между исходными значениями отсчетов и восстановленными значениями. Принцип формирования сигнала дельта-модуляции показан на рис. 7.6.

Рис. 7.6. Структурная схема системы с дельта-модуляцией

Отсчеты передаваемого сообщения сравниваются с квантованным отсчетом полученным в результате суммирования всех предыдущих квантованных сигналов ошибки:

Если квантователь формирует значение в противном случае Полученные символы 7 передаются по тракту связи (рис. 7.7б). Одновременно импульсы поступают на сумматор (интегратор) для формирования квантованного отсчета который, как указывалось выше, сравнивается с очередным отсчетом сообщения. На выходе сумматора квантованный сигнал имеет вид ступенчатой функции (рис. 7.7а). Каждый импульс увеличивает, а каждый импульс —1 уменьшает ступенчатую функцию на один шаг квантования (рис. 7.7а), т. е. при ДМ соседние значения ступенчатой функции различаются обязательно на величину одного шага квантования.

Рис. 7.7. Графики, поясняющие принцип формирования сигналов дельта-модуляции

Операцию декодирования сигнала ДМ на приемной стороне выполняет сумматор (интегратор), такой же, как и на передающей стороне, на выходе которого (при отсутствии ложных импульсов) получается ступенчатое напряжение После его сглаживания с помощью фильтра получим функцию достаточно близкую к

Разность представляет шум квантования.

Его величина тем меньше, чем выше частота дискретизации и чем меньше шаг

Рис. 7.8. График, поясняющий возниквовение искажений из-за перегрузки по наклону при дельта-модуляции

Однако шаг квантования нельзя выбирать чересчур малым. В противном случае возникают дополнительные искажения, называемые «перегрузкой по наклону», вызванные тем, что ступенчатая функция не успевает следить за быстрыми изменениями сообщения Это иллюстрирует рис. 7.8. Если принять, что максимальное значение крутизны изменения сообщения составляет макс» то для неискаженной передачи необходимо выполнить условие Если практически максимальное значение сообщения по модулю не превышает а число различных уровней квантования, определяющее шум квантования, равно то отсюда следует

По сравнению с ИКМ и ДИКМ сигналы ДМ имеют значительно более высокую частоту следования отсчетов. Однако на каждый отсчет при ДМ передается один импульс, а при ИКМ — несколько, в зависимости от числа уровней. Как показывает анализ, при одинаковой верности передачи частота следования импульсов при ИКМ и ДМ также примерно одинакова. Поэтому обе эти системы занимают приблизительно одинаковую полосу частот. Существенным преимуществом систем передачи с ДМ является сравнительная простота кодирующих и декодирующих устройств. Кроме того, шум ложных импульсов при ДМ меньше, чем при ИКМ (при той же вероятности ошибки в канале), поскольку при ДМ каждая ошибка изменяет уровень сигнала только на . К недостаткам ДМ можно отнести явление размножения ошибок, создаваемых ложными импульсами (такое же, как и при ДИКМ). а также возможность перегрузки по наклону.

Отметим, что в последние годы успешно разрабатываются многочисленные разновидности ДИКМ и ДМ, в частности адаптивные системы, в которых с целью уменьшения шумов квантования используется переменный шаг квантования в зависимости от текущих статистических характеристик передаваемого сообщения.

Источник