автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Разработка и исследование методов и алгоритмов адаптивного транскодирования видеопотоков MPEG

кандидата технических наук
Шнёль, Маттиас
город
Санкт-Петербург
год
2003
специальность ВАК РФ
05.12.04
Диссертация по радиотехнике и связи на тему «Разработка и исследование методов и алгоритмов адаптивного транскодирования видеопотоков MPEG»

Текст работы Шнёль, Маттиас, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

"Г ^ 7 f) •)

1_/ i V с '

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И.Ульянова (Ленина)

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ АДАПТИВНОГО ТРАНСКОДИРОВАНИЯ ВИДЕОПОТОКОВ MPEG

Специальность: 05.12.04 - Радиотехника, в том числе системы и устройства радионавигации, радиолокации и телевидения

Диссертация

на соискание ученой степени кандидата технических наук

На правах рукописи

Маттиас Шнёль

Научный руководитель -доктор технических наук, профессор Быков Р. Е.

Научный консультант профессор Хедтке Р.

Санкт-Петербург - 2003

Sankt-Petersburger Staatliche Elektrotechnische Universität „Leti"

Ausarbeitung und Forschung von Methoden und Algorithmen zur Adaptiven Transcodierung von MPEG Videoströmen

Das Fachgebiet: 05.12.04 - Die Radiotechnik einschließlich des Systems und der Radionavigation, der Radiolocation und des Fernsehens

Dissertation zum Erwerb des Titels eines Kandidaten der technischen Wissenschaften

Manuskript

Matthias Paul Schnöll

Der wissenschaftliche Leiter

Dr. Sc., Ph. D. Professor Robert E. Bykov

Der wissenschaftliche Konsultant

Prof. Dr.-Ing. Rolf Hedtke

Sankt - Petersburg - 2003

Inhaltsverzeichnis

Einleitung......................................................................................................................................................................................................................4

1 Digitale Bildcodierung..........................................................................................................................................................................7

1.1 Videoquellencodierung............................................................................................................................................7

1.2 Grundlagen der Transformationscodierung..............................................................................9

1.2.1 Die Diskrete Cosinus Transformation..................................................................................10

1.2.2 Die Quantisierung..............................................................................................................................................13

1.2.3 Redundanzreduktion....................................................................................................................................15

1.3 Hybride Videocodierung........................................................................................................................................18

1.4 Standards zur Bildsequenzcodierung................................................................................................19

1.4.1 H.261 Standard....................................................................................................................................................19

1.4.2 H.263 Standard....................................................................................................................................................21

1.4.3 MPEG-2 Standard............................................................................................................................................22

1.4.4 MPEG-4 Standard............................................................................................................................................40

2 Systemarchitekturen der MPEG-Transcodierung......................................................................................47

2.1 Transcodierung in der Bildebene..............................................................................................................48

2.2 Transcodierung in der Frequenzebene..........................................................................................52

2.2.1 Der driftbehaftete Transcoder..........................................................................................................53

2.2.2 Der driftfreie Transcoder..........................................................................................................................55

2.3 Transcodervergleich....................................................................................................................................................57

3 Methoden zur Reduzierung der Datenrate in Frequenzebene..............................................58

3.1 Methoden zur Bildmanipulation..................................................................................................................58

3.1.1 Skalare Addition..................................................................................................................................................59

3.1.2 Skalare Multiplikation....................................................................................................................................60

3.1.3 Pixeladdition..............................................................................................................................................................61

3.1.4 Pixelmultiplikation..............................................................................................................................................62

3.1.5 Matrixmultiplikation..........................................................................................................................................65

3.2 Reduzierung der Datenrate durch Veränderung der GOP-Struktur.. 66 3.2.1 Eliminieren hochfrequenter DCT-Koeffizienten....................................................68

3.3 Reduzierung der Datenrate durch Veränderung der Bildauflösung.. 72

3.3.1 Halbierung der räumlichen Auflösung in der Bildebene..........................72

3.3.2 Halbierung der räumlichen Auflösung in der Frequenzebene.... 74

3.3.3 Reduzierung der Chrominanzauflösung in der Frequenzebene. 76

3.4 Modifikation des mquant-Wertes zur Datenratenreduzierung......................78

3.5 Optimierung der Bitratenregelung..........................................................................................................81

4 Anwendung der MPEG-Transcoder-Toolbox und

Beurteilung der Bildqualität..........................................................................................................................................................84

4.1 Integration der MPEG-Transcoder-Toolbox im Broadcastbereich..........84

4.1.1 Modifizierter Intra-Frame Frequenztranscoder mit Modulen der

MPEG-Transcoder-Toolbox..............................................................................................................85

4.2 Betrachtung der Bildqualität............................................................................................................................87

4.2.1 Peak-Signal to Noise Ratio..................................................................................................88

4.2.2 Digitale Bildfehler............................................................................................................................84

4.2.3 Die Testsequenzen......................................................................................................................92

4.2.4 Bildqualität in Abhängigkeit von unterschiedlichen Sequenzen. 92

4.3 Ergebnisse der Optimierung des mqunat-Wert..................................................................93

4.4 Ergebnisse der MPEG-2 auf MPEG-4 Transcodierung..........................................95

4.4.1 Messung mit fester MPEG-4 Datenrate............................................................................95

4.4.2 Messung mit unterschiedlichen MPEG-4 Datenraten..................................98

4.5 Ergebnisse der MPEG-2 auf MPEG-2 Transcodierung..........................................100

4.6 Ergebnis der Spatialen Reduktion..........................................................................................................101

Zusammenfassung........................................................................................................................................................................................103

Literaturverzeichnis......................................................................................................................................................................................106

Anhang............................................................................................................................................................................................................................116

Einleitung

In den letzten Jahren haben technische Entwicklungen das Umfeld eines Fernsehstudios zukunftsweisend geprägt. Im Zuge der Digitalisierung mit der daraus resultierenden Datenkompression und der zusätzlich rasanten Entwicklung im Bereich der Rechner- und Netzwerktechnologie wurde die Signalverarbeitung in einem Fernsehstudio verändert. Es entstanden verschiedene verfahren für die digitale Videokompression mit jeweils unterschiedlichen Anwendungen [8]. Aus der Vielzahl von unterschiedlichen Datenreduktionsverfahren mit den dazugehörigen Spezifikationen wie Bitrate, Pegel und Bitströmen, die untereinander nicht kompatibel sind, ergeben sich neue Anforderungen an Schnittstellen und Übertragungsstrecken [7]. In der professionellen Fernsehstudioumgebung hat sich das MPEG 2 Verfahren mit seinem 4:2:2 Profil für die Produktion etabliert. Zur Ausstrahlung wird das MPEG 2 ML@MP benutzt. Mit dem Einsatz von digitalen Videosignalen wächst die Forderung die bereits produzierenden Inhalte auf Basis des MPEG 2 Verfahren mehrfach zu nutzen. Die Verteilung der Inhalte für ein digitales Vorschauarchiv in schmalbandigen Netzen wie das Intranet oder die Ausstrahlung als Web TV im Internet erfordert eine Anpassung an den jeweiligen bandbegrenzten Übertragungskanal. Gerade hier bietet sich der MPEG-Standard mit seinen Verfahren wie MPEG 1, MPEG 2 und MPEG 4 für verschiedene Datenraten an [1].

Diese drei Verfahren kann man in folgender Nutzung zuordnen:

Verfahren Nutzung Format Daten rate

MPEG-1 Disc-Aufzeichnung, Ausstrahlung 4:2:0 (SIF) Ca. 1,15 .. 15 Mbit/s

MPEG-2 Disc-Aufzeichnung, Zuspielung, Ausstrahlung, Schnitt 4:2:0, 4:1:1, 4:2:2 Studioprofil Ca. 1,0 .. 15 Mbit/s Ca. 2,5 .. 50 Mbit/s

MPEG-4 Disc-Aufzeichnung, Ausstrahlung 4:2:0 Ca. 0,7 .. 15Mbit/s

Um eine Anpassung eines Videosignals mit hoher Datenrate im MPEG 2 Format, an ein Multimediasystem mit niedriger Bandbreite im MPEG Format zu erreichen, muss man die Bitrate des jeweiligen Signals verringern. Zur Zeit geschieht diese Anpassung ausschließlich in der Bildebene mit der daraus resultierenden Qualitätsminderung. Um diese Qualitätsverluste zu verringern, besteht die Möglichkeit eine Umrechnung der Videosignale in der codierten Ebene vorzunehmen. Diese Umrechnung und Anpassung an das jeweilige Kompressionsverfahren bezeichne ich als Transcodierung.

In der vorliegenden Arbeit werde ich die verschiedenen Methoden der Transcodierung von digitalen Videosignalen vorstellen. Die Transcodierung verkleinert die Datenrate und ermöglicht somit eine Anpassung an Multimediasysteme mit geringer Bandbreite und begrenzter Speichermöglichkeit. Für die Untersuchungen und Betrachtungen wird das auch im Fernsehstudio übliche komprimierte Videosignal nach der „Moving Picture Experts Group" (MPEG) verwendet. Nicht betrachtet werden die Audiosignalverarbeitungstheorien und die Systemebene der MPEG 2 Codierung. Die Untersuchungen wurde mit Hilfe von Software der Standards MPEG-2 und MPEG-4 durchgeführt. Die dazugehörigen Algorithmen zur Transcodierung wurden ebenfalls auf Software erstellt und in die vorhandene Standardsoftware implementiert.

Im ersten Kapitel werde ich die Grundlagen der Videoquellencodierung und der Transformationscodierung erläutert und für meine Arbeit die notwendigen Aspekte und mathematische Modelle näher betrachten. Zusätzlich werde ich die Hybride Videocodierung vorstellen und deren Funktionsweise erklären. Des weiteren werde ich die bekannten Standards zur Bildsequenzcodierung beschrieben. Es werden die Standards H.261 und H.263 beschreiben und dann ausführlich der MPEG-2 Standard vorgestellt. Am Ende des Kapitels werde ich näher auf den MPEG-4 Standard eingehen.

Im zweiten Kapitel werde ich die Anforderung eines Transcoder im Gesamtsystem eines Prozessmodells darstellen. Des weiteren werde ich den Aufbau einer Transcodierung in der Bildebene erläutern und die Transcodierung in der Frequenzebene beschrieben. Im Detail werde ich die driftbehaftete Transcodierung und die driftfreie Transcodierung erläutern und mathematisch herleiten. Hieraus werde ich den notwendigen Vergleich der verschiedenen Transcoderarchitekturen zur MPEG-Transcodierung durchführen.

Um eine Transcodierung eines Bitstroms in der Frequenzebene vorzunehmen muss eine Verringerung der Datenmenge vorgenommen werden. Diese Methodik werde ich in Kapitel 3 beschreiben. Ich werde die Methoden zur Verringerung der Datenmenge vorstellen und beschreiben. Im ersten Abschnitt des dritten Kapitel werde ich die mathematische Methodik zur komplexen Bildmanipulation in der codierten Ebene erläutern. Aufbauend auf der Theorie der Bildmanipulation werden die verschiedenen Rechenoperationen zur Reduzierung der Datenrate erläutert. Die erste Methode ist die Temporale Reduktion des Bitstroms. Danach wird eine Spatiale Reduktion und damit eine Veränderung der

Bildauflösung in der Frequenzebene eingeführt. Die Modifikation des Quantisierungsfaktors ist die nächste Methode zur Datenreduzierung, sie wird ebenfalls vorgestellt. Am Ende des Kapitels wird die Optimierte Bufferregulierung bei der MPEGTranscodierung beschrieben. Aus diesen einzelnen Methoden habe ich eine MPEG-Transcoder-Toolbox entwickelt und damit eine Anwendung zur Implementierung in den driftbehafteten Intra-Frame-Frequenztranscoder geschaffen.

In diesem Kapitel werde ich die Module und die Integration der einzelnen Verfahren zur Verringerung der Datenrate in die MPEG-Transcoder-Toolbox vorstellen. Durch Implementierung der Toolbox wird der Intra-Frame-Frequenztranscoder modifiziert und die neue Generation der Transcoder vorgestellt. Zugleich werde ich die Verfahren zur Beurteilung der Bildqualität erläutern und die einzelnen Digitalen Bildfehler beschreiben. Zum Schluss des Kapitels werde ich die Messergebnisse der verschiedenen Transcodiermöglichkeiten vorstellen.

In der Zusammenfassung werde ich die gefundenen Ergebnisse erläutern.

1 Digitale Bildcodierung

In diesem Kapitel werde ich die Grundlagen der Videoquellencodierung und der Transformationscodierung erläutert und für meine Arbeit die notwendigen Aspekte und mathematische Modelle näher betrachten. Zusätzlich werde ich die Hybride Videocodierung vorstellen und deren Funktionsweise erklären. Des weiteren werde ich die bekannten Standards zur Bildsequenzcodierung beschrieben. Es werden die Standards

H.261 und H.263 beschreiben und dann ausführlich der MPEG-2 Standard vorgestellt. Am Ende des Kapitels werde ich näher auf den MPEG-4 Standard eingehen.

I.1 Videoquellencodierung

In der heutigen Zeit ist es kaum noch möglich sich der Digitalisierung von Video- und Audiosignalen, sowohl im professionellen, wie auch im Konsumerbereich zu entziehen. Durch die Einleitung des digitalen Zeitalters rüsten sämtliche Fernsehanstalten ihre analogen Studios in neue digitale Studios um. Neben allen Vorteilen die diese Technik bietet, wie z.B.:

• Nahezu verlustloses Kopieren und Übertragen,

• Nachbearbeitung durch digitale Videoeffektgeräte (DVE),

gibt es jedoch durch die hohe Datenrate von transparenten (unkomprimiert) digitalen Signalen auch einige erhebliche Nachteile:

• zu geringe Bandbreiten für die Übertragung,

• zu große Datenmengen für die Speicherung. Die nachfolgende Rechnung soll dies verdeutlichen.

Bei dem in Fernsehstudios derzeit gültigen Standard der ITU Ree. 601 [5] für digitale Fernsehbilder ergibt sich bei einem 4:2:2-Format und einer Quantisierung mit 10 Bit eine Daten rate von:

(13,5 MHz + 6,75 MHz + 6,75 MHz) * 10 Bit = 270mi'/s (Gl-1-1) Allein für den aktiven Bildinhalt ergibt sich eine Datenrate von:

720 Pixel/Zeile * 576 Zeilen/Bild = 414720 Pixel/Bild 414720 Pixel/Bild * 25 Bilder/s * 10 Bit = 207,36mi>/s

(Gl. 1.2)

Betrachtet man nun die Datenraten der momentan vorhandenen Übertragungskanäle oder die Zugriffsgeschwindigkeiten der Speichermedien, wird schnell sichtbar, dass eine Datenkomprimierung unumgänglich ist.

Übliche Datenraten für z.B. den Uplink einer DSNG liegen bei QMh»/s (MPEG 2), das entspricht einem Kompressionsfaktor von:

= 33,75 1-3)

8 mw

Will man sich einen Videostream im Internet ansehen, liegt der Kompressionsfaktor sogar bei einem DSL Zugang mit 756^'X (MPEG 4) bei:

270«/»/ ...

=357,14 (Gl. 1.4)

156Kbi'A

Hierbei ist allerdings zu beachten, dass ein Videostream im Internet meistens nicht mit der vollen Auflösung und Framerate übertragen wird. Diese hohen Kompressionsfaktoren lassen sich nur dadurch erreichen, dass ein Videosignal eine Fülle von Informationen enthält, die nach einer Kompression relativ verlustfrei zurückgewonnen, bzw. durch die Eigenschaften unseres Sehsinns einfach weggelassen werden können. Ein Videosignal lässt sich durch drei wesentliche Elemente beschreiben:

• Das redundante Element

Dazu gehören alle Informationsteile, die vollständig rekonstruierbar sind und im Empfänger verlustlos dargestellt werden. Ein Beispiel hierfür ist eine Nachrichtensprecherin im Studio, die immer vor dem gleichen Hintergrund sitzt und sich selbst kaum bewegt. Ein solches Bild mit gleichen Flächen hat einen sehr hohen Anteil an Redundanz.

• Das irrelevante Element

Die Irrelevanz umfasst alle Bestandteile der Information, die beim Empfänger der Nachricht nicht wahrgenommen werden können. Außerdem bedeutet das Entfernen von irrelevanten Bestandteilen einen Verlust an digitaler Information, die beim Empfänger nicht mehr zurückgenommen werden kann. Als das irrelevante Element

bezeichnet man objektiv vorhandene Bildinformationen, die unser Auge aber nicht erkennen kann.

• Das Kern-Element

Dies ist der verbleibende, wesentliche Teil der Bildinformation, der weder redundant noch irrelevant ist.

Durch die Kompression wird nun versucht, sowohl das redundante als auch das irrelevante Element eines digitalen Videosignals zu verringern. Je nach Leistungsfähigkeit des Kompressionsverfahren gelingt dies mehr oder weniger gut.

1.2 Grundlagen der Transformationscodierung

Ein grundsätzlicher Ansatz zur Reduktion der Datenmenge ist die Transformationscodierung. Die Transformationscodierung [9] gehört zu den hybriden Kompressionsverfahren, hier werden verschiedene Methoden zu einem Gesamtsystem integriert. In der Abbildung 1.1 wird die Videosequenz zunächst einer mathematischen Transformation unterzogen. In der Bild- und Videocodierung nach MPEG ist dies die diskrete Cosinus Transformation (DCT). Ziel der Transformation ist die Informationsverdichtung durch Dekorrelation der Signalwerte. Die Informationen des Bildes sind nun in dem so genannten Ortsfrequenzbereich und werden dort durch die Koeffizienten beschrieben. Diese Transformation mittels der DCT ist ein verlustfreier Schritt. Da der menschliche Sehsinn eine stark von der Ortsfrequenz abhängige Empfindlichkeit hat, lässt sich im Ortsfrequenzbereich eine Irrelevanzreduktion durchführen. Alle Bildinhalte die vom Auge nicht wahrgenommen werden, werden durch die Quantisierung aus den Daten entfernt. Es bleiben nur die relevanten Informationen enthalten; dieser Schritt ist verlustbehaftet. Jeder Koeffizient im Ortsfrequenzbereich enthält Informationen aus allen Abtastwerten. Je weniger Detailreichtum die Originaldaten aufweisen, desto höhere Kompressionsfaktoren sind erreichbar. Zum Abschluss wird eine verlustfreie Redundanzreduktion durchgeführt um noch eine kompaktere Darstellungsform zu erhalten, den so genannten Bitstrom. Auf der Empfängerseite, dem so genannten Decoder, werden die Verarbeitungsschritte in umgekehrter Reihenfolge durchlaufen und das Bild rekonstruiert.

Abbildung 1.1: Prinzip der Transformationscodierung 1.2.1 Die Diskrete Cosinus Transformation (DCT)

Die Diskrete Cosinus Transformation (DCT) ist eine der heute wichtigsten Biidcodierungsverfahren (Gleichung 1.5). Sie beruht auf der Grundlage der bekannten Laplace- bzw. Fouriertransformation [6]. Der wesentliche Unterschied zu diesen besteht darin, dass die DCT auch im zweidimensionalen Bereich arbeiten kann. Es ist die Möglichkeit geboten, ein und denselben Algorithmus bei unterschiedlichen Datenraten anzuwenden. Außerdem nutzt diese Transformationscodierung die Unvollkommenheit des menschlichen Auges besser aus als viele andere Codierungsarten. In der Audiotechnik ist diese Art der Codierung seit längerem üblich. Bei der Übertragung eines Tons einer bestimmten Frequenz wäre ein Übertragungskana! mit der Bandbreite der Frequenz erforderlich, durch die Umwandlung in den Frequenzbereich ist nur noch die Übertragung eines einzigen spektralen Koeffizienten nötig.

In der Fernsehtechnik kommt diese Codierungsart auch zum Einsatz. Hier ist jedoch zu beachten, dass die Bildinformation in horizontaler sowie in vertikaler Richtung verläuft, also zweidimensional ist.

F(u,v) =

c(u)* c(v) ———— %

4

7 7 ( \ S S f(x,y)*cos

x=0 y=0

/

tt * u:

V

2x +1 16

/

: cos

tt * v

V

2y +1 16

(Gl. 1.5)

u,v = [0,1,2,3,4,5,6,7]

c(u),c(v) = -pr wenn u,v = 0 sonst c(u),c(v) = 1 V2

f(x,y) = Blockkoeffizient des zeitlichen Bildbereiches F(u, v) = transformierter DCT - Koeffizient

Bei dieser Art der Kompression wird zunächst die Bildinformation getrennt für die Luminanz- und Chrominanzanteile (YUV-Format) in einzelne Blöcke mit je 8x8 Pixel unterteilt und anschließend vom Bild- in den Zeitbereich überführt. Der MPEG-2 Standard kann nicht nur progressive Bilder (Vollbilder) verarbeiten, sondern auch Bilder, die mit dem Zeilensprungverfahren (zwei Halbbilder) aufgenommen wurden. Hier ist der zeitliche Versatz der Halbbilder zu berücksichtigen. Einzelne Makroblöcke in Vollbildern können entweder nach dem herkömmlichen Prinzip (progressiver Modus) oder durch Verschachtelung der Zeilen (Halbbild-Modus) verarbeitet werden, je nach dem, welche Variante eine höhere Korrelation der Bildpunkte und damit eine stärkere Kompression verspricht. Durch die Überführung der Bildsignale in die Frequenzebene ist es möglich, mit den spektralen Koeffizienten die Information zu übertragen. Größter Vorteil dieser DCT ist, dass die transformierten Werte in Form einer gewichteten 8x8 Koeffizientenmatrix vorliegen. Hierbei gibt der Wert, der sich links oben in der Matrix befindet, den Gleichspannungsanteil (DC- Wert) an. Dieser stellt den mittleren Grauwert des Blockes dar. Die Werte, die sich vertikal unter bzw. horizontal neben diesem DC- Wert befinden, geben die Wechselspannungsanteile (AC-Wert) der in diese Richtungen liegenden Frequenzkomponenten an. Alle anderen dazwischen liegenden Werte stehen für die Mischwerte aus den vertikalen und horizontalen Komponenten. Je weiter wir in der Matrix nach rechts unten gehen, desto höher werden die Frequenzen. Das menschliche Auge kann diese hohen Frequenzen nicht mehr optimal auflösen, daher können diese bei der Übertragung weggelassen werden. Im Decoder kommt es zur kompletten Decodierung der Werte. Diese Rücktransformation der DCT-Werte wird Inverse Diskrete Cosinus Transformation (IDCT) genannt (Gleichung 1.6).

fM

16

* cos tt *

V

2y+ 1 16

(Gl. 1.6)

x,y = [0,1,2,3,4,5,6,7]

c(u).c(v) = — wenn u, v = 0 sonst c(u),c(v) = 1 V 2

f(x,y) = Blockkoeffizienten des zeitlichen Bildbereiches (rücktransformiert) F(u, v) = tranformierter DCT - Koeffizient

Im Gegensatz zu anderen Codierungskomponenten, wie zum Beispiel der Quantisierung, ist der Vorgang der DCT und IDCT abgesehen von geringen Rundungsfehlern verlustfrei. Wie bereits erwähnt, gibt der DC-Anteil eines 8*8 Pixel großen DCT-Blockes den mittleren Grauwert des Blockes an. Steht der DC-Anteil der mit 11 bit quantisiert wird auf Null, erhält man ein schwarzes Bild, bei 500 ist das Bild dunkelgrau, bei 1500 bereits hellgrau. Beim Ausschöpfen des Wertebereichs für die DCT-Werte, also bei 2047, ist dann ein weißes Bild zu sehen. Dies zeigt deutlich, dass mit dem Ansteigen des DC-Wertes das Bild immer heller wird. Verdeutlicht man sich das anhand einer Cosinus-Schwingung, so ist der DC-Wert dem Mittelwert der Schwingung gleichzusetzen. Die Werte, die sich vertikal unter bzw. horizontal neben dem DC- Wert befinden, geben die Wechselspannungsanteile der in diese Richtungen liegenden Frequenzkomponenten an. Die Koeffizienten des DCT-Blockes, die nicht innerhalb der ersten Zeile bzw. Spalte liegen, stellen die Überlagerung zweier Schwingungen dar. Um eine Schwingung Pixelweise darstellen zu können, benötigt man mindestens 2 Pixel (schwarz und weiß). Bei einer Zeilenlänge von 8 Pixeln lassen sich also maximal 4 Schwingungen darstellen, im Falle des DCT-Blockes gilt dies für die horizontal sowie für die vertikale Richtung. Dieses lässt auf eine begrenzte Anzahl von Schwingungen schließen, die in diesem Falle darstellbar sind. Weiterhin wichtig ist die Gesetzmäßigkeit nach Fourier, die besagt, dass jedes Signal durch eine Überlagerung von Sinusschwingungen darstellbar ist. Diese Sinusschwingungen können unterschiedliche Frequenzen und Amplituden haben. Wenn man zunächst einen Koeffizienten in der X-Richtung verändert, lässt sich im Bild eine balkenweise Abstufung des Grauwertes in horizontaler Richtung erkennen.

1.2.2 Die Quantisierung

Die Quantisierung ist, abgesehen von der Unterabtastung des Eingangssignals, also der Umwandlung von RGB in die Chroma-Formate 4:2:2 oder 4:2:0, der einzige verlustbehaftete Schritt des Codiervorganges. Die mit Hilfe der DCT errechneten Werte werden quantisiert, d.h. in ihrem Wertebereich verkleinert. Dabei muss eine akzeptable Balance zwischen Qualität und Kompressionsrate gefunden werden. MPEG nutzt eine einheitliche Quantisierung mit verschiedenen Schrittweiten je DCT Koeffizient. Eine Quantisierungsmatrix (8*8-Werte), welche die Quantisierungsstufen aller 64 Koeffizienten enthält, ist für intra- und intercodierte Bilder definiert [14].

Durch diese wird dann die DCT- Matrix entsprechend der Augenempfindlichkeit dividiert. Zusätzlich existiert noch ein Quantisierungsfaktor (Qf), der für jeden Makroblock bei MPEG-2 neu definiert werden kann [14]. Dieser Faktor skaliert die Quantisierungsmatrix der 8*8-Blöcke vor ihrer Anwendung. Dabei bestimmen die Wahl der Quantisierungsmatrix und des Quantisierungsfaktor entscheidend die Qualität und die erzielte Kompression des rekonstruierten Bildes. Über den für jeden Makroblock neu bestimmten Quantisierungsfaktor wird auch im Wesentlichen die Datenratenregelung durchgeführt. Da das menschliche Auge strukturorientiert ist, können hohe Frequenzen, welche unter anderem auch Rauschen darstellen, gröber quantisiert werden als niedrige Frequenzen, die großflächige Strukturen in einem Bild beschreiben.

Durch Auswahl entsprechender Quantisierungstabellen und der nach der Division folgenden Rundung der Werte auf Integerwerte können somit eine erhebliche Anzahl von Koeffizienten aus dem höheren Frequenzbereich auf den Wert Null reduziert werden. Treten in einem Bild viele hochfrequenten Anteile auf, so kann die Quantisierung Probleme bereiten. Werden solche Bilder zu grob quantisiert, d.h. werden wichtige Bildinhalte stark oder vollkommen reduziert, leidet die Bildqualität erheblich. In MPEG-2-Encodern wird der Bildinhalt von intracodierten Bildern jedoch überprüft und gegebenenfalls die Quantisierungstabelle durch eine andere ersetzt. Für intracodierte Bilder (bzw. Blöcke) werden die verschiedenen Koeffizienten die durch die DCT entstandenen unterschiedlich quantisiert. Dadurch werden die hochfrequenten Anteile stärker reduziert als die niederfrequenten und der Gleichspannungsanteil.

8 16 19 22 26 27 29 34]

16 16 22 24 27 29 34 37

19 22 26 27 29 34 34 38

22 22 26 27 29 34 37 40

22 26 27 29 32 35 40 48

26 27 29 32 35 40 48 58

26 27 29 34 38 46 56 69

27 29 35 38 46 56 69 83J

Abbildung 1.2: Standardquantisierungsmatrix für intra-codierte Blöcke

Der DC-Wert wird durch den kleinsten Faktor 8 quantisiert. Je höher die repräsentierten Frequenzanteile werden, desto größer wird auch der Divisor in der Quantisierungstabelle. Luminanz und Chrominanz werden mit den gleichen Quantisierungstabellen behandelt, dies entspricht der menschlichen Wahrnehmung. Die Quantisierung intracodierter Bilder bzw. Blöcke wird in Gleichung 1.7 wie folgt berechnet.

Im Gegensatz dazu bestehen intercodierte Bilder ganz oder zum Teil aus DPCM (Differenz-Puls-Code-Modulation)-codierten Blöcken [14]. Diese enthalten wesentlich häufiger Koeffizienten, die im hohen Frequenzbereich liegen. Der Grund hierfür liegt in der Tatsache, dass intercodierte Blöcke nur die Differenz zu schon intracodierten und quantisierten Blöcken aufweisen. Die als Referenz dienenden intracodierten und bereits quantisierten Blöcke reduzieren die hochfrequenten Bildanteile bereits, so dass dies bei den intercodierten Blöcken nicht mehr notwendig ist. Auch für solche intercodierten Blöcke ist eine Standardmatrix vorgesehen. Hier werden alle Koeffizienten mit dem gleichen Faktor 16 quantisiert.

C[0,0]JF[Q-Q]±4^ und cMJA