SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren

Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2013
19. Juni 2013 – Audio / Video: Kompressionsverfahren

Video
 Container
 Matroska
 MP4
 Codecs
 DivX
 Xvid
 H.264
 Verfahren der Videokompression
 Intra-coding
 Vektorquantisierung
 Konturbasierte Codierung
 Inter-coding
 Differenzcodierung
 Bewegungskompensation
Audio
 Sampling
 Kompression
Themenüberblick

Bildnachweis: „Kill Bill“ (2003)

Bildnachweis: „Kill Bill“ (2003)
Bitraten (37 sec.):
◦ 1 Mbps (~5 MB)
◦ 500 Kbps (~3 MB)
◦ 100 Kbps (~1,6 MB)
Konstante Bitrate (CBR)
vs.
Variable Bitrate (VBR)

 ~25 Bilder pro Sekunde  25 fps (frames per second)
 Auflösung
 Farbtiefe (Quantisierung) z.B. 24 Bit pro Pixel
 Rechenexempel unkomprimiertes Video:
 720 * 576 * 24 = 9.953.280 Bit pro Frame = ~1,2 MB / Frame
(9.953.280 / 8 / 1024)
 1,2 MB * 25 Frames = 30 MB/ sec.
 30 MB * 60 sec. = 1.800 MB / min.
 1,8 GB * 60 min. = 108 GB / std.
Speicherplatzbedarf von Videomaterial

DVD & Co.
Quelle: http://www.bluray-disc.de/faq/was-ist-der-unterschied-zwischen-blu-ray-und-der-dvd

Container
Codecs  Von den Begriffen Compressor und Decompressor
• Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden.
• Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen.
• Software-Codecs

MKV: Matroska Media Container
http://matroska.org/technical/whatis/index.html

Matroska Media Container
Matroska
• Unterstützt Videocodecs:
• MPEG-1, MPEG-2, MPEG-4
• H.264
• RealVideo, WMV, Theora, Dirac
• …
• Unterstützt Audiocodecs:
• MP3
• AAC, AC3, DTS, WAV, Vorbis, FLAC

Container: mp4
Mp4
 Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf
folgende Formate:
 Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1
 Audio: AAC, MP3, MP2, MP1, AC-3
 Bilder: JPEG, PNG
 Grafik und Text: BIFS (z. B. können Untertitel in dieses Format
umgewandelt werden)
 Dateiendungen:
 .m4v, .mp4v: Video (MPEG-4-Videoströme)
 .m4a: nur für Audio
 .m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können
 .m4p: (Protected): DRM-geschützte AAC-Audiodateien
 .m4r: (Ringtone): Klingeltöne für iPhone

Codec: DivX
DivX
 <= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec:
 u.a.: Erhöhung der maximalen Bitrate
 MS MPEG 4: 256 kbps
 DivX: bis 6 mbps
 Erzeugt kein ISO-konformes MPEG 4 Video
 > DivX ;-) 3.11: Neuentwicklung, patentierter Codec
 Unterstützt u.a.:
 Multipass Encoding (variable Bitrate)
 Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine
niedrigere Bitrate
 2000: Gründung der Firma DivXNetworks
  Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU-
Projektes „MoMuSys“ (Mobile Multimedia Systems)
 Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die
Entwicklungsarbeiten an OpenDivX werden eingestellt
 Kodiereffizienz schlechter als bei DivX ;-)
 DivX 5: Erstes kommerzielles Produkt
 …DivX 9.1.2 (2013-05)
Linktipp: http://www.heise.de/ct/artikel/DivX-im-Griff-288448.html

Coded: Xvid
Xvid
 Freie MPEG-4 Implementierung (GNU General
Public License), basierend auf OpenDivX
Quelltext
 Techniken:
 B-Frames
 Quarter Pixel Compensation
 …

Codec: H.264
H.264
• 2003 als Standard verabschiedet: MPEG-4 Part 10
oder auch AVC (Advanced Video Coding)
 Zehnter Teil des MPEG-4 Standards (MPEG-
4/Part 10, ISO/IEC 14496-10)
• Datei-/Containerformat: mp4
• Verwendung:
• HDTV / Blu-Ray
• Freier, quelloffener Encoder: x264
(http://www.videolan.org/developers/x264.html)

H.264
Variable block-size motion compensation (VBSMC) with block sizes as large as 16×16 a
as small as 4×4, enabling precise segmentation of moving regions.

Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Videokompression
?
?
?

Wie ließe sich diese Videosequenz komprimieren?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg

Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Videokompression
Bild- bzw. Framedimensionen (Höhe und Breite)
- Eigenschaften der Pixel (Helligkeit, Farbe)
- Eigenschaften des jeweils betrachteten Frames
Zeitliche Dimension

Welche der beiden Videosequenzen lässt sich besser /
stärker komprimieren? Warum?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg / http://mamboaustralia.com/isfucked/wp-content/uploads/2011/05/CHEADLE_CULBURRA_SEQUENCE1.jpg

Unterscheidung:
 Intra-coding (auch: spatial coding): Redundanz aus
einem Frame entfernen (räumliche Redundanz),
Kompression teilweise analog zu JPEG
vs.
 Inter-coding (auch: temporal coding): Redundanz
zwischen Frames entfernen (temporale Redundanz)
 Differenzkodierung (frame differencing)
Videokompression

Idee und Verfahrensweise:
 Aufteilung des Frames in Blöcke (4x4, 8x8, etc.)
 Suche nach ähnlichen Blöcken
 Ähnliche Blöcke im Bild ersetzen durch „Durchschnittsblock“
 Zwei Schritte:
 Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken 
Häufig verwendet: Linde–Buzo–Gray Algorithmus
 Berücksichtigung der Ähnlichkeit der notierten Blöcke
 Dekoder muss über das gleiche Codebuch verfügen
Vorteile:
 Schnelle Decodierung
 Gute Kompression bei vielen ähnlichen Blöcken
Nachteile:
 Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen
Praxis: Verwendung in Codecs: Indeo, Cinepak
Intra-Coding: Vektorquantisierung

Idee und Verfahrensweise:
 Trennung in Textur und Kontur
 Konturen beschreiben (z.B.) durch Bézier-Kurven
 Texturen kodieren (z.B. mit DCT)
Praxis: Verwendung ansatzweise in MPEG-4
Knackpunkt: Objekterkennung
Intra-Coding: Konturbasierte Codierung

Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
t = 1 t = 2 t = 3
…Kompression…?

t = 1
Frame vollständig gespeichert
 I-Frame
t = 2
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
…Kompression!
t = 3
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf

Speichern der Differenzen zwischen Start- und
Folgeframe, z.B. pixelweise
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.

Intra- vs. Predicted- vs. Bidirectional Frames:
 Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild)
wird nur unter Berücksichtigung der eigenen Bildinformation
kodiert
 Predicted Frames (P-Frames) werden aus den
vorhergehenden I-Frames berechnet.
 Bidirectional Frames beziehen sich sowohl
 auf die vorhergehenden I- und P-Frames
als auch
 auf die folgenden I- und P-Frames.
Praxis
 MPEG-1 / -2: Ein I-Frame pro ½ Sek.
 MPEG-4: Ein I-Frame ~ alle 10 Sek.
Unterscheidung I: Frame-Typen (in MPEG)

Verfahrensweise
 Startframe und spätere I-Frames intracodiert
übertragen
 Unterschiede zum Folgeframe bestimmen, als Bild
interpretieren und dieses Bild komprimieren
Differenzcodierung

Verfahrensweise:
 Objektbewegungen zwischen Frames identifizieren
 Speicherung der Veränderungen als Bewegungsvektoren
(motion vector)
 Zu übertragen:
 Differenzbild
 Bewegungsvektoren
Bewegungskompensation (Motion Compensation)

Blockbasierte Bewegungskompensation
 Verwendung u.a. im MPEG-2 Standard
Grob:
 Jedes Frame des Videomaterials wird in n*m große
Pixelblöcke unterteilt
 Um die Bewegungskompensation zu leisten, werden
die Pixelblöcke von Frame zu Frame miteinander
verglichen
 Ähneln sich die Pixelblöcke (z.B. Kreuzkorrelation), so
wird nur der Verschiebungsvektor gespeichert, um
den sich der Block verschiebt
Bewegungskompensation

Video
 Container
 Matroska
 MP4
 Codecs
 DivX
 Xvid
 H.264
 Verfahren der Videokompression
 Intra-coding
 Interframe-coding
 Differenzcodierung
Themenüberblick

Akustische Signale = zumeist periodische Signale
Audio: Basics
 Amplitude
Maximalwert eines Signals
innerhalb einer Phase
 Schwingungsdauer
Zeit, bis eine Schwingung
wieder ihren
Ausgangszustand erreicht
 Wellenlänge
Frequenz, ausgedrückt in
Hertz (Hz, 1Hz = 1
Schwingung pro Sekunde)
Amplitude
Schwingungsdauer

Von analog nach digital:
Sampling  Digitalisierung von
Audiodaten
Grundfragen Sampling:
1. Wahl der geeigneten
Abtastrate (Sampling Rate)
2. Wahl der geeigneten
Auflösung
Eine Problemstellung: Sampling

Je häufiger die Schallwelle auf ihren Druck
abgetastet wird, desto besser wird der originale
Ton digital repräsentiert.
Zu wenige Abtastpunkte führen zu geraden
Linien, zu langen Wellen oder zu gezackten
Kurven.
Abtastrate (Sampling Rate)

Wahl der Abtastrate auf Basis des Nyquist-Shannon-
Abtasttheorems. „Wenn ein kontinuierliches Signal mit
einer oberen Grenzfrequenz von fmax mit einer
Abtastrate von mehr als 2*fmax abgetastet wird, kann
man das Ursprungssignal ohne Informationsverlust aus
dem abgetasteten Signal rekonstruieren.“
(Malaka, Butz, Hußmann: Medieninformatik. München: Pearson, 2009, S. 63.)
Das Abtasttheorem und die Praxis: Da menschliche
Ohren Schallwellen von maximal 22.000 Hz (= 22 kHz)
wahrnehmen können, liegt die erforderliche Nyquist-
Rate bei 44.000 Hz.
 Qualitativ hochwertige Audio-Digitalisate haben darum eine
Abtastrate von 44.100 Hz.
Shannon-Nyquist

Bekanntestes (und einfachstes) Abtastverfahren:
PCM (Pulse Code Modulation)  Für jeden
Abtastzeitpunkt: Messung eines Signalwertes
Bekannte Audio-Formate, die PCM verwenden:
WAV, AIFF
Pulse Code Modulation

Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Speicherplatzbedarf

Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Lösung
 Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet.
 Die Abtasttiefe liegt bei 16 Bit.
 Daraus folgt:
44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte
Speicherplatzbedarf

Hörschwellenmaskierung
Signale werden aus Frequenzspektrum entfernt,
die jenseits der (menschlichen) Hörschwelle
liegen
Frequenzmaskierung
 Entfernung von Signalen, die von Signalen mit
einer anderen Frequenz übertönt werden
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:24h_wecker.jpg&filetimestamp=20090809180759

Temporale Maskierung
 Auch zeitliche Abstände zwischen Tönen haben
einen Einfluss auf die Hörbarkeit:
 Geht einem starken Ton A ein schwächerer Ton B in
ähnlicher oder gleicher Frequenz voraus oder folgt ihm,
so gibt es zeitliche Abstände von bestimmter Dauer, in
denen Ton B nicht zu hören ist.
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html

Aufgabe 1 (1 Punkt)
Welche Arten von Redundanz werden bei der Videokompression beseitigt? Erläutern
Sie in diesem Kontext die Begriffe Intra- und Inter-Coding und beschreiben Sie die
grundlegende Funktionsweise des Verfahrens „Motion Compensation“.
Aufgabe 2 (1 Punkt)
Beschreiben Sie die Vorgehensweise bei der Digitalisierung von Audiosignalen.
Beschreiben Sie in diesem Zusammenhang die folgenden Begriffe:
 Abtastrate (Sampling Rate)
 PCM
 Abtasttiefe (Quantisierung)
Aufgabe 3 (1 Punkt)
Welche Phänomene menschlicher Wahrnehmung (Stichwort: „Maskierung“) macht
man sich bei der Audiodaten-kompression zunutze?
Aufgabe 4 (1 Punkt)
Informieren Sie sich im WWW über das mp3-Format. In welchem Zusammenhang
steht mp3 mit der Moving Picture Experts Group?
Hausaufgaben

SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (9)

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren (13)

Mehr von Institute for Digital Humanities, University of Cologne

Mehr von Institute for Digital Humanities, University of Cologne (20)

SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren