BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio

Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2015
10. Juni 2015 – Video und Audio: Container, Codecs und Kompressionsverfahren

Video
 Container
 Matroska
 MP4
 Codecs
 DivX
 Xvid
 H.264
 Verfahren der Videokompression
 Intra-coding
 Vektorquantisierung
 Konturbasierte Codierung
 Inter-coding
 Differenzcodierung
 Bewegungskompensation
Audio
 Sampling
 Kompression
Themenüberblick

Bildnachweis: „Kill Bill“ (2003)
Bitraten (37 sec.):
◦ 1 Mbps (~5 MB)
◦ 500 Kbps (~3 MB)
◦ 100 Kbps (~1,6 MB)
Konstante Bitrate (CBR)
vs.
Variable Bitrate (VBR)

 ~25 Bilder pro Sekunde  25 fps (frames per second)
 Auflösung
 Farbtiefe (Quantisierung) z.B. 24 Bit pro Pixel
 Rechenexempel unkomprimiertes Video:
 720 * 576 * 24 = 9.953.280 Bit pro Frame = ~1,2 MB / Frame
(9.953.280 / 8 / 1024)
 1,2 MB * 25 Frames = 30 MB/ sec.
 30 MB * 60 sec. = 1.800 MB / min.
 1,8 GB * 60 min. = 108 GB / std.
Speicherplatzbedarf von Videomaterial

Quelle: http://www.bluray-disc.de/faq/was-ist-der-unterschied-zwischen-blu-ray-und-der-dvd

Container
Codecs  Von den Begriffen Compressor und Decompressor
• Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden.
• Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen.
• Software-Codecs

Quelle: http://de.wikipedia.org/wiki/Containerdatei#/media/File:Informatik-Containerformate-Beispiele.svg

http://matroska.org/technical/whatis/index.html

Matroska
• Unterstützt Videocodecs:
• MPEG-1, MPEG-2, MPEG-4
• H.264
• RealVideo, WMV, Theora, Dirac
• …
• Unterstützt Audiocodecs:
• MP3
• AAC, AC3, DTS, WAV, Vorbis, FLAC

Container: mp4
Mp4
 Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf
folgende Formate:
 Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1
 Audio: AAC, MP3, MP2, MP1, AC-3
 Bilder: JPEG, PNG
 Grafik und Text: BIFS (z. B. können Untertitel in dieses Format
umgewandelt werden)
 Dateiendungen:
 .m4v, .mp4v: Video (MPEG-4-Videoströme)
 .m4a: nur für Audio
 .m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können
 .m4p: (Protected): DRM-geschützte AAC-Audiodateien
 .m4r: (Ringtone): Klingeltöne für iPhone

Quelle: http://de.wikipedia.org/wiki/Containerdatei#/media/File:Informatik-Containerformate-Beispiele.svg
Codec!

Codec: DivX
DivX
 <= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec:
 u.a.: Erhöhung der maximalen Bitrate
 MS MPEG 4: 256 kbps
 DivX: bis 6 mbps
 Erzeugt kein ISO-konformes MPEG 4 Video
 > DivX ;-) 3.11: Neuentwicklung, patentierter Codec
 Unterstützt u.a.:
 Multipass Encoding (variable Bitrate)
 Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine
niedrigere Bitrate
 2000: Gründung der Firma DivXNetworks
  Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU-
Projektes „MoMuSys“ (Mobile Multimedia Systems)
 Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die
Entwicklungsarbeiten an OpenDivX werden eingestellt
 Kodiereffizienz schlechter als bei DivX ;-)
 DivX 5: Erstes kommerzielles Produkt
 …DivX 9.1.2 (2013-05)
Linktipp: http://www.heise.de/ct/artikel/DivX-im-Griff-288448.html

Coded: Xvid
Xvid
 Freie MPEG-4 Implementierung (GNU General
Public License), basierend auf OpenDivX
Quelltext
 Techniken:
 B-Frames
 Quarter Pixel Compensation
 …

Codec: H.264
H.264 (H.264/MPEG-4 AVC)
• 2003 als Standard verabschiedet: MPEG-4 Part 10
oder auch AVC (Advanced Video Coding)
 Zehnter Teil des MPEG-4 Standards (MPEG-4/Part
10, ISO/IEC 14496-10)
• Datei-/Containerformat: mp4
• Verwendung:
• HDTV / Blu-Ray
• Freier, quelloffener Encoder: x264
(http://www.videolan.org/developers/x264.html)

H.264
Variable block-size motion compensation (VBSMC) with block sizes as large as 16×16 a
as small as 4×4, enabling precise segmentation of moving regions.

Wie ließe sich diese Videosequenz komprimieren?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg

Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Bild- bzw. Framedimensionen (Höhe und Breite)
- Eigenschaften der Pixel (Helligkeit, Farbe)
- Eigenschaften des jeweils betrachteten Frames
Zeitliche Dimension

http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg / http://mamboaustralia.com/isfucked/wp-content/uploads/2011/05/CHEADLE_CULBURRA_SEQUENCE1.jpg

Unterscheidung:
 Intra-coding (auch: spatial coding): Redundanz aus
einem Frame entfernen (räumliche Redundanz),
Kompression teilweise analog zu JPEG
 Vektorquantisierung
 Konturbasierte Codierung
vs.
 Inter-coding (auch: temporal coding): Redundanz
zwischen Frames entfernen (temporale Redundanz)
 Differenzkodierung (frame differencing)
 Bewegungskompensation
Videokompression

Idee und Verfahrensweise:
 Aufteilung des Frames in Blöcke (4x4, 8x8, etc.)
 Suche nach ähnlichen Blöcken
 Ähnliche Blöcke im Bild ersetzen durch „Durchschnittsblock“
 Zwei Schritte:
 Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken 
Häufig verwendet: Linde–Buzo–Gray Algorithmus
 Berücksichtigung der Ähnlichkeit der notierten Blöcke
Dekoder muss über das gleiche Codebuch verfügen
Vorteile:
 Schnelle Decodierung
 Gute Kompression bei vielen ähnlichen Blöcken
Nachteile:
 Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen
Praxis: Verwendung in Codecs: Indeo, Cinepak
Intra-Coding: Vektorquantisierung

Idee und Verfahrensweise:
 Trennung in Textur und Kontur
 Konturen beschreiben (z.B.) durch Bézier-Kurven
 Texturen kodieren (z.B. mit DCT)
Praxis: Verwendung ansatzweise in MPEG-4
Knackpunkt: Objekterkennung
Intra-Coding: Konturbasierte Codierung

Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
t = 1 t = 2 t = 3
…Kompression…?

t = 1
Frame vollständig gespeichert
 I-Frame
t = 2
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
…Kompression!
t = 3
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf

Speichern der Differenzen zwischen Start- und
Folgeframe, z.B. pixelweise
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.

Intra- vs. Predicted- vs. Bidirectional Frames:
 Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild)
wird nur unter Berücksichtigung der eigenen Bildinformation
kodiert
 Predicted Frames (P-Frames) werden aus den
vorhergehenden I-Frames berechnet.
 Bidirectional Frames beziehen sich sowohl
 auf die vorhergehenden I- und P-Frames
als auch
 auf die folgenden I- und P-Frames.
Praxis
 MPEG-1 / -2: Ein I-Frame pro ½ Sek.
 MPEG-4: Ein I-Frame ~ alle 10 Sek.
Unterscheidung I: Frame-Typen (in MPEG)

Verfahrensweise
 Startframe und spätere I-Frames intracodiert
übertragen
 Unterschiede zum Folgeframe bestimmen, als Bild
interpretieren und dieses Bild komprimieren
Differenzcodierung

Verfahrensweise:
 Objektbewegungen zwischen Frames identifizieren
 Speicherung der Veränderungen als Bewegungsvektoren
(motion vector)
 Zu übertragen:
 Differenzbild
 Bewegungsvektoren
Bewegungskompensation (Motion Compensation)

Longitudinalwelle
Ausbreitungsrichtung
Schwingungsrichtung
Bildnachweis: http://www.acs.psu.edu/drussell/Demos/waves/wavemotion.html

 Amplitude (vertikale Ausdehnung) → Lautstärke
 Frequenz (Wiederholungsrate) → Tonhöhe
 Angabe in Hertz: 1 Hz = 1 Wiederholung pro Sekunde
Schallwellen
Bildnachweis: http://commons.wikimedia.org/wiki/File:Sine_one_period.svg (modifiziert)

 Analoge Daten: kontinuierlich (fortlaufend)
 Digitale Daten: diskret (trennbar, abzählbar)
 Analog → Digital: Abtasten des analogen Signals
via A/D-Wandler
 Grundfragen Sampling:
1. Wahl der geeigneten Abtastrate (Sampling Rate)
2. Wahl der geeigneten Auflösung
Analoge vs. Digitale Daten

Kontinuierlich vs. Diskret
Bildnachweis: https://commons.wikimedia.org/wiki/File:Digital.signal.discret.svg
samplingresolution=8
(Abtasttiefe)
sampling rate = 1/t
(Abtastrate)

Bildnachweis: https://commons.wikimedia.org/wiki/File:Digital.signal.discret.svg
sampling rate = 1/t
4 5 4 3 4 6 7 5 3 3 4 4 3
100 101 100 011 100 110 111 101 011 011 100 100 011

Bildnachweis: https://commons.wikimedia.org/wiki/File:Digital.signal.svg
(Abtasttiefe)
sampling rate = 1/t
(Abtastrate)

Sampling Rate: Aliasing
 Problem: Beliebig viele Wellen lassen sich auf die
Abtastpunkte mappen
 Lösung: Welle mit niedrigster Frequenz wählen
Bildnachweis: http://commons.wikimedia.org/wiki/File:AliasingSines.svg

𝑓𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 𝑟𝑎𝑡𝑒 ≥ 2 ⋅ 𝑓𝑚𝑎𝑥
Ein Signal mit einer maximalen Frequenz von 𝑓𝑚𝑎𝑥 muss
mindestens mit der doppelten Frequenz von 𝑓𝑚𝑎𝑥
abgetastet werden um es aus dem zeitdiskreten Signal
fehlerfrei rekonstruieren zu können.
praxis: Da menschliche Ohren Schallwellen von
maximal 22.000 Hz (= 22 kHz) wahrnehmen können,
liegt die erforderliche Nyquist-Rate bei 44.000 Hz.
 Qualitativ hochwertige Audio-Digitalisate haben darum eine
Abtastrate von 44.100 Hz.
Das Nyquist-Shannon-Abtasttheorem

 Drei Kategorien
 Unkomprimiert (bspw. WAV, AIFF)
 Verlustfrei komprimiert (bspw. FLAC)
 Verlustbehaftet komprimiert (bspw. mp3)
Verschiedene Audioformate

 Header
 ChunkID: „RIFF“ um Datei als Resource Interchange File
Format kenntlich zu machen
 ChunkSize: Größe der Datei minus ChunkID und
ChunkSize
 Format: „WAVE“
 fmt-Chunk: beschreibt das Format der Nutzdaten
 NumChannels: 1 – Mono, 2 – Stereo, etc
 SampleRate: 44100 für CD-Qualität
 BitsPerSample: Sampling Resolution, üblicherweise 16
 …
 data-Chunk: enthält die eigentlichen Daten (die
Welle)
Das WAVE-Format

 Sampling rate: 44100 Hz
 Sampling resolution: 16 Bit → 65536 mögliche
Werte
 1 s WAV-Datei → 88200 Byte + Header
 3 min 20 s WAV-Datei → ~16,8 Mbyte
Wie groß ist der Speicherplatzbedarf
(unkomprimiert) einer klassischen Aufnahme in
CD Qualität (Stereo, 16 Bit) mit 60-minütiger
Laufzeit?
Audio-CD

Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Lösung
 Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet.
 Die Abtasttiefe liegt bei 16 Bit.
 Daraus folgt:
44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte
Speicherplatzbedarf

 WAV, AIFF, uvm. enthalten eine diskrete Abbildung
einer Schallwelle
 Diese Formate bilden die Basis der digitalen Seite
einer Schnittstelle zur Außenwelt
 Eine Soundkarte sendet elektrische Impulse die einer
Schallwelle entsprechen
 Ein Lautsprecher erzeugt aus diesen Impulsen
Schallwellen
 (Umgekehrt für Mikrofon)
 Andere Formate wie bspw. mp3 müssen vor der
Wiedergabe decodiert werden um in eine WAV-
ähnliche Form gebracht zu werden
Unkomprimierte Audioformate

 Menschliche Wahrnehmungsgrenzen verwenden
 Töne die nicht vom Menschen wahrgenommen
werden können, werden nicht mit kodiert
 Geschieht in WAV auch: Samplingrate von 44100
Hz bedingt eine Maximalfrequenz von 22050 Hz.
Das menschliche Ohr nimmt Töne im Bereich von
ca. 20 Hz bis 22 kHz wahr. Alles darüber kann
vernachlässigt werden.
 Bei mp3 werden aber auch andere Daten nicht
gespeichert →
Psychoakustische Kompressionsverfahren

Bildnachweis: http://commons.wikimedia.org/wiki/File:Hoerflaeche.svg

 Töne unterschiedlicher Frequenz werden vom
Menschen unterschiedlich Laut wahrgenommen (1
kHz bis 5 kHz am lautesten)

 Töne unterschiedlicher Frequenz werden vom
Menschen unterschiedlich Laut wahrgenommen (1
kHz bis 5 kHz am lautesten)
 Laute Töne „verdecken“ leise Töne, die eine
ähnliche Tonhöhe haben und etwa zeitgleich
stattfinden.
Quelle: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html

 Zusammen mit der auch sonst gegebenen
frequenzabhängigen Hörschwelle bildet sich so
eine neue Hörschwelle
 Töne unterhalb dieser Schwelle werden nicht
kodiert
Quelle: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html

Hörschwellenmaskierung
 Signale werden aus Frequenzspektrum entfernt, die jenseits
der (menschlichen) Hörschwelle liegen
Frequenzmaskierung
 Entfernung von Signalen, die von Signalen mit einer anderen
Frequenz übertönt werden
Temporale Maskierung
 Auch zeitliche Abstände zwischen Tönen haben einen
Einfluss auf die Hörbarkeit:
 Geht einem starken Ton A ein schwächerer
Ton B in ähnlicher oder gleicher Frequenz
voraus oder folgt ihm, so gibt es zeitliche
Abstände von bestimmter Dauer, in denen Ton
B nicht zu hören ist.
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:24h_wecker.jpg&filetimestamp=20090809180759

BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (9)

Similar a BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio

Similar a BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio (18)

Más de Institute for Digital Humanities, University of Cologne

Más de Institute for Digital Humanities, University of Cologne (20)

Último

Último (8)

BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio

Notas del editor