Angewandte Philosophie an der Universität Duisburg-Essen.
BIT II SoSem 2015 | Basisinformationstechnologie II - 08_Video und Audio
1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2015
10. Juni 2015 – Video und Audio: Container, Codecs und Kompressionsverfahren
8. Container
Codecs Von den Begriffen Compressor und Decompressor
• Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden.
• Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen.
• Software-Codecs
12. Container: mp4
Mp4
Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf
folgende Formate:
Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1
Audio: AAC, MP3, MP2, MP1, AC-3
Bilder: JPEG, PNG
Grafik und Text: BIFS (z. B. können Untertitel in dieses Format
umgewandelt werden)
Dateiendungen:
.m4v, .mp4v: Video (MPEG-4-Videoströme)
.m4a: nur für Audio
.m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können
.m4p: (Protected): DRM-geschützte AAC-Audiodateien
.m4r: (Ringtone): Klingeltöne für iPhone
16. Codec: DivX
DivX
<= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec:
u.a.: Erhöhung der maximalen Bitrate
MS MPEG 4: 256 kbps
DivX: bis 6 mbps
Erzeugt kein ISO-konformes MPEG 4 Video
> DivX ;-) 3.11: Neuentwicklung, patentierter Codec
Unterstützt u.a.:
Multipass Encoding (variable Bitrate)
Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine
niedrigere Bitrate
2000: Gründung der Firma DivXNetworks
Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU-
Projektes „MoMuSys“ (Mobile Multimedia Systems)
Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die
Entwicklungsarbeiten an OpenDivX werden eingestellt
Kodiereffizienz schlechter als bei DivX ;-)
DivX 5: Erstes kommerzielles Produkt
…DivX 9.1.2 (2013-05)
Linktipp: http://www.heise.de/ct/artikel/DivX-im-Griff-288448.html
17. Coded: Xvid
Xvid
Freie MPEG-4 Implementierung (GNU General
Public License), basierend auf OpenDivX
Quelltext
Techniken:
B-Frames
Quarter Pixel Compensation
…
18. Codec: H.264
H.264 (H.264/MPEG-4 AVC)
• 2003 als Standard verabschiedet: MPEG-4 Part 10
oder auch AVC (Advanced Video Coding)
Zehnter Teil des MPEG-4 Standards (MPEG-4/Part
10, ISO/IEC 14496-10)
• Datei-/Containerformat: mp4
• Verwendung:
• HDTV / Blu-Ray
• Freier, quelloffener Encoder: x264
(http://www.videolan.org/developers/x264.html)
19. H.264
Variable block-size motion compensation (VBSMC) with block sizes as large as 16×16 a
as small as 4×4, enabling precise segmentation of moving regions.
22. Wie ließe sich diese Videosequenz komprimieren?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg
23. Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Bild- bzw. Framedimensionen (Höhe und Breite)
- Eigenschaften der Pixel (Helligkeit, Farbe)
- Eigenschaften des jeweils betrachteten Frames
Zeitliche Dimension
25. Unterscheidung:
Intra-coding (auch: spatial coding): Redundanz aus
einem Frame entfernen (räumliche Redundanz),
Kompression teilweise analog zu JPEG
Vektorquantisierung
Konturbasierte Codierung
vs.
Inter-coding (auch: temporal coding): Redundanz
zwischen Frames entfernen (temporale Redundanz)
Differenzkodierung (frame differencing)
Bewegungskompensation
Videokompression
26. Idee und Verfahrensweise:
Aufteilung des Frames in Blöcke (4x4, 8x8, etc.)
Suche nach ähnlichen Blöcken
Ähnliche Blöcke im Bild ersetzen durch „Durchschnittsblock“
Zwei Schritte:
Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken
Häufig verwendet: Linde–Buzo–Gray Algorithmus
Berücksichtigung der Ähnlichkeit der notierten Blöcke
Dekoder muss über das gleiche Codebuch verfügen
Vorteile:
Schnelle Decodierung
Gute Kompression bei vielen ähnlichen Blöcken
Nachteile:
Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen
Praxis: Verwendung in Codecs: Indeo, Cinepak
Intra-Coding: Vektorquantisierung
27.
28. Idee und Verfahrensweise:
Trennung in Textur und Kontur
Konturen beschreiben (z.B.) durch Bézier-Kurven
Texturen kodieren (z.B. mit DCT)
Praxis: Verwendung ansatzweise in MPEG-4
Knackpunkt: Objekterkennung
Intra-Coding: Konturbasierte Codierung
31. t = 1
Frame vollständig gespeichert
I-Frame
t = 2
Aus dem vorhergehenden
Frame berechnetes Frame
P-Frame
…Kompression!
t = 3
Aus dem vorhergehenden
Frame berechnetes Frame
P-Frame
Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
32. Speichern der Differenzen zwischen Start- und
Folgeframe, z.B. pixelweise
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
33. Intra- vs. Predicted- vs. Bidirectional Frames:
Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild)
wird nur unter Berücksichtigung der eigenen Bildinformation
kodiert
Predicted Frames (P-Frames) werden aus den
vorhergehenden I-Frames berechnet.
Bidirectional Frames beziehen sich sowohl
auf die vorhergehenden I- und P-Frames
als auch
auf die folgenden I- und P-Frames.
Praxis
MPEG-1 / -2: Ein I-Frame pro ½ Sek.
MPEG-4: Ein I-Frame ~ alle 10 Sek.
Unterscheidung I: Frame-Typen (in MPEG)
34. Verfahrensweise
Startframe und spätere I-Frames intracodiert
übertragen
Unterschiede zum Folgeframe bestimmen, als Bild
interpretieren und dieses Bild komprimieren
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
35. Verfahrensweise:
Objektbewegungen zwischen Frames identifizieren
Speicherung der Veränderungen als Bewegungsvektoren
(motion vector)
Zu übertragen:
Differenzbild
Bewegungsvektoren
Bewegungskompensation (Motion Compensation)
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 182.
45. Sampling Rate: Aliasing
Problem: Beliebig viele Wellen lassen sich auf die
Abtastpunkte mappen
Lösung: Welle mit niedrigster Frequenz wählen
Bildnachweis: http://commons.wikimedia.org/wiki/File:AliasingSines.svg
46. 𝑓𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 𝑟𝑎𝑡𝑒 ≥ 2 ⋅ 𝑓𝑚𝑎𝑥
Ein Signal mit einer maximalen Frequenz von 𝑓𝑚𝑎𝑥 muss
mindestens mit der doppelten Frequenz von 𝑓𝑚𝑎𝑥
abgetastet werden um es aus dem zeitdiskreten Signal
fehlerfrei rekonstruieren zu können.
praxis: Da menschliche Ohren Schallwellen von
maximal 22.000 Hz (= 22 kHz) wahrnehmen können,
liegt die erforderliche Nyquist-Rate bei 44.000 Hz.
Qualitativ hochwertige Audio-Digitalisate haben darum eine
Abtastrate von 44.100 Hz.
Das Nyquist-Shannon-Abtasttheorem
48. Header
ChunkID: „RIFF“ um Datei als Resource Interchange File
Format kenntlich zu machen
ChunkSize: Größe der Datei minus ChunkID und
ChunkSize
Format: „WAVE“
fmt-Chunk: beschreibt das Format der Nutzdaten
NumChannels: 1 – Mono, 2 – Stereo, etc
SampleRate: 44100 für CD-Qualität
BitsPerSample: Sampling Resolution, üblicherweise 16
…
data-Chunk: enthält die eigentlichen Daten (die
Welle)
Das WAVE-Format
49. Sampling rate: 44100 Hz
Sampling resolution: 16 Bit → 65536 mögliche
Werte
1 s WAV-Datei → 88200 Byte + Header
3 min 20 s WAV-Datei → ~16,8 Mbyte
Wie groß ist der Speicherplatzbedarf
(unkomprimiert) einer klassischen Aufnahme in
CD Qualität (Stereo, 16 Bit) mit 60-minütiger
Laufzeit?
Audio-CD
50. Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Lösung
Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet.
Die Abtasttiefe liegt bei 16 Bit.
Daraus folgt:
44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte
Speicherplatzbedarf
51. WAV, AIFF, uvm. enthalten eine diskrete Abbildung
einer Schallwelle
Diese Formate bilden die Basis der digitalen Seite
einer Schnittstelle zur Außenwelt
Eine Soundkarte sendet elektrische Impulse die einer
Schallwelle entsprechen
Ein Lautsprecher erzeugt aus diesen Impulsen
Schallwellen
(Umgekehrt für Mikrofon)
Andere Formate wie bspw. mp3 müssen vor der
Wiedergabe decodiert werden um in eine WAV-
ähnliche Form gebracht zu werden
Unkomprimierte Audioformate
52. Menschliche Wahrnehmungsgrenzen verwenden
Töne die nicht vom Menschen wahrgenommen
werden können, werden nicht mit kodiert
Geschieht in WAV auch: Samplingrate von 44100
Hz bedingt eine Maximalfrequenz von 22050 Hz.
Das menschliche Ohr nimmt Töne im Bereich von
ca. 20 Hz bis 22 kHz wahr. Alles darüber kann
vernachlässigt werden.
Bei mp3 werden aber auch andere Daten nicht
gespeichert →
Psychoakustische Kompressionsverfahren
54. Töne unterschiedlicher Frequenz werden vom
Menschen unterschiedlich Laut wahrgenommen (1
kHz bis 5 kHz am lautesten)
Psychoakustische Kompressionsverfahren
55. Töne unterschiedlicher Frequenz werden vom
Menschen unterschiedlich Laut wahrgenommen (1
kHz bis 5 kHz am lautesten)
Laute Töne „verdecken“ leise Töne, die eine
ähnliche Tonhöhe haben und etwa zeitgleich
stattfinden.
Psychoakustische Kompressionsverfahren
Quelle: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html
56. Zusammen mit der auch sonst gegebenen
frequenzabhängigen Hörschwelle bildet sich so
eine neue Hörschwelle
Töne unterhalb dieser Schwelle werden nicht
kodiert
Psychoakustische Kompressionsverfahren
Quelle: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html
57. Hörschwellenmaskierung
Signale werden aus Frequenzspektrum entfernt, die jenseits
der (menschlichen) Hörschwelle liegen
Frequenzmaskierung
Entfernung von Signalen, die von Signalen mit einer anderen
Frequenz übertönt werden
Temporale Maskierung
Auch zeitliche Abstände zwischen Tönen haben einen
Einfluss auf die Hörbarkeit:
Geht einem starken Ton A ein schwächerer
Ton B in ähnlicher oder gleicher Frequenz
voraus oder folgt ihm, so gibt es zeitliche
Abstände von bestimmter Dauer, in denen Ton
B nicht zu hören ist.
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:24h_wecker.jpg&filetimestamp=20090809180759
High Efficiency Video Coding (HEVC), auch bekannt als H.265 bzw. MPEG-H Teil 2, ist ein Standard zum Kodieren von Videoinhalten. Er ist Nachfolger des H.264/MPEG-4-AVC-Standards und konkurriert mit VP9. H.265/HEVC ist eine gemeinsame Entwicklung der ISO/IEC Moving Picture Experts Group (MPEG) und der ITU-T Video Coding Experts Group (VCEG).
Ziel war eine im Vergleich zu H.264/MPEG-4 AVC doppelt so starke Kompression bei gleichbleibender Qualität. Zusätzlich kann H.265/HEVC von 320 × 240 Pixel bis zu 8192 × 4320 Pixel (4320p) skalieren.[3][4]
Welche der beiden Videosequenzen lässt sich besser / stärker komprimieren? Warum?
Blockbasierte Bewegungskompensation
Verwendung u.a. im MPEG-2 Standard
Grob:
Jedes Frame des Videomaterials wird in n*m große Pixelblöcke unterteilt
Um die Bewegungskompensation zu leisten, werden die Pixelblöcke von Frame zu Frame miteinander verglichen
Ähneln sich die Pixelblöcke (z.B. Kreuzkorrelation), so wird nur der Verschiebungsvektor gespeichert, um den sich der Block verschiebt
Schall: Druckschwankung in einem Übertragungsmedium, die sich im Raum mit der Zeit ausbreitet
Schallwelle als Ausgangspunkt für die zu kodierenden Daten
1 pro t
Je häufiger die Schallwelle auf ihren Druck abgetastet wird, desto besser wird der originale Ton digital repräsentiert.
Zu wenige Abtastpunkte führen zu geraden Linien, zu langen Wellen oder zu gezackten Kurven.
Psychoakustische Kompressionsverfahren: Hörschwelle des menschlichen Ohrs
Auf diese Weise wird die zu kodierende Datenmenge reduziert
Töne unterschiedlicher Frequenz werden vom Menschen unterschiedlich Laut wahrgenommen (1 kHz bis 5 kHz am lautesten)
Laute Töne „verdecken“ leise Töne, die eine ähnliche Tonhöhe haben und etwa zeitgleich stattfinden.