SlideShare ist ein Scribd-Unternehmen logo
1 von 52
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2013
19. Juni 2013 – Audio / Video: Kompressionsverfahren
Video
 Container
 Matroska
 MP4
 Codecs
 DivX
 Xvid
 H.264
 Verfahren der Videokompression
 Intra-coding
 Vektorquantisierung
 Konturbasierte Codierung
 Inter-coding
 Differenzcodierung
 Bewegungskompensation
Audio
 Sampling
 Kompression
Themenüberblick
Video
Container und Codecs
Bildnachweis: „Kill Bill“ (2003)
Bildnachweis: „Kill Bill“ (2003)
Bitraten (37 sec.):
◦ 1 Mbps (~5 MB)
◦ 500 Kbps (~3 MB)
◦ 100 Kbps (~1,6 MB)
Konstante Bitrate (CBR)
vs.
Variable Bitrate (VBR)
 ~25 Bilder pro Sekunde  25 fps (frames per second)
 Auflösung
 Farbtiefe (Quantisierung) z.B. 24 Bit pro Pixel
 Rechenexempel unkomprimiertes Video:
 720 * 576 * 24 = 9.953.280 Bit pro Frame = ~1,2 MB / Frame
(9.953.280 / 8 / 1024)
 1,2 MB * 25 Frames = 30 MB/ sec.
 30 MB * 60 sec. = 1.800 MB / min.
 1,8 GB * 60 min. = 108 GB / std.
Speicherplatzbedarf von Videomaterial
DVD & Co.
Quelle: http://www.bluray-disc.de/faq/was-ist-der-unterschied-zwischen-blu-ray-und-der-dvd
Container
Codecs  Von den Begriffen Compressor und Decompressor
• Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden.
• Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen.
• Software-Codecs
MKV: Matroska Media Container
http://matroska.org/technical/whatis/index.html
Matroska Media Container
Matroska
• Unterstützt Videocodecs:
• MPEG-1, MPEG-2, MPEG-4
• H.264
• RealVideo, WMV, Theora, Dirac
• …
• Unterstützt Audiocodecs:
• MP3
• AAC, AC3, DTS, WAV, Vorbis, FLAC
Container: mp4
Mp4
 Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf
folgende Formate:
 Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1
 Audio: AAC, MP3, MP2, MP1, AC-3
 Bilder: JPEG, PNG
 Grafik und Text: BIFS (z. B. können Untertitel in dieses Format
umgewandelt werden)
 Dateiendungen:
 .m4v, .mp4v: Video (MPEG-4-Videoströme)
 .m4a: nur für Audio
 .m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können
 .m4p: (Protected): DRM-geschützte AAC-Audiodateien
 .m4r: (Ringtone): Klingeltöne für iPhone
MPEG: Standards
Codec: DivX
DivX
 <= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec:
 u.a.: Erhöhung der maximalen Bitrate
 MS MPEG 4: 256 kbps
 DivX: bis 6 mbps
 Erzeugt kein ISO-konformes MPEG 4 Video
 > DivX ;-) 3.11: Neuentwicklung, patentierter Codec
 Unterstützt u.a.:
 Multipass Encoding (variable Bitrate)
 Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine
niedrigere Bitrate
 2000: Gründung der Firma DivXNetworks
  Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU-
Projektes „MoMuSys“ (Mobile Multimedia Systems)
 Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die
Entwicklungsarbeiten an OpenDivX werden eingestellt
 Kodiereffizienz schlechter als bei DivX ;-)
 DivX 5: Erstes kommerzielles Produkt
 …DivX 9.1.2 (2013-05)
Linktipp: http://www.heise.de/ct/artikel/DivX-im-Griff-288448.html
Coded: Xvid
Xvid
 Freie MPEG-4 Implementierung (GNU General
Public License), basierend auf OpenDivX
Quelltext
 Techniken:
 B-Frames
 Quarter Pixel Compensation
 …
Codec: H.264
H.264
• 2003 als Standard verabschiedet: MPEG-4 Part 10
oder auch AVC (Advanced Video Coding)
 Zehnter Teil des MPEG-4 Standards (MPEG-
4/Part 10, ISO/IEC 14496-10)
• Datei-/Containerformat: mp4
• Verwendung:
• HDTV / Blu-Ray
• Freier, quelloffener Encoder: x264
(http://www.videolan.org/developers/x264.html)
H.264
Variable block-size motion compensation (VBSMC) with block sizes as large as 16×16 a
as small as 4×4, enabling precise segmentation of moving regions.
Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Videokompression
?
?
?
Wie ließe sich diese Videosequenz komprimieren?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg
Videokompression: Möglichkeiten in der Beseitigung von Redundanzen
Videokompression
Bild- bzw. Framedimensionen (Höhe und Breite)
- Eigenschaften der Pixel (Helligkeit, Farbe)
- Eigenschaften des jeweils betrachteten Frames
Zeitliche Dimension
Welche der beiden Videosequenzen lässt sich besser /
stärker komprimieren? Warum?
http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg / http://mamboaustralia.com/isfucked/wp-content/uploads/2011/05/CHEADLE_CULBURRA_SEQUENCE1.jpg
Unterscheidung:
 Intra-coding (auch: spatial coding): Redundanz aus
einem Frame entfernen (räumliche Redundanz),
Kompression teilweise analog zu JPEG
 Vektorquantisierung
 Konturbasierte Codierung
vs.
 Inter-coding (auch: temporal coding): Redundanz
zwischen Frames entfernen (temporale Redundanz)
 Differenzkodierung (frame differencing)
 Bewegungskompensation
Videokompression
Idee und Verfahrensweise:
 Aufteilung des Frames in Blöcke (4x4, 8x8, etc.)
 Suche nach ähnlichen Blöcken
 Ähnliche Blöcke im Bild ersetzen durch „Durchschnittsblock“
 Zwei Schritte:
 Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken 
Häufig verwendet: Linde–Buzo–Gray Algorithmus
 Berücksichtigung der Ähnlichkeit der notierten Blöcke
 Dekoder muss über das gleiche Codebuch verfügen
Vorteile:
 Schnelle Decodierung
 Gute Kompression bei vielen ähnlichen Blöcken
Nachteile:
 Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen
Praxis: Verwendung in Codecs: Indeo, Cinepak
Intra-Coding: Vektorquantisierung
Idee und Verfahrensweise:
 Trennung in Textur und Kontur
 Konturen beschreiben (z.B.) durch Bézier-Kurven
 Texturen kodieren (z.B. mit DCT)
Praxis: Verwendung ansatzweise in MPEG-4
Knackpunkt: Objekterkennung
Intra-Coding: Konturbasierte Codierung
Inter-coding
Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
t = 1 t = 2 t = 3
…Kompression…?
t = 1
Frame vollständig gespeichert
 I-Frame
t = 2
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
…Kompression!
t = 3
Aus dem vorhergehenden
Frame berechnetes Frame
 P-Frame
Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
Speichern der Differenzen zwischen Start- und
Folgeframe, z.B. pixelweise
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
Intra- vs. Predicted- vs. Bidirectional Frames:
 Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild)
wird nur unter Berücksichtigung der eigenen Bildinformation
kodiert
 Predicted Frames (P-Frames) werden aus den
vorhergehenden I-Frames berechnet.
 Bidirectional Frames beziehen sich sowohl
 auf die vorhergehenden I- und P-Frames
als auch
 auf die folgenden I- und P-Frames.
Praxis
 MPEG-1 / -2: Ein I-Frame pro ½ Sek.
 MPEG-4: Ein I-Frame ~ alle 10 Sek.
Unterscheidung I: Frame-Typen (in MPEG)
Verfahrensweise
 Startframe und spätere I-Frames intracodiert
übertragen
 Unterschiede zum Folgeframe bestimmen, als Bild
interpretieren und dieses Bild komprimieren
Differenzcodierung
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
Verfahrensweise:
 Objektbewegungen zwischen Frames identifizieren
 Speicherung der Veränderungen als Bewegungsvektoren
(motion vector)
 Zu übertragen:
 Differenzbild
 Bewegungsvektoren
Bewegungskompensation (Motion Compensation)
Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 182.
Blockbasierte Bewegungskompensation
 Verwendung u.a. im MPEG-2 Standard
Grob:
 Jedes Frame des Videomaterials wird in n*m große
Pixelblöcke unterteilt
 Um die Bewegungskompensation zu leisten, werden
die Pixelblöcke von Frame zu Frame miteinander
verglichen
 Ähneln sich die Pixelblöcke (z.B. Kreuzkorrelation), so
wird nur der Verschiebungsvektor gespeichert, um
den sich der Block verschiebt
Bewegungskompensation
Video
 Container
 Matroska
 MP4
 Codecs
 DivX
 Xvid
 H.264
 Verfahren der Videokompression
 Intra-coding
 Vektorquantisierung
 Konturbasierte Codierung
 Interframe-coding
 Differenzcodierung
 Bewegungskompensation
Themenüberblick
Audiokompression
Hörbeispiel
Akustische Signale = zumeist periodische Signale
Audio: Basics
 Amplitude
Maximalwert eines Signals
innerhalb einer Phase
 Schwingungsdauer
Zeit, bis eine Schwingung
wieder ihren
Ausgangszustand erreicht
 Wellenlänge
Frequenz, ausgedrückt in
Hertz (Hz, 1Hz = 1
Schwingung pro Sekunde)
Amplitude
Schwingungsdauer
Von analog nach digital:
Sampling  Digitalisierung von
Audiodaten
Grundfragen Sampling:
1. Wahl der geeigneten
Abtastrate (Sampling Rate)
2. Wahl der geeigneten
Auflösung
Eine Problemstellung: Sampling
Je häufiger die Schallwelle auf ihren Druck
abgetastet wird, desto besser wird der originale
Ton digital repräsentiert.
Zu wenige Abtastpunkte führen zu geraden
Linien, zu langen Wellen oder zu gezackten
Kurven.
Abtastrate (Sampling Rate)
Wahl der Abtastrate auf Basis des Nyquist-Shannon-
Abtasttheorems. „Wenn ein kontinuierliches Signal mit
einer oberen Grenzfrequenz von fmax mit einer
Abtastrate von mehr als 2*fmax abgetastet wird, kann
man das Ursprungssignal ohne Informationsverlust aus
dem abgetasteten Signal rekonstruieren.“
(Malaka, Butz, Hußmann: Medieninformatik. München: Pearson, 2009, S. 63.)
Das Abtasttheorem und die Praxis: Da menschliche
Ohren Schallwellen von maximal 22.000 Hz (= 22 kHz)
wahrnehmen können, liegt die erforderliche Nyquist-
Rate bei 44.000 Hz.
 Qualitativ hochwertige Audio-Digitalisate haben darum eine
Abtastrate von 44.100 Hz.
Shannon-Nyquist
Bekanntestes (und einfachstes) Abtastverfahren:
PCM (Pulse Code Modulation)  Für jeden
Abtastzeitpunkt: Messung eines Signalwertes
Bekannte Audio-Formate, die PCM verwenden:
WAV, AIFF
Pulse Code Modulation
Quantisierung: Abtasttiefe
Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Speicherplatzbedarf
Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer
klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit
60-minütiger Laufzeit?
Lösung
 Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet.
 Die Abtasttiefe liegt bei 16 Bit.
 Daraus folgt:
44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte
Speicherplatzbedarf
Hörschwellenmaskierung
Signale werden aus Frequenzspektrum entfernt,
die jenseits der (menschlichen) Hörschwelle
liegen
Frequenzmaskierung
 Entfernung von Signalen, die von Signalen mit
einer anderen Frequenz übertönt werden
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:24h_wecker.jpg&filetimestamp=20090809180759
Temporale Maskierung
 Auch zeitliche Abstände zwischen Tönen haben
einen Einfluss auf die Hörbarkeit:
 Geht einem starken Ton A ein schwächerer Ton B in
ähnlicher oder gleicher Frequenz voraus oder folgt ihm,
so gibt es zeitliche Abstände von bestimmter Dauer, in
denen Ton B nicht zu hören ist.
Kompression: Psychoakkustische Aspekte
Bildnachweis: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html
/
Aufgabe 1 (1 Punkt)
Welche Arten von Redundanz werden bei der Videokompression beseitigt? Erläutern
Sie in diesem Kontext die Begriffe Intra- und Inter-Coding und beschreiben Sie die
grundlegende Funktionsweise des Verfahrens „Motion Compensation“.
Aufgabe 2 (1 Punkt)
Beschreiben Sie die Vorgehensweise bei der Digitalisierung von Audiosignalen.
Beschreiben Sie in diesem Zusammenhang die folgenden Begriffe:
 Abtastrate (Sampling Rate)
 PCM
 Abtasttiefe (Quantisierung)
Aufgabe 3 (1 Punkt)
Welche Phänomene menschlicher Wahrnehmung (Stichwort: „Maskierung“) macht
man sich bei der Audiodaten-kompression zunutze?
Aufgabe 4 (1 Punkt)
Informieren Sie sich im WWW über das mp3-Format. In welchem Zusammenhang
steht mp3 mit der Moving Picture Experts Group?
Hausaufgaben

Weitere ähnliche Inhalte

Andere mochten auch

DigiMediaL_musik - Creative Commons für Musiker
DigiMediaL_musik - Creative Commons für MusikerDigiMediaL_musik - Creative Commons für Musiker
DigiMediaL_musik - Creative Commons für MusikerDigiMediaL_musik
 
Social CRM en Crosscanalidad 2013
Social CRM en Crosscanalidad 2013Social CRM en Crosscanalidad 2013
Social CRM en Crosscanalidad 2013PAVEL ALVAREZ
 
d3con presentation May 2011 - Lothar Krause (DE)
d3con presentation May 2011  - Lothar Krause (DE)d3con presentation May 2011  - Lothar Krause (DE)
d3con presentation May 2011 - Lothar Krause (DE)Sociomantic Labs
 
Dispositivos De Entrada en HCI
Dispositivos De Entrada en HCIDispositivos De Entrada en HCI
Dispositivos De Entrada en HCIOmar Sosa-Tzec
 

Andere mochten auch (9)

Surah baqara 184 to 200
Surah baqara 184 to 200Surah baqara 184 to 200
Surah baqara 184 to 200
 
Agile Virtualisierung
Agile VirtualisierungAgile Virtualisierung
Agile Virtualisierung
 
DigiMediaL_musik - Creative Commons für Musiker
DigiMediaL_musik - Creative Commons für MusikerDigiMediaL_musik - Creative Commons für Musiker
DigiMediaL_musik - Creative Commons für Musiker
 
Social CRM en Crosscanalidad 2013
Social CRM en Crosscanalidad 2013Social CRM en Crosscanalidad 2013
Social CRM en Crosscanalidad 2013
 
d3con presentation May 2011 - Lothar Krause (DE)
d3con presentation May 2011  - Lothar Krause (DE)d3con presentation May 2011  - Lothar Krause (DE)
d3con presentation May 2011 - Lothar Krause (DE)
 
Dispositivos De Entrada en HCI
Dispositivos De Entrada en HCIDispositivos De Entrada en HCI
Dispositivos De Entrada en HCI
 
Arte
ArteArte
Arte
 
Trabajo g.a.bequer
Trabajo g.a.bequerTrabajo g.a.bequer
Trabajo g.a.bequer
 
Befugnisse
BefugnisseBefugnisse
Befugnisse
 

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren

Begriffe aus der Videotranskodierung erklärt
Begriffe aus der Videotranskodierung erklärtBegriffe aus der Videotranskodierung erklärt
Begriffe aus der Videotranskodierung erklärtnerodude
 
IMAI HD Video 2011 - Excerpt
IMAI HD Video 2011 - ExcerptIMAI HD Video 2011 - Excerpt
IMAI HD Video 2011 - ExcerptJürgen Enge
 
Videokompression
VideokompressionVideokompression
Videokompressionhcycon
 
The Dirac Video CoDec
The Dirac Video CoDecThe Dirac Video CoDec
The Dirac Video CoDecMarc Seeger
 
Nano dvr bedienungsanleitung
Nano dvr bedienungsanleitungNano dvr bedienungsanleitung
Nano dvr bedienungsanleitunghanknumb
 
Barco NRC & ClickShare: Live Demo
Barco NRC & ClickShare: Live DemoBarco NRC & ClickShare: Live Demo
Barco NRC & ClickShare: Live DemorAVe [PUBS]
 
State of TV - Stand der Vortragsaufzeichnung 11/2017
State of TV - Stand der Vortragsaufzeichnung 11/2017State of TV - Stand der Vortragsaufzeichnung 11/2017
State of TV - Stand der Vortragsaufzeichnung 11/2017frankstaude
 
Netzwerktechnik - VHS Braunschweig (Okt 2017)
Netzwerktechnik - VHS Braunschweig (Okt 2017)Netzwerktechnik - VHS Braunschweig (Okt 2017)
Netzwerktechnik - VHS Braunschweig (Okt 2017)Joe Brandes
 
20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridgeWerner Fischer
 
OSG Volume Rendering - Presentation
OSG Volume Rendering - PresentationOSG Volume Rendering - Presentation
OSG Volume Rendering - PresentationRoland Bruggmann
 

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren (13)

Begriffe aus der Videotranskodierung erklärt
Begriffe aus der Videotranskodierung erklärtBegriffe aus der Videotranskodierung erklärt
Begriffe aus der Videotranskodierung erklärt
 
Mpeg7 und Mpeg21
Mpeg7 und Mpeg21Mpeg7 und Mpeg21
Mpeg7 und Mpeg21
 
IMAI HD Video 2011 - Excerpt
IMAI HD Video 2011 - ExcerptIMAI HD Video 2011 - Excerpt
IMAI HD Video 2011 - Excerpt
 
Videokompression
VideokompressionVideokompression
Videokompression
 
The Dirac Video CoDec
The Dirac Video CoDecThe Dirac Video CoDec
The Dirac Video CoDec
 
Nano dvr bedienungsanleitung
Nano dvr bedienungsanleitungNano dvr bedienungsanleitung
Nano dvr bedienungsanleitung
 
Barco NRC & ClickShare: Live Demo
Barco NRC & ClickShare: Live DemoBarco NRC & ClickShare: Live Demo
Barco NRC & ClickShare: Live Demo
 
State of TV - Stand der Vortragsaufzeichnung 11/2017
State of TV - Stand der Vortragsaufzeichnung 11/2017State of TV - Stand der Vortragsaufzeichnung 11/2017
State of TV - Stand der Vortragsaufzeichnung 11/2017
 
Lexikon Der Videoformate
Lexikon Der VideoformateLexikon Der Videoformate
Lexikon Der Videoformate
 
Netzwerktechnik - VHS Braunschweig (Okt 2017)
Netzwerktechnik - VHS Braunschweig (Okt 2017)Netzwerktechnik - VHS Braunschweig (Okt 2017)
Netzwerktechnik - VHS Braunschweig (Okt 2017)
 
20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge20111006 roadshow-sandy-bridge
20111006 roadshow-sandy-bridge
 
OSG Volume Rendering - Presentation
OSG Volume Rendering - PresentationOSG Volume Rendering - Presentation
OSG Volume Rendering - Presentation
 
Medienverwaltung ZKI-Hamburg
Medienverwaltung ZKI-HamburgMedienverwaltung ZKI-Hamburg
Medienverwaltung ZKI-Hamburg
 

Mehr von Institute for Digital Humanities, University of Cologne

Mehr von Institute for Digital Humanities, University of Cologne (20)

Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
 
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
 
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Bit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-gamesBit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-games
 
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-visionBit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
 
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filterBit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompressionBit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-iiBit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
 
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikationBit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
 
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conwayBit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
 
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatikBit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
 
Bit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmenBit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmen
 
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturenBit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
 
Bit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischungBit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischung
 
Bit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblickBit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblick
 
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung IIBit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
 

SoSe 2013 | Basisinformationstechnologie II - 07_Video / Audio: Kompressionsverfahren

  • 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2013 19. Juni 2013 – Audio / Video: Kompressionsverfahren
  • 2. Video  Container  Matroska  MP4  Codecs  DivX  Xvid  H.264  Verfahren der Videokompression  Intra-coding  Vektorquantisierung  Konturbasierte Codierung  Inter-coding  Differenzcodierung  Bewegungskompensation Audio  Sampling  Kompression Themenüberblick
  • 5. Bildnachweis: „Kill Bill“ (2003) Bitraten (37 sec.): ◦ 1 Mbps (~5 MB) ◦ 500 Kbps (~3 MB) ◦ 100 Kbps (~1,6 MB) Konstante Bitrate (CBR) vs. Variable Bitrate (VBR)
  • 6.  ~25 Bilder pro Sekunde  25 fps (frames per second)  Auflösung  Farbtiefe (Quantisierung) z.B. 24 Bit pro Pixel  Rechenexempel unkomprimiertes Video:  720 * 576 * 24 = 9.953.280 Bit pro Frame = ~1,2 MB / Frame (9.953.280 / 8 / 1024)  1,2 MB * 25 Frames = 30 MB/ sec.  30 MB * 60 sec. = 1.800 MB / min.  1,8 GB * 60 min. = 108 GB / std. Speicherplatzbedarf von Videomaterial
  • 7. DVD & Co. Quelle: http://www.bluray-disc.de/faq/was-ist-der-unterschied-zwischen-blu-ray-und-der-dvd
  • 8.
  • 9. Container Codecs  Von den Begriffen Compressor und Decompressor • Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden. • Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen. • Software-Codecs
  • 10. MKV: Matroska Media Container http://matroska.org/technical/whatis/index.html
  • 11. Matroska Media Container Matroska • Unterstützt Videocodecs: • MPEG-1, MPEG-2, MPEG-4 • H.264 • RealVideo, WMV, Theora, Dirac • … • Unterstützt Audiocodecs: • MP3 • AAC, AC3, DTS, WAV, Vorbis, FLAC
  • 12. Container: mp4 Mp4  Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf folgende Formate:  Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1  Audio: AAC, MP3, MP2, MP1, AC-3  Bilder: JPEG, PNG  Grafik und Text: BIFS (z. B. können Untertitel in dieses Format umgewandelt werden)  Dateiendungen:  .m4v, .mp4v: Video (MPEG-4-Videoströme)  .m4a: nur für Audio  .m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können  .m4p: (Protected): DRM-geschützte AAC-Audiodateien  .m4r: (Ringtone): Klingeltöne für iPhone
  • 14.
  • 15. Codec: DivX DivX  <= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec:  u.a.: Erhöhung der maximalen Bitrate  MS MPEG 4: 256 kbps  DivX: bis 6 mbps  Erzeugt kein ISO-konformes MPEG 4 Video  > DivX ;-) 3.11: Neuentwicklung, patentierter Codec  Unterstützt u.a.:  Multipass Encoding (variable Bitrate)  Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine niedrigere Bitrate  2000: Gründung der Firma DivXNetworks   Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU- Projektes „MoMuSys“ (Mobile Multimedia Systems)  Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die Entwicklungsarbeiten an OpenDivX werden eingestellt  Kodiereffizienz schlechter als bei DivX ;-)  DivX 5: Erstes kommerzielles Produkt  …DivX 9.1.2 (2013-05) Linktipp: http://www.heise.de/ct/artikel/DivX-im-Griff-288448.html
  • 16. Coded: Xvid Xvid  Freie MPEG-4 Implementierung (GNU General Public License), basierend auf OpenDivX Quelltext  Techniken:  B-Frames  Quarter Pixel Compensation  …
  • 17. Codec: H.264 H.264 • 2003 als Standard verabschiedet: MPEG-4 Part 10 oder auch AVC (Advanced Video Coding)  Zehnter Teil des MPEG-4 Standards (MPEG- 4/Part 10, ISO/IEC 14496-10) • Datei-/Containerformat: mp4 • Verwendung: • HDTV / Blu-Ray • Freier, quelloffener Encoder: x264 (http://www.videolan.org/developers/x264.html)
  • 18. H.264 Variable block-size motion compensation (VBSMC) with block sizes as large as 16×16 a as small as 4×4, enabling precise segmentation of moving regions.
  • 19. Videokompression: Möglichkeiten in der Beseitigung von Redundanzen Videokompression ? ? ?
  • 20. Wie ließe sich diese Videosequenz komprimieren? http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg
  • 21. Videokompression: Möglichkeiten in der Beseitigung von Redundanzen Videokompression Bild- bzw. Framedimensionen (Höhe und Breite) - Eigenschaften der Pixel (Helligkeit, Farbe) - Eigenschaften des jeweils betrachteten Frames Zeitliche Dimension
  • 22. Welche der beiden Videosequenzen lässt sich besser / stärker komprimieren? Warum? http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg / http://mamboaustralia.com/isfucked/wp-content/uploads/2011/05/CHEADLE_CULBURRA_SEQUENCE1.jpg
  • 23. Unterscheidung:  Intra-coding (auch: spatial coding): Redundanz aus einem Frame entfernen (räumliche Redundanz), Kompression teilweise analog zu JPEG  Vektorquantisierung  Konturbasierte Codierung vs.  Inter-coding (auch: temporal coding): Redundanz zwischen Frames entfernen (temporale Redundanz)  Differenzkodierung (frame differencing)  Bewegungskompensation Videokompression
  • 24. Idee und Verfahrensweise:  Aufteilung des Frames in Blöcke (4x4, 8x8, etc.)  Suche nach ähnlichen Blöcken  Ähnliche Blöcke im Bild ersetzen durch „Durchschnittsblock“  Zwei Schritte:  Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken  Häufig verwendet: Linde–Buzo–Gray Algorithmus  Berücksichtigung der Ähnlichkeit der notierten Blöcke  Dekoder muss über das gleiche Codebuch verfügen Vorteile:  Schnelle Decodierung  Gute Kompression bei vielen ähnlichen Blöcken Nachteile:  Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen Praxis: Verwendung in Codecs: Indeo, Cinepak Intra-Coding: Vektorquantisierung
  • 25.
  • 26. Idee und Verfahrensweise:  Trennung in Textur und Kontur  Konturen beschreiben (z.B.) durch Bézier-Kurven  Texturen kodieren (z.B. mit DCT) Praxis: Verwendung ansatzweise in MPEG-4 Knackpunkt: Objekterkennung Intra-Coding: Konturbasierte Codierung
  • 29. t = 1 Frame vollständig gespeichert  I-Frame t = 2 Aus dem vorhergehenden Frame berechnetes Frame  P-Frame …Kompression! t = 3 Aus dem vorhergehenden Frame berechnetes Frame  P-Frame Bildnachweis: http://www.ipway.rs/h264/Doc/wp_h264_31669_en_0803_lo.pdf
  • 30. Speichern der Differenzen zwischen Start- und Folgeframe, z.B. pixelweise Differenzcodierung Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
  • 31. Intra- vs. Predicted- vs. Bidirectional Frames:  Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild) wird nur unter Berücksichtigung der eigenen Bildinformation kodiert  Predicted Frames (P-Frames) werden aus den vorhergehenden I-Frames berechnet.  Bidirectional Frames beziehen sich sowohl  auf die vorhergehenden I- und P-Frames als auch  auf die folgenden I- und P-Frames. Praxis  MPEG-1 / -2: Ein I-Frame pro ½ Sek.  MPEG-4: Ein I-Frame ~ alle 10 Sek. Unterscheidung I: Frame-Typen (in MPEG)
  • 32. Verfahrensweise  Startframe und spätere I-Frames intracodiert übertragen  Unterschiede zum Folgeframe bestimmen, als Bild interpretieren und dieses Bild komprimieren Differenzcodierung Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
  • 33. Verfahrensweise:  Objektbewegungen zwischen Frames identifizieren  Speicherung der Veränderungen als Bewegungsvektoren (motion vector)  Zu übertragen:  Differenzbild  Bewegungsvektoren Bewegungskompensation (Motion Compensation) Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 182.
  • 34.
  • 35. Blockbasierte Bewegungskompensation  Verwendung u.a. im MPEG-2 Standard Grob:  Jedes Frame des Videomaterials wird in n*m große Pixelblöcke unterteilt  Um die Bewegungskompensation zu leisten, werden die Pixelblöcke von Frame zu Frame miteinander verglichen  Ähneln sich die Pixelblöcke (z.B. Kreuzkorrelation), so wird nur der Verschiebungsvektor gespeichert, um den sich der Block verschiebt Bewegungskompensation
  • 36. Video  Container  Matroska  MP4  Codecs  DivX  Xvid  H.264  Verfahren der Videokompression  Intra-coding  Vektorquantisierung  Konturbasierte Codierung  Interframe-coding  Differenzcodierung  Bewegungskompensation Themenüberblick
  • 39.
  • 40. Akustische Signale = zumeist periodische Signale Audio: Basics  Amplitude Maximalwert eines Signals innerhalb einer Phase  Schwingungsdauer Zeit, bis eine Schwingung wieder ihren Ausgangszustand erreicht  Wellenlänge Frequenz, ausgedrückt in Hertz (Hz, 1Hz = 1 Schwingung pro Sekunde) Amplitude Schwingungsdauer
  • 41. Von analog nach digital: Sampling  Digitalisierung von Audiodaten Grundfragen Sampling: 1. Wahl der geeigneten Abtastrate (Sampling Rate) 2. Wahl der geeigneten Auflösung Eine Problemstellung: Sampling
  • 42. Je häufiger die Schallwelle auf ihren Druck abgetastet wird, desto besser wird der originale Ton digital repräsentiert. Zu wenige Abtastpunkte führen zu geraden Linien, zu langen Wellen oder zu gezackten Kurven. Abtastrate (Sampling Rate)
  • 43. Wahl der Abtastrate auf Basis des Nyquist-Shannon- Abtasttheorems. „Wenn ein kontinuierliches Signal mit einer oberen Grenzfrequenz von fmax mit einer Abtastrate von mehr als 2*fmax abgetastet wird, kann man das Ursprungssignal ohne Informationsverlust aus dem abgetasteten Signal rekonstruieren.“ (Malaka, Butz, Hußmann: Medieninformatik. München: Pearson, 2009, S. 63.) Das Abtasttheorem und die Praxis: Da menschliche Ohren Schallwellen von maximal 22.000 Hz (= 22 kHz) wahrnehmen können, liegt die erforderliche Nyquist- Rate bei 44.000 Hz.  Qualitativ hochwertige Audio-Digitalisate haben darum eine Abtastrate von 44.100 Hz. Shannon-Nyquist
  • 44.
  • 45. Bekanntestes (und einfachstes) Abtastverfahren: PCM (Pulse Code Modulation)  Für jeden Abtastzeitpunkt: Messung eines Signalwertes Bekannte Audio-Formate, die PCM verwenden: WAV, AIFF Pulse Code Modulation
  • 47. Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit 60-minütiger Laufzeit? Speicherplatzbedarf
  • 48. Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit 60-minütiger Laufzeit? Lösung  Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet.  Die Abtasttiefe liegt bei 16 Bit.  Daraus folgt: 44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte Speicherplatzbedarf
  • 49. Hörschwellenmaskierung Signale werden aus Frequenzspektrum entfernt, die jenseits der (menschlichen) Hörschwelle liegen Frequenzmaskierung  Entfernung von Signalen, die von Signalen mit einer anderen Frequenz übertönt werden Kompression: Psychoakkustische Aspekte Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:24h_wecker.jpg&filetimestamp=20090809180759
  • 50. Temporale Maskierung  Auch zeitliche Abstände zwischen Tönen haben einen Einfluss auf die Hörbarkeit:  Geht einem starken Ton A ein schwächerer Ton B in ähnlicher oder gleicher Frequenz voraus oder folgt ihm, so gibt es zeitliche Abstände von bestimmter Dauer, in denen Ton B nicht zu hören ist. Kompression: Psychoakkustische Aspekte Bildnachweis: http://www.itwissen.info/definition/lexikon/Maskierung-masking.html
  • 51. /
  • 52. Aufgabe 1 (1 Punkt) Welche Arten von Redundanz werden bei der Videokompression beseitigt? Erläutern Sie in diesem Kontext die Begriffe Intra- und Inter-Coding und beschreiben Sie die grundlegende Funktionsweise des Verfahrens „Motion Compensation“. Aufgabe 2 (1 Punkt) Beschreiben Sie die Vorgehensweise bei der Digitalisierung von Audiosignalen. Beschreiben Sie in diesem Zusammenhang die folgenden Begriffe:  Abtastrate (Sampling Rate)  PCM  Abtasttiefe (Quantisierung) Aufgabe 3 (1 Punkt) Welche Phänomene menschlicher Wahrnehmung (Stichwort: „Maskierung“) macht man sich bei der Audiodaten-kompression zunutze? Aufgabe 4 (1 Punkt) Informieren Sie sich im WWW über das mp3-Format. In welchem Zusammenhang steht mp3 mit der Moving Picture Experts Group? Hausaufgaben