Svět viděný kompresním algoritmem

Svět viděný kompresním
algoritmem
3. 11. 2015 Josef Šlerka
Studia nových médií

Obsah
1. Kolmogorova komplexita
2. Syntaktická aplikace - kompresní algoritmy
3. Sémantická aplikace - corpus distance
4. Pragmatická aplikace - social distance

1. Kolmogorova
komplexita
algoritmická teorie informací
informační vzdálenost

Kolmogorov a složitost
Teorie Kolmogorovy komplexity se snaží odpovědět na
otázku “Co je nahodilý objekt?”
Představuje algoritmickou teorii informace a tvoří de
facto doplněk teorie Shannona.

Složitost
Mějme k dispozici tři číselné řetězce v desítkové
soustavě:
a) 3333333333
b) 3141596535
c) 84354279521
Který z nich bychom považovali za náhodný?

Složitost
Čím delší je popis postupu, který potřebujeme k
popsání řetězce, tím je řetězec více komplexní. V
Kolgomorově pojetí však nejde o popis v nějakém
jazyce, ale existenci univerzalního počítačového stroje
(Turingova stroje), který takový popis generuje, a délku
tohoto programu.

Informační vzdálenost
Teorie informační vzdálenosti představuje rozšíření
Kolmogorovy komplexity o myšlenku vzdálenosti mezi
řetězci, respektive jejich podobnosti. Podle ní je
minimální informační vzdálenost mezi dvěma
instancemi (řetězce x a y) vyjádřená délkou
nejkratšího programu, který transformuje jeden
řetězec na druhý a naopak. Univerzální informační
vzdálenost je vyjádřena pak vzorcem E(x,y) =
max{K(x|y),K(y|x)}.

Informační vzdálenost
Vitányi a Cilibrasi od této myšlenky odvozují obecnou
normalizovanou informační vzdálenost (normalized
information distance), která by byla schopna
produkovat i metrickou vzdálenost. Výsledkem je
následující vzorec

2. Normalized
Compression Distance
Syntaktická aplikace

NCD
Teorie informační vzdálenosti je teoretická konstrukce,
kterou není možné v praxi vytvořit, je totiž závislá na
nespočitatelné funkci K. Je však možné použít jinou
funkci, která se v reálném světě o podobnou funkčnost
snaží. Těmito programy jsou dle autorů kompresní
algoritmy, které mají za úkolu spočítat co největší
bezztrátovou kompresi dat, tedy co největší redukci
komplexit pomocí univerzálního programu.

NCD
Odpovídá to i zkušenosti, kterou máme z jejich
každodenního používání. Pokud pomocí kompresního
programu tzv. zabalíme dva soubory, které jsou si
podobnější než jiné dva, rozdíl mezi výslednou délkou
nového souboru a délkou odpovídající součtu délek
původních souborů je menší.

NCD
Komprese dat (také komprimace dat) je zpracování
počítačových dat s cílem zmenšit jejich objem
(jednotka bajt) při současném zachování informací v
datech obsažených. Úkolem komprese dat je zmenšit
datový tok při jejich přenosu nebo zmenšit potřebu
zdrojů při ukládání informací. (Wikipedia)
Obvykle se snaží alg. nalézt opakující se sekvence
znaků a vytvořit z nich slovník, který umožňuje odkaz
na přesné místo.

Příklad komprese
P. Petyovský, Metody a algoritmy komprese dat. Od
základních principů k aplikaci

NCD
Upravený vzorec vypadá následovně:
Přičemž Z je kompresní algoritmus a x a y zůstávají
řetězce určené k porovnání.
Formální důkazy Vitányiho a Cilibrase ukazují, že se
jedná o plnohodnotnou distanční metriku.

NCD
Autoři NCD provedli sérii testů navrženého postupu na
celé řadě druhů řetězců (knihy, lidský genom, MIDI
soubory), které se zdají potvrzovat univerzální
charakter navrženého modelu a to včetně klasifikace
heterogenních řetězců. Na vstupu v tomto
experimentu byla data z genetiky, ukázky z literárních
textů, MIDI soubory, binární počítačové programy a
zkompilované programy ze zdrojových kodů
programovacího jazky Java. Využit byl kompresní
algoritmus bzip a metoda quartet clustering.

NCD
Experimenty dalších autorů potvrzují předchozí
experimenty autorů, včetně předpokládané odolnosti
NCD proti šumům v textu. Dále se věnují jeho dalším
aplikacím například pro automatickou evaluaci
strojového překladu. Další studie, za účasti autora
původního týmu Paula Vitanyiho, pak sledují využití
NCD při klastrování.

NCD
v rámci semináře Digital Humanities provedli studenti
Studia nových médií řadu experimentů, které
naznačují univerzálnost postupu:
http://snm-blog.tumblr.com/post/42742243421/digital-
humanities-6-complearn
http://janmarsicek.tumblr.com/post/44283514150/ncd-
capek-macha-nemcova
http://jitkab.tumblr.com/post/38054898777/podobnost-
seri%C3%A1l%C5%AF-podle-ncd

4. Normalized Corpus
Distance
Sémantická aplikace

Corpus Distance
Aplikace teorie informační vzdálenosti v NCD se
omezuje pouze na řetězce, nikoli na ideje nebo pojmy.
Proto se její autoři rozhodli příjít s metrikou, která toto
omezení překračuje a tím je korpus World Wide Webu.
Podle Cilibrase je možné index vyhledávačů v případě
uložení univerzální distribuce slov na stránkách a
vyhledávač pak jako určitý druh pseudo-compressoru,
který zohledňuje všechny dimenze lidského mínění.

Corpus Distance
Vitanyi s odkazem na Shannon-Fano code a uchopení
indexu korpusu jako pseudo-compressoru pak
formalizuje novou metriku takto:
Kde f(x) je počet stránek obsahující x, f(x,y) je počet
stránek obsahující obojí a N je počet celkově
indexovaných stránek.

Corpus Distance
Cilibrasi popisuje ve své dizertaci Statistical inference
through data compression základní kontrast mezi
oběma přístupy takto:
The first type is the NCD based on a literal
interpretation of the data: the data is the object itself.
The second type is the NGD masses of contexts
expressing a large body of common-sense
knowledge. It may be said that the first case ignores
the meaning of the message, whereas the second
focuses on it.

Corpus Distance
Série experimentu provedené Cilibrasem a Vitanyim
pomocí výsledků vyhledávače Google přináší v tomto
ohledu velmi uspokojivé výsledky.[15] Předmětem
experimentů byly názvy díla holandský malířů 17.
století, názvy anglických románů, čísla a barvy a
názvy Shakespearových děl. Ve všech případech
dokázal postup díla správně rozdělit. Předmětem
experimentu byla i rekonstrukce vazeb vyjádřených
experty ve WordNetu. Zde byla přesnost mezi NGD a
vazbou ve WordNetu 0.8725.

4. Normalized Social
Distance
Pragmatická rovina

Social Distance
Pokud NWD přináší myšlenku sémantické vrstvy
informací, lze se odvážit ještě o jednu vrstvu dál a to
na vrstvu pragmatickou, opírající se o množství
podobností, které jednotlivé sociální skupiny tvoří. A
definovat formálně metodu počítání vzdálenosti mezi
dvěma sociálními skupinami.

Social Distance
Formálně vypadá takto:
Kdy f(x) je počet členů jedné subskupiny, f(y) je počet
druhé subskupiny, f(x,y) vyjadřuje počet členů obou
skupin a N je celkový počet členů skupiny.

Social Distance
Takto formálně vyjádřená vzdálenost by měla být
schopna měřit vzdálenost libovolných dvou sociálních
subskupin, které jsou zastřešeny jednotnou skupinou.
Kupříkladu v případě bimodální sítě navštěvníků
místních restaurací na malém městě by takto šla
počítat bízkost sociální blízkosti podniků.

NFD
NSD je ovšem metrika univerzální, kterou je možné
přizpůsobit pro data ze sociálních sítí. V následujících
případových studiích jsem ji aplikoval na případě
sociální sítě Facebook v upravené podobě jako
Normalized Facebook Distance (NFD), která počítá
blízkost jednotlivých stránek na základě průniku jejich
zapojených fanoušků.

NFD
Pokud chápeme popis uživatele de facto jako síť
rozdílu v preferovaných stránkách, nabízí se možnost
nejen věnovat se celkové charakteristice fanoušků
prostřednictvím distančního modelu, ale také jejich
podrobnější charakteristice, přesněji nalezení zřetelně
odlišených subskupin.

NFD
Takováto matice je v podstatě bimodální sítí s relativně
nízkou hustotou, zároveň ale může být podrobena
některým klasickým exploračním technikám, jako je
hierarchický klastering, multidimensionalní scaling či
analýza základních komponent (PCA).

NFD
Pro průzkum takových matic jsem vytvořil aplikace
Facebook profiling, který má na vstupu dva soubory.
První je tabulka s distančním modelem fanoušků a
druhým pak binární matice obsahující na řádcích ID
uživatelů a ve sloupcích pak stránky, v nichž se
fanoušci zkoumané stránky nejčastěji zapojují svým
like.

Dělnická strana
případová studie

DSSS
Stránka Dělnické strany sociální spravedlnosti, která je
považována za tolerovanou formu neonacismu na
české politické scéně. Minimální hranici pro průnik
jsem v našem případě stanovili na 5% a blízkost
menší než 0.7. V našem případě se jedná o data ze
začátku roku 2014.
Distanční model stránky fanoušků aktivních na
stránkách vypadá takto:

Děkuji za pozornost
@josefslerla

A literatura?
Plánovaný výzkum v knihovnách, který klastruje knihy
podle jejich čtenářů, stejně jako to doposud děláme na
Facebook s fanoušky stránek.

Svět viděný kompresním algoritmem

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Más de Josef Šlerka

Más de Josef Šlerka (20)

Svět viděný kompresním algoritmem