SlideShare una empresa de Scribd logo
1 de 45
Descargar para leer sin conexión
Svět viděný kompresním
algoritmem
3. 11. 2015 Josef Šlerka
Studia nových médií
Obsah
1. Kolmogorova komplexita
2. Syntaktická aplikace - kompresní algoritmy
3. Sémantická aplikace - corpus distance
4. Pragmatická aplikace - social distance
1. Kolmogorova
komplexita
algoritmická teorie informací
informační vzdálenost
Kolmogorov a složitost
Teorie Kolmogorovy komplexity se snaží odpovědět na
otázku “Co je nahodilý objekt?”
Představuje algoritmickou teorii informace a tvoří de
facto doplněk teorie Shannona.
Složitost
Mějme k dispozici tři číselné řetězce v desítkové
soustavě:
a) 3333333333
b) 3141596535
c) 84354279521
Který z nich bychom považovali za náhodný?
Složitost
Čím delší je popis postupu, který potřebujeme k
popsání řetězce, tím je řetězec více komplexní. V
Kolgomorově pojetí však nejde o popis v nějakém
jazyce, ale existenci univerzalního počítačového stroje
(Turingova stroje), který takový popis generuje, a délku
tohoto programu.
Informační vzdálenost
Teorie informační vzdálenosti představuje rozšíření
Kolmogorovy komplexity o myšlenku vzdálenosti mezi
řetězci, respektive jejich podobnosti. Podle ní je
minimální informační vzdálenost mezi dvěma
instancemi (řetězce x a y) vyjádřená délkou
nejkratšího programu, který transformuje jeden
řetězec na druhý a naopak. Univerzální informační
vzdálenost je vyjádřena pak vzorcem E(x,y) =
max{K(x|y),K(y|x)}.
Informační vzdálenost
Vitányi a Cilibrasi od této myšlenky odvozují obecnou
normalizovanou informační vzdálenost (normalized
information distance), která by byla schopna
produkovat i metrickou vzdálenost. Výsledkem je
následující vzorec
2. Normalized
Compression Distance
Syntaktická aplikace
NCD
Teorie informační vzdálenosti je teoretická konstrukce,
kterou není možné v praxi vytvořit, je totiž závislá na
nespočitatelné funkci K. Je však možné použít jinou
funkci, která se v reálném světě o podobnou funkčnost
snaží. Těmito programy jsou dle autorů kompresní
algoritmy, které mají za úkolu spočítat co největší
bezztrátovou kompresi dat, tedy co největší redukci
komplexit pomocí univerzálního programu.
NCD
Odpovídá to i zkušenosti, kterou máme z jejich
každodenního používání. Pokud pomocí kompresního
programu tzv. zabalíme dva soubory, které jsou si
podobnější než jiné dva, rozdíl mezi výslednou délkou
nového souboru a délkou odpovídající součtu délek
původních souborů je menší.
NCD
Komprese dat (také komprimace dat) je zpracování
počítačových dat s cílem zmenšit jejich objem
(jednotka bajt) při současném zachování informací v
datech obsažených. Úkolem komprese dat je zmenšit
datový tok při jejich přenosu nebo zmenšit potřebu
zdrojů při ukládání informací. (Wikipedia)
Obvykle se snaží alg. nalézt opakující se sekvence
znaků a vytvořit z nich slovník, který umožňuje odkaz
na přesné místo.
Příklad komprese
P. Petyovský, Metody a algoritmy komprese dat. Od
základních principů k aplikaci
NCD
Upravený vzorec vypadá následovně:
Přičemž Z je kompresní algoritmus a x a y zůstávají
řetězce určené k porovnání.
Formální důkazy Vitányiho a Cilibrase ukazují, že se
jedná o plnohodnotnou distanční metriku.
NCD
Autoři NCD provedli sérii testů navrženého postupu na
celé řadě druhů řetězců (knihy, lidský genom, MIDI
soubory), které se zdají potvrzovat univerzální
charakter navrženého modelu a to včetně klasifikace
heterogenních řetězců. Na vstupu v tomto
experimentu byla data z genetiky, ukázky z literárních
textů, MIDI soubory, binární počítačové programy a
zkompilované programy ze zdrojových kodů
programovacího jazky Java. Využit byl kompresní
algoritmus bzip a metoda quartet clustering.
Originály
Překlady
Karel Čapek
Česká poesie
NCD
Experimenty dalších autorů potvrzují předchozí
experimenty autorů, včetně předpokládané odolnosti
NCD proti šumům v textu. Dále se věnují jeho dalším
aplikacím například pro automatickou evaluaci
strojového překladu. Další studie, za účasti autora
původního týmu Paula Vitanyiho, pak sledují využití
NCD při klastrování.
NCD
v rámci semináře Digital Humanities provedli studenti
Studia nových médií řadu experimentů, které
naznačují univerzálnost postupu:
http://snm-blog.tumblr.com/post/42742243421/digital-
humanities-6-complearn
http://janmarsicek.tumblr.com/post/44283514150/ncd-
capek-macha-nemcova
http://jitkab.tumblr.com/post/38054898777/podobnost-
seri%C3%A1l%C5%AF-podle-ncd
4. Normalized Corpus
Distance
Sémantická aplikace
Corpus Distance
Aplikace teorie informační vzdálenosti v NCD se
omezuje pouze na řetězce, nikoli na ideje nebo pojmy.
Proto se její autoři rozhodli příjít s metrikou, která toto
omezení překračuje a tím je korpus World Wide Webu.
Podle Cilibrase je možné index vyhledávačů v případě
uložení univerzální distribuce slov na stránkách a
vyhledávač pak jako určitý druh pseudo-compressoru,
který zohledňuje všechny dimenze lidského mínění.
Corpus Distance
Vitanyi s odkazem na Shannon-Fano code a uchopení
indexu korpusu jako pseudo-compressoru pak
formalizuje novou metriku takto:
Kde f(x) je počet stránek obsahující x, f(x,y) je počet
stránek obsahující obojí a N je počet celkově
indexovaných stránek.
Corpus Distance
Cilibrasi popisuje ve své dizertaci Statistical inference
through data compression základní kontrast mezi
oběma přístupy takto:
The first type is the NCD based on a literal
interpretation of the data: the data is the object itself.
The second type is the NGD masses of contexts
expressing a large body of common-sense
knowledge. It may be said that the first case ignores
the meaning of the message, whereas the second
focuses on it.
Corpus Distance
Série experimentu provedené Cilibrasem a Vitanyim
pomocí výsledků vyhledávače Google přináší v tomto
ohledu velmi uspokojivé výsledky.[15] Předmětem
experimentů byly názvy díla holandský malířů 17.
století, názvy anglických románů, čísla a barvy a
názvy Shakespearových děl. Ve všech případech
dokázal postup díla správně rozdělit. Předmětem
experimentu byla i rekonstrukce vazeb vyjádřených
experty ve WordNetu. Zde byla přesnost mezi NGD a
vazbou ve WordNetu 0.8725.
Mechanická Popelka
4. Normalized Social
Distance
Pragmatická rovina
Social Distance
Pokud NWD přináší myšlenku sémantické vrstvy
informací, lze se odvážit ještě o jednu vrstvu dál a to
na vrstvu pragmatickou, opírající se o množství
podobností, které jednotlivé sociální skupiny tvoří. A
definovat formálně metodu počítání vzdálenosti mezi
dvěma sociálními skupinami.
Social Distance
Formálně vypadá takto:
Kdy f(x) je počet členů jedné subskupiny, f(y) je počet
druhé subskupiny, f(x,y) vyjadřuje počet členů obou
skupin a N je celkový počet členů skupiny.
Social Distance
Takto formálně vyjádřená vzdálenost by měla být
schopna měřit vzdálenost libovolných dvou sociálních
subskupin, které jsou zastřešeny jednotnou skupinou.
Kupříkladu v případě bimodální sítě navštěvníků
místních restaurací na malém městě by takto šla
počítat bízkost sociální blízkosti podniků.
NFD
NSD je ovšem metrika univerzální, kterou je možné
přizpůsobit pro data ze sociálních sítí. V následujících
případových studiích jsem ji aplikoval na případě
sociální sítě Facebook v upravené podobě jako
Normalized Facebook Distance (NFD), která počítá
blízkost jednotlivých stránek na základě průniku jejich
zapojených fanoušků.
NFD
Pokud chápeme popis uživatele de facto jako síť
rozdílu v preferovaných stránkách, nabízí se možnost
nejen věnovat se celkové charakteristice fanoušků
prostřednictvím distančního modelu, ale také jejich
podrobnější charakteristice, přesněji nalezení zřetelně
odlišených subskupin.
NFD
Takováto matice je v podstatě bimodální sítí s relativně
nízkou hustotou, zároveň ale může být podrobena
některým klasickým exploračním technikám, jako je
hierarchický klastering, multidimensionalní scaling či
analýza základních komponent (PCA).
NFD
Pro průzkum takových matic jsem vytvořil aplikace
Facebook profiling, který má na vstupu dva soubory.
První je tabulka s distančním modelem fanoušků a
druhým pak binární matice obsahující na řádcích ID
uživatelů a ve sloupcích pak stránky, v nichž se
fanoušci zkoumané stránky nejčastěji zapojují svým
like.
Dělnická strana
případová studie
DSSS
Stránka Dělnické strany sociální spravedlnosti, která je
považována za tolerovanou formu neonacismu na
české politické scéně. Minimální hranici pro průnik
jsem v našem případě stanovili na 5% a blízkost
menší než 0.7. V našem případě se jedná o data ze
začátku roku 2014.
Distanční model stránky fanoušků aktivních na
stránkách vypadá takto:
Děkuji za pozornost
@josefslerla
A literatura?
Plánovaný výzkum v knihovnách, který klastruje knihy
podle jejich čtenářů, stejně jako to doposud děláme na
Facebook s fanoušky stránek.

Más contenido relacionado

La actualidad más candente

Dual Embedding Space Model (DESM)
Dual Embedding Space Model (DESM)Dual Embedding Space Model (DESM)
Dual Embedding Space Model (DESM)
Bhaskar Mitra
 

La actualidad más candente (20)

Random walk on Graphs
Random walk on GraphsRandom walk on Graphs
Random walk on Graphs
 
Dual Embedding Space Model (DESM)
Dual Embedding Space Model (DESM)Dual Embedding Space Model (DESM)
Dual Embedding Space Model (DESM)
 
A Panorama of Natural Language Processing
A Panorama of Natural Language ProcessingA Panorama of Natural Language Processing
A Panorama of Natural Language Processing
 
學術傳播與學術圖書館
學術傳播與學術圖書館學術傳播與學術圖書館
學術傳播與學術圖書館
 
E-mail Restart 2024: Jan Baštýř a Jaroslav Kaucký - Případová studie: Svět mó...
E-mail Restart 2024: Jan Baštýř a Jaroslav Kaucký - Případová studie: Svět mó...E-mail Restart 2024: Jan Baštýř a Jaroslav Kaucký - Případová studie: Svět mó...
E-mail Restart 2024: Jan Baštýř a Jaroslav Kaucký - Případová studie: Svět mó...
 
Topic Models
Topic ModelsTopic Models
Topic Models
 
Introduction to Natural Language Processing
Introduction to Natural Language ProcessingIntroduction to Natural Language Processing
Introduction to Natural Language Processing
 
Deep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDeep Learning for Natural Language Processing
Deep Learning for Natural Language Processing
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
Data Restart 2023: Šárka Korychová - Singularita v kontextu zákazníka
Data Restart 2023: Šárka Korychová -  Singularita v kontextu zákazníkaData Restart 2023: Šárka Korychová -  Singularita v kontextu zákazníka
Data Restart 2023: Šárka Korychová - Singularita v kontextu zákazníka
 
Feature Engineering for NLP
Feature Engineering for NLPFeature Engineering for NLP
Feature Engineering for NLP
 
Nlp ambiguity presentation
Nlp ambiguity presentationNlp ambiguity presentation
Nlp ambiguity presentation
 
Intro to nlp
Intro to nlpIntro to nlp
Intro to nlp
 
Machine learning for Music
Machine learning for MusicMachine learning for Music
Machine learning for Music
 
NLP
NLPNLP
NLP
 
Natural language processing (NLP) introduction
Natural language processing (NLP) introductionNatural language processing (NLP) introduction
Natural language processing (NLP) introduction
 
NLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLPNLP Bootcamp 2018 : Representation Learning of text for NLP
NLP Bootcamp 2018 : Representation Learning of text for NLP
 
Understanding GloVe
Understanding GloVeUnderstanding GloVe
Understanding GloVe
 
Nonnegative Matrix Factorization
Nonnegative Matrix FactorizationNonnegative Matrix Factorization
Nonnegative Matrix Factorization
 
単純パーセプトロン
単純パーセプトロン単純パーセプトロン
単純パーセプトロン
 

Destacado

Proč být na sociálních sítích
Proč být na sociálních sítíchProč být na sociálních sítích
Proč být na sociálních sítích
Zdeněk Klusák
 

Destacado (20)

New Media, Big Data, IoT aneb jak to je?!
New Media, Big Data, IoT aneb jak to je?!New Media, Big Data, IoT aneb jak to je?!
New Media, Big Data, IoT aneb jak to je?!
 
We need to go deeper!
We need to go deeper!We need to go deeper!
We need to go deeper!
 
Jak se žije v Matrixu
Jak se žije v MatrixuJak se žije v Matrixu
Jak se žije v Matrixu
 
Malý velký svět bublin na Facebooku
Malý velký svět bublin na FacebookuMalý velký svět bublin na Facebooku
Malý velký svět bublin na Facebooku
 
Fingerprinting
FingerprintingFingerprinting
Fingerprinting
 
Nová média se starým obsahem
Nová média se starým obsahemNová média se starým obsahem
Nová média se starým obsahem
 
The Nature of Data
The Nature of DataThe Nature of Data
The Nature of Data
 
Boti tady, boti tam, všude kam se podívám
Boti tady, boti tam, všude kam se podívámBoti tady, boti tam, všude kam se podívám
Boti tady, boti tam, všude kam se podívám
 
Ways understand fans II. - Facebook
Ways understand fans II. - FacebookWays understand fans II. - Facebook
Ways understand fans II. - Facebook
 
Data, informace, zákony a indexy
Data, informace, zákony a indexyData, informace, zákony a indexy
Data, informace, zákony a indexy
 
Just metadata
Just metadataJust metadata
Just metadata
 
Domácí Instagram léto 2015 - pár dat
Domácí Instagram léto 2015 - pár datDomácí Instagram léto 2015 - pár dat
Domácí Instagram léto 2015 - pár dat
 
Propaganda
PropagandaPropaganda
Propaganda
 
Rebélie 2.0
Rebélie 2.0Rebélie 2.0
Rebélie 2.0
 
Měření v sociálních sítích v teorii a praxi
Měření v sociálních sítích v teorii a praxiMěření v sociálních sítích v teorii a praxi
Měření v sociálních sítích v teorii a praxi
 
Once upon a time...
Once upon a time...Once upon a time...
Once upon a time...
 
Proč být na sociálních sítích
Proč být na sociálních sítíchProč být na sociálních sítích
Proč být na sociálních sítích
 
Nebojte se sociálních sítí (15. října 2014, konference KyberPSYCHO)
Nebojte se sociálních sítí (15. října 2014, konference KyberPSYCHO)Nebojte se sociálních sítí (15. října 2014, konference KyberPSYCHO)
Nebojte se sociálních sítí (15. října 2014, konference KyberPSYCHO)
 
Google+ jako město duchů? Možná, ale spíš ne
Google+ jako město duchů? Možná, ale spíš neGoogle+ jako město duchů? Možná, ale spíš ne
Google+ jako město duchů? Možná, ale spíš ne
 
České mobilní (ne)komunikace
České mobilní (ne)komunikaceČeské mobilní (ne)komunikace
České mobilní (ne)komunikace
 

Más de Josef Šlerka

Más de Josef Šlerka (20)

Znaky, znaky, modely
Znaky, znaky, modelyZnaky, znaky, modely
Znaky, znaky, modely
 
LLM a mixed methods v humanitních vědách
LLM a mixed methods v humanitních vědáchLLM a mixed methods v humanitních vědách
LLM a mixed methods v humanitních vědách
 
Co je to datova novinarina
Co je to datova novinarinaCo je to datova novinarina
Co je to datova novinarina
 
Algoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvodAlgoritmy a sociální sítě - stručný úvod
Algoritmy a sociální sítě - stručný úvod
 
Atlas konspirací
Atlas konspiracíAtlas konspirací
Atlas konspirací
 
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
Parallel Polis Revisited: Way from concept of Parallel Polis to Distributed R...
 
Dezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČRDezinformační weby a zpravodajství v ČR
Dezinformační weby a zpravodajství v ČR
 
INFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLICINFOWAR IN CZECH REPUBLIC
INFOWAR IN CZECH REPUBLIC
 
Česká média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatěČeská média dnes aneb Pokus o kontext k aktuální debatě
Česká média dnes aneb Pokus o kontext k aktuální debatě
 
Svět viděný cizíma očima
Svět viděný cizíma očimaSvět viděný cizíma očima
Svět viděný cizíma očima
 
Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?Do Birds of a Feather Flock Together?
Do Birds of a Feather Flock Together?
 
Projekt Navigátor - datová část
Projekt Navigátor - datová částProjekt Navigátor - datová část
Projekt Navigátor - datová část
 
AI a žurnalistika
AI a žurnalistikaAI a žurnalistika
AI a žurnalistika
 
Stručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentuStručná zpráva o jednom experimentu
Stručná zpráva o jednom experimentu
 
Volba a metoda
Volba a metodaVolba a metoda
Volba a metoda
 
Wikipedie ve službách zla?!
Wikipedie ve službách zla?!Wikipedie ve službách zla?!
Wikipedie ve službách zla?!
 
Mediální krajinka?
Mediální krajinka?Mediální krajinka?
Mediální krajinka?
 
Facebook data mining - case study
Facebook data mining - case studyFacebook data mining - case study
Facebook data mining - case study
 
Facebookové fasády
Facebookové fasádyFacebookové fasády
Facebookové fasády
 
Propaganda
PropagandaPropaganda
Propaganda
 

Svět viděný kompresním algoritmem

  • 1. Svět viděný kompresním algoritmem 3. 11. 2015 Josef Šlerka Studia nových médií
  • 2. Obsah 1. Kolmogorova komplexita 2. Syntaktická aplikace - kompresní algoritmy 3. Sémantická aplikace - corpus distance 4. Pragmatická aplikace - social distance
  • 3. 1. Kolmogorova komplexita algoritmická teorie informací informační vzdálenost
  • 4. Kolmogorov a složitost Teorie Kolmogorovy komplexity se snaží odpovědět na otázku “Co je nahodilý objekt?” Představuje algoritmickou teorii informace a tvoří de facto doplněk teorie Shannona.
  • 5. Složitost Mějme k dispozici tři číselné řetězce v desítkové soustavě: a) 3333333333 b) 3141596535 c) 84354279521 Který z nich bychom považovali za náhodný?
  • 6. Složitost Čím delší je popis postupu, který potřebujeme k popsání řetězce, tím je řetězec více komplexní. V Kolgomorově pojetí však nejde o popis v nějakém jazyce, ale existenci univerzalního počítačového stroje (Turingova stroje), který takový popis generuje, a délku tohoto programu.
  • 7. Informační vzdálenost Teorie informační vzdálenosti představuje rozšíření Kolmogorovy komplexity o myšlenku vzdálenosti mezi řetězci, respektive jejich podobnosti. Podle ní je minimální informační vzdálenost mezi dvěma instancemi (řetězce x a y) vyjádřená délkou nejkratšího programu, který transformuje jeden řetězec na druhý a naopak. Univerzální informační vzdálenost je vyjádřena pak vzorcem E(x,y) = max{K(x|y),K(y|x)}.
  • 8. Informační vzdálenost Vitányi a Cilibrasi od této myšlenky odvozují obecnou normalizovanou informační vzdálenost (normalized information distance), která by byla schopna produkovat i metrickou vzdálenost. Výsledkem je následující vzorec
  • 10. NCD Teorie informační vzdálenosti je teoretická konstrukce, kterou není možné v praxi vytvořit, je totiž závislá na nespočitatelné funkci K. Je však možné použít jinou funkci, která se v reálném světě o podobnou funkčnost snaží. Těmito programy jsou dle autorů kompresní algoritmy, které mají za úkolu spočítat co největší bezztrátovou kompresi dat, tedy co největší redukci komplexit pomocí univerzálního programu.
  • 11. NCD Odpovídá to i zkušenosti, kterou máme z jejich každodenního používání. Pokud pomocí kompresního programu tzv. zabalíme dva soubory, které jsou si podobnější než jiné dva, rozdíl mezi výslednou délkou nového souboru a délkou odpovídající součtu délek původních souborů je menší.
  • 12. NCD Komprese dat (také komprimace dat) je zpracování počítačových dat s cílem zmenšit jejich objem (jednotka bajt) při současném zachování informací v datech obsažených. Úkolem komprese dat je zmenšit datový tok při jejich přenosu nebo zmenšit potřebu zdrojů při ukládání informací. (Wikipedia) Obvykle se snaží alg. nalézt opakující se sekvence znaků a vytvořit z nich slovník, který umožňuje odkaz na přesné místo.
  • 13. Příklad komprese P. Petyovský, Metody a algoritmy komprese dat. Od základních principů k aplikaci
  • 14. NCD Upravený vzorec vypadá následovně: Přičemž Z je kompresní algoritmus a x a y zůstávají řetězce určené k porovnání. Formální důkazy Vitányiho a Cilibrase ukazují, že se jedná o plnohodnotnou distanční metriku.
  • 15. NCD Autoři NCD provedli sérii testů navrženého postupu na celé řadě druhů řetězců (knihy, lidský genom, MIDI soubory), které se zdají potvrzovat univerzální charakter navrženého modelu a to včetně klasifikace heterogenních řetězců. Na vstupu v tomto experimentu byla data z genetiky, ukázky z literárních textů, MIDI soubory, binární počítačové programy a zkompilované programy ze zdrojových kodů programovacího jazky Java. Využit byl kompresní algoritmus bzip a metoda quartet clustering.
  • 16.
  • 21.
  • 22. NCD Experimenty dalších autorů potvrzují předchozí experimenty autorů, včetně předpokládané odolnosti NCD proti šumům v textu. Dále se věnují jeho dalším aplikacím například pro automatickou evaluaci strojového překladu. Další studie, za účasti autora původního týmu Paula Vitanyiho, pak sledují využití NCD při klastrování.
  • 23. NCD v rámci semináře Digital Humanities provedli studenti Studia nových médií řadu experimentů, které naznačují univerzálnost postupu: http://snm-blog.tumblr.com/post/42742243421/digital- humanities-6-complearn http://janmarsicek.tumblr.com/post/44283514150/ncd- capek-macha-nemcova http://jitkab.tumblr.com/post/38054898777/podobnost- seri%C3%A1l%C5%AF-podle-ncd
  • 25. Corpus Distance Aplikace teorie informační vzdálenosti v NCD se omezuje pouze na řetězce, nikoli na ideje nebo pojmy. Proto se její autoři rozhodli příjít s metrikou, která toto omezení překračuje a tím je korpus World Wide Webu. Podle Cilibrase je možné index vyhledávačů v případě uložení univerzální distribuce slov na stránkách a vyhledávač pak jako určitý druh pseudo-compressoru, který zohledňuje všechny dimenze lidského mínění.
  • 26. Corpus Distance Vitanyi s odkazem na Shannon-Fano code a uchopení indexu korpusu jako pseudo-compressoru pak formalizuje novou metriku takto: Kde f(x) je počet stránek obsahující x, f(x,y) je počet stránek obsahující obojí a N je počet celkově indexovaných stránek.
  • 27. Corpus Distance Cilibrasi popisuje ve své dizertaci Statistical inference through data compression základní kontrast mezi oběma přístupy takto: The first type is the NCD based on a literal interpretation of the data: the data is the object itself. The second type is the NGD masses of contexts expressing a large body of common-sense knowledge. It may be said that the first case ignores the meaning of the message, whereas the second focuses on it.
  • 28. Corpus Distance Série experimentu provedené Cilibrasem a Vitanyim pomocí výsledků vyhledávače Google přináší v tomto ohledu velmi uspokojivé výsledky.[15] Předmětem experimentů byly názvy díla holandský malířů 17. století, názvy anglických románů, čísla a barvy a názvy Shakespearových děl. Ve všech případech dokázal postup díla správně rozdělit. Předmětem experimentu byla i rekonstrukce vazeb vyjádřených experty ve WordNetu. Zde byla přesnost mezi NGD a vazbou ve WordNetu 0.8725.
  • 31. Social Distance Pokud NWD přináší myšlenku sémantické vrstvy informací, lze se odvážit ještě o jednu vrstvu dál a to na vrstvu pragmatickou, opírající se o množství podobností, které jednotlivé sociální skupiny tvoří. A definovat formálně metodu počítání vzdálenosti mezi dvěma sociálními skupinami.
  • 32. Social Distance Formálně vypadá takto: Kdy f(x) je počet členů jedné subskupiny, f(y) je počet druhé subskupiny, f(x,y) vyjadřuje počet členů obou skupin a N je celkový počet členů skupiny.
  • 33. Social Distance Takto formálně vyjádřená vzdálenost by měla být schopna měřit vzdálenost libovolných dvou sociálních subskupin, které jsou zastřešeny jednotnou skupinou. Kupříkladu v případě bimodální sítě navštěvníků místních restaurací na malém městě by takto šla počítat bízkost sociální blízkosti podniků.
  • 34. NFD NSD je ovšem metrika univerzální, kterou je možné přizpůsobit pro data ze sociálních sítí. V následujících případových studiích jsem ji aplikoval na případě sociální sítě Facebook v upravené podobě jako Normalized Facebook Distance (NFD), která počítá blízkost jednotlivých stránek na základě průniku jejich zapojených fanoušků.
  • 35. NFD Pokud chápeme popis uživatele de facto jako síť rozdílu v preferovaných stránkách, nabízí se možnost nejen věnovat se celkové charakteristice fanoušků prostřednictvím distančního modelu, ale také jejich podrobnější charakteristice, přesněji nalezení zřetelně odlišených subskupin.
  • 36. NFD Takováto matice je v podstatě bimodální sítí s relativně nízkou hustotou, zároveň ale může být podrobena některým klasickým exploračním technikám, jako je hierarchický klastering, multidimensionalní scaling či analýza základních komponent (PCA).
  • 37. NFD Pro průzkum takových matic jsem vytvořil aplikace Facebook profiling, který má na vstupu dva soubory. První je tabulka s distančním modelem fanoušků a druhým pak binární matice obsahující na řádcích ID uživatelů a ve sloupcích pak stránky, v nichž se fanoušci zkoumané stránky nejčastěji zapojují svým like.
  • 39. DSSS Stránka Dělnické strany sociální spravedlnosti, která je považována za tolerovanou formu neonacismu na české politické scéně. Minimální hranici pro průnik jsem v našem případě stanovili na 5% a blízkost menší než 0.7. V našem případě se jedná o data ze začátku roku 2014. Distanční model stránky fanoušků aktivních na stránkách vypadá takto:
  • 40.
  • 41.
  • 42.
  • 43.
  • 45. A literatura? Plánovaný výzkum v knihovnách, který klastruje knihy podle jejich čtenářů, stejně jako to doposud děláme na Facebook s fanoušky stránek.