Presentation (in Norwegian) on semantic technology for a non-technical audience of journalists and journalistic researchers, made for the bi-annual Nordic research conference in Oslo, Oct 2011 (http://nordresearch.wordpress.com/).
43. ”
In some sense when people come to
Google, that’s exactly what they’re asking
for — our editorial judgment. They’re
expressed via algorithms. When someone
comes to Google, the only way to be
neutral is either to randomize the links or
to do it alphabetically – Matt Cutts, Google,
til Wired 3. mars 2011
«Worldwide Information Growth Ticker» fra http://www.emc.com/leadership/programs/digital-universe.htm
Lisens: http://creativecommons.org/licenses/by-sa/3.0/no/ (for alle deler av presentasjonen der jeg selv er opphavsmann. Alle skjermbilder, foto og video har tredjepartsopphav, og omfattes derved ikke av dette)
Eksempel 1a: LMK.com (Hearst Corp), temasentriske nyheter og personalisering for mobil og ipad
Eksempel 1b: Kategoriseringsteknologien bak LMK.com (evri.com)
Eksempel 2a: «Menneskelesbar» HTML-artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d
Eksempel 2a: «Maskinlesbar» utgave av samme artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d.rdf
Eksempel 3: Åpent tilgjengelig tjeneste som gjenkjenner entiteter (personer, organisasjoner, steder) og relasjoner i tekst (Thomson Reuters)http://www.opencalais.com/http://semanticproxy.com/
«semantisk» i denne sammenhengen = hva en tekst handler om
De foregående eksemplene koster mye penger…
Hvorfor investerer disse organisasjonene så mye penger i teknologi «ingen» har hørt om?
Kanskjenoen hint her…?2 Exabytes: volume of information generated in 1999. 30 % progression per year -> doubling time 2,3 yrs (100*ln2/30)-> Exponensiellvekst….!Exabyte (EB) 1 000 000 000 000 000 000 (10^18) bytes
Kanskjenoen hint her…?Video: http://www.youtube.com/watch?v=iIKPjOuwqHoBasertpå:Martin Hilbert & PriscilaLópez (2011). The World's Technological Capacity to Store, Communicate, and Compute Information. Science, 332(6025), 60-65.http://http://www.sciencemag.org/content/332/6025/60 (accessible throughhttp://www.martinhilbert.net/WorldInfoCapacity.html)It was conceptualized, produced, and animated by Martin Hilbert, Gavin Wright, Stuart Allan, and Dan St. Pierre (www.proof-inc.com), with the support from The Economist and USC's Annenberg School of Communication.
MerbakgrunnWashington Post: “Rise of the digital information age”http://www.washingtonpost.com/wp-dyn/content/graphic/2011/02/11/GR2011021100614.htmlMengdenanalogtlagretinformasjonavtar10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes
Konsekvens: Bruksmønstre i endring!Mer og mertidpåmedier og informasjonhttp://www.thewrap.com/media/column-post/people-spend-more-12-day-consuming-media-study-finds-21005…men relativt lite avdettepånyheter, og mindre og mindrepåtradisjonelleplattformer…! http://www.people-press.org/2010/09/12/americans-spending-more-time-following-the-news/
I en oppmerksomhetsøkonomi ->Forretningsmodeller i endring!Fylle behov => god økonomi
Konsekvens for researchere: Overveldendeomfang!30 Megabytes: 30 cm of shelved books memorized information/year by an expert Megabyte (MB) 1 000 000 (10^6) bytes 2 Kilobyte (KB) 2 000 bytes: A Typewritten page. 10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes 2 Exabytes: volume of information generated in 1999. 30 % progression per year Exabyte (EB) 1 000 000 000 000 000 000 (10^18) byteshttp://www.sxc.hu/photo/324541
Verktøy for research«Anvendt datalingvistikk»(Jigsaw, Georgia Tech, USA)
EntitetsgjenkjenningKonsepter og relasjonerAutokategorisering/-autoklassifikasjon (modelldrevet)textUrgy (Norge)
«Lytte» på sosiale medier:Løpende analyse av positive og negative holdninger (sentiment)Eksempel fra Twitter under TV-debattene ifb valget i StorbritanniaLinguamatics (UK)
Tilbake til «semantikk» – litt mer inngående
Semantisk teknologi: Du slipper å lete etter «nåler i høystakken» – får entitetene (personer, organisasjoner, steder, tema, …) «servert» i strukturert (maskinprosesserbar) formhttp://www.stockxpert.com/browse_image/view/404665
…Ikke bare entiteter, men også sammenhengene («relasjonene») mellom dem…http://www.stockxpert.com/browse_image/view/33052791
Med åpne modeller kan mange små strukturer sammenstilles til store, sammenhengende strukturer
Det finnes allerede et omfattende «økosystem» av åpne, semantiske modeller («Linked Open Data») som referer til hverandre.«Kulene» i diagrammet over representerer modeller, og størrelsen antyder omfanget av publiserte data.«DBPedia» (midten) er en tjeneste som tilgjengelliggjør strukturert informasjon som er ekstrahert fra Wikipedia – et naturlig nav.Wikipedia-artikler består for det meste av tekst, men de inneholder også strukturert informasjon, for eksempel informasjonsbokser, tabeller, kategorier, geografiske koordinater og eksterne henvisninger til informasjon utenfor Wikipedia (eksterne lenker). Disse informationene kan ekstraheres og benyttes som datagrunnlag for mer kompliserte forespørsler. I november 2010 hadde DBpedia 3,4 millioner data-sett med mer enn en milliard enkeltdata
For de mer teknisk orienterte:Teknologien og standardene for sammenstilling («informasjonsintegrasjon») og utvekslinghar blitt etablert på under 20 år, helt opp til og med semantikklaget, som er temaet i dag.Vi har ennå en jobb å gjøre rundt nivåene over («pragmatikk» knytter seg for eksempel til vår evne til å tolke mening ut fra kontekst, dvs. ikke ordrett)…Videoen jeg nå skal vise, illustrerer likevel godt hvor langt vi er kommet.(fig.: Michael Bergman)
Watson er etdatasystem utviklet som et ledd i IBMs såkalte DeepQA prosjekt.I 2011konkurrerte Watson på quiz-showetJeopardy!I en tre-episoders match slo Watson mestrene Brad Rutter, som har vunnet mest penger noensinne i Jeopardy!, og Ken Jennings, som har innehatt mestertittelen lengst.Video:http://www.youtube.com/watch?v=WFR3lOm_xhEWatson hadde problemer med å svare på noen få kategorier, særlig de som bare inneholdt noen få ord. For hver ledetråd vises Watsons tre mest sannsynlige svar på TV-skjermen. Watson hadde tilgang til 200 millioner sider strukturert og ustrukturert innhold (blant annet gjennom det nevnte «økosystemet» av åpne, semantiske modeller) gjennom sine fire terabyte med diskplass, inkludert den fullstendige teksten i Wikipedia, og var ikke koblet til Internett i løpet av spillet.
Watson-teknologi er ennå ikke tilgjengelig for «folk flest», menVåren 2010 kjøpte Apple Siri (siri.com), som kan gi en liten pekepinn om liknende muligheter framover.En tidlig versjon er tilgjengelig via iPhone 4S.
CTO i Siri, Tom Gruber, er kjent i sematikkmiljøet, bl.a. for sin definisjon av begrepet «ontologi».
Nevnte endrede brukerbehov i starten…Brukerbehov – overordnet
Silobreaker forsøker å besvare behovet automatisk, menstøter på et fundamentalt problem med nyheter i dag…
Rapport for Associated Press i 2008: http://www.ap.org/newmodel.pdfIntervjuobjektene savner utdypinger, forklaringer, helhet og sammenhengNyhetene settes for lite i kontekst, framstår fragmentertLiten eller ingen lenking til mer infoBrukerne søker rundt etter mer utdypende info, finner bare mer av det samme
Nettstedslogger viser at brukere beveger seg raskt rundt, og skanner myeHar gitt opphav til myten om brukerne som «gullfisk» med null konsentrasjonsevne…Men mye nyhetstekst er bakgrunnsstoff eller gjentakelse, og dette kunne vært bedre tilpasset web’ens premisser…Fig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
Ikke grunt – «uendelig» dypt – med lenking til relevant info på andre nettstederFig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
Hele systemet endrer segFra industrisamfunnets «push» til informasjonssamfunnets «pull» - og bruksmønstrene på web’en er et godt eksempelhttp://www.johnhagel.com/paper_pushpull.pdfhttp://www.edgeperspectives.com/pop.htmlOppsummert: http://www.edgeperspectives.typepad.com/edge_perspectives/2005/10/from_push_to_pu.html
Algoritmer som redaktører?http://jonathanstray.com/the-editorial-search-engine
Om redaktørens (og researcherens) rolle:Kan nyhetene suppleres med research-materiale ogkunnskapen i et nyhetsrom,som skaper helhet og sammenheng?(-> Fokusere mindre på forside, layout?)Semantiske modeller er skapt for dette (men krever gode verktøy)!(figur: AP)
Digitaliseringen av informasjon har endret verden mye på kort tid-> krever systemiske endringer som allerede er i gang
…Og min påstand er at semantisk teknologi er en del av nøkkelen…!