"Maskiner som leser" (Nordic Research 2011)

•Descargar como PPTX, PDF•

0 recomendaciones•511 vistas

Presentation (in Norwegian) on semantic technology for a non-technical audience of journalists and journalistic researchers, made for the bi-annual Nordic research conference in Oslo, Oct 2011 (http://nordresearch.wordpress.com/).

Tecnología

<foaf:Person rdf:ID="me">
<foaf:name>Stian Danenbarger</foaf:name>
<foaf:givenname>Stian</foaf:givenname>
<foaf:family_name>Danenbarger</foaf:family_name>
<foaf:mbox rdf:resource="mailto:stian@bouvet.no"/>
<foaf:homepage rdf:resource="http://twitter.com/stidan"/>
<foaf:workplaceHomepage rdf:resource="http://www.bouvet.no"/>
</foaf:Person>

"MASKINER SOM LESER"

Securities Ship India
securities 94.96324 ship 109.41212 india 91.74842
firm 88.74591 coast 93.70902 singh 50.34063
drexel 78.33697 guard 82.11109 militants 49.21986
investment 75.51504 sea 77.45868 gandhi 48.86809
bonds 64.23486 boat 75.97172 sikh 47.12099
sec 61.89292 fishing 65.41328 indian 44.29306
bond 61.39895 vessel 64.25243 peru 43.00298
junk 61.14784 tanker 62.55056 hindu 42.79652
milken 58.72266 spill 60.21822 lima 41.87559
firms 51.26381 exxon 58.35260 kashmir 40.01138
investors 48.80564 boats 54.92072 tamilnadu 39.54702
lynch 44.91865 waters 53.55938 killed 39.47202
insider 44.88536 valdez 51.53405 india's 39.25983
shearson 43.82692 alaska 48.63269 punjab 39.22486
boesky 43.74837 ships 46.95736 delhi 38.70990
lambert 40.77679 port 46.56804 temple 38.38197
merrill 40.14225 hazelwood 44.81608 shining 37.62768
brokerage 39.66526 vessels 43.80310 menem 35.42235
corporate 37.94985 ferry 42.79100 hindus 34.88001
burnham 36.86570 fishermen 41.65175 violence 33.87917

(Sample aspect lists from AP data, 100-Aspect Model)

technorati.com/tag/<tag>…:

• ”hovefestivalen”: 113 bloggposter, 739 bilder
• ”hovefestivalen08”: 27 bloggposter, 20 bilder
• ”hove+’08”: 19 bloggposter, 280 bilder
• ”hovefestival”: 14 bloggposter, 282 bilder
• ”hove”: 68 norske bloggposter, ? bilder

• ”haga”: 47 norske (og svenske) bloggposter, 2300 bilder
• ”hagasaken”: 0 bloggposter, 0 bilder
• ”Åslaug+Haga”: 26 norske bloggposter, 1 bilde
• ”Aslaug+Haga”: 4 norske bloggposter, 0 bilder

Expressivity

RDF /
Topic Maps

Taxonomies, thesauri

Flat list, tags

No model Closed model Open model

Meningsfylte sammenstillinger forutsetter delt
semantikk…

”Nye
”Jeg vet
sammenhenger
hva jeg
mellom…”
ser
etter…” ”Alt nytt
om…”

(Gjen)finne Forstå Følge med

”Oversikten ”Sammenhengen
over…” mellom…”

Atom/RSS (inkl. podcasts)
SMS/MMS
IM/XMPP ”Abonnere
Epost
Kalendersynk. på et søk!”
…

• Registrering • “Discovery”
• Notifikasjon • “Trust metrics”
• Indeksering • Filtrering
• Aggregering • Abonnement

• Dele • Finne
Indeks • Sammenstille
• Tilgjengeliggjøre

PRODUSENT MEDIATOR KONSUMENT

”
In some sense when people come to
Google, that’s exactly what they’re asking
for — our editorial judgment. They’re
expressed via algorithms. When someone
comes to Google, the only way to be
neutral is either to randomize the links or
to do it alphabetically – Matt Cutts, Google,
til Wired 3. mars 2011

"Maskiner som leser" (Nordic Research 2011)

Más contenido relacionado

Último

Glenn Lazarus- Why Your Observability Strategy Needs Security Observabilityitnewsafrica

Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Mark Goldstein

Scale your database traffic with Read & Write split using MySQL RouterMydbops

Time Series Foundation Models - current state and future directionsNathaniel Shimoni

The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxLoriGlavin3

Top 10 Hubspot Development Companies in 2024TopCSSGallery

Modern Roaming for Notes and Nomad – Cheaper Faster Better Strongerpanagenda

Use of FIDO in the Payments and Identity Landscape: FIDO Paris Seminar.pptxLoriGlavin3

TeamStation AI System Report LATAM IT Salaries 2024Lonnie McRorey

So einfach geht modernes Roaming fuer Notes und Nomad.pdfpanagenda

Digital Identity is Under Attack: FIDO Paris Seminar.pptxLoriGlavin3

Design pattern talk by Kaya Weers - 2024 (v2)Kaya Weers

Data governance with Unity Catalog PresentationKnoldus Inc.

How to write a Business Continuity PlanDatabarracks

Varsha Sewlal- Cyber Attacks on Critical Critical Infrastructureitnewsafrica

A Deep Dive on Passkeys: FIDO Paris Seminar.pptxLoriGlavin3

New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024BookNet Canada

2024 April Patch TuesdayIvanti

A Journey Into the Emotions of Software DevelopersNicole Novielli

Genislab builds better products and faster go-to-market with Lean project man...Farhan Tariq

Destacado

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Destacado (20)

2024 State of Marketing Report – by Hubspot

Everything You Need To Know About ChatGPT

Product Design Trends in 2024 | Teenage Engineerings

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

"Maskiner som leser" (Nordic Research 2011)

2. <foaf:Person rdf:ID="me"> <foaf:name>Stian Danenbarger</foaf:name> <foaf:givenname>Stian</foaf:givenname> <foaf:family_name>Danenbarger</foaf:family_name> <foaf:mbox rdf:resource="mailto:stian@bouvet.no"/> <foaf:homepage rdf:resource="http://twitter.com/stidan"/> <foaf:workplaceHomepage rdf:resource="http://www.bouvet.no"/> </foaf:Person> "MASKINER SOM LESER"

8. "semantisk"

10.

11.

12.

13.

14.

15.

16. RE - SEARCH ?

17. maskinell informasjonsekstrahering

18.

19. Securities Ship India securities 94.96324 ship 109.41212 india 91.74842 firm 88.74591 coast 93.70902 singh 50.34063 drexel 78.33697 guard 82.11109 militants 49.21986 investment 75.51504 sea 77.45868 gandhi 48.86809 bonds 64.23486 boat 75.97172 sikh 47.12099 sec 61.89292 fishing 65.41328 indian 44.29306 bond 61.39895 vessel 64.25243 peru 43.00298 junk 61.14784 tanker 62.55056 hindu 42.79652 milken 58.72266 spill 60.21822 lima 41.87559 firms 51.26381 exxon 58.35260 kashmir 40.01138 investors 48.80564 boats 54.92072 tamilnadu 39.54702 lynch 44.91865 waters 53.55938 killed 39.47202 insider 44.88536 valdez 51.53405 india's 39.25983 shearson 43.82692 alaska 48.63269 punjab 39.22486 boesky 43.74837 ships 46.95736 delhi 38.70990 lambert 40.77679 port 46.56804 temple 38.38197 merrill 40.14225 hazelwood 44.81608 shining 37.62768 brokerage 39.66526 vessels 43.80310 menem 35.42235 corporate 37.94985 ferry 42.79100 hindus 34.88001 burnham 36.86570 fishermen 41.65175 violence 33.87917 (Sample aspect lists from AP data, 100-Aspect Model)

20. technorati.com/tag/<tag>…: • ”hovefestivalen”: 113 bloggposter, 739 bilder • ”hovefestivalen08”: 27 bloggposter, 20 bilder • ”hove+’08”: 19 bloggposter, 280 bilder • ”hovefestival”: 14 bloggposter, 282 bilder • ”hove”: 68 norske bloggposter, ? bilder • ”haga”: 47 norske (og svenske) bloggposter, 2300 bilder • ”hagasaken”: 0 bloggposter, 0 bilder • ”Åslaug+Haga”: 26 norske bloggposter, 1 bilde • ”Aslaug+Haga”: 4 norske bloggposter, 0 bilder

21.

22.

23.

24. "semantisk"

25. Identity

26. Reference

27. Expressivity RDF / Topic Maps Taxonomies, thesauri Flat list, tags No model Closed model Open model

28.

29. Meningsfylte sammenstillinger forutsetter delt semantikk…

30.

31.

32.

33.

34.

35. ”Nye ”Jeg vet sammenhenger hva jeg mellom…” ser etter…” ”Alt nytt om…” (Gjen)finne Forstå Følge med ”Oversikten ”Sammenhengen over…” mellom…”

36.

37.

38.

39.

40.

41.

42. Atom/RSS (inkl. podcasts) SMS/MMS IM/XMPP ”Abonnere Epost Kalendersynk. på et søk!” … • Registrering • “Discovery” • Notifikasjon • “Trust metrics” • Indeksering • Filtrering • Aggregering • Abonnement • Dele • Finne Indeks • Sammenstille • Tilgjengeliggjøre PRODUSENT MEDIATOR KONSUMENT

43. ” In some sense when people come to Google, that’s exactly what they’re asking for — our editorial judgment. They’re expressed via algorithms. When someone comes to Google, the only way to be neutral is either to randomize the links or to do it alphabetically – Matt Cutts, Google, til Wired 3. mars 2011

44.

45. Tom Coates, Yahoo: ”The web as it was”…

46. Tom Coates, Yahoo: ”Web of the future?”

47.

48. <foaf:Person rdf:ID="me"> <foaf:name>Stian Danenbarger</foaf:name> <foaf:givenname>Stian</foaf:givenname> <foaf:family_name>Danenbarger</foaf:family_name> <foaf:mbox rdf:resource="mailto:stian@bouvet.no"/> <foaf:homepage rdf:resource="http://twitter.com/stidan"/> <foaf:workplaceHomepage rdf:resource="http://www.bouvet.no"/> </foaf:Person>

Notas del editor

«Worldwide Information Growth Ticker» fra http://www.emc.com/leadership/programs/digital-universe.htm
Lisens: http://creativecommons.org/licenses/by-sa/3.0/no/ (for alle deler av presentasjonen der jeg selv er opphavsmann. Alle skjermbilder, foto og video har tredjepartsopphav, og omfattes derved ikke av dette)
Eksempel 1a: LMK.com (Hearst Corp), temasentriske nyheter og personalisering for mobil og ipad
Eksempel 1b: Kategoriseringsteknologien bak LMK.com (evri.com)
Eksempel 2a: «Menneskelesbar» HTML-artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d
Eksempel 2a: «Maskinlesbar» utgave av samme artistside på BBC Music (BBC)http://www.bbc.co.uk/music/artists/e20747e7-55a4-452e-8766-7b985585082d.rdf
Eksempel 3: Åpent tilgjengelig tjeneste som gjenkjenner entiteter (personer, organisasjoner, steder) og relasjoner i tekst (Thomson Reuters)http://www.opencalais.com/http://semanticproxy.com/
«semantisk» i denne sammenhengen = hva en tekst handler om
De foregående eksemplene koster mye penger…
Hvorfor investerer disse organisasjonene så mye penger i teknologi «ingen» har hørt om?
Kanskjenoen hint her…?2 Exabytes: volume of information generated in 1999. 30 % progression per year -> doubling time 2,3 yrs (100*ln2/30)-> Exponensiellvekst….!Exabyte (EB) 1 000 000 000 000 000 000 (10^18) bytes
Kanskjenoen hint her…?Video: http://www.youtube.com/watch?v=iIKPjOuwqHoBasertpå:Martin Hilbert & PriscilaLópez (2011). The World's Technological Capacity to Store, Communicate, and Compute Information. Science, 332(6025), 60-65.http://http://www.sciencemag.org/content/332/6025/60 (accessible throughhttp://www.martinhilbert.net/WorldInfoCapacity.html)It was conceptualized, produced, and animated by Martin Hilbert, Gavin Wright, Stuart Allan, and Dan St. Pierre (www.proof-inc.com), with the support from The Economist and USC's Annenberg School of Communication.
MerbakgrunnWashington Post: “Rise of the digital information age”http://www.washingtonpost.com/wp-dyn/content/graphic/2011/02/11/GR2011021100614.htmlMengdenanalogtlagretinformasjonavtar10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes
Konsekvens: Bruksmønstre i endring!Mer og mertidpåmedier og informasjonhttp://www.thewrap.com/media/column-post/people-spend-more-12-day-consuming-media-study-finds-21005…men relativt lite avdettepånyheter, og mindre og mindrepåtradisjonelleplattformer…! http://www.people-press.org/2010/09/12/americans-spending-more-time-following-the-news/
I en oppmerksomhetsøkonomi ->Forretningsmodeller i endring!Fylle behov => god økonomi
Konsekvens for researchere: Overveldendeomfang!30 Megabytes: 30 cm of shelved books memorized information/year by an expert Megabyte (MB) 1 000 000 (10^6) bytes 2 Kilobyte (KB) 2 000 bytes: A Typewritten page. 10 TB: The print collections of the U.S. Library of Congress. Terabyte (TB) 1 000 000 000 000 (10^12) bytes 200 Petabytes: All printed material. Petabyte (PB) 1 000 000 000 000 000 (10^15) bytes 2 Exabytes: volume of information generated in 1999. 30 % progression per year Exabyte (EB) 1 000 000 000 000 000 000 (10^18) byteshttp://www.sxc.hu/photo/324541
Verktøy for research«Anvendt datalingvistikk»(Jigsaw, Georgia Tech, USA)
EntitetsgjenkjenningKonsepter og relasjonerAutokategorisering/-autoklassifikasjon (modelldrevet)textUrgy (Norge)
Autokategorisering/-klassifikasjon (datadrevet)(Recommind, USA/Tyskland)
DisambigueringProblemet med tagging (fra technorati.com)
Visualisering (personer, organisasjoner, steder, tema)Silobreaker (Sverige)
TrendanalyseVisualiseringSilobreaker (Sverige)
«Lytte» på sosiale medier:Løpende analyse av positive og negative holdninger (sentiment)Eksempel fra Twitter under TV-debattene ifb valget i StorbritanniaLinguamatics (UK)
Tilbake til «semantikk» – litt mer inngående
Semantisk teknologi: Du slipper å lete etter «nåler i høystakken» – får entitetene (personer, organisasjoner, steder, tema, …) «servert» i strukturert (maskinprosesserbar) formhttp://www.stockxpert.com/browse_image/view/404665
…Ikke bare entiteter, men også sammenhengene («relasjonene») mellom dem…http://www.stockxpert.com/browse_image/view/33052791
Med åpne modeller kan mange små strukturer sammenstilles til store, sammenhengende strukturer
Det finnes allerede et omfattende «økosystem» av åpne, semantiske modeller («Linked Open Data») som referer til hverandre.«Kulene» i diagrammet over representerer modeller, og størrelsen antyder omfanget av publiserte data.«DBPedia» (midten) er en tjeneste som tilgjengelliggjør strukturert informasjon som er ekstrahert fra Wikipedia – et naturlig nav.Wikipedia-artikler består for det meste av tekst, men de inneholder også strukturert informasjon, for eksempel informasjonsbokser, tabeller, kategorier, geografiske koordinater og eksterne henvisninger til informasjon utenfor Wikipedia (eksterne lenker). Disse informationene kan ekstraheres og benyttes som datagrunnlag for mer kompliserte forespørsler. I november 2010 hadde DBpedia 3,4 millioner data-sett med mer enn en milliard enkeltdata
For de mer teknisk orienterte:Teknologien og standardene for sammenstilling («informasjonsintegrasjon») og utvekslinghar blitt etablert på under 20 år, helt opp til og med semantikklaget, som er temaet i dag.Vi har ennå en jobb å gjøre rundt nivåene over («pragmatikk» knytter seg for eksempel til vår evne til å tolke mening ut fra kontekst, dvs. ikke ordrett)…Videoen jeg nå skal vise, illustrerer likevel godt hvor langt vi er kommet.(fig.: Michael Bergman)
Watson er etdatasystem utviklet som et ledd i IBMs såkalte DeepQA prosjekt.I 2011konkurrerte Watson på quiz-showetJeopardy!I en tre-episoders match slo Watson mestrene Brad Rutter, som har vunnet mest penger noensinne i Jeopardy!, og Ken Jennings, som har innehatt mestertittelen lengst.Video:http://www.youtube.com/watch?v=WFR3lOm_xhEWatson hadde problemer med å svare på noen få kategorier, særlig de som bare inneholdt noen få ord. For hver ledetråd vises Watsons tre mest sannsynlige svar på TV-skjermen. Watson hadde tilgang til 200 millioner sider strukturert og ustrukturert innhold (blant annet gjennom det nevnte «økosystemet» av åpne, semantiske modeller) gjennom sine fire terabyte med diskplass, inkludert den fullstendige teksten i Wikipedia, og var ikke koblet til Internett i løpet av spillet.
Watson-teknologi er ennå ikke tilgjengelig for «folk flest», menVåren 2010 kjøpte Apple Siri (siri.com), som kan gi en liten pekepinn om liknende muligheter framover.En tidlig versjon er tilgjengelig via iPhone 4S.
CTO i Siri, Tom Gruber, er kjent i sematikkmiljøet, bl.a. for sin definisjon av begrepet «ontologi».
Nevnte endrede brukerbehov i starten…Brukerbehov – overordnet
Silobreaker forsøker å besvare behovet automatisk, menstøter på et fundamentalt problem med nyheter i dag…
Rapport for Associated Press i 2008: http://www.ap.org/newmodel.pdfIntervjuobjektene savner utdypinger, forklaringer, helhet og sammenhengNyhetene settes for lite i kontekst, framstår fragmentertLiten eller ingen lenking til mer infoBrukerne søker rundt etter mer utdypende info, finner bare mer av det samme
Nettstedslogger viser at brukere beveger seg raskt rundt, og skanner myeHar gitt opphav til myten om brukerne som «gullfisk» med null konsentrasjonsevne…Men mye nyhetstekst er bakgrunnsstoff eller gjentakelse, og dette kunne vært bedre tilpasset web’ens premisser…Fig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
HistoriefortellingPå web’ens premisserFig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
Ikke grunt – «uendelig» dypt – med lenking til relevant info på andre nettstederFig.:Jonathan Stray (AP) http://jonathanstray.com/short-doesnt-mean-shallow
Hele systemet endrer segFra industrisamfunnets «push» til informasjonssamfunnets «pull» - og bruksmønstrene på web’en er et godt eksempelhttp://www.johnhagel.com/paper_pushpull.pdfhttp://www.edgeperspectives.com/pop.htmlOppsummert: http://www.edgeperspectives.typepad.com/edge_perspectives/2005/10/from_push_to_pu.html
Algoritmer som redaktører?http://jonathanstray.com/the-editorial-search-engine
Om redaktørens (og researcherens) rolle:Kan nyhetene suppleres med research-materiale ogkunnskapen i et nyhetsrom,som skaper helhet og sammenheng?(-> Fokusere mindre på forside, layout?)Semantiske modeller er skapt for dette (men krever gode verktøy)!(figur: AP)
Digitaliseringen av informasjon har endret verden mye på kort tid-> krever systemiske endringer som allerede er i gang
…Og min påstand er at semantisk teknologi er en del av nøkkelen…! 
Mer om Watson

"Maskiner som leser" (Nordic Research 2011)

Recomendados

Recomendados

Más contenido relacionado

Último

Último (20)

Destacado

Destacado (20)

"Maskiner som leser" (Nordic Research 2011)

Notas del editor