SlideShare una empresa de Scribd logo
1 de 96
BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG
GROßER MENGEN ONLINEGENERIERTER DATEN
IN DEN SOZIALWISSENSCHAFTEN
WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF
13.04.2014
DOZENTIN: KATRIN WELLER
UND KOMMENTARE VON: MERJA MAHRT
WILLKOMMEN!
Dr. Katrin Weller
GESIS Leibniz Institut für Sozialwissenschaften
katrin.weller@gesis.org
@kwelle
http://katrinweller.net
Dr. Merja Mahrt
Heinrich-Heine-Universität Düsseldorf
mahrt@phil.uni-duesseldorf.de
https://www.phil-fak.uni-duesseldorf.de/kmw-
weiss/mitarbeiterinnen/dr-merja-mahrt/
2
1. EINFÜHRUNG
3
„I keep saying that the sexy job in the next
10 years will be statisticians,“ said Hal
Varian, chief economist at Google.
„And I’m not kidding.“
„The ability to take data - to be able to understand it, to process it, to
extract value from it, to visualize it, to communicate it - that's going to
be a hugely important skill in the next decades...“
http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers
4
5
Google Trends Suche „big data“
6
Amazon Suche „big data“
WIE GROß IST GROß?
• Datensätze, die nur von Supercomputern bearbeitet werden
können?
• Terabyte, Petabytes und Exabytes?
• So groß, dass man die Daten nicht mehr händisch analysieren
kann?
7
BIG DATA (FRÜHER)
„large surveys such as th NCVS may have 60,000
or more observations, and only recently has
research begun on how to plot these massive
datasets“
1996, Fesco et al.
aus: Unwin, A. / Theus, M. / Hofmann, H., Graphics of Large Datasets. Visualizing a Million (= Statistics and Computing),
Springer 2006.
Beispiele via Thomas Rahlf
„the analysis of data recorded by Tel-Star, an
early communication satellite, involved tens of
thousands of observations and challenged
contemporary computing technology“
1965, Chambers „restricted in their analysis because the
software there could only handle
88,000 real numbers.“
1981, Aitken et al.
8
>900 Millionen Facebook-Nutzer, 30 Petabyte Daten
(täglich kommen etwa 15 Terabyte hinzu )
täglich zu verarbeitendes Datenvolumen bei Facebook:
500 Terabyte, (mehr als das zehnfache der täglichen
Datenproduktion der Detektoren des großen
Teilchenbeschleunigers im Forschungszentrum Cern)
Youtube: vier Milliarden Views pro Tag,
davon 500 Millionen mobil.
App-Store (2008 eröffnet): 25
Milliarden Downloads (2012)
Google-Earth: > 1 Milliarde Downloads
400 Millionen Twitter Tweets
weltweit pro Tag
BIG DATA (HEUTE)
9
Beispiele via Thomas Rahlf
ARTEN VON BIG DATA?
• Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big
Science“)
• Finanz-Sektor: Börsendaten, Bankbewegungen
• Gesundheitswesen: z.B.Krankenhausdaten, Krankmeldungen
• Verwaltungsdaten aus öffentlichen Einrichtungen) / Open
Governmental Data (auch unter Linked Open Data)
• Kundendaten: z.B. Kassendaten, Telefonverbindungsdaten,
Treukartendaten
• Social Media Daten: Aktionen und Kommentare z.B. auf Facebook,
Youtube, Wikipedia
• Andere Online-Nutzungsdaten: z.B. Suchanfragen, Seitenaufrufe,
Online-Käufe, Bewertungen
• Gerätedaten / Sensordaten: z.B. GPS-Signale aus
Navigationssystemen, RFID Chips
10
AKTEURE
11
“Big Data is a Big Deal”
http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
AKTEURE
• Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio-
Informatik, Physik, Wirtschaftswissenschaft, Mathematik,
Politikwissenschaft, Soziologie…
• Privatwirtschaft: Unternehmen als Datenerzeuger und
Besitzer; Marktforschung
• Öffentlicher Sektor / Verwaltung
• Politik / Geheimdienste
• Nutzer: Citizen Science / Crowdsourcing
12
BIG DATA, SMALL DATA?
NEW DATA!
13
Diskussion: Was liefern diese Daten Neues?
• Möglichkeiten für zeitnahe Analysen und Prognosen
• Entdeckung von Unregelmäßigkeiten (z.B. Epidemien, Finanzen),
Entscheidungshilfe in Krisensituationen.
Diskussion: Woher kommt der Hype?
• Bessere Rechnerkapazität
• Zunehmend „beiläufige“ Datenerzeugung
FAZIT
• Es gibt keine einheitliche Definition für Big Data – die
Einschätzung, was als „big“ gilt, ist stark kontextabhängig und
kann sich im Laufe der Zeit verändern.
• Unterschiedliche Akteure haben unterschiedliche Interessen im
Umgang mit Big Data.
14
2. MÖGLICHKEITEN
UND BEISPIELE
15
BEISPIEL-TYPEN
16
Ansätze
Agrregierte
Daten
auslesen
Prognosen
Textanalysen
(CL)
Sentiment
analysis
Event
detection
Worthäufigkeit
Netzwerke Geo-Analysen
Ansätze
Agrregierte
Daten
auslesen
Prognosen
Textanalysen
(CL)
Sentiment
analysis
Event
detection
Worthäufigkeit
Netzwerke Geo-Analysen
BIG DATA IN DEN
SOZIALWISSENSCHAFTEN
17
Wahlvorhersage Politische
Stimmungen,
Kundenzufriedenheit
Politische
Krisen
erkennen
Akteursnetze,
z.B. Politiker
Ortsbezug bei
Meinungsanalysen
VORHERSAGEN
18
DER KLASSIKER
19
http://www.google.org/flutrends/de/#DE-NW
GOOGLE FLU TRENDS
“In short, the initial version of GFT was part flu detector, part
winter detector.“ (Lazer et al., 2014)
• Googles Ergebnisse sind nicht besser als „klassische“
Vorhersagedaten.
• Aber: Kombination ist sinnvoll.
20
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in
big data analysis. Science, 343(6176), 1203-1205.
ARBEITSLOSIGKEIT
Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment Forecasting,
Forschungsinstitut zur Zukunft der Arbeit IZA DP No. 4201. June 2009. Daten: Google
21
WAHLERGEBNISSE
22
Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections. Paper
presented at the Privacy, security, risk and trust (passat) conference, Boston, MA. Doi:
10.1109/PASSAT/SocialCom.2011.98
WEITERE ANSÄTZE
• Eurovision Song Contest Sieger
• Box Office Revenue
• Aktienkurse, Wechselkurse
• …
23
STIMMUNGEN
24
Northeastern University and Harvard University
Daten: Twitter. http://www.ccs.neu.edu/home/amislove/twittermood/
25
00000000
000
Rahlf, T. (2014). Datendesign mit R: 100 Visualisierungsbeispiele. München: open source press.
Daten: Facebook
26
WER SPRICHT ÜBER…
27
SENTIMENT ANALYSE FÜR
POLITIK-TWEETS
28
Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In Workshop on
Language Analysis in Social Media (LASM 2013), Atlanta, Georgia, US. Retrieved from: http://www.mpi-
sws.org/~cristian/LASM_2013_files/LASM/pdf/LASM06.pdf
GEO-DATEN
29
MOBILITÄT
Livehood Project
Daten: Foursquare (via Twitter)
http://livehoods.org/maps/montreal
30
31
ALLTAG
http://www.nytimes.com/interactive/2009/11/26/us/20091126-search-graphic.html?_r=0
Daten aus: Allrecipes.com
WEITERE ANSÄTZE
• Mietspiegel, z.B. mit Immobilienscout.
• Naturkatastrophen
• Sprachgebrauch
32
http://www.guardian.co.uk/news/datablog/2012/nov/28/data-
shadows-twitter-uk-floods-mapped#zoomed-picture
NETZWERKE
33
WER KENNT WEN?
34
Facebook (Paul Butler)
Daten: Facebook
https://www.facebook.com/note.php?note_id=469716398919
INTERAKTION
35
Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on
Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.:
Peter Lang.
WEITERE DATEN FÜR
SOZIALWISSENSCHAFTLER?
• Ebay: Kaufverhalten, Preisentwicklung
• Wikipedia: Versionshistorie von „umstrittenen“ Themen.
• Google: Häufigkeiten von Suchbegriffen
• Kommentare
• Bewertungen: Amazon, Movie Ratings, …
• Video on Demand: Netflix, Lovefilm, YouTube, …
• TV-Backchannel: z.B. Twitter
• RFID Chips für Interaktionen
• Voting Advice Applications: Wahl-O-Mat
36
CASE STUDIES
37
BEISPIEL:
TWITTER & WAHLEN
38
0
10
20
30
40
50
60
2008 2009 2010 2011 2012 2013
Twitter and elections (Scopus and Web of
Science)
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
Year of
election
Name of election Country/region No. of papers
(2013)
Date of
election
2008 40th Canadian General Election Canada 1 14.10.20
08
2009 European Parliament election, 2009 Europe 1 07.06.20
09
2009 German federal election, 2009 Germany 2 27.09.20
09
2010 2010 UK general election United Kingdom 4 06.05.20
10
2010 South Korean local elections, 2010 South Korea 1 02.06.20
10
2010 Dutch general election, 2010 Netherlands 2 09.06.20
10
2010 Australian federal election, 2010 Australia 1 21.08.20
10
2010 Swedish general election, 2010 Sweden 1 19.09.20
10
2010 Midterm elections / United States House of Representatives elections,
2010
USA 4 02.11.20
10
2010 Gubernational elections: Georgia USA 1 02.11.20
10
2010 Gubernational elections: Ohio USA 1 02.11.20
10
2010 Gubernational elections: Rhode Island USA 1 02.11.20
10
2010 Gubernational elections: Vermont USA 1 02.11.20
10
2010 2010 superintendent elections South Korea 1 17.12.20
10
2011 Baden-Württemberg state election, 2011 Germany 1 27.03.20
11
2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.20
11
2011 Scottish parliament election 2011 Scotland 1 05.05.20
11
2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20
11
2011 Norwegian local elections, 2011 Norway 2 12.09.20
11
2011 2011 Danish parliamentary election Denmark 2 15.09.20
11
2011 Scottish parliament election 2011 Scotland 1 05.05.20
11
2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20
11
2011 Norwegian local elections, 2011 Norway 2 12.09.20
11
2011 2011 Danish parliamentary election Denmark 2 15.09.20
11
2011 Berlin state election, 2011 Germany 2 18.09.20
11
2011 Gubernational elections: West Virginia USA 1 04.10.20
11
2011 Gubernational elections: Louisiana USA 1 22.10.20
11
2011 Swiss federal election, 2011 Switzerland 1 23.10.20
11
2011 2011 Seoul mayoral elections South Korea 1 26.10.20
11
2011 Gubernational eletions: Kentucky USA 1 08.11.20
11
2011 Gubernational elections: Mississippi USA 1 08.11.20
11
2011 Spanish national election 2011 Spain 1 20.11.20
11
2012 Queensland State election Australia 1 24.03.20
12
2012 South Korean legislative election, 2012 South Korea 1 11.04.20
12
2012 French presidential election, 2012 France 2 22.04.20
12
2012 Mexican general election, 2012 Mexico 1 01.07.20
12
2012 United States presidential election, 2012 / United States House of
Representatives elections, 2012
USA 17 06.11.20
12
2012 South Korean presidential election, 2012 South Korea 2 19.12.20
12
2013 Ecuadorian general election, 2013 Ecuador 1 17.02.20
13
2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.20
13
2013 Paraguayan general election, 2013 Paraguay 1 21.04.20
13
BIG DATA?
2013: TWITTER AND ELECTION
No. of Tweets No. Of publications (2013)
0-500 3
501-1.000 4
1.001-5.000 1
5.001-10.000 1
10.001-50.000 7
50.001-100.000 4
100.001-500.000 5
500.001-1.000.000. 3
1.000.001-5.000.000 3
mehr als 5.000.000 3
mehr als 100.000.000 1
mehr als 1.000.000.000 1
keine/ungenaue Angabe 13
METHODEN
Methodisch unterscheiden sich die Studien weiter darin, ob sie...
• Tweet-Inhalte analysieren (automatisch mit
Sprachverarbeitungsprogrammen oder manuell codiert),
• Nutzer-Profile und Nutzer-Netzwerke vermessen,
• Tweet-Typen unterscheiden
• oder URLs in Tweets untersuchen.
• Neben Wahlvorhersagen können auch Verfahren zur automatischen
Erkennung von Stimmungen in Tweets (Sentiment Analyse) als
wiederkehrende Thematik indentifiziert werden.
Knapp mehr als die Hälfte der betrachteten Studien (26 von 49) setzen die
Twitter-Datensätze mit anderen Daten in Beziehung. Dabei kann es sich
sowohl um Wahlprognosen und Wahlergebnisse oder Umfragedaten
handeln, als auch um Daten aus anderen Social-Media-Diensten wie
Facebook oder Blogs.
42
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
BEISPIEL:
POLITISCHE KOMMUNIKATION
43
Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search engine queries. International
Journal of Public Opinion Research, 23(1), 104-113. doi: 10.1093/ijpor/edq048
BEISPIEL:
MEDIALE KOMMUNIKATION
44
Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking
sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi:
10.12924/mac2013.01010015
FAZIT
Big Data, die für Sozialwissenschaftler interessant sind, sind nicht
unbedingt die größten Datensätze. Entscheidend ist hier die Art
der Daten und die damit verbundenen ggf. neuartigen Einblicke.
Die neuen Daten werfen aber auch viele neue Fragen auf, v.a.
bezüglich der Methoden.
45
3. METHODEN UND
HERAUSFORDERUNGEN
46
47
METHODEN (IN DER SOZIALW.
TWITTER FORSCHUNG)
Weller, K. (in press). What do we get from Twitter – and what not? A close look at Twitter research in the social
sciences. Knowledge Organization.
QUELLEN FÜR BIG DATA
• Application Programming Interface (API)
• Web Crawling
• Reseller
• Crowdsourcing (z.B. 23andMe)
• Bislang kaum: Datenarchive, Korpora.
48
49
DATENSAMMLUNG
Datenquelle Anzahl
Keine Angabe 11
Manuelle Datensammlung auf der Twitter-Website (Copy-Paste /
Screenshot)
6
Twitter API (one näheren Angaben) 8
Twitter Search API 3
Twitter Streaming API 1
Twitter Rest API 1
Twitter API user timeline 1
Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4
Twitter Gardenhose 1
Offizielle Reseller (Gnip, DataSift) 3
YourTwapperKeeper 3
Andere Drittanbieter (z.B. Topsy) 6
Von Kooperationspartner erhalten 1
50
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
Twitter and Election (2013 papers)
TOOLS ZUR DATENSAMMLUNG
UND -ANALYSE
51
DIGITAL METHODS
INITIATIVE
https://wiki.digitalmethods.net/Dmi/ToolDatabase
GNIP
TOPSY
YOURTWAPPERKEEPER
NODEXL
Network Analysis
Sammelt Daten aus (u.a.): Facebook, Twitter,
YouTube, Flickr, Wikipedia
NODEXL
NodeXLGraphGallery.org
GEPHI
Stephen Wolfram
Daten: Facebook
http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
59
ALTERNATIVE:
CROWDSOURCING
60
Stephen Wolfram
Daten: Facebook
http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
TECHNISCHE
HERAUSFORDERUNGEN
61
TECHNISCHE
HERAUSFORDERUNGEN
• Zugänglichkeit
• Data Sharing
• Änderungen
• Manipulation (z.B. Twitter Bomb) & Spam
• Personalisierte Ergebnisse
 Fehlende Reproduzierbarkeit und Nachvollziehbarkeit
62
ENDE DER THEORIE?
63
because it’s there?
Big Data vs. Found Data
ENDE DER THEORIE?
Sozialwissenschaften
1. Problem
2. Forschungsfrage/
Hypothesen
3. Theorien
4. Methoden
5. Daten
6. Analyse
7. Ergebnispräsentation
64
Typische Big Data-Analyse
1. Methoden
2. Daten
3. Analyse
4. Ergebnispräsentation
5. Problem
Korrelation vs. Kausalität
Pfeffer, J. (2013). Big data, big research? Opportunities and constraints for computer supported social science.
Keynote zur „Digital methods“-Tagung der DGPuK-Fachgruppe Computervermittelte Kommunikation, Wien.
Abgerufen von http://www.pfeffer.at/slides/DigitalMethods-BigData.pdf
ANFANG DER THEORIE?
“The interesting point is that these limitations can (and have to) be
addressed by theory guided research that is typically conducted
by social scientists. Accordingly, opportunities emerge for those
social and behavioral scientists who are willing to collaborate with
the Big Data researchers in the natural, engineering, and
computer sciences.”
65
Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet.
International Journal of Internet Science, 7, 1-5. Retrieved from http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
METHODENPROBLEME
“There are a lot of small data problems that occur in big data,”
says Spiegelhalter. “They don’t disappear because you’ve got lots
of the stuff. They get worse.”
Tim Harford (2014): Big data: are we making a big mistake? FT Magazine, retrieved from:
http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-
00144feabdc0.html#axzz2xGqAnW8a?utm_source=pocket&utm_medium=email&utm_campaign=pockethits
66
REPRÄSENTATIVITÄT
“The core challenge is that most big data that have
received popular attention are not the output of
instruments designed to produce valid and reliable data
amenable for scientific analysis.“
67
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google
Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
REPRÄSENTATIVITÄT
Sampling Bias
N = All
68
REPRÄSENTATIVITÄT
69
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research
GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-
Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
13
29
14
44
17
51
32
56
44
69
54
74
44
82
67
87
75
87
73
99
0
20
40
60
80
100
ViceCreative
produc-
tion
Blog-
ging
School
&
work
Info-
tain-
ment
Commer-
cial
activity
Enter-
tain-
ment
Classic
news
Infor-
mation
seeking
Social-
ize
OxIS current users: 2013 N=1,613
Figure 2: Activities of Twitter Users & Non-users
Twitter user Non-user
REPRÄSENTATIVITÄT
70
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research
GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-
Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
34
26
8
12
18
14
10
17
12
23
28
3330
35
0
20
40
60
80
100
InterestPolitical activities
Interest
in politics
Send
political
message
Contact
MP online
Re-post
political
news
Political
comment
on SNS
Find
political
facts
Sign
online
petition
OxIS current users: 2013 N=1,613
Figure 6: Political Activities of Twitter Users
Twitter user Non-user
REPRÄSENTATIVITÄTS-
PROBLEME AUF MEHREREN
EBENEN
“About a third of all UK Internet users have a twitter profile; a
subset of that group are the active tweeters who produce the bulk
of content; and then a tiny subset of that group (about 1%)
geocode their tweets (essential information if you want to know
about where your information is coming from).”
71
Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from:
http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
GEFAHREN DURCH FEHLENDE
REPRÄSENTATIVITÄT
Diskussion: Menschen, die durch Big Data nicht repräsentiert sind
72
http://streetbump.org
Siehe auch: http://www.wired.com/2014/03/potholes-big-data-
crowdsourcing-way-better-government/
ETHIK
73
DISKUSSION
Informed Consent?
Öffentlichkeit der Daten?
Bislang keine Standards, aber Diskussionen.
74
4. ÜBUNG
75
LANDTAGSWAHL NRW 2012
76
• Vorgezogene Wahl am 13. Mai 2012.
• Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin
• CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen
• Piratenpartei erstmals im Landtag
• Linke scheitert an 5%-Hürde
http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
LANDTAGSWAHL BEI TWITTER
77
Hashtag Tweets
(27.03.-15.06.13)
#ltw12 5.656
#ltwnrw 11.116
#ltw2012 165
#ltwnrw12 1.621
#ltwnrw2012 27
#nrw12 41.106
#nrw2012 1.991
Total (ohne Dubletten) 56.145
Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der
Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information
Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
78
PERSONEN UND PARTEIEN
BEI TWITTER
@nrwspd @gruenenrw @cdunrw_de
@fdp_nrw @dielinkenrw @piratennrw
79
PERSONEN UND PARTEIEN
BEI TWITTER
@hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen)
@c_lindner Katharina Schwabedissen @Nick_Haflinger
CSV IMPORTIEREN
80
CSV IMPORTIEREN
81
WER DISKUTIERT MIT?
Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen
Nutzer identifizieren, die min. einen Tweet geschrieben haben.
Wie viele Nutzer haben genau einen Tweet?
Wie sieht die Verteilung der Tweets pro User aus?
Wer sind die fünf aktivsten Nutzer?
82
HASHTAG-DISKUSSION
27.03.-15.06.2013
83
10.438 User
Davon 5.048 mit mehr als 1 Tweet
2.046 mit mehr als 5 Tweets
0
100
200
300
400
500
600
700
1 501 1001 1501 2001
Tweets pro User
WAS MACHEN DIE
KANDIDATEN?
Aufgabe: einen der Kandidaten auswählen, Dateien
fromKandidat und atKandidat öffnen
Wie viele Tweets hat „ihr Kandidat“ veröffentlicht?
Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten?
Was wurde besonders häufig geretweetet?
84
NETZWERK:
BUNDESTAGSWAHL
85
following
85
Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online
conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and
Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014.
mentioningretweeting
WEITERE EINBLICKE
#ltw12 Tweets
• Wie viele Tweets haben einen Geo-Code?
• Tweets im Zeitverlauf?
86
ZEITVERLAUF
BUNDESTAGSWAHL
87
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013.
Presentation at the General Online Research 2014, Cologne, Germany.
88
ZEITVERLAUF
BUNDESTAGSWAHL
Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013.
Presentation at the General Online Research 2014, Cologne, Germany.
TWEET-INHALTE
1. Manuelle Codierung
• Ca. 10 Tweets lesen – was fällt auf?
2. Automatische Analyse möglich?
• Problem: deutschsprachige Texte
• http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen
englischen Tweets (z.B. Twitter suche nach election
https://twitter.com/search)
89
DISKUSSION
Welche Fragestellungen wären interessant?
90
4. FAZIT & DISKUSSION
91
EINFLUSS?
Welche Rolle kann Big Data langfristig in den
Sozialwissenschaften spielen?
92
NEUE WISSENSCHAFT?
Data Science?
Computational Social Science?
„scientization of social research“
Welche neuen Fähigkeiten müssen erlernt werden?
Verändert sich die Fachausbildung?
93
NEUE JOBS?
Data Journalist?
94
VIELEN DANK!
95
LITERATUR
Die Literaturliste ist verfügbar unter:
http://kwelle.wordpress.com/2014/04/12/big-data-links-and-literature/
96

Más contenido relacionado

La actualidad más candente

Technologiegestütztes Lehren und Lernen
Technologiegestütztes Lehren und LernenTechnologiegestütztes Lehren und Lernen
Technologiegestütztes Lehren und LernenMartin Ebner
 
Die Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienDie Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienMartin Ebner
 
Die Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienDie Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienMartin Ebner
 
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgen
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgenTechnologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgen
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgenMartin Ebner
 
Brauchen die Studierenden von morgen noch E-Learning?
Brauchen die Studierenden von morgen noch E-Learning?Brauchen die Studierenden von morgen noch E-Learning?
Brauchen die Studierenden von morgen noch E-Learning?Martin Ebner
 
Projektvorstellung des EU-Forschungsprojekts WeGov im Bundestag
Projektvorstellung des EU-Forschungsprojekts WeGov im BundestagProjektvorstellung des EU-Forschungsprojekts WeGov im Bundestag
Projektvorstellung des EU-Forschungsprojekts WeGov im BundestagTimo Wandhoefer
 
(R)Evolution: Trends in GIS und Visualisierung
(R)Evolution: Trends in GIS und Visualisierung(R)Evolution: Trends in GIS und Visualisierung
(R)Evolution: Trends in GIS und VisualisierungRalph Straumann
 

La actualidad más candente (7)

Technologiegestütztes Lehren und Lernen
Technologiegestütztes Lehren und LernenTechnologiegestütztes Lehren und Lernen
Technologiegestütztes Lehren und Lernen
 
Die Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienDie Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und Lehrmaterialien
 
Die Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und LehrmaterialienDie Zukunft von Lern- und Lehrmaterialien
Die Zukunft von Lern- und Lehrmaterialien
 
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgen
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgenTechnologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgen
Technologiegestütztes Lehren und Lernen I - Der Lernende von heute und morgen
 
Brauchen die Studierenden von morgen noch E-Learning?
Brauchen die Studierenden von morgen noch E-Learning?Brauchen die Studierenden von morgen noch E-Learning?
Brauchen die Studierenden von morgen noch E-Learning?
 
Projektvorstellung des EU-Forschungsprojekts WeGov im Bundestag
Projektvorstellung des EU-Forschungsprojekts WeGov im BundestagProjektvorstellung des EU-Forschungsprojekts WeGov im Bundestag
Projektvorstellung des EU-Forschungsprojekts WeGov im Bundestag
 
(R)Evolution: Trends in GIS und Visualisierung
(R)Evolution: Trends in GIS und Visualisierung(R)Evolution: Trends in GIS und Visualisierung
(R)Evolution: Trends in GIS und Visualisierung
 

Similar a Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

5. Nationale Smart City-Tagung: Open Data und Open Government
5. Nationale Smart City-Tagung: Open Data und Open Government5. Nationale Smart City-Tagung: Open Data und Open Government
5. Nationale Smart City-Tagung: Open Data und Open GovernmentMatthias Stürmer
 
Open Data und Datenvisualisierung
Open Data und DatenvisualisierungOpen Data und Datenvisualisierung
Open Data und DatenvisualisierungMatthias Stürmer
 
Datenvisualisierungen mit D3.js und weiteren Web Technologien
Datenvisualisierungen mit D3.js und weiteren Web TechnologienDatenvisualisierungen mit D3.js und weiteren Web Technologien
Datenvisualisierungen mit D3.js und weiteren Web TechnologienMatthias Stürmer
 
Open Data und die OGD Austria, eGovCamp 3.12.2010, Wien
Open Data und die OGD Austria, eGovCamp 3.12.2010, WienOpen Data und die OGD Austria, eGovCamp 3.12.2010, Wien
Open Data und die OGD Austria, eGovCamp 3.12.2010, WienSemantic Web Company
 
Open Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenOpen Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenMatthias Stürmer
 
Open Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenOpen Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenMatthias Stürmer
 
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Matthias Stürmer
 
Uni bern datenpolitik_20160303
Uni bern datenpolitik_20160303Uni bern datenpolitik_20160303
Uni bern datenpolitik_20160303Andre Golliez
 
Open Government Data Breakfast am 12.5.2010
Open Government Data Breakfast am 12.5.2010Open Government Data Breakfast am 12.5.2010
Open Government Data Breakfast am 12.5.2010Semantic Web Company
 
Open Data Vorlesung 2015: Data Journalism
Open Data Vorlesung 2015: Data JournalismOpen Data Vorlesung 2015: Data Journalism
Open Data Vorlesung 2015: Data JournalismMatthias Stürmer
 
Projektvorstellung WeGov - Deutscher Bundestag
Projektvorstellung WeGov - Deutscher BundestagProjektvorstellung WeGov - Deutscher Bundestag
Projektvorstellung WeGov - Deutscher BundestagWeGov project
 
Open Government als Chance für die öffentliche Verwaltung
Open Government als Chance für die öffentliche VerwaltungOpen Government als Chance für die öffentliche Verwaltung
Open Government als Chance für die öffentliche VerwaltungRobert Seyfriedsberger
 
Offene Daten in Europa. Die Vorschläge der EU-Kommission
Offene Daten in Europa. Die Vorschläge der EU-KommissionOffene Daten in Europa. Die Vorschläge der EU-Kommission
Offene Daten in Europa. Die Vorschläge der EU-KommissionCarl-Christian Buhr
 

Similar a Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten (20)

5. Nationale Smart City-Tagung: Open Data und Open Government
5. Nationale Smart City-Tagung: Open Data und Open Government5. Nationale Smart City-Tagung: Open Data und Open Government
5. Nationale Smart City-Tagung: Open Data und Open Government
 
Open Data und Datenvisualisierung
Open Data und DatenvisualisierungOpen Data und Datenvisualisierung
Open Data und Datenvisualisierung
 
Datenvisualisierungen mit D3.js und weiteren Web Technologien
Datenvisualisierungen mit D3.js und weiteren Web TechnologienDatenvisualisierungen mit D3.js und weiteren Web Technologien
Datenvisualisierungen mit D3.js und weiteren Web Technologien
 
Open Data und die OGD Austria, eGovCamp 3.12.2010, Wien
Open Data und die OGD Austria, eGovCamp 3.12.2010, WienOpen Data und die OGD Austria, eGovCamp 3.12.2010, Wien
Open Data und die OGD Austria, eGovCamp 3.12.2010, Wien
 
Ogd austria e-govcamp_20101203
Ogd austria e-govcamp_20101203Ogd austria e-govcamp_20101203
Ogd austria e-govcamp_20101203
 
OGD Austria Die Initiative Open Government Data Austria
OGD Austria Die Initiative Open Government Data Austria OGD Austria Die Initiative Open Government Data Austria
OGD Austria Die Initiative Open Government Data Austria
 
Open Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenOpen Data und interaktive Datenvisualisierungen
Open Data und interaktive Datenvisualisierungen
 
Open Data und interaktive Datenvisualisierungen
Open Data und interaktive DatenvisualisierungenOpen Data und interaktive Datenvisualisierungen
Open Data und interaktive Datenvisualisierungen
 
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
 
Uni bern datenpolitik_20160303
Uni bern datenpolitik_20160303Uni bern datenpolitik_20160303
Uni bern datenpolitik_20160303
 
Open Government Data Breakfast am 12.5.2010
Open Government Data Breakfast am 12.5.2010Open Government Data Breakfast am 12.5.2010
Open Government Data Breakfast am 12.5.2010
 
Open Data Vorlesung 2015: Data Journalism
Open Data Vorlesung 2015: Data JournalismOpen Data Vorlesung 2015: Data Journalism
Open Data Vorlesung 2015: Data Journalism
 
Projektvorstellung WeGov - Deutscher Bundestag
Projektvorstellung WeGov - Deutscher BundestagProjektvorstellung WeGov - Deutscher Bundestag
Projektvorstellung WeGov - Deutscher Bundestag
 
Fake News und E-Voting
Fake News und E-VotingFake News und E-Voting
Fake News und E-Voting
 
Open Data rules the World!
Open Data rules the World!Open Data rules the World!
Open Data rules the World!
 
Open Government als Chance für die öffentliche Verwaltung
Open Government als Chance für die öffentliche VerwaltungOpen Government als Chance für die öffentliche Verwaltung
Open Government als Chance für die öffentliche Verwaltung
 
Open Data AG Collaboratory
Open Data AG CollaboratoryOpen Data AG Collaboratory
Open Data AG Collaboratory
 
Markt- und Sozialforschung ohne Befragte?
Markt- und Sozialforschung ohne Befragte?Markt- und Sozialforschung ohne Befragte?
Markt- und Sozialforschung ohne Befragte?
 
Offene Daten in Europa. Die Vorschläge der EU-Kommission
Offene Daten in Europa. Die Vorschläge der EU-KommissionOffene Daten in Europa. Die Vorschläge der EU-Kommission
Offene Daten in Europa. Die Vorschläge der EU-Kommission
 
Open Data in der Schweiz
Open Data in der SchweizOpen Data in der Schweiz
Open Data in der Schweiz
 

Más de Katrin Weller

Weller pleasures+perils social media
Weller pleasures+perils social mediaWeller pleasures+perils social media
Weller pleasures+perils social mediaKatrin Weller
 
Weller social media as research data_psm15
Weller social media as research data_psm15Weller social media as research data_psm15
Weller social media as research data_psm15Katrin Weller
 
Fail! workshop introduction at Web Science Conference
Fail! workshop introduction at Web Science ConferenceFail! workshop introduction at Web Science Conference
Fail! workshop introduction at Web Science ConferenceKatrin Weller
 
Challenges in-archiving-twitter
Challenges in-archiving-twitterChallenges in-archiving-twitter
Challenges in-archiving-twitterKatrin Weller
 
The digital traces of user generated content
The digital traces of user generated contentThe digital traces of user generated content
The digital traces of user generated contentKatrin Weller
 
The Hidden Data of Social Media Rearch_CSS-winter-symposium
The Hidden Data of Social Media Rearch_CSS-winter-symposiumThe Hidden Data of Social Media Rearch_CSS-winter-symposium
The Hidden Data of Social Media Rearch_CSS-winter-symposiumKatrin Weller
 
Publishing with impact
Publishing with impactPublishing with impact
Publishing with impactKatrin Weller
 
"I always feel it must be great to be a hacker"
"I always feel it must be great to be a hacker" "I always feel it must be great to be a hacker"
"I always feel it must be great to be a hacker" Katrin Weller
 
Hidden Data of Social Media Research
Hidden Data of Social Media ResearchHidden Data of Social Media Research
Hidden Data of Social Media ResearchKatrin Weller
 
What’s new in social media research?
What’s new in social media research?What’s new in social media research?
What’s new in social media research?Katrin Weller
 
Social Media Research Methods
Social Media Research MethodsSocial Media Research Methods
Social Media Research MethodsKatrin Weller
 
Quantität vor Qualität? Big Data im Kontext von Social Media Daten
Quantität vor Qualität? Big Data im Kontext von Social Media DatenQuantität vor Qualität? Big Data im Kontext von Social Media Daten
Quantität vor Qualität? Big Data im Kontext von Social Media DatenKatrin Weller
 
The pleasures and perils of studying Twitter
The pleasures and perils of studying TwitterThe pleasures and perils of studying Twitter
The pleasures and perils of studying TwitterKatrin Weller
 
Friends or Followers. German Soccer Clubs and Their Fans on Twitter
Friends or Followers. German Soccer Clubs and Their Fans on TwitterFriends or Followers. German Soccer Clubs and Their Fans on Twitter
Friends or Followers. German Soccer Clubs and Their Fans on TwitterKatrin Weller
 
What do we get from Twitter - and what not?
What do we get from Twitter - and what not?What do we get from Twitter - and what not?
What do we get from Twitter - and what not?Katrin Weller
 
Twitter research overview
Twitter research overviewTwitter research overview
Twitter research overviewKatrin Weller
 
Diata12 opening: Twitter research in Düsseldorf
Diata12 opening: Twitter research in DüsseldorfDiata12 opening: Twitter research in Düsseldorf
Diata12 opening: Twitter research in DüsseldorfKatrin Weller
 
Twitter tipps online11
Twitter tipps online11Twitter tipps online11
Twitter tipps online11Katrin Weller
 

Más de Katrin Weller (20)

Weller pleasures+perils social media
Weller pleasures+perils social mediaWeller pleasures+perils social media
Weller pleasures+perils social media
 
Weller social media as research data_psm15
Weller social media as research data_psm15Weller social media as research data_psm15
Weller social media as research data_psm15
 
Fail ir16 intro
Fail ir16 introFail ir16 intro
Fail ir16 intro
 
Fail! workshop introduction at Web Science Conference
Fail! workshop introduction at Web Science ConferenceFail! workshop introduction at Web Science Conference
Fail! workshop introduction at Web Science Conference
 
Challenges in-archiving-twitter
Challenges in-archiving-twitterChallenges in-archiving-twitter
Challenges in-archiving-twitter
 
The digital traces of user generated content
The digital traces of user generated contentThe digital traces of user generated content
The digital traces of user generated content
 
The Hidden Data of Social Media Rearch_CSS-winter-symposium
The Hidden Data of Social Media Rearch_CSS-winter-symposiumThe Hidden Data of Social Media Rearch_CSS-winter-symposium
The Hidden Data of Social Media Rearch_CSS-winter-symposium
 
Publishing with impact
Publishing with impactPublishing with impact
Publishing with impact
 
"I always feel it must be great to be a hacker"
"I always feel it must be great to be a hacker" "I always feel it must be great to be a hacker"
"I always feel it must be great to be a hacker"
 
Hidden Data of Social Media Research
Hidden Data of Social Media ResearchHidden Data of Social Media Research
Hidden Data of Social Media Research
 
What’s new in social media research?
What’s new in social media research?What’s new in social media research?
What’s new in social media research?
 
Social Media Research Methods
Social Media Research MethodsSocial Media Research Methods
Social Media Research Methods
 
Quantität vor Qualität? Big Data im Kontext von Social Media Daten
Quantität vor Qualität? Big Data im Kontext von Social Media DatenQuantität vor Qualität? Big Data im Kontext von Social Media Daten
Quantität vor Qualität? Big Data im Kontext von Social Media Daten
 
The pleasures and perils of studying Twitter
The pleasures and perils of studying TwitterThe pleasures and perils of studying Twitter
The pleasures and perils of studying Twitter
 
Friends or Followers. German Soccer Clubs and Their Fans on Twitter
Friends or Followers. German Soccer Clubs and Their Fans on TwitterFriends or Followers. German Soccer Clubs and Their Fans on Twitter
Friends or Followers. German Soccer Clubs and Their Fans on Twitter
 
What do we get from Twitter - and what not?
What do we get from Twitter - and what not?What do we get from Twitter - and what not?
What do we get from Twitter - and what not?
 
Twitter research overview
Twitter research overviewTwitter research overview
Twitter research overview
 
Tweeting the news
Tweeting the news Tweeting the news
Tweeting the news
 
Diata12 opening: Twitter research in Düsseldorf
Diata12 opening: Twitter research in DüsseldorfDiata12 opening: Twitter research in Düsseldorf
Diata12 opening: Twitter research in Düsseldorf
 
Twitter tipps online11
Twitter tipps online11Twitter tipps online11
Twitter tipps online11
 

Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten

  • 1. BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG GROßER MENGEN ONLINEGENERIERTER DATEN IN DEN SOZIALWISSENSCHAFTEN WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF 13.04.2014 DOZENTIN: KATRIN WELLER UND KOMMENTARE VON: MERJA MAHRT
  • 2. WILLKOMMEN! Dr. Katrin Weller GESIS Leibniz Institut für Sozialwissenschaften katrin.weller@gesis.org @kwelle http://katrinweller.net Dr. Merja Mahrt Heinrich-Heine-Universität Düsseldorf mahrt@phil.uni-duesseldorf.de https://www.phil-fak.uni-duesseldorf.de/kmw- weiss/mitarbeiterinnen/dr-merja-mahrt/ 2
  • 4. „I keep saying that the sexy job in the next 10 years will be statisticians,“ said Hal Varian, chief economist at Google. „And I’m not kidding.“ „The ability to take data - to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it - that's going to be a hugely important skill in the next decades...“ http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers 4
  • 5. 5 Google Trends Suche „big data“
  • 7. WIE GROß IST GROß? • Datensätze, die nur von Supercomputern bearbeitet werden können? • Terabyte, Petabytes und Exabytes? • So groß, dass man die Daten nicht mehr händisch analysieren kann? 7
  • 8. BIG DATA (FRÜHER) „large surveys such as th NCVS may have 60,000 or more observations, and only recently has research begun on how to plot these massive datasets“ 1996, Fesco et al. aus: Unwin, A. / Theus, M. / Hofmann, H., Graphics of Large Datasets. Visualizing a Million (= Statistics and Computing), Springer 2006. Beispiele via Thomas Rahlf „the analysis of data recorded by Tel-Star, an early communication satellite, involved tens of thousands of observations and challenged contemporary computing technology“ 1965, Chambers „restricted in their analysis because the software there could only handle 88,000 real numbers.“ 1981, Aitken et al. 8
  • 9. >900 Millionen Facebook-Nutzer, 30 Petabyte Daten (täglich kommen etwa 15 Terabyte hinzu ) täglich zu verarbeitendes Datenvolumen bei Facebook: 500 Terabyte, (mehr als das zehnfache der täglichen Datenproduktion der Detektoren des großen Teilchenbeschleunigers im Forschungszentrum Cern) Youtube: vier Milliarden Views pro Tag, davon 500 Millionen mobil. App-Store (2008 eröffnet): 25 Milliarden Downloads (2012) Google-Earth: > 1 Milliarde Downloads 400 Millionen Twitter Tweets weltweit pro Tag BIG DATA (HEUTE) 9 Beispiele via Thomas Rahlf
  • 10. ARTEN VON BIG DATA? • Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big Science“) • Finanz-Sektor: Börsendaten, Bankbewegungen • Gesundheitswesen: z.B.Krankenhausdaten, Krankmeldungen • Verwaltungsdaten aus öffentlichen Einrichtungen) / Open Governmental Data (auch unter Linked Open Data) • Kundendaten: z.B. Kassendaten, Telefonverbindungsdaten, Treukartendaten • Social Media Daten: Aktionen und Kommentare z.B. auf Facebook, Youtube, Wikipedia • Andere Online-Nutzungsdaten: z.B. Suchanfragen, Seitenaufrufe, Online-Käufe, Bewertungen • Gerätedaten / Sensordaten: z.B. GPS-Signale aus Navigationssystemen, RFID Chips 10
  • 11. AKTEURE 11 “Big Data is a Big Deal” http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal
  • 12. AKTEURE • Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio- Informatik, Physik, Wirtschaftswissenschaft, Mathematik, Politikwissenschaft, Soziologie… • Privatwirtschaft: Unternehmen als Datenerzeuger und Besitzer; Marktforschung • Öffentlicher Sektor / Verwaltung • Politik / Geheimdienste • Nutzer: Citizen Science / Crowdsourcing 12
  • 13. BIG DATA, SMALL DATA? NEW DATA! 13 Diskussion: Was liefern diese Daten Neues? • Möglichkeiten für zeitnahe Analysen und Prognosen • Entdeckung von Unregelmäßigkeiten (z.B. Epidemien, Finanzen), Entscheidungshilfe in Krisensituationen. Diskussion: Woher kommt der Hype? • Bessere Rechnerkapazität • Zunehmend „beiläufige“ Datenerzeugung
  • 14. FAZIT • Es gibt keine einheitliche Definition für Big Data – die Einschätzung, was als „big“ gilt, ist stark kontextabhängig und kann sich im Laufe der Zeit verändern. • Unterschiedliche Akteure haben unterschiedliche Interessen im Umgang mit Big Data. 14
  • 17. Ansätze Agrregierte Daten auslesen Prognosen Textanalysen (CL) Sentiment analysis Event detection Worthäufigkeit Netzwerke Geo-Analysen BIG DATA IN DEN SOZIALWISSENSCHAFTEN 17 Wahlvorhersage Politische Stimmungen, Kundenzufriedenheit Politische Krisen erkennen Akteursnetze, z.B. Politiker Ortsbezug bei Meinungsanalysen
  • 20. GOOGLE FLU TRENDS “In short, the initial version of GFT was part flu detector, part winter detector.“ (Lazer et al., 2014) • Googles Ergebnisse sind nicht besser als „klassische“ Vorhersagedaten. • Aber: Kombination ist sinnvoll. 20 Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
  • 21. ARBEITSLOSIGKEIT Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment Forecasting, Forschungsinstitut zur Zukunft der Arbeit IZA DP No. 4201. June 2009. Daten: Google 21
  • 22. WAHLERGEBNISSE 22 Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections. Paper presented at the Privacy, security, risk and trust (passat) conference, Boston, MA. Doi: 10.1109/PASSAT/SocialCom.2011.98
  • 23. WEITERE ANSÄTZE • Eurovision Song Contest Sieger • Box Office Revenue • Aktienkurse, Wechselkurse • … 23
  • 25. Northeastern University and Harvard University Daten: Twitter. http://www.ccs.neu.edu/home/amislove/twittermood/ 25
  • 26. 00000000 000 Rahlf, T. (2014). Datendesign mit R: 100 Visualisierungsbeispiele. München: open source press. Daten: Facebook 26
  • 28. SENTIMENT ANALYSE FÜR POLITIK-TWEETS 28 Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In Workshop on Language Analysis in Social Media (LASM 2013), Atlanta, Georgia, US. Retrieved from: http://www.mpi- sws.org/~cristian/LASM_2013_files/LASM/pdf/LASM06.pdf
  • 30. MOBILITÄT Livehood Project Daten: Foursquare (via Twitter) http://livehoods.org/maps/montreal 30
  • 32. WEITERE ANSÄTZE • Mietspiegel, z.B. mit Immobilienscout. • Naturkatastrophen • Sprachgebrauch 32 http://www.guardian.co.uk/news/datablog/2012/nov/28/data- shadows-twitter-uk-floods-mapped#zoomed-picture
  • 34. WER KENNT WEN? 34 Facebook (Paul Butler) Daten: Facebook https://www.facebook.com/note.php?note_id=469716398919
  • 35. INTERAKTION 35 Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang.
  • 36. WEITERE DATEN FÜR SOZIALWISSENSCHAFTLER? • Ebay: Kaufverhalten, Preisentwicklung • Wikipedia: Versionshistorie von „umstrittenen“ Themen. • Google: Häufigkeiten von Suchbegriffen • Kommentare • Bewertungen: Amazon, Movie Ratings, … • Video on Demand: Netflix, Lovefilm, YouTube, … • TV-Backchannel: z.B. Twitter • RFID Chips für Interaktionen • Voting Advice Applications: Wahl-O-Mat 36
  • 38. BEISPIEL: TWITTER & WAHLEN 38 0 10 20 30 40 50 60 2008 2009 2010 2011 2012 2013 Twitter and elections (Scopus and Web of Science) Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
  • 39. Year of election Name of election Country/region No. of papers (2013) Date of election 2008 40th Canadian General Election Canada 1 14.10.20 08 2009 European Parliament election, 2009 Europe 1 07.06.20 09 2009 German federal election, 2009 Germany 2 27.09.20 09 2010 2010 UK general election United Kingdom 4 06.05.20 10 2010 South Korean local elections, 2010 South Korea 1 02.06.20 10 2010 Dutch general election, 2010 Netherlands 2 09.06.20 10 2010 Australian federal election, 2010 Australia 1 21.08.20 10 2010 Swedish general election, 2010 Sweden 1 19.09.20 10 2010 Midterm elections / United States House of Representatives elections, 2010 USA 4 02.11.20 10 2010 Gubernational elections: Georgia USA 1 02.11.20 10 2010 Gubernational elections: Ohio USA 1 02.11.20 10 2010 Gubernational elections: Rhode Island USA 1 02.11.20 10 2010 Gubernational elections: Vermont USA 1 02.11.20 10 2010 2010 superintendent elections South Korea 1 17.12.20 10 2011 Baden-Württemberg state election, 2011 Germany 1 27.03.20 11 2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.20 11 2011 Scottish parliament election 2011 Scotland 1 05.05.20 11 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20 11 2011 Norwegian local elections, 2011 Norway 2 12.09.20 11 2011 2011 Danish parliamentary election Denmark 2 15.09.20 11
  • 40. 2011 Scottish parliament election 2011 Scotland 1 05.05.20 11 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20 11 2011 Norwegian local elections, 2011 Norway 2 12.09.20 11 2011 2011 Danish parliamentary election Denmark 2 15.09.20 11 2011 Berlin state election, 2011 Germany 2 18.09.20 11 2011 Gubernational elections: West Virginia USA 1 04.10.20 11 2011 Gubernational elections: Louisiana USA 1 22.10.20 11 2011 Swiss federal election, 2011 Switzerland 1 23.10.20 11 2011 2011 Seoul mayoral elections South Korea 1 26.10.20 11 2011 Gubernational eletions: Kentucky USA 1 08.11.20 11 2011 Gubernational elections: Mississippi USA 1 08.11.20 11 2011 Spanish national election 2011 Spain 1 20.11.20 11 2012 Queensland State election Australia 1 24.03.20 12 2012 South Korean legislative election, 2012 South Korea 1 11.04.20 12 2012 French presidential election, 2012 France 2 22.04.20 12 2012 Mexican general election, 2012 Mexico 1 01.07.20 12 2012 United States presidential election, 2012 / United States House of Representatives elections, 2012 USA 17 06.11.20 12 2012 South Korean presidential election, 2012 South Korea 2 19.12.20 12 2013 Ecuadorian general election, 2013 Ecuador 1 17.02.20 13 2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.20 13 2013 Paraguayan general election, 2013 Paraguay 1 21.04.20 13
  • 41. BIG DATA? 2013: TWITTER AND ELECTION No. of Tweets No. Of publications (2013) 0-500 3 501-1.000 4 1.001-5.000 1 5.001-10.000 1 10.001-50.000 7 50.001-100.000 4 100.001-500.000 5 500.001-1.000.000. 3 1.000.001-5.000.000 3 mehr als 5.000.000 3 mehr als 100.000.000 1 mehr als 1.000.000.000 1 keine/ungenaue Angabe 13
  • 42. METHODEN Methodisch unterscheiden sich die Studien weiter darin, ob sie... • Tweet-Inhalte analysieren (automatisch mit Sprachverarbeitungsprogrammen oder manuell codiert), • Nutzer-Profile und Nutzer-Netzwerke vermessen, • Tweet-Typen unterscheiden • oder URLs in Tweets untersuchen. • Neben Wahlvorhersagen können auch Verfahren zur automatischen Erkennung von Stimmungen in Tweets (Sentiment Analyse) als wiederkehrende Thematik indentifiziert werden. Knapp mehr als die Hälfte der betrachteten Studien (26 von 49) setzen die Twitter-Datensätze mit anderen Daten in Beziehung. Dabei kann es sich sowohl um Wahlprognosen und Wahlergebnisse oder Umfragedaten handeln, als auch um Daten aus anderen Social-Media-Diensten wie Facebook oder Blogs. 42 Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
  • 43. BEISPIEL: POLITISCHE KOMMUNIKATION 43 Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search engine queries. International Journal of Public Opinion Research, 23(1), 104-113. doi: 10.1093/ijpor/edq048
  • 44. BEISPIEL: MEDIALE KOMMUNIKATION 44 Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015
  • 45. FAZIT Big Data, die für Sozialwissenschaftler interessant sind, sind nicht unbedingt die größten Datensätze. Entscheidend ist hier die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke. Die neuen Daten werfen aber auch viele neue Fragen auf, v.a. bezüglich der Methoden. 45
  • 47. 47 METHODEN (IN DER SOZIALW. TWITTER FORSCHUNG) Weller, K. (in press). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization.
  • 48. QUELLEN FÜR BIG DATA • Application Programming Interface (API) • Web Crawling • Reseller • Crowdsourcing (z.B. 23andMe) • Bislang kaum: Datenarchive, Korpora. 48
  • 49. 49
  • 50. DATENSAMMLUNG Datenquelle Anzahl Keine Angabe 11 Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot) 6 Twitter API (one näheren Angaben) 8 Twitter Search API 3 Twitter Streaming API 1 Twitter Rest API 1 Twitter API user timeline 1 Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4 Twitter Gardenhose 1 Offizielle Reseller (Gnip, DataSift) 3 YourTwapperKeeper 3 Andere Drittanbieter (z.B. Topsy) 6 Von Kooperationspartner erhalten 1 50 Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R. Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript. Twitter and Election (2013 papers)
  • 53. GNIP
  • 54. TOPSY
  • 56. NODEXL Network Analysis Sammelt Daten aus (u.a.): Facebook, Twitter, YouTube, Flickr, Wikipedia
  • 58. GEPHI
  • 62. TECHNISCHE HERAUSFORDERUNGEN • Zugänglichkeit • Data Sharing • Änderungen • Manipulation (z.B. Twitter Bomb) & Spam • Personalisierte Ergebnisse  Fehlende Reproduzierbarkeit und Nachvollziehbarkeit 62
  • 63. ENDE DER THEORIE? 63 because it’s there? Big Data vs. Found Data
  • 64. ENDE DER THEORIE? Sozialwissenschaften 1. Problem 2. Forschungsfrage/ Hypothesen 3. Theorien 4. Methoden 5. Daten 6. Analyse 7. Ergebnispräsentation 64 Typische Big Data-Analyse 1. Methoden 2. Daten 3. Analyse 4. Ergebnispräsentation 5. Problem Korrelation vs. Kausalität Pfeffer, J. (2013). Big data, big research? Opportunities and constraints for computer supported social science. Keynote zur „Digital methods“-Tagung der DGPuK-Fachgruppe Computervermittelte Kommunikation, Wien. Abgerufen von http://www.pfeffer.at/slides/DigitalMethods-BigData.pdf
  • 65. ANFANG DER THEORIE? “The interesting point is that these limitations can (and have to) be addressed by theory guided research that is typically conducted by social scientists. Accordingly, opportunities emerge for those social and behavioral scientists who are willing to collaborate with the Big Data researchers in the natural, engineering, and computer sciences.” 65 Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7, 1-5. Retrieved from http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  • 66. METHODENPROBLEME “There are a lot of small data problems that occur in big data,” says Spiegelhalter. “They don’t disappear because you’ve got lots of the stuff. They get worse.” Tim Harford (2014): Big data: are we making a big mistake? FT Magazine, retrieved from: http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a- 00144feabdc0.html#axzz2xGqAnW8a?utm_source=pocket&utm_medium=email&utm_campaign=pockethits 66
  • 67. REPRÄSENTATIVITÄT “The core challenge is that most big data that have received popular attention are not the output of instruments designed to produce valid and reliable data amenable for scientific analysis.“ 67 Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
  • 69. REPRÄSENTATIVITÄT 69 Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 13 29 14 44 17 51 32 56 44 69 54 74 44 82 67 87 75 87 73 99 0 20 40 60 80 100 ViceCreative produc- tion Blog- ging School & work Info- tain- ment Commer- cial activity Enter- tain- ment Classic news Infor- mation seeking Social- ize OxIS current users: 2013 N=1,613 Figure 2: Activities of Twitter Users & Non-users Twitter user Non-user
  • 70. REPRÄSENTATIVITÄT 70 Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 34 26 8 12 18 14 10 17 12 23 28 3330 35 0 20 40 60 80 100 InterestPolitical activities Interest in politics Send political message Contact MP online Re-post political news Political comment on SNS Find political facts Sign online petition OxIS current users: 2013 N=1,613 Figure 6: Political Activities of Twitter Users Twitter user Non-user
  • 71. REPRÄSENTATIVITÄTS- PROBLEME AUF MEHREREN EBENEN “About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).” 71 Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
  • 72. GEFAHREN DURCH FEHLENDE REPRÄSENTATIVITÄT Diskussion: Menschen, die durch Big Data nicht repräsentiert sind 72 http://streetbump.org Siehe auch: http://www.wired.com/2014/03/potholes-big-data- crowdsourcing-way-better-government/
  • 74. DISKUSSION Informed Consent? Öffentlichkeit der Daten? Bislang keine Standards, aber Diskussionen. 74
  • 76. LANDTAGSWAHL NRW 2012 76 • Vorgezogene Wahl am 13. Mai 2012. • Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin • CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen • Piratenpartei erstmals im Landtag • Linke scheitert an 5%-Hürde http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
  • 77. LANDTAGSWAHL BEI TWITTER 77 Hashtag Tweets (27.03.-15.06.13) #ltw12 5.656 #ltwnrw 11.116 #ltw2012 165 #ltwnrw12 1.621 #ltwnrw2012 27 #nrw12 41.106 #nrw2012 1.991 Total (ohne Dubletten) 56.145 Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
  • 78. 78 PERSONEN UND PARTEIEN BEI TWITTER @nrwspd @gruenenrw @cdunrw_de @fdp_nrw @dielinkenrw @piratennrw
  • 79. 79 PERSONEN UND PARTEIEN BEI TWITTER @hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen) @c_lindner Katharina Schwabedissen @Nick_Haflinger
  • 82. WER DISKUTIERT MIT? Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen Nutzer identifizieren, die min. einen Tweet geschrieben haben. Wie viele Nutzer haben genau einen Tweet? Wie sieht die Verteilung der Tweets pro User aus? Wer sind die fünf aktivsten Nutzer? 82
  • 83. HASHTAG-DISKUSSION 27.03.-15.06.2013 83 10.438 User Davon 5.048 mit mehr als 1 Tweet 2.046 mit mehr als 5 Tweets 0 100 200 300 400 500 600 700 1 501 1001 1501 2001 Tweets pro User
  • 84. WAS MACHEN DIE KANDIDATEN? Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen Wie viele Tweets hat „ihr Kandidat“ veröffentlicht? Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten? Was wurde besonders häufig geretweetet? 84
  • 85. NETZWERK: BUNDESTAGSWAHL 85 following 85 Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014. mentioningretweeting
  • 86. WEITERE EINBLICKE #ltw12 Tweets • Wie viele Tweets haben einen Geo-Code? • Tweets im Zeitverlauf? 86
  • 87. ZEITVERLAUF BUNDESTAGSWAHL 87 Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  • 88. 88 ZEITVERLAUF BUNDESTAGSWAHL Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  • 89. TWEET-INHALTE 1. Manuelle Codierung • Ca. 10 Tweets lesen – was fällt auf? 2. Automatische Analyse möglich? • Problem: deutschsprachige Texte • http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search) 89
  • 91. 4. FAZIT & DISKUSSION 91
  • 92. EINFLUSS? Welche Rolle kann Big Data langfristig in den Sozialwissenschaften spielen? 92
  • 93. NEUE WISSENSCHAFT? Data Science? Computational Social Science? „scientization of social research“ Welche neuen Fähigkeiten müssen erlernt werden? Verändert sich die Fachausbildung? 93
  • 96. LITERATUR Die Literaturliste ist verfügbar unter: http://kwelle.wordpress.com/2014/04/12/big-data-links-and-literature/ 96