Presentatie van Maurice Bouwhuis (SARA/Vancis): ‘Hoe big data te begrijpen door ze te visualiseren’ tijdens het Big Data Analytics seminar 14 juni in Almere
Driving Behavioral Change for Information Management through Data-Driven Gree...
Maurice Bouwhuis (SARA/Vancis) - Hoe big data te begrijpen door ze te visualiseren
1. Big Data: Visualization
Dr. Maurice Bouwhuis
SARA National High Performance Computing Services
Big Data analytics– Almere 14-06-2012
2. About SARA: Our Mission
Is to Support Innovation
SARA national HPC Center has
about ~170 fte’s in 2 locations
(Amsterdam and Almere)
Offices in Amsterdam
The mission of SARA is 2-fold:
4. Supporting research in the Netherlands
[SARA BV for Science & Innovation]
5. Offering commercial high-end ICT Data Center in Amsterdam
services
[Vancis BV for adVANCed Ict Services]
SARA werkt nauw samen met SURF
Data Center in Almere
Big Data analytics– Almere 14-06-2012
3. Almere Big Data Hoofdstad
Big Data analytics– Almere 14-06-2012
4. Big Data: The Deluge
Big Data analytics– Almere 14-06-2012
5. What is Big Data?
“I cannot define it, but I know it when I see it”
My Big Bear now
My Big Bear then
Big Data analytics– Almere 14-06-2012
6. Wikipedia Defining Big Data
beyond Commonly used ICT
“Data sets whose size is beyond the ability of commonly
used tools to capture, manage, and process the data within
a tolerable elapsed time.
Big Data analytics– Almere 14-06-2012
7. Big Data as defined
by IDC (2011)
“Bringing together vast
amounts of data from public
and private sources,
combined with the intuition
of business and thought
leaders and the speed and
affordability of today's
computers.”
(IDC October 2011)
Big Data analytics– Almere 14-06-2012
8. Defining Big Data
The 3 V’s
Volume
Large amounts
Massive historical archives
Valuable for data mining Velocity
Velocity
At very high rates
(sensors, streams, social media, …)
Valuable in its “fresh” state
Volume Variety
Variety
Structured, semi-structured and unstructured
Variety also in Value
Big Data analytics– Almere 14-06-2012
9. 2 new V’s: Viscosity & Virality
Big Data analytics– Almere 14-06-2012
10. Big Data Drivers
“Internet of Things”
Commoditization of HPC
Human dynamics can be
easily stored and queried
with Apache Hadoop
HDFS (storage)
Hadoop Distributed File System
MapReduce (processing)
high performance parallel data
processing
Scalable & Self-healing
So, Big data is driven by
large scale data collection,
storage and (information)
processing
Big Data analytics– Almere 14-06-2012
11. Data Deluge @SARA
It has always been there…
Scientific Data Deluge:
Observations (e.g.
LOFAR, Lifewatch)
Large-scale Simulation
(e.g. astrophysics,
climate modeling)
Experiments (e.g. Large
Hadron Collider, DNA
e-Science and Technology Infrastructure for Large Hadron Collider
sequencers) Biodiversity Data and Ecosystem Research
Multi-Petabytes of data
growth at SARA each year
Single datasets of 10-100
Terabytes and larger
Multidisciplinary use of data
Science needs Insight, not
only Data Low Frequency Array Biobanking and Biomolecular
Resources Research Infrastructure
Big Data analytics– Almere 14-06-2012
12. Big Data Ultimate Challenge:
How to get insight?
As volume, variety and
velocity of data
increase, use of
visualization is
imperative to help
getting the insight for
an ever increasingly
data-driven future
Big Data analytics– Almere 14-06-2012
13. Some Applications of Big Data
Astronomy
Astron
1 Exabyte per
day raw data
2 times WWW
traffic per day
SKA
300 - 1500
Petabytes
storage per
year!
20 times LHC
Big Data analytics– Almere 14-06-2012
14. Some Applications of Big Data
Healthcare
Erasmus MC
Diagnostics:
4%: costs
72%: decisions
Opportunities
for disease
management:
1) New
classification of
patients for
better
diagnostics &
combined
therapy
2) Assessing and
managing risks
Big Data analytics– Almere 14-06-2012
15. Some Applications of Big Data
Water Management
Total length primary flood
defenses in Netherlands:
2875km spread over 90 dike
“rings”…
Decision Support System:
Integration of: Sensor data +
AI, Simulation results, Maps,
weather, ships, roadwork,
traffic, twitter, GSM, location
of emergency services, ...
Big Data analytics– Almere 14-06-2012
16. Some Applications of Big Data
Infrawatch, Hollandse Brug
145 x 100 x 60 x 60 x 24 x 365 = big data
sensors Hz seconds minutes hours days
(Arno Knobbe, LIACS, 2011, http://infrawatch.liacs.nl)
Big Data analytics– Almere 14-06-2012
17. Some Applications of Big Data
Ecology
Citizen Science:
>20,000 users, >50M
observations.
Bird radars: streaming
data, many terabytes
GPS-tracking:
Streaming data,
Word-wide projects.
Massive amounts of
complementary, multi-
scale information that
can not be “seen” in
the field.
Big Data analytics– Almere 14-06-2012
18. Some Applications of Big Data
eScience is also (big) data mining
Cognition: image analysis
and data exchange Food Specific Ontologies for
Climate Research: Food Focused Text Mining
Regional Sea-Level
Chemical Metabolomics
Data Analysis
Biography Portal: Data-Intensive Modeling
by SURF & NWO
interconnections, trends, of the Global Water Cycle
geographical maps and
time lines Big Data analytics– Almere 14-06-2012
19. CosmoGrid Case: The Need for
Integrated e-Infrastructure Services
A cosmological N-body simulation with
8,589,934,592 particles, formation of large
structures of dark matter
Dutch Computing Challenge Project & DEISA
Extreme Computing Initiative: DCCP 2008 –
2009 / DECI 2009
Run 1 + 2:
4.25 M core hours Computing, 110 TB data
Huygens Amsterdam + Cray XT4 Tokyo,
coupled via light path and Amsterdam + Tokyo
+ Helsinki + Edinburgh
High resolution data remote visualization on
tiled panel display
Advanced support in porting and optimization,
visualization, data storage, networking and
project management
All infrastructure elements and their integration are crucial
Visit SURF 7-6-2012
Big Data analytics– Almere 14-06-2012
20. Visualization @ SARA
more than 20 years of experience and support
Scientific visualization High resolution Scientific visualization
Scientific & industrial
support visualization support support
visualization support
Rendering Remote visualization Remote visualization
Virtual Reality
Animations and slides & streaming service Collaboration support
Big Data analytics– Almere 14-06-2012
21. How are we
Coping with Big Data?
HPC centers, universities,
and in recent years, Internet
companies like Yahoo!,
Facebook en of course
Google are pioneers (lots of
knowledge exchange, by the
way.)
We collect Big Data, store it
and we have the knowledge
to interpret it.
What tools do we have to
pull this out?
Big Data analytics– Almere 14-06-2012
22. ‘Collaboratorium’: New visualization
and collaboration facility @SARA
videoconference laptop 2 laptop 3 website in browser
Visualization of big shared data
data and trends
Also for improving
business and
Science models
and computational
debugging.
PowerPoint, Video
Conferencing,
videoconference laptop 1 data from data from
telepresence, 3D remote camera workstation 1 workstation 2
(stereo) projection
Based on proven
technology from
SARA and
partners EVL and
Calit2 (San Diego)
Big Data analytics– Almere 14-06-2012
23. Visualization @ SARA –
Remote Visualization
Remote visualization service
q Provide dedicated visualization resources in SARA
data center: Rendercluster and visualization software
(i.e. Paraview, VisIt, VTK, VMD, Blender, ...
q Embedded in national e-Infrastructure
q Visualization resource has direct access to storage at
SARA
q Avoid large data transfers over network (esp.
Internet) by running visualization applications
remotely
q Pixel output/remote desktop transferred to user,
instead of files
q Application support for parallel rendering
Big Data analytics– Almere 14-06-2012
24. Big Data Requires Big Computing
What benefits could
exascale computing bring?
It will enable discovery in many
areas of science. "Aerospace
engineering, astrophysics,
biology, climate modeling and
national security all have
applications with extreme
computing requirements,"
Big Data analytics– Almere 14-06-2012
25. Compute Ecosystem @SARA
1. Low-latency, high-bandwidth
capability computing (Huygens)
2. Capacity compute clusters
(LISA)
3. Loosely coupled compute Grids
(Big Grid)
4. Sector, private and public
Clouds Including our HPC
Cloud) and Beehub storage
5. Special-purpose (GPU)
clusters
6. Big Data Apache Hadoop
systems (since 2009)
Big Data analytics– Almere 14-06-2012
26. Big Data Eco-System @SARA
DevOps Programming algorithms Domain knowledge
Big Data analytics– Almere 14-06-2012
27. To Summarize: Big Data
Is Changing Rapidly our Life
Big Data is changing
science, medicine,
business, and technology.
A whole new way of
science: correlation
supersedes causation,
coherent models or unified
theories…
Biggest challenge for
science & business is not
storing or processing data
but how to make sense of
it without affecting our
privacy.
Big Data analytics– Almere 14-06-2012
28. Big Data… Big Enough?
Thank You
Big Data analytics– Almere 14-06-2012
Dames en heren een heel Goede morgen Het is een heel grote plezier voor mij om de eerste keynote op deze Big data dag hier in Almere te mogen geven.
Iets over SARA
Almere begrijpt als geen andere het belang van schaal Almere wil tweemaal zo groot worden en is al jaren bezig op vele fronten om dit te bewerkstelligen. ICT heeft in Almere altijd een belangrijke rol gespeeld. SARA is al begin van deze eeuw zich in Almere gaan vestigen en de eerste pilote voor Breedband was ook in Almere. Met het programma Almere DataCapital, wil Almere zich profileren als Dutch Media en Health Hub. De positie als datahoofdstad moet de gemeente op termijn 2500 nieuwe banen opleveren
De Economist heeft als eerste de wereld bewust gemaakt van de potentie en belang van Big Data met hun befaamde artikel over the data deluge. In december 2011 was Big Data het hoofdthema van de World Economic Forum in Davos. Centraal stond belang van data intelligence voor besluitvorming op politieke, sociale en economische vlakken. IDC in maart dit jaar een forecast gedaan over de groei van de Big Data markt: maar liefst 40% groei per jaar, 7 keer zoveel als de gemiddelde groei van de ICT markt
Maar eerst wat verstaan we onder Big data? Eerst de befaamde uitspraak van de Amerikaanse senator, wel in een heel andere context: I Cannot define it, but I know it when I see it”… We weten ook dat het begrip grote hoeveelheden data is relatief. Wat vandaag veel data is, kan morgen normaal of zelfs als klein aangemerkt worden.
Volgens Wikipedia is wordt het Big Data, wanneer de data hoeveelheid groter is dan wat gebruikelijk is om data te collecteren, managen en processen binnen een acceptabele tijdsbestek
Volgens IDC gaat Big Data over het samenbrengen van grote hoeveelheden data van publieke en private bronnen gecombineerd met de intuïtie en ideeën van business leiders en de mogelijkheden van betaalbare ICT.
Big Data wordt doorgaan gekaracteriseerd met de 3 V’s Volume Grote hoeveelheden data. Snelheid van dataproductie veroorzaakt ook gigantische logfiles en archieven. Allen zeer waardevol voor data minimig. Velocity – zowel batch, als near-time, en real-time, streams. Big data wordt gekenmerkt met zeer hoge snelheden, sensoren, media streams Het is heel belangrijk om snel te handelen maar ook de data heel veel waarde als die zogenaamd nog vers is. Variety – Big data is gestructureerd, half gestructureerd maar ook ongestructureerd. Verschillende bronnen oud en nieuw leveren een grote diversiteit aan data format en vandaar dat oude DBMS technieken niet meer alleen toereikend zijn.
Twee nieuwe V’s zijn recentelijk hieraan toegevoegd: Viscosity: viscositeit is een maat van de weerstand om door de data heen komen en data in informatie en dus inzicht om te vormen. Betere technieken zijn vereist zoals beter streaming, betere integratie en processing technieken. Virality: Virality beschrijft hoe snel de data verspreidt zich tussen mensen (P2P).
Samenvattend de belangrijkste drijfveren zijn dus: Internet of things HPC is een commodity geworden: data acquisitie, opslag en verwerking En de derde doorbraak is de opkomst van Hadoop, een open-source project van Apache Software Foundation. Hadoop biedt een betrouwbare en ook vooral betaalbare data storage oplossing met het Hadoop Distributed File System (HDFS) en een high-performance parallel data processing techniek zogenaamd MapReduce.
Dit Big Data Deluge is niets nieuws bij SARA Projecten als Lofar en Lifewatch leverden al grote hoeveelheden data Ook grootschalige simulaties in astrofysica maar ook klimaat modelleringen En uiteraard alleen al de experimenten bij De CERN in Genève leveren ruim 2 petabytes per jaar. SARA is gewend om vele petabytes per jaar te collecteren, managen en te processen. Enkele datasets hiervan zijn tientallen tot honderden terabytes groot. Maar de uitdaging is om inzicht uit de data te halen.
Maar de hamvraag bij Big Data is niet meer hoe de data opgeslagen en verwerkt moet worden maar vooral het verkrijgen van inzicht uit de berg informatie die eruit komt!
Een paar Big Data Applicatie: Astronomie: astronomische data hoeveelheden door grootschalige infrastructurele projecten zoals Lofar en Square Kilometer ARRAY. Alleen al bij Astron verwacht men om 1 exabyte (dat is 1000 peta) per dag te moeten verwerken. Dat is 2 maal de hoeveelheid dataverkeer op de WWW. Binnen het SKA project zal het om tussen 300 en 1500 exabytes opslag per jaar. Dat is minimaal ruim 20 maal de hoeveelheid data gegenereerd door de LHC van CERN.
Andere voorbeeld komt uit de gezondheidszorg. Diagnosekosten zijn 4% van de totale kosten terwijl besluiten op hebben 72% impact. Big data waar genexpressie, gecombineerd met proteomics, screening chemoinformatics en ook tekstuele data mining van literatuur en patenten levert betere classificaties van patiënten, beter diagnose en beter therapie, ook betere beoordeling en management van risico’s
Andere applicatie is water management. De totale lengte van primaire water defensielijnen in NL is een klein 3000 km verspreid over 90 dijkringen. Het project heeft met behulp van big data een decision support systeem opgezet met een combinatie van sensoren, AI, simulatie data, kaarten, weer gegevens, scheep en autoverkeergegevens, twitter, GSM, locatie van hulpdiensten, etc. Doelstelling is bij calamiteiten de hulpdiensten te assisteren om problemen vroegtijdig te detecteren en zoveel mogelijk mensen te redden.
Zo is het project Infrawatch, hiet zien we de studie op de Hollandse brug. Sinds 2008 is de brug geëquipeerd met een grote verzameling aan sensoren die voortdurend de verkeerlast op de brug en de reactie van de infra hierop meten. De data die hierdoor verzameld wordt is rond de 11 Gb per dag. day.
Ook is ecologie, heeft Big Data haar intrede gedaan. Hier zijn de burgers ook bij betrokken, met name met observaties die verspreid over het land moeten geschieden. Er is dan sprake van meer dan 20,000 gebruikers en meer dan 50 miljoen observaties. Voorbeelden zijn inzet van radars voor volgen van vogels, inzet van GPS systemen, en een veelvoud aan extra informatie door sensoren en camera’s die door observaties alleen niet gegeven kunnen worden.
Er zijn nog meer applicaties van Big Data waar SARA bij betrokken is zoals Klimaat onderzoek voor bijvoorbeeld zeeniveau Beeldverwerking op het gebied van Cognitie Tekstverwerking en ontologie in voedsel Tekst mining van biografieën. Chemische metabolomics en Modellering van watercycli op wereldschaal. Allen worden gekenmerkt door grote hoeveelheden data uit simulaties, modelleringen, tekst- en beeldverwerking en ook sensoren en opnemers.
Een voorbeeld waarin de geintegreerde infrastructuur belicht wordt Probleem stelling, simulatie over tijd van de beweging van sterrenstelsel, en de simulaties vergelijken met de geobserveerde structuren die we nu zien. N-body simulatie waarbij de bodies galaxies zijn. Gebruikte infrastructuren: Compute: meerdere supers in de wereld tegelijkertijd Opslag: Netwerken: om de computers aan elkaar te verbinden en data terug te leveren Visualisatie: kennis opdoen door data zichtbaar te maken Support: als verbindende factor om alles efficient te laten verlopen en expertise in te schieten Deze partij is ook betrokken in een EyR-3 aanvraag (Seintra, VU).
Visualisatie is hierin onontbeerlijk. SARA heeft een hele historie met visualisatie sinds ruim 20 jaar. Eerst met een van de eerste visualisatie centera in NL. Daarna met de eerste CAVE in Europa. Daarna met de Tiled Panel Displays voor met name remote visualisatie van grote hoeveelheden data. en recentelijk met de opening van het Collaboratorium
Hoe gaan we om met Big Data? Voor HPC Centra, universiteiten en de laatste jaren internet bedrijven zoals Yahoo!, Google en Facebook zijn de pioniers in de aanpk van Big data. Veel kennisuitwisseling gebeurt tussen die partijen. Bij SARA hebben we de kennis en ervaring in het verzamelen en opslaan van zowel gestructureerde als ongestructureerde big data. Ook verwerking van de data en hoe deze te interpreteren. Welke tools hebben we hiervoor nodig?.
Het Collaboratorium is uitermate geschikt voor de visualisatie van grote hoeveelheden data en datatrends. Kan ook gebruikt worden voor het verbeteren van business en wetenschappelijke modellen en ook het debuggen van big data sofware. Het is een hoge resolutie TPD met de mogelijkheden om PPT, video conferencing, 3D stereo projectie en telepresence door verschillende gebruikers ook remote en tegelijk in te zetten. Het TPD is ook op de nationale infra van SARA aangesloten. Het Collaboratorium maakt gebruik van technologie die internationaal ontwikkeld wordt binnen een samenwerking waar SARA aan deelneemt.
Big Data vereist ook grootschalige opslag en verwerking. Vandaar ook de race naar exascale computing. Snelle data verwerking levert doorbraken in verschillende gebieden van wetenschap, en business en is steeds belangrijker voor sociale en maatschappelijke vraagstukken zoals de macro-economie en nationale veiligheid.
Over de jaren heen, heeft SARA een eco-systeem opgebouwd voor o.a. opslag en verwerking van Big Data met data en taak parallelisme. Het eco-systeem dekt de meeste gangbare reken en data problemen in wetenschap en business. Van zogenaamde low-latency, high bandwidth capability computing voor het ineens oplossen van 1 groot ondeelbaar probleem met de nationale supercomputer. Tot het ineens oplossen van een heel groot, wel opdeelbaar probleem op het nationale capacity computing clutser LISA, of losser gekoppeld op een cloud of de grid. SARA beschikt over een aparte rekencluster met Hadoop dataopslag en verwerkingcapaciteit voor Big Data.
Samenwerking tussen devops (dat zijn developers die ook operators zijn), programmeurs en domeinspecialisten is cruciaal in de aanpak van Big data. Devops zorgen voor de parallelle data opslag en met Hadoop, de programmeurs voor de data verwerking met MapReduce en uiteindelijk zorgen de domein experts voor de domeinapplicatie en data interpretatie. Het is wel belangrijk voor de big data applicatie ontwikkeling om de experts van alle drie domeinen in huis te hebben.
Samenvattend: Big data is heel snel onze leven aan het veranderen, van wetenschap tot, medicijnen, to business en technologie. Big data leidt tot een heel nieuwe methode van wetenschap waar correlaties belangrijker zijn dan klassieke causale verbanden zeker in levenswetenschappen. De grootste uitdaging van Big Data is het verkrijgen van inzichten met respect voor onze privacy en keuzevrijheid.