Ai giorno nostri, le informazioni sono una risorsa che deve ancora essere esplorata. Con l’evoluzione dei social media e della tecnologia, la raccolta di dati sta crescendo costantemente, raddoppiando ogni due anni poiché viene creato un numero sempre maggiore di flussi di dati. L’utente di Internet medio nel 2017 generava 1,5 GB di dati al giorno, un numero che raddoppia ogni 18 mesi. Un veicolo autonomo può generare da solo 4 TB al giorno. Ogni stabilimento di produzione "smart" genera 1PB al giorno. Tuttavia, il potenziale di utilizzo di questa abbondanza di dati deve ancora concretizzarsi, poiché sempre più compagnie e tecnologie di intelligenza artificiale stanno usando questi dati per fare scoperte e influenzare decisioni chiave. In questa sessione esamineremo lo stato attuale dei Big Data all'interno di AWS e analizzeremo in profondità gli ultimi trend in materia di Big Data, oltre che alcuni casi d'uso industriale. Scopriremo la gamma di servizi AWS per i dati gestiti che permettono ai clienti di concentrarsi sul rendere utili i dati, tra cui Amazon Aurora, RDS, DynamoDB, Redshift, Spectrum, ElastiCache, Kinesis, EMR, Elasticsearch Service e Gluehow. In questa sessione parleremo di questi servizi, mostrando come vengono utilizzati oggi dai nostri clienti e condivideremo la nostra visione per l’innovazione.
Speaker: Giorgio Nobile, Solutions Architect, AWS
5. Big Data on AWS
Disponibilità immediata. Distribuzione istantanea.
Nessun hardware da acquistare, nessuna infrastruttura da
mantenere o dimensionare.
Sicurezza e affidabilità. Progettazione volta a rispondere
ai requisiti più rigidi. Revisioni continue, incluse le
certificazioni ISO 27001, FedRAMP, DoD CSM e PCI DSS.
Capacità ampie e avanzate. Oltre 100 servizi e centinaia
di funzionalità per supportare praticamente qualsiasi
carico di lavoro e applicazione per i Big Data.
Centinaia di partner e soluzioni. Chiedi aiuto a un
consulente partner o scegli tra centinaia di strumenti e
applicazioni dell'intero stack di gestione dei dati.
6. Definizione del data lake AWS
Un data lake è un'architettura con una
piattaforma di storage centralizzato
virtualmente illimitato capace di
categorizzare, elaborare, analizzare e utilizzare
set di dati eterogenei
Attributi fondamentali di un data Lake
• Storage e calcolo separati
• Acquisizione e trasformazione rapide
• Multi-tenancy sicura
• Query in place
• Schema-on-read
15. Dark data are the information
assets organizations collect,
process, and store during
regular business activities,
but generally fail to use for other
purposes (for example, analytics,
business relationships and direct
monetizing).
Gartner
Dati
aziendali
tradizionali
Big Data
Dark data
CRM ERP
Data
warehouse
Dati
mainfram
e
We
b
Social
media
File di
log
Machine
data
Semistrut
turati
Non
strutturati
“
”
Acquisizione dei
Metadata4
16. Gestione della governance,
della sicurezza e della privacy
5
Critico Limitato Altamente riservato Riservato Pubblico
Classificazione dei dati:
22. Storage e flussi
Catalogo e ricerca
Diritti
API e UI
Attributi di un'architettura
di dati moderna
Pilastri principali
di un data lake
Componenti chiave di un'efficace strategia di dati
1. Acquisizione di dati automizzata e affidabile
2. Conservazione dei dati di origine originali
3. Gestione del ciclo di vita e storage offline
4. Acquisizione dei metadata
5. Gestione della governance, della sicurezza
e della privacy
6. Accesso, ricerca e rilevamento self-service
7. Gestione della qualità dei dati
8. Preparazione per l’analisi
9. Orchestrazione e pianificazione dei processi
10.Rilevamento delle modifiche ai dati
1
2
3
4
56
7
8
9
10
26. Streaming con Amazon Kinesis
Raccogli, elabora e analizza facilmente flussi di dati e video in tempo reale
Acquisizione,
elaborazione e storage
dei flussi video
Kinesis Video Streams
Caricamento dei flussi di
dati nei datastore AWS
Analisi dei flussi di dati
con SQL
Acquisizione,
elaborazione e storage
dei flussi di dati
Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
27. AWS Glue - catalogo di dati
Rendi i dati visibili
Rileva automaticamente i dati e archivia lo schema
Il catalogo rende i dati ricercabili e disponibili per ETL
Il catalogo contiene la tabella e le definizioni dei processi
Calcola le statistiche per rendere efficienti le query
Conformità
Glue
Catalogo di dati
Rilevamento dei dati ed
estrazione dello schema
28. AWS Glue - servizio ETL
Semplifica lo scripting e la distribuzione ETL
Genera automaticamente il codice ETL
Il codice è personalizzabile con Python e Spark
Endpoint disponibili per eseguire la modifica,
il debug e il test del codice
I processi sono pianificati o basati su eventi
Serverless
30. Ampia gamma di capacità di analisi
Elaborazione
di dati
Data
warehousing
Creazione
di report
Elaborazione
in tempo reale
Analisi
predittive
31. Elaborazione e analisi
T r a n s a z i o n a l i e
R D B M S
DynamoDB
DB NoSQL relazionale
Aurora
Database
V i s u a l i z z a z i o n e
d a t i e B I
Kinesis Streams
e Firehose
B a t c h
EMR
Hadoop,
Spark, Presto
Redshift
Data warehouse
Athena
Servizio
di query
AWS Batch
Predittivi
T e m p o r e a l e
AWS Lambda
Apache Storm
su EMR
Apache Flink
su EMR
Streaming di
Spark su EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
ElastiCache DAX
32. Amazon EMR - elaborazione dei Big Data
Analytics e ML su scala
19 progetti open-source: Apache Hadoop, Spark, HBase, Presto e altri
Sicurezza di livello aziendale
$
Versioni più recenti
Aggiornato con gli ultimi
framework open source
entro 30 giorni dal rilascio
Costi ridotti
Fatturazione flessibile con
fatturazione al secondo,
spot EC2, istanze riservate
e dimensionamento
automatico per la
riduzione dei costi
del 50–80%
Storage S3
Elaborazione sicura dei
dati direttamente nel
data lake S3 con
prestazioni elevate
tramite il connettore
EMRFS
Semplicità
Lancio di Hadoop e Spark
completamente gestiti in
pochi minuti, nessuna
necessità di configurazione
e ottimizzazione di cluster
o provisioning dei nodi
Data lake
100110000100101011100
1010101110010101000
00111100101100101
010001100001
33. $
SQL
Query istantanee
Nessun costo di
installazione,
è sufficiente
puntare a S3 e
iniziare a eseguire
query
Prezzi a consumo
Pagamento solo per le
query eseguite, risparmio
del 30-90% sul costo per
query attraverso la
compressione
Ambiente aperto
Interfaccia SQL ANSI, driver
JDBC/ODBC, formati multipli,
tipi di compressione, join
e tipi di dati complessi
Semplicità
Serverless: nessuna
infrastruttura, nessuna
amministrazione
Integrato con QuickSight
Servizio di query interattivo che esegue l'analisi dei dati in Amazon S3 con SQL standard
Non è necessario configurare o gestire alcuna infrastruttura o caricaredati
Possibilità di eseguire query SQL sui dati archiviati in Amazon Glacier (disponibile a breve)
Amazon Athena - analisi interattiva
34. Amazon Redshift - data warehousing moderno
Data warehouse veloce, scalabile e completamente gestito a un decimo del costo
Esecuzione parallela massiva, dimensionamento da gigabyte a exabyte
Query dei dati tra il data warehouse Redshift e il data lake Amazon S3
Dimensionamento
rapido
Tecnologia di storage
colonnare per migliorare
l'efficienza I/O
e dimensionare le
prestazioni di query
Convenienza
Costo iniziale di $0,25
all'ora, solo $250-$333
per terabyte non
compresso all'anno
Formati di file aperti Sicurezza
Audit complete, crittografia
dei dati end-to-end,
certificazione e conformità
a tutti i livelli
Analisi dei formati di dati
ottimizzati su dischi DAS
e tutti i formati di file
aperti in S3
$
35. Redshift Spectrum – analisi di data lake
Esecuzione di query tra il data warehouse Amazon Redshift e il data lake Amazon S3
Esecuzione di query SQL Redshift su Amazon S3
Dimensionamento separato di calcolo e storage
Prestazioni di query elevate
Simultaneità illimitata
Formati di dati CSV, ORC, Grok, Avro e Parquet
On demand, pagamento per query sulla base
dei dati scansionati
Data lake S3Dati RedShift
Motore di query
Redshift Spectrum
36.
37.
38. COSA DICE IL CLIENTE?
https://aws.amazon.com/solutions/case-studies/analytics/
https://aws.amazon.com/solutions/case-studies/big-data/
39. JustGiving crea una piattaforma di Big Data su AWS
"Prima di AWS,
basavamo le decisioni su
un'unica origine di dati
generali. Ora possiamo
estrarre dati molto più
granulari basati su milioni
di donazioni… e utilizzare
tali informazioni per fornire
una piattaforma migliore ai
nostri visitatori".
- Richard Atkinson, CIO
40. FINRA analizza quotidianamente miliardi di transazioni
Per rispondere
alle dinamiche
di mercato in rapida
evoluzione, FINRA
ha trasferito il 75%
delle operazioni in
Amazon Web Services
e utilizza AWS per
analizzare
75 miliardi di record
al giorno.
41. FINRA utilizza Amazon EMR e Amazon S3 per elaborare fino a
75 miliardi di eventi di trading al giorno e archiviare in modo sicuro
più di 5 petabyte di dati, ottenendo un risparmio di $ 10-20 milioni
all'anno.
Rilevamento di attività fraudolente
42. Problemi
• Tempi di estrazione ed elaborazione
• Costo
• Tecnologie superate
• Ccloud ibrido
Soluzioni
• Definizione Datalake
• Cloud Ibrido
• ETL Serverless
• WebApp Shiny
Dashboard dei Movimenti Turistici
43. Benefici
• Ottimizzazione costi
• Miglioramento della velocità di elaborazione
• Scalabilità
• Velocità di deploy e messa in produzione
• Monitoraggio
Dashboard dei Movimenti Turistici
da 1 giorno ad alcuni
minuti
44. • Linee guida prescrittive e soluzioni rapidamente distribuibili
• per agevolare lo storage, l'analisi e l'elaborazione di Big Data
nel cloud AWS
• Ottenimento di informazioni dall'IoT in pochi minuti tramite
AWS IoT, Amazon Kinesis Firehose, Amazon Athena e
Amazon QuickSight
• Distribuzione di un data lake in AWS, marzo 2017,
• AWS Online Tech Talks
• Armonizzazione, ricerca e analisi di set di dati con
• legami deboli su AWS tramite Glue, Athena e QuickSight
• Dal data lake al data warehouse: potenziare la visione
• completa del cliente con Amazon Redshift Spectrum
• Integrazione e distribuzione continue
• delle applicazioni Apache Spark tramite AWS
http://amzn.to/2vHIwBq
http://amzn.to/2i9gqZn
http://bit.ly/2qipA8h
http://amzn.to/2qpiFaK
http://amzn.to/2lpbc8p
Conclusioni https://aws.amazon.com/blogs/big-data/
https://aws.amazon.com/answers/big-data/
http://amzn.to/2gIJcj8