Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS

© 2018, Amazon Web Services, Inc. o sue affiliate. Tutti i diritti riservati.
Giorgio Nobile – Solutions Architect
13 Novembre, Roma
Trovare ciò che serve nella confusione:
comprendere i Big Data con l'analisi AWS.

Un unico
strumento per
gestire tutto

Big Data on AWS
Disponibilità immediata. Distribuzione istantanea.
Nessun hardware da acquistare, nessuna infrastruttura da
mantenere o dimensionare.
Sicurezza e affidabilità. Progettazione volta a rispondere
ai requisiti più rigidi. Revisioni continue, incluse le
certificazioni ISO 27001, FedRAMP, DoD CSM e PCI DSS.
Capacità ampie e avanzate. Oltre 100 servizi e centinaia
di funzionalità per supportare praticamente qualsiasi
carico di lavoro e applicazione per i Big Data.
Centinaia di partner e soluzioni. Chiedi aiuto a un
consulente partner o scegli tra centinaia di strumenti e
applicazioni dell'intero stack di gestione dei dati.

Definizione del data lake AWS
Un data lake è un'architettura con una
piattaforma di storage centralizzato
virtualmente illimitato capace di
categorizzare, elaborare, analizzare e utilizzare
set di dati eterogenei
Attributi fondamentali di un data Lake
• Storage e calcolo separati
• Acquisizione e trasformazione rapide
• Multi-tenancy sicura
• Query in place
• Schema-on-read

L'ARCHITETTURA DI DATI MODERNA

L'architettura di dati moderna è agile
Utenti Origini Modelli Applicazioni Query Elaborazione

80%Di quello che pensiamo
sia analisi in realtà non lo è
Valore
80%
Lavoro
20%

80% di quello che pensiamo sia analisi in realtà non lo è
Indicizzazione
Acquisizione dei dati
Individuazione
Sicurezza
Storage
Governance
Accesso

Acquisizione di dati
Automatizzata e affidabile
1

Conservazione dei dati
di origine originali
2

Gestione del ciclo
di vita e storage offline
3

Dark data are the information
assets organizations collect,
process, and store during
regular business activities,
but generally fail to use for other
purposes (for example, analytics,
business relationships and direct
monetizing).
Gartner
Dati
aziendali
tradizionali
Big Data
Dark data
CRM ERP
Data
warehouse
Dati
mainfram
e
We
b
Social
media
File di
log
Machine
data
Semistrut
turati
Non
strutturati
“
”
Acquisizione dei
Metadata4

Gestione della governance,
della sicurezza e della privacy
5
Critico Limitato Altamente riservato Riservato Pubblico
Classificazione dei dati:

Accesso, ricerca
e rilevamento self-service
6

Gestione della qualità
dei dati
7

Orchestrazione
e pianificazione dei processi
9

Rilevamento
delle modifiche ai dati
10

Storage e flussi
Catalogo e ricerca
Diritti
API e UI
Attributi di un'architettura
di dati moderna
Pilastri principali
di un data lake
Componenti chiave di un'efficace strategia di dati
1. Acquisizione di dati automizzata e affidabile
2. Conservazione dei dati di origine originali
3. Gestione del ciclo di vita e storage offline
4. Acquisizione dei metadata
5. Gestione della governance, della sicurezza
e della privacy
6. Accesso, ricerca e rilevamento self-service
7. Gestione della qualità dei dati
8. Preparazione per l’analisi
9. Orchestrazione e pianificazione dei processi
10.Rilevamento delle modifiche ai dati
1
2
3
4
56
7
8
9
10

Valore
80%
Lavoro
20%
Spostamento dell’analisi
in modo che diventi
80%
analisi
E solo
20%
preparazione

1
Kinesis Firehose
2
5
3
4 6
Athena
Servizio di query
7
8
Batch
9
10
AWS
IoT
Realizzazione di una strategia di dati su AWS
1
2
3
4
56
7
8
9
10

Streaming con Amazon Kinesis
Raccogli, elabora e analizza facilmente flussi di dati e video in tempo reale
Acquisizione,
elaborazione e storage
dei flussi video
Kinesis Video Streams
Caricamento dei flussi di
dati nei datastore AWS
Analisi dei flussi di dati
con SQL
Acquisizione,
elaborazione e storage
dei flussi di dati
Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics

AWS Glue - catalogo di dati
Rendi i dati visibili
Rileva automaticamente i dati e archivia lo schema
Il catalogo rende i dati ricercabili e disponibili per ETL
Il catalogo contiene la tabella e le definizioni dei processi
Calcola le statistiche per rendere efficienti le query
Conformità
Glue
Catalogo di dati
Rilevamento dei dati ed
estrazione dello schema

AWS Glue - servizio ETL
Semplifica lo scripting e la distribuzione ETL
Genera automaticamente il codice ETL
Il codice è personalizzabile con Python e Spark
Endpoint disponibili per eseguire la modifica,
il debug e il test del codice
I processi sono pianificati o basati su eventi
Serverless

ELABORAZIONE DEI DATI
PER L'ANALISI SUL TUO DATA LAKE

Ampia gamma di capacità di analisi
Elaborazione
di dati
Data
warehousing
Creazione
di report
Elaborazione
in tempo reale
Analisi
predittive

Elaborazione e analisi
T r a n s a z i o n a l i e
R D B M S
DynamoDB
DB NoSQL relazionale
Aurora
Database
V i s u a l i z z a z i o n e
d a t i e B I
Kinesis Streams
e Firehose
B a t c h
EMR
Hadoop,
Spark, Presto
Redshift
Data warehouse
Athena
Servizio
di query
AWS Batch
Predittivi
T e m p o r e a l e
AWS Lambda
Apache Storm
su EMR
Apache Flink
su EMR
Streaming di
Spark su EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
ElastiCache DAX

Amazon EMR - elaborazione dei Big Data
Analytics e ML su scala
19 progetti open-source: Apache Hadoop, Spark, HBase, Presto e altri
Sicurezza di livello aziendale
$
Versioni più recenti
Aggiornato con gli ultimi
framework open source
entro 30 giorni dal rilascio
Costi ridotti
Fatturazione flessibile con
fatturazione al secondo,
spot EC2, istanze riservate
e dimensionamento
automatico per la
riduzione dei costi
del 50–80%
Storage S3
Elaborazione sicura dei
dati direttamente nel
data lake S3 con
prestazioni elevate
tramite il connettore
EMRFS
Semplicità
Lancio di Hadoop e Spark
completamente gestiti in
pochi minuti, nessuna
necessità di configurazione
e ottimizzazione di cluster
o provisioning dei nodi
Data lake
100110000100101011100
1010101110010101000
00111100101100101
010001100001

$
SQL
Query istantanee
Nessun costo di
installazione,
è sufficiente
puntare a S3 e
iniziare a eseguire
query
Prezzi a consumo
Pagamento solo per le
query eseguite, risparmio
del 30-90% sul costo per
query attraverso la
compressione
Ambiente aperto
Interfaccia SQL ANSI, driver
JDBC/ODBC, formati multipli,
tipi di compressione, join
e tipi di dati complessi
Semplicità
Serverless: nessuna
infrastruttura, nessuna
amministrazione
Integrato con QuickSight
Servizio di query interattivo che esegue l'analisi dei dati in Amazon S3 con SQL standard
Non è necessario configurare o gestire alcuna infrastruttura o caricaredati
Possibilità di eseguire query SQL sui dati archiviati in Amazon Glacier (disponibile a breve)
Amazon Athena - analisi interattiva

Amazon Redshift - data warehousing moderno
Data warehouse veloce, scalabile e completamente gestito a un decimo del costo
Esecuzione parallela massiva, dimensionamento da gigabyte a exabyte
Query dei dati tra il data warehouse Redshift e il data lake Amazon S3
Dimensionamento
rapido
Tecnologia di storage
colonnare per migliorare
l'efficienza I/O
e dimensionare le
prestazioni di query
Convenienza
Costo iniziale di $0,25
all'ora, solo $250-$333
per terabyte non
compresso all'anno
Formati di file aperti Sicurezza
Audit complete, crittografia
dei dati end-to-end,
certificazione e conformità
a tutti i livelli
Analisi dei formati di dati
ottimizzati su dischi DAS
e tutti i formati di file
aperti in S3
$

Redshift Spectrum – analisi di data lake
Esecuzione di query tra il data warehouse Amazon Redshift e il data lake Amazon S3
Esecuzione di query SQL Redshift su Amazon S3
Dimensionamento separato di calcolo e storage
Prestazioni di query elevate
Simultaneità illimitata
Formati di dati CSV, ORC, Grok, Avro e Parquet
On demand, pagamento per query sulla base
dei dati scansionati
Data lake S3Dati RedShift
Motore di query
Redshift Spectrum

COSA DICE IL CLIENTE?
https://aws.amazon.com/solutions/case-studies/analytics/
https://aws.amazon.com/solutions/case-studies/big-data/

JustGiving crea una piattaforma di Big Data su AWS
"Prima di AWS,
basavamo le decisioni su
un'unica origine di dati
generali. Ora possiamo
estrarre dati molto più
granulari basati su milioni
di donazioni… e utilizzare
tali informazioni per fornire
una piattaforma migliore ai
nostri visitatori".
- Richard Atkinson, CIO

FINRA analizza quotidianamente miliardi di transazioni
Per rispondere
alle dinamiche
di mercato in rapida
evoluzione, FINRA
ha trasferito il 75%
delle operazioni in
Amazon Web Services
e utilizza AWS per
analizzare
75 miliardi di record
al giorno.

FINRA utilizza Amazon EMR e Amazon S3 per elaborare fino a
75 miliardi di eventi di trading al giorno e archiviare in modo sicuro
più di 5 petabyte di dati, ottenendo un risparmio di $ 10-20 milioni
all'anno.
Rilevamento di attività fraudolente

Problemi
• Tempi di estrazione ed elaborazione
• Costo
• Tecnologie superate
• Ccloud ibrido
Soluzioni
• Definizione Datalake
• Cloud Ibrido
• ETL Serverless
• WebApp Shiny
Dashboard dei Movimenti Turistici

Benefici
• Ottimizzazione costi
• Miglioramento della velocità di elaborazione
• Scalabilità
• Velocità di deploy e messa in produzione
• Monitoraggio
Dashboard dei Movimenti Turistici
da 1 giorno ad alcuni
minuti

• Linee guida prescrittive e soluzioni rapidamente distribuibili
• per agevolare lo storage, l'analisi e l'elaborazione di Big Data
nel cloud AWS
• Ottenimento di informazioni dall'IoT in pochi minuti tramite
AWS IoT, Amazon Kinesis Firehose, Amazon Athena e
Amazon QuickSight
• Distribuzione di un data lake in AWS, marzo 2017,
• AWS Online Tech Talks
• Armonizzazione, ricerca e analisi di set di dati con
• legami deboli su AWS tramite Glue, Athena e QuickSight
• Dal data lake al data warehouse: potenziare la visione
• completa del cliente con Amazon Redshift Spectrum
• Integrazione e distribuzione continue
• delle applicazioni Apache Spark tramite AWS
http://amzn.to/2vHIwBq
http://amzn.to/2i9gqZn
http://bit.ly/2qipA8h
http://amzn.to/2qpiFaK
http://amzn.to/2lpbc8p
Conclusioni https://aws.amazon.com/blogs/big-data/
https://aws.amazon.com/answers/big-data/
http://amzn.to/2gIJcj8

Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS

Recomendados

Recomendados

Más contenido relacionado

Similar a Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS

Similar a Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS (20)

Más de Amazon Web Services

Más de Amazon Web Services (20)

Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS