SlideShare una empresa de Scribd logo
1 de 46
© 2018, Amazon Web Services, Inc. o sue affiliate. Tutti i diritti riservati.
Giorgio Nobile – Solutions Architect
13 Novembre, Roma
Trovare ciò che serve nella confusione:
comprendere i Big Data con l'analisi AWS.
Un unico
strumento per
gestire tutto
Big Data on AWS
Disponibilità immediata. Distribuzione istantanea.
Nessun hardware da acquistare, nessuna infrastruttura da
mantenere o dimensionare.
Sicurezza e affidabilità. Progettazione volta a rispondere
ai requisiti più rigidi. Revisioni continue, incluse le
certificazioni ISO 27001, FedRAMP, DoD CSM e PCI DSS.
Capacità ampie e avanzate. Oltre 100 servizi e centinaia
di funzionalità per supportare praticamente qualsiasi
carico di lavoro e applicazione per i Big Data.
Centinaia di partner e soluzioni. Chiedi aiuto a un
consulente partner o scegli tra centinaia di strumenti e
applicazioni dell'intero stack di gestione dei dati.
Definizione del data lake AWS
Un data lake è un'architettura con una
piattaforma di storage centralizzato
virtualmente illimitato capace di
categorizzare, elaborare, analizzare e utilizzare
set di dati eterogenei
Attributi fondamentali di un data Lake
• Storage e calcolo separati
• Acquisizione e trasformazione rapide
• Multi-tenancy sicura
• Query in place
• Schema-on-read
L'ARCHITETTURA DI DATI MODERNA
L'architettura di dati moderna è agile
Utenti Origini Modelli Applicazioni Query Elaborazione
80%Di quello che pensiamo
sia analisi in realtà non lo è
Valore
80%
Lavoro
20%
80% di quello che pensiamo sia analisi in realtà non lo è
Indicizzazione
Acquisizione dei dati
Individuazione
Sicurezza
Storage
Governance
Accesso
Acquisizione di dati
Automatizzata e affidabile
1
Conservazione dei dati
di origine originali
2
Gestione del ciclo
di vita e storage offline
3
Acquisizione
dei Metadata
4
Dark data are the information
assets organizations collect,
process, and store during
regular business activities,
but generally fail to use for other
purposes (for example, analytics,
business relationships and direct
monetizing).
Gartner
Dati
aziendali
tradizionali
Big Data
Dark data
CRM ERP
Data
warehouse
Dati
mainfram
e
We
b
Social
media
File di
log
Machine
data
Semistrut
turati
Non
strutturati
“
”
Acquisizione dei
Metadata4
Gestione della governance,
della sicurezza e della privacy
5
Critico Limitato Altamente riservato Riservato Pubblico
Classificazione dei dati:
Accesso, ricerca
e rilevamento self-service
6
Gestione della qualità
dei dati
7
Preparazione
per l’analisi8
Orchestrazione
e pianificazione dei processi
9
Rilevamento
delle modifiche ai dati
10
Storage e flussi
Catalogo e ricerca
Diritti
API e UI
Attributi di un'architettura
di dati moderna
Pilastri principali
di un data lake
Componenti chiave di un'efficace strategia di dati
1. Acquisizione di dati automizzata e affidabile
2. Conservazione dei dati di origine originali
3. Gestione del ciclo di vita e storage offline
4. Acquisizione dei metadata
5. Gestione della governance, della sicurezza
e della privacy
6. Accesso, ricerca e rilevamento self-service
7. Gestione della qualità dei dati
8. Preparazione per l’analisi
9. Orchestrazione e pianificazione dei processi
10.Rilevamento delle modifiche ai dati
1
2
3
4
56
7
8
9
10
Valore
80%
Lavoro
20%
Spostamento dell’analisi
in modo che diventi
80%
analisi
E solo
20%
preparazione
METTERE TUTTO INSIEME
1
Kinesis Firehose
2
5
3
4 6
Athena
Servizio di query
7
8
Batch
9
10
AWS
IoT
Realizzazione di una strategia di dati su AWS
1
2
3
4
56
7
8
9
10
Streaming con Amazon Kinesis
Raccogli, elabora e analizza facilmente flussi di dati e video in tempo reale
Acquisizione,
elaborazione e storage
dei flussi video
Kinesis Video Streams
Caricamento dei flussi di
dati nei datastore AWS
Analisi dei flussi di dati
con SQL
Acquisizione,
elaborazione e storage
dei flussi di dati
Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
AWS Glue - catalogo di dati
Rendi i dati visibili
Rileva automaticamente i dati e archivia lo schema
Il catalogo rende i dati ricercabili e disponibili per ETL
Il catalogo contiene la tabella e le definizioni dei processi
Calcola le statistiche per rendere efficienti le query
Conformità
Glue
Catalogo di dati
Rilevamento dei dati ed
estrazione dello schema
AWS Glue - servizio ETL
Semplifica lo scripting e la distribuzione ETL
Genera automaticamente il codice ETL
Il codice è personalizzabile con Python e Spark
Endpoint disponibili per eseguire la modifica,
il debug e il test del codice
I processi sono pianificati o basati su eventi
Serverless
ELABORAZIONE DEI DATI
PER L'ANALISI SUL TUO DATA LAKE
Ampia gamma di capacità di analisi
Elaborazione
di dati
Data
warehousing
Creazione
di report
Elaborazione
in tempo reale
Analisi
predittive
Elaborazione e analisi
T r a n s a z i o n a l i e
R D B M S
DynamoDB
DB NoSQL relazionale
Aurora
Database
V i s u a l i z z a z i o n e
d a t i e B I
Kinesis Streams
e Firehose
B a t c h
EMR
Hadoop,
Spark, Presto
Redshift
Data warehouse
Athena
Servizio
di query
AWS Batch
Predittivi
T e m p o r e a l e
AWS Lambda
Apache Storm
su EMR
Apache Flink
su EMR
Streaming di
Spark su EMR
Elasticsearch
Service
Kinesis Analytics,
Kinesis Streams
ElastiCache DAX
Amazon EMR - elaborazione dei Big Data
Analytics e ML su scala
19 progetti open-source: Apache Hadoop, Spark, HBase, Presto e altri
Sicurezza di livello aziendale
$
Versioni più recenti
Aggiornato con gli ultimi
framework open source
entro 30 giorni dal rilascio
Costi ridotti
Fatturazione flessibile con
fatturazione al secondo,
spot EC2, istanze riservate
e dimensionamento
automatico per la
riduzione dei costi
del 50–80%
Storage S3
Elaborazione sicura dei
dati direttamente nel
data lake S3 con
prestazioni elevate
tramite il connettore
EMRFS
Semplicità
Lancio di Hadoop e Spark
completamente gestiti in
pochi minuti, nessuna
necessità di configurazione
e ottimizzazione di cluster
o provisioning dei nodi
Data lake
100110000100101011100
1010101110010101000
00111100101100101
010001100001
$
SQL
Query istantanee
Nessun costo di
installazione,
è sufficiente
puntare a S3 e
iniziare a eseguire
query
Prezzi a consumo
Pagamento solo per le
query eseguite, risparmio
del 30-90% sul costo per
query attraverso la
compressione
Ambiente aperto
Interfaccia SQL ANSI, driver
JDBC/ODBC, formati multipli,
tipi di compressione, join
e tipi di dati complessi
Semplicità
Serverless: nessuna
infrastruttura, nessuna
amministrazione
Integrato con QuickSight
Servizio di query interattivo che esegue l'analisi dei dati in Amazon S3 con SQL standard
Non è necessario configurare o gestire alcuna infrastruttura o caricaredati
Possibilità di eseguire query SQL sui dati archiviati in Amazon Glacier (disponibile a breve)
Amazon Athena - analisi interattiva
Amazon Redshift - data warehousing moderno
Data warehouse veloce, scalabile e completamente gestito a un decimo del costo
Esecuzione parallela massiva, dimensionamento da gigabyte a exabyte
Query dei dati tra il data warehouse Redshift e il data lake Amazon S3
Dimensionamento
rapido
Tecnologia di storage
colonnare per migliorare
l'efficienza I/O
e dimensionare le
prestazioni di query
Convenienza
Costo iniziale di $0,25
all'ora, solo $250-$333
per terabyte non
compresso all'anno
Formati di file aperti Sicurezza
Audit complete, crittografia
dei dati end-to-end,
certificazione e conformità
a tutti i livelli
Analisi dei formati di dati
ottimizzati su dischi DAS
e tutti i formati di file
aperti in S3
$
Redshift Spectrum – analisi di data lake
Esecuzione di query tra il data warehouse Amazon Redshift e il data lake Amazon S3
Esecuzione di query SQL Redshift su Amazon S3
Dimensionamento separato di calcolo e storage
Prestazioni di query elevate
Simultaneità illimitata
Formati di dati CSV, ORC, Grok, Avro e Parquet
On demand, pagamento per query sulla base
dei dati scansionati
Data lake S3Dati RedShift
Motore di query
Redshift Spectrum
COSA DICE IL CLIENTE?
https://aws.amazon.com/solutions/case-studies/analytics/
https://aws.amazon.com/solutions/case-studies/big-data/
JustGiving crea una piattaforma di Big Data su AWS
"Prima di AWS,
basavamo le decisioni su
un'unica origine di dati
generali. Ora possiamo
estrarre dati molto più
granulari basati su milioni
di donazioni… e utilizzare
tali informazioni per fornire
una piattaforma migliore ai
nostri visitatori".
- Richard Atkinson, CIO
FINRA analizza quotidianamente miliardi di transazioni
Per rispondere
alle dinamiche
di mercato in rapida
evoluzione, FINRA
ha trasferito il 75%
delle operazioni in
Amazon Web Services
e utilizza AWS per
analizzare
75 miliardi di record
al giorno.
FINRA utilizza Amazon EMR e Amazon S3 per elaborare fino a
75 miliardi di eventi di trading al giorno e archiviare in modo sicuro
più di 5 petabyte di dati, ottenendo un risparmio di $ 10-20 milioni
all'anno.
Rilevamento di attività fraudolente
Problemi
• Tempi di estrazione ed elaborazione
• Costo
• Tecnologie superate
• Ccloud ibrido
Soluzioni
• Definizione Datalake
• Cloud Ibrido
• ETL Serverless
• WebApp Shiny
Dashboard dei Movimenti Turistici
Benefici
• Ottimizzazione costi
• Miglioramento della velocità di elaborazione
• Scalabilità
• Velocità di deploy e messa in produzione
• Monitoraggio
Dashboard dei Movimenti Turistici
da 1 giorno ad alcuni
minuti
• Linee guida prescrittive e soluzioni rapidamente distribuibili
• per agevolare lo storage, l'analisi e l'elaborazione di Big Data
nel cloud AWS
• Ottenimento di informazioni dall'IoT in pochi minuti tramite
AWS IoT, Amazon Kinesis Firehose, Amazon Athena e
Amazon QuickSight
• Distribuzione di un data lake in AWS, marzo 2017,
• AWS Online Tech Talks
• Armonizzazione, ricerca e analisi di set di dati con
• legami deboli su AWS tramite Glue, Athena e QuickSight
• Dal data lake al data warehouse: potenziare la visione
• completa del cliente con Amazon Redshift Spectrum
• Integrazione e distribuzione continue
• delle applicazioni Apache Spark tramite AWS
http://amzn.to/2vHIwBq
http://amzn.to/2i9gqZn
http://bit.ly/2qipA8h
http://amzn.to/2qpiFaK
http://amzn.to/2lpbc8p
Conclusioni https://aws.amazon.com/blogs/big-data/
https://aws.amazon.com/answers/big-data/
http://amzn.to/2gIJcj8
=?
Grazie

Más contenido relacionado

Similar a Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS

Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Data Driven Innovation
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & AnalyticsDavide Mauri
 
Codemotion provinciali v. 0.1- Codemotion Rome 2015
Codemotion   provinciali v. 0.1- Codemotion Rome 2015Codemotion   provinciali v. 0.1- Codemotion Rome 2015
Codemotion provinciali v. 0.1- Codemotion Rome 2015Codemotion
 
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...Denodo
 
Azure Synapse Analytics for your IoT Solutions
Azure Synapse Analytics for your IoT SolutionsAzure Synapse Analytics for your IoT Solutions
Azure Synapse Analytics for your IoT SolutionsMarco Parenzan
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biMarco Pozzan
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralMarco Parenzan
 
Hexe al SAS Forum Italia 2014
Hexe al SAS Forum Italia 2014Hexe al SAS Forum Italia 2014
Hexe al SAS Forum Italia 2014Fabio Sartini
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralMarco Parenzan
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB
 
Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big DataSolidQIT
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseGianluca Hotz
 
Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Davide Mauri
 
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione datiMicrofocusitalia
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMJürgen Ambrosi
 
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven InnovationCerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven InnovationNeo4j
 

Similar a Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS (20)

Data Lake
Data LakeData Lake
Data Lake
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
Data flow
Data flowData flow
Data flow
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
Presentazione bd2
Presentazione bd2Presentazione bd2
Presentazione bd2
 
Codemotion provinciali v. 0.1- Codemotion Rome 2015
Codemotion   provinciali v. 0.1- Codemotion Rome 2015Codemotion   provinciali v. 0.1- Codemotion Rome 2015
Codemotion provinciali v. 0.1- Codemotion Rome 2015
 
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
Accelerare la migrazione al cloud e la modernizzazione dell'architettura con ...
 
Azure Synapse Analytics for your IoT Solutions
Azure Synapse Analytics for your IoT SolutionsAzure Synapse Analytics for your IoT Solutions
Azure Synapse Analytics for your IoT Solutions
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
 
Power BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT CentralPower BI Streaming Data Flow e Azure IoT Central
Power BI Streaming Data Flow e Azure IoT Central
 
Power bi
Power biPower bi
Power bi
 
Hexe al SAS Forum Italia 2014
Hexe al SAS Forum Italia 2014Hexe al SAS Forum Italia 2014
Hexe al SAS Forum Italia 2014
 
Power BI data flow and Azure IoT Central
Power BI data flow and Azure IoT CentralPower BI data flow and Azure IoT Central
Power BI data flow and Azure IoT Central
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
 
Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big Data
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL Database
 
Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)
 
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBM
 
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven InnovationCerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
 

Más de Amazon Web Services

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Amazon Web Services
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Amazon Web Services
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateAmazon Web Services
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSAmazon Web Services
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Amazon Web Services
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Amazon Web Services
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...Amazon Web Services
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsAmazon Web Services
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareAmazon Web Services
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSAmazon Web Services
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAmazon Web Services
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareAmazon Web Services
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWSAmazon Web Services
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckAmazon Web Services
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without serversAmazon Web Services
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...Amazon Web Services
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceAmazon Web Services
 

Más de Amazon Web Services (20)

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS Fargate
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWS
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot
 
Open banking as a service
Open banking as a serviceOpen banking as a service
Open banking as a service
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
 
Computer Vision con AWS
Computer Vision con AWSComputer Vision con AWS
Computer Vision con AWS
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatare
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e web
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWS
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch Deck
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without servers
 
Fundraising Essentials
Fundraising EssentialsFundraising Essentials
Fundraising Essentials
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container Service
 

Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS

  • 1.
  • 2. © 2018, Amazon Web Services, Inc. o sue affiliate. Tutti i diritti riservati. Giorgio Nobile – Solutions Architect 13 Novembre, Roma Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS.
  • 3.
  • 5. Big Data on AWS Disponibilità immediata. Distribuzione istantanea. Nessun hardware da acquistare, nessuna infrastruttura da mantenere o dimensionare. Sicurezza e affidabilità. Progettazione volta a rispondere ai requisiti più rigidi. Revisioni continue, incluse le certificazioni ISO 27001, FedRAMP, DoD CSM e PCI DSS. Capacità ampie e avanzate. Oltre 100 servizi e centinaia di funzionalità per supportare praticamente qualsiasi carico di lavoro e applicazione per i Big Data. Centinaia di partner e soluzioni. Chiedi aiuto a un consulente partner o scegli tra centinaia di strumenti e applicazioni dell'intero stack di gestione dei dati.
  • 6. Definizione del data lake AWS Un data lake è un'architettura con una piattaforma di storage centralizzato virtualmente illimitato capace di categorizzare, elaborare, analizzare e utilizzare set di dati eterogenei Attributi fondamentali di un data Lake • Storage e calcolo separati • Acquisizione e trasformazione rapide • Multi-tenancy sicura • Query in place • Schema-on-read
  • 8. L'architettura di dati moderna è agile Utenti Origini Modelli Applicazioni Query Elaborazione
  • 9. 80%Di quello che pensiamo sia analisi in realtà non lo è Valore 80% Lavoro 20%
  • 10. 80% di quello che pensiamo sia analisi in realtà non lo è Indicizzazione Acquisizione dei dati Individuazione Sicurezza Storage Governance Accesso
  • 12. Conservazione dei dati di origine originali 2
  • 13. Gestione del ciclo di vita e storage offline 3
  • 15. Dark data are the information assets organizations collect, process, and store during regular business activities, but generally fail to use for other purposes (for example, analytics, business relationships and direct monetizing). Gartner Dati aziendali tradizionali Big Data Dark data CRM ERP Data warehouse Dati mainfram e We b Social media File di log Machine data Semistrut turati Non strutturati “ ” Acquisizione dei Metadata4
  • 16. Gestione della governance, della sicurezza e della privacy 5 Critico Limitato Altamente riservato Riservato Pubblico Classificazione dei dati:
  • 22. Storage e flussi Catalogo e ricerca Diritti API e UI Attributi di un'architettura di dati moderna Pilastri principali di un data lake Componenti chiave di un'efficace strategia di dati 1. Acquisizione di dati automizzata e affidabile 2. Conservazione dei dati di origine originali 3. Gestione del ciclo di vita e storage offline 4. Acquisizione dei metadata 5. Gestione della governance, della sicurezza e della privacy 6. Accesso, ricerca e rilevamento self-service 7. Gestione della qualità dei dati 8. Preparazione per l’analisi 9. Orchestrazione e pianificazione dei processi 10.Rilevamento delle modifiche ai dati 1 2 3 4 56 7 8 9 10
  • 23. Valore 80% Lavoro 20% Spostamento dell’analisi in modo che diventi 80% analisi E solo 20% preparazione
  • 25. 1 Kinesis Firehose 2 5 3 4 6 Athena Servizio di query 7 8 Batch 9 10 AWS IoT Realizzazione di una strategia di dati su AWS 1 2 3 4 56 7 8 9 10
  • 26. Streaming con Amazon Kinesis Raccogli, elabora e analizza facilmente flussi di dati e video in tempo reale Acquisizione, elaborazione e storage dei flussi video Kinesis Video Streams Caricamento dei flussi di dati nei datastore AWS Analisi dei flussi di dati con SQL Acquisizione, elaborazione e storage dei flussi di dati Kinesis Data Streams Kinesis Data Firehose Kinesis Data Analytics
  • 27. AWS Glue - catalogo di dati Rendi i dati visibili Rileva automaticamente i dati e archivia lo schema Il catalogo rende i dati ricercabili e disponibili per ETL Il catalogo contiene la tabella e le definizioni dei processi Calcola le statistiche per rendere efficienti le query Conformità Glue Catalogo di dati Rilevamento dei dati ed estrazione dello schema
  • 28. AWS Glue - servizio ETL Semplifica lo scripting e la distribuzione ETL Genera automaticamente il codice ETL Il codice è personalizzabile con Python e Spark Endpoint disponibili per eseguire la modifica, il debug e il test del codice I processi sono pianificati o basati su eventi Serverless
  • 29. ELABORAZIONE DEI DATI PER L'ANALISI SUL TUO DATA LAKE
  • 30. Ampia gamma di capacità di analisi Elaborazione di dati Data warehousing Creazione di report Elaborazione in tempo reale Analisi predittive
  • 31. Elaborazione e analisi T r a n s a z i o n a l i e R D B M S DynamoDB DB NoSQL relazionale Aurora Database V i s u a l i z z a z i o n e d a t i e B I Kinesis Streams e Firehose B a t c h EMR Hadoop, Spark, Presto Redshift Data warehouse Athena Servizio di query AWS Batch Predittivi T e m p o r e a l e AWS Lambda Apache Storm su EMR Apache Flink su EMR Streaming di Spark su EMR Elasticsearch Service Kinesis Analytics, Kinesis Streams ElastiCache DAX
  • 32. Amazon EMR - elaborazione dei Big Data Analytics e ML su scala 19 progetti open-source: Apache Hadoop, Spark, HBase, Presto e altri Sicurezza di livello aziendale $ Versioni più recenti Aggiornato con gli ultimi framework open source entro 30 giorni dal rilascio Costi ridotti Fatturazione flessibile con fatturazione al secondo, spot EC2, istanze riservate e dimensionamento automatico per la riduzione dei costi del 50–80% Storage S3 Elaborazione sicura dei dati direttamente nel data lake S3 con prestazioni elevate tramite il connettore EMRFS Semplicità Lancio di Hadoop e Spark completamente gestiti in pochi minuti, nessuna necessità di configurazione e ottimizzazione di cluster o provisioning dei nodi Data lake 100110000100101011100 1010101110010101000 00111100101100101 010001100001
  • 33. $ SQL Query istantanee Nessun costo di installazione, è sufficiente puntare a S3 e iniziare a eseguire query Prezzi a consumo Pagamento solo per le query eseguite, risparmio del 30-90% sul costo per query attraverso la compressione Ambiente aperto Interfaccia SQL ANSI, driver JDBC/ODBC, formati multipli, tipi di compressione, join e tipi di dati complessi Semplicità Serverless: nessuna infrastruttura, nessuna amministrazione Integrato con QuickSight Servizio di query interattivo che esegue l'analisi dei dati in Amazon S3 con SQL standard Non è necessario configurare o gestire alcuna infrastruttura o caricaredati Possibilità di eseguire query SQL sui dati archiviati in Amazon Glacier (disponibile a breve) Amazon Athena - analisi interattiva
  • 34. Amazon Redshift - data warehousing moderno Data warehouse veloce, scalabile e completamente gestito a un decimo del costo Esecuzione parallela massiva, dimensionamento da gigabyte a exabyte Query dei dati tra il data warehouse Redshift e il data lake Amazon S3 Dimensionamento rapido Tecnologia di storage colonnare per migliorare l'efficienza I/O e dimensionare le prestazioni di query Convenienza Costo iniziale di $0,25 all'ora, solo $250-$333 per terabyte non compresso all'anno Formati di file aperti Sicurezza Audit complete, crittografia dei dati end-to-end, certificazione e conformità a tutti i livelli Analisi dei formati di dati ottimizzati su dischi DAS e tutti i formati di file aperti in S3 $
  • 35. Redshift Spectrum – analisi di data lake Esecuzione di query tra il data warehouse Amazon Redshift e il data lake Amazon S3 Esecuzione di query SQL Redshift su Amazon S3 Dimensionamento separato di calcolo e storage Prestazioni di query elevate Simultaneità illimitata Formati di dati CSV, ORC, Grok, Avro e Parquet On demand, pagamento per query sulla base dei dati scansionati Data lake S3Dati RedShift Motore di query Redshift Spectrum
  • 36.
  • 37.
  • 38. COSA DICE IL CLIENTE? https://aws.amazon.com/solutions/case-studies/analytics/ https://aws.amazon.com/solutions/case-studies/big-data/
  • 39. JustGiving crea una piattaforma di Big Data su AWS "Prima di AWS, basavamo le decisioni su un'unica origine di dati generali. Ora possiamo estrarre dati molto più granulari basati su milioni di donazioni… e utilizzare tali informazioni per fornire una piattaforma migliore ai nostri visitatori". - Richard Atkinson, CIO
  • 40. FINRA analizza quotidianamente miliardi di transazioni Per rispondere alle dinamiche di mercato in rapida evoluzione, FINRA ha trasferito il 75% delle operazioni in Amazon Web Services e utilizza AWS per analizzare 75 miliardi di record al giorno.
  • 41. FINRA utilizza Amazon EMR e Amazon S3 per elaborare fino a 75 miliardi di eventi di trading al giorno e archiviare in modo sicuro più di 5 petabyte di dati, ottenendo un risparmio di $ 10-20 milioni all'anno. Rilevamento di attività fraudolente
  • 42. Problemi • Tempi di estrazione ed elaborazione • Costo • Tecnologie superate • Ccloud ibrido Soluzioni • Definizione Datalake • Cloud Ibrido • ETL Serverless • WebApp Shiny Dashboard dei Movimenti Turistici
  • 43. Benefici • Ottimizzazione costi • Miglioramento della velocità di elaborazione • Scalabilità • Velocità di deploy e messa in produzione • Monitoraggio Dashboard dei Movimenti Turistici da 1 giorno ad alcuni minuti
  • 44. • Linee guida prescrittive e soluzioni rapidamente distribuibili • per agevolare lo storage, l'analisi e l'elaborazione di Big Data nel cloud AWS • Ottenimento di informazioni dall'IoT in pochi minuti tramite AWS IoT, Amazon Kinesis Firehose, Amazon Athena e Amazon QuickSight • Distribuzione di un data lake in AWS, marzo 2017, • AWS Online Tech Talks • Armonizzazione, ricerca e analisi di set di dati con • legami deboli su AWS tramite Glue, Athena e QuickSight • Dal data lake al data warehouse: potenziare la visione • completa del cliente con Amazon Redshift Spectrum • Integrazione e distribuzione continue • delle applicazioni Apache Spark tramite AWS http://amzn.to/2vHIwBq http://amzn.to/2i9gqZn http://bit.ly/2qipA8h http://amzn.to/2qpiFaK http://amzn.to/2lpbc8p Conclusioni https://aws.amazon.com/blogs/big-data/ https://aws.amazon.com/answers/big-data/ http://amzn.to/2gIJcj8
  • 45. =?