SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
How to build your own
data platform
(from zero to hero)
Viernes, 28 de Abril, 2023. Salmorejo Tech.
Agenda
Acerca de Adevinta
¿Qué es una plataforma de datos?
Mundo operacional vs mundo
analítico
¿Quienes son nuestros usuari@s?
Solución simple
Solución intermedia
Solución avanzada
Q&A
01
04
05
06
07
08
09
10
El equipo de la plataforma de datos
02
¿Quién soy yo?
03
Adevinta is a global online
classifieds specialist, operating
digital marketplaces in 11 countries
We provide technology-based services to connect buyers
with sellers and to facilitate transactions, from job offers
to real estate, cars, consumer goods and more.
Adevinta’s portfolio spans 25 digital products and
websites, covering one billion people and with around
three billion monthly visits.
Our Global
Tech Hubs
Barcelona Paris
Amsterdam Berlin
Our local brands are supported by Global Product &
Tech teams based in our Tech Hubs in Paris,
Barcelona, Berlin and Amsterdam.
We use cutting edge technology to build highly
scalable and customisable products, platforms and
services, which all of our marketplaces can use.
Our Tech Hubs are also home to our Global Teams,
who bring our marketplaces together and make sure
we’re all working towards our shared purpose.
25
11
8,100
3
1.5bn
514m
Global view of all our brands
Quienes conforman el equipo de data platform en
Adevinta Spain
● Christian Herrera - Data Engineer
● Enric Martinez - Data Engineer Enabler Lead
● Gustavo Martin - Data Engineer
● Ismael Arab - SRE
● Jaime Gonzalez - SRE
● Javier Carravilla - Data Engineer
● Joel Llacer - SRE
● Marc Planagumà - Data Platform & Governance Director
● Marta Diaz - Product Owner Data Platform
● Naveen Kumar - Data Engineer
● Roger Escuder - SRE
● Sergio Couto - Data Engineer
● Victor Colomé - Data Engineer
¿Quién soy yo?
● Gustavo Martin Morcuende.
● Más de 10 años de experiencia como desarrollador de backend y frontend.
● También trabajé como arquitecto fullstack en diferentes empresas.
● Actualmente trabajo como Data Platform Engineer en Adevinta Spain. Cuando la
situación lo requiere me convierto en Data Platform Tech Lead.
● https://gumartinm.name/
● https://fosstodon.org/@gumartinm
Mundo operacional vs mundo analítico
¿Qué es una plataforma de datos?
● Una plataforma de datos permite la adquisición, almacenamiento, preparación, reparto y gobierno de datos.
También añade una capa de seguridad para los usuari@s y aplicaciones.
https://www.mongodb.com/what-is-a-data-platform
● Una plataforma de datos es una solución completa para la ingestión, procesado, análisis y presentación de
datos generados por sistemas, procesos e infraestructuras de las organizaciones digitales modernas.
https://www.splunk.com/en_us/data-insider/what-is-a-data-platform.html
¿Quiénes son nuestros usuari@s?
● Data Engineers
● Data Analysts
● Data Scientists
● Machine Learning Engineers
● Cualquier otra persona interesada en trabajar con datos
¿Qué hace un Data Engineer?
Se enfoca en el diseño, construcción,
mantenimiento y gestión de infraestructuras de
datos.
● Implementación y gestión de sistemas de
almacenamiento de datos (bases de
datos, almacenamientos en la nube, etc,
etc)
● Asegurar que los datos estén limpios,
organizados y estructurados de manera
adecuada para que puedan ser utilizados
de manera efectiva.
¿Quiénes son nuestros usuari@s?
¿Qué hace un Data Scientist?
Utiliza técnicas estadísticas y de análisis de datos
para extraer información útil con el objetivo de
mejorar la toma de decisiones y la eficacia de una
empresa.
Recopila, procesa y analiza datos para ayudar a las
empresas a tomar decisiones informadas. Su trabajo
es proporcionar información relevante y accionable
para impulsar el crecimiento y el éxito empresarial.
¿Qué hace un Data Analyst?
Desarrolla y optimiza modelos de aprendizaje automático
para resolver problemas empresariales complejos. Su
trabajo es construir sistemas que puedan aprender y
mejorar a medida que se exponen a más datos.
¿Qué hace un Machine Learning Engineer?
¿Quiénes son nuestros usuarios?
Solución simple
Mundo operacional y analítico comparten la misma base de datos
Solución simple Base de datos
● postgresql, mysql, oracle, etc, etc
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas de la base de datos, realizan una
transformación y escriben los resultados en otras
tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Machine learning
● MLFlow
● Kubeflow
Solución simple
● Base de datos, por ejemplo
PostgreSQL
● Crear esquemas y tablas, modelo
entidad-relación
CREATE TABLE ESTUDIANTES(
ID INT PRIMARY KEY NOT NULL,
NAME TEXT NOT NULL
);
● Asignar permisos
GRANT SELECT ON ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
Solución simple
Apache Airflow
Solución simple
Apache Airflow
Solución intermedia
Mundo operacional y analítico separados
Solución intermedia
Consumo
● aplicaciones para la extracción de datos del
mundo operacional
Data Warehouse
● AWS Redshift, BigQuery
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas del data warehouse, realizan una
transformación y escriben los resultados en
otras tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Machine learning
● MLFlow
● Kubeflow
Solución intermedia
¿Qué es un Data Warehouse?
● Es una base de datos centralizada que integra muchas fuentes de datos.
● Permite aislar los sistemas operacionales de los analíticos.
● Queries lanzadas desde el sistema analítico no afectan al operacional.
● Permite reorganizar la información de forma que sea más fácilmente analizable.
● Proporciona un único modelo de datos.
● Permite mantener un histórico de información que el operacional, por no necesitarla,
puede borrar.
● Permite integrar múltiples fuentes de datos en un único lugar.
Solución intermedia
¿Qué es un Data Warehouse?
● Modelado específico, esquema en estrella.
● Compuesto de tablas de hechos y de dimensiones.
Tabla de hechos: sucesión de hechos, alto número de registros.
Tabla de dimensiones: descripción de los hechos, pocos registros y muchos atributos.
● Permite la optimización de las queries en modo lectura.
● Permite queries más simples, sin necesidad de múltiples JOINs como podría suceder en un modelo
normalizado de entidad-relación.
● Permisos vía GRANTs en tablas.
Solución intermedia
● Base de datos, por ejemplo
AWS Redshift
● Crear esquemas y tablas (hechos y
dimensiones)
CREATE TABLE HECHOS_ESTUDIANTES(
EDAD INT NOT NULL,
TIEMPO INT NOT NULL,
);
● Asignar permisos
GRANT SELECT ON HECHOS_ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
Solución intermedia
¿Qué es AWS Redshift?
¡Usar infraestructura como código! Ejemplo Terraform.
Solución intermedia
¿Qué es AWS Redshift?
Solución avanzada
Solución avanzada
Consumo
● aplicaciones para la extracción de datos del
mundo operacional
Data Warehouse
● AWS Redshift, BigQuery
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas del data warehouse, realizan una
transformación y escriben los resultados en
otras tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Data Lake o Lakehouse
● AWS S3
Machine learning
● MLFlow
● Kubeflow
Solución avanzada
¿Qué es un Data Lake o Lakehouse?
● Es un sistema de almacenamiento de datos masivo y barato.
● Se utiliza para almacenar grandes cantidades de información en su formato nativo, sin
necesidad de que los datos estén estructurados de una manera particular (JSON, XML,
logs, etc)
● Los datos pueden provenir de diferentes fuentes, bases de datos, sensores, registros de
máquinas, APIs, etc.
● Permite aislar los sistemas operacionales de los analíticos.
● Se utilizan sistemas distribuidos como AWS S3 de Amazon o HDFS (sistema de archivos
de Hadoop)
Solución avanzada
¿Qué es un Data Lake o Lakehouse implementado en AWS S3?
● En Adevinta, implementado en AWS S3 (en Amazon Cloud)
● Puede verse como un sistema de archivos con carpetas
● ¡Pero no es un sistema de archivos!
● Los archivos se llaman objetos.
● Podemos usarlo mediante el Hadoop File System, Apache Spark, etc, etc.
● Permisos vía IAM Roles.
Solución avanzada
● Base de datos, por ejemplo
AWS Redshift
● Crear esquemas y tablas (hechos y
dimensiones)
CREATE TABLE HECHOS_ESTUDIANTES(
EDAD INT NOT NULL,
TIEMPO INT NOT NULL,
);
● Asignar permisos
GRANT SELECT ON HECHOS_ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow, Apache Spark
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
● Data Lake, AWS S3
Solución avanzada
Ejemplo notebook con Apache Spark
Q&A
thank you | gracias | merci
grazie | obrigado | danke
köszönöm | спасибо | ‫ﺷﻛرا‬

Más contenido relacionado

Similar a Cómo construir tu propia data platform. From zero to hero.

Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)Leonel Ibarra
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlKARY
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlKARY
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big ObjectsNimacloud
 
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...Denodo
 
Sql server analysis services 2008
Sql server analysis services 2008Sql server analysis services 2008
Sql server analysis services 2008Will Flores Soto
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlKARY
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlKARY
 
Componentes de sql server 2008
Componentes de sql server 2008Componentes de sql server 2008
Componentes de sql server 2008Jillian Motoharu
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdfmgl27
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 

Similar a Cómo construir tu propia data platform. From zero to hero. (20)

Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
 
Sql server analysis services 2008
Sql server analysis services 2008Sql server analysis services 2008
Sql server analysis services 2008
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysql
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Componentes de sql server 2008
Componentes de sql server 2008Componentes de sql server 2008
Componentes de sql server 2008
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdf
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Grupo eGlu Bi
Grupo eGlu BiGrupo eGlu Bi
Grupo eGlu Bi
 
Tarea 3 Ayudantía
Tarea 3 AyudantíaTarea 3 Ayudantía
Tarea 3 Ayudantía
 
Tema LOS SGBD O DBMS.pptx
Tema LOS SGBD O DBMS.pptxTema LOS SGBD O DBMS.pptx
Tema LOS SGBD O DBMS.pptx
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 

Último

REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffJefersonBazalloCarri1
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 

Último (20)

REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffff
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 

Cómo construir tu propia data platform. From zero to hero.

  • 1. How to build your own data platform (from zero to hero) Viernes, 28 de Abril, 2023. Salmorejo Tech.
  • 2. Agenda Acerca de Adevinta ¿Qué es una plataforma de datos? Mundo operacional vs mundo analítico ¿Quienes son nuestros usuari@s? Solución simple Solución intermedia Solución avanzada Q&A 01 04 05 06 07 08 09 10 El equipo de la plataforma de datos 02 ¿Quién soy yo? 03
  • 3. Adevinta is a global online classifieds specialist, operating digital marketplaces in 11 countries We provide technology-based services to connect buyers with sellers and to facilitate transactions, from job offers to real estate, cars, consumer goods and more. Adevinta’s portfolio spans 25 digital products and websites, covering one billion people and with around three billion monthly visits.
  • 4. Our Global Tech Hubs Barcelona Paris Amsterdam Berlin Our local brands are supported by Global Product & Tech teams based in our Tech Hubs in Paris, Barcelona, Berlin and Amsterdam. We use cutting edge technology to build highly scalable and customisable products, platforms and services, which all of our marketplaces can use. Our Tech Hubs are also home to our Global Teams, who bring our marketplaces together and make sure we’re all working towards our shared purpose.
  • 6. Global view of all our brands
  • 7.
  • 8.
  • 9. Quienes conforman el equipo de data platform en Adevinta Spain ● Christian Herrera - Data Engineer ● Enric Martinez - Data Engineer Enabler Lead ● Gustavo Martin - Data Engineer ● Ismael Arab - SRE ● Jaime Gonzalez - SRE ● Javier Carravilla - Data Engineer ● Joel Llacer - SRE ● Marc Planagumà - Data Platform & Governance Director ● Marta Diaz - Product Owner Data Platform ● Naveen Kumar - Data Engineer ● Roger Escuder - SRE ● Sergio Couto - Data Engineer ● Victor Colomé - Data Engineer
  • 10. ¿Quién soy yo? ● Gustavo Martin Morcuende. ● Más de 10 años de experiencia como desarrollador de backend y frontend. ● También trabajé como arquitecto fullstack en diferentes empresas. ● Actualmente trabajo como Data Platform Engineer en Adevinta Spain. Cuando la situación lo requiere me convierto en Data Platform Tech Lead. ● https://gumartinm.name/ ● https://fosstodon.org/@gumartinm
  • 11. Mundo operacional vs mundo analítico
  • 12. ¿Qué es una plataforma de datos? ● Una plataforma de datos permite la adquisición, almacenamiento, preparación, reparto y gobierno de datos. También añade una capa de seguridad para los usuari@s y aplicaciones. https://www.mongodb.com/what-is-a-data-platform ● Una plataforma de datos es una solución completa para la ingestión, procesado, análisis y presentación de datos generados por sistemas, procesos e infraestructuras de las organizaciones digitales modernas. https://www.splunk.com/en_us/data-insider/what-is-a-data-platform.html
  • 13. ¿Quiénes son nuestros usuari@s? ● Data Engineers ● Data Analysts ● Data Scientists ● Machine Learning Engineers ● Cualquier otra persona interesada en trabajar con datos
  • 14. ¿Qué hace un Data Engineer? Se enfoca en el diseño, construcción, mantenimiento y gestión de infraestructuras de datos. ● Implementación y gestión de sistemas de almacenamiento de datos (bases de datos, almacenamientos en la nube, etc, etc) ● Asegurar que los datos estén limpios, organizados y estructurados de manera adecuada para que puedan ser utilizados de manera efectiva. ¿Quiénes son nuestros usuari@s?
  • 15. ¿Qué hace un Data Scientist? Utiliza técnicas estadísticas y de análisis de datos para extraer información útil con el objetivo de mejorar la toma de decisiones y la eficacia de una empresa. Recopila, procesa y analiza datos para ayudar a las empresas a tomar decisiones informadas. Su trabajo es proporcionar información relevante y accionable para impulsar el crecimiento y el éxito empresarial. ¿Qué hace un Data Analyst? Desarrolla y optimiza modelos de aprendizaje automático para resolver problemas empresariales complejos. Su trabajo es construir sistemas que puedan aprender y mejorar a medida que se exponen a más datos. ¿Qué hace un Machine Learning Engineer? ¿Quiénes son nuestros usuarios?
  • 16. Solución simple Mundo operacional y analítico comparten la misma base de datos
  • 17. Solución simple Base de datos ● postgresql, mysql, oracle, etc, etc ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas de la base de datos, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Machine learning ● MLFlow ● Kubeflow
  • 18. Solución simple ● Base de datos, por ejemplo PostgreSQL ● Crear esquemas y tablas, modelo entidad-relación CREATE TABLE ESTUDIANTES( ID INT PRIMARY KEY NOT NULL, NAME TEXT NOT NULL ); ● Asignar permisos GRANT SELECT ON ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow
  • 21. Solución intermedia Mundo operacional y analítico separados
  • 22. Solución intermedia Consumo ● aplicaciones para la extracción de datos del mundo operacional Data Warehouse ● AWS Redshift, BigQuery ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas del data warehouse, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Machine learning ● MLFlow ● Kubeflow
  • 23. Solución intermedia ¿Qué es un Data Warehouse? ● Es una base de datos centralizada que integra muchas fuentes de datos. ● Permite aislar los sistemas operacionales de los analíticos. ● Queries lanzadas desde el sistema analítico no afectan al operacional. ● Permite reorganizar la información de forma que sea más fácilmente analizable. ● Proporciona un único modelo de datos. ● Permite mantener un histórico de información que el operacional, por no necesitarla, puede borrar. ● Permite integrar múltiples fuentes de datos en un único lugar.
  • 24. Solución intermedia ¿Qué es un Data Warehouse? ● Modelado específico, esquema en estrella. ● Compuesto de tablas de hechos y de dimensiones. Tabla de hechos: sucesión de hechos, alto número de registros. Tabla de dimensiones: descripción de los hechos, pocos registros y muchos atributos. ● Permite la optimización de las queries en modo lectura. ● Permite queries más simples, sin necesidad de múltiples JOINs como podría suceder en un modelo normalizado de entidad-relación. ● Permisos vía GRANTs en tablas.
  • 25. Solución intermedia ● Base de datos, por ejemplo AWS Redshift ● Crear esquemas y tablas (hechos y dimensiones) CREATE TABLE HECHOS_ESTUDIANTES( EDAD INT NOT NULL, TIEMPO INT NOT NULL, ); ● Asignar permisos GRANT SELECT ON HECHOS_ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow
  • 26. Solución intermedia ¿Qué es AWS Redshift? ¡Usar infraestructura como código! Ejemplo Terraform.
  • 29. Solución avanzada Consumo ● aplicaciones para la extracción de datos del mundo operacional Data Warehouse ● AWS Redshift, BigQuery ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas del data warehouse, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Data Lake o Lakehouse ● AWS S3 Machine learning ● MLFlow ● Kubeflow
  • 30. Solución avanzada ¿Qué es un Data Lake o Lakehouse? ● Es un sistema de almacenamiento de datos masivo y barato. ● Se utiliza para almacenar grandes cantidades de información en su formato nativo, sin necesidad de que los datos estén estructurados de una manera particular (JSON, XML, logs, etc) ● Los datos pueden provenir de diferentes fuentes, bases de datos, sensores, registros de máquinas, APIs, etc. ● Permite aislar los sistemas operacionales de los analíticos. ● Se utilizan sistemas distribuidos como AWS S3 de Amazon o HDFS (sistema de archivos de Hadoop)
  • 31. Solución avanzada ¿Qué es un Data Lake o Lakehouse implementado en AWS S3? ● En Adevinta, implementado en AWS S3 (en Amazon Cloud) ● Puede verse como un sistema de archivos con carpetas ● ¡Pero no es un sistema de archivos! ● Los archivos se llaman objetos. ● Podemos usarlo mediante el Hadoop File System, Apache Spark, etc, etc. ● Permisos vía IAM Roles.
  • 32. Solución avanzada ● Base de datos, por ejemplo AWS Redshift ● Crear esquemas y tablas (hechos y dimensiones) CREATE TABLE HECHOS_ESTUDIANTES( EDAD INT NOT NULL, TIEMPO INT NOT NULL, ); ● Asignar permisos GRANT SELECT ON HECHOS_ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow, Apache Spark ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow ● Data Lake, AWS S3
  • 34. Q&A
  • 35. thank you | gracias | merci grazie | obrigado | danke köszönöm | спасибо | ‫ﺷﻛرا‬