SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
Big Data & Data Science
¿Por qué todo el mundo
habla de ellos?
¿Quien soy yo?
➢
Inés Huertas
➢
ihuertas@datatons.com
➢
@quierodata
➢
ITT Telemática
&
Máster Sist. Telemáticos e Informáticos
➢
Ex-Sysadmin
➢
Data Dreamer
➢
Abonada a Coursera, EDX, etc
➢
Co-founder
&
Data Scientist en Datatons
➢
Co-organizadora Rladies Madrid
➢
Co-organizadora Data Science Madrid
Meetup y Big Data Madrid Meetup
Lo que la gente espera de
los data scientist
Las empresas tienen grandes cantidades de datos
•
Datos de históricos
•
Datos legales
•
Nuevos datos que antes no se recogían
•
Datos descentralizados
Todo nace de los datos
Los analizan mediante el uso de técnicas BI
✔
Captura, Analiza
✔
Es descriptivo
✔
Clásico: cuadros de mando
✔
Trata del pasado
¿Cuanto vendimos le mes pasado?
¿Cual es la tasa de morosidad?
Todo nace de los datos
➢
Hay 2,3 mil millones de usuarios activos en redes sociales
➢
El 91% de las marcas de retail usan dos o más canales de
redes sociales
➢
5,54 cuentas en redes sociales por usuario
➢
176 millones de usuarios en redes sociales el año pasado
➢
Facebook Messenger y Whatsapp manejan 60 mil millones
de mensajes diarios
➢
Se envían 500 millones de tuits al día. Es decir, 6 000 tuits
por segundo
➢
Las RRSS obtuvieron ingresos por publicidad
de 8,3 mil millones de dólares en 2015
➢
El 38% de las organizaciones destinaron un 20% de
su presupuesto total de publicidad a canales de
redes sociales
➢
El 96% de las personas que hablan sobre una
marca en redes sociales
Las Redes Sociales: La cotilla que todo lo sabe
¿Qué necesitamos para poder
manejar esta información?
BIG DATA
Plataformas Big Data como Hadoop nos facilitan todas las características de
nuestra lista de deseos:
✔
Capacidad de almacenar grandes cantidades de datos
✔
Tolerancia a fallos
✔
Flexibildad sobre el tipo de datos
✔
Bajo Coste
✔
Escalabilidad
✔
Gran ecosistemas de herramientas para explotación
✔
Computo distribuido
El punto de vista de grandes
datos
¿Qué hacen los Data Scientist?
Aplicación de técnicas
estadísticas
Para ello utilizamos tecnicas
estadistias y matemáticas
que nos permiten aprender
de los datos, extraer
patrones o ver tendencias
Programación
Para implementar esta técnicas
utilizamos diferentes lenguajes de
programación y transformación de
los datos
Visualización y storing telling
No solo eso... tambien hay que
saber contar historias!!
Ver oportunidad de
negocio en los datos
Para ello se requiere de
conocimiento de negocio
y manejo de datos
El proceso:
➢ Los data scientist modelan los datos generando “modelos”, que
aprenden de los datos, por eso la importancia del histórico
➢ Tras el preprocesado de los datos se genera el “modelo” que describe el
comportamiento del cliente
¿Suena bien verdad?
¿Qué hacen los Data Scientist?
¿Qué hacen los Data Scientist?
Hasta que te encuentras con cosas del tipo:
Entre el 70%-80% del tiempo de una analítica se destina en el
preprocesado del dato
¿Qué hacen los Data Scientist?
Construyendo el Modelo
¿Qué hacen los Data Scientist?
¿Qué cosas podemos conseguir
con estas analíticas?
¿Qué cosas podemos hacer con técnicas de machine learning?
● Descubrimiento de patrones y tendencias en los datos
Patrones de consumo en supermercado
Patrones de comportamiento con tarjetas de crédito
● Machine Learning : Aprendiendo de los datos para dar apoyo
a la toma de decisiones
Clásico: Concesión de hipotecas
Detección de fallos en líneas
● Grafos: estudiando relaciones
Telco estudio de potenciales clientes
Segmentaciones avanzadas
Clusterización por gusto
¿Qué cosas podemos conseguir
con estas analíticas?
● Detección precoz situaciones
Detección de casos de churn
● Estimaciones temporales
Llamadas a un Call center
● Sistemas de recomendación
Amazon
● Campañas de marketing
Ejemplo de analítica con tratamiento
de imágenes en Smart Cities
Recopilación de imágenes
cada X minutos para el
análisis
Construcción de un modelo
que detecte a partir de las
imágenes el % de ocupación
del espacio
Comparación con transporte
EMT y capacidad de
autogestión de recursos de
flota
Los datos para la analítica:
Aproximadamente un mes de imagenes
Webscraping Imágenes cada 12 minutos
~ 1000 imágenes
Red neuronal con pocas capas
Precisión del 80%
Heatmap Frecuencia BusHeatmap Frecuencia Bus
Frecuencia Bus Porcentaje Ocupación de la zona
Heatmap Porcentaje de ocupación
Ejemplo de analítica con tratamiento
de imágenes en Smart Cities
1 Clúster de servidores
1 Administrador Sistemas
1 Arquitecto big Data
2 Expertos en integración de
datos
1 o 2 Data scientist
Big Data para enriquecer mi negocio
✔
Desplegar un puñado de servidores en cloud o bien comprar servidores
físicos. Desplegar SO base y tunning.
✔
Desplegar software Hadoop y herramientas del ecosistema.
✔
Diseñar e implementar la ingesta de datos. Preprocesarlos para su posterior
uso apropiado. Esperar de 1 a 4 semanas.
✔
Integrar los datos con herramientas de usuario.
✔
Analizar y explotar los datos para obtención de información valiosa para
negocio de una forma eficiente.
La receta del Big Data
19
Herramientas de Analítica
●
Open Source
●
Fuerte comunidad
●
Inicialmente ámbito investigación
●
No es muy “amigable” la
programación
●
Potente pero “make yourself”
●
Open Source
●
Lenguaje de propósito general
●
Inicio tardío en el mundo ML
●
Parece ser el standard al que
converger
●
Herramienta propietaria
●
Muy extendida en ámbito privado
●
Muy usada historicamente para
reporting en empresas
●
Gran usabilidad para quienes no
tienen conceptos de programación
●
Herramienta propietaria
●
Usada en suits de machine learning
asociadas a productos de IBM
●
Gran usabilidad para quienes no
tienen conceptos de programación
El problema del tamaño
Aplicar tecnicas de machine learning no es el único problema a
resolver...
A alguien le suena el error?
Cuando el tamaño importa
En cuanto a los datos diferentes problemas tendrán distintas soluciones
En funcion del tamaño de los datos podremos utilizar unas herramientas u
otras
22
Soluciones analítica en Big
Data
Podemos utilizar un nodo de cómputo relativamente potente
Pero el problema continúa existiendo cuando los datos se
hacen más grandes
Soluciones para analíticas en
Big Data
Y si distribuimos el calculo de nuestras
analiticas en varias maquinas?
Server
file
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Cálculo de temperatura media en Junio
mifile=read(file)
suma_temp=0
num_mediciones=0
for linea in mifile
if (Fecha == Junio){
suma_temp=suma_temp+Temp
num_mediciones=num_mediciones+1
}
}
res_media_jun=suma_temp/num_mediciones
Y si distribuimos el calculo de nuestras analiticas en varias
maquinas?
Server1Parte_1
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_2
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_3
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Parte_4
Server2
if( fecha == Junio){
Return Temp
}
if( fecha == Junio){
Return Temp
}
if( fecha == Junio){
Return Temp
}
Temp
Temp
Temp
Temp
Temp
Temp
Temp
Temp
Temp Sum()/coutn() res
if( fecha == Junio){
Return Temp
}
Temp
Temp
Temp
Fecha, Temp, Lluvia
Fecha, Temp, Lluvia
Soluciones para analíticas en
Big Data
Almacenamiento distribuido
HDFS
Calculo distribuido
Map/Reduce
Computo distribuido!!!
Filosofía Hadoop
Word Count Map/Reduce en Java
Analíticas sobre Hadoop
Mas sencillo en otros lenguajes
Analíticas sobre Hadoop
Perfecto, ¿Pero tenemos de desarrollar todos los algoritmo desde cero?
Analíticas sobre Hadoop
29
●
Dispone de librerías de machine learning con principales
métodos de analisis: clustering, sistemas de recomendación,
arboles de decisión...
●
Puede programarse en scala, Java o Python
●
Abstrae a los Data scientist de la implementación a bajo nivel
●
Permite tambien desarrollos adhoc de algoritmos
●
Dispone de librerías de machine learning
●
Puede programarse en scala, Python, R...
●
Interfaz grafica para mayor abstracción
Analíticas sobre Hadoop
Gracias!!
Inés Huertas
Data Scientist en Datatons
Ihuertas@datatons.com
@quierodata

Más contenido relacionado

La actualidad más candente

Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Fernando Santamaría
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 
Tema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceTema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceMauricio Arancibia
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...José Luis Martínez Fernández
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónBEEVA_es
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Nuevas tecnologias power point pptx
Nuevas tecnologias power point pptxNuevas tecnologias power point pptx
Nuevas tecnologias power point pptxnelsonsanchez86
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014Eduardo Castro
 
Big Data y el sector salud
Big Data y el sector saludBig Data y el sector salud
Big Data y el sector saludBEEVA_es
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsMundo Contact
 

La actualidad más candente (19)

Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Tema 3.3 introduccion al data science
Tema 3.3 introduccion al data scienceTema 3.3 introduccion al data science
Tema 3.3 introduccion al data science
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de...
 
Big data
Big dataBig data
Big data
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Nuevas tecnologias power point pptx
Nuevas tecnologias power point pptxNuevas tecnologias power point pptx
Nuevas tecnologias power point pptx
 
Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)
 
Claves para entender el actual big data
Claves para entender el actual big dataClaves para entender el actual big data
Claves para entender el actual big data
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Big Data y el sector salud
Big Data y el sector saludBig Data y el sector salud
Big Data y el sector salud
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 

Similar a Big Data análisis

Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stackEduardo Castro
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Io t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datosIo t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datosDaniel Esteban Hernandez
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 

Similar a Big Data análisis (20)

Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Casos big data
Casos big dataCasos big data
Casos big data
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
Big data
Big dataBig data
Big data
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
Io t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datosIo t _analitica_maximizando_el_poder_de_sus_datos
Io t _analitica_maximizando_el_poder_de_sus_datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
El big data
El big dataEl big data
El big data
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Big data
Big dataBig data
Big data
 

Último

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 

Último (17)

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 

Big Data análisis

  • 1. Big Data & Data Science ¿Por qué todo el mundo habla de ellos?
  • 2. ¿Quien soy yo? ➢ Inés Huertas ➢ ihuertas@datatons.com ➢ @quierodata ➢ ITT Telemática & Máster Sist. Telemáticos e Informáticos ➢ Ex-Sysadmin ➢ Data Dreamer ➢ Abonada a Coursera, EDX, etc ➢ Co-founder & Data Scientist en Datatons ➢ Co-organizadora Rladies Madrid ➢ Co-organizadora Data Science Madrid Meetup y Big Data Madrid Meetup
  • 3. Lo que la gente espera de los data scientist
  • 4. Las empresas tienen grandes cantidades de datos • Datos de históricos • Datos legales • Nuevos datos que antes no se recogían • Datos descentralizados Todo nace de los datos Los analizan mediante el uso de técnicas BI ✔ Captura, Analiza ✔ Es descriptivo ✔ Clásico: cuadros de mando ✔ Trata del pasado ¿Cuanto vendimos le mes pasado? ¿Cual es la tasa de morosidad?
  • 5. Todo nace de los datos ➢ Hay 2,3 mil millones de usuarios activos en redes sociales ➢ El 91% de las marcas de retail usan dos o más canales de redes sociales ➢ 5,54 cuentas en redes sociales por usuario ➢ 176 millones de usuarios en redes sociales el año pasado ➢ Facebook Messenger y Whatsapp manejan 60 mil millones de mensajes diarios ➢ Se envían 500 millones de tuits al día. Es decir, 6 000 tuits por segundo ➢ Las RRSS obtuvieron ingresos por publicidad de 8,3 mil millones de dólares en 2015 ➢ El 38% de las organizaciones destinaron un 20% de su presupuesto total de publicidad a canales de redes sociales ➢ El 96% de las personas que hablan sobre una marca en redes sociales Las Redes Sociales: La cotilla que todo lo sabe
  • 6. ¿Qué necesitamos para poder manejar esta información?
  • 7. BIG DATA Plataformas Big Data como Hadoop nos facilitan todas las características de nuestra lista de deseos: ✔ Capacidad de almacenar grandes cantidades de datos ✔ Tolerancia a fallos ✔ Flexibildad sobre el tipo de datos ✔ Bajo Coste ✔ Escalabilidad ✔ Gran ecosistemas de herramientas para explotación ✔ Computo distribuido
  • 8. El punto de vista de grandes datos
  • 9. ¿Qué hacen los Data Scientist? Aplicación de técnicas estadísticas Para ello utilizamos tecnicas estadistias y matemáticas que nos permiten aprender de los datos, extraer patrones o ver tendencias Programación Para implementar esta técnicas utilizamos diferentes lenguajes de programación y transformación de los datos Visualización y storing telling No solo eso... tambien hay que saber contar historias!! Ver oportunidad de negocio en los datos Para ello se requiere de conocimiento de negocio y manejo de datos
  • 10. El proceso: ➢ Los data scientist modelan los datos generando “modelos”, que aprenden de los datos, por eso la importancia del histórico ➢ Tras el preprocesado de los datos se genera el “modelo” que describe el comportamiento del cliente ¿Suena bien verdad? ¿Qué hacen los Data Scientist?
  • 11. ¿Qué hacen los Data Scientist? Hasta que te encuentras con cosas del tipo: Entre el 70%-80% del tiempo de una analítica se destina en el preprocesado del dato
  • 12. ¿Qué hacen los Data Scientist? Construyendo el Modelo
  • 13. ¿Qué hacen los Data Scientist?
  • 14. ¿Qué cosas podemos conseguir con estas analíticas? ¿Qué cosas podemos hacer con técnicas de machine learning? ● Descubrimiento de patrones y tendencias en los datos Patrones de consumo en supermercado Patrones de comportamiento con tarjetas de crédito ● Machine Learning : Aprendiendo de los datos para dar apoyo a la toma de decisiones Clásico: Concesión de hipotecas Detección de fallos en líneas ● Grafos: estudiando relaciones Telco estudio de potenciales clientes Segmentaciones avanzadas Clusterización por gusto
  • 15. ¿Qué cosas podemos conseguir con estas analíticas? ● Detección precoz situaciones Detección de casos de churn ● Estimaciones temporales Llamadas a un Call center ● Sistemas de recomendación Amazon ● Campañas de marketing
  • 16. Ejemplo de analítica con tratamiento de imágenes en Smart Cities Recopilación de imágenes cada X minutos para el análisis Construcción de un modelo que detecte a partir de las imágenes el % de ocupación del espacio Comparación con transporte EMT y capacidad de autogestión de recursos de flota
  • 17. Los datos para la analítica: Aproximadamente un mes de imagenes Webscraping Imágenes cada 12 minutos ~ 1000 imágenes Red neuronal con pocas capas Precisión del 80% Heatmap Frecuencia BusHeatmap Frecuencia Bus Frecuencia Bus Porcentaje Ocupación de la zona Heatmap Porcentaje de ocupación Ejemplo de analítica con tratamiento de imágenes en Smart Cities
  • 18. 1 Clúster de servidores 1 Administrador Sistemas 1 Arquitecto big Data 2 Expertos en integración de datos 1 o 2 Data scientist Big Data para enriquecer mi negocio ✔ Desplegar un puñado de servidores en cloud o bien comprar servidores físicos. Desplegar SO base y tunning. ✔ Desplegar software Hadoop y herramientas del ecosistema. ✔ Diseñar e implementar la ingesta de datos. Preprocesarlos para su posterior uso apropiado. Esperar de 1 a 4 semanas. ✔ Integrar los datos con herramientas de usuario. ✔ Analizar y explotar los datos para obtención de información valiosa para negocio de una forma eficiente. La receta del Big Data
  • 19. 19 Herramientas de Analítica ● Open Source ● Fuerte comunidad ● Inicialmente ámbito investigación ● No es muy “amigable” la programación ● Potente pero “make yourself” ● Open Source ● Lenguaje de propósito general ● Inicio tardío en el mundo ML ● Parece ser el standard al que converger ● Herramienta propietaria ● Muy extendida en ámbito privado ● Muy usada historicamente para reporting en empresas ● Gran usabilidad para quienes no tienen conceptos de programación ● Herramienta propietaria ● Usada en suits de machine learning asociadas a productos de IBM ● Gran usabilidad para quienes no tienen conceptos de programación
  • 20. El problema del tamaño Aplicar tecnicas de machine learning no es el único problema a resolver... A alguien le suena el error?
  • 21. Cuando el tamaño importa En cuanto a los datos diferentes problemas tendrán distintas soluciones En funcion del tamaño de los datos podremos utilizar unas herramientas u otras
  • 22. 22 Soluciones analítica en Big Data Podemos utilizar un nodo de cómputo relativamente potente Pero el problema continúa existiendo cuando los datos se hacen más grandes
  • 23. Soluciones para analíticas en Big Data Y si distribuimos el calculo de nuestras analiticas en varias maquinas? Server file Fecha, Temp, Lluvia Fecha, Temp, Lluvia Fecha, Temp, Lluvia Fecha, Temp, Lluvia Fecha, Temp, Lluvia Fecha, Temp, Lluvia Cálculo de temperatura media en Junio mifile=read(file) suma_temp=0 num_mediciones=0 for linea in mifile if (Fecha == Junio){ suma_temp=suma_temp+Temp num_mediciones=num_mediciones+1 } } res_media_jun=suma_temp/num_mediciones
  • 24. Y si distribuimos el calculo de nuestras analiticas en varias maquinas? Server1Parte_1 Fecha, Temp, Lluvia Fecha, Temp, Lluvia Parte_2 Fecha, Temp, Lluvia Fecha, Temp, Lluvia Parte_3 Fecha, Temp, Lluvia Fecha, Temp, Lluvia Parte_4 Server2 if( fecha == Junio){ Return Temp } if( fecha == Junio){ Return Temp } if( fecha == Junio){ Return Temp } Temp Temp Temp Temp Temp Temp Temp Temp Temp Sum()/coutn() res if( fecha == Junio){ Return Temp } Temp Temp Temp Fecha, Temp, Lluvia Fecha, Temp, Lluvia Soluciones para analíticas en Big Data
  • 26. Word Count Map/Reduce en Java Analíticas sobre Hadoop
  • 27. Mas sencillo en otros lenguajes Analíticas sobre Hadoop
  • 28. Perfecto, ¿Pero tenemos de desarrollar todos los algoritmo desde cero? Analíticas sobre Hadoop
  • 29. 29 ● Dispone de librerías de machine learning con principales métodos de analisis: clustering, sistemas de recomendación, arboles de decisión... ● Puede programarse en scala, Java o Python ● Abstrae a los Data scientist de la implementación a bajo nivel ● Permite tambien desarrollos adhoc de algoritmos ● Dispone de librerías de machine learning ● Puede programarse en scala, Python, R... ● Interfaz grafica para mayor abstracción Analíticas sobre Hadoop
  • 30. Gracias!! Inés Huertas Data Scientist en Datatons Ihuertas@datatons.com @quierodata