SlideShare una empresa de Scribd logo
1 de 25
Big Data
EL FUTURO A TRAVÉS DE LOS DATOS
II ASAMBLEA GENERAL DE PLANETIC
16/03/2015
Oscar Corcho
ocorcho@fi.upm.es
@ocorcho
https://www.slideshare.com/ocorcho
License
• This work is licensed under the license
CC BY-NC-SA 4.0 International
• http://purl.org/NET/rdflicense/cc-by-nc-sa4.0
• You are free:
• to Share — to copy, distribute and transmit the work
• to Remix — to adapt the work
• Under the following conditions
• Attribution — You must attribute the work by inserting
• “[source Oscar Corcho]” at the footer of each reused slide
• a credits slide stating: “These slides are partially based on
“Big Data” by O. Corcho”
• Non-commercial
• Share-Alike
¿Qué es Big Data?
Fuente: http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg
¿Qué es Big Data?
Fuente: http://www.philipchircop.com/post/25783275888/seeing-the-full-elephant-its-a-tree-its-a
Big Data y la teoría de los nichos ecológicos
Características de los nichos ecológicos
• Un nicho se entiende como un espectro de
utilización de recursos
• Las especies difieren en la eficiencia de utilización de unos
recursos que varían continuamente.
• Características de un nicho
• Amplitud (rango con que se usan recursos)
• Especies generalistas (amplitud grande – capaces de
utilizar un amplio rango de recursos)
• Especies especialistas (amplitud pequeña – necesitan
una combinación de recursos muy concreta)
• Solapamiento (similitud entre nichos, en el uso de recursos)
• Principio de exclusión competitiva (Gause, 1934).
• Si dos especies coexisten en un ambiente estable, lo hacen
como resultado de la diferenciación de los nichos efectivos.
Fuente: Javier Seoane. Ecología. Unidad Temática 21. Teoría del nicho ecológico
¿Y QUÉ TIENE TODO ESTO
QUE VER CON BIG DATA?
Sí, muy interesante, pero…
Nicho Big Data 1. Expertos en HPC e infraestructura
Formación: Informática (Sistemas)
Administración de sistemas
Términos frecuentes en su idioma:
Blades, Infiniband, OpenMPI,
Cabinas de disco, racks, HDF,
TBs, Gflops
Su día a día:
Revisar logs de los sistemas
Asegurar que las colas están activas
Instalar un rack nuevo
¿Qué es el Big Data para ellos?
Término “comercial” para algo que
llevan mucho tiempo haciendo
Ellos sí que saben configurar bien un
cluster Hadoop, y monitorizarlo
Ya les gustaría ver a los que hablan
de Big Data ejecutando procesos de
dinámica de fluidos
Nicho Big Data 2. Expertos en bases de datos
Formación: Informática
Administración de BBDD
Términos frecuentes en su idioma:
SQL, NoSQL, Column store
Transacions, Hive,
TBs/PBs/etc, TPS (Transactions per s)
Su día a día:
Optimizar varias consultas
Ejecutar un nuevo benchmark
Diseñar un nuevo optimizador
¿Qué es el Big Data para ellos?
Una nueva oportunidad de trabajar
en algoritmos de optimización
Ellos sí que saben configurar bien
una base de datos
A veces se ríen de los que montan una
solución NoSQL, cuando sus problemas
se resuelven con una BD relacional
Nicho Big Data 3. Expertos en Data Mining
Formación: Matemática, Estadística, Física
Informática
Términos frecuentes en su idioma:
Complejidad, algoritmo, p-value,
óptimo, convergencia, precisión,
recall, curva ROC, red bayesiana, R
Su día a día:
Leer un problema nuevo
Escribir unas fórmulas en la pizarra
Comprobar terminación del algoritmo
¿Qué es el Big Data para ellos?
Problemas de siempre aplicados a
muchos más datos y con nuevos retos
Los problemas se resuelven con algo
más que un cluster Hadoop y una
base de datos potente
Se asombran de algunas conclusiones
científicas que leen en la prensa
Nicho Big Data 4. Expertos en slow-data
Formación: Informática, Estadística,
Biblioteconomía, Lingüística
Términos frecuentes en su idioma:
Modelo de información, vocabulario,
ontología, calidad del dato,
curación
Su día a día:
Recibir un esquema de base de datos
Hablar con productores y usuarios
Crear consenso y transformar datos
¿Qué es el Big Data para ellos?
En la variedad de estructuras y
formatos está la dificultad
Podemos mezclar datos de diversas
fuentes, pero son conscientes
de que no siempre es posible
Cuando se integran datos heterogéneos
se consiguen más resultados
Nicho Big Data 5. Consultores
Formación: Informática, Economía,
…
Términos frecuentes en su idioma:
Modelo de negocio, oportunidades,
Big Data, Data Value Chain,
Hadoop, Spark, R, TBs, GFlops
Su día a día:
Leer un informe sobre Big Data
Hablar con clientes potenciales
Transmitir necesidades a los técnicos
¿Qué es el Big Data para ellos?
Son las 4Vs, y alguna más
Tengo un PPT con mi infraestructura,
una arquitectura, resultados de
proyectos anteriores Big Data, y
puedo usarlo para vender algún
proyecto
¿Nos falta algún nicho ecológico?
• Ya hemos visto varios nichos ecológicos en nuestro
ecosistema de Big Data…
• Todos coexisten
• Existen algunos solapamientos entre ellos
¿Se os ocurre alguno que no haya
considerado?
La evolución de una nueva especie: Data Scientist
Formación: Informática+Estadística
+Matemática+Economía+
…
Términos frecuentes en su idioma:
HPC, bases de datos, algoritmos,
harmonización, integración,
Hadoop, Spark, R, TBs, GFlops
Su día a día:
Aprender nueva infraestructura
Programar scripts y ejecutar en Spark
Interpretar los resultados
Instalar nuevo framework
Leer varios artículos científicos
Hacer presentaciones vistosas
Rebatir a los que no entienden todo
lo que Big Data significa
…
¿Sobrevivirán todas las especies?
• Si el concepto de Big Data define un ecosistema…
• ¿Qué especies sobrevivirán?
• ¿Exterminará la super-especie de los Data Scientists al
resto de especies?
• ¿O podrán vivir todos en simbiosis?
¿Cuál es la formación ideal para
los individuos de todas
estas especies?
Masters en Data Science, Big Data y similares (I)
Experto en Big Data
Experto en Data Science
Masters en Data Science, Big Data y similares (II)
Masters en Data Science, Big Data y similares (III)
Year 1
• Data handling
• Data analysis
• Advanced data analysis and data management
• Visualization
• Applications
Year 2
Formación: ¿lo estamos haciendo bien?
• Seguramente se trata de falta de madurez en el área,
pero los syllabus no parecen completamente
compatibles…
• Tampoco es creíble poder formar en un año a
expertos Data Scientists
• ¿Es mejor saber un poco de todo?
• ¿O separar claramente a las especies de nuestro
ecosistema y especializarlos mucho mejor?
¿Cómo conseguir un ecosistema
sano y estable?
Shameless self-promotion
• Strategies for success in the
Digital-Data Revolution
• Separation of concerns
• Intellectual ramps
• Data-intensive knowledge
discovery
• Components and usage
patterns
• Data-intensive engineering
• Development vs enactment
• Data-intensive application
experiences
• In Science
• In Business
¿Qué podemos aprender de lo
que se ha hecho en Data-
Intensive Science?
Separation of concerns: tres perfiles diferenciados
• Expertos de dominio
• Conocen los problemas que
quieren resolver
• Conocen el dominio de
aplicación
• Pueden crear workflows
• Data-intensive analysts
• Saben mucho de análisis de
(Big) data
• No necesariamente de la
infraestructura que hay debajo
• No necesariamente todos los
detalles de las aplicaciones
• Data-intensive engineers
• Saben mucho de computación
distribuida/infraestructura/HPC/
clouds/etc.
• Reciben descripción de un
algoritmo y lo pueden
programar más eficientemente
(paralelización)
Separation of concerns: tareas muy diferenciadas
[<select=
"1<=day(inp.first.start)<=5",
project="inp">,
<select=
"6<=day(inp.first.start)<=10",
project="inp">,
<select=
"11<=day(inp.first.start)<=15",
project="inp">,
...]
Programmable
Filter
Project
outputs
inp
rules
distrib
"second.fURIASC..."
Sort
outp
data
rule
Sort
outp
data
rule
Sort
outp
data
rule
Sort
outp
data
rule
["first,second"]
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
Tuple
Burst
outp
input
structcols inputs
De
List opinp
De
List opinp
De
List opinp
De
List opinp
inp
CorrFarm
Diversidad de usuarios y aplicaciones
Complejidad de sistemas
Desarrollo en
un lenguaje de más
alto nivel
Optimización,
despliegue
y ejecución
Facilitando
Varios dominios
Varias herramientas
Varias representaciones de procesos
Varias formas de trabajo
Lenguaje único
Proporcionando
Muchos recursos autónomos
Un mecanismo de ejecución
Una plataforma única
Gateway
Herramientas
Ejecución
Librería de
componentes
EDIM1
Un toolset ideal para hacer Big Data
EasyRIDER Platform
Flexible Execution Engine (FEE)
Hardware infrastructure
KNIME Workflow
KNIME
platform
R
server
Data-intensive components
(processing elements, functions)
compiled into
PC
Software
Information
Registry (SIR)
OpenNebula
Fujitsu Global
Cloud Platform
Marketing
analyst
...
enacted in
Game
analyst
Tablet
Other Beneficiaries:
business experts,
data-intensive scientists, etc.
generates
Virtual Execution
Environments (VET)
Data-intensive Software Engineering
Workbench (DSEW)
described in
... ...
Data-intensive
Software Engineers
(incl. KNIME community)
...
Astronomer
Conclusiones
• Todos sabemos que hay grandes oportunidades en Big Data
• Para ser realmente productivos necesitamos:
• Crear equipos multidisciplinares con al menos tres roles
(desarrolladores de aplicaciones, data-intensive analysts y data-
intensive engineers)
• Comprender que simplemente por usar Hadoop, Spark o R no
estamos ya haciendo Big Data
• Igual que por usar Java no hacemos necesariamente
orientación a objetos
• Comprender que hay que interpretar bien los resultados,
científicamente
• Comprender la importancia de homogeneizar datasets, para
facilitar su integración (slow-data)
• Seguir trabajando en facilitar las herramientas adecuadas para
desarrollar aplicaciones Big Data
• ¿Oportunidades para hacer proyectos de I+D?
Big Data
EL FUTURO A TRAVÉS DE LOS DATOS
II ASAMBLEA GENERAL DE PLANETIC
16/03/2015
Oscar Corcho
ocorcho@fi.upm.es
@ocorcho
https://www.slideshare.com/ocorcho

Más contenido relacionado

Destacado

Présentation tala
Présentation talaPrésentation tala
Présentation talaamrane azzar
 
Soutenance de mémoire
Soutenance de mémoireSoutenance de mémoire
Soutenance de mémoireL De Siran
 
Tp311 bases-de-datos-2014-1
Tp311 bases-de-datos-2014-1Tp311 bases-de-datos-2014-1
Tp311 bases-de-datos-2014-1Pablo Mora
 
Trabajo De Informatica Juli Sofi May
Trabajo De Informatica Juli Sofi MayTrabajo De Informatica Juli Sofi May
Trabajo De Informatica Juli Sofi Maysomaju
 
PresentacióN Nasly
PresentacióN NaslyPresentacióN Nasly
PresentacióN Naslyguest401cffe
 
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de funnyaccountant76
 
LA REFRIGERACIÓN
LA REFRIGERACIÓNLA REFRIGERACIÓN
LA REFRIGERACIÓNgatita16
 
Eis cd d_sabinejaccard_light
Eis cd d_sabinejaccard_lightEis cd d_sabinejaccard_light
Eis cd d_sabinejaccard_lightjaccard
 
Tp358 sistemas operativos-2014-2
Tp358 sistemas operativos-2014-2Tp358 sistemas operativos-2014-2
Tp358 sistemas operativos-2014-2Pablo Mora
 
Presentacion pwa 2010 final
Presentacion pwa 2010 finalPresentacion pwa 2010 final
Presentacion pwa 2010 finalAdrián Segovia
 
Thésaurus par catégories
Thésaurus par catégoriesThésaurus par catégories
Thésaurus par catégoriesjunkyvista
 
Power El Internado
Power El InternadoPower El Internado
Power El Internadodesireegr
 

Destacado (20)

Présentation tala
Présentation talaPrésentation tala
Présentation tala
 
Soutenance de mémoire
Soutenance de mémoireSoutenance de mémoire
Soutenance de mémoire
 
Accidente
AccidenteAccidente
Accidente
 
Tp311 bases-de-datos-2014-1
Tp311 bases-de-datos-2014-1Tp311 bases-de-datos-2014-1
Tp311 bases-de-datos-2014-1
 
Evaluacion diagnóstico
Evaluacion diagnósticoEvaluacion diagnóstico
Evaluacion diagnóstico
 
WEB 2.0
WEB 2.0WEB 2.0
WEB 2.0
 
Trabajo De Informatica Juli Sofi May
Trabajo De Informatica Juli Sofi MayTrabajo De Informatica Juli Sofi May
Trabajo De Informatica Juli Sofi May
 
PresentacióN Nasly
PresentacióN NaslyPresentacióN Nasly
PresentacióN Nasly
 
abass
abassabass
abass
 
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de
La Perte de Poids Cure, Ils Ne Veulent pas que Vous sachiez a Propos de
 
LA REFRIGERACIÓN
LA REFRIGERACIÓNLA REFRIGERACIÓN
LA REFRIGERACIÓN
 
Les cahier-de-la-fi-7
Les cahier-de-la-fi-7Les cahier-de-la-fi-7
Les cahier-de-la-fi-7
 
mydocuments
mydocumentsmydocuments
mydocuments
 
Eis cd d_sabinejaccard_light
Eis cd d_sabinejaccard_lightEis cd d_sabinejaccard_light
Eis cd d_sabinejaccard_light
 
Tp358 sistemas operativos-2014-2
Tp358 sistemas operativos-2014-2Tp358 sistemas operativos-2014-2
Tp358 sistemas operativos-2014-2
 
Presentacion pwa 2010 final
Presentacion pwa 2010 finalPresentacion pwa 2010 final
Presentacion pwa 2010 final
 
Matematicas2
Matematicas2Matematicas2
Matematicas2
 
Thésaurus par catégories
Thésaurus par catégoriesThésaurus par catégories
Thésaurus par catégories
 
Power El Internado
Power El InternadoPower El Internado
Power El Internado
 
VF_classement 2014
VF_classement 2014VF_classement 2014
VF_classement 2014
 

Similar a Big Data - El Futuro a través de los Datos

Big Data: Presente y futuro. Ponente: Francisco Gallego
Big Data: Presente y futuro. Ponente: Francisco GallegoBig Data: Presente y futuro. Ponente: Francisco Gallego
Big Data: Presente y futuro. Ponente: Francisco GallegoCICE
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDaniel Jiménez
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosAntonio Santos Ramos
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAJohn Bulla
 

Similar a Big Data - El Futuro a través de los Datos (20)

Big Data: Presente y futuro. Ponente: Francisco Gallego
Big Data: Presente y futuro. Ponente: Francisco GallegoBig Data: Presente y futuro. Ponente: Francisco Gallego
Big Data: Presente y futuro. Ponente: Francisco Gallego
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Big data
Big dataBig data
Big data
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 

Más de Oscar Corcho

Organisational Interoperability in Practice at Universidad Politécnica de Madrid
Organisational Interoperability in Practice at Universidad Politécnica de MadridOrganisational Interoperability in Practice at Universidad Politécnica de Madrid
Organisational Interoperability in Practice at Universidad Politécnica de MadridOscar Corcho
 
Introducción a los Datos Abiertos - Open Data Day 2020
Introducción a los Datos Abiertos - Open Data Day 2020Introducción a los Datos Abiertos - Open Data Day 2020
Introducción a los Datos Abiertos - Open Data Day 2020Oscar Corcho
 
Open Data (and Software, and other Research Artefacts) - A proper management
Open Data (and Software, and other Research Artefacts) -A proper managementOpen Data (and Software, and other Research Artefacts) -A proper management
Open Data (and Software, and other Research Artefacts) - A proper management Oscar Corcho
 
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosAdiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosOscar Corcho
 
Ontology Engineering at Scale for Open City Data Sharing
Ontology Engineering at Scale for Open City Data SharingOntology Engineering at Scale for Open City Data Sharing
Ontology Engineering at Scale for Open City Data SharingOscar Corcho
 
Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Oscar Corcho
 
STARS4ALL - Contaminación Lumínica
STARS4ALL - Contaminación LumínicaSTARS4ALL - Contaminación Lumínica
STARS4ALL - Contaminación LumínicaOscar Corcho
 
Towards Reproducible Science: a few building blocks from my personal experience
Towards Reproducible Science: a few building blocks from my personal experienceTowards Reproducible Science: a few building blocks from my personal experience
Towards Reproducible Science: a few building blocks from my personal experienceOscar Corcho
 
Publishing Linked Statistical Data: Aragón, a case study
Publishing Linked Statistical Data: Aragón, a case studyPublishing Linked Statistical Data: Aragón, a case study
Publishing Linked Statistical Data: Aragón, a case studyOscar Corcho
 
An initial analysis of topic-based similarity among scientific documents base...
An initial analysis of topic-based similarity among scientific documents base...An initial analysis of topic-based similarity among scientific documents base...
An initial analysis of topic-based similarity among scientific documents base...Oscar Corcho
 
Linked Statistical Data 101
Linked Statistical Data 101Linked Statistical Data 101
Linked Statistical Data 101Oscar Corcho
 
Aplicando los principios de Linked Data en AEMET
Aplicando los principios de Linked Data en AEMETAplicando los principios de Linked Data en AEMET
Aplicando los principios de Linked Data en AEMET Oscar Corcho
 
Ojo Al Data 100 - Call for sharing session at IODC 2016
Ojo Al Data 100 - Call for sharing session at IODC 2016Ojo Al Data 100 - Call for sharing session at IODC 2016
Ojo Al Data 100 - Call for sharing session at IODC 2016Oscar Corcho
 
Educando sobre datos abiertos: desde el colegio a la universidad
Educando sobre datos abiertos: desde el colegio a la universidadEducando sobre datos abiertos: desde el colegio a la universidad
Educando sobre datos abiertos: desde el colegio a la universidadOscar Corcho
 
STARS4ALL general presentation at ALAN2016
STARS4ALL general presentation at ALAN2016STARS4ALL general presentation at ALAN2016
STARS4ALL general presentation at ALAN2016Oscar Corcho
 
Why do they call it Linked Data when they want to say...?
Why do they call it Linked Data when they want to say...?Why do they call it Linked Data when they want to say...?
Why do they call it Linked Data when they want to say...?Oscar Corcho
 
Linked Statistical Data: does it actually pay off?
Linked Statistical Data: does it actually pay off?Linked Statistical Data: does it actually pay off?
Linked Statistical Data: does it actually pay off?Oscar Corcho
 
Slow-cooked data and APIs in the world of Big Data: the view from a city per...
Slow-cooked data and APIs in the world of Big Data: the view from a city per...Slow-cooked data and APIs in the world of Big Data: the view from a city per...
Slow-cooked data and APIs in the world of Big Data: the view from a city per...Oscar Corcho
 
Research Objects for improved sharing and reproducibility
Research Objects for improved sharing and reproducibilityResearch Objects for improved sharing and reproducibility
Research Objects for improved sharing and reproducibilityOscar Corcho
 
(Big) Data (Science) Skills
(Big) Data (Science) Skills(Big) Data (Science) Skills
(Big) Data (Science) SkillsOscar Corcho
 

Más de Oscar Corcho (20)

Organisational Interoperability in Practice at Universidad Politécnica de Madrid
Organisational Interoperability in Practice at Universidad Politécnica de MadridOrganisational Interoperability in Practice at Universidad Politécnica de Madrid
Organisational Interoperability in Practice at Universidad Politécnica de Madrid
 
Introducción a los Datos Abiertos - Open Data Day 2020
Introducción a los Datos Abiertos - Open Data Day 2020Introducción a los Datos Abiertos - Open Data Day 2020
Introducción a los Datos Abiertos - Open Data Day 2020
 
Open Data (and Software, and other Research Artefacts) - A proper management
Open Data (and Software, and other Research Artefacts) -A proper managementOpen Data (and Software, and other Research Artefacts) -A proper management
Open Data (and Software, and other Research Artefacts) - A proper management
 
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticosAdiós a los ficheros, hola a los grafos de conocimientos estadísticos
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
 
Ontology Engineering at Scale for Open City Data Sharing
Ontology Engineering at Scale for Open City Data SharingOntology Engineering at Scale for Open City Data Sharing
Ontology Engineering at Scale for Open City Data Sharing
 
Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...
 
STARS4ALL - Contaminación Lumínica
STARS4ALL - Contaminación LumínicaSTARS4ALL - Contaminación Lumínica
STARS4ALL - Contaminación Lumínica
 
Towards Reproducible Science: a few building blocks from my personal experience
Towards Reproducible Science: a few building blocks from my personal experienceTowards Reproducible Science: a few building blocks from my personal experience
Towards Reproducible Science: a few building blocks from my personal experience
 
Publishing Linked Statistical Data: Aragón, a case study
Publishing Linked Statistical Data: Aragón, a case studyPublishing Linked Statistical Data: Aragón, a case study
Publishing Linked Statistical Data: Aragón, a case study
 
An initial analysis of topic-based similarity among scientific documents base...
An initial analysis of topic-based similarity among scientific documents base...An initial analysis of topic-based similarity among scientific documents base...
An initial analysis of topic-based similarity among scientific documents base...
 
Linked Statistical Data 101
Linked Statistical Data 101Linked Statistical Data 101
Linked Statistical Data 101
 
Aplicando los principios de Linked Data en AEMET
Aplicando los principios de Linked Data en AEMETAplicando los principios de Linked Data en AEMET
Aplicando los principios de Linked Data en AEMET
 
Ojo Al Data 100 - Call for sharing session at IODC 2016
Ojo Al Data 100 - Call for sharing session at IODC 2016Ojo Al Data 100 - Call for sharing session at IODC 2016
Ojo Al Data 100 - Call for sharing session at IODC 2016
 
Educando sobre datos abiertos: desde el colegio a la universidad
Educando sobre datos abiertos: desde el colegio a la universidadEducando sobre datos abiertos: desde el colegio a la universidad
Educando sobre datos abiertos: desde el colegio a la universidad
 
STARS4ALL general presentation at ALAN2016
STARS4ALL general presentation at ALAN2016STARS4ALL general presentation at ALAN2016
STARS4ALL general presentation at ALAN2016
 
Why do they call it Linked Data when they want to say...?
Why do they call it Linked Data when they want to say...?Why do they call it Linked Data when they want to say...?
Why do they call it Linked Data when they want to say...?
 
Linked Statistical Data: does it actually pay off?
Linked Statistical Data: does it actually pay off?Linked Statistical Data: does it actually pay off?
Linked Statistical Data: does it actually pay off?
 
Slow-cooked data and APIs in the world of Big Data: the view from a city per...
Slow-cooked data and APIs in the world of Big Data: the view from a city per...Slow-cooked data and APIs in the world of Big Data: the view from a city per...
Slow-cooked data and APIs in the world of Big Data: the view from a city per...
 
Research Objects for improved sharing and reproducibility
Research Objects for improved sharing and reproducibilityResearch Objects for improved sharing and reproducibility
Research Objects for improved sharing and reproducibility
 
(Big) Data (Science) Skills
(Big) Data (Science) Skills(Big) Data (Science) Skills
(Big) Data (Science) Skills
 

Último

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaElizabethLpezSoto
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888ElianaValencia28
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskbydaniela5
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y maslida630411
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nóminacuellosameidy
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 

Último (20)

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
Tecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestríaTecnología Educativa- presentación maestría
Tecnología Educativa- presentación maestría
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888TECNOLOGIA 11-4.8888888888888888888888888
TECNOLOGIA 11-4.8888888888888888888888888
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjskTrabajo de Tecnología .pdfywhwhejsjsjsjsjsk
Trabajo de Tecnología .pdfywhwhejsjsjsjsjsk
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y mas
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nómina
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 

Big Data - El Futuro a través de los Datos

  • 1. Big Data EL FUTURO A TRAVÉS DE LOS DATOS II ASAMBLEA GENERAL DE PLANETIC 16/03/2015 Oscar Corcho ocorcho@fi.upm.es @ocorcho https://www.slideshare.com/ocorcho
  • 2. License • This work is licensed under the license CC BY-NC-SA 4.0 International • http://purl.org/NET/rdflicense/cc-by-nc-sa4.0 • You are free: • to Share — to copy, distribute and transmit the work • to Remix — to adapt the work • Under the following conditions • Attribution — You must attribute the work by inserting • “[source Oscar Corcho]” at the footer of each reused slide • a credits slide stating: “These slides are partially based on “Big Data” by O. Corcho” • Non-commercial • Share-Alike
  • 3. ¿Qué es Big Data? Fuente: http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg
  • 4. ¿Qué es Big Data? Fuente: http://www.philipchircop.com/post/25783275888/seeing-the-full-elephant-its-a-tree-its-a
  • 5. Big Data y la teoría de los nichos ecológicos
  • 6. Características de los nichos ecológicos • Un nicho se entiende como un espectro de utilización de recursos • Las especies difieren en la eficiencia de utilización de unos recursos que varían continuamente. • Características de un nicho • Amplitud (rango con que se usan recursos) • Especies generalistas (amplitud grande – capaces de utilizar un amplio rango de recursos) • Especies especialistas (amplitud pequeña – necesitan una combinación de recursos muy concreta) • Solapamiento (similitud entre nichos, en el uso de recursos) • Principio de exclusión competitiva (Gause, 1934). • Si dos especies coexisten en un ambiente estable, lo hacen como resultado de la diferenciación de los nichos efectivos. Fuente: Javier Seoane. Ecología. Unidad Temática 21. Teoría del nicho ecológico
  • 7. ¿Y QUÉ TIENE TODO ESTO QUE VER CON BIG DATA? Sí, muy interesante, pero…
  • 8. Nicho Big Data 1. Expertos en HPC e infraestructura Formación: Informática (Sistemas) Administración de sistemas Términos frecuentes en su idioma: Blades, Infiniband, OpenMPI, Cabinas de disco, racks, HDF, TBs, Gflops Su día a día: Revisar logs de los sistemas Asegurar que las colas están activas Instalar un rack nuevo ¿Qué es el Big Data para ellos? Término “comercial” para algo que llevan mucho tiempo haciendo Ellos sí que saben configurar bien un cluster Hadoop, y monitorizarlo Ya les gustaría ver a los que hablan de Big Data ejecutando procesos de dinámica de fluidos
  • 9. Nicho Big Data 2. Expertos en bases de datos Formación: Informática Administración de BBDD Términos frecuentes en su idioma: SQL, NoSQL, Column store Transacions, Hive, TBs/PBs/etc, TPS (Transactions per s) Su día a día: Optimizar varias consultas Ejecutar un nuevo benchmark Diseñar un nuevo optimizador ¿Qué es el Big Data para ellos? Una nueva oportunidad de trabajar en algoritmos de optimización Ellos sí que saben configurar bien una base de datos A veces se ríen de los que montan una solución NoSQL, cuando sus problemas se resuelven con una BD relacional
  • 10. Nicho Big Data 3. Expertos en Data Mining Formación: Matemática, Estadística, Física Informática Términos frecuentes en su idioma: Complejidad, algoritmo, p-value, óptimo, convergencia, precisión, recall, curva ROC, red bayesiana, R Su día a día: Leer un problema nuevo Escribir unas fórmulas en la pizarra Comprobar terminación del algoritmo ¿Qué es el Big Data para ellos? Problemas de siempre aplicados a muchos más datos y con nuevos retos Los problemas se resuelven con algo más que un cluster Hadoop y una base de datos potente Se asombran de algunas conclusiones científicas que leen en la prensa
  • 11. Nicho Big Data 4. Expertos en slow-data Formación: Informática, Estadística, Biblioteconomía, Lingüística Términos frecuentes en su idioma: Modelo de información, vocabulario, ontología, calidad del dato, curación Su día a día: Recibir un esquema de base de datos Hablar con productores y usuarios Crear consenso y transformar datos ¿Qué es el Big Data para ellos? En la variedad de estructuras y formatos está la dificultad Podemos mezclar datos de diversas fuentes, pero son conscientes de que no siempre es posible Cuando se integran datos heterogéneos se consiguen más resultados
  • 12. Nicho Big Data 5. Consultores Formación: Informática, Economía, … Términos frecuentes en su idioma: Modelo de negocio, oportunidades, Big Data, Data Value Chain, Hadoop, Spark, R, TBs, GFlops Su día a día: Leer un informe sobre Big Data Hablar con clientes potenciales Transmitir necesidades a los técnicos ¿Qué es el Big Data para ellos? Son las 4Vs, y alguna más Tengo un PPT con mi infraestructura, una arquitectura, resultados de proyectos anteriores Big Data, y puedo usarlo para vender algún proyecto
  • 13. ¿Nos falta algún nicho ecológico? • Ya hemos visto varios nichos ecológicos en nuestro ecosistema de Big Data… • Todos coexisten • Existen algunos solapamientos entre ellos ¿Se os ocurre alguno que no haya considerado?
  • 14. La evolución de una nueva especie: Data Scientist Formación: Informática+Estadística +Matemática+Economía+ … Términos frecuentes en su idioma: HPC, bases de datos, algoritmos, harmonización, integración, Hadoop, Spark, R, TBs, GFlops Su día a día: Aprender nueva infraestructura Programar scripts y ejecutar en Spark Interpretar los resultados Instalar nuevo framework Leer varios artículos científicos Hacer presentaciones vistosas Rebatir a los que no entienden todo lo que Big Data significa …
  • 15. ¿Sobrevivirán todas las especies? • Si el concepto de Big Data define un ecosistema… • ¿Qué especies sobrevivirán? • ¿Exterminará la super-especie de los Data Scientists al resto de especies? • ¿O podrán vivir todos en simbiosis? ¿Cuál es la formación ideal para los individuos de todas estas especies?
  • 16. Masters en Data Science, Big Data y similares (I) Experto en Big Data Experto en Data Science
  • 17. Masters en Data Science, Big Data y similares (II)
  • 18. Masters en Data Science, Big Data y similares (III) Year 1 • Data handling • Data analysis • Advanced data analysis and data management • Visualization • Applications Year 2
  • 19. Formación: ¿lo estamos haciendo bien? • Seguramente se trata de falta de madurez en el área, pero los syllabus no parecen completamente compatibles… • Tampoco es creíble poder formar en un año a expertos Data Scientists • ¿Es mejor saber un poco de todo? • ¿O separar claramente a las especies de nuestro ecosistema y especializarlos mucho mejor? ¿Cómo conseguir un ecosistema sano y estable?
  • 20. Shameless self-promotion • Strategies for success in the Digital-Data Revolution • Separation of concerns • Intellectual ramps • Data-intensive knowledge discovery • Components and usage patterns • Data-intensive engineering • Development vs enactment • Data-intensive application experiences • In Science • In Business ¿Qué podemos aprender de lo que se ha hecho en Data- Intensive Science?
  • 21. Separation of concerns: tres perfiles diferenciados • Expertos de dominio • Conocen los problemas que quieren resolver • Conocen el dominio de aplicación • Pueden crear workflows • Data-intensive analysts • Saben mucho de análisis de (Big) data • No necesariamente de la infraestructura que hay debajo • No necesariamente todos los detalles de las aplicaciones • Data-intensive engineers • Saben mucho de computación distribuida/infraestructura/HPC/ clouds/etc. • Reciben descripción de un algoritmo y lo pueden programar más eficientemente (paralelización)
  • 22. Separation of concerns: tareas muy diferenciadas [<select= "1<=day(inp.first.start)<=5", project="inp">, <select= "6<=day(inp.first.start)<=10", project="inp">, <select= "11<=day(inp.first.start)<=15", project="inp">, ...] Programmable Filter Project outputs inp rules distrib "second.fURIASC..." Sort outp data rule Sort outp data rule Sort outp data rule Sort outp data rule ["first,second"] Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs De List opinp De List opinp De List opinp De List opinp inp CorrFarm Diversidad de usuarios y aplicaciones Complejidad de sistemas Desarrollo en un lenguaje de más alto nivel Optimización, despliegue y ejecución Facilitando Varios dominios Varias herramientas Varias representaciones de procesos Varias formas de trabajo Lenguaje único Proporcionando Muchos recursos autónomos Un mecanismo de ejecución Una plataforma única Gateway Herramientas Ejecución Librería de componentes EDIM1
  • 23. Un toolset ideal para hacer Big Data EasyRIDER Platform Flexible Execution Engine (FEE) Hardware infrastructure KNIME Workflow KNIME platform R server Data-intensive components (processing elements, functions) compiled into PC Software Information Registry (SIR) OpenNebula Fujitsu Global Cloud Platform Marketing analyst ... enacted in Game analyst Tablet Other Beneficiaries: business experts, data-intensive scientists, etc. generates Virtual Execution Environments (VET) Data-intensive Software Engineering Workbench (DSEW) described in ... ... Data-intensive Software Engineers (incl. KNIME community) ... Astronomer
  • 24. Conclusiones • Todos sabemos que hay grandes oportunidades en Big Data • Para ser realmente productivos necesitamos: • Crear equipos multidisciplinares con al menos tres roles (desarrolladores de aplicaciones, data-intensive analysts y data- intensive engineers) • Comprender que simplemente por usar Hadoop, Spark o R no estamos ya haciendo Big Data • Igual que por usar Java no hacemos necesariamente orientación a objetos • Comprender que hay que interpretar bien los resultados, científicamente • Comprender la importancia de homogeneizar datasets, para facilitar su integración (slow-data) • Seguir trabajando en facilitar las herramientas adecuadas para desarrollar aplicaciones Big Data • ¿Oportunidades para hacer proyectos de I+D?
  • 25. Big Data EL FUTURO A TRAVÉS DE LOS DATOS II ASAMBLEA GENERAL DE PLANETIC 16/03/2015 Oscar Corcho ocorcho@fi.upm.es @ocorcho https://www.slideshare.com/ocorcho

Notas del editor

  1. The story of the blind men and an elephant originated in the Indian subcontinent from where it has widely diffused. It has been used to illustrate a range of truths and fallacies; broadly, the parable implies that one's subjective experience can be true, but that such experience is inherently limited by its failure to account for other truths or a totality of truth. At various times the parable has provided insight into the relativism, opaqueness or inexpressible nature of truth, the behavior of experts in fields where there is a deficit or inaccessibility of information, the need for communication, and respect for different perspectives