Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Big Data - El Futuro a través de los Datos

Presentación invitada realizada en el contexto de la II Asamblea Planetic "El futuro a través de los datos"

  • Inicia sesión para ver los comentarios

Big Data - El Futuro a través de los Datos

  1. 1. Big Data EL FUTURO A TRAVÉS DE LOS DATOS II ASAMBLEA GENERAL DE PLANETIC 16/03/2015 Oscar Corcho ocorcho@fi.upm.es @ocorcho https://www.slideshare.com/ocorcho
  2. 2. License • This work is licensed under the license CC BY-NC-SA 4.0 International • http://purl.org/NET/rdflicense/cc-by-nc-sa4.0 • You are free: • to Share — to copy, distribute and transmit the work • to Remix — to adapt the work • Under the following conditions • Attribution — You must attribute the work by inserting • “[source Oscar Corcho]” at the footer of each reused slide • a credits slide stating: “These slides are partially based on “Big Data” by O. Corcho” • Non-commercial • Share-Alike
  3. 3. ¿Qué es Big Data? Fuente: http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg
  4. 4. ¿Qué es Big Data? Fuente: http://www.philipchircop.com/post/25783275888/seeing-the-full-elephant-its-a-tree-its-a
  5. 5. Big Data y la teoría de los nichos ecológicos
  6. 6. Características de los nichos ecológicos • Un nicho se entiende como un espectro de utilización de recursos • Las especies difieren en la eficiencia de utilización de unos recursos que varían continuamente. • Características de un nicho • Amplitud (rango con que se usan recursos) • Especies generalistas (amplitud grande – capaces de utilizar un amplio rango de recursos) • Especies especialistas (amplitud pequeña – necesitan una combinación de recursos muy concreta) • Solapamiento (similitud entre nichos, en el uso de recursos) • Principio de exclusión competitiva (Gause, 1934). • Si dos especies coexisten en un ambiente estable, lo hacen como resultado de la diferenciación de los nichos efectivos. Fuente: Javier Seoane. Ecología. Unidad Temática 21. Teoría del nicho ecológico
  7. 7. ¿Y QUÉ TIENE TODO ESTO QUE VER CON BIG DATA? Sí, muy interesante, pero…
  8. 8. Nicho Big Data 1. Expertos en HPC e infraestructura Formación: Informática (Sistemas) Administración de sistemas Términos frecuentes en su idioma: Blades, Infiniband, OpenMPI, Cabinas de disco, racks, HDF, TBs, Gflops Su día a día: Revisar logs de los sistemas Asegurar que las colas están activas Instalar un rack nuevo ¿Qué es el Big Data para ellos? Término “comercial” para algo que llevan mucho tiempo haciendo Ellos sí que saben configurar bien un cluster Hadoop, y monitorizarlo Ya les gustaría ver a los que hablan de Big Data ejecutando procesos de dinámica de fluidos
  9. 9. Nicho Big Data 2. Expertos en bases de datos Formación: Informática Administración de BBDD Términos frecuentes en su idioma: SQL, NoSQL, Column store Transacions, Hive, TBs/PBs/etc, TPS (Transactions per s) Su día a día: Optimizar varias consultas Ejecutar un nuevo benchmark Diseñar un nuevo optimizador ¿Qué es el Big Data para ellos? Una nueva oportunidad de trabajar en algoritmos de optimización Ellos sí que saben configurar bien una base de datos A veces se ríen de los que montan una solución NoSQL, cuando sus problemas se resuelven con una BD relacional
  10. 10. Nicho Big Data 3. Expertos en Data Mining Formación: Matemática, Estadística, Física Informática Términos frecuentes en su idioma: Complejidad, algoritmo, p-value, óptimo, convergencia, precisión, recall, curva ROC, red bayesiana, R Su día a día: Leer un problema nuevo Escribir unas fórmulas en la pizarra Comprobar terminación del algoritmo ¿Qué es el Big Data para ellos? Problemas de siempre aplicados a muchos más datos y con nuevos retos Los problemas se resuelven con algo más que un cluster Hadoop y una base de datos potente Se asombran de algunas conclusiones científicas que leen en la prensa
  11. 11. Nicho Big Data 4. Expertos en slow-data Formación: Informática, Estadística, Biblioteconomía, Lingüística Términos frecuentes en su idioma: Modelo de información, vocabulario, ontología, calidad del dato, curación Su día a día: Recibir un esquema de base de datos Hablar con productores y usuarios Crear consenso y transformar datos ¿Qué es el Big Data para ellos? En la variedad de estructuras y formatos está la dificultad Podemos mezclar datos de diversas fuentes, pero son conscientes de que no siempre es posible Cuando se integran datos heterogéneos se consiguen más resultados
  12. 12. Nicho Big Data 5. Consultores Formación: Informática, Economía, … Términos frecuentes en su idioma: Modelo de negocio, oportunidades, Big Data, Data Value Chain, Hadoop, Spark, R, TBs, GFlops Su día a día: Leer un informe sobre Big Data Hablar con clientes potenciales Transmitir necesidades a los técnicos ¿Qué es el Big Data para ellos? Son las 4Vs, y alguna más Tengo un PPT con mi infraestructura, una arquitectura, resultados de proyectos anteriores Big Data, y puedo usarlo para vender algún proyecto
  13. 13. ¿Nos falta algún nicho ecológico? • Ya hemos visto varios nichos ecológicos en nuestro ecosistema de Big Data… • Todos coexisten • Existen algunos solapamientos entre ellos ¿Se os ocurre alguno que no haya considerado?
  14. 14. La evolución de una nueva especie: Data Scientist Formación: Informática+Estadística +Matemática+Economía+ … Términos frecuentes en su idioma: HPC, bases de datos, algoritmos, harmonización, integración, Hadoop, Spark, R, TBs, GFlops Su día a día: Aprender nueva infraestructura Programar scripts y ejecutar en Spark Interpretar los resultados Instalar nuevo framework Leer varios artículos científicos Hacer presentaciones vistosas Rebatir a los que no entienden todo lo que Big Data significa …
  15. 15. ¿Sobrevivirán todas las especies? • Si el concepto de Big Data define un ecosistema… • ¿Qué especies sobrevivirán? • ¿Exterminará la super-especie de los Data Scientists al resto de especies? • ¿O podrán vivir todos en simbiosis? ¿Cuál es la formación ideal para los individuos de todas estas especies?
  16. 16. Masters en Data Science, Big Data y similares (I) Experto en Big Data Experto en Data Science
  17. 17. Masters en Data Science, Big Data y similares (II)
  18. 18. Masters en Data Science, Big Data y similares (III) Year 1 • Data handling • Data analysis • Advanced data analysis and data management • Visualization • Applications Year 2
  19. 19. Formación: ¿lo estamos haciendo bien? • Seguramente se trata de falta de madurez en el área, pero los syllabus no parecen completamente compatibles… • Tampoco es creíble poder formar en un año a expertos Data Scientists • ¿Es mejor saber un poco de todo? • ¿O separar claramente a las especies de nuestro ecosistema y especializarlos mucho mejor? ¿Cómo conseguir un ecosistema sano y estable?
  20. 20. Shameless self-promotion • Strategies for success in the Digital-Data Revolution • Separation of concerns • Intellectual ramps • Data-intensive knowledge discovery • Components and usage patterns • Data-intensive engineering • Development vs enactment • Data-intensive application experiences • In Science • In Business ¿Qué podemos aprender de lo que se ha hecho en Data- Intensive Science?
  21. 21. Separation of concerns: tres perfiles diferenciados • Expertos de dominio • Conocen los problemas que quieren resolver • Conocen el dominio de aplicación • Pueden crear workflows • Data-intensive analysts • Saben mucho de análisis de (Big) data • No necesariamente de la infraestructura que hay debajo • No necesariamente todos los detalles de las aplicaciones • Data-intensive engineers • Saben mucho de computación distribuida/infraestructura/HPC/ clouds/etc. • Reciben descripción de un algoritmo y lo pueden programar más eficientemente (paralelización)
  22. 22. Separation of concerns: tareas muy diferenciadas [<select= "1<=day(inp.first.start)<=5", project="inp">, <select= "6<=day(inp.first.start)<=10", project="inp">, <select= "11<=day(inp.first.start)<=15", project="inp">, ...] Programmable Filter Project outputs inp rules distrib "second.fURIASC..." Sort outp data rule Sort outp data rule Sort outp data rule Sort outp data rule ["first,second"] Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs Tuple Burst outp input structcols inputs De List opinp De List opinp De List opinp De List opinp inp CorrFarm Diversidad de usuarios y aplicaciones Complejidad de sistemas Desarrollo en un lenguaje de más alto nivel Optimización, despliegue y ejecución Facilitando Varios dominios Varias herramientas Varias representaciones de procesos Varias formas de trabajo Lenguaje único Proporcionando Muchos recursos autónomos Un mecanismo de ejecución Una plataforma única Gateway Herramientas Ejecución Librería de componentes EDIM1
  23. 23. Un toolset ideal para hacer Big Data EasyRIDER Platform Flexible Execution Engine (FEE) Hardware infrastructure KNIME Workflow KNIME platform R server Data-intensive components (processing elements, functions) compiled into PC Software Information Registry (SIR) OpenNebula Fujitsu Global Cloud Platform Marketing analyst ... enacted in Game analyst Tablet Other Beneficiaries: business experts, data-intensive scientists, etc. generates Virtual Execution Environments (VET) Data-intensive Software Engineering Workbench (DSEW) described in ... ... Data-intensive Software Engineers (incl. KNIME community) ... Astronomer
  24. 24. Conclusiones • Todos sabemos que hay grandes oportunidades en Big Data • Para ser realmente productivos necesitamos: • Crear equipos multidisciplinares con al menos tres roles (desarrolladores de aplicaciones, data-intensive analysts y data- intensive engineers) • Comprender que simplemente por usar Hadoop, Spark o R no estamos ya haciendo Big Data • Igual que por usar Java no hacemos necesariamente orientación a objetos • Comprender que hay que interpretar bien los resultados, científicamente • Comprender la importancia de homogeneizar datasets, para facilitar su integración (slow-data) • Seguir trabajando en facilitar las herramientas adecuadas para desarrollar aplicaciones Big Data • ¿Oportunidades para hacer proyectos de I+D?
  25. 25. Big Data EL FUTURO A TRAVÉS DE LOS DATOS II ASAMBLEA GENERAL DE PLANETIC 16/03/2015 Oscar Corcho ocorcho@fi.upm.es @ocorcho https://www.slideshare.com/ocorcho

×