Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Matemática y Data Science

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
Introducción al ML
Introducción al ML
Cargando en…3
×

Eche un vistazo a continuación

1 de 48 Anuncio
Anuncio

Más Contenido Relacionado

Similares a Matemática y Data Science (20)

Más de MSc Aldo Valdez Alvarado (20)

Anuncio

Más reciente (20)

Matemática y Data Science

  1. 1. MATEMÁTICA Y DATA SCIENCE Preparado como parte de las Actividades por el LI Aniversario de la Carrera de Matemática M.Sc. Aldo Ramiro Valdez Alvarado Marzo de 2018
  2. 2. La Revolución de los Datos Y llega el Big Data Data Science: Una definición… De la Minería de Datos al Machine Learning El Proceso de Data Science Herramientas más importantes Índice 1 2 3 4 5 6
  3. 3. La Revolución de los Datos1
  4. 4. El proyecto del Genoma Humano
  5. 5. http://www.sdss.org/ El proyecto Sloan Digital Sky Survey
  6. 6. IoT
  7. 7. Internet en 60 segundos
  8. 8. En 2007 solo el 7% de la información estaba en medios analógicos (libros, revistas, fotografías en papel, etc.)
  9. 9. En 2012 la información digital alcanzó a nivel mundial 2.837 exabytes (miles de millones de gigabytes). Puestos en DVDs, la torre sería de 400.000 Kms, más que la distancia de la Tierra a la Luna.
  10. 10. Google procesa más de 24 Petabytes/día, información equivalente a varios miles de veces la biblioteca del congreso de USA
  11. 11. Y llega el Big Data2
  12. 12. En el 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía el término Big Data como: “el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica”.
  13. 13. •Crecimiento exponencial. •Terabytes, petabyte, … Volumen •Frecuencia de generación. •Procesado en tiempo real. Velocidad •Diferentes formatos. •Diferentes estructuras. Variedad
  14. 14. IBM introdujo la cuarta V
  15. 15. Data Science: Una definición… 3
  16. 16. • La ciencia de datos (Data Science) implica el uso de métodos para analizar cantidades masivas de datos y extraer el conocimiento que se contienen en estas. • La ciencia de datos representa la optimización de procesos y recursos. • La ciencia de datos produce información valiosa: conclusiones o predicciones procesables, basadas en datos, que usted puede usar para comprender y mejorar su negocio, sus inversiones, su salud e incluso su estilo de vida y su vida social. (Cielen, 2016)
  17. 17. • La ciencia de datos (Data Science) es la ciencia computacional de la extracción de conocimientos significativos a partir de datos brutos y luego la comunicación efectiva de esos conocimientos para generar valor. (Pierson, 2017) • En un mundo dirigido por los datos, la ciencia de datos (Data Science) se puede definir como algo que los cientistas de datos hacen. (Haider, 2016)
  18. 18. Un Científico de Datos (Data Scientist) es una persona con habilidades matemáticas, estadísticas, computacionales (que sabe programar) y de visualización de datos que lo llevan a encontrar los patrones que le servirán a la empresa o institución para capitalizar la información recogida. (Valdés, 2015) Data Scientist
  19. 19. La ciencia de los datos se basa en gran medida en las habilidades matemáticas y estadísticas de un profesional, precisamente porque estas son las habilidades necesarias para comprender sus datos y su importancia. Estas habilidades pueden usarse para llevar a cabo modelos predictivos, modelos de decisiones y pruebas de hipótesis.
  20. 20. La matemática usa métodos determinísticos para formar una descripción cuantitativa (o numérica) del mundo; la estadística es una ciencia que se deriva de las matemáticas, pero se centra en el uso de un enfoque estocástico (probabilidades) y métodos inferenciales para formar una descripción cuantitativa del mundo.
  21. 21. Los científicos usan los métodos matemáticos para construir modelos de decisión, generar aproximaciones y hacer predicciones sobre el futuro.
  22. 22. De la Minería de Datos al Machine Learning 4
  23. 23. La minería de datos trata de resolver problemas mediante el análisis de datos, mismos que ya están presentes en las bases de datos. Minería de datos
  24. 24. La minería de datos se define como el proceso de descubrir patrones en los datos. El proceso debe ser automático o semiautomático. Los patrones descubiertos deben ser significativos ya que conducen a alguna ventaja, generalmente una ventaja económica. Los datos están invariablemente presentes en cantidades sustanciales.
  25. 25. La minería de datos trata de técnicas para encontrar y describir patrones estructurales en los datos. La mayoría de las técnicas que se tienen se han desarrollado dentro de un campo, conocido como aprendizaje automático (Machine Learning).
  26. 26. Machine Learning
  27. 27. El Aprendizaje Automático es un campo en la Inteligencia Artificial, donde las máquinas pueden "aprender" de sí mismas, sin ser explícitamente programadas por los seres humanos. Analizando datos pasados llamados "datos de entrenamiento", el modelo de Aprendizaje Automático forma patrones y usa estos patrones para aprender y hacer predicciones futuras.
  28. 28. El aprendizaje automático o Machine Learning es un método científico que nos permite usar los ordenadores y otros dispositivos con capacidad computacional para que aprendan a extraer los patrones y relaciones que hay en nuestros datos por sí solos. Esos patrones se pueden usar luego para predecir comportamientos y en la toma de decisiones.
  29. 29. Aprendizaje Supervisado • Modelos Predictivos. • La máquina aprende explícitamente. • Predice el futuro a partir de datos históricos. • Resuelve problemas de clasificación y regresión. Aprendizaje No Supervisado • Modelos Descriptivos. • La máquina entiende los datos. • La evaluación es cualitativa o indirecta. • No realiza predicciones, encuentra algo específico. Aprendizaje Reforzado • Un enfoque de la IA • Aprendizaje basado en los hallazgos. • La máquina aprende a como actuar en un determinado entorno. • Maximiza los hallazgos.
  30. 30. El Proceso de Data Science5
  31. 31. 1. Establecer el objetivo de la investigación 2. Recuperar datos 3. Preparar datos 4. Explorar datos 5. Modelar datos 6. Presentar y automatizar
  32. 32. • Definir el objetivo de la investigación. • Crear el cronograma del proyecto. 1. Establecer Objetivo • Para los datos internes, se determina quién es el dueño y se los recupera. • De igual forma para los datos externos. 2. Recuperar Datos • Limpiar los datos, de posibles errores en la entrada de datos, de valores físicamente imposibles, valores faltantes… 3. Preparar Datos
  33. 33. • Transformar los datos, agregando o extrapolando datos, reduciendo el número de variables. • Combinar los datos, mezclando conjuntos de datos, creando vistas… 3. Preparar Datos • A través de simples gráficas, gráficas combinadas, o de otras técnicas que no sean gráficas. 4. Explorar Datos
  34. 34. • Seleccionar las variables y el modelo. • Ejecutar el modelo. • Realizar el diagnóstico y la comparación. 5. Modelar Datos • Presentar los datos. • Automatizar el análisis de datos. 6. Presentar y Automatizar
  35. 35. Herramientas más importantes 6
  36. 36. Aldo Ramiro Valdez Alvarado Licenciado en Informática Master en Dirección Estrategica en Tecnologías de la Información Máster en Business Intelligence y Big Data Docente Titular de Pregrado en la UMSA Docente de Postgrado en la UMSA y otras Universidades Ex - Coordinador del Postgrado en Informática UMSA Conferencista Nacional e Internacional http://aldovaldezalvarado.blogspot.com/ https://www.linkedin.com/in/msc-aldo-valdez-alvarado-17464820 aldo_valdez@hotmail.com

×