texto argumentativo, ejemplos y ejercicios prácticos
La necesidad de nuevas técnicas para el análisis de datos
1. 29 de mayo del 2019
La necesidad de nuevas técnicas para el
análisis de datos
Jhosse Paul Márquez Ruíz
2. Introducción
● Desde principios de esta década el poder computacional nos ha permitido
desarrollar gran cantidad de avances en la ciencia, en específico, en el poder de
cálculo de las operaciones matemáticas.
● El rol del entendimiento de los patrones de conocimiento en la información se ha
convertido en una de las actividades más solicitadas en los mercados de todo el
mundo.
● El presente trabajo versa sobre la descripción de los retos actuales en la ciencia
de datos
3. Objetivos
● Objetivo general
● Describir e identificar los retos actuales en el campo del análisis de
datos, con especial énfasis en las dificultades matemáticas.
● Objetivos específicos
● Reconocer los retos de frontera en el análisis de datos.
● Identificar los avances y líneas de investigación que proponen
alguna solución a estos retos.
● Conocer las limitantes técnicas y tecnológicas en esta área
● Entender la perspectiva de la comunidad científica
5. Población objetivo y muestra
● Científicos de datos que se encuentren laborando o que
hayan trabajado en un equipo de ciencia de datos en los
últimos 5 años.
● Muestreo dirigido
● Encuesta online a través de SurveyMonkey
● Muestra mínima: 10
● Inicio: 2019-05-21 18:00:00
● Fin: 2019-05-22 15:00:00
● Muestra final: 17
6. Antecedentes
● La ciencia de datos es un nuevo campo de investigación
que se dedica a solucionar problemas relacionados con
el Big Data (Chen, 2015), la extracción de conocimiento e
información para ganar insights a partir de los datos, los
cuales pueden originarse de manera experimental,
observaciones o simulada, pueden ser datos
estructurados o no, y ser recolectados de múltiples
fuentes ambientes poblaciones o circunstancias.
7. Big Data
● A inicios del 2014 surge el Big Data debido a la facilidad
para obtener datos en cantidades masivas.
11. Otros retos
● Modelación estadística sofisticada.
● Herramientas y teorías de nueva generación para la inferencia
y aprendizaje estadístico.
● Estudio de las propiedades estadísticas y estocásticas de redes.
● Técnicas de cuantificación de la incertidumbre.
● Desarrollo de teoría estadística y numérica para el estudio de
estructuras analíticas, topológicas, algebraicas, geométricas y
numéricas relevantes para la la adquisición masiva de datos.
12. Otros retos
● Modelos predictivos
● Sobreajuste
● Sobreentrenamiento
● Transformaciones sobre covariables
● Clasificación
● Separaciones no lineales
● Tiempo de ejecución
13. Otros retos
● Segmentación
● Cantidad óptima de segmentos
● Métricas de distancia y similitud
● Reducción de dimensionalidad
● Ruido
14. Entrevistas
● Entrevista al Dr. Horacio González
● Visualización de datos
● Series de tiempo
● Nuevos modelos
● Interpretabilidad
● Escalabilidad
● Paralización
15. Entrevistas
● Entrevista al M.C. Mario Becerra
● Modelos de estado del arte
● Escalabilidad
● Paralización
● Programación probabilística
23. Conclusiones
● Los problemas actuales y las principales líneas de investigación que
tienen alta prioridad para los científicos de datos son:
● El cómputo científico para lidiar con Big Data
● Relaciones espurias
● Alta dimensionalidad
● Ruido
● Sobreajuste
● Se hace notar que México requiere de mayor investigación en esta
área y de planes de estudio especializados.