Si bien no tiene una definición única o definitiva, puesto que es un concepto en evolución, se puede definir como un campo interdisciplinario y práctico para la exploración y el análisis cuantitativo de los datos, sean estos estructurados o no, para desarrollar, entender, extraer conocimiento y formular resultados procesables. Recordemos que los datos estructurados se caracterizan por tener propiedades definidas, como los datos relacionados a una persona o a una orden de compra, mientras que su contraparte no tiene una estructura interna identificable, como las imágenes o los sonidos.
La ciencia de datos es interdisciplinaria porque incluye ciertos aspectos del aprendizaje automático, la estadística, la programación, entre otras subdisciplinas. Y es práctica porque requiere la comprensión del dominio en el que se aplica, por ejemplo, si es sobre salud, marketing o banca debes conocer el propósito, entender el "valor agregado" de la industria e identificar las restricciones o demás variables del entorno.
11. DECISIÓN
DATOS
APOYO A LAS DECISIONES
ACCIÓN
VALOR
¿QUÉ SUCEDERÁ?
¿PORQUÉ PASÓ?
¿QUÉ PASÓ?
AUTOMATIZACIÓN DE DECISIONES
¿QUÉ DEBERÍA HACER?
12.
13. 1. EVALUACIÓN DE OPORTUNIDADES Y COMPRENSIÓN DEL ENTORNO
2. COMPRENSIÓN Y ADQUISICIÓN DE DATOS
3. LIMPIEZA Y TRANSFORMACIÓN DE DATOS
4. ELABORACIÓN DE MODELOS PREDICTIVOS
5. DEFINICIÓN DE POLÍTICAS REGULATORIAS
6. EVALUACIÓN DE RESULTADOS
7. DESPLIEGUE, MONITOREO Y MANTENIMIENTO
ETAPAS DEL PROCESO DE
DESCUBRIMIENTO DE CONOCIMIENTO
14. • ¿CUÁL ES EL OBJETIVO DEL ACTUAL PROYECTO?
• ¿CUÁL ES EL VERDADERO PROBLEMA?
• ¿QUÉ VARIABLES DEL ENTORNO NOS AFECTAN?
• ¿CÓMO EVALUAR LA CALIDAD DE LOS RESULTADOS?
1. EVALUACIÓN DE OPORTUNIDADES Y
COMPRENSIÓN DEL ENTORNO
15. • ¿QUÉ FUENTES DE DATOS TENEMOS AL ALCANCE?
• ¿EL VOLUMEN DE DATOS ES SUFICIENTE?
• ¿LAS FUENTES DE DATOS SON VARIADAS?
• ¿LA FUENTE DE DATOS ES ACTUALIZADA?
• ¿HAY INFORMACIÓN NUEVA SEGUIDA?
• ¿LA FUENTE DE DATOS ES DE CONFIANZA?
2. COMPRENSIÓN Y ADQUISICIÓN DE DATOS
16. • SELECCIÓN DE DATOS Y ATRIBUTOS RELEVANTES
• UNIÓN O INTEGRACIÓN DE DATOS
• DERIVACIÓN Y CÁLCULO DE ATRIBUTOS
• NORMALIZACIÓN Y CLASIFICACIÓN DE DATOS
3. LIMPIEZA Y TRANSFORMACIÓN DE DATOS
17. • MODELOS ESTADÍSTICOS O DE MACHINE LEARNING
• SE RESUELVEN PROBLEMAS DE CLASIFICACIÓN, REGRESIÓN O
CLUSTERIZACIÓN
• ELABORACIÓN DE SISTEMAS DE RECOMENDACIÓN
NOTA: HAY OTROS PROBLEMAS DE MACHINE LEARNING
4. ELABORACIÓN DE MODELOS PREDICTIVOS
18. • SE APLICAN AL NEGOCIO O AL SISTEMA
• TOMA COMO BASE LOS MODELOS PREDICTIVOS
• ¿CÓMO PODEMOS OPTIMIZAR NUESTROS PROCESOS?
• ¿CON QUÉ ACCIONES PUEDO CONDICIONAR UNA SITUACIÓN FUTURA?
5. ELABORACIÓN DE POLÍTICAS REGULATORIAS
19. • ¿LA PRECISIÓN DE LOS RESULTADOS SON ACEPTABLES?
• ¿LAS PRUEBAS RESULTARON SEGÚN LO ESPERADO?
6. EVALUACIÓN DE RESULTADOS
20. • APLICAR CONCLUSIONES AL NEGOCIO O SISTEMA
• ACTUALIZACIONES Y MEJORAS AL PROCESO DE DESCUBRIMIENTO DE
CONOCIMIENTO
7. DESPLIEGUE, MONITOREO Y MANTENIMIENTO
21. PROCESO DE LA CIENCIA DE DATOS
DATOS
1. COMPRENSIÓN DEL
ENTORNO
2. COMPRENSIÓN Y
ADQUISICIÓN DE DATOS
3. LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
4. ELABORACIÓN DE MODELOS
PREDICTIVOS
5. DEFINICIÓN DE POLÍTICAS
REGULATORIAS
6. EVALUACIÓN DE
RESULTADOS
7. DESPLIEGUE, MONITOREO Y
MANTENIMIENTO
Notas del editor
Considerando el actual crecimiento global, se estima que cada dos días, el mundo está creando tanta información digital nueva como todos los datos creados desde que inicio la historia de la humanidad hasta el presente siglo.
Esto ocurre debido a diferentes factores como por ejemplo:
La ola mundial de digitalización global que involucra casi todas las industrias, tanto en el sector privado como el público y este último esta siendo acompañado con una filosofía de datos abiertos.
Alianza para el Gobierno Abierto (AGA)
¿Sabías que durante el 66 período de sesiones de la Asamblea General de las Naciones, celebrado en septiembre de 2011, se lanzó a nivel mundial el "Open Government Partnership" (OGP) o "Alianza para el Gobierno Abierto" (AGA)? OGP es un esfuerzo global para ampliar la frontera en la mejora del desempeño y de la calidad de los gobiernos. Esta iniciativa fue liderada por los gobiernos de Estados Unidos y Brasil y hoy cuenta con 75 miembros, 16 de los cuales son de Latinoamérica y el Caribe.
Los “Open Government Data” (OGD) o “Datos Gubernamentales Abiertos” (DGA) permiten a los ciudadanos monitorear los flujos de datos y por lo tanto mejora la responsabilidad y la transparencia del gobierno. OGD también permite que los ciudadanos sean conscientes de los problemas importantes y sean parte del proceso de tomar decisiones para hacer frente a cuestiones de política (participación-electrónica).
https://www.opengovpartnership.org
https://publicadministration.un.org/es/ogd
https://biblioguias.cepal.org/estadoabierto/aga
http://workspace.unpan.org/sites/Internet/Documents/Guidenlines%20on%20OGDCE%20May17%202013.pdf
Código para el desarrollo
https://code.iadb.org/es
https://github.com/marketplace
La evolución de los dispositivos conectados o el "Internet de las cosas" (IoT): que nos trae una abrumadora cantidad de información en tiempo real a través de los diferentes tipos de sistemas integrados.
Que va desde dispositivos personales hasta nubes privadas o públicas, actualmente se puede acceder fácilmente a una gran cantidad de servicios de almacenamiento digital gratuito o de bajo costo.
Hoy en día, los servicios de computación en nube están en todas partes y son fácilmente accesibles, una tarjeta de crédito y un navegador son todo lo que se necesita para comenzar a operar en cualquier plataforma y con la capacidad de procesamiento que se desee.
Si bien no tiene una definición única o definitiva, puesto que es un concepto en evolución, se puede definir como un campo interdisciplinario y práctico para la exploración y el análisis cuantitativo de los datos, sean estos estructurados o no, para desarrollar, entender, extraer conocimiento y formular resultados procesables. Recordemos que los datos estructurados se caracterizan por tener propiedades definidas, como los datos relacionados a una persona o a una orden de compra, mientras que su contraparte no tiene una estructura interna identificable, como las imágenes o los sonidos.
La ciencia de datos es interdisciplinaria porque incluye ciertos aspectos del aprendizaje automático, la estadística, la programación, entre otras subdisciplinas. Y es práctica porque requiere la comprensión del dominio en el que se aplica, por ejemplo, si es sobre salud, marketing o banca debes conocer el propósito, entender el "valor agregado" de la industria e identificar las restricciones o demás variables del entorno.
Entonces, la ciencia de datos se aplica sobre algún contexto y esta puede ser predictiva o prescriptiva, según a lo que queramos llegar. Con una ciencia de datos predictiva explotamos los datos históricos y transaccionales para encontrar patrones que nos digan que situaciones podemos esperar y con ese apoyo tomar decisiones con menos apuros. Y con una ciencia de datos prescriptiva no sólo se anticipa lo que sucederá, sino también se encuentra el por qué, la automatización de esto nos permitirá obtener opciones de decisión sobre cómo aprovechar una oportunidad futura o mitigar un riesgo.
La ciencia de datos es un campo interdisciplinario que se esta difundiendo bastante, pero ¿en qué consiste exactamente? Si bien se puede definir como la exploración y el análisis cuantitativo de los datos para extraer conocimiento, es menester definir un orden y detallar el proceso de descubrimiento de conocimiento.
Para ello consideremos las siguientes etapas:
- EVALUACIÓN DE OPORTUNIDADES Y COMPRENSIÓN DEL ENTORNO.
- COMPRENSIÓN Y ADQUISICIÓN DE DATOS
- LIMPIEZA Y TRANSFORMACIÓN DE DATOS
- ELABORACIÓN DE MODELOS PREDICTIVOS
- CONSTRUCCIÓN DE POLÍTICAS REGULATORIAS
- EVALUACIÓN DE RESULTADOS
- DESPLIEGUE, MONITOREO Y MANTENIMIENTO
Empezando con la EVALUACIÓN DE OPORTUNIDADES Y COMPRENSIÓN DEL ENTORNO, que desde mi punto de vista es la más importante ya que aquí es donde definimos nuestra base; ya saben: si un árbol crece torcido, torcido se queda; seguido vienen la COMPRENSIÓN Y ADQUISICIÓN DE DATOS, la LIMPIEZA Y TRANSFORMACIÓN DE DATOS, la ELABORACIÓN DE MODELOS PREDICTIVOS que es precisamente la etapa donde el Aprendizaje Automático o Machine Learning entra en acción, de esta etapa depende la CONSTRUCCIÓN DE POLÍTICAS REGULATORIAS; sí, sé que suena algo raro, pero esta es la faceta prescriptiva de la ciencia de datos; luego de esta etapa viene la EVALUACIÓN DE RESULTADOS y finalmente el DESPLIEGUE, MONITOREO Y MANTENIMIENTO.
En la primera etapa, debemos responder con certeza las siguientes preguntas: ¿Cuál es el objetivo del actual proyecto? ¿Cuál es el verdadero problema? ¿Qué variables del entorno nos afectan? y sobretodo ¿Cómo evaluar la calidad de los resultados? ya que si no somos capaces de identificar si es que estamos avanzando o no, de nada valdrá todo el trabajo que hayamos hecho.
En la siguiente etapa debemos preguntarnos: ¿Qué fuentes de datos tenemos al alcance? ¿El volumen de datos es suficiente? ¿Las fuentes de datos son variadas? y con ello me refiero a si estoy considerando tanto fuentes de datos estructurados como no. Para el perfeccionamiento de todo este proceso y las pruebas posteriores es necesario preguntarnos también si las fuentes de datos estan actualizadas o si reciben nueva información constantemente y la última y más importante pregunta que debemos resolver en esta etapa es si la fuente de datos es de confianza, si los datos son falsos o erróneos por muchos esfuerzos que hagamos no tendremos resultados productivos.
En la etapa de limpieza y transformación de datos invertiremos mucho tiempo realizando tareas que requieren buena atención, así que si tienes la atención de un cirujano y puedes controlar el tiempo, mucho mejor, en esta etapa nos encargaremos de la selección de datos y atributos relevantes, en la unión o integración de datos de diferentes fuentes, en la derivación o cálculo de atributos y en la normalización y clasificación de datos; este último punto es importante porque si no organizamos correctamente los datos considerando sus tipos y escalas, será más complicado construir representaciones gráficas de datos o un set de datos eficiente y libre de ruido.
Durante la etapa de la elaboración de los modelos predictivos resolveremos diversos problemas de Machine Learning o elaboraremos sistemas de recomendación, no es sencillo resumir esta etapa en unas palabras así que os adelanto voy a detallar mucho más sobre esto en las siguiente publicaciones.
En la siguiente etapa, según los modelos elaborados, definiremos normas o políticas que se podrían aplicar al negocio o al sistema para poder optimizar los procesos, mitigar riesgos o para condicionar situaciones favorables futuras.
Para la etapa de evaluación de resultados debemos considerar la precisión de los modelos y tener datos confiables para hacer las evaluaciones y pruebas correspondientes.
Y en la última etapa debemos aplicar las conclusiones obtenidas al negocio o sistema, así como elaborar un plan para las actualizaciones y mejoras al proceso de descubrimiento de conocimiento. En la mayoría de los casos se hace mantenimiento solo al modelo, pero también estan las situaciones en que variables o datos que no consideramos relevantes en su momento, empiezan a tomar relevancia con el tiempo.
Ahora, no todos estas etapas van exactamente una detrás de otra ya que para algunas etapas es necesario confirmar antes de dar el siguiente paso si es que realmente partimos del mejor resultado de la anterior etapa y para esto es importante ser atento con cada output o resultado.