Conoce cómo esta disciplina aporta un marco de trabajo y herramientas para alinear los equipos de ingeniería y de análisis de datos para mejorar la gestión del ecosistema de datos en la organización.
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
1. cada cual atiende su juego.
Esta disciplina aporta un marco de trabajo y herramientas
para alinear los equipos de ingeniería y de análisis de datos
para mejorar la gestión del ecosistema de datos en la organización.
DataOps:
E-book
nubiral.com
2. La disciplina de DataOps (acrónimo en inglés de "datos" y “operaciones") apunta a mejorar la
administración, la calidad y la operatividad del
ecosistema de datos.
El ritmo en la era de los negocios digitales es frenético. Las empresas necesitan ser más
ágiles que nunca para dar respuesta rápidamente a los cambios que se producen,
mantenerse competitivas y liderar en los nuevos escenarios.
Para lograr eso, es fundamental alcanzar una buena gestión del ecosistema de datos,
fundamental para extraer información y conocimiento de esos activos que ya existen en
nuestra organización.
El objetivo de este e-book es que el lector logre comprender a fondo de qué se trata esta
práctica, qué desafíos nos permite enfrentar, cuáles son sus beneficios y de qué herramien-
tas disponemos para poder capitalizarla.
01. Introducción.
Página 1 | DataOps: cada cual atiende su juego. #WeAreNubiral
3. 02. ¿Que es DataOps?
Página 2 | DataOps: cada cual atiende su juego. #WeAreNubiral
DataOps es:
· Un marco de trabajo que nos permite operar y gestionar cargas de trabajo de datos (data
workloads), con énfasis en mejorar la calidad y acelerar el tiempo de entrega de análisis de
datos en las organizaciones.
· Esto se logra a través de la implementación de prácticas de DevOps,
Agile Development y Lean Manufacturing, que se basan en un enfoque
colaborativo e intersectan personas, procesos y tecnología.
· A su vez, así se habilita una mayor integración y colaboración entre los equipos de datos,
operaciones y desarrollo de software, lo que lleva a la entrega más rápida y eficiente de
análisis de datos de alta calidad.
4. 03. Un ejemplo intuitivo para
entender DataOps.
Página 3 | DataOps: cada cual atiende su juego. #WeAreNubiral
Supongamos una tarea sencilla: el control de las finanzas de nuestro hogar mediante una
planilla. Si le sumamos reportes de gastos, proyecciones y escenarios con simulaciones, se
vuelve más compleja.
Si, además, establecemos una planilla para cada miembro del grupo familiar, que recibirá
reportes y análisis de sus consumos, la situación podría volverse inmanejable. La tarea es
ahora lenta, pesada y altamente propensa a errores.
Esta situación, llevada a una escala mucho mayor, es el pan de cada día para las
organizaciones. DataOps aporta procesos adecuados y herramientas claras.
Hoy se manejan volúmenes importantes de datos que muchas veces se procesan con
herramientas de big data. Estas deben lidiar con una gran variedad de orígenes de datos y
tipos de consumidores con necesidades distintas de acceso y extracción de valor.
Entre los tipos de consumidores existen:
· Analistas de datos.
· Científicos de datos.
· Ingenieros de datos.
· Equipos de desarrollo de software.
· Equipos de control y aseguramiento de la calidad.
No tener ni el marco de trabajo ni herramientas para gestionar esta situación le quita
agilidad a la organización. Además, dificulta la construcción de productos, el análisis de los
datos y el desarrollo de modelos predictivos, sea con técnicas estadísticas o con machine
learning.
¿El resultado? Menor capacidad de extraer valor de los datos y dificultad para llegar al
mercado con los productos adecuados en el momento correcto.
5. Página 4 | DataOps: cada cual atiende su juego. #WeAreNubiral
Como mencionamos, crece aceleradamente la complejidad en la gestión de datos en las
organizaciones. En este contexto, existen situaciones particulares que las organizaciones
deben sortear. De no hacerlo, corren riesgo de no contar con la agilidad necesaria para
adaptarse. Algunos de estos desafíos son:
· Los perfiles unicornios, aquellos que logran hacer de todo, son una especie en extinción.
Hablamos de soluciones basadas en datos. Necesitamos perfiles que entiendan de
infraestructura, de herramientas de procesamiento, de métodos de ingeniería para construir
soluciones y del negocio. Es imposible pensar que eso pueda hacerlo una persona. DataOps
apunta a separar las responsabilidad de los roles que hacen a los equipos. Por un lado, los
técnicos y, por otro, los del negocio. La práctica apunta a dar herramientas a ambos perfiles
para que se puedan integrar, comunicar y coordinar.
· Comunicación y coordinación entre equipos.
Muchas organizaciones tienen equipos de Ingeniería de Datos y de Análisis de Datos (o de
Inteligencia de Negocio). Estos últimos suelen lanzar muchos requerimientos para los
primeros. De esta manera los equipos de ingeniería se vuelven cuellos de botella para
desarrollar productos de datos (sean aplicaciones, análisis o modelos de machine learning).
DataOps apunta a que los equipos de ingeniería trabajen en la infraestructura de
procesamiento y en la ingeniería de datos, para brindar herramientas a los analistas y que
ellos puedan hacer experimentos, análisis, investigaciones y desarrollos sin fuerte dependen-
cia del otro equipo.
· Agilidad para la gestión de ambientes.
Es común que las organizaciones tengan dificultades para gestionar, mantener y actualizar
ambientes de datos por fuera del ambiente productivo. Así, se ocasionan dificultades a la
hora de desarrollar nuevas aplicaciones, reportes, dashboards, lakehouses o modelos de ML.
Esto se debe a que implica el esfuerzo explícito de generar los componentes de datos para
hacer pruebas, desde las unitarias hasta las de integración y performance.
Por si fuera poco, además afecta a la replicabilidad de estos procesos de creación de
ambientes, que muchas veces termina siendo manual y, por ende, muy propenso a los
errores.
04. ¿Qué desafíos nos ayuda
a atacar DataOps?
6. Página 5 | DataOps: cada cual atiende su juego. #WeAreNubiral
Las actividades claves dentro de la práctica de DataOps incluyen:
· Implementar un repositorio de código e integrar con herramientas de CI/CD. Contar
con un repositorio de código y herramientas de CI/CD es clave en el andamiaje de DataOps.
Esto permite al equipo de analistas trabajar en la lógica y las transformaciones y subir el
código y los artefactos al repositorio. También, dejar que la herramienta de CI/CD continúe
con el flujo para generar el artefacto a ser desplegado en un entorno productivo.
· Infraestructura como código. Otra pieza clave es disponer de la infraestructura de
procesamiento como código sobre la cual puedan trabajar el equipo de ingeniería de datos.
Disponibilizar plantillas (templates) y artefactos reutilizables que nos faciliten crear
ambientes y deslinden a los analistas de la responsabilidad de generar componentes de
infraestructura.
· Implementar buenas prácticas. Embebido en el código de infraestructura se recomienda
implementar buenas prácticas. Esto incluye temas críticos de seguridad. Por ejemplo, a la
hora de crear una bucket (sin que importe dé qué nube hablamos) se puede bloquear el
acceso público y forzar el encriptado del contenido.
05. Poniendo DataOps en práctica.
7. Página 6 | DataOps: cada cual atiende su juego. #WeAreNubiral
· Provee herramientas y prácticas que permiten separar mejor las
responsabilidades.
· Cada perfil se enfoca mejor en su área de conocimiento.
· Los de ingeniería se concentran en la infraestructura para el procesamiento, y proveen el
andamiaje para que el proceso sea lo más automatizado, transparente y sencillo posible.
· Los equipos de analistas y de desarrollo de software se dedican a la lógica del negocio para
extraer valor de los datos y buscar nuevas relaciones e insights.
· Los analistas no deben preocuparse de aprovisionar la infraestructura de cómputo, el
procesamiento ni los mecanismos de orquestación para que los procesos de transformación
corran exitosamente.
· Como consecuencia, es esperable que estas prácticas y herramientas mejoren la
comunicación y coordinación entre equipos.
· Por ejemplo, ante un fallo en un pipeline de CI/CD, ambos equipos tienen completa
visibilidad de cuál fue el incidente para investigar las causas de manera acorde.
06. Beneficios de DataOps:
separación de responsabilidades, mejoras en
la comunicación y coordinación.
8. Página 7 | IA Generativa y servicios cognitivos: tierra de oportunidades para las organizaciones. #WeAreNubiral
· Facilidad para gestionar ambientes.
Implementar pipelines de CI/CD es un componente fundamental de la práctica de
DataOps. Es posible llevar la automatización un paso más allá y lograr que los componentes
de infraestructura sean tratados también como código (IaC por sus siglas en inglés).
Así, los equipos de ingeniería de datos pueden facilitar los scripts para generar ambientes
de prueba con mayores niveles de velocidad, agilidad e independencia. Todo, de manera
eficiente en costos.
Estos nuevos ambientes serán aislados y seguros, como para que otros equipos puedan
realizar las pruebas pertinentes y luego desecharlos. Esta práctica, clave en el desarrollo
tradicional de aplicaciones, es ideal para las organizaciones que quieran maximizar el valor
que obtienen de sus datos.
· Mejoras en la calidad.
De la mano de CI/CD e IaC, se logra replicabilidad en los procesos de desarrollo de nuevas
soluciones basadas en datos. Esto es altamente deseable e impacta en la calidad de los
resultados obtenidos, ya que ayuda a reducir errores manuales.
Los equipos consumidores de datos pueden así trabajar en validar los resultados y no en los
procesos de infraestructura realizados para construir los ambientes de prueba. Además,
alienta a implementar buenas prácticas, reutilizar plantillas (templates) y unificar criterios.
Los equipos obtienen provecho de los repositorios de código y librerías, arquetipos y todos
aquellos artefactos predefinidos que estén alineados a las buenas prácticas de la industria y
a las necesidades puntuales de la organización.
· Mejoras en el gobierno y en la seguridad.
Desarrollar infraestructura como código, gestionar de forma centralizada los roles y
permisos, reutilizar librerías y arquetipos… son todas prácticas que simplifican el gobierno.
Además, tienen como consecuencia directa una mejora en la gestión de la seguridad (por
ejemplo, cuando se dispone de actualizaciones centralizadas de librerías).
07. Otros beneficios de DataOps.
9. Página 8 | DataOps: cada cual atiende su juego. #WeAreNubiral
Los datos son un recurso clave para la competitividad de las empresas. Contar con
herramientas y procesos para gestionar un activo tan importante puede hacer la diferencia
para afrontar cambios, transformarse digitalmente y liderar en escenarios futuros.
Día a día, las empresas que encuentran nuevas formas de extraer valor de los datos son las
que generan disrupciones en los mercados y en los marcos competitivos.
Así, es esperable entonces que las prácticas como DataOps ya sean consideradas
mainstream y que las herramientas y frameworks disponibles para implementarlas sigan
proliferando y madurando acorde a las necesidades de las organizaciones.
Entre los beneficios que aporta para el negocio se cuentan:
· Mejoras en el time-to-market. Mayor eficiencia en el proceso de creación de aplicaciones,
mayor alineamiento entre los equipos de desarrollo de software y de operaciones.
· Eficiencia en la utilización de recursos y conocimientos escasos. Gracias a la división clara de
roles y responsabilidades, donde cada miembro del equipo hace lo que realmente debe y
sabe hacer.
· Mejoras en los productos y servicios. Todo lo anterior impulsa una mayor calidad.
¿Te interesa capitalizar al máximo los datos de tu organización? Nuestros expertos están
esperando tu contacto para ayudarte: ¡Agenda tu reunión!
08. Conclusiones.