Este documento describe la metodología DataOps, que reúne personas, procesos y tecnologías para optimizar los flujos de datos y satisfacer las demandas actuales. DataOps permite que la cadena de suministro de datos sea más rápida, eficiente, confiable y flexible mediante la colaboración en toda la empresa. El documento también presenta modelos de DataOps y principios como gestión programática, integración continua, control de versiones y colaboración distribuida.
1. METODOLOGÍA DATAOPS.
Una nuevay poderosadisciplinaque reúne apersonas,procesosytecnologíasparaoptimizar
lascanalizacionesde datosysatisfacerlasconsiderablesdemandasactuales.
DataOpspermite que lacadenade suministrode datosseamásrápida,más eficiente,más
confiable ymásflexible. DataOpscrea,yrequiere,colaboraciónentodalaempresa,desde TI
hasta expertosendatosyconsumidoresde datos.
¿CÓMO IMPLEMENTO DATAOPS?
1. Evaluary ajustar sucartera de tecnologíayprocesospara eliminarlaredundanciay
consolidarel control dentrode susequipos.
2. Consolide entresusequiposparafomentarel intercambioyreducirlasinconsistencias
que obstaculizanlacolaboración.
3. Integre lasprácticasde DataOpsensus equiposycanalizacionesde datos.A menudo,
estaes unaetapa difícil enlaque la colaboraciónrequiere que sugente use procesos
desconocidosyconfíe enotrosequiposconlosque no hantrabajado antes.
4. Automatizarsusprocesos.Laautomatizaciónhace que suscanalizacionesde datos
seanmás eficientesysusoperacionesde datosmásefectivas.
5. Brindara losconsumidoresde datoslacapacidadde servirse así mismos.Aquíes
donde losdatosse conviertenrápidamente eninformaciónyconocimientopara
liberartodoel poderde susDataOps.
Fuente:https://www.hitachivantara.com/en-us/insights/dataops-insights/dataops/what-is-
dataops.html
1. Identificarel estado actual de la empresa:Conocerel grado de madurezde la
organización, qué datostiene laempresa,dóndeestánalmacenados,de qué tiposde
fuentesprovienen,quiénaccede aellosycómolohace, sucalidad,la documentación
de procesosde captura de datos,el flujoenlossistemasactuales,otodolorelativoa
la seguridad.
2. Identificarlos requerimientosde datoso casos de uso: Quiénesnecesitandatos,qué
datosrecibenactualmente yenqué formato,lafrecuenciade uso,olasoperacioneso
transformacionespropiasaque se veansometidoslosconjuntosde datos.
3. Priorizar las necesidadese instruir:En estosprimerospasosesimportante formarun
grupopequeñode personasparaempezara constituirlasprácticasde DataOps y
seguirsusprincipios.
4. Definiruna estrategia de datos: Esto permitiráque laorganizacióntengaa todossus
equipos“enlamismapáginay hablandoel mismoidioma”.Losequiposde datosse
irán desarrollandoyesimportante simplificaral máximolatransmisiónde todaslas
pautasque tienenque verconel uso de estos,para así evitarproblemaspor
desconocimiento.
5. Entregar resultados y medir:DataOps esun procesoiterativoque se apoyaenlas
prácticas ágilesyenla automatizaciónparapublicaroentregarunconjuntode datos
enperíodoscortos y generarvalorconstantemente.
6. Iterar: DataOps utilizalasprácticaságilesdel desarrollode softwareparalaentrega
iterativade conjuntosde datosyanalítica.De estaforma,en lasiteracionesnosolose
hacennuevasentregasencada sprint,sinoque tambiénse utilizarála
retroalimentaciónde losequiposde datosylosusuariosde negocioconun triple
2. objetivo:refinarrequerimientosde datos,eliminarocrear pasosenla operación,y,
por supuesto,optimizar.
7. Crecer:Ahora que hayuna estructuraque generalosanálisisylosconjuntosde datos
como un proceso,esmás sencillocrecer.Estose debe aque ya hay unas pautas
establecidasparaañadirnuevosmiembrosal equipo,aceptarnuevosrequerimientos
de datos o ampliarlacoberturaa nuevasáreaso líneasde negocio,segúnla
priorizaciónque se hizoenel pasotres (literal c).
https://www.digitalbizmagazine.com/primeros-pasos-con-dataops/
MODELOS DE DATAOPS
En el modelode Thusoo:
Los científicosde datoso analistasde datosestánintegradosenlasunidadesde negociotales
como finanzas,ventas,marketing,etc.Trabajanconlosresponsablesdel negociopara
identificarpreguntas,identificarlosconjuntosde datosque debenanalizarse yluego
traducirlosa SQL (lenguajede consultaestructurado)oa un lenguaje mássofisticado.El
trabajoluegose entregaal equipode datos.
En el modeloque ofrecenEllenFriedmanyTedDunning,giranalrededorde «organizar
equiposentornoa objetivosrelacionadosconlosdatospara lograr untiempomásrápido».
Sugierenque losmiembrosdel equipode DataOpspuedenprovenirde operacionesde
productos,ingenieríade software,arquitecturayplanificación,cienciade datos,ingenieríade
datosy gestiónde productos.
3. Data as Code esun enfoque que brindaalosequiposde datoslacapacidadde procesar,
administrar,consumirycompartirdatosde la mismamaneraque lo hacemosconel código
durante el desarrollode software.Dataas Code permite alosusuariosfinalestomarel control
de sus datospara acelerarlas iteracionesyaumentarlacolaboración.
Se basa en muchasde las mismascapacidadesenlasque se basanlas metodologíasde
desarrollode software ágiles,que incluyen:
Gestiónprogramática
Integracióncontinua
Despliegue continuo
Control de versiones
embalaje
Clonaciónyramificación
Comparandoy fusionando
Trazabilidadylinaje
Movilidadyaccesodesde cualquierlugar
Gestionadoporel usuariofinal
Colaboracióndistribuida
Gestiónprogramática
Esta es lafunciónbásicasubyacente que realmente habilitaDataas Code.Realizaroperaciones
sobre losdatos comosi fueranuncódigo,accedera ellosymodificarlos,moverlosy
transformarlos.
Integración continuay despliegue continuo
Al igual que ocurre con el código,variosdesarrolladores,usuariosyaplicacionesconfíanenlos
datos.Recopilamos,transformamos,consumimosyactualizamosdatosconstantemente.A
medidaque integramoslascanalizacionesde datosconnuestrasaplicacionesydesarrollo de
software,necesitamosunmodelode CI/ CD (integracióncontinuayentregacontinua) similar
para facilitarlauniónde estasramas con un métodoautomatizadoimpulsadoporprocesos.
Control de versiones
A medidaque recopilamos,transformamos,consumimosyactualizamosnuestrosdatos,
necesitamosrealizarunseguimientode lasmúltiplesiteracionesycopiasparagarantizarla
autenticidad,permitirlacolaboraciónygarantizarla reproducibilidad.
EMBALAJE
Los datosno solovivenenunaúnicaubicaciónpor sí solos.Necesitamovilidadyportabilidad
entre sistemas.AsícomoloscontenedoresDockerproporcionaronunformatoestandarizado
simple paraempaquetarcódigode software ybibliotecas,losdatosnecesitanunformatode
paquete similar.
4. Clonaciónyramificación
Estamosfamiliarizadosyconfiamosenel conceptode múltiplescopiasyramas del códigode
software confinesde colaboración,innovaciónyrevisiones.Losdatostienenrequisitos
similaresamedidaque escalamoslacolaboraciónentreparesyaplicaciones.Estoes
especialmentenecesarioyaque adoptamosunprocesode CI / CD para permitirlamejorade
losdatos.
Comparar y fusionar
A medidaque lossistemasevolucionanyrecopilamoscadavezmásdatos,necesitamosun
mecanismosimpleparapermitirlafusiónde datosentre versionesyramas.Ya seaque
estemosdepurandoproblemasde desarrollofrente aproblemasde producción,
implementandoaplicacionesypaquetesde datosactualizadosomejorandolosdatoscon
segmentosrecientemente actualizados,necesitamosunprocesoautomatizado,repetiblee
inteligenteparaladiferenciaciónylaconsolidación.
Trazabilidadylinaje
Los datospuedenevolucionarindependientemente delcódigo,perosurelaciónsigue siendo
de simbiosis.Se requiereprocedenciaparagarantizarlaprecisión,coherenciay
reproducibilidadde losdatosyel código.Esto esespecialmente ciertoenentornosregulados
donde a menudohayauditoríasfrecuentes.
Movilidadyaccesodesde cualquierlugar
A medidaque nuestromundose vuelve máspequeñoynuestroalcance aumenta,nos
implementamosmásenel borde,loque requiere que losdatosseanmóviles,portátilesy
ágiles.El movimientode datosrápidoysimple debe superarlagravedadde losdatospara que
lasactualizacionesse puedancompartirrápidayfácilmente,loque permitelaimplementación
encualquierubicaciónydispositivo.
Administradoporel usuariofinal
Así como DevOpshaempoderadoal desarrollador,lanube haempoderadoal propietariode la
aplicación,ahoraesel momentode que losusuariosde laaplicacióntenganel poderde tomar
el control de sus datos.Al dejarde dependerde losadministradoresparafacilitarel accesoyel
movimiento,losusuariospuedenrecuperar,accederycontrolarsusdatos.
Colaboracióndistribuida
Las aplicaciones,lasempresas,losusuariosylosequiposraravezse encuentrantodosenla
mismaubicación.Cadavezmás,estamoscoordinandoequiposdispersosgeográficamentey
5. asociándonosconotras organizaciones.Permitirunacolaboraciónseguraentre estosgrupos
acelerael desarrolloylainnovación.
Datos democratizados
Estamosdemocratizandolagestiónde datosaúnmás arriba enla pilade aplicacionesconla
plataformade gestiónde datosRok. Es genial que losingenieros de DevOpsylosingenieros
de confiabilidaddel sitio(SRE) yanodebandependerde losflujosde trabajobasados enITIL
de estilode solicitudyesperaparalosadministradoresde infraestructura,peroloque sería
aún mejoresque el usuarioreal de losdatos tome el control.