SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Desafíos no Tecnológicos para
Implementar Big Data.
Una mirada desde el Data Governance y Data Management
Si su organización está en la etapa de planificación, o recién comenzando a utilizar y
explorar estas herramientas, es un buen momento para considerar algunos aspectos
que no necesariamente están relacionados a la tecnología:
¿Su solución Big Data está considerando las leyes de protección de datos personales en la
elaboración de los modelos de datos, analítica y procesos de negocio?.
¿En la definición de su estructura organizacional consideró la separación de roles entre
Data Governance y Data Management, y la creación de distintas instancias formales para
resolver los conflictos de datos?
¿Está considerando la calidad de datos como parte integral del proceso, o solamente en
etapas tempranas de adquisición de la información?
¿tiene una estrategia y roadmap definidos para llegar a ser una empresa data-driven?
Si la respuesta es negativa en alguna de estas preguntas, entonces le interesará continuar
leyendo este documento.
Autor: Sebastián Rodríguez Robotham
Marzo 2018
LinkedIn: ​https://www.linkedin.com/in/sebasrodrob/
1
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Introducción
Big Data permite trabajar con datos de una forma que antes no era posible, con este
ecosistema de herramientas podemos disponer de más fuentes de información, de distinto
tipo (estructurada y no estructurada) y con un mejor tiempo de respuesta que una solución
tradicional. Sin embargo, la tecnología en sí misma no es suficiente para solucionar todos
los problemas y desafíos, en consecuencia necesitamos una estrategia que nos permita
maximizar el uso estos recursos.
Algunos de estos desafíos están relacionados con ​las nuevas regulaciones de protección
de datos personales, las cuales son cada vez más exigentes​, en el caso de Europa la
nueva ley entra en vigencia el 25 de mayo del 2018 ​(Reglamento (UE) 2016/679 Del
Parlamento Europeo y del Consejo, mayo 4, 2016)​, es imperativo tener un mapeo exacto de
los datos sensibles de los clientes, las personas tienen ahora nuevos derechos sobre sus
datos (rectificación, olvido, portabilidad), y pronto veremos algo similar en nuestros
territorios, donde la calidad de la información pasará de ser algo “deseado” a “obligado”. ​Por
otro lado los consumidores son cada vez más exigentes​, y esperan que la empresas les
ofrezcan productos y servicios personalizados, que se basen en sus preferencias actuales,
por tanto ya no basta con generar campañas de marketing masivas e invasivas, que utilicen
solo la historia de consumo. Contar con información actualizada, validada y en un formato
fácil de utilizar por los Data Scientist será primordial.
Hoy más que nunca las empresas deben ser Data-Driven ​(Melo, febrero 27, 2018)​, lo que
en la práctica significa que las actividad y toma de decisiones de una empresa deberán
estar basadas en la utilización de datos en vez de la intuición o la experiencia personal
(WikiPedia, febrero 20, 2018)​, y acorde a TDWI, estas decisiones pueden ser a nivel
estratégico (por ejemplo decisiones relacionadas al futuro de la organización), a nivel táctico
y/o a nivel operacional (decisiones del día a día) ​(Fern Halper, 4Q 2017) . Esto que en teoría
es bastante sencillo, llevarlo a la práctica podría ser una tarea realmente compleja sin la
correcta estrategia de implementación.
De acuerdo a un estudio publicado por TDWI en el cuarto trimestre del 2017,
“aproximadamente un tercio de los encuestados no cree que estén cerca de ser data-driven”
(Fern Halper, 4Q 2017)​, y según los mismos encuestados, algunos de los principales
factores que impiden llegar a este estado son ​“la falta de estrategia corporativa y apoyo
de ejecutivos”​, ​“dificultad de acceder a datos relevantes”​, ​“falta de skills”​,
“problemas de seguridad y gestión de datos”​ e ​“insuficiencia en calidad de datos”​.
Basado en lo anterior, para convertirse en una empresa Data Driven es necesario trabajar
seriamente sobre los datos, lo que en palabras sencillas se traduce en elaborar un
RoadMap que considere la priorización actual y futura, adquirir los datos (desde fuentes
internas y externas), limpiarlos, validarlos y dejarlos disponibles en los formatos adecuados
para su correcta y sencilla explotación (modelos tradicionales, reportes, ML, IA, Análisis).
Esto implica desarrollar múltiples entornos (batch, real time, near real time), con diversos
modelos de datos (relacionales, dimensionales, datos en bruto) y varias herramientas que
2
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
se acomoden a los proyectos operacionales, tácticos y estratégicos. En consecuencia, “la
tecnología no es el único requisito suficiente para convertirse en una empresa Data
Driven, ya que no se trata solo de un proceso de digitalización, sino de
transformación” ​(computerworld.es, mayo 30, 2017)​, ​el desafío entonces es elegir
correctamente “el cómo”, es decir, las estrategias que permitan gobernar los datos a
un nivel corporativo.
Las organizaciones que centren sus esfuerzo en mejorar la administración y gobierno de los
datos tendrá una ventaja competitiva frente al resto de la industria, no es suficiente con
generar un modelo aislado de Machine Learning que prediga el próximo mejor producto, o
que genere una buena recomendación, eso no bastará para ser una organización
Data-Driven ​(computerworld.es, mayo 30, 2017)​. Tomar en serio este cambio de paradigma
es clave para explotar todo el potencial de la tecnología, y se debe partir por reconocer que
los datos son uno de los activos más importantes de la organización, y como tal deben ser
resguardados, asegurados, validados y maximizados ​(DAMA International, 2017)​. Como
consecuencia, los datos podrán ser utilizados para generar optimización de los modelos de
negocio, para monetizarlos y hacer nuevos negocios, o ambos ​(Turner, Octubre 25, 2017)​.
Consideraciones y Desafíos
En primera instancia se podría pensar que el principal desafío de esta era de Big Data es la
tecnología y conseguir los datos, pero en base a lo indicado anteriormente, y a lo señalado
por Hugo Moreno ​(Moreno, Junio 5, 2017; SAS, Febrero 22, 2018) y Bridget Botelho
(Botelho, Octubre, 2017) el problema no está en la tecnología ni el acceso a la información,
sino en cómo usar y administrar el exceso de datos al cual pueden acceder las
organizaciones, y luego transformarlo en ventajas competitivas y oportunidades de negocio
diferenciadoras.
La definición del gobierno de datos y su posterior implementación requiere considerar
diversas dimensiones en los entornos de datos, que van desde los legales y normativos,
seguridad de la información, acceso y uso, entre otros.
Consideraciones Legales
Las leyes relacionadas a la protección de datos personales ​(Reglamento (UE) 2016/679 Del
Parlamento Europeo y del Consejo, mayo 4, 2016)​(Iberoamericana, junio 20, 2017) entrega
el control de los datos a las personas, no importa si estos fueron creados y almacenados en
la organización, las empresas sólo podrán utilizar los datos personales de sus clientes y/o
futuros clientes cuando tengan su consentimiento interesado y explícito (señalando los fines
específicos y por cuánto tiempo serán utilizados), o cuando se requieran para hacer cumplir
un contrato u obligación legal. En el caso de no tener consentimiento, sólo se podrán utilizar
los datos sin la posibilidad de identificar específicamente a qué cliente corresponden
(anonimización de los datos).
3
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Para dar cumplimiento a estas leyes, será necesario implementar un robusto gobierno de
datos que permita asegurar el cumplimiento a los nuevos derechos:
● acceso de los datos​: saber para qué fines será el tratamiento, plazos de utilización,
existencia de decisiones automatizadas. También podrán solicitar una copia de
estos datos, obviamente las empresas estarán obligadas a entregarlos.
● rectificación​: las personas podrán solicitar que se cambien los datos en caso de no
ser exactos o completos
● supresión​: que se traduce en “derecho al olvido”, el cliente en cualquier momento
podrá retirar el consentimiento otorgado, y solicitar que los datos no sean utilizados.
● limitación del tratamiento​: las personas podrán impugnar la exactitud de los datos
personales y limitar su uso
● portabilidad​: las personas podrán solicitar sus datos personales a las empresas, los
cuales deberán ser entregados en formatos estructurados, incluso llegando a ser
transferidos de empresa a empresa.
● oposición​: los clientes podrán oponerse al tratamiento de sus datos personales para
la mercadotecnia directa, incluida la creación de perfiles.
● decisiones automatizadas​: las personas podrán elegir no ser objeto de decisiones
basadas únicamente en tratamiento automatizado
Para el caso de la información que no proviene del cliente (por ejemplo información
comprada a proveedores de datos u obtenida desde la web), las personas podrán solicitar
detalles relacionados a esos datos, como por ejemplo la procedencia, los fines para los
cuales serán utilizados, y si ese uso será automatizado o no.
Para dar cumplimiento a estas nuevas obligaciones, la ley exige la creación de unidades
específicas, que sean las encargadas de responder, en tiempos adecuados, los
requerimientos de las personas. En consecuencia, será indispensable crear modelos de
datos que permitan administrar y responder a estos nuevos desafíos. La era de los silos
desconectados de información en las organizaciones llegará a su fin cuando las leyes en
cada geografía inicien su vigencia.
Consideraciones Normativas
Hay industrias que por lo delicada de su naturaleza son altamente reguladas. Por ejemplo la
industria financiera, de salud y telecomunicaciones tienen normativas específicas en
relación al tratamiento y uso de los datos, en la mayoría de los casos el acceso a los datos
transaccionales de las personas está restringida solo a los funcionarios que, debido a sus
responsabilidades, deben procesar y/o visualizar dichos datos. En el caso de la industria
financiera en Chile se debe tener trazabilidad de los datos utilizados para la creación de
modelos de provisiones, asegurar que estos datos no han sido alterados en forma alguna
desde el sistema origen hasta la creación del modelo, y además la información ha sido
validada por una unidad independiente al área que crea los modelos. Además de lo anterior
debe existir documentación y acceso a los datos para que cualquier entidad independiente
4
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
pueda hacer la réplica del proceso ​(COMPENDIO DE NORMAS CONTABLES, febrero 27,
2018)​.
Consideraciones de Seguridad.
Así como el dinero es resguardado en cajas fuertes, con mecanismos de acceso y sistemas
de contabilidad, en la era Big Data se requiere que los datos sean tratados de una forma
similar.
Según diversos estudios, la mayor cantidad de fugas de información de las organizaciones
no proviene de ataques externos, sino que son los mismos funcionarios los que copian las
bases de datos de clientes y hacen uso indebido de ellos. Es como si dejáramos nuestro
principal activo al alcance de cualquier persona sin autorización a acceder a ella.
La encriptación, controles de acceso y réplicas de datos en distintas geografías son
elementos básicos a considerar ​(Loshin, 2017)​, así como también la anonimización para
análisis y enmascaramiento de los datos sensibles en la capa de visualización.
A nivel de países también es un tema sensible, en el caso de Chile existe una política
nacional de ciberseguridad, donde se establece que “El país contará con una infraestructura
de la información robusta y resiliente, preparada para resistir y recuperarse de incidentes de
ciberseguridad, bajo una óptima de gestión de riesgos” (pág. 16) ​(de Chile, n.d.)​, se
reconoce que la información estratégica y la infraestructura que la soporta debe ser
protegida en forma adecuada, las empresas deben asumir este desafío acorde al daño que
la fuga o mal uso de los datos puedan generar a sus clientes (y eventualmente futuros
clientes).
Consideraciones en Calidad de Datos.
Según SAS, cerca del 40% de los procesos estratégicos fallan por problemas en la calidad
de datos ​(SAS, Febrero 22, 2018)​, y de acuerdo a TDWI, el DQ es el quinto mayor
problemas que las empresas declaran como obstáculos para convertirse en Data-Driven
(Fern Halper, 4Q 2017)​. Es imperativo que las iniciativas de calidad de datos sean
abordadas en todo el ciclo de vida de los datos, y no solo en las revisiones tradicionales
sobre algunos conjuntos de datos. Como indica David Loshin, “necesitamos repensar qué
significado tiene la calidad en el contexto de un ambiente BigData analítico. A menudo,
igualamos el concepto de calidad de datos con nociones discretas, tales como corrección o
vigencia de datos” ​(Loshin, octubre, 2017)​. Para evitar que lo anterior ocurra, debemos
implementar distintas estrategias de calidad de datos.
En consecuencia, debemos considerar aspectos tales como perfilado,
relaciones/dependencias, ineficiencias/redundancias (Data Discovery) y completitud,
conformidad, consistencia, precisión, duplicación, integridad y ratios ​(PowerData, n.d.)​.
5
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Adicionalmente, y reconociendo que problemas con la calidad de datos puede generar
daños a las personas, las leyes relacionadas a protección de datos personales incorporan
dentro de sus principios la calidad, y señalan que las organizaciones “adoptarán las
medidas necesarias para mantener exactos, completos y actualizados los datos personales
en su posesión, de tal manera que no se altere la veracidad de éstos conforme se requiera
para el cumplimiento de las finalidades que motivaron su tratamiento” (pág. 15)
(Iberoamericana, junio 20, 2017)​, en la misma línea el proyecto de ley en Chile define que
“los datos personales deben ser exactos y, si fuera necesario, completos y actuales, en
relación con los fines del tratamiento” ​(“Proyecto de Ley que regula la protección y el
tratamiento de los datos personales y crea la Agencia de Protección de Datos Personales,”
n.d.)​, en el caso de Perú, el artículo 8 indica que “Los datos personales que vayan a ser
tratados deben ser veraces, exactos y, en la medida de lo posible, actualizados, necesarios,
pertinentes y adecuados respecto de la finalidad para la que fueron recopilados” ​(Perú
2011)
En resumen, la calidad de datos dejará de ser sólo una buena práctica, sino que también
será un requerimiento legal, por tanto será necesario desarrollarlo en todas las etapas del
proceso, y no sólo en el inicio del proceso de carga de datos.
Consideraciones de Almacenamiento
Está claro que la capacidad de almacenamiento en la era del Big Data no es un punto de
preocupación. Sin embargo, tomar la decisión equivocada para almacenar la información
puede perjudicar el rendimiento, y eventualmente encarecer la solución y administración del
ambiente.
HDFS es a la fecha el sistema de almacenamiento distribuido más popular, está diseñado
para almacenar grandes volúmenes de datos, en bloques que por lo general parten desde
los 128MB. Guardar ficheros más pequeños que el bloque hará que el sistema no se use de
forma eficiente, por tanto es necesario conocer el volumen, tipo de datos y usabilidad antes
de determinar la mejor alternativa de almacenamiento.
Otra consideración es el tipo de estructura a utilizar para el almacenamiento, dependiendo
del uso podemos almacenar los datos en algún formato columnar, particionado y
comprimido que optimiza las lecturas, un formato ORC con la opción transaccional activa
para uso de transacciones ​(HortonWorks.com, n.d.)​, o simplemente un CSV si los ficheros
son pequeños.
Hay que tener en cuenta que HDFS no es la mejor opción para todos los escenarios, y se
deben evaluar considerando el almacenamiento directo en FileSystem tradicionales, bases
de datos SQL o bases de datos NoSQL, dependiendo de cada caso.
6
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Consideraciones en Modelos de Datos
Almacenar los datos como RAW es la forma más rápida de explotar las bondades del
ecosistema Big Data, generar analytics directamente desde los datos RAW es una opción
válida, pero por desgracia siempre será necesario hacer algunos retoques a la información,
por tanto las reglas de negocio y corrección de datos quedarán incrustado dentro del código
del modelo, con poca opción de reutilizar ese tratamiento de datos.
Si almacenamos los datos masterizados (es decir, con lógica de negocio, aplicando DQ y
validaciones) estaremos seguros que cualquier persona y/o proceso podrá tomar los datos
limpios, y no habrá necesidad de transformarlos en el modelo, aunque esta estrategia
requiere más tiempo (modelo de datos normalizado).
Si ahora necesitamos consolidar la información de alguna entidad (por ejemplo datos de
clientes), deberemos crear un modelo dimensional que permita administrar una versión
única de la verdad a nivel corporativo, y esto requiere mucho conocimiento del negocio, de
los sistemas y, obviamente, más tiempo.
No hay un mejor modelo de datos en sí mismo, el reto es usarlos adecuadamente en
función de las características propias de cada uno de ellos, y teniendo además en cuenta
que las estrategias de almacenamiento están estrechamente relacionadas.
Consideraciones de Políticas y Documentación
La forma de tangibilizar todos desafíos planteados previamente es a través de la
documentación de los procesos y la definición de políticas.
Una buena documentación debe incluir elementos tales como la captura, almacenamiento,
acceso y uso de datos, de tal forma que sirva para garantizar la continuidad operativa del
negocio. También debe permitir el cumplimiento de los requerimientos legales y normativos.
Dentro de la documentación se deben incluir los diccionarios de datos y su trazabilidad
desde los sistemas origen hasta los modelos dimensionales, pasando por la creación de
modelos y uso en reportes. Esta documentación debe ser una base de conocimientos, por
tanto debe mantenerse “viva”, es decir, los cambios en los ambientes deben estar siempre
reflejados y actualizados.
En el caso de las políticas, deben ser establecidas por el Chief Data Officer ​(DAMA
International 2017)​, y deben delimitar claramente los ámbitos de acción de las personas en
la organización, establecer sus atribuciones en términos de modificar/actualizar las
definiciones de los datos, los niveles de acceso a información sensible/confidencial y
establecer los roles y responsabilidades.
7
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Consideraciones de Estructura Organizacional y Cultura
Como ya lo hemos señalado, el desafío está lejos de ser solo un cambio tecnológico, y será
necesario repensar la estructura organizacional que soporta estas actividades. El cambio
cultural es, tal vez, el más complejo de llevar a cabo, lograr que las personas dejen de
tomar decisiones basadas sólo en sus conocimientos y prejuicios, y que comprueben las
hipótesis en datos será una larga tarea.
Dependiendo del tipo de organización se deben considerar, a lo menos, los requerimientos
legales y normativos. Es importante mantener una segregación de funciones en las áreas
que hacer las definiciones y políticas (Data Governance) y las áreas que desarrollarán y
administrarán la información (Data Management). El tipo de estructura a utilizar puede ser
Centralizada, Replicada o Federada ​(DAMA International 2017)​, y junto a ello será
necesaria la creación de instancias formales para resolver conflictos en las definiciones de
distintas unidades de negocio, por ejemplo Steering Committee (más alto nivel de la
organización), Data Governance Council, Data Stewardship Teams y/o Local Data
Governance Committee.
Una correcta estructura organizacional y creación de instancias formales facilitará la
implementación de los desafíos planteados anteriormente.
Otras Consideraciones.
Adicional a todos los desafíos y consideraciones planteadas anteriormente, se deben
analizar algunos otros factores:
● La inclusión de Auditoría interna y externa es fundamental para garantizar el
cumplimiento de los desafíos legales y normativos, y para demostrar transparencia
en los procesos.
● La gestión y velocidad de los cambios en los requerimientos de negocio es crucial
para que no se generen estructuras paralelas informales. Agregar rápidamente
nuevas fuentes de datos, o realizar mejoras y cambios solicitados por las unidades
de negocio en tiempos cortos es clave.
Conclusiones
El reto de implementar una estrategia basada en Big Data va mucho más allá que solo un
desafío tecnológico, es cierto que el cambio en la tecnología es relevante, sin embargo para
que estas iniciativas sean exitosas deben ir acompañados de una base metodológica sólida,
y una estrategia robusta que consideren, a lo menos, los elementos planteados en este
documento.
8
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
9
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Referencias
Bethke, U. (Mayo 15, 2017). Dimensional Modeling and Kimball Data Marts in the Age of Big
Data and Hadoop. Retrieved Febrero 21, 2018, from
https://sonra.io/2017/05/15/dimensional-modeling-and-kimball-data-marts-in-the-age-of-
big-data-and-hadoop/
Botelho, B. (Octubre, 2017). Machine learning, IoT bring big changes to data management
systems. Retrieved febrero 23, 2018, from
http://searchdatamanagement.techtarget.com/opinion/Machine-learning-IoT-bring-big-ch
anges-to-data-management-systems?src=5718044&asrc=EM_ERU_89604533&utm_co
ntent=eru-rd2-rcpE&utm_medium=EM&utm_source=ERU&utm_campaign=20180222_E
RU%20Transmission%20for%2002/22/2018%20(UserUniverse:%202525109)
COMPENDIO DE NORMAS CONTABLES, B-1 Chile § 3598 (febrero 27, 2018). Retrieved
from ​https://www.sbif.cl/sbifweb3/internet/archivos/norma_6545_1.pdf
computerworld.es. (mayo 30, 2017). Cultura y digitalización, cómo convertirse en una “Data
Driven Company.” Retrieved febrero 27, 2018, from
http://www.computerworld.es/negocio/cultura-y-digitalizacion-como-convertirse-en-una-
data-driven-company
DAMA International. (2017). ​DAMA-DMBOK 2 - Data Management Body of Knowledge​.
de Chile, G. (n.d.). Política Nacional de Ciberseguridad. ​Gobierno de Chile​.
Fern Halper, D. S. (4Q 2017). What It Takes to Be Data-Driven. ​BEST PRACTICES
REPORT​, p. 40.
HortonWorks.com. (n.d.). USING HIVE ACID TRANSACTIONS TO INSERT, UPDATE AND
DELETE DATA. Retrieved Marzo 12, 2018, from
https://es.hortonworks.com/tutorial/using-hive-acid-transactions-to-insert-update-and-del
ete-data/
10
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Iberoamericana, R. (junio 20, 2017). Estándares de Protección de Datos Personales para
los Estados Iberoamericanos.
Loshin, D. (octubre, 2017). Data quality for big data should include a focus on usability.
Retrieved febrero 23, 2018, from
http://searchdatamanagement.techtarget.com/tip/Data-quality-for-big-data-should-includ
e-a-focus-on-usability
Loshin, D. (2017). Data Monetization: 7 Steps to Building Consumable Data Solutions.
Melo, A. (febrero 27, 2018). Inteligencia Artificial y Datos, la base de las empresas del
futuro. Retrieved febrero 27, 2018, from
https://www.df.cl/noticias/tendencias/360/inteligencia-artificial-y-datos-las-bases-de-la-e
mpresa-del-futuro/2018-02-26/182712.html
Moreno, H. (Junio 5, 2017). The Importance Of Data Quality -- Good, Bad Or Ugly. Retrieved
Febrero 23, 2018, from
https://www.forbes.com/sites/forbesinsights/2017/06/05/the-importance-of-data-quality-g
ood-bad-or-ugly/#14e7ee6210c4
PowerData. (n.d.). La Calidad de Datos: Una radiografía completa. (PowerData, Ed.).
PowerData.
PowerData.es. (n.d.). PowerData - BigData. Retrieved Febrero 26, 2018, from
https://www.powerdata.es/big-data
Proyecto de Ley que regula la protección y el tratamiento de los datos personales y crea la
Agencia de Protección de Datos Personales. (n.d.). ​Congreso de Chile​.
Reglamento (UE) 2016/679 Del Parlamento Europeo y del Consejo, Pub. L. No. 2016/679,
2016/679 2016/679 (mayo 4, 2016). Retrieved from
http://eur-lex.europa.eu/legal-content/ES/TXT/?uri=CELEX%3A32016R0679
SAS. (Febrero 22, 2018). SAS Data Quality [Print Sitio Web]. SAS. Retrieved from
https://www.sas.com/es_cl/software/data-quality.html#
11
Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham
Turner, N. (Octubre 25, 2017). ​Becoming Data Driven: Building the Foundation of Digital
Success​. BrightTALK. Retrieved from
https://www.brighttalk.com/webcast/12405/280597?autoclick=true&utm_source=brighttal
k-recommend&utm_campaign=network_weekly_email&utm_medium=email&utm_conte
nt=collab&utm_term=092018
WikiPedia. (Enero, 2015). BigData. Retrieved Febrero 26, 2018, from
https://es.wikipedia.org/wiki/Macrodatos
WikiPedia. (febrero 20, 2018). Data-driven. Retrieved febrero 27, 2018, from
https://en.wikipedia.org/wiki/Data-driven
12

Más contenido relacionado

La actualidad más candente

CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
Denodo
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectos
paolaperez013
 
Diez claves Proyecto MDM
Diez claves Proyecto MDMDiez claves Proyecto MDM
Diez claves Proyecto MDM
PowerData
 

La actualidad más candente (20)

CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
CDO Mentoring: Impulsar las iniciativas de TI con la Fábrica de Datos (LATAM)
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectos
 
Powerdata: "la calidad de datos como motor de negocio"
Powerdata: "la calidad de datos como motor de negocio"Powerdata: "la calidad de datos como motor de negocio"
Powerdata: "la calidad de datos como motor de negocio"
 
Reseña del Libro "Data Stewardship" de David Plotkin
Reseña del Libro "Data Stewardship" de David PlotkinReseña del Libro "Data Stewardship" de David Plotkin
Reseña del Libro "Data Stewardship" de David Plotkin
 
Big data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorpBig data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorp
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Reseña del libro "Disrupting Data Governance. A Call to Action"
Reseña del libro "Disrupting Data Governance. A Call to Action"Reseña del libro "Disrupting Data Governance. A Call to Action"
Reseña del libro "Disrupting Data Governance. A Call to Action"
 
gobierno de datos
gobierno de datosgobierno de datos
gobierno de datos
 
Reseña del libro "Navigating the Labyrinth an Executive Guide to Data Managem...
Reseña del libro "Navigating the Labyrinth an Executive Guide to Data Managem...Reseña del libro "Navigating the Labyrinth an Executive Guide to Data Managem...
Reseña del libro "Navigating the Labyrinth an Executive Guide to Data Managem...
 
Act.1 definiciones de inteligencia de negocios
Act.1 definiciones de inteligencia de negociosAct.1 definiciones de inteligencia de negocios
Act.1 definiciones de inteligencia de negocios
 
Business intelligence un balance para su implementación
Business intelligence un balance para su implementaciónBusiness intelligence un balance para su implementación
Business intelligence un balance para su implementación
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Afc module 2 translated
Afc module 2 translatedAfc module 2 translated
Afc module 2 translated
 
Diez claves Proyecto MDM
Diez claves Proyecto MDMDiez claves Proyecto MDM
Diez claves Proyecto MDM
 
Data set module 3 - spanish
Data set   module 3 - spanishData set   module 3 - spanish
Data set module 3 - spanish
 
Ensayo tutoria 1 sep
Ensayo tutoria 1 sepEnsayo tutoria 1 sep
Ensayo tutoria 1 sep
 
Qué es la calidad de datos
Qué es la calidad de datosQué es la calidad de datos
Qué es la calidad de datos
 
Relaciones Públicas y Big Data
Relaciones Públicas y Big DataRelaciones Públicas y Big Data
Relaciones Públicas y Big Data
 

Similar a Desafíos No Tecnológicos para implementar Big Data

2da entrega forumación de proyectos
2da entrega forumación de proyectos2da entrega forumación de proyectos
2da entrega forumación de proyectos
paolaperez013
 
Tecnologia de la informacion
Tecnologia de la informacionTecnologia de la informacion
Tecnologia de la informacion
chavezlilia
 

Similar a Desafíos No Tecnológicos para implementar Big Data (20)

Ensayo sobre data mining
Ensayo sobre data miningEnsayo sobre data mining
Ensayo sobre data mining
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big data
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big data
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
La importancia del big data
La importancia del big dataLa importancia del big data
La importancia del big data
 
Proyecto Cynthia
Proyecto Cynthia Proyecto Cynthia
Proyecto Cynthia
 
2da entrega forumación de proyectos
2da entrega forumación de proyectos2da entrega forumación de proyectos
2da entrega forumación de proyectos
 
Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015Revista Mundo Contact Junio 2015
Revista Mundo Contact Junio 2015
 
Entregable final analitica
Entregable final analiticaEntregable final analitica
Entregable final analitica
 
bases de datos.Gallardo.pdf
bases de datos.Gallardo.pdfbases de datos.Gallardo.pdf
bases de datos.Gallardo.pdf
 
Presentacion Sistemas de Información
Presentacion Sistemas de InformaciónPresentacion Sistemas de Información
Presentacion Sistemas de Información
 
Mercado 3 p.11
Mercado 3 p.11Mercado 3 p.11
Mercado 3 p.11
 
Afc module 5 translated
Afc module 5 translatedAfc module 5 translated
Afc module 5 translated
 
Digital Marketing and Big Data Webinar
Digital Marketing and Big Data Webinar Digital Marketing and Big Data Webinar
Digital Marketing and Big Data Webinar
 
Qué son las tics
Qué son las ticsQué son las tics
Qué son las tics
 
Tecnologia de la informacion
Tecnologia de la informacionTecnologia de la informacion
Tecnologia de la informacion
 
Wp 2015-07
Wp 2015-07Wp 2015-07
Wp 2015-07
 
Revista TicNews Edición Mayo 2014
Revista TicNews Edición Mayo 2014Revista TicNews Edición Mayo 2014
Revista TicNews Edición Mayo 2014
 
Tarea capitulo 3 y 4
Tarea capitulo 3 y 4Tarea capitulo 3 y 4
Tarea capitulo 3 y 4
 
Tarea capitulo 3 y 4
Tarea capitulo 3 y 4Tarea capitulo 3 y 4
Tarea capitulo 3 y 4
 

Más de Sebastian Rodriguez Robotham

Estrategia para la Implementación y Administración Inteligente de DataWarehouse
Estrategia para la Implementación y Administración Inteligente de DataWarehouseEstrategia para la Implementación y Administración Inteligente de DataWarehouse
Estrategia para la Implementación y Administración Inteligente de DataWarehouse
Sebastian Rodriguez Robotham
 

Más de Sebastian Rodriguez Robotham (8)

La colaboración y cooperación como estrategias en la educación superior
La colaboración y cooperación como estrategias en la educación superiorLa colaboración y cooperación como estrategias en la educación superior
La colaboración y cooperación como estrategias en la educación superior
 
Evolucion y desafios del sistema de aseguramiento de la calidad en la educaci...
Evolucion y desafios del sistema de aseguramiento de la calidad en la educaci...Evolucion y desafios del sistema de aseguramiento de la calidad en la educaci...
Evolucion y desafios del sistema de aseguramiento de la calidad en la educaci...
 
POC SQL 2014
POC SQL 2014POC SQL 2014
POC SQL 2014
 
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioDiseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
 
Método SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datosMétodo SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datos
 
Método SQL para Calcular el valor máximo de un conjunto de columnas de una Tabla
Método SQL para Calcular el valor máximo de un conjunto de columnas de una TablaMétodo SQL para Calcular el valor máximo de un conjunto de columnas de una Tabla
Método SQL para Calcular el valor máximo de un conjunto de columnas de una Tabla
 
Estrategia para la Implementación y Administración Inteligente de DataWarehouse
Estrategia para la Implementación y Administración Inteligente de DataWarehouseEstrategia para la Implementación y Administración Inteligente de DataWarehouse
Estrategia para la Implementación y Administración Inteligente de DataWarehouse
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de Negocios
 

Último

REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
JoselynGoeTmara
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 

Último (20)

Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
 
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 

Desafíos No Tecnológicos para implementar Big Data

  • 1. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Desafíos no Tecnológicos para Implementar Big Data. Una mirada desde el Data Governance y Data Management Si su organización está en la etapa de planificación, o recién comenzando a utilizar y explorar estas herramientas, es un buen momento para considerar algunos aspectos que no necesariamente están relacionados a la tecnología: ¿Su solución Big Data está considerando las leyes de protección de datos personales en la elaboración de los modelos de datos, analítica y procesos de negocio?. ¿En la definición de su estructura organizacional consideró la separación de roles entre Data Governance y Data Management, y la creación de distintas instancias formales para resolver los conflictos de datos? ¿Está considerando la calidad de datos como parte integral del proceso, o solamente en etapas tempranas de adquisición de la información? ¿tiene una estrategia y roadmap definidos para llegar a ser una empresa data-driven? Si la respuesta es negativa en alguna de estas preguntas, entonces le interesará continuar leyendo este documento. Autor: Sebastián Rodríguez Robotham Marzo 2018 LinkedIn: ​https://www.linkedin.com/in/sebasrodrob/ 1
  • 2. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Introducción Big Data permite trabajar con datos de una forma que antes no era posible, con este ecosistema de herramientas podemos disponer de más fuentes de información, de distinto tipo (estructurada y no estructurada) y con un mejor tiempo de respuesta que una solución tradicional. Sin embargo, la tecnología en sí misma no es suficiente para solucionar todos los problemas y desafíos, en consecuencia necesitamos una estrategia que nos permita maximizar el uso estos recursos. Algunos de estos desafíos están relacionados con ​las nuevas regulaciones de protección de datos personales, las cuales son cada vez más exigentes​, en el caso de Europa la nueva ley entra en vigencia el 25 de mayo del 2018 ​(Reglamento (UE) 2016/679 Del Parlamento Europeo y del Consejo, mayo 4, 2016)​, es imperativo tener un mapeo exacto de los datos sensibles de los clientes, las personas tienen ahora nuevos derechos sobre sus datos (rectificación, olvido, portabilidad), y pronto veremos algo similar en nuestros territorios, donde la calidad de la información pasará de ser algo “deseado” a “obligado”. ​Por otro lado los consumidores son cada vez más exigentes​, y esperan que la empresas les ofrezcan productos y servicios personalizados, que se basen en sus preferencias actuales, por tanto ya no basta con generar campañas de marketing masivas e invasivas, que utilicen solo la historia de consumo. Contar con información actualizada, validada y en un formato fácil de utilizar por los Data Scientist será primordial. Hoy más que nunca las empresas deben ser Data-Driven ​(Melo, febrero 27, 2018)​, lo que en la práctica significa que las actividad y toma de decisiones de una empresa deberán estar basadas en la utilización de datos en vez de la intuición o la experiencia personal (WikiPedia, febrero 20, 2018)​, y acorde a TDWI, estas decisiones pueden ser a nivel estratégico (por ejemplo decisiones relacionadas al futuro de la organización), a nivel táctico y/o a nivel operacional (decisiones del día a día) ​(Fern Halper, 4Q 2017) . Esto que en teoría es bastante sencillo, llevarlo a la práctica podría ser una tarea realmente compleja sin la correcta estrategia de implementación. De acuerdo a un estudio publicado por TDWI en el cuarto trimestre del 2017, “aproximadamente un tercio de los encuestados no cree que estén cerca de ser data-driven” (Fern Halper, 4Q 2017)​, y según los mismos encuestados, algunos de los principales factores que impiden llegar a este estado son ​“la falta de estrategia corporativa y apoyo de ejecutivos”​, ​“dificultad de acceder a datos relevantes”​, ​“falta de skills”​, “problemas de seguridad y gestión de datos”​ e ​“insuficiencia en calidad de datos”​. Basado en lo anterior, para convertirse en una empresa Data Driven es necesario trabajar seriamente sobre los datos, lo que en palabras sencillas se traduce en elaborar un RoadMap que considere la priorización actual y futura, adquirir los datos (desde fuentes internas y externas), limpiarlos, validarlos y dejarlos disponibles en los formatos adecuados para su correcta y sencilla explotación (modelos tradicionales, reportes, ML, IA, Análisis). Esto implica desarrollar múltiples entornos (batch, real time, near real time), con diversos modelos de datos (relacionales, dimensionales, datos en bruto) y varias herramientas que 2
  • 3. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham se acomoden a los proyectos operacionales, tácticos y estratégicos. En consecuencia, “la tecnología no es el único requisito suficiente para convertirse en una empresa Data Driven, ya que no se trata solo de un proceso de digitalización, sino de transformación” ​(computerworld.es, mayo 30, 2017)​, ​el desafío entonces es elegir correctamente “el cómo”, es decir, las estrategias que permitan gobernar los datos a un nivel corporativo. Las organizaciones que centren sus esfuerzo en mejorar la administración y gobierno de los datos tendrá una ventaja competitiva frente al resto de la industria, no es suficiente con generar un modelo aislado de Machine Learning que prediga el próximo mejor producto, o que genere una buena recomendación, eso no bastará para ser una organización Data-Driven ​(computerworld.es, mayo 30, 2017)​. Tomar en serio este cambio de paradigma es clave para explotar todo el potencial de la tecnología, y se debe partir por reconocer que los datos son uno de los activos más importantes de la organización, y como tal deben ser resguardados, asegurados, validados y maximizados ​(DAMA International, 2017)​. Como consecuencia, los datos podrán ser utilizados para generar optimización de los modelos de negocio, para monetizarlos y hacer nuevos negocios, o ambos ​(Turner, Octubre 25, 2017)​. Consideraciones y Desafíos En primera instancia se podría pensar que el principal desafío de esta era de Big Data es la tecnología y conseguir los datos, pero en base a lo indicado anteriormente, y a lo señalado por Hugo Moreno ​(Moreno, Junio 5, 2017; SAS, Febrero 22, 2018) y Bridget Botelho (Botelho, Octubre, 2017) el problema no está en la tecnología ni el acceso a la información, sino en cómo usar y administrar el exceso de datos al cual pueden acceder las organizaciones, y luego transformarlo en ventajas competitivas y oportunidades de negocio diferenciadoras. La definición del gobierno de datos y su posterior implementación requiere considerar diversas dimensiones en los entornos de datos, que van desde los legales y normativos, seguridad de la información, acceso y uso, entre otros. Consideraciones Legales Las leyes relacionadas a la protección de datos personales ​(Reglamento (UE) 2016/679 Del Parlamento Europeo y del Consejo, mayo 4, 2016)​(Iberoamericana, junio 20, 2017) entrega el control de los datos a las personas, no importa si estos fueron creados y almacenados en la organización, las empresas sólo podrán utilizar los datos personales de sus clientes y/o futuros clientes cuando tengan su consentimiento interesado y explícito (señalando los fines específicos y por cuánto tiempo serán utilizados), o cuando se requieran para hacer cumplir un contrato u obligación legal. En el caso de no tener consentimiento, sólo se podrán utilizar los datos sin la posibilidad de identificar específicamente a qué cliente corresponden (anonimización de los datos). 3
  • 4. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Para dar cumplimiento a estas leyes, será necesario implementar un robusto gobierno de datos que permita asegurar el cumplimiento a los nuevos derechos: ● acceso de los datos​: saber para qué fines será el tratamiento, plazos de utilización, existencia de decisiones automatizadas. También podrán solicitar una copia de estos datos, obviamente las empresas estarán obligadas a entregarlos. ● rectificación​: las personas podrán solicitar que se cambien los datos en caso de no ser exactos o completos ● supresión​: que se traduce en “derecho al olvido”, el cliente en cualquier momento podrá retirar el consentimiento otorgado, y solicitar que los datos no sean utilizados. ● limitación del tratamiento​: las personas podrán impugnar la exactitud de los datos personales y limitar su uso ● portabilidad​: las personas podrán solicitar sus datos personales a las empresas, los cuales deberán ser entregados en formatos estructurados, incluso llegando a ser transferidos de empresa a empresa. ● oposición​: los clientes podrán oponerse al tratamiento de sus datos personales para la mercadotecnia directa, incluida la creación de perfiles. ● decisiones automatizadas​: las personas podrán elegir no ser objeto de decisiones basadas únicamente en tratamiento automatizado Para el caso de la información que no proviene del cliente (por ejemplo información comprada a proveedores de datos u obtenida desde la web), las personas podrán solicitar detalles relacionados a esos datos, como por ejemplo la procedencia, los fines para los cuales serán utilizados, y si ese uso será automatizado o no. Para dar cumplimiento a estas nuevas obligaciones, la ley exige la creación de unidades específicas, que sean las encargadas de responder, en tiempos adecuados, los requerimientos de las personas. En consecuencia, será indispensable crear modelos de datos que permitan administrar y responder a estos nuevos desafíos. La era de los silos desconectados de información en las organizaciones llegará a su fin cuando las leyes en cada geografía inicien su vigencia. Consideraciones Normativas Hay industrias que por lo delicada de su naturaleza son altamente reguladas. Por ejemplo la industria financiera, de salud y telecomunicaciones tienen normativas específicas en relación al tratamiento y uso de los datos, en la mayoría de los casos el acceso a los datos transaccionales de las personas está restringida solo a los funcionarios que, debido a sus responsabilidades, deben procesar y/o visualizar dichos datos. En el caso de la industria financiera en Chile se debe tener trazabilidad de los datos utilizados para la creación de modelos de provisiones, asegurar que estos datos no han sido alterados en forma alguna desde el sistema origen hasta la creación del modelo, y además la información ha sido validada por una unidad independiente al área que crea los modelos. Además de lo anterior debe existir documentación y acceso a los datos para que cualquier entidad independiente 4
  • 5. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham pueda hacer la réplica del proceso ​(COMPENDIO DE NORMAS CONTABLES, febrero 27, 2018)​. Consideraciones de Seguridad. Así como el dinero es resguardado en cajas fuertes, con mecanismos de acceso y sistemas de contabilidad, en la era Big Data se requiere que los datos sean tratados de una forma similar. Según diversos estudios, la mayor cantidad de fugas de información de las organizaciones no proviene de ataques externos, sino que son los mismos funcionarios los que copian las bases de datos de clientes y hacen uso indebido de ellos. Es como si dejáramos nuestro principal activo al alcance de cualquier persona sin autorización a acceder a ella. La encriptación, controles de acceso y réplicas de datos en distintas geografías son elementos básicos a considerar ​(Loshin, 2017)​, así como también la anonimización para análisis y enmascaramiento de los datos sensibles en la capa de visualización. A nivel de países también es un tema sensible, en el caso de Chile existe una política nacional de ciberseguridad, donde se establece que “El país contará con una infraestructura de la información robusta y resiliente, preparada para resistir y recuperarse de incidentes de ciberseguridad, bajo una óptima de gestión de riesgos” (pág. 16) ​(de Chile, n.d.)​, se reconoce que la información estratégica y la infraestructura que la soporta debe ser protegida en forma adecuada, las empresas deben asumir este desafío acorde al daño que la fuga o mal uso de los datos puedan generar a sus clientes (y eventualmente futuros clientes). Consideraciones en Calidad de Datos. Según SAS, cerca del 40% de los procesos estratégicos fallan por problemas en la calidad de datos ​(SAS, Febrero 22, 2018)​, y de acuerdo a TDWI, el DQ es el quinto mayor problemas que las empresas declaran como obstáculos para convertirse en Data-Driven (Fern Halper, 4Q 2017)​. Es imperativo que las iniciativas de calidad de datos sean abordadas en todo el ciclo de vida de los datos, y no solo en las revisiones tradicionales sobre algunos conjuntos de datos. Como indica David Loshin, “necesitamos repensar qué significado tiene la calidad en el contexto de un ambiente BigData analítico. A menudo, igualamos el concepto de calidad de datos con nociones discretas, tales como corrección o vigencia de datos” ​(Loshin, octubre, 2017)​. Para evitar que lo anterior ocurra, debemos implementar distintas estrategias de calidad de datos. En consecuencia, debemos considerar aspectos tales como perfilado, relaciones/dependencias, ineficiencias/redundancias (Data Discovery) y completitud, conformidad, consistencia, precisión, duplicación, integridad y ratios ​(PowerData, n.d.)​. 5
  • 6. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Adicionalmente, y reconociendo que problemas con la calidad de datos puede generar daños a las personas, las leyes relacionadas a protección de datos personales incorporan dentro de sus principios la calidad, y señalan que las organizaciones “adoptarán las medidas necesarias para mantener exactos, completos y actualizados los datos personales en su posesión, de tal manera que no se altere la veracidad de éstos conforme se requiera para el cumplimiento de las finalidades que motivaron su tratamiento” (pág. 15) (Iberoamericana, junio 20, 2017)​, en la misma línea el proyecto de ley en Chile define que “los datos personales deben ser exactos y, si fuera necesario, completos y actuales, en relación con los fines del tratamiento” ​(“Proyecto de Ley que regula la protección y el tratamiento de los datos personales y crea la Agencia de Protección de Datos Personales,” n.d.)​, en el caso de Perú, el artículo 8 indica que “Los datos personales que vayan a ser tratados deben ser veraces, exactos y, en la medida de lo posible, actualizados, necesarios, pertinentes y adecuados respecto de la finalidad para la que fueron recopilados” ​(Perú 2011) En resumen, la calidad de datos dejará de ser sólo una buena práctica, sino que también será un requerimiento legal, por tanto será necesario desarrollarlo en todas las etapas del proceso, y no sólo en el inicio del proceso de carga de datos. Consideraciones de Almacenamiento Está claro que la capacidad de almacenamiento en la era del Big Data no es un punto de preocupación. Sin embargo, tomar la decisión equivocada para almacenar la información puede perjudicar el rendimiento, y eventualmente encarecer la solución y administración del ambiente. HDFS es a la fecha el sistema de almacenamiento distribuido más popular, está diseñado para almacenar grandes volúmenes de datos, en bloques que por lo general parten desde los 128MB. Guardar ficheros más pequeños que el bloque hará que el sistema no se use de forma eficiente, por tanto es necesario conocer el volumen, tipo de datos y usabilidad antes de determinar la mejor alternativa de almacenamiento. Otra consideración es el tipo de estructura a utilizar para el almacenamiento, dependiendo del uso podemos almacenar los datos en algún formato columnar, particionado y comprimido que optimiza las lecturas, un formato ORC con la opción transaccional activa para uso de transacciones ​(HortonWorks.com, n.d.)​, o simplemente un CSV si los ficheros son pequeños. Hay que tener en cuenta que HDFS no es la mejor opción para todos los escenarios, y se deben evaluar considerando el almacenamiento directo en FileSystem tradicionales, bases de datos SQL o bases de datos NoSQL, dependiendo de cada caso. 6
  • 7. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Consideraciones en Modelos de Datos Almacenar los datos como RAW es la forma más rápida de explotar las bondades del ecosistema Big Data, generar analytics directamente desde los datos RAW es una opción válida, pero por desgracia siempre será necesario hacer algunos retoques a la información, por tanto las reglas de negocio y corrección de datos quedarán incrustado dentro del código del modelo, con poca opción de reutilizar ese tratamiento de datos. Si almacenamos los datos masterizados (es decir, con lógica de negocio, aplicando DQ y validaciones) estaremos seguros que cualquier persona y/o proceso podrá tomar los datos limpios, y no habrá necesidad de transformarlos en el modelo, aunque esta estrategia requiere más tiempo (modelo de datos normalizado). Si ahora necesitamos consolidar la información de alguna entidad (por ejemplo datos de clientes), deberemos crear un modelo dimensional que permita administrar una versión única de la verdad a nivel corporativo, y esto requiere mucho conocimiento del negocio, de los sistemas y, obviamente, más tiempo. No hay un mejor modelo de datos en sí mismo, el reto es usarlos adecuadamente en función de las características propias de cada uno de ellos, y teniendo además en cuenta que las estrategias de almacenamiento están estrechamente relacionadas. Consideraciones de Políticas y Documentación La forma de tangibilizar todos desafíos planteados previamente es a través de la documentación de los procesos y la definición de políticas. Una buena documentación debe incluir elementos tales como la captura, almacenamiento, acceso y uso de datos, de tal forma que sirva para garantizar la continuidad operativa del negocio. También debe permitir el cumplimiento de los requerimientos legales y normativos. Dentro de la documentación se deben incluir los diccionarios de datos y su trazabilidad desde los sistemas origen hasta los modelos dimensionales, pasando por la creación de modelos y uso en reportes. Esta documentación debe ser una base de conocimientos, por tanto debe mantenerse “viva”, es decir, los cambios en los ambientes deben estar siempre reflejados y actualizados. En el caso de las políticas, deben ser establecidas por el Chief Data Officer ​(DAMA International 2017)​, y deben delimitar claramente los ámbitos de acción de las personas en la organización, establecer sus atribuciones en términos de modificar/actualizar las definiciones de los datos, los niveles de acceso a información sensible/confidencial y establecer los roles y responsabilidades. 7
  • 8. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Consideraciones de Estructura Organizacional y Cultura Como ya lo hemos señalado, el desafío está lejos de ser solo un cambio tecnológico, y será necesario repensar la estructura organizacional que soporta estas actividades. El cambio cultural es, tal vez, el más complejo de llevar a cabo, lograr que las personas dejen de tomar decisiones basadas sólo en sus conocimientos y prejuicios, y que comprueben las hipótesis en datos será una larga tarea. Dependiendo del tipo de organización se deben considerar, a lo menos, los requerimientos legales y normativos. Es importante mantener una segregación de funciones en las áreas que hacer las definiciones y políticas (Data Governance) y las áreas que desarrollarán y administrarán la información (Data Management). El tipo de estructura a utilizar puede ser Centralizada, Replicada o Federada ​(DAMA International 2017)​, y junto a ello será necesaria la creación de instancias formales para resolver conflictos en las definiciones de distintas unidades de negocio, por ejemplo Steering Committee (más alto nivel de la organización), Data Governance Council, Data Stewardship Teams y/o Local Data Governance Committee. Una correcta estructura organizacional y creación de instancias formales facilitará la implementación de los desafíos planteados anteriormente. Otras Consideraciones. Adicional a todos los desafíos y consideraciones planteadas anteriormente, se deben analizar algunos otros factores: ● La inclusión de Auditoría interna y externa es fundamental para garantizar el cumplimiento de los desafíos legales y normativos, y para demostrar transparencia en los procesos. ● La gestión y velocidad de los cambios en los requerimientos de negocio es crucial para que no se generen estructuras paralelas informales. Agregar rápidamente nuevas fuentes de datos, o realizar mejoras y cambios solicitados por las unidades de negocio en tiempos cortos es clave. Conclusiones El reto de implementar una estrategia basada en Big Data va mucho más allá que solo un desafío tecnológico, es cierto que el cambio en la tecnología es relevante, sin embargo para que estas iniciativas sean exitosas deben ir acompañados de una base metodológica sólida, y una estrategia robusta que consideren, a lo menos, los elementos planteados en este documento. 8
  • 9. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham 9
  • 10. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Referencias Bethke, U. (Mayo 15, 2017). Dimensional Modeling and Kimball Data Marts in the Age of Big Data and Hadoop. Retrieved Febrero 21, 2018, from https://sonra.io/2017/05/15/dimensional-modeling-and-kimball-data-marts-in-the-age-of- big-data-and-hadoop/ Botelho, B. (Octubre, 2017). Machine learning, IoT bring big changes to data management systems. Retrieved febrero 23, 2018, from http://searchdatamanagement.techtarget.com/opinion/Machine-learning-IoT-bring-big-ch anges-to-data-management-systems?src=5718044&asrc=EM_ERU_89604533&utm_co ntent=eru-rd2-rcpE&utm_medium=EM&utm_source=ERU&utm_campaign=20180222_E RU%20Transmission%20for%2002/22/2018%20(UserUniverse:%202525109) COMPENDIO DE NORMAS CONTABLES, B-1 Chile § 3598 (febrero 27, 2018). Retrieved from ​https://www.sbif.cl/sbifweb3/internet/archivos/norma_6545_1.pdf computerworld.es. (mayo 30, 2017). Cultura y digitalización, cómo convertirse en una “Data Driven Company.” Retrieved febrero 27, 2018, from http://www.computerworld.es/negocio/cultura-y-digitalizacion-como-convertirse-en-una- data-driven-company DAMA International. (2017). ​DAMA-DMBOK 2 - Data Management Body of Knowledge​. de Chile, G. (n.d.). Política Nacional de Ciberseguridad. ​Gobierno de Chile​. Fern Halper, D. S. (4Q 2017). What It Takes to Be Data-Driven. ​BEST PRACTICES REPORT​, p. 40. HortonWorks.com. (n.d.). USING HIVE ACID TRANSACTIONS TO INSERT, UPDATE AND DELETE DATA. Retrieved Marzo 12, 2018, from https://es.hortonworks.com/tutorial/using-hive-acid-transactions-to-insert-update-and-del ete-data/ 10
  • 11. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Iberoamericana, R. (junio 20, 2017). Estándares de Protección de Datos Personales para los Estados Iberoamericanos. Loshin, D. (octubre, 2017). Data quality for big data should include a focus on usability. Retrieved febrero 23, 2018, from http://searchdatamanagement.techtarget.com/tip/Data-quality-for-big-data-should-includ e-a-focus-on-usability Loshin, D. (2017). Data Monetization: 7 Steps to Building Consumable Data Solutions. Melo, A. (febrero 27, 2018). Inteligencia Artificial y Datos, la base de las empresas del futuro. Retrieved febrero 27, 2018, from https://www.df.cl/noticias/tendencias/360/inteligencia-artificial-y-datos-las-bases-de-la-e mpresa-del-futuro/2018-02-26/182712.html Moreno, H. (Junio 5, 2017). The Importance Of Data Quality -- Good, Bad Or Ugly. Retrieved Febrero 23, 2018, from https://www.forbes.com/sites/forbesinsights/2017/06/05/the-importance-of-data-quality-g ood-bad-or-ugly/#14e7ee6210c4 PowerData. (n.d.). La Calidad de Datos: Una radiografía completa. (PowerData, Ed.). PowerData. PowerData.es. (n.d.). PowerData - BigData. Retrieved Febrero 26, 2018, from https://www.powerdata.es/big-data Proyecto de Ley que regula la protección y el tratamiento de los datos personales y crea la Agencia de Protección de Datos Personales. (n.d.). ​Congreso de Chile​. Reglamento (UE) 2016/679 Del Parlamento Europeo y del Consejo, Pub. L. No. 2016/679, 2016/679 2016/679 (mayo 4, 2016). Retrieved from http://eur-lex.europa.eu/legal-content/ES/TXT/?uri=CELEX%3A32016R0679 SAS. (Febrero 22, 2018). SAS Data Quality [Print Sitio Web]. SAS. Retrieved from https://www.sas.com/es_cl/software/data-quality.html# 11
  • 12. Desafíos no Tecnológicos para Implementar Big Data. Sebastián Rodríguez Robotham Turner, N. (Octubre 25, 2017). ​Becoming Data Driven: Building the Foundation of Digital Success​. BrightTALK. Retrieved from https://www.brighttalk.com/webcast/12405/280597?autoclick=true&utm_source=brighttal k-recommend&utm_campaign=network_weekly_email&utm_medium=email&utm_conte nt=collab&utm_term=092018 WikiPedia. (Enero, 2015). BigData. Retrieved Febrero 26, 2018, from https://es.wikipedia.org/wiki/Macrodatos WikiPedia. (febrero 20, 2018). Data-driven. Retrieved febrero 27, 2018, from https://en.wikipedia.org/wiki/Data-driven 12