ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENTACIÓN BIG DATA EN JOHN DEERE CON TDWI
1. i
MAESTRIA EN DATA SCIENCE
CASOS PRÁCTICOS
LUIS ALBERTO CUNALATA BOMBON
CASO 1. DISEÑO DE ARQUITECTURA PARA VISIÓN CLIENTE
360 º
1. Las fuentes de datos que se van a procesar como entrada. Explicar
cuáles de estas fuentes son estructuradas, semiestructuradas y no
estructuradas.
Para una visión 360 de clientes los datos son:
Estructurados: CDP, MDM, DMP, Marketing Automatizado, CRM, Call-Center, ERP.
Semi estructurados: Celulares, Redes Sociales, Sensores, Post-terminales.
No-estructurados: Llamadas/Chat, Imágenes, Videos, e-mails.
2. Diferenciar todas las capas de almacenamiento que tendrá la
solución. Explicar y justificar el porqué de cada una de ellas
2. 2
. Figura 1.- Arquitectura Visión 360 de clientes
Fuente: Elaboración propia
OZZIE, con este software podemos planificar los flujos de trabajo dentro del
ecosistema de Haddop, por lo que podremos ejecutar los Jobs de manera
secuencial dando una mejor administración y ejecución de las tareas en general.
SQOOP,lo usamos para recibir los datos estructurados de CDP, MDM, DMP, del
Marketing automatizado, DRM, Call Center y ERP
FLUME, lo usamos para recibir la gran cantidad de datos generados semi y no
estructurados de celulares, redes sociales, sensores, post-terminales, llamadas,
Imágenes, videos, e-mails generados y conectados del cliente.
HADOOP, nos permite almacenar y procesar la gran cantidad de datos
generados de nuestros clientes.
SPARK STREAMING, nos permite procesar la información en tiempo real que
ingresa para darle tratamiento.
HIVE, para proporcionar agrupación, consulta, y análisis de datos.
POWERBI, TABLEU, permiten al analista de datos acceder y visualizar la
información de los clientes.
3. 3
En la figura 2 podemos observar la arquitectura para la extracción y
procesamiento de datos para clientes con visión 360 con big data sin especificar
los softwares utilizados.
Figura 2.- Arquitectura recolección de datos masivos
Fuente: Teradata
4. 4
CASO 2. ANALIZAR EL ÍNDICE DE MADUREZ DEL MODELO DE
NEGOCIO DE BIG DATA EN EL CASO DE JOHN DEERE
Ferguson, S. “John deere bets the farm on AI, IoT”; 2018. [En línea]
En el texto, se habla del proceso de transformación abordado por el
fabricante de equipamiento agrícola John Deere. Leer el artículo y,
utilizando el índice de madurez del modelo de negocio de big data de la
figura, hacer un análisis explicando y justificando en qué etapa estaría John
Deere en el momento que se describe en el artículo y qué etapas crees que
ha seguido la empresa hasta llegar ahí o, en su caso, qué etapas seguirá
posteriormente para completar las etapas descritas en el modelo.
John Deere apuesta la granja a la IA y el IoT
Scott Ferguson. Managing Editor, Light Reading. 3/12/2018
En los últimos 100 años, John Deere, con sus icónicos tractores verdes, ha sido
un serio inversor en tecnología. Comenzó en 1918, cuando Deere compró
Waterloo Gasoline Engine Company, y transformó la empresa de un negocio de
instrumentos agrícolas en una empresa de tractores industriales de pleno
derecho. A finales de la década de 1990, Deere invirtió en GPS con la adquisición
de Navcom, que ayudó a allanar el camino para instalar módems 4G LTE en
todos sus equipos. Ahora, cuando llevamos dos décadas de siglo XXI, se trata de
inteligencia artificial, aprendizaje automático, redes neuronales, 5G e Internet de
las cosas (IoT). En 2017, Deere pagó más de 300 millones de dólares por Blue
River Technology, una startup de Silicon Valley que está aplicando estas
tecnologías al negocio agrícola. Como vicepresidente senior de Intelligent
Solutions Group de Deere, John Stone no solo supervisa la adquisición de Blue
River, sino también las otras innovaciones tecnológicas de la compañía, incluida
una mayor confianza en la infraestructura como servicio (IaaS) para satisfacer
sus necesidades de computación en la nube. "Puedes pensar en ISG como la
5. 5
división de alta tecnología de John Deere, por lo que tenemos la responsabilidad
de desarrollar, diseñar e integrar estas nuevas tecnologías en todos nuestros
equipos", dijo Stone a Enterprise Cloud News durante la reciente exposición del
Mobile World Congress en Barcelona, donde se interesó por los últimos
desarrollos en 5G e IoT. "Cuando dices IoT, normalmente piensas en cosas que
caben en tu bolsillo", dijo Stone, quien ha trabajado para la compañía durante 16
años y tiene experiencia en ingeniería mecánica, así como en programación. "La
“T” para nosotros son los tractores de diez toneladas. Nuestro equipamiento
ahora tiene módems 4G LTE, con WiFi y Bluetooth, y eso permite una
comunicación bidireccional para recolectar datos de la granja y enviarlos a la
nube. También toman instrucciones de Deere o de distribuidores u otras
compañías de software y las envían a la máquina. La comunicación bidireccional
le dice a la máquina qué hacer. Además, las máquinas también pueden
comunicarse entre sí en el campo ". Se espera que el acuerdo con Blue River
lleve esta aproximación a las máquinas industriales y la agricultura al siguiente
nivel. Ahora que el acuerdo entre Deere y Blue River está cerrado, las dos
compañías están comenzando a colaborar más, aunque Stone señala que Blue
River continuará operando como una empresa independiente.
El futuro de la agricultura
Blue River está desarrollando una tecnología basada en el aprendizaje
automático llamada see and spray, que puede reducir la cantidad de herbicida
utilizado en la agricultura. Específicamente, un rociador toma fotografías de
plantas y, mediante el aprendizaje automático y los algoritmos, puede determinar
cuáles son malezas y cuáles son cultivos, y solo rocía herbicida sobre las
malezas. Eso es importante cuando un campo típico puede tener entre uno y dos
millones de plantas.
Este enfoque de la agricultura ofrece una solución doble. La primera es reducir o
eliminar la cantidad de herbicida rociado en los alimentos que comen las
personas. La segunda es la reducción de costos. Stone estima que un agricultor
de soja o algodón podría ahorrar entre 50 y 80 dólares por acre y reducir el gasto
en herbicidas hasta en un 90 %. Esto es solo el comienzo. "Nuestra hoja de ruta
requiere que el aprendizaje automático y la inteligencia artificial se incorporen en
cada pieza de equipamiento de John Deere con el tiempo", dijo Stone. "Lo que
6. 6
hacemos con nuestros ojos se puede hacer con mayor precisión con una cámara
y una computadora, con un sistema que recuerda esos datos, nunca olvida y se
vuelve más inteligente cada vez que pasa por el campo. Esto también se aplica a
nuestras divisiones de construcción y equipo pesado”. Además de IA, aprendizaje
automático e IoT, hay inversiones en automatización. El ejemplo más obvio son
las máquinas autónomas. Sin embargo, también hay otros avances. A finales de
año, Deere planea lanzar una aplicación que ofrecerá ajustes de configuración de
la máquina desde una ubicación central, y el operador puede aceptar o rechazar
esas sugerencias. A medida que todo esto se va automatizando, una ubicación
central puede operar múltiples máquinas en el campo, hacer sugerencias y
transmitir información adicional. Todo esto está respaldado por la nube,
específicamente por Amazon Web Services. Además de utilizar la plataforma
IaaS de Amazon, Deere es un gran usuario de Lambda, la versión AWS de
computación sin servidor que permite que las aplicaciones en la nube respondan
a diferentes eventos, por lo que utiliza recursos solo cuando es necesario.
El futuro tecnológico de Deere
El próximo gran paso para Stone y su equipo sería la introducción generalizada
de 5G para acelerar más procesos y disponer de un mayor ancho de banda para
admitir aplicaciones más sofisticadas y recopilar mayores volúmenes de datos,
por ejemplo, videos de alta definición, ya sea de las máquinas o del mismo
campo.
Por ahora, cuando todavía falta un tiempo para un despliegue completo de 5G,
Deere se conforma con los módems 4G LTE conectados a cada vehículo, lo que
permite usar edge computing y descargar datos a la nube.
Como en el pasado, Deere no limita a estos desarrollos tecnológicos sólo para sí,
aunque sigue siendo el usuario principal. Por el contrario, es probable que estos
desarrollos se comercialicen y vendan a otras compañías, lo que convierte a
Deere en un proveedor de tecnología en toda regla. "Sabemos con certeza que la
tecnología es el futuro y que la inteligencia artificial y el aprendizaje automático
son el futuro de la agricultura", dijo Stone. "De esta manera, va a ser más
eficiente y mejor de lo que es hoy. Dicho esto, continuamos fabricando estas
máquinas muy grandes y muy sofisticadas. Mi grupo es sin duda una compañía
100 % tecnológica dentro de Deere".
7. 7
Aplicando el análisis del modelo de madurez de TDWI se obtuvo los siguientes
resultados:
Modelo de madurez de Big Data usando TDWI
Organización: John Deere se ha dado cuenta que la analítica es un diferenciador por lo
que ha invertido en tecnología desde los años 90 implementado GPS y tecnología 4G a
sus tractores, además que toda su división de ISG Deere desarrolla, implementa e
integra nuevas tecnologías en todos los equipos pero que desde el 2017 ha apostado
fuerte por la IA, Aprendizaje automático, IoT y automatización al adquirir BLUE RIVER
TECHNOLOGY, por más de 300 millones de dólares.
*En esta fase, la empresa suele haberse dado cuenta de que la analítica es un diferenciador competitivo. La innovación en los datos y el
análisis de datos es un valor fundamental, y prevalece una cultura analítica.
La estrategia empresarial suele ser descendente y ascendente, con una infraestructura de datos que puede que pueda apoyarla. El proceso
de financiación está garantizado y existe un retorno de la inversión para el análisis de grandes datos.
8. 8
Infraestructura: John Deere tiene comunicaciones bidireccionales entre sus tractores
por medio de tecnología 4G,WiFI, Bluetooth que recolecta datos y los envía a la nube,
además de trabajar con Edge Computing lo que le permite descargar datos de la nube.
Al trabajar con Amazon Web Services y plataforma IaaS de Amazon, le permite tener
respaldos de seguridad y recuperación en caso de desastres. Por estas razones John
Deere tiene Adopción Corporativa en su nivel de madurez.
*En esta etapa de madurez, la infraestructura típica de la empresa es un clúster de clase de producción de nivel 1 que se instala en el centro
de datos y se mantiene en la nube. que se instala y mantiene en el centro de datos, que puede incluir la nube.
Pueden utilizarse diversas tecnologías, como bases de datos empresariales NoSQL, Hadoop y o un almacén de datos, pero la arquitectura
de la información se unifica de forma que sustenta la analítica. Un clúster de Hadoop puede incluir de 50 a 100 nodos en esta fase (aunque
el tamaño del clúster no siempre está ligado a la madurez). También puede tratarse de una distribución comercial porque, a medida que la
empresa sale de la fase de adopción temprana, se preocupa realmente de la gestión de los clústeres. Otro signo de madurez operativa es
que la empresa puede realizar múltiples cargas de trabajo en un clúster.
La instalación, la configuración y el mantenimiento de la infraestructura se definen según los estándares de la empresa. El despliegue se
lleva a cabo a nivel empresarial en la organización con el apoyo completo de los equipos de TI y la participación de la línea de negocio. La
infraestructura y la arquitectura del ecosistema de big data se ajustan a los procedimientos de copia de seguridad y recuperación o de
recuperación de desastres, que están establecidos.
También existe una arquitectura unificada que adopta un enfoque de ecosistema.
9. 9
Gestión de datos: John Deere al permitir que otras compañías realicen instrucciones
con su comunicación bidireccional hacia los tractores así como poder tomar instrucciones
de Deere permite desarrollar y mejorar el trabajo de los tractores, además con la
adquisición y Blue River y la adopción de nuevas tecnologías como la 5G permitir[a
manejar mayor cantidad de datos, crear apps más sofisticadas que permitirán ya no solo
hacer uso para Deere de sus datos sino que además podrá comercializar sus datos a
otras compañías y ser proveedor de tecnología y estas fueron las razones para colocar a
Deere n el nivel de adopción Corporativa.
*Cuanto más madura sea una empresa, mejor podrá gestionar y utilizar sus datos. En esta etapa de madurez, las organizaciones pueden
hacer uso de muchas formas de datos. El intercambio de datos es una actividad de colaboración que se gestiona bien mediante sólidas
políticas de gobernanza de datos. En esta fase se minimiza el aislamiento de datos y la empresa ve el valor de todos los componentes de la
infraestructura de datos. La empresa siempre está buscando nuevos datos para mejorar sus análisis. Desde el punto de vista de la
estrategia de datos, se atribuyen metadatos a nivel de división o de empresa y se define una arquitectura de datos de estado final, ya sea en
una capa semántica, en la arquitectura de la plataforma o en una capa de base de datos. Existe una gestión definida del ciclo de vida de los
datos y un proceso o marco de auditabilidad y linaje de los datos.
10. 10
Análisis: John Deere antes de la adquisición de Blue River en el 2017 no poseía la
infraestructura para poder procesar la gran cantidad de datos masivos para realizar
aprendizaje automático e inteligencia artificial, pero que poco a poco ya se van
desarrollando e integrando las tecnologías para hacer tratamiento de datos masivos a la
línea agrícola ,así como también en un futuro se va a implementar en los tractores,
logrando obtener mayores beneficios para la empresa y un nivel de madurez mas alto.
*La organización puede utilizar análisis descriptivos o incluso predictivos en sus proyectos. En la adopción temprana, el tipo de herramientas
analíticas dependerá del problema que la empresa esté tratando de resolver. Normalmente, las organizaciones siguen utilizando un tipo de
datos, aunque esto puede variar entre las organizaciones en esta fase. Por ejemplo, algunas empresas en adopción temprana están
utilizando grandes volúmenes (es decir, más de 10 TB) de datos estructurados que se almacenan en un dispositivo. La empresa puede
ejecutar algún tipo de modelo predictivo sobre estos datos. Se trata de una implementación establecida y lista para la producción, pero
todavía puede tener un alcance departamental y no ha pasado a otras formas de datos. Por otro lado, una empresa (por ejemplo, un editor)
puede ser madura en la gestión y utilización de grandes cantidades de contenido, pero no es fuerte en el análisis. Algunas empresas
pueden utilizar diferentes tipos de datos, pero no de forma integrada. Por ejemplo, algunas organizaciones pueden utilizar principalmente
datos estructurados internos pero hacer uso de datos no estructurados de las redes sociales en otra parte de la empresa. Además, a veces
un departamento de la empresa tiene un uso específico para el análisis de big data. Podría ser el departamento de supervisión de la red en
el caso de un operador de telefonía móvil. Ese departamento puede estar avanzado en el uso de datos de localización, así como de otros
tipos de datos para su análisis, pero el despliegue está aislado en ese departamento.
11. 11
.
Gobernanza: Jhon Deere y John Stone encargado del ISG tiene su estrategia basada en
la implementación de tecnología en sus productos por lo que desde sus inicios ya se
apostó por la tecnología 4G antes y hoy se apuesta por las tecnología IA, Aprendizaje
automático, IoT, y automatización, siguiendo la iniciativa empresarial de implementar y
usar datos masivos en la empresa, adicional se tiene planificado implementar tecnología
5G para recopilar más volumen de datos, acelerar sus procesos, instalar apps más
sofisticadas y ya no solo ser consumidor de datos sino comercializar a otras compañía y
ser proveedor de tecnología de datos.
*La empresa verdaderamente madura entiende que los grandes datos pueden ser un lastre a punto de ocurrir. Esta empresa se preocupa
por responder a preguntas como: "¿De quién eran los datos? ¿De quién son los datos? ¿Adónde van a parar? ¿Cuánto tiempo durarán?".
En esta etapa de madurez, las organizaciones contarán con un gobierno del programa, con una guía de la PMO para el programa y un
comité de dirección que supervisa el programa desde la perspectiva de la empresa. En el caso de la gobernanza de los datos, se realizará
un esfuerzo similar con una estrategia de datos bien definida y un comité de gestión y dirección que supervise el progreso de los datos. El
patrocinador ejecutivo general participa desde una perspectiva de actualización mensual. El programa se ejecuta como una iniciativa
empresarial presupuestada y planificada y se trata a la par que otros programas de integración de datos.