White Paper - Data Warehouse Documentation RoadmapDavid Walker
All projects need documentation and many companies provide templates as part of a methodology. This document describes the templates, tools and source documents used by Data Management & Warehousing. It serves two purposes:
• For projects using other methodologies or creating their own set of documents to use as a checklist. This allows the project to ensure that the documentation covers the essential areas for describing the data warehouse.
• To demonstrate our approach to our clients by describing the templates and deliverables that are produced.
Documentation, methodologies and templates are inherently both incomplete and flexible. Projects may wish to add, change, remove or ignore any part of any document. Some may also believe that aspects of one document would sit better in another. If this is the case then users of this document and these templates are encouraged to change them to fit their needs.
Data Management & Warehousing believes that the approach or methodology for building a data warehouse should be to use a series of guides and checklists. This ensures that small teams of relatively skilled resources developing the system can cover all aspects of the project whilst being free to deal with the specific issues of their environment to deliver exceptional solutions, rather than a rigid methodology that ensures that large teams of relatively unskilled staff can meet a minimum standard.
Slides supporting the book "Process Mining: Discovery, Conformance, and Enhancement of Business Processes" by Wil van der Aalst. See also http://springer.com/978-3-642-19344-6 (ISBN 978-3-642-19344-6) and the website http://www.processmining.org/book/start providing sample logs.
06. Transformation Logic Template (Source to Target)Alan D. Duncan
This document template defines an outline structure for the clear and unambiguous definition of transmission of data between one data storage location to another. (a.k.a. Source to Target mapping)
White Paper - Data Warehouse Documentation RoadmapDavid Walker
All projects need documentation and many companies provide templates as part of a methodology. This document describes the templates, tools and source documents used by Data Management & Warehousing. It serves two purposes:
• For projects using other methodologies or creating their own set of documents to use as a checklist. This allows the project to ensure that the documentation covers the essential areas for describing the data warehouse.
• To demonstrate our approach to our clients by describing the templates and deliverables that are produced.
Documentation, methodologies and templates are inherently both incomplete and flexible. Projects may wish to add, change, remove or ignore any part of any document. Some may also believe that aspects of one document would sit better in another. If this is the case then users of this document and these templates are encouraged to change them to fit their needs.
Data Management & Warehousing believes that the approach or methodology for building a data warehouse should be to use a series of guides and checklists. This ensures that small teams of relatively skilled resources developing the system can cover all aspects of the project whilst being free to deal with the specific issues of their environment to deliver exceptional solutions, rather than a rigid methodology that ensures that large teams of relatively unskilled staff can meet a minimum standard.
Slides supporting the book "Process Mining: Discovery, Conformance, and Enhancement of Business Processes" by Wil van der Aalst. See also http://springer.com/978-3-642-19344-6 (ISBN 978-3-642-19344-6) and the website http://www.processmining.org/book/start providing sample logs.
06. Transformation Logic Template (Source to Target)Alan D. Duncan
This document template defines an outline structure for the clear and unambiguous definition of transmission of data between one data storage location to another. (a.k.a. Source to Target mapping)
This is presntation on how you can read a data model and understand the data and business rules contained in it. It is intended for non-technical people
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Modern Data Warehousing with the Microsoft Analytics Platform SystemJames Serra
The traditional data warehouse has served us well for many years, but new trends are causing it to break in four different ways: data growth, fast query expectations from users, non-relational/unstructured data, and cloud-born data. How can you prevent this from happening? Enter the modern data warehouse, which is able to handle and excel with these new trends. It handles all types of data (Hadoop), provides a way to easily interface with all these types of data (PolyBase), and can handle “big data” and provide fast queries. Is there one appliance that can support this modern data warehouse? Yes! It is the Analytics Platform System (APS) from Microsoft (formally called Parallel Data Warehouse or PDW) , which is a Massively Parallel Processing (MPP) appliance that has been recently updated (v2 AU1). In this session I will dig into the details of the modern data warehouse and APS. I will give an overview of the APS hardware and software architecture, identify what makes APS different, and demonstrate the increased performance. In addition I will discuss how Hadoop, HDInsight, and PolyBase fit into this new modern data warehouse.
The right architecture is key for any IT project. This is especially the case for big data projects, where there are no standard architectures which have proven their suitability over years. This session discusses the different Big Data Architectures which have evolved over time, including traditional Big Data Architecture, Streaming Analytics architecture as well as Lambda and Kappa architecture and presents the mapping of components from both Open Source as well as the Oracle stack onto these architectures.
At wetter.com we build analytical B2B data products and heavily use Spark and AWS technologies for data processing and analytics. I explain why we moved from AWS EMR to Databricks and Delta and share our experiences from different angles like architecture, application logic and user experience. We will look how security, cluster configuration, resource consumption and workflow changed by using Databricks clusters as well as how using Delta tables simplified our application logic and data operations.
Slides supporting the book "Process Mining: Discovery, Conformance, and Enhancement of Business Processes" by Wil van der Aalst. See also http://springer.com/978-3-642-19344-6 (ISBN 978-3-642-19344-6) and the website http://www.processmining.org/book/start providing sample logs.
TFM sobre Modelos de Aprendizaje Automático en Ecommerce MJ Cachón Yáñez
TFM del Máster Universitario de Inteligencia de Negocio de UNIR, edición 2020-2021.
El trabajo versa en la elaboración de 3 modelos de clustering con Gower, RFM y K-means, así como 1 modelo de regresión logística, todo ello con datos provenientes de clientes y pedidos de Prestashop, con otros datos de Google Analytics.
Data Vault ReConnect Speed Presenting AM Part TwoHans Hultgren
Second set of 5x5 Speed Presenting Updates:
1) Big Data & Data Vault
2) Modeling the Unit of Work UOW
3) Agile Data Warehousing
4) Ensemble Forms - Survey of other forms
5) Reference Models and the DV EDW
This is a presentation I gave in 2006 for Bill Inmon. The presentation covers Data Vault and how it integrates with Bill Inmon's DW2.0 vision. This is focused on the business intelligence side of the house.
IF you want to use these slides, please put (C) Dan Linstedt, all rights reserved, http://LearnDataVault.com
Wallchart - Data Warehouse Documentation RoadmapDavid Walker
All projects need documentation and many companies provide templates as part of a methodology. This document describes the templates, tools and source documents used by Data Management & Warehousing. It serves two purposes:
• For projects using other methodologies or creating their own set of documents to use as a checklist. This allows the project to ensure that the documentation covers the essential areas for describing the data warehouse.
• To demonstrate our approach to our clients by describing the templates and deliverables that are produced.
Documentation, methodologies and templates are inherently both incomplete and flexible. Projects may wish to add, change, remove or ignore any part of any document. Some may also believe that aspects of one document would sit better in another. If this is the case then users of this document and these templates are encouraged to change them to fit their needs.
Data Management & Warehousing believes that the approach or methodology for building a data warehouse should be to use a series of guides and checklists. This ensures that small teams of relatively skilled resources developing the system can cover all aspects of the project whilst being free to deal with the specific issues of their environment to deliver exceptional solutions, rather than a rigid methodology that ensures that large teams of relatively unskilled staff can meet a minimum standard.
Transformacion-de-John-Deere-a-traves-del-Big-Data-en-la-Industria-Agricola.pptxwilliam Sarti José
El artículo describe la evolución tecnológica de John Deere a lo largo del tiempo, desde sus inicios en 1918 hasta el presente, centrándose en la adopción de tecnologías como inteligencia artificial (IA), aprendizaje automático (machine learning), redes neuronales, 5G e Internet de las cosas (IoT). Aquí hay un análisis general:
This is presntation on how you can read a data model and understand the data and business rules contained in it. It is intended for non-technical people
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Modern Data Warehousing with the Microsoft Analytics Platform SystemJames Serra
The traditional data warehouse has served us well for many years, but new trends are causing it to break in four different ways: data growth, fast query expectations from users, non-relational/unstructured data, and cloud-born data. How can you prevent this from happening? Enter the modern data warehouse, which is able to handle and excel with these new trends. It handles all types of data (Hadoop), provides a way to easily interface with all these types of data (PolyBase), and can handle “big data” and provide fast queries. Is there one appliance that can support this modern data warehouse? Yes! It is the Analytics Platform System (APS) from Microsoft (formally called Parallel Data Warehouse or PDW) , which is a Massively Parallel Processing (MPP) appliance that has been recently updated (v2 AU1). In this session I will dig into the details of the modern data warehouse and APS. I will give an overview of the APS hardware and software architecture, identify what makes APS different, and demonstrate the increased performance. In addition I will discuss how Hadoop, HDInsight, and PolyBase fit into this new modern data warehouse.
The right architecture is key for any IT project. This is especially the case for big data projects, where there are no standard architectures which have proven their suitability over years. This session discusses the different Big Data Architectures which have evolved over time, including traditional Big Data Architecture, Streaming Analytics architecture as well as Lambda and Kappa architecture and presents the mapping of components from both Open Source as well as the Oracle stack onto these architectures.
At wetter.com we build analytical B2B data products and heavily use Spark and AWS technologies for data processing and analytics. I explain why we moved from AWS EMR to Databricks and Delta and share our experiences from different angles like architecture, application logic and user experience. We will look how security, cluster configuration, resource consumption and workflow changed by using Databricks clusters as well as how using Delta tables simplified our application logic and data operations.
Slides supporting the book "Process Mining: Discovery, Conformance, and Enhancement of Business Processes" by Wil van der Aalst. See also http://springer.com/978-3-642-19344-6 (ISBN 978-3-642-19344-6) and the website http://www.processmining.org/book/start providing sample logs.
TFM sobre Modelos de Aprendizaje Automático en Ecommerce MJ Cachón Yáñez
TFM del Máster Universitario de Inteligencia de Negocio de UNIR, edición 2020-2021.
El trabajo versa en la elaboración de 3 modelos de clustering con Gower, RFM y K-means, así como 1 modelo de regresión logística, todo ello con datos provenientes de clientes y pedidos de Prestashop, con otros datos de Google Analytics.
Data Vault ReConnect Speed Presenting AM Part TwoHans Hultgren
Second set of 5x5 Speed Presenting Updates:
1) Big Data & Data Vault
2) Modeling the Unit of Work UOW
3) Agile Data Warehousing
4) Ensemble Forms - Survey of other forms
5) Reference Models and the DV EDW
This is a presentation I gave in 2006 for Bill Inmon. The presentation covers Data Vault and how it integrates with Bill Inmon's DW2.0 vision. This is focused on the business intelligence side of the house.
IF you want to use these slides, please put (C) Dan Linstedt, all rights reserved, http://LearnDataVault.com
Wallchart - Data Warehouse Documentation RoadmapDavid Walker
All projects need documentation and many companies provide templates as part of a methodology. This document describes the templates, tools and source documents used by Data Management & Warehousing. It serves two purposes:
• For projects using other methodologies or creating their own set of documents to use as a checklist. This allows the project to ensure that the documentation covers the essential areas for describing the data warehouse.
• To demonstrate our approach to our clients by describing the templates and deliverables that are produced.
Documentation, methodologies and templates are inherently both incomplete and flexible. Projects may wish to add, change, remove or ignore any part of any document. Some may also believe that aspects of one document would sit better in another. If this is the case then users of this document and these templates are encouraged to change them to fit their needs.
Data Management & Warehousing believes that the approach or methodology for building a data warehouse should be to use a series of guides and checklists. This ensures that small teams of relatively skilled resources developing the system can cover all aspects of the project whilst being free to deal with the specific issues of their environment to deliver exceptional solutions, rather than a rigid methodology that ensures that large teams of relatively unskilled staff can meet a minimum standard.
Transformacion-de-John-Deere-a-traves-del-Big-Data-en-la-Industria-Agricola.pptxwilliam Sarti José
El artículo describe la evolución tecnológica de John Deere a lo largo del tiempo, desde sus inicios en 1918 hasta el presente, centrándose en la adopción de tecnologías como inteligencia artificial (IA), aprendizaje automático (machine learning), redes neuronales, 5G e Internet de las cosas (IoT). Aquí hay un análisis general:
Alejandro Girardotti, Senior Manager de Level 3 Communications.
Leandro Ruiz, Director Preventa Regional para CLA en Teradata.
Presentación en el 14º Congreso Internacional de Tecnología para el Negocio Financiero.
2 y 3 de julio de 2014.
Este informe de investigación realiza un análisis de la aplicación del Big Data y la transformación digital que esto supone para las empresas con datos del 2018-2019
Video:
https://youtu.be/6JWn78NLuy8
¿Qué nos imaginamos cuando hablamos de Big Data ?
Repasemos algunos conceptos y miremos detalles que ha estado haciendo parte del Big Data
¿Y cómo procedemos con tanta información ?
¿Cómo es la información generada, qué cualidades debe cumplir?
¿Qué nos ha traído hasta aquí ?
Herramientas a lo largo del tiempo. Cuantas ?
Y… ¿cómo puedo ayudar / participar en esto ?
¿Qué roles se pueden encontrar en Big Data ? ¿Qué debo saber para hacer parte de esto ?
¿Continua el boom de Data Architects ?
Los Data Architects siguen siendo indispensables, ¿Por qué?
¿Por dónde comenzar ?
Cuáles herramientas son una base para mi inicio.
Excelente libro en español de 34 páginas creado por Proximity sobre el uso de Big Data para el Marketing y el CRM.
http://www.juancmejia.com/
https://twitter.com/JuanCMejiaLlano
1º Caso Practico Lubricacion Rodamiento Motor 10CVCarlosAroeira1
Caso pratico análise analise de vibrações em rolamento de HVAC para resolver problema de lubrificação apresentado durante a 1ª reuniao do Vibration Institute em Lisboa em 24 de maio de 2024
ARQUITECTURA BIG DATA VISIÓN 360 ° DE CLIENTES Y NIVEL DE MADUREZ E IMPLEMENTACIÓN BIG DATA EN JOHN DEERE CON TDWI
1. i
MAESTRIA EN DATA SCIENCE
CASOS PRÁCTICOS
LUIS ALBERTO CUNALATA BOMBON
CASO 1. DISEÑO DE ARQUITECTURA PARA VISIÓN CLIENTE
360 º
1. Las fuentes de datos que se van a procesar como entrada. Explicar
cuáles de estas fuentes son estructuradas, semiestructuradas y no
estructuradas.
Para una visión 360 de clientes los datos son:
Estructurados: CDP, MDM, DMP, Marketing Automatizado, CRM, Call-Center, ERP.
Semi estructurados: Celulares, Redes Sociales, Sensores, Post-terminales.
No-estructurados: Llamadas/Chat, Imágenes, Videos, e-mails.
2. Diferenciar todas las capas de almacenamiento que tendrá la
solución. Explicar y justificar el porqué de cada una de ellas
2. 2
. Figura 1.- Arquitectura Visión 360 de clientes
Fuente: Elaboración propia
OZZIE, con este software podemos planificar los flujos de trabajo dentro del
ecosistema de Haddop, por lo que podremos ejecutar los Jobs de manera
secuencial dando una mejor administración y ejecución de las tareas en general.
SQOOP,lo usamos para recibir los datos estructurados de CDP, MDM, DMP, del
Marketing automatizado, DRM, Call Center y ERP
FLUME, lo usamos para recibir la gran cantidad de datos generados semi y no
estructurados de celulares, redes sociales, sensores, post-terminales, llamadas,
Imágenes, videos, e-mails generados y conectados del cliente.
HADOOP, nos permite almacenar y procesar la gran cantidad de datos
generados de nuestros clientes.
SPARK STREAMING, nos permite procesar la información en tiempo real que
ingresa para darle tratamiento.
HIVE, para proporcionar agrupación, consulta, y análisis de datos.
POWERBI, TABLEU, permiten al analista de datos acceder y visualizar la
información de los clientes.
3. 3
En la figura 2 podemos observar la arquitectura para la extracción y
procesamiento de datos para clientes con visión 360 con big data sin especificar
los softwares utilizados.
Figura 2.- Arquitectura recolección de datos masivos
Fuente: Teradata
4. 4
CASO 2. ANALIZAR EL ÍNDICE DE MADUREZ DEL MODELO DE
NEGOCIO DE BIG DATA EN EL CASO DE JOHN DEERE
Ferguson, S. “John deere bets the farm on AI, IoT”; 2018. [En línea]
En el texto, se habla del proceso de transformación abordado por el
fabricante de equipamiento agrícola John Deere. Leer el artículo y,
utilizando el índice de madurez del modelo de negocio de big data de la
figura, hacer un análisis explicando y justificando en qué etapa estaría John
Deere en el momento que se describe en el artículo y qué etapas crees que
ha seguido la empresa hasta llegar ahí o, en su caso, qué etapas seguirá
posteriormente para completar las etapas descritas en el modelo.
John Deere apuesta la granja a la IA y el IoT
Scott Ferguson. Managing Editor, Light Reading. 3/12/2018
En los últimos 100 años, John Deere, con sus icónicos tractores verdes, ha sido
un serio inversor en tecnología. Comenzó en 1918, cuando Deere compró
Waterloo Gasoline Engine Company, y transformó la empresa de un negocio de
instrumentos agrícolas en una empresa de tractores industriales de pleno
derecho. A finales de la década de 1990, Deere invirtió en GPS con la adquisición
de Navcom, que ayudó a allanar el camino para instalar módems 4G LTE en
todos sus equipos. Ahora, cuando llevamos dos décadas de siglo XXI, se trata de
inteligencia artificial, aprendizaje automático, redes neuronales, 5G e Internet de
las cosas (IoT). En 2017, Deere pagó más de 300 millones de dólares por Blue
River Technology, una startup de Silicon Valley que está aplicando estas
tecnologías al negocio agrícola. Como vicepresidente senior de Intelligent
Solutions Group de Deere, John Stone no solo supervisa la adquisición de Blue
River, sino también las otras innovaciones tecnológicas de la compañía, incluida
una mayor confianza en la infraestructura como servicio (IaaS) para satisfacer
sus necesidades de computación en la nube. "Puedes pensar en ISG como la
5. 5
división de alta tecnología de John Deere, por lo que tenemos la responsabilidad
de desarrollar, diseñar e integrar estas nuevas tecnologías en todos nuestros
equipos", dijo Stone a Enterprise Cloud News durante la reciente exposición del
Mobile World Congress en Barcelona, donde se interesó por los últimos
desarrollos en 5G e IoT. "Cuando dices IoT, normalmente piensas en cosas que
caben en tu bolsillo", dijo Stone, quien ha trabajado para la compañía durante 16
años y tiene experiencia en ingeniería mecánica, así como en programación. "La
“T” para nosotros son los tractores de diez toneladas. Nuestro equipamiento
ahora tiene módems 4G LTE, con WiFi y Bluetooth, y eso permite una
comunicación bidireccional para recolectar datos de la granja y enviarlos a la
nube. También toman instrucciones de Deere o de distribuidores u otras
compañías de software y las envían a la máquina. La comunicación bidireccional
le dice a la máquina qué hacer. Además, las máquinas también pueden
comunicarse entre sí en el campo ". Se espera que el acuerdo con Blue River
lleve esta aproximación a las máquinas industriales y la agricultura al siguiente
nivel. Ahora que el acuerdo entre Deere y Blue River está cerrado, las dos
compañías están comenzando a colaborar más, aunque Stone señala que Blue
River continuará operando como una empresa independiente.
El futuro de la agricultura
Blue River está desarrollando una tecnología basada en el aprendizaje
automático llamada see and spray, que puede reducir la cantidad de herbicida
utilizado en la agricultura. Específicamente, un rociador toma fotografías de
plantas y, mediante el aprendizaje automático y los algoritmos, puede determinar
cuáles son malezas y cuáles son cultivos, y solo rocía herbicida sobre las
malezas. Eso es importante cuando un campo típico puede tener entre uno y dos
millones de plantas.
Este enfoque de la agricultura ofrece una solución doble. La primera es reducir o
eliminar la cantidad de herbicida rociado en los alimentos que comen las
personas. La segunda es la reducción de costos. Stone estima que un agricultor
de soja o algodón podría ahorrar entre 50 y 80 dólares por acre y reducir el gasto
en herbicidas hasta en un 90 %. Esto es solo el comienzo. "Nuestra hoja de ruta
requiere que el aprendizaje automático y la inteligencia artificial se incorporen en
cada pieza de equipamiento de John Deere con el tiempo", dijo Stone. "Lo que
6. 6
hacemos con nuestros ojos se puede hacer con mayor precisión con una cámara
y una computadora, con un sistema que recuerda esos datos, nunca olvida y se
vuelve más inteligente cada vez que pasa por el campo. Esto también se aplica a
nuestras divisiones de construcción y equipo pesado”. Además de IA, aprendizaje
automático e IoT, hay inversiones en automatización. El ejemplo más obvio son
las máquinas autónomas. Sin embargo, también hay otros avances. A finales de
año, Deere planea lanzar una aplicación que ofrecerá ajustes de configuración de
la máquina desde una ubicación central, y el operador puede aceptar o rechazar
esas sugerencias. A medida que todo esto se va automatizando, una ubicación
central puede operar múltiples máquinas en el campo, hacer sugerencias y
transmitir información adicional. Todo esto está respaldado por la nube,
específicamente por Amazon Web Services. Además de utilizar la plataforma
IaaS de Amazon, Deere es un gran usuario de Lambda, la versión AWS de
computación sin servidor que permite que las aplicaciones en la nube respondan
a diferentes eventos, por lo que utiliza recursos solo cuando es necesario.
El futuro tecnológico de Deere
El próximo gran paso para Stone y su equipo sería la introducción generalizada
de 5G para acelerar más procesos y disponer de un mayor ancho de banda para
admitir aplicaciones más sofisticadas y recopilar mayores volúmenes de datos,
por ejemplo, videos de alta definición, ya sea de las máquinas o del mismo
campo.
Por ahora, cuando todavía falta un tiempo para un despliegue completo de 5G,
Deere se conforma con los módems 4G LTE conectados a cada vehículo, lo que
permite usar edge computing y descargar datos a la nube.
Como en el pasado, Deere no limita a estos desarrollos tecnológicos sólo para sí,
aunque sigue siendo el usuario principal. Por el contrario, es probable que estos
desarrollos se comercialicen y vendan a otras compañías, lo que convierte a
Deere en un proveedor de tecnología en toda regla. "Sabemos con certeza que la
tecnología es el futuro y que la inteligencia artificial y el aprendizaje automático
son el futuro de la agricultura", dijo Stone. "De esta manera, va a ser más
eficiente y mejor de lo que es hoy. Dicho esto, continuamos fabricando estas
máquinas muy grandes y muy sofisticadas. Mi grupo es sin duda una compañía
100 % tecnológica dentro de Deere".
7. 7
Aplicando el análisis del modelo de madurez de TDWI se obtuvo los siguientes
resultados:
Modelo de madurez de Big Data usando TDWI
Organización: John Deere se ha dado cuenta que la analítica es un diferenciador por lo
que ha invertido en tecnología desde los años 90 implementado GPS y tecnología 4G a
sus tractores, además que toda su división de ISG Deere desarrolla, implementa e
integra nuevas tecnologías en todos los equipos pero que desde el 2017 ha apostado
fuerte por la IA, Aprendizaje automático, IoT y automatización al adquirir BLUE RIVER
TECHNOLOGY, por más de 300 millones de dólares.
*En esta fase, la empresa suele haberse dado cuenta de que la analítica es un diferenciador competitivo. La innovación en los datos y el
análisis de datos es un valor fundamental, y prevalece una cultura analítica.
La estrategia empresarial suele ser descendente y ascendente, con una infraestructura de datos que puede que pueda apoyarla. El proceso
de financiación está garantizado y existe un retorno de la inversión para el análisis de grandes datos.
8. 8
Infraestructura: John Deere tiene comunicaciones bidireccionales entre sus tractores
por medio de tecnología 4G,WiFI, Bluetooth que recolecta datos y los envía a la nube,
además de trabajar con Edge Computing lo que le permite descargar datos de la nube.
Al trabajar con Amazon Web Services y plataforma IaaS de Amazon, le permite tener
respaldos de seguridad y recuperación en caso de desastres. Por estas razones John
Deere tiene Adopción Corporativa en su nivel de madurez.
*En esta etapa de madurez, la infraestructura típica de la empresa es un clúster de clase de producción de nivel 1 que se instala en el centro
de datos y se mantiene en la nube. que se instala y mantiene en el centro de datos, que puede incluir la nube.
Pueden utilizarse diversas tecnologías, como bases de datos empresariales NoSQL, Hadoop y o un almacén de datos, pero la arquitectura
de la información se unifica de forma que sustenta la analítica. Un clúster de Hadoop puede incluir de 50 a 100 nodos en esta fase (aunque
el tamaño del clúster no siempre está ligado a la madurez). También puede tratarse de una distribución comercial porque, a medida que la
empresa sale de la fase de adopción temprana, se preocupa realmente de la gestión de los clústeres. Otro signo de madurez operativa es
que la empresa puede realizar múltiples cargas de trabajo en un clúster.
La instalación, la configuración y el mantenimiento de la infraestructura se definen según los estándares de la empresa. El despliegue se
lleva a cabo a nivel empresarial en la organización con el apoyo completo de los equipos de TI y la participación de la línea de negocio. La
infraestructura y la arquitectura del ecosistema de big data se ajustan a los procedimientos de copia de seguridad y recuperación o de
recuperación de desastres, que están establecidos.
También existe una arquitectura unificada que adopta un enfoque de ecosistema.
9. 9
Gestión de datos: John Deere al permitir que otras compañías realicen instrucciones
con su comunicación bidireccional hacia los tractores así como poder tomar instrucciones
de Deere permite desarrollar y mejorar el trabajo de los tractores, además con la
adquisición y Blue River y la adopción de nuevas tecnologías como la 5G permitir[a
manejar mayor cantidad de datos, crear apps más sofisticadas que permitirán ya no solo
hacer uso para Deere de sus datos sino que además podrá comercializar sus datos a
otras compañías y ser proveedor de tecnología y estas fueron las razones para colocar a
Deere n el nivel de adopción Corporativa.
*Cuanto más madura sea una empresa, mejor podrá gestionar y utilizar sus datos. En esta etapa de madurez, las organizaciones pueden
hacer uso de muchas formas de datos. El intercambio de datos es una actividad de colaboración que se gestiona bien mediante sólidas
políticas de gobernanza de datos. En esta fase se minimiza el aislamiento de datos y la empresa ve el valor de todos los componentes de la
infraestructura de datos. La empresa siempre está buscando nuevos datos para mejorar sus análisis. Desde el punto de vista de la
estrategia de datos, se atribuyen metadatos a nivel de división o de empresa y se define una arquitectura de datos de estado final, ya sea en
una capa semántica, en la arquitectura de la plataforma o en una capa de base de datos. Existe una gestión definida del ciclo de vida de los
datos y un proceso o marco de auditabilidad y linaje de los datos.
10. 10
Análisis: John Deere antes de la adquisición de Blue River en el 2017 no poseía la
infraestructura para poder procesar la gran cantidad de datos masivos para realizar
aprendizaje automático e inteligencia artificial, pero que poco a poco ya se van
desarrollando e integrando las tecnologías para hacer tratamiento de datos masivos a la
línea agrícola ,así como también en un futuro se va a implementar en los tractores,
logrando obtener mayores beneficios para la empresa y un nivel de madurez mas alto.
*La organización puede utilizar análisis descriptivos o incluso predictivos en sus proyectos. En la adopción temprana, el tipo de herramientas
analíticas dependerá del problema que la empresa esté tratando de resolver. Normalmente, las organizaciones siguen utilizando un tipo de
datos, aunque esto puede variar entre las organizaciones en esta fase. Por ejemplo, algunas empresas en adopción temprana están
utilizando grandes volúmenes (es decir, más de 10 TB) de datos estructurados que se almacenan en un dispositivo. La empresa puede
ejecutar algún tipo de modelo predictivo sobre estos datos. Se trata de una implementación establecida y lista para la producción, pero
todavía puede tener un alcance departamental y no ha pasado a otras formas de datos. Por otro lado, una empresa (por ejemplo, un editor)
puede ser madura en la gestión y utilización de grandes cantidades de contenido, pero no es fuerte en el análisis. Algunas empresas
pueden utilizar diferentes tipos de datos, pero no de forma integrada. Por ejemplo, algunas organizaciones pueden utilizar principalmente
datos estructurados internos pero hacer uso de datos no estructurados de las redes sociales en otra parte de la empresa. Además, a veces
un departamento de la empresa tiene un uso específico para el análisis de big data. Podría ser el departamento de supervisión de la red en
el caso de un operador de telefonía móvil. Ese departamento puede estar avanzado en el uso de datos de localización, así como de otros
tipos de datos para su análisis, pero el despliegue está aislado en ese departamento.
11. 11
.
Gobernanza: Jhon Deere y John Stone encargado del ISG tiene su estrategia basada en
la implementación de tecnología en sus productos por lo que desde sus inicios ya se
apostó por la tecnología 4G antes y hoy se apuesta por las tecnología IA, Aprendizaje
automático, IoT, y automatización, siguiendo la iniciativa empresarial de implementar y
usar datos masivos en la empresa, adicional se tiene planificado implementar tecnología
5G para recopilar más volumen de datos, acelerar sus procesos, instalar apps más
sofisticadas y ya no solo ser consumidor de datos sino comercializar a otras compañía y
ser proveedor de tecnología de datos.
*La empresa verdaderamente madura entiende que los grandes datos pueden ser un lastre a punto de ocurrir. Esta empresa se preocupa
por responder a preguntas como: "¿De quién eran los datos? ¿De quién son los datos? ¿Adónde van a parar? ¿Cuánto tiempo durarán?".
En esta etapa de madurez, las organizaciones contarán con un gobierno del programa, con una guía de la PMO para el programa y un
comité de dirección que supervisa el programa desde la perspectiva de la empresa. En el caso de la gobernanza de los datos, se realizará
un esfuerzo similar con una estrategia de datos bien definida y un comité de gestión y dirección que supervise el progreso de los datos. El
patrocinador ejecutivo general participa desde una perspectiva de actualización mensual. El programa se ejecuta como una iniciativa
empresarial presupuestada y planificada y se trata a la par que otros programas de integración de datos.