3. – Datos registrados, que tienen un significado implícito,
sobre fenómenos del mundo real.
– Por lo general representan valores (números, caracteres)
variables (cualitativa o cuantitativa).
– Se utiliza para transmitir, almacenar y deducir información.
CONCEPTO DE DATOS
4. Central do Brasil
Walter Sales
Fernanda Montenegro
titular
director
actriz principal
METADATOS
Facilitan la comprensión de las relaciones y la utilidad de la
información de datos. Por ejemplo, en un archivo MP3, su cabecera
incluye metadatos que describen el tipo de fichero y proporciona
información sobre su origen, el título del álbum, el artista, etc.
5. FUENTES DE DATOS
Los datos pueden ser
almacenados en:
Fuentes de datos privadas:
(disponibles en las
organizaciones)
Fuentes de datos públicas:
(disponibles en la Web).
Los datos pueden tener
formatos diferentes:
Datos estructurados:
(por ejemplo, bases de datos
relacionales).
Datos semi-estructurados:
(por ejemplo, documentos
XML).
Datos no estructurados:
(por ejemplo, documentos de
texto).
6. DATOS ESTRUCTURADOS
• Los datos de los sistemas transaccionales.
• Los datos almacenados en bases de datos
relacionales.
• Tienen una estructura fija y bien definida
(esquema de base de datos).
FUENTES DE DATOS
7. • Ausencia de una estructura regular, o la
estructura puede evolucionar impredecible
y los datos pueden estar incompletos.
• Estructura irregular (datos heterogéneos).
• Los tipos son sólo indicativos.
• La estructura puede ser implícita.
• Manejo de datos en la Web (xml).
FUENTES DE DATOS
DATOS SEMI-ESTRUCTURADOS
Ejemplo:
<?xml version="1.0" encoding="ug-‐8"?>
<livraria>
<livro id="L01" ano="1936">
<autor> Jorge Amado </autor>
<titulo>Mar Morto</titulo>
</livro>
<livro id="L04" ano="1930">
<autor>
<nome>Rachel</nome >
<sobrenome>de Queiroz</sobrenome >
</autor>
<titulo>O Quinze</titulo>
<genero> Romance </genero>
</livro>
</livraria>
8. • Falta de estructura.
• Los datos no tienen un formato definido.
• Los datos almacenados en archivos o documentos.
FUENTES DE DATOS
DATOS NO-ESTRUCTURADOS
9. BIG DATA
Es la gestión y análisis de enormes volúmenes de
datos que no pueden ser tratados de manera
convencional, ya que superan los límites y
capacidades de las herramientas de software
habitualmente utilizadas para la captura, gestión y
procesamiento de datos.
Términos relacionados
• Data lake: donde se almacenan cantidades
ilimitadas de datos en cualquier formato y tipo.
• Hadoop: software de código abierto para
almacenar y procesar datos en clusters de
hardware básico.
11. INTEGRACIÓN DE DATOS
¿Cómo ofrecer una visión
global de datos distribuidos a
través de fuentes de datos
heterogéneas y autónomas?
resumen de los
datos
Las bases de datos pueden llegar a ser bastante complejas, y esa es la razón
por la que la integración de datos sigue siendo una disciplina en desarrollo,
aunque se realiza desde hace más de 30 años.
El objetivo de la integración de datos es reunir datos de diferentes fuentes,
combinarlos y presentarlos de una manera que parezca ser un todo
unificado.
12. La integración de datos permite combinar datos heterogéneos de muchas fuentes
diferentes en la forma y estructura de una única aplicación.
El mapeo es el proceso de definir la fuente y el destino de los datos así como las
transformaciones que se deben de realizar para mover los datos. Se puede
representar visualmente de con el proceso que siguen los datos desde el inicio
hasta el fin.
ESQUEMA Y MAPEO DE DATOS
13. • CONSOLIDACIÓN DE DATOS
Datawarehouse.
• FEDERACIÓN DE DATOS
Mediadores (Virtual Database).
• PROPAGACIÓN Y CAPTURA DE
CAMBIOS EN LOS DATOS
PEE-TO-PEER (P2P).
21
ARQUITECTURAS DE INTEGRACIÓN
14. DATA WAREHOUSE
El sistema de almacén extrae, transforma y carga (ETL) datos
de orígenes heterogéneos en una sola vista esquema tan
datos llega a ser compatibles entre sí.
15. DATA WAREHOUSE
VENTAJA
Este enfoque ofrece un firmemente
acoplada arquitectura porque los
datos se reconcilian ya físicamente en
un único repositorio consultable, así
que normalmente lleva poco tiempo
para resolver dudas.
DESVENTAJA
Se encuentran problemas en la frescura
de datos, es decir, la información en el
almacén no siempre está actualizado. Así
actualizar un origen de datos original
puede actualizar el almacén, por
consiguiente, la ETL proceso necesita la
ejecución para la sincronización.
Las herramientas más utilizadas son:
• Oracle Warehouse Builder
• Novell Identity Manager
• Microsoft SQL Server Integration
Services (SSIS)
16. traductor traductor traductor
aplicación
consultas
mediador
sub-consultas
datos
MEDIADORES
Un sistema mediador permite que
la información sea obtenida
directamente de las bases de datos
originales a través de una vista
virtual.
Cuando una aplicación solicita
información, el motor mediador
obtiene los datos directamente de
las fuentes (metadatos), los une en
una vista virtual y los resultados de
esta unión son devueltos a la
aplicación.
Las ventajas que brinda esta
técnica es que siempre la
información se encuentra
actualizada, debido a que la
integración se realiza en tiempo
real.
Las herramientas más utilizadas son:
• Symlabs VDS
• IBM Websphere DataStage
• Oracle Data Service Integrator
17. Se basa en un conjunto de modelos
de datos que comparten una o más
relaciones comunes que se refieren a
los metadatos estructurales común a
estos modelos de datos.
La técnica Propagación de datos
consiste en la distribución de datos
desde una fuente de información
hacia otra, lo que
posibilita que la información de
ambas fuentes se encuentre siempre
sincronizada.
Las fuentes de datos deben ser
constantemente actualizadas y este
proceso consiste en mover grandes
volúmenes de datos de un sistema a
otro.
PEE-TO-PEER (P2P)
18. Elección de la arquitectura de
integración
• ¿La integración de datos se
materializará o virtual?
• ¿Se utiliza un esquema de
integración único o múltiples
esquemas?
• ¿ Se puede definir
entre las fuentes de datos
simplemente entre las fuentes
el esquema de integración?
Factores a tener en cuenta para la
elección
• La cantidad de fuentes de
datos para ser integrado.
• La frecuencia de actualización
fuentes.
• La infraestructura de
comunicación.
• Una solución de integración
de datos debe proporcionar
Interoperabilidad.
IMPLEMENTACIÓN DE LA
ARQUITECTURA DE INTEGRACIÓN
19. CONCLUSIÓN
La tarea fundamental para la implantación de una
herramienta de integración de datos es definir en qué
entorno y estado se encuentran los mismos, para realizar la
elección de la técnica y tecnología que más se ajusta a la
situación en cuestión.
La correcta elección de la técnica, tecnología y herramienta
para la integración de datos logrará que la información sea
confiable y exacta con la reducción del tiempo de
búsqueda, acceso y uso de la información global de la
empresa, dado que habrá un único punto de acceso a los
datos, permitiendo una visión unificada, homogénea y en
un único formato.
20. REFERENCIAS
• Oliva Alfonso, D., Pineda Alfonso, T., Kindelan Castro, D., & Carralero Iznaga, J.
(2012). Propuesta de herramientas para la integración de datos. Revista Cubana
de Ingeniería, 3(1), 5-13. doi: https://doi.org/10.1234/rci.v3i1.65
• Copro.com.ar. (2018). Integración de datos - Copro, la enciclopedia libre. [online]
Disponible en: http://copro.com.ar/Integracion_de_datos.html [Recuperado 6 de
Mayo 2018].
• Digital and Digital, C. (2018). Entendiendo la integración de datos y sus
principales desafíos. [online] Colombiadigital.net. Disponible en:
https://colombiadigital.net/actualidad/articulos-informativos/item/9824-
entendiendo-la-integracion-de-datos-y-sus-principales-desafios.html
[Recuperado 3 de Mayo 2018].