ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
Etl extracción transformación y carga de datos
1. Ensayo del ETL: extracción, transformación y carga de datos
Integrantes:
Ibarra Milton
UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
CAMPUS EL CARMEN
Faculta:
Ciencias Informática
El Carmen, Ecuador
2015
*Patricio Quiroz
2. Introducción
El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer,
transformar y cargar).
ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar
datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en
otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema
operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar
para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas.
El principal propósito de ETL es transportar la información de la empresa desde las
aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este
proceso consta de tres etapas:
Extracción de datos
Transformación de datos
Carga de datos
La primera etapa esencialmente extrae los datos desde los sistemas de origen.
La segunda etapa de transformación aplica una serie de funciones o reglas de negocio
sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión
existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación
de los datos.
La etapa de carga se refiere al momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. Dependiendo de los requisitos de
la empresa, este proceso puede contener una extensa diversidad de acciones. En
algunas bases de datos se sobrescribe la información anterior con nuevos datos.
Los Data Warehose es un repositorio de datos que mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos y disponer de
un rastro de toda la historia de un valor a lo largo del tiempo.
3. Desarrollo
ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema
Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de
sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando
y transformando la información si es necesario) y finalmente genera los datos en el
formato apropiado para que puedan ser utilizados por las herramientas de análisis.
La extracción, transformación y carga (el proceso ETL) es necesario para acceder a
los datos de las fuentes de información al datawarehouse. (Cano, 2007)
Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:
Extracción
Limpieza
Transformación
Integración
Actualización
Extracción
La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas
de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros
sistemas.
Cada sistema separado puede usar una organización diferente de los datos o formatos
distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u
otras estructuras diferentes. La extracción convierte los datos a un formato preparado
para iniciar el proceso de transformación. (Espinosa, s.f.)
La extracción de los datos se puede realizar bien de forma manual o bien utilizando
herramientas de ETL. De forma manual significa programar rutinas utilizando
lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las
fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar
la base de datos que tienen los motores de bases de datos. La alternativa más
rentable es la que provee las herramientas especializadas de ETL, ya que han sido
diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y
detectar los errores durante el proceso o durante la carga. Cada vez más los
motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007)
El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas
transaccionales que son necesarios y prepararlos para el resto de los subprocesos de
ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor
calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger
aquellas que sean mejores.
4. Limpieza
La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la
tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin
valor, falta de atributos interesantes para el contexto o el valor del atributo.
Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen
herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos
es clave: los nombres y las direcciones de los clientes siempre necesitan ser
limpiados, eliminar duplicados, etc. (Cano, 2007)
Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a
describir a continuación:
Depurar los valores: Este proceso localiza e identifica los elementos individuales de
información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo:
separar el nombre completo en nombre, primer apellido, segundo apellido, o la
dirección en: calle, numero, piso, etcétera.
Corregir: Este proceso corrige los valores individuales de los atributos usando
algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una
dirección y el código postal correspondiente.
Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en
formatos definidos y consistentes aplicando procedimientos de estandarización y
definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo
los diminutivos de nombres por los nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos
y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por
ejemplo: identificando nombres y direcciones similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados
y los junta en una sola representación.
Transformación
Los datos originarios de repositorios digitales diferentes no suelen coincidir en
formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones
de transformación. El objetivo no es otro que evitar duplicidades innecesarias e
impedir la generación de islas de datos inconexas. Las transformaciones aplican una
serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en
datos destino.
Las reglas de negocios describe las políticas, normas, operaciones, definiciones y
restricciones presentes en una organización y que son de vital importancia para
alcanzar los objetivos.
La transformación de los datos se hace partiendo de los datos una vez “limpios”.
Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
5. han sido establecidos. La transformación incluye: cambios de formato, sustitución de
códigos, valores derivados y agregados. (Cano, 2007)
Integración
El proceso de integración o carga es el momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. La etapa de carga interactúa en
forma directa con la base de datos de destino. Es fundamental comprobar que se ha
desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones
erróneas a los usuarios.
Actualización
Este proceso determina la periodicidad con el que haremos nuevas cargas de datos
al datawarehouse.
HERRAMIENTAS ETL
La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación,
que puede ser la ubicación original, una computadora nueva, una nueva base de
datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL
que le proporcionan todo lo necesario para extraer, transformar y cargar datos
Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos
desde múltiples sistemas fuentes a destinos heterogéneos.
SAS Warehouse Administrator: Solución de extracción, transformación, carga y
limpieza de datos que facilita la definición visual de los procesos corporativos y su
documentación.
Teradata Warehouse Builder: Herramienta de carga y descarga que permite al
usuario generar un job o secuencia de comandos para acceder a datos heterogéneos,
comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de
control para el relanzamiento del proceso en caso de caída del sistema.
CONCLUSIÓN
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos”
(Data Management).
Bibliografía
Cano, J. L. (2007). Business intelligence: competir con información.
Espinosa, R. (s.f.). dataprix. Obtenido de
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-
que-valen-productos-mas-conocidos-etl-s-open-sour