SlideShare una empresa de Scribd logo
Ensayo del ETL: extracción, transformación y carga de datos
Integrantes:
Ibarra Milton
UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
CAMPUS EL CARMEN
Faculta:
Ciencias Informática
El Carmen, Ecuador
2015
*Patricio Quiroz
Introducción
El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer,
transformar y cargar).
ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar
datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en
otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema
operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar
para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas.
El principal propósito de ETL es transportar la información de la empresa desde las
aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este
proceso consta de tres etapas:
 Extracción de datos
 Transformación de datos
 Carga de datos
La primera etapa esencialmente extrae los datos desde los sistemas de origen.
La segunda etapa de transformación aplica una serie de funciones o reglas de negocio
sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión
existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación
de los datos.
La etapa de carga se refiere al momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. Dependiendo de los requisitos de
la empresa, este proceso puede contener una extensa diversidad de acciones. En
algunas bases de datos se sobrescribe la información anterior con nuevos datos.
Los Data Warehose es un repositorio de datos que mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos y disponer de
un rastro de toda la historia de un valor a lo largo del tiempo.
Desarrollo
ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema
Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de
sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando
y transformando la información si es necesario) y finalmente genera los datos en el
formato apropiado para que puedan ser utilizados por las herramientas de análisis.
La extracción, transformación y carga (el proceso ETL) es necesario para acceder a
los datos de las fuentes de información al datawarehouse. (Cano, 2007)
Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:
 Extracción
 Limpieza
 Transformación
 Integración
 Actualización
Extracción
La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas
de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros
sistemas.
Cada sistema separado puede usar una organización diferente de los datos o formatos
distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u
otras estructuras diferentes. La extracción convierte los datos a un formato preparado
para iniciar el proceso de transformación. (Espinosa, s.f.)
La extracción de los datos se puede realizar bien de forma manual o bien utilizando
herramientas de ETL. De forma manual significa programar rutinas utilizando
lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las
fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar
la base de datos que tienen los motores de bases de datos. La alternativa más
rentable es la que provee las herramientas especializadas de ETL, ya que han sido
diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y
detectar los errores durante el proceso o durante la carga. Cada vez más los
motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007)
El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas
transaccionales que son necesarios y prepararlos para el resto de los subprocesos de
ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor
calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger
aquellas que sean mejores.
Limpieza
La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la
tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin
valor, falta de atributos interesantes para el contexto o el valor del atributo.
Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen
herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos
es clave: los nombres y las direcciones de los clientes siempre necesitan ser
limpiados, eliminar duplicados, etc. (Cano, 2007)
Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a
describir a continuación:
Depurar los valores: Este proceso localiza e identifica los elementos individuales de
información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo:
separar el nombre completo en nombre, primer apellido, segundo apellido, o la
dirección en: calle, numero, piso, etcétera.
Corregir: Este proceso corrige los valores individuales de los atributos usando
algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una
dirección y el código postal correspondiente.
Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en
formatos definidos y consistentes aplicando procedimientos de estandarización y
definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo
los diminutivos de nombres por los nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos
y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por
ejemplo: identificando nombres y direcciones similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados
y los junta en una sola representación.
Transformación
Los datos originarios de repositorios digitales diferentes no suelen coincidir en
formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones
de transformación. El objetivo no es otro que evitar duplicidades innecesarias e
impedir la generación de islas de datos inconexas. Las transformaciones aplican una
serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en
datos destino.
Las reglas de negocios describe las políticas, normas, operaciones, definiciones y
restricciones presentes en una organización y que son de vital importancia para
alcanzar los objetivos.
La transformación de los datos se hace partiendo de los datos una vez “limpios”.
Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
han sido establecidos. La transformación incluye: cambios de formato, sustitución de
códigos, valores derivados y agregados. (Cano, 2007)
Integración
El proceso de integración o carga es el momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. La etapa de carga interactúa en
forma directa con la base de datos de destino. Es fundamental comprobar que se ha
desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones
erróneas a los usuarios.
Actualización
Este proceso determina la periodicidad con el que haremos nuevas cargas de datos
al datawarehouse.
HERRAMIENTAS ETL
La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación,
que puede ser la ubicación original, una computadora nueva, una nueva base de
datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL
que le proporcionan todo lo necesario para extraer, transformar y cargar datos
Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos
desde múltiples sistemas fuentes a destinos heterogéneos.
SAS Warehouse Administrator: Solución de extracción, transformación, carga y
limpieza de datos que facilita la definición visual de los procesos corporativos y su
documentación.
Teradata Warehouse Builder: Herramienta de carga y descarga que permite al
usuario generar un job o secuencia de comandos para acceder a datos heterogéneos,
comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de
control para el relanzamiento del proceso en caso de caída del sistema.
CONCLUSIÓN
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos”
(Data Management).
Bibliografía
Cano, J. L. (2007). Business intelligence: competir con información.
Espinosa, R. (s.f.). dataprix. Obtenido de
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-
que-valen-productos-mas-conocidos-etl-s-open-sour
Etl extracción transformación y carga de datos

Más contenido relacionado

La actualidad más candente

Exposicion Business Intelligence
Exposicion Business IntelligenceExposicion Business Intelligence
Exposicion Business Intelligence
UNEMI
 
Algoritmos de enrutamiento
Algoritmos de enrutamientoAlgoritmos de enrutamiento
Algoritmos de enrutamiento
yeiko11
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
Erick Paul Lozada Peñarreta
 
Analizadores de protocolos
Analizadores de protocolosAnalizadores de protocolos
Analizadores de protocolos
Blanca Rodriguez
 
Implementación de las tics en los sistemas de información y la importancia e...
Implementación de las tics en los sistemas de información y la  importancia e...Implementación de las tics en los sistemas de información y la  importancia e...
Implementación de las tics en los sistemas de información y la importancia e...
IS2015
 
arreglos.ppt
arreglos.pptarreglos.ppt
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
Jorge Bustillos
 
Redes
RedesRedes
Redes
LoOkillo
 
Sumarizacion josebahamonde
Sumarizacion josebahamondeSumarizacion josebahamonde
Sumarizacion josebahamonde
donzippy
 
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellanoLuis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
daesel
 
Diagrama de Flujo con pasos para la instalación del Active Directory
Diagrama de Flujo con pasos para la instalación del Active DirectoryDiagrama de Flujo con pasos para la instalación del Active Directory
Diagrama de Flujo con pasos para la instalación del Active Directory
Daniel Valdez
 
Actividad 1: Mysql.Data.MySqlClient
Actividad 1: Mysql.Data.MySqlClientActividad 1: Mysql.Data.MySqlClient
Actividad 1: Mysql.Data.MySqlClient
RIXIO CHOURIO
 
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambricaCapitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
Yarquiri Claudio
 
Ud2 hoja1 correccion
Ud2 hoja1 correccionUd2 hoja1 correccion
Ud2 hoja1 correccion
Angelica Fernandez
 
Sistemas de información
Sistemas de informaciónSistemas de información
Sistemas de información
Fernando Hernandez Zavala
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
Modelo de redes locales
Modelo de redes localesModelo de redes locales
Modelo de redes locales
krliz
 
Definición de punteros en C++ en Introducción a la Programación
Definición de punteros en C++ en Introducción a la ProgramaciónDefinición de punteros en C++ en Introducción a la Programación
Definición de punteros en C++ en Introducción a la Programación
Facultad de Ciencias y Sistemas
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
grupo nkjr
 
linea del tiempo de las redes de datos
linea del tiempo de las redes de datoslinea del tiempo de las redes de datos
linea del tiempo de las redes de datos
DanMenGar
 

La actualidad más candente (20)

Exposicion Business Intelligence
Exposicion Business IntelligenceExposicion Business Intelligence
Exposicion Business Intelligence
 
Algoritmos de enrutamiento
Algoritmos de enrutamientoAlgoritmos de enrutamiento
Algoritmos de enrutamiento
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Analizadores de protocolos
Analizadores de protocolosAnalizadores de protocolos
Analizadores de protocolos
 
Implementación de las tics en los sistemas de información y la importancia e...
Implementación de las tics en los sistemas de información y la  importancia e...Implementación de las tics en los sistemas de información y la  importancia e...
Implementación de las tics en los sistemas de información y la importancia e...
 
arreglos.ppt
arreglos.pptarreglos.ppt
arreglos.ppt
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
 
Redes
RedesRedes
Redes
 
Sumarizacion josebahamonde
Sumarizacion josebahamondeSumarizacion josebahamonde
Sumarizacion josebahamonde
 
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellanoLuis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
Luis fabio xammar manual statgraphics plus 5.1 ejemplos en castellano
 
Diagrama de Flujo con pasos para la instalación del Active Directory
Diagrama de Flujo con pasos para la instalación del Active DirectoryDiagrama de Flujo con pasos para la instalación del Active Directory
Diagrama de Flujo con pasos para la instalación del Active Directory
 
Actividad 1: Mysql.Data.MySqlClient
Actividad 1: Mysql.Data.MySqlClientActividad 1: Mysql.Data.MySqlClient
Actividad 1: Mysql.Data.MySqlClient
 
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambricaCapitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
Capitulo 7:Telecomunicaciones,Internet y la tecnologia inalambrica
 
Ud2 hoja1 correccion
Ud2 hoja1 correccionUd2 hoja1 correccion
Ud2 hoja1 correccion
 
Sistemas de información
Sistemas de informaciónSistemas de información
Sistemas de información
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Modelo de redes locales
Modelo de redes localesModelo de redes locales
Modelo de redes locales
 
Definición de punteros en C++ en Introducción a la Programación
Definición de punteros en C++ en Introducción a la ProgramaciónDefinición de punteros en C++ en Introducción a la Programación
Definición de punteros en C++ en Introducción a la Programación
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
linea del tiempo de las redes de datos
linea del tiempo de las redes de datoslinea del tiempo de las redes de datos
linea del tiempo de las redes de datos
 

Similar a Etl extracción transformación y carga de datos

Etl
EtlEtl
ETL
ETLETL
ETL
ETLETL
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics Spain
 
Etl
EtlEtl
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
JuanReyes785811
 
ETL
ETLETL
ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)
Dhalin Palomino Vasquez
 
R105044
R105044R105044
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informe
CarlosTenelema1
 
Conceptos de terminos bi
Conceptos de terminos biConceptos de terminos bi
Conceptos de terminos bi
Lucia Mendez
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
Fanny Pita
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
Carlos Francisco Ojeda Ureña
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
Victor Dolores Marcos
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
Miguel Murillo
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
brobelo
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
expertoleonelmartine
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
Marco Calle
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
Fernando Navarro
 
SQL Server Integration Services
SQL Server Integration ServicesSQL Server Integration Services
SQL Server Integration Services
brobelo
 

Similar a Etl extracción transformación y carga de datos (20)

Etl
EtlEtl
Etl
 
ETL
ETLETL
ETL
 
ETL
ETLETL
ETL
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
Etl
EtlEtl
Etl
 
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
 
ETL
ETLETL
ETL
 
ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)
 
R105044
R105044R105044
R105044
 
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informe
 
Conceptos de terminos bi
Conceptos de terminos biConceptos de terminos bi
Conceptos de terminos bi
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
SQL Server Integration Services
SQL Server Integration ServicesSQL Server Integration Services
SQL Server Integration Services
 

Más de Leonel Ibarra

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgos
Leonel Ibarra
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalente
Leonel Ibarra
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datos
Leonel Ibarra
 
Famila de protocolo
Famila de protocoloFamila de protocolo
Famila de protocolo
Leonel Ibarra
 
Informe de optativa
Informe de optativaInforme de optativa
Informe de optativa
Leonel Ibarra
 
Norma calidadsva
Norma calidadsvaNorma calidadsva
Norma calidadsva
Leonel Ibarra
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
Leonel Ibarra
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
Expocicionoperaciones
Leonel Ibarra
 
4 pvs4c
4 pvs4c4 pvs4c
4 pvs4c
Leonel Ibarra
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informatica
Leonel Ibarra
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
Leonel Ibarra
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeño
Leonel Ibarra
 
Relaciones humanas
Relaciones humanasRelaciones humanas
Relaciones humanas
Leonel Ibarra
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líder
Leonel Ibarra
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajo
Leonel Ibarra
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la Administración
Leonel Ibarra
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02
Leonel Ibarra
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2
Leonel Ibarra
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
Requsitosdeentrevistadetrabajo
Leonel Ibarra
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3
Leonel Ibarra
 

Más de Leonel Ibarra (20)

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgos
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalente
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datos
 
Famila de protocolo
Famila de protocoloFamila de protocolo
Famila de protocolo
 
Informe de optativa
Informe de optativaInforme de optativa
Informe de optativa
 
Norma calidadsva
Norma calidadsvaNorma calidadsva
Norma calidadsva
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
Expocicionoperaciones
 
4 pvs4c
4 pvs4c4 pvs4c
4 pvs4c
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informatica
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeño
 
Relaciones humanas
Relaciones humanasRelaciones humanas
Relaciones humanas
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líder
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajo
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la Administración
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
Requsitosdeentrevistadetrabajo
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3
 

Último

La necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdfLa necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdf
JonathanCovena1
 
Módulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escrituraMódulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escritura
marilynfloresyomona1
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
shirherrer
 
Lecciones 11 Esc. Sabática. El conflicto inminente docx
Lecciones 11 Esc. Sabática. El conflicto inminente docxLecciones 11 Esc. Sabática. El conflicto inminente docx
Lecciones 11 Esc. Sabática. El conflicto inminente docx
Alejandrino Halire Ccahuana
 
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsadUrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
JorgeVillota6
 
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdfDESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
JonathanCovena1
 
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdfCompartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
JimmyDeveloperWebAnd
 
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIACONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
ginnazamudio
 
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMExamen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Juan Martín Martín
 
1° T3 Examen Mtro JP 23-24.pdf completos
1° T3 Examen Mtro JP 23-24.pdf completos1° T3 Examen Mtro JP 23-24.pdf completos
1° T3 Examen Mtro JP 23-24.pdf completos
ROCIORUIZQUEZADA
 
efemérides del mes de junio 2024 (1).pptx
efemérides del mes de junio 2024 (1).pptxefemérides del mes de junio 2024 (1).pptx
efemérides del mes de junio 2024 (1).pptx
acgtz913
 
p4s.co Ecosistema de Ecosistemas - Diagrama.pdf
p4s.co Ecosistema de Ecosistemas - Diagrama.pdfp4s.co Ecosistema de Ecosistemas - Diagrama.pdf
p4s.co Ecosistema de Ecosistemas - Diagrama.pdf
DavidCamiloMosquera
 
Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.
genesiscabezas469
 
Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......
LuanaJaime1
 
Escuela Sabática. El conflicto inminente.pdf
Escuela Sabática. El conflicto inminente.pdfEscuela Sabática. El conflicto inminente.pdf
Escuela Sabática. El conflicto inminente.pdf
Alejandrino Halire Ccahuana
 
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBALMATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
Ana Fernandez
 
Hablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes CuadernilloHablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes Cuadernillo
Mónica Sánchez
 
Presentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdfPresentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdf
eleandroth
 
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdfCarnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
EleNoguera
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
israelsouza67
 

Último (20)

La necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdfLa necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdf
 
Módulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escrituraMódulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escritura
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
 
Lecciones 11 Esc. Sabática. El conflicto inminente docx
Lecciones 11 Esc. Sabática. El conflicto inminente docxLecciones 11 Esc. Sabática. El conflicto inminente docx
Lecciones 11 Esc. Sabática. El conflicto inminente docx
 
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsadUrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
 
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdfDESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
 
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdfCompartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
Compartir p4s.co Pitch Hackathon Template Plantilla final.pptx-2.pdf
 
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIACONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
CONTENIDOS Y PDA DE LA FASE 3,4 Y 5 EN NIVEL PRIMARIA
 
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLMExamen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinaria). UCLM
 
1° T3 Examen Mtro JP 23-24.pdf completos
1° T3 Examen Mtro JP 23-24.pdf completos1° T3 Examen Mtro JP 23-24.pdf completos
1° T3 Examen Mtro JP 23-24.pdf completos
 
efemérides del mes de junio 2024 (1).pptx
efemérides del mes de junio 2024 (1).pptxefemérides del mes de junio 2024 (1).pptx
efemérides del mes de junio 2024 (1).pptx
 
p4s.co Ecosistema de Ecosistemas - Diagrama.pdf
p4s.co Ecosistema de Ecosistemas - Diagrama.pdfp4s.co Ecosistema de Ecosistemas - Diagrama.pdf
p4s.co Ecosistema de Ecosistemas - Diagrama.pdf
 
Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.
 
Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......
 
Escuela Sabática. El conflicto inminente.pdf
Escuela Sabática. El conflicto inminente.pdfEscuela Sabática. El conflicto inminente.pdf
Escuela Sabática. El conflicto inminente.pdf
 
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBALMATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
 
Hablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes CuadernilloHablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes Cuadernillo
 
Presentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdfPresentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdf
 
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdfCarnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
Carnavision: anticipa y aprovecha - hackathon Pasto2024 .pdf
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
 

Etl extracción transformación y carga de datos

  • 1. Ensayo del ETL: extracción, transformación y carga de datos Integrantes: Ibarra Milton UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ CAMPUS EL CARMEN Faculta: Ciencias Informática El Carmen, Ecuador 2015 *Patricio Quiroz
  • 2. Introducción El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer, transformar y cargar). ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas. El principal propósito de ETL es transportar la información de la empresa desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas:  Extracción de datos  Transformación de datos  Carga de datos La primera etapa esencialmente extrae los datos desde los sistemas de origen. La segunda etapa de transformación aplica una serie de funciones o reglas de negocio sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación de los datos. La etapa de carga se refiere al momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. Dependiendo de los requisitos de la empresa, este proceso puede contener una extensa diversidad de acciones. En algunas bases de datos se sobrescribe la información anterior con nuevos datos. Los Data Warehose es un repositorio de datos que mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
  • 3. Desarrollo ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando y transformando la información si es necesario) y finalmente genera los datos en el formato apropiado para que puedan ser utilizados por las herramientas de análisis. La extracción, transformación y carga (el proceso ETL) es necesario para acceder a los datos de las fuentes de información al datawarehouse. (Cano, 2007) Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:  Extracción  Limpieza  Transformación  Integración  Actualización Extracción La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros sistemas. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. (Espinosa, s.f.) La extracción de los datos se puede realizar bien de forma manual o bien utilizando herramientas de ETL. De forma manual significa programar rutinas utilizando lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar la base de datos que tienen los motores de bases de datos. La alternativa más rentable es la que provee las herramientas especializadas de ETL, ya que han sido diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y detectar los errores durante el proceso o durante la carga. Cada vez más los motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007) El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger aquellas que sean mejores.
  • 4. Limpieza La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin valor, falta de atributos interesantes para el contexto o el valor del atributo. Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos es clave: los nombres y las direcciones de los clientes siempre necesitan ser limpiados, eliminar duplicados, etc. (Cano, 2007) Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación: Depurar los valores: Este proceso localiza e identifica los elementos individuales de información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo: separar el nombre completo en nombre, primer apellido, segundo apellido, o la dirección en: calle, numero, piso, etcétera. Corregir: Este proceso corrige los valores individuales de los atributos usando algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una dirección y el código postal correspondiente. Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en formatos definidos y consistentes aplicando procedimientos de estandarización y definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo los diminutivos de nombres por los nombres correspondientes. Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares. Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados y los junta en una sola representación. Transformación Los datos originarios de repositorios digitales diferentes no suelen coincidir en formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones de transformación. El objetivo no es otro que evitar duplicidades innecesarias e impedir la generación de islas de datos inconexas. Las transformaciones aplican una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos destino. Las reglas de negocios describe las políticas, normas, operaciones, definiciones y restricciones presentes en una organización y que son de vital importancia para alcanzar los objetivos. La transformación de los datos se hace partiendo de los datos una vez “limpios”. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
  • 5. han sido establecidos. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados. (Cano, 2007) Integración El proceso de integración o carga es el momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. La etapa de carga interactúa en forma directa con la base de datos de destino. Es fundamental comprobar que se ha desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones erróneas a los usuarios. Actualización Este proceso determina la periodicidad con el que haremos nuevas cargas de datos al datawarehouse. HERRAMIENTAS ETL La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación, que puede ser la ubicación original, una computadora nueva, una nueva base de datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL que le proporcionan todo lo necesario para extraer, transformar y cargar datos Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos desde múltiples sistemas fuentes a destinos heterogéneos. SAS Warehouse Administrator: Solución de extracción, transformación, carga y limpieza de datos que facilita la definición visual de los procesos corporativos y su documentación. Teradata Warehouse Builder: Herramienta de carga y descarga que permite al usuario generar un job o secuencia de comandos para acceder a datos heterogéneos, comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de control para el relanzamiento del proceso en caso de caída del sistema. CONCLUSIÓN Como conclusión podemos decir que los ETL son proceso que organizan los flujos datos entre distintos sistemas en una organización y aporta los métodos y herramientas necesarias para movilizar los datos desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos” (Data Management). Bibliografía Cano, J. L. (2007). Business intelligence: competir con información. Espinosa, R. (s.f.). dataprix. Obtenido de http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para- que-valen-productos-mas-conocidos-etl-s-open-sour