SlideShare una empresa de Scribd logo
1 de 6
Ensayo del ETL: extracción, transformación y carga de datos
Integrantes:
Ibarra Milton
UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
CAMPUS EL CARMEN
Faculta:
Ciencias Informática
El Carmen, Ecuador
2015
*Patricio Quiroz
Introducción
El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer,
transformar y cargar).
ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar
datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en
otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema
operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar
para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas.
El principal propósito de ETL es transportar la información de la empresa desde las
aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este
proceso consta de tres etapas:
 Extracción de datos
 Transformación de datos
 Carga de datos
La primera etapa esencialmente extrae los datos desde los sistemas de origen.
La segunda etapa de transformación aplica una serie de funciones o reglas de negocio
sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión
existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación
de los datos.
La etapa de carga se refiere al momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. Dependiendo de los requisitos de
la empresa, este proceso puede contener una extensa diversidad de acciones. En
algunas bases de datos se sobrescribe la información anterior con nuevos datos.
Los Data Warehose es un repositorio de datos que mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos y disponer de
un rastro de toda la historia de un valor a lo largo del tiempo.
Desarrollo
ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema
Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de
sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando
y transformando la información si es necesario) y finalmente genera los datos en el
formato apropiado para que puedan ser utilizados por las herramientas de análisis.
La extracción, transformación y carga (el proceso ETL) es necesario para acceder a
los datos de las fuentes de información al datawarehouse. (Cano, 2007)
Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:
 Extracción
 Limpieza
 Transformación
 Integración
 Actualización
Extracción
La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas
de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros
sistemas.
Cada sistema separado puede usar una organización diferente de los datos o formatos
distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u
otras estructuras diferentes. La extracción convierte los datos a un formato preparado
para iniciar el proceso de transformación. (Espinosa, s.f.)
La extracción de los datos se puede realizar bien de forma manual o bien utilizando
herramientas de ETL. De forma manual significa programar rutinas utilizando
lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las
fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar
la base de datos que tienen los motores de bases de datos. La alternativa más
rentable es la que provee las herramientas especializadas de ETL, ya que han sido
diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y
detectar los errores durante el proceso o durante la carga. Cada vez más los
motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007)
El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas
transaccionales que son necesarios y prepararlos para el resto de los subprocesos de
ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor
calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger
aquellas que sean mejores.
Limpieza
La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la
tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin
valor, falta de atributos interesantes para el contexto o el valor del atributo.
Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen
herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos
es clave: los nombres y las direcciones de los clientes siempre necesitan ser
limpiados, eliminar duplicados, etc. (Cano, 2007)
Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a
describir a continuación:
Depurar los valores: Este proceso localiza e identifica los elementos individuales de
información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo:
separar el nombre completo en nombre, primer apellido, segundo apellido, o la
dirección en: calle, numero, piso, etcétera.
Corregir: Este proceso corrige los valores individuales de los atributos usando
algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una
dirección y el código postal correspondiente.
Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en
formatos definidos y consistentes aplicando procedimientos de estandarización y
definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo
los diminutivos de nombres por los nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos
y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por
ejemplo: identificando nombres y direcciones similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados
y los junta en una sola representación.
Transformación
Los datos originarios de repositorios digitales diferentes no suelen coincidir en
formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones
de transformación. El objetivo no es otro que evitar duplicidades innecesarias e
impedir la generación de islas de datos inconexas. Las transformaciones aplican una
serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en
datos destino.
Las reglas de negocios describe las políticas, normas, operaciones, definiciones y
restricciones presentes en una organización y que son de vital importancia para
alcanzar los objetivos.
La transformación de los datos se hace partiendo de los datos una vez “limpios”.
Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
han sido establecidos. La transformación incluye: cambios de formato, sustitución de
códigos, valores derivados y agregados. (Cano, 2007)
Integración
El proceso de integración o carga es el momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. La etapa de carga interactúa en
forma directa con la base de datos de destino. Es fundamental comprobar que se ha
desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones
erróneas a los usuarios.
Actualización
Este proceso determina la periodicidad con el que haremos nuevas cargas de datos
al datawarehouse.
HERRAMIENTAS ETL
La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación,
que puede ser la ubicación original, una computadora nueva, una nueva base de
datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL
que le proporcionan todo lo necesario para extraer, transformar y cargar datos
Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos
desde múltiples sistemas fuentes a destinos heterogéneos.
SAS Warehouse Administrator: Solución de extracción, transformación, carga y
limpieza de datos que facilita la definición visual de los procesos corporativos y su
documentación.
Teradata Warehouse Builder: Herramienta de carga y descarga que permite al
usuario generar un job o secuencia de comandos para acceder a datos heterogéneos,
comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de
control para el relanzamiento del proceso en caso de caída del sistema.
CONCLUSIÓN
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos”
(Data Management).
Bibliografía
Cano, J. L. (2007). Business intelligence: competir con información.
Espinosa, R. (s.f.). dataprix. Obtenido de
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-
que-valen-productos-mas-conocidos-etl-s-open-sour
Etl extracción transformación y carga de datos

Más contenido relacionado

La actualidad más candente

Generacion de Sistemas Operativos
Generacion de Sistemas OperativosGeneracion de Sistemas Operativos
Generacion de Sistemas OperativosFreddy Sinchi
 
Tareas 1- 4 Olap, Molap Y Rolap
Tareas 1- 4 Olap, Molap Y RolapTareas 1- 4 Olap, Molap Y Rolap
Tareas 1- 4 Olap, Molap Y Rolapbrenda carolina
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Seguridad y amenazas en la red.
Seguridad y amenazas en la red.Seguridad y amenazas en la red.
Seguridad y amenazas en la red.guestf3ba8a
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidosTensor
 
Identificando el tipo de hash
Identificando el tipo de hashIdentificando el tipo de hash
Identificando el tipo de hashTensor
 
INYECCION SQL(SEGURIDAD DE LA INFORMACION)
INYECCION SQL(SEGURIDAD DE LA INFORMACION)INYECCION SQL(SEGURIDAD DE LA INFORMACION)
INYECCION SQL(SEGURIDAD DE LA INFORMACION)toshko86
 
Estructura de almacenamiento
Estructura de almacenamientoEstructura de almacenamiento
Estructura de almacenamientoAndrea Mendez
 
Topología de doble anillo
Topología de doble anilloTopología de doble anillo
Topología de doble anilloJuan Carlo N
 
1.5.1 redes no orientadas a conexión
1.5.1  redes no  orientadas a conexión1.5.1  redes no  orientadas a conexión
1.5.1 redes no orientadas a conexiónluishdiaz
 
Base de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosBase de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosAlejandro Rodriguez
 
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-info
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-infoArchivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-info
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-infoMario Chávez Morales
 

La actualidad más candente (20)

Generacion de Sistemas Operativos
Generacion de Sistemas OperativosGeneracion de Sistemas Operativos
Generacion de Sistemas Operativos
 
Data mart
Data martData mart
Data mart
 
Tareas 1- 4 Olap, Molap Y Rolap
Tareas 1- 4 Olap, Molap Y RolapTareas 1- 4 Olap, Molap Y Rolap
Tareas 1- 4 Olap, Molap Y Rolap
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Seguridad y amenazas en la red.
Seguridad y amenazas en la red.Seguridad y amenazas en la red.
Seguridad y amenazas en la red.
 
Etherchannel CCNA
Etherchannel CCNAEtherchannel CCNA
Etherchannel CCNA
 
Redes de alta velocidad con switches l3 y l4
Redes de alta velocidad con switches l3 y l4Redes de alta velocidad con switches l3 y l4
Redes de alta velocidad con switches l3 y l4
 
STP
STPSTP
STP
 
ETL
ETLETL
ETL
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
Identificando el tipo de hash
Identificando el tipo de hashIdentificando el tipo de hash
Identificando el tipo de hash
 
INYECCION SQL(SEGURIDAD DE LA INFORMACION)
INYECCION SQL(SEGURIDAD DE LA INFORMACION)INYECCION SQL(SEGURIDAD DE LA INFORMACION)
INYECCION SQL(SEGURIDAD DE LA INFORMACION)
 
GuíA Para La OptimizacióN De Consultas
GuíA Para La OptimizacióN De ConsultasGuíA Para La OptimizacióN De Consultas
GuíA Para La OptimizacióN De Consultas
 
PROCESAMIENTO DE CONSULTAS
PROCESAMIENTO DE CONSULTASPROCESAMIENTO DE CONSULTAS
PROCESAMIENTO DE CONSULTAS
 
Estructura de almacenamiento
Estructura de almacenamientoEstructura de almacenamiento
Estructura de almacenamiento
 
Topología de doble anillo
Topología de doble anilloTopología de doble anillo
Topología de doble anillo
 
MongoDB
MongoDBMongoDB
MongoDB
 
1.5.1 redes no orientadas a conexión
1.5.1  redes no  orientadas a conexión1.5.1  redes no  orientadas a conexión
1.5.1 redes no orientadas a conexión
 
Base de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosBase de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datos
 
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-info
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-infoArchivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-info
Archivos.ceneval.edu.mx archivos portal_17353_guiadel_egel-info
 

Similar a Etl extracción transformación y carga de datos

Similar a Etl extracción transformación y carga de datos (20)

ETL
ETLETL
ETL
 
Etl
EtlEtl
Etl
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
Etl
EtlEtl
Etl
 
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
 
ETL
ETLETL
ETL
 
ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)
 
R105044
R105044R105044
R105044
 
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informe
 
Conceptos de terminos bi
Conceptos de terminos biConceptos de terminos bi
Conceptos de terminos bi
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
SQL Server Integration Services
SQL Server Integration ServicesSQL Server Integration Services
SQL Server Integration Services
 
Bi conceptos
Bi conceptosBi conceptos
Bi conceptos
 

Más de Leonel Ibarra

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgosLeonel Ibarra
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalenteLeonel Ibarra
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datosLeonel Ibarra
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)Leonel Ibarra
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
ExpocicionoperacionesLeonel Ibarra
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informaticaLeonel Ibarra
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligenceLeonel Ibarra
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeñoLeonel Ibarra
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líderLeonel Ibarra
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoLeonel Ibarra
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la AdministraciónLeonel Ibarra
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Leonel Ibarra
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Leonel Ibarra
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoLeonel Ibarra
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Leonel Ibarra
 

Más de Leonel Ibarra (20)

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgos
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalente
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datos
 
Famila de protocolo
Famila de protocoloFamila de protocolo
Famila de protocolo
 
Informe de optativa
Informe de optativaInforme de optativa
Informe de optativa
 
Norma calidadsva
Norma calidadsvaNorma calidadsva
Norma calidadsva
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
Expocicionoperaciones
 
4 pvs4c
4 pvs4c4 pvs4c
4 pvs4c
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informatica
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeño
 
Relaciones humanas
Relaciones humanasRelaciones humanas
Relaciones humanas
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líder
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajo
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la Administración
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
Requsitosdeentrevistadetrabajo
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3
 

Último

SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressionsConsueloSantana3
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas123yudy
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfManuel Molina
 
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptPINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptAlberto Rubio
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfCarol Andrea Eraso Guerrero
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxJUANSIMONPACHIN
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteJuan Hernandez
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxMartín Ramírez
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfluisantoniocruzcorte1
 

Último (20)

SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressions
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas
 
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdfTarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
 
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptPINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parte
 
Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
 

Etl extracción transformación y carga de datos

  • 1. Ensayo del ETL: extracción, transformación y carga de datos Integrantes: Ibarra Milton UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ CAMPUS EL CARMEN Faculta: Ciencias Informática El Carmen, Ecuador 2015 *Patricio Quiroz
  • 2. Introducción El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer, transformar y cargar). ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas. El principal propósito de ETL es transportar la información de la empresa desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas:  Extracción de datos  Transformación de datos  Carga de datos La primera etapa esencialmente extrae los datos desde los sistemas de origen. La segunda etapa de transformación aplica una serie de funciones o reglas de negocio sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación de los datos. La etapa de carga se refiere al momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. Dependiendo de los requisitos de la empresa, este proceso puede contener una extensa diversidad de acciones. En algunas bases de datos se sobrescribe la información anterior con nuevos datos. Los Data Warehose es un repositorio de datos que mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
  • 3. Desarrollo ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando y transformando la información si es necesario) y finalmente genera los datos en el formato apropiado para que puedan ser utilizados por las herramientas de análisis. La extracción, transformación y carga (el proceso ETL) es necesario para acceder a los datos de las fuentes de información al datawarehouse. (Cano, 2007) Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:  Extracción  Limpieza  Transformación  Integración  Actualización Extracción La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros sistemas. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. (Espinosa, s.f.) La extracción de los datos se puede realizar bien de forma manual o bien utilizando herramientas de ETL. De forma manual significa programar rutinas utilizando lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar la base de datos que tienen los motores de bases de datos. La alternativa más rentable es la que provee las herramientas especializadas de ETL, ya que han sido diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y detectar los errores durante el proceso o durante la carga. Cada vez más los motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007) El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger aquellas que sean mejores.
  • 4. Limpieza La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin valor, falta de atributos interesantes para el contexto o el valor del atributo. Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos es clave: los nombres y las direcciones de los clientes siempre necesitan ser limpiados, eliminar duplicados, etc. (Cano, 2007) Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación: Depurar los valores: Este proceso localiza e identifica los elementos individuales de información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo: separar el nombre completo en nombre, primer apellido, segundo apellido, o la dirección en: calle, numero, piso, etcétera. Corregir: Este proceso corrige los valores individuales de los atributos usando algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una dirección y el código postal correspondiente. Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en formatos definidos y consistentes aplicando procedimientos de estandarización y definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo los diminutivos de nombres por los nombres correspondientes. Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares. Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados y los junta en una sola representación. Transformación Los datos originarios de repositorios digitales diferentes no suelen coincidir en formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones de transformación. El objetivo no es otro que evitar duplicidades innecesarias e impedir la generación de islas de datos inconexas. Las transformaciones aplican una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos destino. Las reglas de negocios describe las políticas, normas, operaciones, definiciones y restricciones presentes en una organización y que son de vital importancia para alcanzar los objetivos. La transformación de los datos se hace partiendo de los datos una vez “limpios”. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
  • 5. han sido establecidos. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados. (Cano, 2007) Integración El proceso de integración o carga es el momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. La etapa de carga interactúa en forma directa con la base de datos de destino. Es fundamental comprobar que se ha desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones erróneas a los usuarios. Actualización Este proceso determina la periodicidad con el que haremos nuevas cargas de datos al datawarehouse. HERRAMIENTAS ETL La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación, que puede ser la ubicación original, una computadora nueva, una nueva base de datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL que le proporcionan todo lo necesario para extraer, transformar y cargar datos Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos desde múltiples sistemas fuentes a destinos heterogéneos. SAS Warehouse Administrator: Solución de extracción, transformación, carga y limpieza de datos que facilita la definición visual de los procesos corporativos y su documentación. Teradata Warehouse Builder: Herramienta de carga y descarga que permite al usuario generar un job o secuencia de comandos para acceder a datos heterogéneos, comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de control para el relanzamiento del proceso en caso de caída del sistema. CONCLUSIÓN Como conclusión podemos decir que los ETL son proceso que organizan los flujos datos entre distintos sistemas en una organización y aporta los métodos y herramientas necesarias para movilizar los datos desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos” (Data Management). Bibliografía Cano, J. L. (2007). Business intelligence: competir con información. Espinosa, R. (s.f.). dataprix. Obtenido de http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para- que-valen-productos-mas-conocidos-etl-s-open-sour