SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
Inteligencia Artificial.
Actividad Académica
Individual 3
Actividad de Aplicación. Recuperación y
Procesado de Datos (Kettle)
Guillermo Santos
@gsantosgo




                                          2012
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                           Datos (Kettle)

Contenido
1. Objetivo ................................................................................................................................ 3
2. Enunciado ............................................................................................................................. 3
3. Plataforma de desarrollo ....................................................................................................... 3
4. Proceso de desarrollo de la solución...................................................................................... 3
   4.1 Descargar e instalación Pentaho Data Integration 4.2.0 ................................................... 3
   4.2 Proceso ETL ..................................................................................................................... 4
   4.2.1 Extracción (E) ............................................................................................................... 6
   4.2.2 Transformación (T) ....................................................................................................... 7
   4.2.3 Carga(L) ........................................................................................................................ 8
   4.2.4 Resultado Final ........................................................................................................... 11
5. Solución final transformación .............................................................................................. 12




                                                Inteligencia Artificial                                                Página 2 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)

1. Objetivo
Conocer cómo se realiza la integración de datos en proceso de minería de datos.


2. Enunciado
El objetivo de esta es utilizar una herramienta para recuperación y procesado de datos.
Para ello vamos a trabajar con la herramienta Kettle(Pentaho Data Integration).

La práctica se compone de los siguientes pasos:
    1. Descargar e instalar Kettle Community Edition (http://kettle.pentaho.com)
    2. Crear un proceso que descargue en internet noticias en formato RSS de tres
       periódicos españoles. Debe descargar tres categorías: cultura, economía y
       ciencia.
    3. Procesar los datos para que guarde, por un lado, una hoja de Excel para cada
       categoría que contenga el título, la fecha, el enlace y la descripción de las
       noticias de la categoría.
    4. Por otro lado debe crear, para cada categoría, un directorio con archivos de
       texto plano (*.txt). Cada archivo txt debe contener el título y la descripción de
       una noticia (debe haber un txt para cada noticia dentro de cada categoría).


3. Plataforma de desarrollo
Para realización de esta práctica, se ha utilizado:

   -   Dell Inspiron 1525 Core 2 Duo
   -   Sistema Operativo Windows XP SP3 32Bits
   -   Java Runtime Environment 1.6.0_27
   -   Pentaho Data Integration Stable Release 4.2.0 Comunity Edition


4. Proceso de desarrollo de la solución

4.1 Descargar e instalación Pentaho Data Integration 4.2.0
Para la realización de esta práctica es necesario la instalación del producto Pentaho
Data Integration también conocido con el nombre de Kettle. Su funcionalidad principal
es que nos permite llevar a cabo un proceso de extracción de datos de fuentes de
información, transformación de esos datos a un formato coherente y uniforme, y por
último cargarlos en otra base de datos o herramientas para realizar un análisis
posterior. Este proceso también es conocido como Extraction, Transformation y
Loading (ETL).




                               Inteligencia Artificial                   Página 3 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)

  Nota. Para poder ejecutar la aplicación Pentaho Data Integraction 4.2.0 es necesario que
  en nuestro equipo, ya se encuentre instalada la máquina virtual de Java de Oracle.


¿Dónde realizamos la descarga?

Accedemos        a      la     siguiente       dirección   web       o        U.R.I:
http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.2.0 -stable/ y
procedemos a descargar el fichero pdi-ce-4.20.-stable.zip.

Una vez, que ya tenemos descargado el fichero pdi-ce-4.20.-stable.zip, procedemos a
extraerlo en nuestra unidad de disco, en concreto lo extraemos el directorio C:data-
integration.

En la siguiente imagen podemos observar que ya tenemos realizada la instalación de
este producto.




¿Cómo ejecutamos la aplicación?
Para arrancar la ejecución de esta aplicación, se ejecuta el fichero spoon.bat.


4.2 Proceso ETL
La creación del proceso ETL de esta práctica con la aplicación Pentaho Data Integration
requiere la creación de lo que se denomina una nueva Transformación. En la siguiente
imagen podemos observar las propiedades de nuestra transformación.


                              Inteligencia Artificial                       Página 4 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)




El siguiente paso será la realización de tres procesos, uno para cada categoría de
noticias. Las entradas de nuestros procesos será la entrada en formato RSS de los tres
periódicos españoles seleccionados.

Los periódicos españoles seleccionados son los siguientes:
    - EL MUNDO
    - EL PAÍS
    - LA RAZÓN

A continuación, detallo las direcciones de acceso a los recursos de noticias en formato
RSS, atendiendo a las categorías requeridas de los tres periódicos españoles
seleccionados.

Categoría CIENCIA
   - http://elmundo.feedsportal.com/elmundo/rss/ciencia.xml
   - http://ep00.epimg.net/rss/tags/c_ciencia.xml
   - http://www.larazon.es/noticias/rss/ciencia-y-tecnologia

Categoría CULTURA
   - http://elmundo.feedsportal.com/elmundo/rss/cultura.xml
   - http://ep00.epimg.net/rss/cultura/portada.xml
   - http://www.larazon.es/noticias/rss/cultura

Categoría ECONOMÍA
   - http://elmundo.feedsportal.com/elmundo/rss/economia.xml
   - http://www.elpais.com/rss/feed.html?feedId=1006
   - http://www.larazon.es/noticias/rss/economia



                             Inteligencia Artificial                     Página 5 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)



En los siguientes puntos voy a detallar como sería el proceso que se nos pide en esta
práctica para la categoría de Ciencia, para el resto de procesos de las otras categorías
la realización es exactamente igual.

En esta imagen podemos observar cuál es el objetivo que pretendemos para la
categoría de Ciencia.




4.2.1 Extracción (E)
Aquí nosotros necesitamos configurar un primero paso (Entrada) en el que
recuperamos las noticias de información en formato RSS, de la distintas URLs
especificadas anteriormente.

Detalles del Paso Entrada RSS Ciencia
Se especifica todas las direcciones (URLs) fuentes de información.




                             Inteligencia Artificial                     Página 6 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)

Detalles del Paso Entrada RSS Ciencia “Campos Seleccionados”
Únicamente seleccionamos aquellos campos que queremos recuperar del fichero XML
en formato RSS, y que son Titulo (Title), Enlace (Link), Descripción (Description as text)
y FechaTmp (PubDate).




4.2.2 Transformación (T)
Durante la transformación normalmente se unifica los formatos de aquellos campos
que queremos que sean homogéneos independientemente de la fuente de
información donde provengan. Para ello creamos un nuevo paso Transformación
Campo Fecha Ciencia que tendrá como campos de entrada los del paso anterior.

En esta práctica queremos que el campo FechaTmp (PubDate) pase a ser de tipo Date y
que además tenga el siguiente formato dd/MM/yy HH:mm, y además se renombre el
campo con el nombre de Fecha.

Detalles del Paso Transformación Campo Fecha Ciencia




                              Inteligencia Artificial                      Página 7 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)

4.2.3 Carga(L)
En este punto tenemos que generar dos salidas distintas.

Para la generación de un fichero Excel de salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Excel Ciencia” y
configurar el nombre del archivo del fichero Excel, así como los campos que queramos
que tenga el archivo de Excel.

Detalles del Paso Salida Excel Ciencia




Detalles del Paso Salida Excel Ciencia “Campos Seleccionados”




                             Inteligencia Artificial                     Página 8 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)


Para la generación de ficheros de textos salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Fichero de Texto
Ciencia” y configurar los nombres de los ficheros de ficheros de textos para cada
noticia, así como los campos que queramos que tenga el archivo de texto.

Detalles del Paso Salida Fichero de Texto Ciencia




Detalles del Paso Salida Fichero de Texto Ciencia “Contenido”

Cómo se debe generar un fichero de texto (*.txt) para cada noticia, es necesario
configurar el parámetro de configuración Separar cada … filas a 1.




                             Inteligencia Artificial                     Página 9 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)




Detalles del Paso Salida Fichero de Texto Ciencia “Seleccionados”




                            Inteligencia Artificial                 Página 10 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)

4.2.4 Resultado Final

¿Cuáles son los resultados obtenidos?




Detalles de Fichero Salida Excel

En el fichero EXCEL (xls) de salida, podemos observar que las noticias se pueden
ordenar correctamente por el campo fecha.




                             Inteligencia Artificial              Página 11 de 12
AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
                         Datos (Kettle)


Detalle de Fichero de Texto (Primera noticia)




5. Solución final transformación
La transformación obtenida como solución final de esta práctica para distintas
categorías de noticias se puede ver en esta imagen.




                             Inteligencia Artificial            Página 12 de 12

Más contenido relacionado

Similar a Kettle. Recuperación y Procesado de datos.2012

⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireportJosé Pedro Avila
 
UDA - Anexo generación de informes
UDA - Anexo generación de informesUDA - Anexo generación de informes
UDA - Anexo generación de informesAnder Martinez
 
AP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfAP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfjohngarzon12
 
Universidad tecnológica de tehuacán datamart
Universidad tecnológica de tehuacán datamartUniversidad tecnológica de tehuacán datamart
Universidad tecnológica de tehuacán datamartVictor Dolores Marcos
 
Desarrollo android almacenamiento de datos
Desarrollo android    almacenamiento de datosDesarrollo android    almacenamiento de datos
Desarrollo android almacenamiento de datosFernando Cejas
 
Manual -prototipo-estacion-metereologica
Manual -prototipo-estacion-metereologicaManual -prototipo-estacion-metereologica
Manual -prototipo-estacion-metereologicargarroyo79
 
Trabajo Final Base De Datos
Trabajo Final Base De DatosTrabajo Final Base De Datos
Trabajo Final Base De Datosricardo901
 
Analisis de metadatos y cookies
Analisis de metadatos y cookiesAnalisis de metadatos y cookies
Analisis de metadatos y cookiesLuisMolina269
 
Fin de curso de desarrollo de sistema
Fin de curso de desarrollo de sistemaFin de curso de desarrollo de sistema
Fin de curso de desarrollo de sistemaGlen Mora Lewis
 
Manual corrector 4.0
Manual corrector 4.0Manual corrector 4.0
Manual corrector 4.0Nicolas Care
 
Sistema escada con daq
Sistema escada con daqSistema escada con daq
Sistema escada con daqpabs_devil
 

Similar a Kettle. Recuperación y Procesado de datos.2012 (20)

I report
I reportI report
I report
 
⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport⭐Generación de reportes en múltiples formatos con jasper report e ireport
⭐Generación de reportes en múltiples formatos con jasper report e ireport
 
UDA - Anexo generación de informes
UDA - Anexo generación de informesUDA - Anexo generación de informes
UDA - Anexo generación de informes
 
AP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfAP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdf
 
Universidad tecnológica de tehuacán datamart
Universidad tecnológica de tehuacán datamartUniversidad tecnológica de tehuacán datamart
Universidad tecnológica de tehuacán datamart
 
Desarrollo android almacenamiento de datos
Desarrollo android    almacenamiento de datosDesarrollo android    almacenamiento de datos
Desarrollo android almacenamiento de datos
 
Manual -prototipo-estacion-metereologica
Manual -prototipo-estacion-metereologicaManual -prototipo-estacion-metereologica
Manual -prototipo-estacion-metereologica
 
Plantilla
PlantillaPlantilla
Plantilla
 
Trabajo Final Bases De Datos
Trabajo Final Bases De DatosTrabajo Final Bases De Datos
Trabajo Final Bases De Datos
 
Teoria acces
Teoria accesTeoria acces
Teoria acces
 
Hoy
HoyHoy
Hoy
 
Temario
Temario Temario
Temario
 
Trabajo Final Base De Datos
Trabajo Final Base De DatosTrabajo Final Base De Datos
Trabajo Final Base De Datos
 
Repositorio
RepositorioRepositorio
Repositorio
 
Analisis de metadatos y cookies
Analisis de metadatos y cookiesAnalisis de metadatos y cookies
Analisis de metadatos y cookies
 
Fin de curso de desarrollo de sistema
Fin de curso de desarrollo de sistemaFin de curso de desarrollo de sistema
Fin de curso de desarrollo de sistema
 
Manual corrector 4.0
Manual corrector 4.0Manual corrector 4.0
Manual corrector 4.0
 
Guia Rapida de Formatos y Reportes con eFactory ERP/CRM
Guia Rapida de Formatos y Reportes con eFactory ERP/CRMGuia Rapida de Formatos y Reportes con eFactory ERP/CRM
Guia Rapida de Formatos y Reportes con eFactory ERP/CRM
 
Sistema escada con daq
Sistema escada con daqSistema escada con daq
Sistema escada con daq
 
Semana 1 - Informàtica
Semana 1 - InformàticaSemana 1 - Informàtica
Semana 1 - Informàtica
 

Más de Guillermo Santos

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemGuillermo Santos
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013Guillermo Santos
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Guillermo Santos
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansGuillermo Santos
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en WindowsGuillermo Santos
 
Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Guillermo Santos
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Guillermo Santos
 

Más de Guillermo Santos (7)

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification Problem
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub Loans
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en Windows
 
Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012
 

Último

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 

Último (20)

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 

Kettle. Recuperación y Procesado de datos.2012

  • 1. Inteligencia Artificial. Actividad Académica Individual 3 Actividad de Aplicación. Recuperación y Procesado de Datos (Kettle) Guillermo Santos @gsantosgo 2012
  • 2. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Contenido 1. Objetivo ................................................................................................................................ 3 2. Enunciado ............................................................................................................................. 3 3. Plataforma de desarrollo ....................................................................................................... 3 4. Proceso de desarrollo de la solución...................................................................................... 3 4.1 Descargar e instalación Pentaho Data Integration 4.2.0 ................................................... 3 4.2 Proceso ETL ..................................................................................................................... 4 4.2.1 Extracción (E) ............................................................................................................... 6 4.2.2 Transformación (T) ....................................................................................................... 7 4.2.3 Carga(L) ........................................................................................................................ 8 4.2.4 Resultado Final ........................................................................................................... 11 5. Solución final transformación .............................................................................................. 12 Inteligencia Artificial Página 2 de 12
  • 3. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) 1. Objetivo Conocer cómo se realiza la integración de datos en proceso de minería de datos. 2. Enunciado El objetivo de esta es utilizar una herramienta para recuperación y procesado de datos. Para ello vamos a trabajar con la herramienta Kettle(Pentaho Data Integration). La práctica se compone de los siguientes pasos: 1. Descargar e instalar Kettle Community Edition (http://kettle.pentaho.com) 2. Crear un proceso que descargue en internet noticias en formato RSS de tres periódicos españoles. Debe descargar tres categorías: cultura, economía y ciencia. 3. Procesar los datos para que guarde, por un lado, una hoja de Excel para cada categoría que contenga el título, la fecha, el enlace y la descripción de las noticias de la categoría. 4. Por otro lado debe crear, para cada categoría, un directorio con archivos de texto plano (*.txt). Cada archivo txt debe contener el título y la descripción de una noticia (debe haber un txt para cada noticia dentro de cada categoría). 3. Plataforma de desarrollo Para realización de esta práctica, se ha utilizado: - Dell Inspiron 1525 Core 2 Duo - Sistema Operativo Windows XP SP3 32Bits - Java Runtime Environment 1.6.0_27 - Pentaho Data Integration Stable Release 4.2.0 Comunity Edition 4. Proceso de desarrollo de la solución 4.1 Descargar e instalación Pentaho Data Integration 4.2.0 Para la realización de esta práctica es necesario la instalación del producto Pentaho Data Integration también conocido con el nombre de Kettle. Su funcionalidad principal es que nos permite llevar a cabo un proceso de extracción de datos de fuentes de información, transformación de esos datos a un formato coherente y uniforme, y por último cargarlos en otra base de datos o herramientas para realizar un análisis posterior. Este proceso también es conocido como Extraction, Transformation y Loading (ETL). Inteligencia Artificial Página 3 de 12
  • 4. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Nota. Para poder ejecutar la aplicación Pentaho Data Integraction 4.2.0 es necesario que en nuestro equipo, ya se encuentre instalada la máquina virtual de Java de Oracle. ¿Dónde realizamos la descarga? Accedemos a la siguiente dirección web o U.R.I: http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.2.0 -stable/ y procedemos a descargar el fichero pdi-ce-4.20.-stable.zip. Una vez, que ya tenemos descargado el fichero pdi-ce-4.20.-stable.zip, procedemos a extraerlo en nuestra unidad de disco, en concreto lo extraemos el directorio C:data- integration. En la siguiente imagen podemos observar que ya tenemos realizada la instalación de este producto. ¿Cómo ejecutamos la aplicación? Para arrancar la ejecución de esta aplicación, se ejecuta el fichero spoon.bat. 4.2 Proceso ETL La creación del proceso ETL de esta práctica con la aplicación Pentaho Data Integration requiere la creación de lo que se denomina una nueva Transformación. En la siguiente imagen podemos observar las propiedades de nuestra transformación. Inteligencia Artificial Página 4 de 12
  • 5. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) El siguiente paso será la realización de tres procesos, uno para cada categoría de noticias. Las entradas de nuestros procesos será la entrada en formato RSS de los tres periódicos españoles seleccionados. Los periódicos españoles seleccionados son los siguientes: - EL MUNDO - EL PAÍS - LA RAZÓN A continuación, detallo las direcciones de acceso a los recursos de noticias en formato RSS, atendiendo a las categorías requeridas de los tres periódicos españoles seleccionados. Categoría CIENCIA - http://elmundo.feedsportal.com/elmundo/rss/ciencia.xml - http://ep00.epimg.net/rss/tags/c_ciencia.xml - http://www.larazon.es/noticias/rss/ciencia-y-tecnologia Categoría CULTURA - http://elmundo.feedsportal.com/elmundo/rss/cultura.xml - http://ep00.epimg.net/rss/cultura/portada.xml - http://www.larazon.es/noticias/rss/cultura Categoría ECONOMÍA - http://elmundo.feedsportal.com/elmundo/rss/economia.xml - http://www.elpais.com/rss/feed.html?feedId=1006 - http://www.larazon.es/noticias/rss/economia Inteligencia Artificial Página 5 de 12
  • 6. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) En los siguientes puntos voy a detallar como sería el proceso que se nos pide en esta práctica para la categoría de Ciencia, para el resto de procesos de las otras categorías la realización es exactamente igual. En esta imagen podemos observar cuál es el objetivo que pretendemos para la categoría de Ciencia. 4.2.1 Extracción (E) Aquí nosotros necesitamos configurar un primero paso (Entrada) en el que recuperamos las noticias de información en formato RSS, de la distintas URLs especificadas anteriormente. Detalles del Paso Entrada RSS Ciencia Se especifica todas las direcciones (URLs) fuentes de información. Inteligencia Artificial Página 6 de 12
  • 7. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Detalles del Paso Entrada RSS Ciencia “Campos Seleccionados” Únicamente seleccionamos aquellos campos que queremos recuperar del fichero XML en formato RSS, y que son Titulo (Title), Enlace (Link), Descripción (Description as text) y FechaTmp (PubDate). 4.2.2 Transformación (T) Durante la transformación normalmente se unifica los formatos de aquellos campos que queremos que sean homogéneos independientemente de la fuente de información donde provengan. Para ello creamos un nuevo paso Transformación Campo Fecha Ciencia que tendrá como campos de entrada los del paso anterior. En esta práctica queremos que el campo FechaTmp (PubDate) pase a ser de tipo Date y que además tenga el siguiente formato dd/MM/yy HH:mm, y además se renombre el campo con el nombre de Fecha. Detalles del Paso Transformación Campo Fecha Ciencia Inteligencia Artificial Página 7 de 12
  • 8. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) 4.2.3 Carga(L) En este punto tenemos que generar dos salidas distintas. Para la generación de un fichero Excel de salida con los distintos campos de la noticias de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Excel Ciencia” y configurar el nombre del archivo del fichero Excel, así como los campos que queramos que tenga el archivo de Excel. Detalles del Paso Salida Excel Ciencia Detalles del Paso Salida Excel Ciencia “Campos Seleccionados” Inteligencia Artificial Página 8 de 12
  • 9. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Para la generación de ficheros de textos salida con los distintos campos de la noticias de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Fichero de Texto Ciencia” y configurar los nombres de los ficheros de ficheros de textos para cada noticia, así como los campos que queramos que tenga el archivo de texto. Detalles del Paso Salida Fichero de Texto Ciencia Detalles del Paso Salida Fichero de Texto Ciencia “Contenido” Cómo se debe generar un fichero de texto (*.txt) para cada noticia, es necesario configurar el parámetro de configuración Separar cada … filas a 1. Inteligencia Artificial Página 9 de 12
  • 10. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Detalles del Paso Salida Fichero de Texto Ciencia “Seleccionados” Inteligencia Artificial Página 10 de 12
  • 11. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) 4.2.4 Resultado Final ¿Cuáles son los resultados obtenidos? Detalles de Fichero Salida Excel En el fichero EXCEL (xls) de salida, podemos observar que las noticias se pueden ordenar correctamente por el campo fecha. Inteligencia Artificial Página 11 de 12
  • 12. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de Datos (Kettle) Detalle de Fichero de Texto (Primera noticia) 5. Solución final transformación La transformación obtenida como solución final de esta práctica para distintas categorías de noticias se puede ver en esta imagen. Inteligencia Artificial Página 12 de 12