Kettle. Recuperación y Procesado de datos.2012

Inteligencia Artificial.
Actividad Académica
Individual 3
Actividad de Aplicación. Recuperación y
Procesado de Datos (Kettle)
Guillermo Santos
@gsantosgo

2012

AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)

Contenido
1. Objetivo ................................................................................................................................ 3
2. Enunciado ............................................................................................................................. 3
3. Plataforma de desarrollo ....................................................................................................... 3
4. Proceso de desarrollo de la solución...................................................................................... 3
4.1 Descargar e instalación Pentaho Data Integration 4.2.0 ................................................... 3
4.2 Proceso ETL ..................................................................................................................... 4
4.2.1 Extracción (E) ............................................................................................................... 6
4.2.2 Transformación (T) ....................................................................................................... 7
4.2.3 Carga(L) ........................................................................................................................ 8
4.2.4 Resultado Final ........................................................................................................... 11
5. Solución final transformación .............................................................................................. 12

Inteligencia Artificial Página 2 de 12

Datos (Kettle)

1. Objetivo
Conocer cómo se realiza la integración de datos en proceso de minería de datos.

2. Enunciado
El objetivo de esta es utilizar una herramienta para recuperación y procesado de datos.
Para ello vamos a trabajar con la herramienta Kettle(Pentaho Data Integration).

La práctica se compone de los siguientes pasos:
1. Descargar e instalar Kettle Community Edition (http://kettle.pentaho.com)
2. Crear un proceso que descargue en internet noticias en formato RSS de tres
periódicos españoles. Debe descargar tres categorías: cultura, economía y
ciencia.
3. Procesar los datos para que guarde, por un lado, una hoja de Excel para cada
categoría que contenga el título, la fecha, el enlace y la descripción de las
noticias de la categoría.
4. Por otro lado debe crear, para cada categoría, un directorio con archivos de
texto plano (*.txt). Cada archivo txt debe contener el título y la descripción de
una noticia (debe haber un txt para cada noticia dentro de cada categoría).

3. Plataforma de desarrollo
Para realización de esta práctica, se ha utilizado:

- Dell Inspiron 1525 Core 2 Duo
- Sistema Operativo Windows XP SP3 32Bits
- Java Runtime Environment 1.6.0_27
- Pentaho Data Integration Stable Release 4.2.0 Comunity Edition

4. Proceso de desarrollo de la solución

4.1 Descargar e instalación Pentaho Data Integration 4.2.0
Para la realización de esta práctica es necesario la instalación del producto Pentaho
Data Integration también conocido con el nombre de Kettle. Su funcionalidad principal
es que nos permite llevar a cabo un proceso de extracción de datos de fuentes de
información, transformación de esos datos a un formato coherente y uniforme, y por
último cargarlos en otra base de datos o herramientas para realizar un análisis
posterior. Este proceso también es conocido como Extraction, Transformation y
Loading (ETL).


Datos (Kettle)

Nota. Para poder ejecutar la aplicación Pentaho Data Integraction 4.2.0 es necesario que
en nuestro equipo, ya se encuentre instalada la máquina virtual de Java de Oracle.

¿Dónde realizamos la descarga?

Accedemos a la siguiente dirección web o U.R.I:
http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.2.0 -stable/ y
procedemos a descargar el fichero pdi-ce-4.20.-stable.zip.

Una vez, que ya tenemos descargado el fichero pdi-ce-4.20.-stable.zip, procedemos a
extraerlo en nuestra unidad de disco, en concreto lo extraemos el directorio C:data-
integration.

En la siguiente imagen podemos observar que ya tenemos realizada la instalación de
este producto.

¿Cómo ejecutamos la aplicación?
Para arrancar la ejecución de esta aplicación, se ejecuta el fichero spoon.bat.

4.2 Proceso ETL
La creación del proceso ETL de esta práctica con la aplicación Pentaho Data Integration
requiere la creación de lo que se denomina una nueva Transformación. En la siguiente
imagen podemos observar las propiedades de nuestra transformación.


Datos (Kettle)

El siguiente paso será la realización de tres procesos, uno para cada categoría de
noticias. Las entradas de nuestros procesos será la entrada en formato RSS de los tres
periódicos españoles seleccionados.

Los periódicos españoles seleccionados son los siguientes:
- EL MUNDO
- EL PAÍS
- LA RAZÓN

A continuación, detallo las direcciones de acceso a los recursos de noticias en formato
RSS, atendiendo a las categorías requeridas de los tres periódicos españoles
seleccionados.

Categoría CIENCIA
- http://elmundo.feedsportal.com/elmundo/rss/ciencia.xml
- http://ep00.epimg.net/rss/tags/c_ciencia.xml
- http://www.larazon.es/noticias/rss/ciencia-y-tecnologia

Categoría CULTURA
- http://elmundo.feedsportal.com/elmundo/rss/cultura.xml
- http://ep00.epimg.net/rss/cultura/portada.xml
- http://www.larazon.es/noticias/rss/cultura

Categoría ECONOMÍA
- http://elmundo.feedsportal.com/elmundo/rss/economia.xml
- http://www.elpais.com/rss/feed.html?feedId=1006
- http://www.larazon.es/noticias/rss/economia


Datos (Kettle)

En los siguientes puntos voy a detallar como sería el proceso que se nos pide en esta
práctica para la categoría de Ciencia, para el resto de procesos de las otras categorías
la realización es exactamente igual.

En esta imagen podemos observar cuál es el objetivo que pretendemos para la
categoría de Ciencia.

4.2.1 Extracción (E)
Aquí nosotros necesitamos configurar un primero paso (Entrada) en el que
recuperamos las noticias de información en formato RSS, de la distintas URLs
especificadas anteriormente.

Detalles del Paso Entrada RSS Ciencia
Se especifica todas las direcciones (URLs) fuentes de información.


Datos (Kettle)

Detalles del Paso Entrada RSS Ciencia “Campos Seleccionados”
Únicamente seleccionamos aquellos campos que queremos recuperar del fichero XML
en formato RSS, y que son Titulo (Title), Enlace (Link), Descripción (Description as text)
y FechaTmp (PubDate).

4.2.2 Transformación (T)
Durante la transformación normalmente se unifica los formatos de aquellos campos
que queremos que sean homogéneos independientemente de la fuente de
información donde provengan. Para ello creamos un nuevo paso Transformación
Campo Fecha Ciencia que tendrá como campos de entrada los del paso anterior.

En esta práctica queremos que el campo FechaTmp (PubDate) pase a ser de tipo Date y
que además tenga el siguiente formato dd/MM/yy HH:mm, y además se renombre el
campo con el nombre de Fecha.

Detalles del Paso Transformación Campo Fecha Ciencia


Datos (Kettle)

4.2.3 Carga(L)
En este punto tenemos que generar dos salidas distintas.

Para la generación de un fichero Excel de salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Excel Ciencia” y
configurar el nombre del archivo del fichero Excel, así como los campos que queramos
que tenga el archivo de Excel.

Detalles del Paso Salida Excel Ciencia

Detalles del Paso Salida Excel Ciencia “Campos Seleccionados”


Datos (Kettle)

Para la generación de ficheros de textos salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Fichero de Texto
Ciencia” y configurar los nombres de los ficheros de ficheros de textos para cada
noticia, así como los campos que queramos que tenga el archivo de texto.

Detalles del Paso Salida Fichero de Texto Ciencia

Detalles del Paso Salida Fichero de Texto Ciencia “Contenido”

Cómo se debe generar un fichero de texto (*.txt) para cada noticia, es necesario
configurar el parámetro de configuración Separar cada … filas a 1.


Datos (Kettle)

Detalles del Paso Salida Fichero de Texto Ciencia “Seleccionados”


Datos (Kettle)

4.2.4 Resultado Final

¿Cuáles son los resultados obtenidos?

Detalles de Fichero Salida Excel

En el fichero EXCEL (xls) de salida, podemos observar que las noticias se pueden
ordenar correctamente por el campo fecha.


Datos (Kettle)

Detalle de Fichero de Texto (Primera noticia)

5. Solución final transformación
La transformación obtenida como solución final de esta práctica para distintas
categorías de noticias se puede ver en esta imagen.


Kettle. Recuperación y Procesado de datos.2012

Recomendados

Recomendados

Más contenido relacionado

Similar a Kettle. Recuperación y Procesado de datos.2012

Similar a Kettle. Recuperación y Procesado de datos.2012 (20)

Más de Guillermo Santos

Más de Guillermo Santos (7)

Último

Último (20)

Kettle. Recuperación y Procesado de datos.2012