Este documento describe el desarrollo de un proceso ETL (extracción, transformación y carga) utilizando la herramienta Pentaho Data Integration (Kettle) para recuperar noticias de tres periódicos españoles en tres categorías (ciencia, cultura y economía), y almacenar los datos en hojas de cálculo de Excel y archivos de texto por categoría. El proceso incluye pasos para extraer los datos RSS, transformar los formatos de fecha, y cargar los datos en los archivos de destino.
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Alex Rayón Jerez
Sesión de Pentaho Data Integration impartida en Noviembre de 2015 en el marco del Programa de Big Data y Business Intelligence de la Universidad de Deusto (detalle aquí http://bit.ly/1PhIVgJ).
Documento en el que se describen los métodos de llamada para el acceso y descarga de dataset del ISTAC en su repositorio ISTAC.base, así como las estructuras de los formatos de descarga.
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Alex Rayón Jerez
Sesión de Pentaho Data Integration impartida en Noviembre de 2015 en el marco del Programa de Big Data y Business Intelligence de la Universidad de Deusto (detalle aquí http://bit.ly/1PhIVgJ).
Documento en el que se describen los métodos de llamada para el acceso y descarga de dataset del ISTAC en su repositorio ISTAC.base, así como las estructuras de los formatos de descarga.
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Guillermo Santos
Recently, our lives are invaded by small mobile devices, known as smartphones. These devices are mobile mini-computers, they have an operating system that allows it to launch applications, include a set of applications to manage contacts and address book, to create, edit or view different types of documents, to access or browse the Web, too provide us telephony or messaging services, etc. Apart from these previous features, the most of the smartphones have currently begun to incorporate other features such as cameras, GPS and various types of sensors.
In this analysis, we used data obtained from the accelerometer [1] and gyroscope[2] sensor signals of the smartphones. The accelerometer and gyroscope sensors measure 3-axial linear acceleration and 3-axial angular velocity, with these two sensors can monitor device acceleration, positions, orientation, rotation and angular motion. All these data can be stored and used to recognize a user’s activity. Here we refer to physical activities that a human person can perform daily such as walking, walking up, jogging, sitting, laying, etc.
The aim of this analysis consisted of perform a classification’s task. We took a dataset with their attributes (acceleration, orientation,…) and its labeled variable (in this case is activity), and later we created various classification’s models also known classifiers. To create these classification’s models we can use various algorithms of classification. These algorithms use all available information of a dataset to help us to classify or predict that activity is performed by a human person.
To create models of classification (models of classification), we performed a first task that consisted of choose different algorithms or techniques of classification, then for each algorithm or technique of classification we applied what is called cross-validation [3], that is, we trained these algorithm with a set of training data that corresponds to several observations of our available dataset. The following task was tested our classification’s algorithm to observe the accuracy, that is, if our predictive model can classify correctly a human’s activity according to the acquired knowledge in the stage of training. This whole process is known as supervised learning [4].
Conocer las diferencias entre los distintos algoritmos de aprendizaje automático.Utilizar una herramienta para minería de datos y comparar varios algoritmos de aprendizaje automático. Para ello vamos a trabajar con la herramienta RapidMiner.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
2. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Contenido
1. Objetivo ................................................................................................................................ 3
2. Enunciado ............................................................................................................................. 3
3. Plataforma de desarrollo ....................................................................................................... 3
4. Proceso de desarrollo de la solución...................................................................................... 3
4.1 Descargar e instalación Pentaho Data Integration 4.2.0 ................................................... 3
4.2 Proceso ETL ..................................................................................................................... 4
4.2.1 Extracción (E) ............................................................................................................... 6
4.2.2 Transformación (T) ....................................................................................................... 7
4.2.3 Carga(L) ........................................................................................................................ 8
4.2.4 Resultado Final ........................................................................................................... 11
5. Solución final transformación .............................................................................................. 12
Inteligencia Artificial Página 2 de 12
3. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
1. Objetivo
Conocer cómo se realiza la integración de datos en proceso de minería de datos.
2. Enunciado
El objetivo de esta es utilizar una herramienta para recuperación y procesado de datos.
Para ello vamos a trabajar con la herramienta Kettle(Pentaho Data Integration).
La práctica se compone de los siguientes pasos:
1. Descargar e instalar Kettle Community Edition (http://kettle.pentaho.com)
2. Crear un proceso que descargue en internet noticias en formato RSS de tres
periódicos españoles. Debe descargar tres categorías: cultura, economía y
ciencia.
3. Procesar los datos para que guarde, por un lado, una hoja de Excel para cada
categoría que contenga el título, la fecha, el enlace y la descripción de las
noticias de la categoría.
4. Por otro lado debe crear, para cada categoría, un directorio con archivos de
texto plano (*.txt). Cada archivo txt debe contener el título y la descripción de
una noticia (debe haber un txt para cada noticia dentro de cada categoría).
3. Plataforma de desarrollo
Para realización de esta práctica, se ha utilizado:
- Dell Inspiron 1525 Core 2 Duo
- Sistema Operativo Windows XP SP3 32Bits
- Java Runtime Environment 1.6.0_27
- Pentaho Data Integration Stable Release 4.2.0 Comunity Edition
4. Proceso de desarrollo de la solución
4.1 Descargar e instalación Pentaho Data Integration 4.2.0
Para la realización de esta práctica es necesario la instalación del producto Pentaho
Data Integration también conocido con el nombre de Kettle. Su funcionalidad principal
es que nos permite llevar a cabo un proceso de extracción de datos de fuentes de
información, transformación de esos datos a un formato coherente y uniforme, y por
último cargarlos en otra base de datos o herramientas para realizar un análisis
posterior. Este proceso también es conocido como Extraction, Transformation y
Loading (ETL).
Inteligencia Artificial Página 3 de 12
4. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Nota. Para poder ejecutar la aplicación Pentaho Data Integraction 4.2.0 es necesario que
en nuestro equipo, ya se encuentre instalada la máquina virtual de Java de Oracle.
¿Dónde realizamos la descarga?
Accedemos a la siguiente dirección web o U.R.I:
http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.2.0 -stable/ y
procedemos a descargar el fichero pdi-ce-4.20.-stable.zip.
Una vez, que ya tenemos descargado el fichero pdi-ce-4.20.-stable.zip, procedemos a
extraerlo en nuestra unidad de disco, en concreto lo extraemos el directorio C:data-
integration.
En la siguiente imagen podemos observar que ya tenemos realizada la instalación de
este producto.
¿Cómo ejecutamos la aplicación?
Para arrancar la ejecución de esta aplicación, se ejecuta el fichero spoon.bat.
4.2 Proceso ETL
La creación del proceso ETL de esta práctica con la aplicación Pentaho Data Integration
requiere la creación de lo que se denomina una nueva Transformación. En la siguiente
imagen podemos observar las propiedades de nuestra transformación.
Inteligencia Artificial Página 4 de 12
5. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
El siguiente paso será la realización de tres procesos, uno para cada categoría de
noticias. Las entradas de nuestros procesos será la entrada en formato RSS de los tres
periódicos españoles seleccionados.
Los periódicos españoles seleccionados son los siguientes:
- EL MUNDO
- EL PAÍS
- LA RAZÓN
A continuación, detallo las direcciones de acceso a los recursos de noticias en formato
RSS, atendiendo a las categorías requeridas de los tres periódicos españoles
seleccionados.
Categoría CIENCIA
- http://elmundo.feedsportal.com/elmundo/rss/ciencia.xml
- http://ep00.epimg.net/rss/tags/c_ciencia.xml
- http://www.larazon.es/noticias/rss/ciencia-y-tecnologia
Categoría CULTURA
- http://elmundo.feedsportal.com/elmundo/rss/cultura.xml
- http://ep00.epimg.net/rss/cultura/portada.xml
- http://www.larazon.es/noticias/rss/cultura
Categoría ECONOMÍA
- http://elmundo.feedsportal.com/elmundo/rss/economia.xml
- http://www.elpais.com/rss/feed.html?feedId=1006
- http://www.larazon.es/noticias/rss/economia
Inteligencia Artificial Página 5 de 12
6. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
En los siguientes puntos voy a detallar como sería el proceso que se nos pide en esta
práctica para la categoría de Ciencia, para el resto de procesos de las otras categorías
la realización es exactamente igual.
En esta imagen podemos observar cuál es el objetivo que pretendemos para la
categoría de Ciencia.
4.2.1 Extracción (E)
Aquí nosotros necesitamos configurar un primero paso (Entrada) en el que
recuperamos las noticias de información en formato RSS, de la distintas URLs
especificadas anteriormente.
Detalles del Paso Entrada RSS Ciencia
Se especifica todas las direcciones (URLs) fuentes de información.
Inteligencia Artificial Página 6 de 12
7. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Detalles del Paso Entrada RSS Ciencia “Campos Seleccionados”
Únicamente seleccionamos aquellos campos que queremos recuperar del fichero XML
en formato RSS, y que son Titulo (Title), Enlace (Link), Descripción (Description as text)
y FechaTmp (PubDate).
4.2.2 Transformación (T)
Durante la transformación normalmente se unifica los formatos de aquellos campos
que queremos que sean homogéneos independientemente de la fuente de
información donde provengan. Para ello creamos un nuevo paso Transformación
Campo Fecha Ciencia que tendrá como campos de entrada los del paso anterior.
En esta práctica queremos que el campo FechaTmp (PubDate) pase a ser de tipo Date y
que además tenga el siguiente formato dd/MM/yy HH:mm, y además se renombre el
campo con el nombre de Fecha.
Detalles del Paso Transformación Campo Fecha Ciencia
Inteligencia Artificial Página 7 de 12
8. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
4.2.3 Carga(L)
En este punto tenemos que generar dos salidas distintas.
Para la generación de un fichero Excel de salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Excel Ciencia” y
configurar el nombre del archivo del fichero Excel, así como los campos que queramos
que tenga el archivo de Excel.
Detalles del Paso Salida Excel Ciencia
Detalles del Paso Salida Excel Ciencia “Campos Seleccionados”
Inteligencia Artificial Página 8 de 12
9. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Para la generación de ficheros de textos salida con los distintos campos de la noticias
de la categoría Ciencia, tenemos que crear un nuevo paso “Salida Fichero de Texto
Ciencia” y configurar los nombres de los ficheros de ficheros de textos para cada
noticia, así como los campos que queramos que tenga el archivo de texto.
Detalles del Paso Salida Fichero de Texto Ciencia
Detalles del Paso Salida Fichero de Texto Ciencia “Contenido”
Cómo se debe generar un fichero de texto (*.txt) para cada noticia, es necesario
configurar el parámetro de configuración Separar cada … filas a 1.
Inteligencia Artificial Página 9 de 12
10. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Detalles del Paso Salida Fichero de Texto Ciencia “Seleccionados”
Inteligencia Artificial Página 10 de 12
11. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
4.2.4 Resultado Final
¿Cuáles son los resultados obtenidos?
Detalles de Fichero Salida Excel
En el fichero EXCEL (xls) de salida, podemos observar que las noticias se pueden
ordenar correctamente por el campo fecha.
Inteligencia Artificial Página 11 de 12
12. AAI 3 – Actividad de Aplicación. Recuperación y Proceso de
Datos (Kettle)
Detalle de Fichero de Texto (Primera noticia)
5. Solución final transformación
La transformación obtenida como solución final de esta práctica para distintas
categorías de noticias se puede ver en esta imagen.
Inteligencia Artificial Página 12 de 12