SlideShare una empresa de Scribd logo
Análisis y minería de datos
Raquel Gil Martínez, Pablo Tomico Pérez, Jaime Rodríguez Soliño, Denis Romasanta
Rodríguez
Resumen:
Los sistemas de ayuda a la toma de decisiones son técnicas que se utilizan en la resolución de
problemas de gestión de almacenamiento y recuperación de datos. Se utilizan extensiones de SQL
que soportan herramientas OLAP para ayudar al análisis estadístico de las bases de datos. Para el
procesamiento analítico en línea, los atributos se necesitan agrupar en tablas o cubos de datos.
Los datos mostrados en dichas tablas o cubos, vendrán dados por las relaciones que existen entre
los distintos tipos de atributos. La implementación de los sistemas OLAP ha evolucionado
convirtiéndose en un sistema cliente-servidor, donde el servidor contiene la base de datos
relacional y los cubos de datos MOLAP y el cliente, obtiene las vistas de dichos datos
comunicándose con el servidor. La función de agregación en SQL está limitada, por lo que se han
implementado varias extensiones que incluyen funciones para el cálculo de diversas medidas
estadísticas, y de resultados estadísticos para parejas de atributos o generalizaciones, de
percentiles. Así, como de clasificación de filas o tuplas y el tratamiento de valores null. Una
ventana es una consulta que calcula para cada fecha el promedio de ventas de ese día, el anterior
y el siguiente y se utiliza para suavizar las variaciones aleatorias. Los almacenes de datos son
sistemas con un esquema unificado los cuales reúnen datos que han recibido o solicitado de otros
sistemas. La minería de datos se encarga de analizar bases de datos en busca de estructuras,
relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que implican
predicción y toma de decisiones, como la asociación y las agrupaciones.
1. Introducción
Hoy en día las empresas cuentan con grandes cantidades de datos disponibles gracias a
todos los medios mediante los que se recopila información de forma constante. Este campo es
clave para tomar las mejores decisiones por parte de las empresas para aumentar ventas, acercarse
más a sus clientes, entre otros ejemplos. Sin embargo, el tratamiento de dichos datos es por lo
tanto cada vez más complicado con los medios tradicionales para el análisis de datos, ya que
empleando SQL no se pueden extraer algunos tipos de información debido a la complejidad de
las consultas que harían falta.
Así, para ayudar a las empresas a aprovechar estos datos tan numerosos de los que se
disponen y a tomar las mejores decisiones en sus actividades, hay varias técnicas y herramientas
sobre las que se va a tratar en este tema. Algunas de ellas realizan cálculos previos para resumir
grandes cantidades de información para agilizar las respuestas de las consultas. Otra herramienta
sería el análisis de los datos para obtener información mediante la llamada minería de datos, que
se basa en la localización de diversos tipos de estructuras entre todos los datos disponibles.
En el cuerpo de este documento se tratarán temas pertenecientes al ámbito del
almacenamiento, análisis y minería de datos a lo largo de 14 apartados.
En el apartado 2 se introducirán los sistemas de ayuda a la toma de decisiones. A
continuación, y hasta el apartado 5, se hablará de los sistemas de procesamiento analítico en línea,
a los que se les hace referencia con las siglas inglesas OLAP, su funcionamiento y su
implementación. En último lugar respecto al procesamiento de datos, en los apartados de 6 a 8,
se procederá a describir funcionalidades de consulta relevantes para el procesamiento de datos
(estadística, clasificaciones, ventanas).
A partir del apartado 9 se pasará a desarrollar el tema de almacenamiento y minería de
datos. El propio apartado 9 estará dedicado a los almacenes de datos, su funcionamiento y
realización. Desde el apartado 10 en adelante se estudiará la minería de datos, proceso por el cual
se procede a clasificar la información y a buscar estructuras, relaciones y correlaciones entre la
información contenida en un conjunto de datos. Dentro de esta sección se hablará a lo largo de
los distintos apartados de la repartición en clases de los datos, las estructuras necesarias para ello,
el proceso de regresión y el concepto de asociación, sus reglas y sus variantes.
Finalmente, existe un apartado final que contiene las conclusiones sacadas a partir del
estudio realizado para la elaboración de este documento.
2. Sistemas de ayuda a la toma de decisiones
Estas técnicas se plantean para la resolución de diversos problemas a la hora de gestionar el
almacenamiento y recuperación de los datos:
→ Muchas consultas no pueden expresarse en SQL o al menos no con facilidad, por lo
que existen extensiones de SQL para facilitar el análisis de datos. Las herramientas para este
análisis pertenecen al área de procesamiento analítico en línea, OLAP.
→ Los lenguajes de consultas no son eficaces para el análisis estadístico. Para solucionar
esto, existen paquetes que proporcionan herramientas eficaces para el análisis de grandes
volúmenes de datos.
→ En grandes empresas, al contar con varios orígenes de datos, se necesitan los llamados
almacenes de datos, que ofrecen una interfaz común para todos los datos.
→ Para detectar patrones o reglas estadísticas en grandes cantidades de datos, el campo
de la minería de datos combina diversas herramientas.
3. Análisis de datos y OLAP
Las bases de datos deben soportar formas sencillas de análisis estadístico que permitan resumir
los datos y mostrarlos de forma clara al usuario. Hay muchas tareas que no se pueden realizar con
las funciones habituales de SQL (búsqueda de percentiles, distribuciones acumulativas, agregados
sobre ventanas deslizantes etc) por ello se han desarrollado extensiones de SQL que permitan
soportar herramientas OLAP.
4. Procesamiento analítico en línea
El análisis estadístico suele necesitar agrupar varios atributos. Dada una relación se pueden
identificar atributos de medida, que miden algún valor y pueden agregarse, y atributos de
dimensión, ya que definen las dimensiones en las que se ven los atributos de medida. Hay también
algunos datos que pueden modelarse tanto como de dimensión como de medida, estos son los
llamados datos multidimensionales (Figura 1).
Para analizar los datos multidimensionales se hace uso de la tabulación cruzada, o también
conocida como tablas dinámicas. La generalización de las tabulaciones cruzadas, que son
bidimensionales, a n dimensiones puede visualizar como cubos n-dimensionales o cubos de datos.
Supongamos una relación ventas (nombre_articulo, color, talla, número)
Para analizar los datos el gestor puede preferir ver los datos como una tabla dinámica o tabulación
cruzada, tal y como se muestra en la Tabla 1 donde se ha realizado la agregación suma de los
atributos número para todos los valores de talla. También se incluye en este ejemplo una fila y
columna adicionales con los subtotales.
Tabla 1 Tabulación cruzada de ventas con nombre_artículo y color
La tabulación cruzada con columnas o valores resumen también puede representarse
introduciendo el valor especial all para representar los subtotales tal y como se muestra en la
siguiente tabla.
Tabla 2 Representación relacional de los datos de la Tabla 1
Nota: Realmente se usa el valor NULL para representar a todos (all) según la norma SQL: 1999,
debido a que esto puede generar ambigüedad existen funciones que permiten modificar este valor
por el nombre que deseemos.
La generalización de las tabulaciones cruzadas, que son bidimensionales, a n dimensiones puede
visualizar como cubos n-dimensionales o cubos de datos (Figura 1).En esta figura se muestra un
cubo de datos para la tabla ventas con tres dimensiones, nombre_articulo, color y talla con el
atributo de medida número. Todas las celdas contienen valores aunque no sean visibles, las celdas
en blanco indican dato repetido.
Figura 1 Cubo de datos tridimensional
El sistema de procesamiento analítico en línea o sistema OLAP permite a los analistas ver
diferentes resúmenes de los datos multidimensionales:
Pivotaje: Vista bidimensional del cubo de datos, por ejemplo e podría solicitar una tabulación
cruzada para nombre_articulo y talla.
Corte: Por ejemplo, obtener la tabulación cruzada nombre_articulo y color para un determinado
valor de talla, sería como obtener una rebanada del cubo.
Los valores de las dimensiones que no forman parte una tabulación cruzada se muestran encima
de dicha tabla.
Abstracción: Proceso por el cual los sistemas OLAP permiten a los usuarios obtener datos con
cualquier nivel de granularidad. Por ejemplo a partir de la Figura 1 se abstrae la dimensión talla
y se obtiene la Tabla 1.
Jerarquía: En ocasiones se requieren observar los datos con diferentes niveles de detalle, por
ejemplo clasificar los datos por horas frente a clasificarlos por días.
5. Implementación de OLAP
Inicialmente los sistemas OLAP utilizaban arrays de memoria multidimensionales para almacenar
los cubos de datos y se denominaban sistemas OLAP multidimensionales. Posteriormente estos
servicios evolucionaron y se integraron en los sistemas relacionales y se almacenaron en las bases
de datos relacionales constituyendo los OLAP relacionales. También existen sistemas OLAP que
combinan ambos modos de almacenamiento, los OLAB híbridos.
Los sistemas OLAP pueden implementarse como sistemas cliente-servidor, donde el servidor
contiene la base de datos relacional y los cubos de datos MOLAP de esta forma el cliente obtiene
las vistas de los datos comunicándose con el servidor.
Para mejorar la eficiencia de los sistemas OLAP y el cálculo de cubos de datos en lugar de calcular
previamente todas las agrupaciones posibles (2n
) resulta razonable calcular previamente algunas
de las agrupaciones y almacenarlas para calcular posteriormente las que se necesiten. A veces
resulta más eficiente calcular una consulta a partir de otras consultas calculadas previamente en
vez de a partir de la relación original.
6. Agregación extendida
La funcionalidad de agregación en SQL está limitada, por lo que se han implementado varias
extensiones. Las nuevas funciones que se implementan para un solo atributo son la desviación
estándar y la varianza (stddev y variance). Algunos sistemas de bases de datos soportan funciones
como la mediana y la moda.
En SQL:1999 soporta varias funciones de agregación binarias para calcular resultados estadísticos
para parejas de atributos (correlaciones, covarianzas, etc). También generalizaciones de la
estructura group by, mediante las estructuras cube y rollup.
Cube: Genera cubos de datos, se realizan 2n
agrupaciones.
Ejemplo: Resultado en la Tabla 2 (sustituyendo all por null)
select nombre_artículo, color, talla, sum(número)
from ventas
group by rollup(nombre_artículo, color, talla)
Rollup: Similar a cube, permite generar agregados para una jerarquía de valores de las columnas
seleccionadas.
select nombre_artículo, color, talla, sum(número)
from ventas
group by rollup(nombre_artículo, color, talla)
Se generan:
{ (nombre_artículo, color, talla), (nombre_artículo, color), (nombre_artículo), () }
La presencia de valores null en las clasificaciones puede resultar problemática por lo que las
sentencias nulls first o nulls last permiten al usuario especificar donde deben aparecer los nulos.
La norma SQL:1999 también permite la clasificación mediante percentiles con la función
percent_rank, la función cume_dist para organizar conforme a una distribución acumulativa. La
función row_number ordena las filas de una clasificación y a aquellas con el mismo valor les
asocia números de fila diferentes de forma no determinista. Por último la función ntile(n) toma
las tuplas de cada partición en el orden especificado y las divide en n partes con igual número de
tuplas.
7. Clasificación
Obtener la posición de un valor determinado sobre un conjunto de datos es una operación habitual.
Por ejemplo si se requiere clasificar a los estudiantes por sus notas se puede realizar esta operación
mediante la cláusula Rank definida en SQL: 1999.
Dada la relación notas_estudiante(id_estudiante,notas) que almacena las notas obtenidas por cada
estudiante mediante la consulta siguiente obtenemos a los estudiantes ordenados según sus
calficaciones. Se permite también la clasificación dentro de particiones de datos.
8. Ventanas
Una consulta ventana es por ejemplo aquella en la que se calcula el saldo acumulado de una cuenta,
dada una relación con las imposiciones y retiradas de fondos; este tipo de consultas resultan muy
complicadas o imposibles en SQL básico.
A continuación se mostrará un ejemplo de ventana con las funciones proporcionadas por SQL:
1999. Se tiene la relación transacción (número_cuenta, fecha_hora, valor) donde valor es positivo
para el ingreso de fondos y negativo para la retirada, se permite una transacción como máximo
para cada valor de fecha y hora.
Mediante la siguiente consulta:
select número_cuenta, fecha_hora,
sum(valor) over
(partition by número_cuenta
order by fecha_hora
rows unbounded preceding)
as saldo
from transacción
order by número_cuenta, fecha_hora
Para cada transacción se obtiene el saldo de la cuenta anterior a ella sumando todos los ingresos
y retiradas anteriores. La cláusula partition by clasifica las tuplas por número de cuenta de tal
forma que para sumar las filas anteriores solo se consideran aquellas con el mismo número de
cuenta. Se crea una ventana para cada tupla y mediante rows unbounded preceding se especifica
que la ventana de cada tupla se obtiene a partir de todas las tuplas que la preceden en el orden
especficado.
Se pueden especificar otros tipos de ventas modificando la expresión rows, por ejemplo rows 10
preceding crea una ventana con las 10 filas anteriores a cada fila.
9. Almacenes de datos
Los llamados almacenes de datos son sistemas con un esquema unificado que reúnen datos de una
serie de sistemas origen, bien recibiendo datos nuevos de los orígenes o bien solicitándolos.
Un almacén debe integrar dentro de su esquema los esquemas de datos de los orígenes y propagar
las actualizaciones a través de toda la red de sistemas, así como limpiar los datos (p.e. erratas en
algún campo o duplicados) o transformarlos. En muchos casos interesa también realizar un
resumen de los datos ya que los datos brutos recibidos de los orígenes pueden ser demasiado
grandes para almacenarlos en línea.
Los esquemas de los almacenes de datos se componen de tablas de hechos y tablas de datos,
siendo las primeras tablas con datos multidimensionales, representados mediante claves externas
que llevan a tablas de datos con sus atributos. Una tabla de hechos con sus tablas de datos es
llamado un esquema en estrella, mientras que si hay más de un nivel de tablas de hechos se trata
de un esquema en copo de nieve.
10. Minería de datos
Se llama minería de datos al proceso semi-automático de analizar bases de datos en busca de
estructuras, relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que
implican predicción y toma de decisiones (p.e. conceder un crédito bancario). Ejemplos de estos
patrones son la asociación (p.e. dos productos que suelen comprarse juntos) y las agrupaciones
(p.e. la densidad de ocurrencia de un suceso en torno a una marca geográfica o cronológica).
En busca de satisfacer el objetivo de predicción, en base a las estructuras descubiertas por la
minería de datos se realizan clasificaciones de los datos. Para ello, se estipulan una serie de clases
a alguna de las cuales pertenece cada elemento de datos (clientes, productos, etc). Éstas clases se
generan a partir de un conjunto de datos ya conocidos llamados “ejemplos de formación”.
El proceso de clasificación se realiza por medio de unas estructuras de datos conocidas como
clasificadores. Un tipo de clasificador es el “árbol de decisión”, una estructura de datos en árbol
cuyas hojas son las clases y cuyos nodos rama son condiciones en base a las cuales se irá
avanzando a través del árbol para alcanzar una hoja, que determinará la clase a la que un elemento
pertenece.
Para su aplicación se utilizan algoritmos de heurística impaciente, que parten de la raíz y avanzan
de manera recursiva a través del árbol. Para decidir en base a qué atributos y con qué condiciones
se realizan las particiones de las ramas se realizan cálculos de pureza por medio de la medida de
Gini y la entropía, buscando las particiones que consigan la mejor pureza en los nodos hijos hasta
que todos tengan una pureza total, es decir, que el conjunto de elementos en ese nodo pertenezca
a una sola clase.
Como resultado, se creará un árbol de decisión tal que al ir aplicando las condiciones a un nuevo
elemento lo redirigirá por las ramas hasta llegar al nodo hoja asociado a la clase a la que el nuevo
dato debe pertenecer.
Otro tipo de clasificador es el clasificador bayesiano, los cuales clasifican los datos en base a las
probabilidades obtenidas a partir del Teorema de Bayes. Su principal ventaja es que pueden
clasificar datos que contengan valores nulos, ya que estos se ignoran para el cálculo de
probabilidad.
11. Regresión
La regresión trata de la predicción de valores. Dados los valores de un conjunto de variables X1,
X2, …, Xn, se desea predecir el valor de una variable Y. Por tanto, Y = a0 + a1 * X1 + a2 * X2 + …
+ an * Xn es el polinomio lineal denominado regresión lineal con el cual se intenta hallar una curva
que se ajuste a los datos. Dicho proceso se llama ajuste de la curva.
12. Reglas de asociación
Una regla de asociación debe tener una población asociada: la población consiste en un conjunto
de casos. Las reglas tienen un soporte y una confianza asociados:
 El soporte es una medida de la fracción de población que satisface tanto el antecedente
como el consecuente de la regla. Por lo general, las empresas no suelen estar interesadas
en las reglas que tienen un soporte bajo, ya que afectan a pocos clientes y no merece la
pena prestarles atención.
 La confianza es una medida de la frecuencia donde el consecuente es cierto cuando lo es
el antecedente. Las reglas con una confianza baja no son significativas.
Para descubrir reglas de asociación de la forma i1, i2, …, in => i0:
1. Hay que determinar los conjuntos de elementos con soporte suficiente: Los conjuntos
grandes de elementos.
2. Para cada conjunto grande de elementos se obtienen todas las reglas con confianza sufi-
ciente que afecten a todos los elementos del conjunto y sólo a ellos. Por tanto, para cada
conjunto grande de elementos S se obtiene una regla S – s => s para cada subconjunto s
C S, siempre que S – s => s tenga confianza suficiente; la confianza de la regla la da el
soporte de s dividido por el soporte de S.
3. Si el número de conjuntos de elementos posibles es pequeño, basta con un solo paso por
los datos para detectar el nivel de soporte de todos los conjuntos. De esta forma, se lleva
una cuenta, que comienza en 0, para cada conjunto de elementos. Esta cuenta se incre-
mentará para cada conjunto de elementos de una operación, tal que todos los elementos
del conjunto estén contenidos en la operación. Si esta operación incluye a los elementos
a, b y c, se incrementará el contador para {a}, {b}, {c}, {a, b}, {a, c}, {b, c} y {a, b, c}.
Los conjuntos con un contador lo bastante elevado al final del pase, se corresponden con
los elementos que tienen un grado de asociación elevado. Si el número de conjuntos crece
de manera exponencial, este proceso es inviable. Aun así, casi todos los conjuntos tienen
normalmente un soporte muy bajo ya que se han desarrollado optimizaciones como la
técnica a priori para la generación de conjuntos de artículos grandes en la que sólo se
consideran en el primer pase los conjuntos con un solo elemento. A lo largo del proceso,
de consideran conjuntos en los que se va incrementando un elemento más por cada pase.
Al final de cada pase, todos los conjuntos con soporte suficiente se consideran conjuntos
grandes de elementos y los que tienen poco soporte, se eliminan. Una vez eliminado un
conjunto, ya no es necesario considerar ninguno de sus superconjuntos, de tan forma que
en el pase i sólo hay que contar el soporte de los conjuntos de tamaño i tales que se haya
hallado que todos sus subconjuntos tienen un soporte lo bastante elevado; basta con pro-
bar todos los subconjuntos de tamaño i - 1 para asegurarse que se cumple esta propiedad.
Si en este pase i se halla que ningún conjunto de tamaño i tiene el soporte suficiente, no
hará falta considerar ningún conjunto de tamaño i + 1.
13. Otros tipos de asociación
El uso de las reglas de asociación tiene varios inconvenientes como que muchas asociaciones no
son interesantes ya que pueden predecirse. Lo realmente interesante es la desviación de la
ocurrencia conjunta de un conjunto de asociaciones análogas. Estadísticamente, se buscan
correlaciones entre los artículos las cuales pueden ser positivas, donde la ocurrencia conjunta es
superior a lo esperado, o negativas, en la que los elementos ocurren conjuntamente menos
frecuentemente de lo predicho.
Otra aplicación de minería de datos son las asociaciones de secuencias en donde intervienen datos
temporales. Las desviaciones de las estructuras temporales son de gran interés ya que pueden
encontrarse desviaciones de lo esperado con base a estructuras temporales o secuenciales pasadas.
14. Agrupamiento
El problema del agrupamiento consiste en agrupar los puntos en k conjuntos (para un k dado) de
modo que la distancia media de los puntos al centroide de su agrupación asignada sea mínima.
Con otras palabras, en agrupar los puntos de modo que la distancia media entre cada par de puntos
de cada agrupación sea mínima. En resumen, agrupar los puntos parecidos en un único conjunto.
Un tipo de agrupamiento destacable es el agrupamiento jerárquico que puede clasificarse en:
agrupamiento aglomerativo, que comienza creando agrupaciones pequeñas y luego los niveles
superiores y el divisivo, que primero crea los niveles superiores y luego los dividen en
agrupaciones de niveles inferiores.
Referente a las bases de datos está el agrupamiento Birch donde los puntos de datos se insertan
en una estructura arbórea multidimensional y son llevados a los nodos hoja correspondientes en
relación a su cercanía a los puntos representativos de los nodos internos del árbol.
15. Otros tipos de minería
La minería de texto aplica las técnicas de minería de datos en documentos de texto o en sistemas
de visualización de datos. Estos últimos, ayudan a los usuarios a examinar grandes volúmenes de
datos y a detectar visualmente las estructuras. De esta manera, permiten que los datos se presenten
a los usuarios de manera compacta.
16. Conclusiones
La importancia de una base de datos no solo se basa en su capacidad de almacenaje de
datos sino que también cobra vital importancia su recuperación, gestión y análisis, para
ello las bases de datos implementan una serie de sistemas de ayuda a la toma de decisiones.
Para facilitar el análisis de datos existen una serie de herramientas (OLAP) que extienden
la funcionalidad SQL. Mediante ellas podemos obtener cubos multidimensionales, tablas
dinámicas, realizar abstracciones de datos y clasificarlos en jerarquías. Las herramientas
OLAP proporcionan una implementación optimizada de este tipo de operaciones que
permiten a los usuarios o gestores obtener la información de forma rápida, detallada y
presentada como ellos la deseen.
Dada la gran cantidad de datos procedentes de diferentes ámbitos que puede almacenar
una empresa resulta útil el uso de almacenes de datos, de esta se forma se reúnen los datos
de diferentes sistemas de origen. Los almacenes permiten tanto propagar actualizaciones
a través del sistema como limpiar los datos, también realizan resúmenes de los datos
cuando los datos brutos recibidos impidan su correcto almacén en línea.
La minería de datos nos permite analizar de forma semi-automática una base de datos, de
esta forma se obtienen estructuras, relaciones o patrones útiles para la toma de decisiones.
Dentro de la minería se encuentra la regresión, que trata acerca de la predicción de valores,
las reglas de asociación, que nos permite relacionar un antecedente con una consecuencia,
y el agrupamiento, que nos permite agrupar una serie de valores similares.
Bibliografía
 A. Silberschatz, H.F. Korth y S. Sudarshan (2006), Fundamentos de Bases de Datos, 5ª
Edición, McGraw-Hill

Más contenido relacionado

La actualidad más candente

Sebastian
SebastianSebastian
Sebastian
krito1995
 
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Juan Polo Cosme
 
Microsoft access
Microsoft accessMicrosoft access
Microsoft access
AnthonyLeonRuiz
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
Isnaldo Arias
 
Diccionario de datos en los sistemas de información
Diccionario de datos en los sistemas de informaciónDiccionario de datos en los sistemas de información
Diccionario de datos en los sistemas de información
Yaskelly Yedra
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
Alejandro Rodriguez
 
Base de datos "primera parte"
Base de datos "primera parte"Base de datos "primera parte"
Base de datos "primera parte"paola rincon
 
DIAGRAMA DE PLANIFICACION
DIAGRAMA DE PLANIFICACIONDIAGRAMA DE PLANIFICACION
DIAGRAMA DE PLANIFICACION
siirjosef
 
Arquitectura de datos empresariales análisis de una base de datos
Arquitectura de datos empresariales   análisis de una base de datosArquitectura de datos empresariales   análisis de una base de datos
Arquitectura de datos empresariales análisis de una base de datos
CarlosTenelema1
 
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
Juan Polo Cosme
 
Diagrama de Flujo de Datos
Diagrama de Flujo de DatosDiagrama de Flujo de Datos
Diagrama de Flujo de Datos
Inés Andara
 
Diccionario de datos
Diccionario de datosDiccionario de datos
Diccionario de datos
Flv Martín
 
Diapositivas Base De Datos
Diapositivas Base De DatosDiapositivas Base De Datos
Diapositivas Base De Datos
Digno Yunga
 
Base de datos antonio yeguez
Base de datos antonio yeguezBase de datos antonio yeguez
Base de datos antonio yeguezanto2707
 

La actualidad más candente (17)

Sebastian
SebastianSebastian
Sebastian
 
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.2  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.2 Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Jeimy monsalve
Jeimy monsalveJeimy monsalve
Jeimy monsalve
 
Base de datos
Base de datosBase de datos
Base de datos
 
Microsoft access
Microsoft accessMicrosoft access
Microsoft access
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
 
Diccionario de datos en los sistemas de información
Diccionario de datos en los sistemas de informaciónDiccionario de datos en los sistemas de información
Diccionario de datos en los sistemas de información
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
 
Base de datos "primera parte"
Base de datos "primera parte"Base de datos "primera parte"
Base de datos "primera parte"
 
DIAGRAMA DE PLANIFICACION
DIAGRAMA DE PLANIFICACIONDIAGRAMA DE PLANIFICACION
DIAGRAMA DE PLANIFICACION
 
Arquitectura de datos empresariales análisis de una base de datos
Arquitectura de datos empresariales   análisis de una base de datosArquitectura de datos empresariales   análisis de una base de datos
Arquitectura de datos empresariales análisis de una base de datos
 
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Diagrama de Flujo de Datos
Diagrama de Flujo de DatosDiagrama de Flujo de Datos
Diagrama de Flujo de Datos
 
Diccionario de datos
Diccionario de datosDiccionario de datos
Diccionario de datos
 
Diapositivas Base De Datos
Diapositivas Base De DatosDiapositivas Base De Datos
Diapositivas Base De Datos
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Base de datos antonio yeguez
Base de datos antonio yeguezBase de datos antonio yeguez
Base de datos antonio yeguez
 

Destacado

Jorgandel silva mapa conceptual
Jorgandel silva mapa conceptualJorgandel silva mapa conceptual
Jorgandel silva mapa conceptual
Jordangel Silva
 
игровая площадка гр.№ 8 июль 2015г.
игровая площадка гр.№ 8 июль 2015г.игровая площадка гр.№ 8 июль 2015г.
игровая площадка гр.№ 8 июль 2015г.virtualtaganrog
 
Implementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
Implementing the UNESCO Convention for the Safeguarding of ICH in CyprusImplementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
Implementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
UNESCO Venice Office
 
1.plecóptero,teniopterígido. katia y anggy
1.plecóptero,teniopterígido. katia y anggy1.plecóptero,teniopterígido. katia y anggy
1.plecóptero,teniopterígido. katia y anggyvilpermar
 
Práctica 5. análisis del sistema de ordenación educativa español.
Práctica 5. análisis del sistema de ordenación educativa español.Práctica 5. análisis del sistema de ordenación educativa español.
Práctica 5. análisis del sistema de ordenación educativa español.Sandra Molero López-Hazas
 
Snapchat en france vu par oxygene com
Snapchat en france vu par oxygene comSnapchat en france vu par oxygene com
Snapchat en france vu par oxygene com
Stéphane Robert
 
El perfil professional d'un/a conseller/a d'empresa o organització
El perfil professional d'un/a conseller/a d'empresa o organitzacióEl perfil professional d'un/a conseller/a d'empresa o organització
El perfil professional d'un/a conseller/a d'empresa o organització
Cambra de Comerç de Barcelona
 
Quimica II
Quimica IIQuimica II
Quimica II
leonardo urdaneta
 
στελλα χρυσελη
στελλα χρυσεληστελλα χρυσελη
στελλα χρυσεληstkarapy
 

Destacado (12)

mumias.attch rec
mumias.attch recmumias.attch rec
mumias.attch rec
 
Jorgandel silva mapa conceptual
Jorgandel silva mapa conceptualJorgandel silva mapa conceptual
Jorgandel silva mapa conceptual
 
игровая площадка гр.№ 8 июль 2015г.
игровая площадка гр.№ 8 июль 2015г.игровая площадка гр.№ 8 июль 2015г.
игровая площадка гр.№ 8 июль 2015г.
 
RésuméLarge
RésuméLargeRésuméLarge
RésuméLarge
 
Implementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
Implementing the UNESCO Convention for the Safeguarding of ICH in CyprusImplementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
Implementing the UNESCO Convention for the Safeguarding of ICH in Cyprus
 
1.plecóptero,teniopterígido. katia y anggy
1.plecóptero,teniopterígido. katia y anggy1.plecóptero,teniopterígido. katia y anggy
1.plecóptero,teniopterígido. katia y anggy
 
Práctica 5. análisis del sistema de ordenación educativa español.
Práctica 5. análisis del sistema de ordenación educativa español.Práctica 5. análisis del sistema de ordenación educativa español.
Práctica 5. análisis del sistema de ordenación educativa español.
 
Snapchat en france vu par oxygene com
Snapchat en france vu par oxygene comSnapchat en france vu par oxygene com
Snapchat en france vu par oxygene com
 
El perfil professional d'un/a conseller/a d'empresa o organització
El perfil professional d'un/a conseller/a d'empresa o organitzacióEl perfil professional d'un/a conseller/a d'empresa o organització
El perfil professional d'un/a conseller/a d'empresa o organització
 
Makape presentation
Makape presentationMakape presentation
Makape presentation
 
Quimica II
Quimica IIQuimica II
Quimica II
 
στελλα χρυσελη
στελλα χρυσεληστελλα χρυσελη
στελλα χρυσελη
 

Similar a Analisis y mineriadedatos

Análisis y minería de datos
Análisis y minería de datosAnálisis y minería de datos
Análisis y minería de datosYovani Ziork
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Servicesbrobelo
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingTitiushko Jazz
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingTitiushko Jazz
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Juan Polo Cosme
 
Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3
CarlosTenelema1
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidor
Jomicast
 
Base de datos objeto
Base de datos objetoBase de datos objeto
Base de datos objetoRaul Quispe P
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Velmuz Buzz
 
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abril
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 AbrilE:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abril
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abrilyoscelina13
 
Ventajas y desventajas de los sistemas rolap y molap
Ventajas y desventajas de los sistemas rolap y molapVentajas y desventajas de los sistemas rolap y molap
Ventajas y desventajas de los sistemas rolap y molap
Juan Anaya
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
expertoleonelmartine
 
OLAP
OLAPOLAP
Diapositivas olap
Diapositivas olapDiapositivas olap
Diapositivas olap
Jhosy2404
 

Similar a Analisis y mineriadedatos (20)

Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Unidad 3 tsbd olap
Unidad 3 tsbd olapUnidad 3 tsbd olap
Unidad 3 tsbd olap
 
Análisis y minería de datos
Análisis y minería de datosAnálisis y minería de datos
Análisis y minería de datos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y datamining
 
Unidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y dataminingUnidad vii esp parte 2 introduccion a data warehouse y datamining
Unidad vii esp parte 2 introduccion a data warehouse y datamining
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
 
Arquitectura de datos empresariales actividad 3
Arquitectura de datos empresariales   actividad 3Arquitectura de datos empresariales   actividad 3
Arquitectura de datos empresariales actividad 3
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidor
 
Base de datos objeto
Base de datos objetoBase de datos objeto
Base de datos objeto
 
Cubos de datos
Cubos de datosCubos de datos
Cubos de datos
 
Trabajo ayudantia
Trabajo ayudantiaTrabajo ayudantia
Trabajo ayudantia
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2
 
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abril
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 AbrilE:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abril
E:\Ricardo Topicos\Ultimo Corte\Tareas 16 Abril
 
Ventajas y desventajas de los sistemas rolap y molap
Ventajas y desventajas de los sistemas rolap y molapVentajas y desventajas de los sistemas rolap y molap
Ventajas y desventajas de los sistemas rolap y molap
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
 
Base de datos multidimensional
Base de datos multidimensionalBase de datos multidimensional
Base de datos multidimensional
 
OLAP
OLAPOLAP
OLAP
 
Diapositivas olap
Diapositivas olapDiapositivas olap
Diapositivas olap
 

Último

UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
HaroldKewinCanaza1
 
libro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdflibro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdf
MiriamAquino27
 
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDADPRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
mirellamilagrosvf
 
Siemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdfSiemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdf
RonaldRozoMora
 
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptxMedicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
gabrielperedasanchez
 
Diagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdfDiagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdf
joseabachesoto
 
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica químicaCiclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
ycalful01
 
Bash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptxBash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptx
SantosCatalinoOrozco
 
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALESLA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
LuisLobatoingaruca
 
1º Caso Practico Lubricacion Rodamiento Motor 10CV
1º Caso Practico Lubricacion Rodamiento Motor 10CV1º Caso Practico Lubricacion Rodamiento Motor 10CV
1º Caso Practico Lubricacion Rodamiento Motor 10CV
CarlosAroeira1
 
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
leonpool521
 
Joseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidadJoseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidad
KevinCabrera96
 
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de IloPlan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
AlbertoRiveraPrado
 
OPEN_PIT.pdf..------asasasasasasasasasasasas
OPEN_PIT.pdf..------asasasasasasasasasasasasOPEN_PIT.pdf..------asasasasasasasasasasasas
OPEN_PIT.pdf..------asasasasasasasasasasasas
Eder288265
 
Edafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden HistosolesEdafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden Histosoles
FacundoPortela1
 
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptxMATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
Fernando Benavidez
 
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
JhonatanOQuionesChoq
 
Seguridad en mineria los Controles criticos
Seguridad en mineria los Controles criticosSeguridad en mineria los Controles criticos
Seguridad en mineria los Controles criticos
Melvin191754
 
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOLNORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
Pol Peña Quispe
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
maitecuba2006
 

Último (20)

UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
 
libro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdflibro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdf
 
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDADPRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
 
Siemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdfSiemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdf
 
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptxMedicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
 
Diagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdfDiagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdf
 
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica químicaCiclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
Ciclo de Otto. Máquinas térmicas para el estudio de la termodinámica química
 
Bash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptxBash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptx
 
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALESLA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
LA SEÑALES ANALOGICAS Y LAS SEÑALES DIGITALES
 
1º Caso Practico Lubricacion Rodamiento Motor 10CV
1º Caso Practico Lubricacion Rodamiento Motor 10CV1º Caso Practico Lubricacion Rodamiento Motor 10CV
1º Caso Practico Lubricacion Rodamiento Motor 10CV
 
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
 
Joseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidadJoseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidad
 
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de IloPlan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
 
OPEN_PIT.pdf..------asasasasasasasasasasasas
OPEN_PIT.pdf..------asasasasasasasasasasasasOPEN_PIT.pdf..------asasasasasasasasasasasas
OPEN_PIT.pdf..------asasasasasasasasasasasas
 
Edafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden HistosolesEdafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden Histosoles
 
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptxMATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
MATERIALES MAGNETICOS EN EL CAMPO SIDERURGICO.pptx
 
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
SESION 1 - SESION INTRODUCTORIA - INTRODUCCIÓN A LA PERFORACIÓN Y VOLADURA DE...
 
Seguridad en mineria los Controles criticos
Seguridad en mineria los Controles criticosSeguridad en mineria los Controles criticos
Seguridad en mineria los Controles criticos
 
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOLNORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
 

Analisis y mineriadedatos

  • 1. Análisis y minería de datos Raquel Gil Martínez, Pablo Tomico Pérez, Jaime Rodríguez Soliño, Denis Romasanta Rodríguez Resumen: Los sistemas de ayuda a la toma de decisiones son técnicas que se utilizan en la resolución de problemas de gestión de almacenamiento y recuperación de datos. Se utilizan extensiones de SQL que soportan herramientas OLAP para ayudar al análisis estadístico de las bases de datos. Para el procesamiento analítico en línea, los atributos se necesitan agrupar en tablas o cubos de datos. Los datos mostrados en dichas tablas o cubos, vendrán dados por las relaciones que existen entre los distintos tipos de atributos. La implementación de los sistemas OLAP ha evolucionado convirtiéndose en un sistema cliente-servidor, donde el servidor contiene la base de datos relacional y los cubos de datos MOLAP y el cliente, obtiene las vistas de dichos datos comunicándose con el servidor. La función de agregación en SQL está limitada, por lo que se han implementado varias extensiones que incluyen funciones para el cálculo de diversas medidas estadísticas, y de resultados estadísticos para parejas de atributos o generalizaciones, de percentiles. Así, como de clasificación de filas o tuplas y el tratamiento de valores null. Una ventana es una consulta que calcula para cada fecha el promedio de ventas de ese día, el anterior y el siguiente y se utiliza para suavizar las variaciones aleatorias. Los almacenes de datos son sistemas con un esquema unificado los cuales reúnen datos que han recibido o solicitado de otros sistemas. La minería de datos se encarga de analizar bases de datos en busca de estructuras, relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que implican predicción y toma de decisiones, como la asociación y las agrupaciones. 1. Introducción Hoy en día las empresas cuentan con grandes cantidades de datos disponibles gracias a todos los medios mediante los que se recopila información de forma constante. Este campo es clave para tomar las mejores decisiones por parte de las empresas para aumentar ventas, acercarse más a sus clientes, entre otros ejemplos. Sin embargo, el tratamiento de dichos datos es por lo tanto cada vez más complicado con los medios tradicionales para el análisis de datos, ya que empleando SQL no se pueden extraer algunos tipos de información debido a la complejidad de las consultas que harían falta. Así, para ayudar a las empresas a aprovechar estos datos tan numerosos de los que se disponen y a tomar las mejores decisiones en sus actividades, hay varias técnicas y herramientas sobre las que se va a tratar en este tema. Algunas de ellas realizan cálculos previos para resumir grandes cantidades de información para agilizar las respuestas de las consultas. Otra herramienta sería el análisis de los datos para obtener información mediante la llamada minería de datos, que se basa en la localización de diversos tipos de estructuras entre todos los datos disponibles. En el cuerpo de este documento se tratarán temas pertenecientes al ámbito del almacenamiento, análisis y minería de datos a lo largo de 14 apartados. En el apartado 2 se introducirán los sistemas de ayuda a la toma de decisiones. A continuación, y hasta el apartado 5, se hablará de los sistemas de procesamiento analítico en línea, a los que se les hace referencia con las siglas inglesas OLAP, su funcionamiento y su implementación. En último lugar respecto al procesamiento de datos, en los apartados de 6 a 8, se procederá a describir funcionalidades de consulta relevantes para el procesamiento de datos (estadística, clasificaciones, ventanas).
  • 2. A partir del apartado 9 se pasará a desarrollar el tema de almacenamiento y minería de datos. El propio apartado 9 estará dedicado a los almacenes de datos, su funcionamiento y realización. Desde el apartado 10 en adelante se estudiará la minería de datos, proceso por el cual se procede a clasificar la información y a buscar estructuras, relaciones y correlaciones entre la información contenida en un conjunto de datos. Dentro de esta sección se hablará a lo largo de los distintos apartados de la repartición en clases de los datos, las estructuras necesarias para ello, el proceso de regresión y el concepto de asociación, sus reglas y sus variantes. Finalmente, existe un apartado final que contiene las conclusiones sacadas a partir del estudio realizado para la elaboración de este documento. 2. Sistemas de ayuda a la toma de decisiones Estas técnicas se plantean para la resolución de diversos problemas a la hora de gestionar el almacenamiento y recuperación de los datos: → Muchas consultas no pueden expresarse en SQL o al menos no con facilidad, por lo que existen extensiones de SQL para facilitar el análisis de datos. Las herramientas para este análisis pertenecen al área de procesamiento analítico en línea, OLAP. → Los lenguajes de consultas no son eficaces para el análisis estadístico. Para solucionar esto, existen paquetes que proporcionan herramientas eficaces para el análisis de grandes volúmenes de datos. → En grandes empresas, al contar con varios orígenes de datos, se necesitan los llamados almacenes de datos, que ofrecen una interfaz común para todos los datos. → Para detectar patrones o reglas estadísticas en grandes cantidades de datos, el campo de la minería de datos combina diversas herramientas. 3. Análisis de datos y OLAP Las bases de datos deben soportar formas sencillas de análisis estadístico que permitan resumir los datos y mostrarlos de forma clara al usuario. Hay muchas tareas que no se pueden realizar con las funciones habituales de SQL (búsqueda de percentiles, distribuciones acumulativas, agregados sobre ventanas deslizantes etc) por ello se han desarrollado extensiones de SQL que permitan soportar herramientas OLAP. 4. Procesamiento analítico en línea El análisis estadístico suele necesitar agrupar varios atributos. Dada una relación se pueden identificar atributos de medida, que miden algún valor y pueden agregarse, y atributos de dimensión, ya que definen las dimensiones en las que se ven los atributos de medida. Hay también algunos datos que pueden modelarse tanto como de dimensión como de medida, estos son los llamados datos multidimensionales (Figura 1). Para analizar los datos multidimensionales se hace uso de la tabulación cruzada, o también conocida como tablas dinámicas. La generalización de las tabulaciones cruzadas, que son bidimensionales, a n dimensiones puede visualizar como cubos n-dimensionales o cubos de datos. Supongamos una relación ventas (nombre_articulo, color, talla, número) Para analizar los datos el gestor puede preferir ver los datos como una tabla dinámica o tabulación cruzada, tal y como se muestra en la Tabla 1 donde se ha realizado la agregación suma de los atributos número para todos los valores de talla. También se incluye en este ejemplo una fila y columna adicionales con los subtotales.
  • 3. Tabla 1 Tabulación cruzada de ventas con nombre_artículo y color La tabulación cruzada con columnas o valores resumen también puede representarse introduciendo el valor especial all para representar los subtotales tal y como se muestra en la siguiente tabla. Tabla 2 Representación relacional de los datos de la Tabla 1 Nota: Realmente se usa el valor NULL para representar a todos (all) según la norma SQL: 1999, debido a que esto puede generar ambigüedad existen funciones que permiten modificar este valor por el nombre que deseemos. La generalización de las tabulaciones cruzadas, que son bidimensionales, a n dimensiones puede visualizar como cubos n-dimensionales o cubos de datos (Figura 1).En esta figura se muestra un cubo de datos para la tabla ventas con tres dimensiones, nombre_articulo, color y talla con el atributo de medida número. Todas las celdas contienen valores aunque no sean visibles, las celdas en blanco indican dato repetido.
  • 4. Figura 1 Cubo de datos tridimensional El sistema de procesamiento analítico en línea o sistema OLAP permite a los analistas ver diferentes resúmenes de los datos multidimensionales: Pivotaje: Vista bidimensional del cubo de datos, por ejemplo e podría solicitar una tabulación cruzada para nombre_articulo y talla. Corte: Por ejemplo, obtener la tabulación cruzada nombre_articulo y color para un determinado valor de talla, sería como obtener una rebanada del cubo. Los valores de las dimensiones que no forman parte una tabulación cruzada se muestran encima de dicha tabla. Abstracción: Proceso por el cual los sistemas OLAP permiten a los usuarios obtener datos con cualquier nivel de granularidad. Por ejemplo a partir de la Figura 1 se abstrae la dimensión talla y se obtiene la Tabla 1. Jerarquía: En ocasiones se requieren observar los datos con diferentes niveles de detalle, por ejemplo clasificar los datos por horas frente a clasificarlos por días. 5. Implementación de OLAP Inicialmente los sistemas OLAP utilizaban arrays de memoria multidimensionales para almacenar los cubos de datos y se denominaban sistemas OLAP multidimensionales. Posteriormente estos servicios evolucionaron y se integraron en los sistemas relacionales y se almacenaron en las bases de datos relacionales constituyendo los OLAP relacionales. También existen sistemas OLAP que combinan ambos modos de almacenamiento, los OLAB híbridos. Los sistemas OLAP pueden implementarse como sistemas cliente-servidor, donde el servidor contiene la base de datos relacional y los cubos de datos MOLAP de esta forma el cliente obtiene las vistas de los datos comunicándose con el servidor. Para mejorar la eficiencia de los sistemas OLAP y el cálculo de cubos de datos en lugar de calcular previamente todas las agrupaciones posibles (2n ) resulta razonable calcular previamente algunas de las agrupaciones y almacenarlas para calcular posteriormente las que se necesiten. A veces resulta más eficiente calcular una consulta a partir de otras consultas calculadas previamente en vez de a partir de la relación original.
  • 5. 6. Agregación extendida La funcionalidad de agregación en SQL está limitada, por lo que se han implementado varias extensiones. Las nuevas funciones que se implementan para un solo atributo son la desviación estándar y la varianza (stddev y variance). Algunos sistemas de bases de datos soportan funciones como la mediana y la moda. En SQL:1999 soporta varias funciones de agregación binarias para calcular resultados estadísticos para parejas de atributos (correlaciones, covarianzas, etc). También generalizaciones de la estructura group by, mediante las estructuras cube y rollup. Cube: Genera cubos de datos, se realizan 2n agrupaciones. Ejemplo: Resultado en la Tabla 2 (sustituyendo all por null) select nombre_artículo, color, talla, sum(número) from ventas group by rollup(nombre_artículo, color, talla) Rollup: Similar a cube, permite generar agregados para una jerarquía de valores de las columnas seleccionadas. select nombre_artículo, color, talla, sum(número) from ventas group by rollup(nombre_artículo, color, talla) Se generan: { (nombre_artículo, color, talla), (nombre_artículo, color), (nombre_artículo), () } La presencia de valores null en las clasificaciones puede resultar problemática por lo que las sentencias nulls first o nulls last permiten al usuario especificar donde deben aparecer los nulos. La norma SQL:1999 también permite la clasificación mediante percentiles con la función percent_rank, la función cume_dist para organizar conforme a una distribución acumulativa. La función row_number ordena las filas de una clasificación y a aquellas con el mismo valor les asocia números de fila diferentes de forma no determinista. Por último la función ntile(n) toma las tuplas de cada partición en el orden especificado y las divide en n partes con igual número de tuplas. 7. Clasificación Obtener la posición de un valor determinado sobre un conjunto de datos es una operación habitual. Por ejemplo si se requiere clasificar a los estudiantes por sus notas se puede realizar esta operación mediante la cláusula Rank definida en SQL: 1999. Dada la relación notas_estudiante(id_estudiante,notas) que almacena las notas obtenidas por cada estudiante mediante la consulta siguiente obtenemos a los estudiantes ordenados según sus calficaciones. Se permite también la clasificación dentro de particiones de datos. 8. Ventanas Una consulta ventana es por ejemplo aquella en la que se calcula el saldo acumulado de una cuenta, dada una relación con las imposiciones y retiradas de fondos; este tipo de consultas resultan muy complicadas o imposibles en SQL básico. A continuación se mostrará un ejemplo de ventana con las funciones proporcionadas por SQL: 1999. Se tiene la relación transacción (número_cuenta, fecha_hora, valor) donde valor es positivo
  • 6. para el ingreso de fondos y negativo para la retirada, se permite una transacción como máximo para cada valor de fecha y hora. Mediante la siguiente consulta: select número_cuenta, fecha_hora, sum(valor) over (partition by número_cuenta order by fecha_hora rows unbounded preceding) as saldo from transacción order by número_cuenta, fecha_hora Para cada transacción se obtiene el saldo de la cuenta anterior a ella sumando todos los ingresos y retiradas anteriores. La cláusula partition by clasifica las tuplas por número de cuenta de tal forma que para sumar las filas anteriores solo se consideran aquellas con el mismo número de cuenta. Se crea una ventana para cada tupla y mediante rows unbounded preceding se especifica que la ventana de cada tupla se obtiene a partir de todas las tuplas que la preceden en el orden especficado. Se pueden especificar otros tipos de ventas modificando la expresión rows, por ejemplo rows 10 preceding crea una ventana con las 10 filas anteriores a cada fila. 9. Almacenes de datos Los llamados almacenes de datos son sistemas con un esquema unificado que reúnen datos de una serie de sistemas origen, bien recibiendo datos nuevos de los orígenes o bien solicitándolos. Un almacén debe integrar dentro de su esquema los esquemas de datos de los orígenes y propagar las actualizaciones a través de toda la red de sistemas, así como limpiar los datos (p.e. erratas en algún campo o duplicados) o transformarlos. En muchos casos interesa también realizar un resumen de los datos ya que los datos brutos recibidos de los orígenes pueden ser demasiado grandes para almacenarlos en línea. Los esquemas de los almacenes de datos se componen de tablas de hechos y tablas de datos, siendo las primeras tablas con datos multidimensionales, representados mediante claves externas que llevan a tablas de datos con sus atributos. Una tabla de hechos con sus tablas de datos es llamado un esquema en estrella, mientras que si hay más de un nivel de tablas de hechos se trata de un esquema en copo de nieve. 10. Minería de datos Se llama minería de datos al proceso semi-automático de analizar bases de datos en busca de estructuras, relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que implican predicción y toma de decisiones (p.e. conceder un crédito bancario). Ejemplos de estos patrones son la asociación (p.e. dos productos que suelen comprarse juntos) y las agrupaciones (p.e. la densidad de ocurrencia de un suceso en torno a una marca geográfica o cronológica). En busca de satisfacer el objetivo de predicción, en base a las estructuras descubiertas por la minería de datos se realizan clasificaciones de los datos. Para ello, se estipulan una serie de clases a alguna de las cuales pertenece cada elemento de datos (clientes, productos, etc). Éstas clases se generan a partir de un conjunto de datos ya conocidos llamados “ejemplos de formación”. El proceso de clasificación se realiza por medio de unas estructuras de datos conocidas como clasificadores. Un tipo de clasificador es el “árbol de decisión”, una estructura de datos en árbol cuyas hojas son las clases y cuyos nodos rama son condiciones en base a las cuales se irá
  • 7. avanzando a través del árbol para alcanzar una hoja, que determinará la clase a la que un elemento pertenece. Para su aplicación se utilizan algoritmos de heurística impaciente, que parten de la raíz y avanzan de manera recursiva a través del árbol. Para decidir en base a qué atributos y con qué condiciones se realizan las particiones de las ramas se realizan cálculos de pureza por medio de la medida de Gini y la entropía, buscando las particiones que consigan la mejor pureza en los nodos hijos hasta que todos tengan una pureza total, es decir, que el conjunto de elementos en ese nodo pertenezca a una sola clase. Como resultado, se creará un árbol de decisión tal que al ir aplicando las condiciones a un nuevo elemento lo redirigirá por las ramas hasta llegar al nodo hoja asociado a la clase a la que el nuevo dato debe pertenecer. Otro tipo de clasificador es el clasificador bayesiano, los cuales clasifican los datos en base a las probabilidades obtenidas a partir del Teorema de Bayes. Su principal ventaja es que pueden clasificar datos que contengan valores nulos, ya que estos se ignoran para el cálculo de probabilidad. 11. Regresión La regresión trata de la predicción de valores. Dados los valores de un conjunto de variables X1, X2, …, Xn, se desea predecir el valor de una variable Y. Por tanto, Y = a0 + a1 * X1 + a2 * X2 + … + an * Xn es el polinomio lineal denominado regresión lineal con el cual se intenta hallar una curva que se ajuste a los datos. Dicho proceso se llama ajuste de la curva. 12. Reglas de asociación Una regla de asociación debe tener una población asociada: la población consiste en un conjunto de casos. Las reglas tienen un soporte y una confianza asociados:  El soporte es una medida de la fracción de población que satisface tanto el antecedente como el consecuente de la regla. Por lo general, las empresas no suelen estar interesadas en las reglas que tienen un soporte bajo, ya que afectan a pocos clientes y no merece la pena prestarles atención.  La confianza es una medida de la frecuencia donde el consecuente es cierto cuando lo es el antecedente. Las reglas con una confianza baja no son significativas. Para descubrir reglas de asociación de la forma i1, i2, …, in => i0: 1. Hay que determinar los conjuntos de elementos con soporte suficiente: Los conjuntos grandes de elementos. 2. Para cada conjunto grande de elementos se obtienen todas las reglas con confianza sufi- ciente que afecten a todos los elementos del conjunto y sólo a ellos. Por tanto, para cada conjunto grande de elementos S se obtiene una regla S – s => s para cada subconjunto s C S, siempre que S – s => s tenga confianza suficiente; la confianza de la regla la da el soporte de s dividido por el soporte de S. 3. Si el número de conjuntos de elementos posibles es pequeño, basta con un solo paso por los datos para detectar el nivel de soporte de todos los conjuntos. De esta forma, se lleva una cuenta, que comienza en 0, para cada conjunto de elementos. Esta cuenta se incre- mentará para cada conjunto de elementos de una operación, tal que todos los elementos del conjunto estén contenidos en la operación. Si esta operación incluye a los elementos a, b y c, se incrementará el contador para {a}, {b}, {c}, {a, b}, {a, c}, {b, c} y {a, b, c}. Los conjuntos con un contador lo bastante elevado al final del pase, se corresponden con
  • 8. los elementos que tienen un grado de asociación elevado. Si el número de conjuntos crece de manera exponencial, este proceso es inviable. Aun así, casi todos los conjuntos tienen normalmente un soporte muy bajo ya que se han desarrollado optimizaciones como la técnica a priori para la generación de conjuntos de artículos grandes en la que sólo se consideran en el primer pase los conjuntos con un solo elemento. A lo largo del proceso, de consideran conjuntos en los que se va incrementando un elemento más por cada pase. Al final de cada pase, todos los conjuntos con soporte suficiente se consideran conjuntos grandes de elementos y los que tienen poco soporte, se eliminan. Una vez eliminado un conjunto, ya no es necesario considerar ninguno de sus superconjuntos, de tan forma que en el pase i sólo hay que contar el soporte de los conjuntos de tamaño i tales que se haya hallado que todos sus subconjuntos tienen un soporte lo bastante elevado; basta con pro- bar todos los subconjuntos de tamaño i - 1 para asegurarse que se cumple esta propiedad. Si en este pase i se halla que ningún conjunto de tamaño i tiene el soporte suficiente, no hará falta considerar ningún conjunto de tamaño i + 1. 13. Otros tipos de asociación El uso de las reglas de asociación tiene varios inconvenientes como que muchas asociaciones no son interesantes ya que pueden predecirse. Lo realmente interesante es la desviación de la ocurrencia conjunta de un conjunto de asociaciones análogas. Estadísticamente, se buscan correlaciones entre los artículos las cuales pueden ser positivas, donde la ocurrencia conjunta es superior a lo esperado, o negativas, en la que los elementos ocurren conjuntamente menos frecuentemente de lo predicho. Otra aplicación de minería de datos son las asociaciones de secuencias en donde intervienen datos temporales. Las desviaciones de las estructuras temporales son de gran interés ya que pueden encontrarse desviaciones de lo esperado con base a estructuras temporales o secuenciales pasadas. 14. Agrupamiento El problema del agrupamiento consiste en agrupar los puntos en k conjuntos (para un k dado) de modo que la distancia media de los puntos al centroide de su agrupación asignada sea mínima. Con otras palabras, en agrupar los puntos de modo que la distancia media entre cada par de puntos de cada agrupación sea mínima. En resumen, agrupar los puntos parecidos en un único conjunto. Un tipo de agrupamiento destacable es el agrupamiento jerárquico que puede clasificarse en: agrupamiento aglomerativo, que comienza creando agrupaciones pequeñas y luego los niveles superiores y el divisivo, que primero crea los niveles superiores y luego los dividen en agrupaciones de niveles inferiores. Referente a las bases de datos está el agrupamiento Birch donde los puntos de datos se insertan en una estructura arbórea multidimensional y son llevados a los nodos hoja correspondientes en relación a su cercanía a los puntos representativos de los nodos internos del árbol. 15. Otros tipos de minería La minería de texto aplica las técnicas de minería de datos en documentos de texto o en sistemas de visualización de datos. Estos últimos, ayudan a los usuarios a examinar grandes volúmenes de datos y a detectar visualmente las estructuras. De esta manera, permiten que los datos se presenten a los usuarios de manera compacta.
  • 9. 16. Conclusiones La importancia de una base de datos no solo se basa en su capacidad de almacenaje de datos sino que también cobra vital importancia su recuperación, gestión y análisis, para ello las bases de datos implementan una serie de sistemas de ayuda a la toma de decisiones. Para facilitar el análisis de datos existen una serie de herramientas (OLAP) que extienden la funcionalidad SQL. Mediante ellas podemos obtener cubos multidimensionales, tablas dinámicas, realizar abstracciones de datos y clasificarlos en jerarquías. Las herramientas OLAP proporcionan una implementación optimizada de este tipo de operaciones que permiten a los usuarios o gestores obtener la información de forma rápida, detallada y presentada como ellos la deseen. Dada la gran cantidad de datos procedentes de diferentes ámbitos que puede almacenar una empresa resulta útil el uso de almacenes de datos, de esta se forma se reúnen los datos de diferentes sistemas de origen. Los almacenes permiten tanto propagar actualizaciones a través del sistema como limpiar los datos, también realizan resúmenes de los datos cuando los datos brutos recibidos impidan su correcto almacén en línea. La minería de datos nos permite analizar de forma semi-automática una base de datos, de esta forma se obtienen estructuras, relaciones o patrones útiles para la toma de decisiones. Dentro de la minería se encuentra la regresión, que trata acerca de la predicción de valores, las reglas de asociación, que nos permite relacionar un antecedente con una consecuencia, y el agrupamiento, que nos permite agrupar una serie de valores similares. Bibliografía  A. Silberschatz, H.F. Korth y S. Sudarshan (2006), Fundamentos de Bases de Datos, 5ª Edición, McGraw-Hill