Analisis y mineriadedatos

Análisis y minería de datos
Raquel Gil Martínez, Pablo Tomico Pérez, Jaime Rodríguez Soliño, Denis Romasanta
Rodríguez
Resumen:
Los sistemas de ayuda a la toma de decisiones son técnicas que se utilizan en la resolución de
problemas de gestión de almacenamiento y recuperación de datos. Se utilizan extensiones de SQL
que soportan herramientas OLAP para ayudar al análisis estadístico de las bases de datos. Para el
procesamiento analítico en línea, los atributos se necesitan agrupar en tablas o cubos de datos.
Los datos mostrados en dichas tablas o cubos, vendrán dados por las relaciones que existen entre
los distintos tipos de atributos. La implementación de los sistemas OLAP ha evolucionado
convirtiéndose en un sistema cliente-servidor, donde el servidor contiene la base de datos
relacional y los cubos de datos MOLAP y el cliente, obtiene las vistas de dichos datos
comunicándose con el servidor. La función de agregación en SQL está limitada, por lo que se han
implementado varias extensiones que incluyen funciones para el cálculo de diversas medidas
estadísticas, y de resultados estadísticos para parejas de atributos o generalizaciones, de
percentiles. Así, como de clasificación de filas o tuplas y el tratamiento de valores null. Una
ventana es una consulta que calcula para cada fecha el promedio de ventas de ese día, el anterior
y el siguiente y se utiliza para suavizar las variaciones aleatorias. Los almacenes de datos son
sistemas con un esquema unificado los cuales reúnen datos que han recibido o solicitado de otros
sistemas. La minería de datos se encarga de analizar bases de datos en busca de estructuras,
relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que implican
predicción y toma de decisiones, como la asociación y las agrupaciones.
1. Introducción
Hoy en día las empresas cuentan con grandes cantidades de datos disponibles gracias a
todos los medios mediante los que se recopila información de forma constante. Este campo es
clave para tomar las mejores decisiones por parte de las empresas para aumentar ventas, acercarse
más a sus clientes, entre otros ejemplos. Sin embargo, el tratamiento de dichos datos es por lo
tanto cada vez más complicado con los medios tradicionales para el análisis de datos, ya que
empleando SQL no se pueden extraer algunos tipos de información debido a la complejidad de
las consultas que harían falta.
Así, para ayudar a las empresas a aprovechar estos datos tan numerosos de los que se
disponen y a tomar las mejores decisiones en sus actividades, hay varias técnicas y herramientas
sobre las que se va a tratar en este tema. Algunas de ellas realizan cálculos previos para resumir
grandes cantidades de información para agilizar las respuestas de las consultas. Otra herramienta
sería el análisis de los datos para obtener información mediante la llamada minería de datos, que
se basa en la localización de diversos tipos de estructuras entre todos los datos disponibles.
En el cuerpo de este documento se tratarán temas pertenecientes al ámbito del
almacenamiento, análisis y minería de datos a lo largo de 14 apartados.
En el apartado 2 se introducirán los sistemas de ayuda a la toma de decisiones. A
continuación, y hasta el apartado 5, se hablará de los sistemas de procesamiento analítico en línea,
a los que se les hace referencia con las siglas inglesas OLAP, su funcionamiento y su
implementación. En último lugar respecto al procesamiento de datos, en los apartados de 6 a 8,
se procederá a describir funcionalidades de consulta relevantes para el procesamiento de datos
(estadística, clasificaciones, ventanas).

A partir del apartado 9 se pasará a desarrollar el tema de almacenamiento y minería de
datos. El propio apartado 9 estará dedicado a los almacenes de datos, su funcionamiento y
realización. Desde el apartado 10 en adelante se estudiará la minería de datos, proceso por el cual
se procede a clasificar la información y a buscar estructuras, relaciones y correlaciones entre la
información contenida en un conjunto de datos. Dentro de esta sección se hablará a lo largo de
los distintos apartados de la repartición en clases de los datos, las estructuras necesarias para ello,
el proceso de regresión y el concepto de asociación, sus reglas y sus variantes.
Finalmente, existe un apartado final que contiene las conclusiones sacadas a partir del
estudio realizado para la elaboración de este documento.
2. Sistemas de ayuda a la toma de decisiones
Estas técnicas se plantean para la resolución de diversos problemas a la hora de gestionar el
almacenamiento y recuperación de los datos:
→ Muchas consultas no pueden expresarse en SQL o al menos no con facilidad, por lo
que existen extensiones de SQL para facilitar el análisis de datos. Las herramientas para este
análisis pertenecen al área de procesamiento analítico en línea, OLAP.
→ Los lenguajes de consultas no son eficaces para el análisis estadístico. Para solucionar
esto, existen paquetes que proporcionan herramientas eficaces para el análisis de grandes
volúmenes de datos.
→ En grandes empresas, al contar con varios orígenes de datos, se necesitan los llamados
almacenes de datos, que ofrecen una interfaz común para todos los datos.
→ Para detectar patrones o reglas estadísticas en grandes cantidades de datos, el campo
de la minería de datos combina diversas herramientas.
3. Análisis de datos y OLAP
Las bases de datos deben soportar formas sencillas de análisis estadístico que permitan resumir
los datos y mostrarlos de forma clara al usuario. Hay muchas tareas que no se pueden realizar con
las funciones habituales de SQL (búsqueda de percentiles, distribuciones acumulativas, agregados
sobre ventanas deslizantes etc) por ello se han desarrollado extensiones de SQL que permitan
soportar herramientas OLAP.
4. Procesamiento analítico en línea
El análisis estadístico suele necesitar agrupar varios atributos. Dada una relación se pueden
identificar atributos de medida, que miden algún valor y pueden agregarse, y atributos de
dimensión, ya que definen las dimensiones en las que se ven los atributos de medida. Hay también
algunos datos que pueden modelarse tanto como de dimensión como de medida, estos son los
llamados datos multidimensionales (Figura 1).
Para analizar los datos multidimensionales se hace uso de la tabulación cruzada, o también
conocida como tablas dinámicas. La generalización de las tabulaciones cruzadas, que son
bidimensionales, a n dimensiones puede visualizar como cubos n-dimensionales o cubos de datos.
Supongamos una relación ventas (nombre_articulo, color, talla, número)
Para analizar los datos el gestor puede preferir ver los datos como una tabla dinámica o tabulación
cruzada, tal y como se muestra en la Tabla 1 donde se ha realizado la agregación suma de los
atributos número para todos los valores de talla. También se incluye en este ejemplo una fila y
columna adicionales con los subtotales.

Tabla 1 Tabulación cruzada de ventas con nombre_artículo y color
La tabulación cruzada con columnas o valores resumen también puede representarse
introduciendo el valor especial all para representar los subtotales tal y como se muestra en la
siguiente tabla.
Tabla 2 Representación relacional de los datos de la Tabla 1
Nota: Realmente se usa el valor NULL para representar a todos (all) según la norma SQL: 1999,
debido a que esto puede generar ambigüedad existen funciones que permiten modificar este valor
por el nombre que deseemos.
La generalización de las tabulaciones cruzadas, que son bidimensionales, a n dimensiones puede
visualizar como cubos n-dimensionales o cubos de datos (Figura 1).En esta figura se muestra un
cubo de datos para la tabla ventas con tres dimensiones, nombre_articulo, color y talla con el
atributo de medida número. Todas las celdas contienen valores aunque no sean visibles, las celdas
en blanco indican dato repetido.

Figura 1 Cubo de datos tridimensional
El sistema de procesamiento analítico en línea o sistema OLAP permite a los analistas ver
diferentes resúmenes de los datos multidimensionales:
Pivotaje: Vista bidimensional del cubo de datos, por ejemplo e podría solicitar una tabulación
cruzada para nombre_articulo y talla.
Corte: Por ejemplo, obtener la tabulación cruzada nombre_articulo y color para un determinado
valor de talla, sería como obtener una rebanada del cubo.
Los valores de las dimensiones que no forman parte una tabulación cruzada se muestran encima
de dicha tabla.
Abstracción: Proceso por el cual los sistemas OLAP permiten a los usuarios obtener datos con
cualquier nivel de granularidad. Por ejemplo a partir de la Figura 1 se abstrae la dimensión talla
y se obtiene la Tabla 1.
Jerarquía: En ocasiones se requieren observar los datos con diferentes niveles de detalle, por
ejemplo clasificar los datos por horas frente a clasificarlos por días.
5. Implementación de OLAP
Inicialmente los sistemas OLAP utilizaban arrays de memoria multidimensionales para almacenar
los cubos de datos y se denominaban sistemas OLAP multidimensionales. Posteriormente estos
servicios evolucionaron y se integraron en los sistemas relacionales y se almacenaron en las bases
de datos relacionales constituyendo los OLAP relacionales. También existen sistemas OLAP que
combinan ambos modos de almacenamiento, los OLAB híbridos.
Los sistemas OLAP pueden implementarse como sistemas cliente-servidor, donde el servidor
contiene la base de datos relacional y los cubos de datos MOLAP de esta forma el cliente obtiene
las vistas de los datos comunicándose con el servidor.
Para mejorar la eficiencia de los sistemas OLAP y el cálculo de cubos de datos en lugar de calcular
previamente todas las agrupaciones posibles (2n
) resulta razonable calcular previamente algunas
de las agrupaciones y almacenarlas para calcular posteriormente las que se necesiten. A veces
resulta más eficiente calcular una consulta a partir de otras consultas calculadas previamente en
vez de a partir de la relación original.

6. Agregación extendida
La funcionalidad de agregación en SQL está limitada, por lo que se han implementado varias
extensiones. Las nuevas funciones que se implementan para un solo atributo son la desviación
estándar y la varianza (stddev y variance). Algunos sistemas de bases de datos soportan funciones
como la mediana y la moda.
En SQL:1999 soporta varias funciones de agregación binarias para calcular resultados estadísticos
para parejas de atributos (correlaciones, covarianzas, etc). También generalizaciones de la
estructura group by, mediante las estructuras cube y rollup.
Cube: Genera cubos de datos, se realizan 2n
agrupaciones.
Ejemplo: Resultado en la Tabla 2 (sustituyendo all por null)
select nombre_artículo, color, talla, sum(número)
from ventas
group by rollup(nombre_artículo, color, talla)
Rollup: Similar a cube, permite generar agregados para una jerarquía de valores de las columnas
seleccionadas.
select nombre_artículo, color, talla, sum(número)
from ventas
group by rollup(nombre_artículo, color, talla)
Se generan:
{ (nombre_artículo, color, talla), (nombre_artículo, color), (nombre_artículo), () }
La presencia de valores null en las clasificaciones puede resultar problemática por lo que las
sentencias nulls first o nulls last permiten al usuario especificar donde deben aparecer los nulos.
La norma SQL:1999 también permite la clasificación mediante percentiles con la función
percent_rank, la función cume_dist para organizar conforme a una distribución acumulativa. La
función row_number ordena las filas de una clasificación y a aquellas con el mismo valor les
asocia números de fila diferentes de forma no determinista. Por último la función ntile(n) toma
las tuplas de cada partición en el orden especificado y las divide en n partes con igual número de
tuplas.
7. Clasificación
Obtener la posición de un valor determinado sobre un conjunto de datos es una operación habitual.
Por ejemplo si se requiere clasificar a los estudiantes por sus notas se puede realizar esta operación
mediante la cláusula Rank definida en SQL: 1999.
Dada la relación notas_estudiante(id_estudiante,notas) que almacena las notas obtenidas por cada
estudiante mediante la consulta siguiente obtenemos a los estudiantes ordenados según sus
calficaciones. Se permite también la clasificación dentro de particiones de datos.
8. Ventanas
Una consulta ventana es por ejemplo aquella en la que se calcula el saldo acumulado de una cuenta,
dada una relación con las imposiciones y retiradas de fondos; este tipo de consultas resultan muy
complicadas o imposibles en SQL básico.
A continuación se mostrará un ejemplo de ventana con las funciones proporcionadas por SQL:
1999. Se tiene la relación transacción (número_cuenta, fecha_hora, valor) donde valor es positivo

para el ingreso de fondos y negativo para la retirada, se permite una transacción como máximo
para cada valor de fecha y hora.
Mediante la siguiente consulta:
select número_cuenta, fecha_hora,
sum(valor) over
(partition by número_cuenta
order by fecha_hora
rows unbounded preceding)
as saldo
from transacción
order by número_cuenta, fecha_hora
Para cada transacción se obtiene el saldo de la cuenta anterior a ella sumando todos los ingresos
y retiradas anteriores. La cláusula partition by clasifica las tuplas por número de cuenta de tal
forma que para sumar las filas anteriores solo se consideran aquellas con el mismo número de
cuenta. Se crea una ventana para cada tupla y mediante rows unbounded preceding se especifica
que la ventana de cada tupla se obtiene a partir de todas las tuplas que la preceden en el orden
especficado.
Se pueden especificar otros tipos de ventas modificando la expresión rows, por ejemplo rows 10
preceding crea una ventana con las 10 filas anteriores a cada fila.
9. Almacenes de datos
Los llamados almacenes de datos son sistemas con un esquema unificado que reúnen datos de una
serie de sistemas origen, bien recibiendo datos nuevos de los orígenes o bien solicitándolos.
Un almacén debe integrar dentro de su esquema los esquemas de datos de los orígenes y propagar
las actualizaciones a través de toda la red de sistemas, así como limpiar los datos (p.e. erratas en
algún campo o duplicados) o transformarlos. En muchos casos interesa también realizar un
resumen de los datos ya que los datos brutos recibidos de los orígenes pueden ser demasiado
grandes para almacenarlos en línea.
Los esquemas de los almacenes de datos se componen de tablas de hechos y tablas de datos,
siendo las primeras tablas con datos multidimensionales, representados mediante claves externas
que llevan a tablas de datos con sus atributos. Una tabla de hechos con sus tablas de datos es
llamado un esquema en estrella, mientras que si hay más de un nivel de tablas de hechos se trata
de un esquema en copo de nieve.
10. Minería de datos
Se llama minería de datos al proceso semi-automático de analizar bases de datos en busca de
estructuras, relaciones o patrones útiles. Estos patrones se utilizan para cumplir funciones que
implican predicción y toma de decisiones (p.e. conceder un crédito bancario). Ejemplos de estos
patrones son la asociación (p.e. dos productos que suelen comprarse juntos) y las agrupaciones
(p.e. la densidad de ocurrencia de un suceso en torno a una marca geográfica o cronológica).
En busca de satisfacer el objetivo de predicción, en base a las estructuras descubiertas por la
minería de datos se realizan clasificaciones de los datos. Para ello, se estipulan una serie de clases
a alguna de las cuales pertenece cada elemento de datos (clientes, productos, etc). Éstas clases se
generan a partir de un conjunto de datos ya conocidos llamados “ejemplos de formación”.
El proceso de clasificación se realiza por medio de unas estructuras de datos conocidas como
clasificadores. Un tipo de clasificador es el “árbol de decisión”, una estructura de datos en árbol
cuyas hojas son las clases y cuyos nodos rama son condiciones en base a las cuales se irá

avanzando a través del árbol para alcanzar una hoja, que determinará la clase a la que un elemento
pertenece.
Para su aplicación se utilizan algoritmos de heurística impaciente, que parten de la raíz y avanzan
de manera recursiva a través del árbol. Para decidir en base a qué atributos y con qué condiciones
se realizan las particiones de las ramas se realizan cálculos de pureza por medio de la medida de
Gini y la entropía, buscando las particiones que consigan la mejor pureza en los nodos hijos hasta
que todos tengan una pureza total, es decir, que el conjunto de elementos en ese nodo pertenezca
a una sola clase.
Como resultado, se creará un árbol de decisión tal que al ir aplicando las condiciones a un nuevo
elemento lo redirigirá por las ramas hasta llegar al nodo hoja asociado a la clase a la que el nuevo
dato debe pertenecer.
Otro tipo de clasificador es el clasificador bayesiano, los cuales clasifican los datos en base a las
probabilidades obtenidas a partir del Teorema de Bayes. Su principal ventaja es que pueden
clasificar datos que contengan valores nulos, ya que estos se ignoran para el cálculo de
probabilidad.
11. Regresión
La regresión trata de la predicción de valores. Dados los valores de un conjunto de variables X1,
X2, …, Xn, se desea predecir el valor de una variable Y. Por tanto, Y = a0 + a1 * X1 + a2 * X2 + …
+ an * Xn es el polinomio lineal denominado regresión lineal con el cual se intenta hallar una curva
que se ajuste a los datos. Dicho proceso se llama ajuste de la curva.
12. Reglas de asociación
Una regla de asociación debe tener una población asociada: la población consiste en un conjunto
de casos. Las reglas tienen un soporte y una confianza asociados:
 El soporte es una medida de la fracción de población que satisface tanto el antecedente
como el consecuente de la regla. Por lo general, las empresas no suelen estar interesadas
en las reglas que tienen un soporte bajo, ya que afectan a pocos clientes y no merece la
pena prestarles atención.
 La confianza es una medida de la frecuencia donde el consecuente es cierto cuando lo es
el antecedente. Las reglas con una confianza baja no son significativas.
Para descubrir reglas de asociación de la forma i1, i2, …, in => i0:
1. Hay que determinar los conjuntos de elementos con soporte suficiente: Los conjuntos
grandes de elementos.
2. Para cada conjunto grande de elementos se obtienen todas las reglas con confianza sufi-
ciente que afecten a todos los elementos del conjunto y sólo a ellos. Por tanto, para cada
conjunto grande de elementos S se obtiene una regla S – s => s para cada subconjunto s
C S, siempre que S – s => s tenga confianza suficiente; la confianza de la regla la da el
soporte de s dividido por el soporte de S.
3. Si el número de conjuntos de elementos posibles es pequeño, basta con un solo paso por
los datos para detectar el nivel de soporte de todos los conjuntos. De esta forma, se lleva
una cuenta, que comienza en 0, para cada conjunto de elementos. Esta cuenta se incre-
mentará para cada conjunto de elementos de una operación, tal que todos los elementos
del conjunto estén contenidos en la operación. Si esta operación incluye a los elementos
a, b y c, se incrementará el contador para {a}, {b}, {c}, {a, b}, {a, c}, {b, c} y {a, b, c}.
Los conjuntos con un contador lo bastante elevado al final del pase, se corresponden con

los elementos que tienen un grado de asociación elevado. Si el número de conjuntos crece
de manera exponencial, este proceso es inviable. Aun así, casi todos los conjuntos tienen
normalmente un soporte muy bajo ya que se han desarrollado optimizaciones como la
técnica a priori para la generación de conjuntos de artículos grandes en la que sólo se
consideran en el primer pase los conjuntos con un solo elemento. A lo largo del proceso,
de consideran conjuntos en los que se va incrementando un elemento más por cada pase.
Al final de cada pase, todos los conjuntos con soporte suficiente se consideran conjuntos
grandes de elementos y los que tienen poco soporte, se eliminan. Una vez eliminado un
conjunto, ya no es necesario considerar ninguno de sus superconjuntos, de tan forma que
en el pase i sólo hay que contar el soporte de los conjuntos de tamaño i tales que se haya
hallado que todos sus subconjuntos tienen un soporte lo bastante elevado; basta con pro-
bar todos los subconjuntos de tamaño i - 1 para asegurarse que se cumple esta propiedad.
Si en este pase i se halla que ningún conjunto de tamaño i tiene el soporte suficiente, no
hará falta considerar ningún conjunto de tamaño i + 1.
13. Otros tipos de asociación
El uso de las reglas de asociación tiene varios inconvenientes como que muchas asociaciones no
son interesantes ya que pueden predecirse. Lo realmente interesante es la desviación de la
ocurrencia conjunta de un conjunto de asociaciones análogas. Estadísticamente, se buscan
correlaciones entre los artículos las cuales pueden ser positivas, donde la ocurrencia conjunta es
superior a lo esperado, o negativas, en la que los elementos ocurren conjuntamente menos
frecuentemente de lo predicho.
Otra aplicación de minería de datos son las asociaciones de secuencias en donde intervienen datos
temporales. Las desviaciones de las estructuras temporales son de gran interés ya que pueden
encontrarse desviaciones de lo esperado con base a estructuras temporales o secuenciales pasadas.
14. Agrupamiento
El problema del agrupamiento consiste en agrupar los puntos en k conjuntos (para un k dado) de
modo que la distancia media de los puntos al centroide de su agrupación asignada sea mínima.
Con otras palabras, en agrupar los puntos de modo que la distancia media entre cada par de puntos
de cada agrupación sea mínima. En resumen, agrupar los puntos parecidos en un único conjunto.
Un tipo de agrupamiento destacable es el agrupamiento jerárquico que puede clasificarse en:
agrupamiento aglomerativo, que comienza creando agrupaciones pequeñas y luego los niveles
superiores y el divisivo, que primero crea los niveles superiores y luego los dividen en
agrupaciones de niveles inferiores.
Referente a las bases de datos está el agrupamiento Birch donde los puntos de datos se insertan
en una estructura arbórea multidimensional y son llevados a los nodos hoja correspondientes en
relación a su cercanía a los puntos representativos de los nodos internos del árbol.
15. Otros tipos de minería
La minería de texto aplica las técnicas de minería de datos en documentos de texto o en sistemas
de visualización de datos. Estos últimos, ayudan a los usuarios a examinar grandes volúmenes de
datos y a detectar visualmente las estructuras. De esta manera, permiten que los datos se presenten
a los usuarios de manera compacta.

16. Conclusiones
La importancia de una base de datos no solo se basa en su capacidad de almacenaje de
datos sino que también cobra vital importancia su recuperación, gestión y análisis, para
ello las bases de datos implementan una serie de sistemas de ayuda a la toma de decisiones.
Para facilitar el análisis de datos existen una serie de herramientas (OLAP) que extienden
la funcionalidad SQL. Mediante ellas podemos obtener cubos multidimensionales, tablas
dinámicas, realizar abstracciones de datos y clasificarlos en jerarquías. Las herramientas
OLAP proporcionan una implementación optimizada de este tipo de operaciones que
permiten a los usuarios o gestores obtener la información de forma rápida, detallada y
presentada como ellos la deseen.
Dada la gran cantidad de datos procedentes de diferentes ámbitos que puede almacenar
una empresa resulta útil el uso de almacenes de datos, de esta se forma se reúnen los datos
de diferentes sistemas de origen. Los almacenes permiten tanto propagar actualizaciones
a través del sistema como limpiar los datos, también realizan resúmenes de los datos
cuando los datos brutos recibidos impidan su correcto almacén en línea.
La minería de datos nos permite analizar de forma semi-automática una base de datos, de
esta forma se obtienen estructuras, relaciones o patrones útiles para la toma de decisiones.
Dentro de la minería se encuentra la regresión, que trata acerca de la predicción de valores,
las reglas de asociación, que nos permite relacionar un antecedente con una consecuencia,
y el agrupamiento, que nos permite agrupar una serie de valores similares.
Bibliografía
 A. Silberschatz, H.F. Korth y S. Sudarshan (2006), Fundamentos de Bases de Datos, 5ª
Edición, McGraw-Hill

Analisis y mineriadedatos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (17)

Destacado

Destacado (12)

Similar a Analisis y mineriadedatos

Similar a Analisis y mineriadedatos (20)

Último

Último (20)

Analisis y mineriadedatos