Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Electiva2
1. Minería de datos multimedia
Brayan Diaz Reyes
Facatativa Cundinamarca
Universidad de Cundinamarca
brayandr05@gmail.com
Resumen- Debido a la gran cantidad de información existente y
datos digitales de todo tipo surgen la necesidad de buscar
extracción de información y convertirla en conocimiento con este
trabajo se busca dar a conocer la Minería de Datos Multimedia,
en que se puede llegar a usar la minería de datos, y cuáles son sus
aportes importantes a nivel mundial.
Palabras Clave: información, y datos digitales, conocimiento,
Minería de Datos, la Minería de Datos Multimedia.
Abstract- Due to the large amount of existing information and
digital data of all kinds, the need to search for information to
extract it and turn it into knowledge with this work is to
disseminate information about Multimedia Data Mining, in
which it is possible to use the information. data mining, and what
are your important contributions around the world.
Keywords: information and digital data, knowledge, data
mining, multimedia data mining
I. INTRODUCCIÓN
La gestión del conocimiento se refiere al conjunto de
procesos desarrollados para crear, organizar, almacenar y
transferir el conocimiento en las organizaciones. El objetivo
principal de la Minería de Datos es la extracción de
conocimiento implícito en grandes bases de datos. Minería de
Datos tiene un papel fundamental en el proceso para convertir
lo implícito en conocimiento explícito y en las diferentes
etapas de gestión del conocimiento en las organizaciones. En
una revisión sobre las aplicaciones de la minería de datos, se
puede encontrar gran variedad de áreas como el sector salud,
finanzas, banca, educación, biología, entre otras. Estas
aplicaciones son realizadas en su gran mayoría sobre datos
estructurados, es decir, datos organizados en bases de datos.
De igual manera, las metodologías y plataformas para minería
han centrado sus esfuerzos sobre minería de datos
estructurados.
II. MINERÍA DE DATOS MULTIMEDIA
La mineria de Datos multimedia es una rama de la mineria de
datos que se basa en el extracion de conocimiento implicito,
relaciones de datos multimedia (numeros, imágenes,
video,audio, etc…), la mineria de Datos Multimedia puede ser
representada, procesada, almacenada y trasmitida en formato
digital. La Mineria de Datos permite encontrar información
escondida en los datos que no siempre resulta aparente, ya que,
dado el gigantesco volumen de datos existentes, gran parte de
ese volumen nunca será analizado. La minería de datos es un
proceso de identificación de información relevante extraída de
grandes volúmenes de datos, con el objetivo de descubrir
patrones y tendencias estructurando la información obtenida de
un modo comprensible para su posterior utilización.
A. Bases de Datos Multimedia
Los Sistemas de Bases de Datos Multimedia se
caracterizan por almacenar, además de texto y otros datos
discretos, información de Audio y Vídeo, permitiendo su
manipulación y recuperación.
Para proporcionar esta funcionalidad, los sistemas de bases
de datos multimedia requieren una tecnología propia de
almacenamiento y un sistema de ficheros
B. Herramientas de datos multimedia
Las herramientas de minería de datos empleadas en el
proceso de extracción de conocimiento se pueden clasificar en
dos grandes grupos:
• Técnicas de verificación: el sistema se limita a
comprobar hipótesis suministrada por el usuario
• Método de descubrimiento: Se encuentran patrones
potencialmente interesantes de forma automática,
incluyendo todas las técnicas de predicción
Existen algunas herramientas diseñadas para extraer
conocimientos desde bases de datos que contienen grandes
cantidades de información. Las más populares de estas
herramientas son SPSS Clementine y Weka.
1. Clementine
Se centra en la integración de data mining con otros procesos
y sistemas de negocio que ayuden a entregar inteligencia
predictiva en un tiempo eficiente durante las operaciones de
negocio diarias. La funcionalidad abierta de data mining en
bases de datos que posee Clementine permite que muchos de
los procesos de data mining se realicen en entornos que
mejoran tanto el rendimiento como el despliegue de los
resultados de data mining
2. Weka
Soporta varias tareas estándar de minería de datos,
especialmente, reprocesamiento de datos, clustering,
clasificación, regresión, visualización, y selección. Todas las
técnicas de Weka se fundamentan en la asunción de que los
datos están disponibles en un fichero plano (flan file) o una
relación, en la que cada registro de datos está descrito por un
número fijo de atributos (normal-mente numéricos o
nominales, aunque también se soportan otros tipos). Weka
también proporciona acceso a bases de datos vía SQL gracias
a la conexión JDBC (Java Database Connectivity) y puede
procesar el resultado devuelto por una consulta hecha a la
base de datos. No puede realizar minería de datos multi-
relacional, pero existen aplicaciones que pueden convertir una
colección de tablas relacionadas de una base de datos en una
única tabla que ya puede ser procesada con Weka.
2. C. Caso de minería de datos multimedia
Predicción de anormalidades en mamografías
La mamografía es un examen médico que consiste en tomar
una radiografía de los senos con el fin de detectar signos de
cáncer. Mediante este examen es posible detectar micro
calcificaciones que son pequeños depósitos de calcio que
pueden indicar la presencia de cáncer de seno. Para este caso
de estudio se utilizó la base de datos Mamography Image
Analyze Society (MIAS), que es una sociedad inglesa que se
dedica a la investigación de las mamografías. Esta base de
datos [16] incluye exámenes de ambos senos de 161 pacientes
para un total de 322 imágenes. Las anormalidades consisten en
una pequeña masa que muestra presencia de cáncer maligno.
Los diagnósticos de la base de datos MIAS han sido realizados
por radiólogos expertos. Se presentan dos mamografías
seleccionadas de la base de datos MIAS. El examen de la
izquierda corresponde a un caso diagnosticado como normal,
mientras que el examen de la derecha presenta una
anormalidad que ha sido encerrada con fines ilustrativos.
A continuación, se describe la aplicación de la metodología
MAM para este caso de estudio. En la etapa de
preprocesamiento de multimedia, las imágenes de esta base de
datos se encuentran en formato PGM. Este formato no es
compatible con la plataforma; por este motivo fue necesario
realizar una etapa de conversión de las imágenes del formato
PGM al formato JPG compatible con la plataforma. En la etapa
de indexación de multimedia, se realiza la extracción de
características de cada una de las imágenes. Las características
extraídas deben permitir la identificación de las imágenes en
las dos clases que se pretende clasificar: diagnóstico normal y
diagnóstico anormal. En las imágenes seleccionadas se observa
que las mamografías con diagnóstico anormal presentan
algunas masas con una textura, forma y colores
representativos. Por esta razón se optó por extraer
simultáneamente características de color, forma y textura.
En la etapa de preparación de datos estructurados, se
selecciona la variable objetivo, la cual indica la existencia de
anormalidades.
En la etapa de modelamiento analítico, para tareas de
clasificación la plataforma ofrece dos técnicas: máquinas de
soporte vectorial y árboles de decisión. Para cada una de estas
técnicas se crearon modelos analíticos, utilizando el 70% de
los datos para la etapa de entrenamiento y un 30% para la etapa
de evaluación.
En la etapa de evaluación, el modelo que presentó un mejor
resultado utiliza la técnica de árboles de decisión con un 86%
de instancias clasificadas correctamente. En la tabla 4 se
presenta la matriz de confusión generada, de donde la precisión
indica que el 90% de anormalidades reconocidas estaban
correctas, es decir, que se tuvieron el 10% de falsos positivos.
La cobertura indica que se reconocieron 75% de
anormalidades, es decir, que 25% de las anormalidades no
fueron reconocidas. Finalmente, el área ROC indica un
desempeño general del 85.6%, lo cual lo posiciona en un buen
clasificador
.
III. CONCLUSIONES
Se concluyo que la minería de datos multimedia se puede
ver en casi todo lo que conocemos hoy en día debido a la gran
cantidad de datos que tenemos hoy en día y la necesidad de
generar conocimiento para utilizar de una manera adecuada
dichos datos
REFERENCIAS
[1]https://www.youtube.com/watch?v=svoD9Fq-Kcw&t=23s
[2] http://eprints.rclis.org/14884/
[3]http://www.scielo.org.co/pdf/rium/v16n31/1692-3324-rium-16-31-
00125.pdf
[4]https://www.icemd.com/digital-knowledge/articulos/mineria-datos-
proceso-areas-se-puede-aplica/
[5] https://www.ricardo-barbosa.com/es/importancia-de-datos-mineria-en-
hoy-negocios-mundo/
[6] http://www.redalyc.org/jatsRepo/750/75055115007/html/index.html