SlideShare una empresa de Scribd logo
1 de 35
UNIVERSIDAD AUTÓNOMA GABRIEL RENÉ MORENO
FACULTAD DE INGENIERÍA EN CIENCIAS DE LA COMPUTACIÓN Y
TELECOMUNICACIONES
INGENIERÍA INFORMÁTICA
CREAR UNA APLICACIÓN DE MINERÍA DE DATOS PARA DETERMINAR
PATRONES DEL COVID-19 EN LAS PERSONAS A NIVEL DE LATINOAMÉRICA
TRABAJO DE INVESTIGACIÓN CORRESPONDIENTE AL PROGRAMA
“MINERÍA Y CIENCIA DE DATOS”
ALUMNOS:
GONZALES AYALA MARÍA ALEJANDRA
MAMANI CONDORI JAIME
SUAREZ GATICA FRANZ CARLOS
VARGAS BRAVO IVAN MIJAEL
PROFESOR GUÍA:
ING. DAVID E. MENDOZA GUTIÉRREZ
Marzo 2021
Santa Cruz de la Sierra – Bolivia
I
I
ÍNDICE GENERAL
CAPÍTULO 1 COVID-19............................................................................................................. 1
1.1 Historia.................................................................................................................................. 1
1.2 Epidemiología ....................................................................................................................... 2
1.2.1 Transmisión .................................................................................................................... 2
1.3 COVID-19 en Latinoamérica................................................................................................ 2
CAPÍTULO 2 ASPECTOS GENERALES................................................................................. 4
2.1 Planteamiento del problema.................................................................................................. 4
2.1.1 Situación problemática ................................................................................................... 4
2.1.2 Situación deseada............................................................................................................ 4
2.2 Objetivos ............................................................................................................................... 4
2.2.1 Objetivo general.............................................................................................................. 4
2.2.2 Objetivos específicos ...................................................................................................... 4
2.3 Alcance.................................................................................................................................. 5
CAPÍTULO 3 MINERÍA DE DATOS ........................................................................................ 6
3.1. Historia de la Minería de datos ............................................................................................ 6
3.2. La minería de datos .............................................................................................................. 7
3.3. Aplicaciones de la Minería de datos .................................................................................... 7
3.3.1. Comunicaciones............................................................................................................. 7
3.3.2. Seguros .......................................................................................................................... 7
3.3.3. Educación ...................................................................................................................... 7
3.3.4. Manufactura................................................................................................................... 8
3.3.5. Bancos............................................................................................................................ 8
3.3.6. Retail.............................................................................................................................. 8
3.4. Técnicas de minería de datos ............................................................................................... 9
3.5. Microsoft SQL Server Analysis Servicies ......................................................................... 13
CAPÍTULO 4 MINERÍA DE DATOS DEL COVID-19......................................................... 15
4.1 Definir la planificación y gestión del proyecto ................................................................... 15
4.2. Requerimientos................................................................................................................... 16
4.2.1 Requerimientos funcionales.......................................................................................... 16
4.2.2. Requerimientos no funcionales.................................................................................... 17
4.3. Diseño................................................................................................................................. 17
II
II
4.3.1. Desarrollar los modelos de datos................................................................................. 17
4.3.2. Analizar las fuentes de datos ....................................................................................... 18
4.3.3 Limpieza de los datos ................................................................................................... 19
4.3.4. Análisis de datos .......................................................................................................... 21
CONCLUSIONES....................................................................................................................... 28
RECOMENDACIONES............................................................................................................. 29
BIBLIOGRAFÍA......................................................................................................................... 30
III
III
ÍNDICE DE FIGURAS
Ilustración 1 Redes Neuronales....................................................................................................... 9
Ilustración 2 Árboles de decisión.................................................................................................. 11
Ilustración 3 Clustering................................................................................................................. 12
Ilustración 4 Analysis Services..................................................................................................... 14
Ilustración 5 Modelo Estrella........................................................................................................ 18
Ilustración 6 Fuente de datos ........................................................................................................ 19
Ilustración 7 Fuente de datos limpia ............................................................................................. 20
Ilustración 8 Importación de datos limpios................................................................................... 20
Ilustración 9 Importación de datos limpios................................................................................... 21
Ilustración 10 Proyecto de Visual Studio – Analysis Services ..................................................... 21
Ilustración 11 Origen de datos ...................................................................................................... 22
Ilustración 12 Definición de datos predefinidos ........................................................................... 22
Ilustración 13 Elegir algoritmo de analisis ................................................................................... 23
Ilustración 14 Definición de vista a mostrar ................................................................................. 24
Ilustración 15 Definir variables de entrada y salida...................................................................... 24
Ilustración 16 Definir tipo de datos a cada variable...................................................................... 25
Ilustración 17 Ejecutar el proceso ................................................................................................. 26
Ilustración 18 Analisis de los datos generados ............................................................................. 27
Ilustración 19 Resultados por variables ........................................................................................ 27
CAPITULO 1: COVID-19
1
CAPÍTULO 1
COVID-19
1.1 Historia
En diciembre de 2019 hubo un brote epidémico de neumonía de causa desconocida en
Wuhan, provincia de Hubei, China; el cual, según afirmó más tarde Reporteros sin Fronteras,
llegó a afectar a más de 60 personas el día 20 de ese mes.
Según el Centro Chino para el Control y Prevención de Enfermedades (CCDC), el 29 de
diciembre un hospital en Wuhan admitió a 4 individuos con neumonía, quienes trabajaban en un
mercado de esa ciudad. El hospital informó esto al CCDC, cuyo equipo en la ciudad inició una
investigación. El equipo encontró más casos relacionados al mercado y el 30 de diciembre las
autoridades de salud de Wuhan comunicaron los casos al CCDC, que envió expertos a Wuhan
para apoyar la investigación. Se obtuvieron muestras de estos pacientes para realizar análisis de
laboratorio.
El 31 de diciembre, el Comité de Salud Municipal de Wuhan informó a la Organización
Mundial de la Salud (OMS) que 27 personas habían sido diagnosticadas con neumonía de causa
desconocida, habiendo 7 en estado crítico; la mayoría de estos casos eran trabajadores del
mencionado mercado. Para el 1 de enero de 2020, el mercado había sido cerrado y se había
descartado que el causante de la neumonía fuera el SARS, el MERS, gripe, gripe aviaria u otras
enfermedades respiratorias comunes causadas por virus.
El 7 de enero de 2020 los científicos chinos habían aislado el virus causante de la enfermedad,
y realizaron la secuenciación del genoma. Esta secuenciación estuvo disponible para la OMS el
CAPITULO 1: COVID-19
2
12 de enero de 2020, permitiendo a los laboratorios de diferentes países producir diagnósticos
específicos vía pruebas de PCR.
El 12 de enero de 2020, las autoridades chinas habían confirmado la existencia de 41 personas
infectadas con el nuevo virus, quienes comenzaron a sentir síntomas entre el 8 de diciembre de
2019 y el 2 de enero de 2020, los cuales incluían: fiebre, malestar, tos seca, dificultad para
respirar y fallos respiratorios; también se observaron infiltrados neumónicos invasivos en ambos
pulmones observables en las radiografías de tórax.
1.2 Epidemiología
En esta enfermedad se describe un "triángulo epidemiológico causal" que está formado por: el
medio ambiente, el agente etiológico (el virus SARS-CoV-2) y el huésped.
1.2.1 Transmisión
Se cree que el virus se propaga principalmente a través de microgotas producidas cuando una
persona infectada tose, estornuda o habla. El distanciamiento físico y el uso de mascarillas de tela,
mascarillas quirúrgicas, mascarillas en general, u otras coberturas faciales, son formas de controlar
la transmisión de gotas. Es posible que una persona pueda contraer COVID-19 a través de contacto
indirecto al tocar una superficie u objeto contaminado y luego tocándose la boca, la nariz o
posiblemente los ojos, aunque no se cree que esta sea la forma principal de propagación del virus.
Los besos, la intimidad física y otras formas de contacto directo pueden transmitir fácilmente el
virus y, por lo tanto, provocar COVID-19 en las personas expuestas a dicho contacto.
1.3 COVID-19 en Latinoamérica
El primer caso “latinoamericano” de COVID-19 se registró en Brasil el 26 de Febrero y la
primera muerte por la infección en la región se anunció en Argentina el 7 de Marzo. Si bien los
CAPITULO 1: COVID-19
3
primeros casos confirmados fueron personas llegadas de viajes al exterior, en las últimas semanas
se han multiplicado las infecciones por transmisión local. Hasta el 6/4/2020 Latinoamérica
acumulaba más de 27.000 casos confirmados y alrededor de 900 fallecidos, siendo a la fecha Brasil
con 10.278 casos el país más afectado, seguido de Chile (4.161), Ecuador (3.465), Perú, Panamá,
Argentina y México. La OMS ha descrito cuatro posibles escenarios de transmisión y ha sugerido
planes concretos de acción clasificando a los países en cuatro categorías: Países sin casos
registrados, con “primeros casos registrados”, con “primeros focos identificados” y países con
“transmisión comunitaria demostrada y en fase de diseminación”. (Pierre Álvarez, 2020)
CAPITULO 2: ASPECTOS GENERALES
4
CAPÍTULO 2
ASPECTOS GENERALES
2.1 Planteamiento del problema
2.1.1 Situación problemática
En esta situación de la Pandemia a nivel Mundial, se requiere tener información acerca de
los países vecinos de nuestra querida Bolivia. Así como también tener una comparación de toda
Latinoamérica con los países del primer mundo.
Información útil para la toma de decisiones o crear protocolos de bioseguridad o poder llegar
a implantar normas o decretos para poder bajar los niveles altos según cada caso de estudio.
2.1.2 Situación deseada
Tener una información con patrones definidos y establecidos, mediante la minería de datos
2.2 Objetivos
2.2.1 Objetivo general
Crear una aplicación de minería de datos para determinar patrones del COVID en las personas
a nivel de Latinoamérica.
2.2.2 Objetivos específicos
 Seleccionar la información de origen de datos sobre el COVID-19
 Realizar la limpieza de los datos
 Definir un algoritmo para análisis de los datos
 Elegir un software para poder realizar la minería de datos y poder sacar información
procesada para su interpretación.
CAPITULO 2: ASPECTOS GENERALES
5
2.3 Alcance
El proyecto consiste en la creación de una aplicación utilizando Visual Studio Analysis
Services multidimensional de acuerdo al algoritmo aplicado.
 Se necesita de modelado para el análisis de la información a ser procesada.
 Resultados de la aplicación del algoritmo elegido.
 Interpretación de los resultados obtenidos.
CAPITULO 3: MINERÍA DE DATOS
6
CAPÍTULO 3
MINERÍA DE DATOS
3.1. Historia de la Minería de datos
El proceso de hurgar en los datos para descubrir conexiones ocultas y predecir tendencias
futuras tiene una larga historia. Conocido algunas veces como "descubrimiento de conocimientos
en bases de datos", el término "minería de datos" no se acuño sino hasta la década de 1990. Pero
su base comprende tres disciplinas científicas entrelazadas: estadística (el estudio numérico de
relaciones de datos), inteligencia artificial (inteligencia similar a la humana exhibida por software
y/o máquinas) y machine learning (algoritmos que pueden aprender de datos para hacer
predicciones). Lo que era antiguo es nuevo otra vez, ya que la minería de datos continúa
evolucionando para igualar el ritmo del potencial sin límites del big data y poder de cómputo
asequible.
En la última década, los avances en el poder y la velocidad de procesamiento nos han permitido
llegar más allá de las prácticas manuales, tediosas y que toman mucho tiempo al análisis de datos
rápido, fácil y automatizado. Cuanto más complejos son los conjuntos de datos recopilados, mayor
es el potencial que hay para descubrir insights relevantes. Los comerciantes detallistas, bancos,
fabricantes, proveedores de telecomunicaciones y aseguradoras, entre otros, utilizan la minería de
datos para descubrir relaciones entre todas las cosas, desde precios, promociones y demografía
hasta la forma en que la economía, el riesgo, la competencia y los medios sociales afectan sus
modelos de negocios, ingresos, operaciones y relaciones con clientes.
CAPITULO 3: MINERÍA DE DATOS
7
3.2. La minería de datos
La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes
conjuntos de datos para predecir resultados. Empleando una amplia variedad de técnicas, puede
utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus relaciones con
clientes, reducir riesgos y más
3.3. Aplicaciones de la Minería de datos
3.3.1. Comunicaciones
En un mercado sobrecargado donde la competencia es cerrada, las respuestas se encuentran a
menudo en los datos de sus consumidores. Las compañías de multimedia y telecomunicaciones
pueden utilizar modelos analíticos para entender montañas de datos de clientes, ayudándoles así a
predecir el comportamiento de sus clientes y ofrecer campañas altamente dirigidas y relevantes.
3.3.2. Seguros
Con conocimientos analíticos, las compañías de seguros pueden resolver problemas complejos
concernientes a fraude, cumplimiento, gestión de riesgo y separación de clientes. Las compañías
han utilizado técnicas de minería de datos para asignar precios a productos con mayor eficacia en
líneas de negocios y hallar nuevas formas de ofrecer productos competitivos a su base de clientes
existente.
3.3.3. Educación
Con vistas unificadas basadas en datos del progreso de los estudiantes, los educadores pueden
predecir el desempeño de sus alumnos antes de que pongan un pie en el salón de clases – y
desarrollar estrategias de intervención para mantenerlos en curso. La minería de datos ayuda a los
CAPITULO 3: MINERÍA DE DATOS
8
educadores a acceder a datos de los estudiantes, a predecir niveles de logro y a detectar estudiantes
o grupos de estudiantes que necesitan atención extra.
3.3.4. Manufactura
La alineación de planes de suministro con pronósticos de demanda es esencial, como lo es
también la detección temprana de problemas, garantía de calidad e inversión en equidad de marca.
Los fabricantes pueden predecir el desgaste de activos de producción y anticipar su mantenimiento,
lo cual puede maximizar el tiempo en operación y mantener la línea de producción acorde a lo
programado.
3.3.5. Bancos
Los algoritmos automatizados ayudan a los bancos a entender a su base de clientes y también
los miles de millones de transacciones en el corazón del sistema financiero. La minería de datos
ayuda a las compañías de servicios financieros a tener una mejor vista de los riesgos del mercado,
a detectar el fraude en menos tiempo, a gestionar las obligaciones de cumplimiento de las
regulaciones y a obtener retornos óptimos de sus inversiones en marketing.
3.3.6. Retail
Grandes bases de datos de clientes contienen insights ocultos que le pueden ayudar a mejorar
las relaciones con clientes, optimizar campañas de marketing y pronosticar ventas. A través de
modelos de datos más precisos, las compañías detallistas pueden ofrecer campañas más enfocadas
y encontrar la oferta que tenga el mayor impacto en el cliente.
CAPITULO 3: MINERÍA DE DATOS
9
3.4. Técnicas de minería de datos
Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia
artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos
sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
Redes neuronales
Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que
funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de
neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red
neuronal son:
 El perceptrón.
 El perceptrón multicapa.
 Los mapas autoorganizados, también conocidos como redes de Kohonen.
Ilustración 1 Redes Neuronales
Fuente: (Sistemas basados en minería de datos)
CAPITULO 3: MINERÍA DE DATOS
10
Regresión lineal
Técnica estadística para determinar la relación entre variables. Permite predecir a partir de un
muestreo de datos aleatorio. Se adapta a una amplia variedad de situaciones. La regresión ajustada
con el error cuadrático medio más bajo se elige como el modelo final (González & García, 2010).
Al aplicar el análisis de funciones automáticamente se genera un modelo de regresión lineal de
predicción. La precisión del modelo generado depende en gran manera de la cantidad de datos que
se manejen, así, la exactitud de la predicción es directamente proporcional al número de datos
disponibles (Lewandowski, 2015).
Árboles de decisión
Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia
artificial y el análisis predictivo, dada una base de datos se construyen estos diagramas de
construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven
para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos:
 Algoritmo ID3.
 Algoritmo C4.5
CAPITULO 3: MINERÍA DE DATOS
11
Ilustración 2 Árboles de decisión
Fuente: (Sistemas basados en minería de datos)
Modelos estadísticos
Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los diferentes factores que modifican la variable de
respuesta.
Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de
distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos
que tengan características comunes. Ejemplos:
 Algoritmo K-means
CAPITULO 3: MINERÍA DE DATOS
12
 Algoritmo K-medoids
Ilustración 3 Clustering
Fuente: (Clustering)
Reglas de asociación
Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto
de datos. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):
 Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
 Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.
CAPITULO 3: MINERÍA DE DATOS
13
3.5. Microsoft SQL Server Analysis Servicies
Microsoft SQL Server Analysis Services, SSAS, es una herramienta de procesamiento
analítico y minería de datos en línea en Microsoft SQL Server.
Proporciona las siguientes herramientas de minería de datos que puede utilizar para crear
soluciones:
 El Asistente para minería de datos de SQL Server Data Tools (SSDT) facilita la creación
de estructuras y de modelos de minería de datos, usando orígenes de datos relacionales
o datos multidimensionales en cubos.
 En el asistente, elija los datos que desee utilizar y, a continuación, aplique técnicas de
minería de datos específicas, como agrupación en clústeres, redes neurales o modelado
de series temporales. y disponen de SQLServer Management Studio visores de modelos
SQL Server Data Tools (SSDT)para explorar los modelos de minería de datos una vez
creados. Puede examinar los modelos mediante visores adaptados a cada algoritmo o
analizar con mayor profundidad utilizando el visor de contenido del modelo.
 El Generador de consultas de predicción se proporciona en SQL Server Management
Studio y SQL Server Data Tools (SSDT) para ayudarle a crear consultas de predicción.
También puede probar la exactitud de los modelos respecto a un conjunto de datos de
exclusión o datos externos, o utilizar validación cruzada para evaluar la calidad del
conjunto de datos.
CAPITULO 3: MINERÍA DE DATOS
14
 SQL Server Management Studio es la interfaz en la que administra las soluciones de
minería de datos implementadas en una instancia de Analysis Services. Puede volver a
procesar las estructuras y modelos para actualizar los datos que contienen.
 SQL Server Integration Services contiene herramientas que puede utilizar para limpiar
datos, automatizar tareas como la creación de predicciones y actualización de modelos
y para crear soluciones de minería de datos de texto.
Ilustración 4 Analysis Services
Fuente: (Concepto de Análisis de servicio)
15
CAPÍTULO 4
MINERÍA DE DATOS DEL COVID-19
4.1 Definir la planificación y gestión del proyecto
Una vez realizadas las reflexiones anteriores y sabiendo qué queremos mejorar el proceso con
la implementación de la minería de datos, podremos definir el objetivo. A partir de este punto se
podrán plantear diferentes escenarios para la consecución el objetivo fijado, y análisis de estos.
Metodología y herramientas: La idea principal, es comprender cada paso que se realizará,
para no caer en el tedio de tener que seguir un método al pie de la letra sin saber exactamente qué
se está haciendo, ni por qué.
La construcción e implementación de un proyecto puede adaptarse muy bien a cualquier ciclo
de vida de desarrollo de software, con la salvedad de que, para algunas fases en particular, las
acciones que se han de realizar serán muy diferentes. Lo que se debe tener muy en cuenta, es no
entrar en la utilización de metodologías que requieran fases extensas de reunión de requerimientos
y análisis, fases de desarrollo monolítico que conlleve demasiado tiempo y fases de despliegue
muy largas. Lo que se busca, es entregar una primera implementación que satisfaga una parte de
las necesidades, para demostrar las ventajas y motivar a los usuarios. La metodología adecuada,
puede ser embebida en cualquier ciclo de vida que cumpla con la condición antes declarada.
Con el fin de que se llegue a una total comprensión de cada paso o etapa, se acompañará con la
implementación en una empresa real, para demostrar los resultados que se deben obtener y
ejemplificar cada concepto.
16
Establecer un programa de trabajo: deben definirse todas las actividades a realizar para la
consecución del objetivo y con la metodología establecida de manera precisa, detallada y clara.
También será necesario, como en cualquier proyecto, definir la infraestructura y recursos
necesarios para cubrir la metodología escogida y cubrir con los plazos de ejecución.
Presentación: La presentación es una parte muy importante del proyecto ya que es la
comunicación y explicación del proyecto al resto del equipo. Es necesario que la presentación haga
entender al público de manera clara el proyecto, en caso contrario, un proyecto de minería de datos
muy bien ejecutado puede perder mucho por culpa de una mala presentación y un mensaje erróneo
transmitido al público.
Ejecución, formación y soporte: un proyecto de Minería de datos será útil para la toma de
decisiones en la organización si la información correctamente analizada y con unas buenas
conclusiones con patrones y relaciones encontradas después de aplicar la minería de datos, llega a
los mandos sobre los que recae la responsabilidad de la toma de la decisión en el soporte adecuado
y poder aplicar los patrones. Por este motivo es muy importante formar a las personas de la
organización que estén involucradas y proporcionarles un soporte técnico adecuado en el uso de
las herramientas y en la interpretación y conclusión de las predicciones.
4.2. Requerimientos
4.2.1 Requerimientos funcionales
Los requerimientos según las variables definidas son los siguientes:
 Edad
 Género
 Tasa de mortalidad infantil
 Camas hospitalarias
17
 Enfermeras
 Médicos
 Esperanza de vida
 Diabetes prevalencia
 Prevalencia de tabaquismo
 Temperatura media
 Población masculina
 Población femenina
4.2.2. Requerimientos no funcionales
 Visual Studio 2019
 Capacidad y velocidad del equipo computacional utilizado para poder aplicar la minería
de datos.
 Tiempo de resolución de la Minería de datos.
 Cantidad suficiente de datos para poder predecir.
4.3. Diseño
4.3.1. Desarrollar los modelos de datos
El modelo dimensional de datos a utilizar será un modelo estrella ya que es un modelo simple
en el cuál filtrando adecuadamente las dimensiones podemos llegar a realizar todas las posibles
consultas que deseemos.
18
Ejemplo de un modelo estrella:
Ilustración 5 Modelo Estrella
Fuente: (Concepto de Análisis de servicio)
4.3.2. Analizar las fuentes de datos
La fuente de datos de donde se partió fue archivos de Excel en formato .csv, ya que ese tipo de
reportes salía de su software para mayor comodidad y mejor entendimiento se lo importara a una
base de datos SQL Server.
Los datos que se tienen en la ilustración 6, son perfectos para realizar la minería de datos.
19
Ilustración 6 Fuente de datos
Fuente: (Información pública del Covid - 19)
4.3.3 Limpieza de los datos
Para asegurar que las predicciones realizadas salgan exactas, se requiere hacer la limpieza de
datos que no son necesarios analizar con el software para la minería de datos.
Para este caso de estudio se eliminó datos de otros países que no estén Latinoamérica, para tener
datos solo de la región de Latinoamérica.
20
Ilustración 7 Fuente de datos limpia
Fuente: (Información pública del Covid - 19)
Una vez que se tenga los datos limpios, se realiza la importación a la base de datos SQL
Server para poder utilizar en el Analysis Services de Visual Studio.
Ilustración 8 Importación de datos limpios
Fuente: (Elaboración Propia)
21
Ilustración 9 Importación de datos limpios
Fuente: (Elaboración propia)
4.3.4. Análisis de datos
Para poder realizar un análisis con la minería de datos de la información obtenida, se sigue
con los siguientes pasos:
a) Crear un proyecto multidimensional y de minería de datos con Analysis Services.
Ilustración 10 Proyecto de Visual Studio – Analysis Services
Fuente: (Elaboración propia)
22
b) Seleccionar el origen de datos, vista del origen de datos, cubos a mostrar y dimensiones
Ilustración 11 Origen de datos
Fuente: (Elaboración propia)
Ilustración 12 Definición de datos predefinidos
Fuente: (Elaboración propia)
23
c) Elegir el algoritmo a utilizar
Ilustración 133 Elegir algoritmo de analisis
Fuente: (Elaboración propia)
d) Seleccionar la vista de datos
24
Ilustración 144 Definición de vista a mostrar
Fuente: (Elaboración propia)
e) Elegir las variables de entrada, clave y de predicción.
Ilustración 155 Definir variables de entrada y salida
25
Fuente: (Elaboración propia)
f) Elegir el tipo de cada variable
Ilustración 166 Definir tipo de datos a cada variable
Fuente: (Elaboración propia)
g) Procesar el algoritmo
26
Ilustración 177 Ejecutar el proceso
Fuente: (Elaboración propia)
h) Analizar el modelo de minería de datos generado
27
Ilustración 188 Analisis de los datos generados
Fuente: (Elaboración propia)
Ilustración 199 Resultados por variables
Fuente: (Elaboración propia)
Viendo los resultados se concluye varias cosas entre las cuales: las personas con edades entre 80
y 99 fueron los más afectados por la enfermedad porque la mayor cantidad de muertos esta entre
ese rango de edades.
28
CONCLUSIONES
Terminado el proceso de elaboración del proyecto de minería de datos:
 Se seleccionó la información de origen de datos sobre el COVID-19.
 Se realizó la limpieza de los datos.
 Se logró definir los algoritmos para análisis de los datos.
 Se escogió un software para poder realizar la minería de datos y poder sacar información
procesada para su interpretación.
29
RECOMENDACIONES
 Obtener más información acerca de las estrategias técnicas para implementar en el
proyecto y sobre todo con el equipo de trabajo.
 Implementar con diferentes tipos de aplicaciones para ver sus ventajas de las demás
herramientas.
 Crear proyectos acordes a la Empresa y la necesidad de profundizar la minería de datos
acorde a su necesidad.
 Comprar software Empresarial para ver las mayores ventajas de las Herramientas de
pago que se utiliza en Minería de datos.
30
BIBLIOGRAFÍA
Libros
González, C. B., & García, F. (2010). Práctica Final INTELIGENCIA EN
COMUNICACIONES Minería de Dato. En Predicción de las condiciones meteorológicas.
Lewandowski, C. (2015). The Effects of Brief Mindfulness Intervention on Acute Pain
Experience: An Examination of Individual Difference.
Páginas web
Covid-19. Recuperado de: https://es.wikipedia.org/wiki/COVID-19#Historia [2021, 22 de
Marzo]
31
Clustering. Recuperado de: https://towardsdatascience.com/k-means-data-clustering-
bce3335d2203 [2021, 22 de Marzo]
Sistemas basados en minería de datos. Recuperado de: https://www.x-
trader.net/articulos/sistemas-de-trading/sistemas-basados-en-mineria-de-datos.html [2021, 22 de
Marzo]
Pierre Álvarez (2020). COVID-19 en América Latina: Retos y oportunidades.
Recuperado de: https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0370-
41062020000200179#aff3 [2021, 22 de Marzo]
https://www.netec.com/post/mineria-de-datos-que-es-importancia-y-tecnicas-de-su-
implementacion
https://www.sas.com/es_mx/insights/analytics/data-mining.html
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#T%C3%A9cnicas_de_miner%C3%A
Da_de_datos

Más contenido relacionado

Similar a informe Mineria de datos - Latino America

COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...
COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...
COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...Paola Delgado Chuquillanqui
 
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...DianaLetamendi
 
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...TestingUy
 
VIGILANCIA EN SALUD
VIGILANCIA EN SALUDVIGILANCIA EN SALUD
VIGILANCIA EN SALUDalexjt12
 
Mopece4 sandy cadena
Mopece4 sandy cadenaMopece4 sandy cadena
Mopece4 sandy cadenaSANDY cadena
 
control de enfermedades.pdf
control de enfermedades.pdfcontrol de enfermedades.pdf
control de enfermedades.pdfMilagrosBartra1
 
Módulos de principios de epidemiologia para el control de enfermedades
Módulos de principios de epidemiologia para el control de enfermedadesMódulos de principios de epidemiologia para el control de enfermedades
Módulos de principios de epidemiologia para el control de enfermedadesUnidad de Emprendimiento ambulante
 
Epidemiología para el Control de enfermedades de salud publica.pdf
Epidemiología para el Control de enfermedades de salud publica.pdfEpidemiología para el Control de enfermedades de salud publica.pdf
Epidemiología para el Control de enfermedades de salud publica.pdfjairorodriguez469183
 
PPT - SIMPOSIO DE SALUD PÚBLICA.pptx
PPT - SIMPOSIO DE SALUD PÚBLICA.pptxPPT - SIMPOSIO DE SALUD PÚBLICA.pptx
PPT - SIMPOSIO DE SALUD PÚBLICA.pptxJavierNavarrete43
 
(ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx
 (ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx (ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx
(ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docxoris donoso
 
Lineamientos resumen MOPECE.docx de enfermeria
Lineamientos resumen MOPECE.docx de enfermeriaLineamientos resumen MOPECE.docx de enfermeria
Lineamientos resumen MOPECE.docx de enfermerianestingarmendiaCruz
 
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...RepositorioCTGCARIRU
 
Avances de la tecnologia
Avances de la tecnologiaAvances de la tecnologia
Avances de la tecnologianatalia4543
 
Primer consenso argentino de trastornos neurocognitivos asociados al vih 01...
Primer consenso argentino de trastornos neurocognitivos asociados al vih   01...Primer consenso argentino de trastornos neurocognitivos asociados al vih   01...
Primer consenso argentino de trastornos neurocognitivos asociados al vih 01...Gustavo Kasparas
 
Informe-Epidemiológico-97.pdf
Informe-Epidemiológico-97.pdfInforme-Epidemiológico-97.pdf
Informe-Epidemiológico-97.pdfGRICELBAEZ
 
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...Javier Velasco, PhD
 

Similar a informe Mineria de datos - Latino America (20)

epidemiologia
epidemiologiaepidemiologia
epidemiologia
 
COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...
COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...
COVID-19 COMORBILIDADES Y SÍNTOMAS FRECUENTES DURANTE LA PANDEMIA EN EL HRDQC...
 
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...
01-Plan-nacional-de-vacunacion-e-inmuniczacion-contra-el-COVID-19-Ecuador-202...
 
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...
Webinar TestingUy - Usando Principios del Testing de Software en Tiempos de C...
 
VIGILANCIA EN SALUD
VIGILANCIA EN SALUDVIGILANCIA EN SALUD
VIGILANCIA EN SALUD
 
Mopece4 sandy cadena
Mopece4 sandy cadenaMopece4 sandy cadena
Mopece4 sandy cadena
 
control de enfermedades.pdf
control de enfermedades.pdfcontrol de enfermedades.pdf
control de enfermedades.pdf
 
Módulos de principios de epidemiologia para el control de enfermedades
Módulos de principios de epidemiologia para el control de enfermedadesMódulos de principios de epidemiologia para el control de enfermedades
Módulos de principios de epidemiologia para el control de enfermedades
 
Mopece4
Mopece4Mopece4
Mopece4
 
Epidemiología para el Control de enfermedades de salud publica.pdf
Epidemiología para el Control de enfermedades de salud publica.pdfEpidemiología para el Control de enfermedades de salud publica.pdf
Epidemiología para el Control de enfermedades de salud publica.pdf
 
PPT - SIMPOSIO DE SALUD PÚBLICA.pptx
PPT - SIMPOSIO DE SALUD PÚBLICA.pptxPPT - SIMPOSIO DE SALUD PÚBLICA.pptx
PPT - SIMPOSIO DE SALUD PÚBLICA.pptx
 
(ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx
 (ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx (ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx
(ANTEP.) VIGILANCIA EPIDEMIOLOGICA EN PANAMA.docx
 
Lineamientos resumen MOPECE.docx de enfermeria
Lineamientos resumen MOPECE.docx de enfermeriaLineamientos resumen MOPECE.docx de enfermeria
Lineamientos resumen MOPECE.docx de enfermeria
 
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...
TÉCNICA DE BUERGER ALLEN Y APLICACIÓN DE VENDAJE NEUROMUSCULAR COMO MÉTODO DE...
 
Avances tecnologicos
Avances tecnologicosAvances tecnologicos
Avances tecnologicos
 
Avances de la tecnologia
Avances de la tecnologiaAvances de la tecnologia
Avances de la tecnologia
 
Primer consenso argentino de trastornos neurocognitivos asociados al vih 01...
Primer consenso argentino de trastornos neurocognitivos asociados al vih   01...Primer consenso argentino de trastornos neurocognitivos asociados al vih   01...
Primer consenso argentino de trastornos neurocognitivos asociados al vih 01...
 
1 guia practica-rotavirus
1 guia practica-rotavirus1 guia practica-rotavirus
1 guia practica-rotavirus
 
Informe-Epidemiológico-97.pdf
Informe-Epidemiológico-97.pdfInforme-Epidemiológico-97.pdf
Informe-Epidemiológico-97.pdf
 
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...
Medios Sociales en la Emergencia: Evidencia y Recomendaciones para la Gestión...
 

Más de jaime mamani condori

Más de jaime mamani condori (9)

Mineria de Datos - Europa
Mineria de Datos - EuropaMineria de Datos - Europa
Mineria de Datos - Europa
 
Mineria de datos - Latinoamerica
Mineria de datos - LatinoamericaMineria de datos - Latinoamerica
Mineria de datos - Latinoamerica
 
Mineria de datos - UAGRM
Mineria de datos - UAGRMMineria de datos - UAGRM
Mineria de datos - UAGRM
 
INTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIALINTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIAL
 
Revolucion 4.0
Revolucion 4.0Revolucion 4.0
Revolucion 4.0
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
CODIGO ENIGMA - UAGRM
CODIGO ENIGMA - UAGRMCODIGO ENIGMA - UAGRM
CODIGO ENIGMA - UAGRM
 
Ser virtual (2) - Identidad en linea
Ser virtual (2) - Identidad en lineaSer virtual (2) - Identidad en linea
Ser virtual (2) - Identidad en linea
 
SER VIRTUAL - IDENTIDAD EN LINEA
SER VIRTUAL - IDENTIDAD EN LINEASER VIRTUAL - IDENTIDAD EN LINEA
SER VIRTUAL - IDENTIDAD EN LINEA
 

Último

Caso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralCaso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralAitana
 
Trabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaTrabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaKANTUPAULAPORCELYUCR
 
Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfGuillermoBarquero7
 
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSBeatrizGonzales19
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Opentix
 
2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptxEncomiendasElSherpa
 

Último (6)

Caso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralCaso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business Central
 
Trabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaTrabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - Ofimática
 
Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdf
 
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200
 
2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx
 

informe Mineria de datos - Latino America

  • 1. UNIVERSIDAD AUTÓNOMA GABRIEL RENÉ MORENO FACULTAD DE INGENIERÍA EN CIENCIAS DE LA COMPUTACIÓN Y TELECOMUNICACIONES INGENIERÍA INFORMÁTICA CREAR UNA APLICACIÓN DE MINERÍA DE DATOS PARA DETERMINAR PATRONES DEL COVID-19 EN LAS PERSONAS A NIVEL DE LATINOAMÉRICA TRABAJO DE INVESTIGACIÓN CORRESPONDIENTE AL PROGRAMA “MINERÍA Y CIENCIA DE DATOS” ALUMNOS: GONZALES AYALA MARÍA ALEJANDRA MAMANI CONDORI JAIME SUAREZ GATICA FRANZ CARLOS VARGAS BRAVO IVAN MIJAEL PROFESOR GUÍA: ING. DAVID E. MENDOZA GUTIÉRREZ Marzo 2021 Santa Cruz de la Sierra – Bolivia
  • 2. I I ÍNDICE GENERAL CAPÍTULO 1 COVID-19............................................................................................................. 1 1.1 Historia.................................................................................................................................. 1 1.2 Epidemiología ....................................................................................................................... 2 1.2.1 Transmisión .................................................................................................................... 2 1.3 COVID-19 en Latinoamérica................................................................................................ 2 CAPÍTULO 2 ASPECTOS GENERALES................................................................................. 4 2.1 Planteamiento del problema.................................................................................................. 4 2.1.1 Situación problemática ................................................................................................... 4 2.1.2 Situación deseada............................................................................................................ 4 2.2 Objetivos ............................................................................................................................... 4 2.2.1 Objetivo general.............................................................................................................. 4 2.2.2 Objetivos específicos ...................................................................................................... 4 2.3 Alcance.................................................................................................................................. 5 CAPÍTULO 3 MINERÍA DE DATOS ........................................................................................ 6 3.1. Historia de la Minería de datos ............................................................................................ 6 3.2. La minería de datos .............................................................................................................. 7 3.3. Aplicaciones de la Minería de datos .................................................................................... 7 3.3.1. Comunicaciones............................................................................................................. 7 3.3.2. Seguros .......................................................................................................................... 7 3.3.3. Educación ...................................................................................................................... 7 3.3.4. Manufactura................................................................................................................... 8 3.3.5. Bancos............................................................................................................................ 8 3.3.6. Retail.............................................................................................................................. 8 3.4. Técnicas de minería de datos ............................................................................................... 9 3.5. Microsoft SQL Server Analysis Servicies ......................................................................... 13 CAPÍTULO 4 MINERÍA DE DATOS DEL COVID-19......................................................... 15 4.1 Definir la planificación y gestión del proyecto ................................................................... 15 4.2. Requerimientos................................................................................................................... 16 4.2.1 Requerimientos funcionales.......................................................................................... 16 4.2.2. Requerimientos no funcionales.................................................................................... 17 4.3. Diseño................................................................................................................................. 17
  • 3. II II 4.3.1. Desarrollar los modelos de datos................................................................................. 17 4.3.2. Analizar las fuentes de datos ....................................................................................... 18 4.3.3 Limpieza de los datos ................................................................................................... 19 4.3.4. Análisis de datos .......................................................................................................... 21 CONCLUSIONES....................................................................................................................... 28 RECOMENDACIONES............................................................................................................. 29 BIBLIOGRAFÍA......................................................................................................................... 30
  • 4. III III ÍNDICE DE FIGURAS Ilustración 1 Redes Neuronales....................................................................................................... 9 Ilustración 2 Árboles de decisión.................................................................................................. 11 Ilustración 3 Clustering................................................................................................................. 12 Ilustración 4 Analysis Services..................................................................................................... 14 Ilustración 5 Modelo Estrella........................................................................................................ 18 Ilustración 6 Fuente de datos ........................................................................................................ 19 Ilustración 7 Fuente de datos limpia ............................................................................................. 20 Ilustración 8 Importación de datos limpios................................................................................... 20 Ilustración 9 Importación de datos limpios................................................................................... 21 Ilustración 10 Proyecto de Visual Studio – Analysis Services ..................................................... 21 Ilustración 11 Origen de datos ...................................................................................................... 22 Ilustración 12 Definición de datos predefinidos ........................................................................... 22 Ilustración 13 Elegir algoritmo de analisis ................................................................................... 23 Ilustración 14 Definición de vista a mostrar ................................................................................. 24 Ilustración 15 Definir variables de entrada y salida...................................................................... 24 Ilustración 16 Definir tipo de datos a cada variable...................................................................... 25 Ilustración 17 Ejecutar el proceso ................................................................................................. 26 Ilustración 18 Analisis de los datos generados ............................................................................. 27 Ilustración 19 Resultados por variables ........................................................................................ 27
  • 5. CAPITULO 1: COVID-19 1 CAPÍTULO 1 COVID-19 1.1 Historia En diciembre de 2019 hubo un brote epidémico de neumonía de causa desconocida en Wuhan, provincia de Hubei, China; el cual, según afirmó más tarde Reporteros sin Fronteras, llegó a afectar a más de 60 personas el día 20 de ese mes. Según el Centro Chino para el Control y Prevención de Enfermedades (CCDC), el 29 de diciembre un hospital en Wuhan admitió a 4 individuos con neumonía, quienes trabajaban en un mercado de esa ciudad. El hospital informó esto al CCDC, cuyo equipo en la ciudad inició una investigación. El equipo encontró más casos relacionados al mercado y el 30 de diciembre las autoridades de salud de Wuhan comunicaron los casos al CCDC, que envió expertos a Wuhan para apoyar la investigación. Se obtuvieron muestras de estos pacientes para realizar análisis de laboratorio. El 31 de diciembre, el Comité de Salud Municipal de Wuhan informó a la Organización Mundial de la Salud (OMS) que 27 personas habían sido diagnosticadas con neumonía de causa desconocida, habiendo 7 en estado crítico; la mayoría de estos casos eran trabajadores del mencionado mercado. Para el 1 de enero de 2020, el mercado había sido cerrado y se había descartado que el causante de la neumonía fuera el SARS, el MERS, gripe, gripe aviaria u otras enfermedades respiratorias comunes causadas por virus. El 7 de enero de 2020 los científicos chinos habían aislado el virus causante de la enfermedad, y realizaron la secuenciación del genoma. Esta secuenciación estuvo disponible para la OMS el
  • 6. CAPITULO 1: COVID-19 2 12 de enero de 2020, permitiendo a los laboratorios de diferentes países producir diagnósticos específicos vía pruebas de PCR. El 12 de enero de 2020, las autoridades chinas habían confirmado la existencia de 41 personas infectadas con el nuevo virus, quienes comenzaron a sentir síntomas entre el 8 de diciembre de 2019 y el 2 de enero de 2020, los cuales incluían: fiebre, malestar, tos seca, dificultad para respirar y fallos respiratorios; también se observaron infiltrados neumónicos invasivos en ambos pulmones observables en las radiografías de tórax. 1.2 Epidemiología En esta enfermedad se describe un "triángulo epidemiológico causal" que está formado por: el medio ambiente, el agente etiológico (el virus SARS-CoV-2) y el huésped. 1.2.1 Transmisión Se cree que el virus se propaga principalmente a través de microgotas producidas cuando una persona infectada tose, estornuda o habla. El distanciamiento físico y el uso de mascarillas de tela, mascarillas quirúrgicas, mascarillas en general, u otras coberturas faciales, son formas de controlar la transmisión de gotas. Es posible que una persona pueda contraer COVID-19 a través de contacto indirecto al tocar una superficie u objeto contaminado y luego tocándose la boca, la nariz o posiblemente los ojos, aunque no se cree que esta sea la forma principal de propagación del virus. Los besos, la intimidad física y otras formas de contacto directo pueden transmitir fácilmente el virus y, por lo tanto, provocar COVID-19 en las personas expuestas a dicho contacto. 1.3 COVID-19 en Latinoamérica El primer caso “latinoamericano” de COVID-19 se registró en Brasil el 26 de Febrero y la primera muerte por la infección en la región se anunció en Argentina el 7 de Marzo. Si bien los
  • 7. CAPITULO 1: COVID-19 3 primeros casos confirmados fueron personas llegadas de viajes al exterior, en las últimas semanas se han multiplicado las infecciones por transmisión local. Hasta el 6/4/2020 Latinoamérica acumulaba más de 27.000 casos confirmados y alrededor de 900 fallecidos, siendo a la fecha Brasil con 10.278 casos el país más afectado, seguido de Chile (4.161), Ecuador (3.465), Perú, Panamá, Argentina y México. La OMS ha descrito cuatro posibles escenarios de transmisión y ha sugerido planes concretos de acción clasificando a los países en cuatro categorías: Países sin casos registrados, con “primeros casos registrados”, con “primeros focos identificados” y países con “transmisión comunitaria demostrada y en fase de diseminación”. (Pierre Álvarez, 2020)
  • 8. CAPITULO 2: ASPECTOS GENERALES 4 CAPÍTULO 2 ASPECTOS GENERALES 2.1 Planteamiento del problema 2.1.1 Situación problemática En esta situación de la Pandemia a nivel Mundial, se requiere tener información acerca de los países vecinos de nuestra querida Bolivia. Así como también tener una comparación de toda Latinoamérica con los países del primer mundo. Información útil para la toma de decisiones o crear protocolos de bioseguridad o poder llegar a implantar normas o decretos para poder bajar los niveles altos según cada caso de estudio. 2.1.2 Situación deseada Tener una información con patrones definidos y establecidos, mediante la minería de datos 2.2 Objetivos 2.2.1 Objetivo general Crear una aplicación de minería de datos para determinar patrones del COVID en las personas a nivel de Latinoamérica. 2.2.2 Objetivos específicos  Seleccionar la información de origen de datos sobre el COVID-19  Realizar la limpieza de los datos  Definir un algoritmo para análisis de los datos  Elegir un software para poder realizar la minería de datos y poder sacar información procesada para su interpretación.
  • 9. CAPITULO 2: ASPECTOS GENERALES 5 2.3 Alcance El proyecto consiste en la creación de una aplicación utilizando Visual Studio Analysis Services multidimensional de acuerdo al algoritmo aplicado.  Se necesita de modelado para el análisis de la información a ser procesada.  Resultados de la aplicación del algoritmo elegido.  Interpretación de los resultados obtenidos.
  • 10. CAPITULO 3: MINERÍA DE DATOS 6 CAPÍTULO 3 MINERÍA DE DATOS 3.1. Historia de la Minería de datos El proceso de hurgar en los datos para descubrir conexiones ocultas y predecir tendencias futuras tiene una larga historia. Conocido algunas veces como "descubrimiento de conocimientos en bases de datos", el término "minería de datos" no se acuño sino hasta la década de 1990. Pero su base comprende tres disciplinas científicas entrelazadas: estadística (el estudio numérico de relaciones de datos), inteligencia artificial (inteligencia similar a la humana exhibida por software y/o máquinas) y machine learning (algoritmos que pueden aprender de datos para hacer predicciones). Lo que era antiguo es nuevo otra vez, ya que la minería de datos continúa evolucionando para igualar el ritmo del potencial sin límites del big data y poder de cómputo asequible. En la última década, los avances en el poder y la velocidad de procesamiento nos han permitido llegar más allá de las prácticas manuales, tediosas y que toman mucho tiempo al análisis de datos rápido, fácil y automatizado. Cuanto más complejos son los conjuntos de datos recopilados, mayor es el potencial que hay para descubrir insights relevantes. Los comerciantes detallistas, bancos, fabricantes, proveedores de telecomunicaciones y aseguradoras, entre otros, utilizan la minería de datos para descubrir relaciones entre todas las cosas, desde precios, promociones y demografía hasta la forma en que la economía, el riesgo, la competencia y los medios sociales afectan sus modelos de negocios, ingresos, operaciones y relaciones con clientes.
  • 11. CAPITULO 3: MINERÍA DE DATOS 7 3.2. La minería de datos La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados. Empleando una amplia variedad de técnicas, puede utilizar esta información para incrementar sus ingresos, recortar costos, mejorar sus relaciones con clientes, reducir riesgos y más 3.3. Aplicaciones de la Minería de datos 3.3.1. Comunicaciones En un mercado sobrecargado donde la competencia es cerrada, las respuestas se encuentran a menudo en los datos de sus consumidores. Las compañías de multimedia y telecomunicaciones pueden utilizar modelos analíticos para entender montañas de datos de clientes, ayudándoles así a predecir el comportamiento de sus clientes y ofrecer campañas altamente dirigidas y relevantes. 3.3.2. Seguros Con conocimientos analíticos, las compañías de seguros pueden resolver problemas complejos concernientes a fraude, cumplimiento, gestión de riesgo y separación de clientes. Las compañías han utilizado técnicas de minería de datos para asignar precios a productos con mayor eficacia en líneas de negocios y hallar nuevas formas de ofrecer productos competitivos a su base de clientes existente. 3.3.3. Educación Con vistas unificadas basadas en datos del progreso de los estudiantes, los educadores pueden predecir el desempeño de sus alumnos antes de que pongan un pie en el salón de clases – y desarrollar estrategias de intervención para mantenerlos en curso. La minería de datos ayuda a los
  • 12. CAPITULO 3: MINERÍA DE DATOS 8 educadores a acceder a datos de los estudiantes, a predecir niveles de logro y a detectar estudiantes o grupos de estudiantes que necesitan atención extra. 3.3.4. Manufactura La alineación de planes de suministro con pronósticos de demanda es esencial, como lo es también la detección temprana de problemas, garantía de calidad e inversión en equidad de marca. Los fabricantes pueden predecir el desgaste de activos de producción y anticipar su mantenimiento, lo cual puede maximizar el tiempo en operación y mantener la línea de producción acorde a lo programado. 3.3.5. Bancos Los algoritmos automatizados ayudan a los bancos a entender a su base de clientes y también los miles de millones de transacciones en el corazón del sistema financiero. La minería de datos ayuda a las compañías de servicios financieros a tener una mejor vista de los riesgos del mercado, a detectar el fraude en menos tiempo, a gestionar las obligaciones de cumplimiento de las regulaciones y a obtener retornos óptimos de sus inversiones en marketing. 3.3.6. Retail Grandes bases de datos de clientes contienen insights ocultos que le pueden ayudar a mejorar las relaciones con clientes, optimizar campañas de marketing y pronosticar ventas. A través de modelos de datos más precisos, las compañías detallistas pueden ofrecer campañas más enfocadas y encontrar la oferta que tenga el mayor impacto en el cliente.
  • 13. CAPITULO 3: MINERÍA DE DATOS 9 3.4. Técnicas de minería de datos Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: Redes neuronales Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:  El perceptrón.  El perceptrón multicapa.  Los mapas autoorganizados, también conocidos como redes de Kohonen. Ilustración 1 Redes Neuronales Fuente: (Sistemas basados en minería de datos)
  • 14. CAPITULO 3: MINERÍA DE DATOS 10 Regresión lineal Técnica estadística para determinar la relación entre variables. Permite predecir a partir de un muestreo de datos aleatorio. Se adapta a una amplia variedad de situaciones. La regresión ajustada con el error cuadrático medio más bajo se elige como el modelo final (González & García, 2010). Al aplicar el análisis de funciones automáticamente se genera un modelo de regresión lineal de predicción. La precisión del modelo generado depende en gran manera de la cantidad de datos que se manejen, así, la exactitud de la predicción es directamente proporcional al número de datos disponibles (Lewandowski, 2015). Árboles de decisión Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial y el análisis predictivo, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:  Algoritmo ID3.  Algoritmo C4.5
  • 15. CAPITULO 3: MINERÍA DE DATOS 11 Ilustración 2 Árboles de decisión Fuente: (Sistemas basados en minería de datos) Modelos estadísticos Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:  Algoritmo K-means
  • 16. CAPITULO 3: MINERÍA DE DATOS 12  Algoritmo K-medoids Ilustración 3 Clustering Fuente: (Clustering) Reglas de asociación Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):  Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.  Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.
  • 17. CAPITULO 3: MINERÍA DE DATOS 13 3.5. Microsoft SQL Server Analysis Servicies Microsoft SQL Server Analysis Services, SSAS, es una herramienta de procesamiento analítico y minería de datos en línea en Microsoft SQL Server. Proporciona las siguientes herramientas de minería de datos que puede utilizar para crear soluciones:  El Asistente para minería de datos de SQL Server Data Tools (SSDT) facilita la creación de estructuras y de modelos de minería de datos, usando orígenes de datos relacionales o datos multidimensionales en cubos.  En el asistente, elija los datos que desee utilizar y, a continuación, aplique técnicas de minería de datos específicas, como agrupación en clústeres, redes neurales o modelado de series temporales. y disponen de SQLServer Management Studio visores de modelos SQL Server Data Tools (SSDT)para explorar los modelos de minería de datos una vez creados. Puede examinar los modelos mediante visores adaptados a cada algoritmo o analizar con mayor profundidad utilizando el visor de contenido del modelo.  El Generador de consultas de predicción se proporciona en SQL Server Management Studio y SQL Server Data Tools (SSDT) para ayudarle a crear consultas de predicción. También puede probar la exactitud de los modelos respecto a un conjunto de datos de exclusión o datos externos, o utilizar validación cruzada para evaluar la calidad del conjunto de datos.
  • 18. CAPITULO 3: MINERÍA DE DATOS 14  SQL Server Management Studio es la interfaz en la que administra las soluciones de minería de datos implementadas en una instancia de Analysis Services. Puede volver a procesar las estructuras y modelos para actualizar los datos que contienen.  SQL Server Integration Services contiene herramientas que puede utilizar para limpiar datos, automatizar tareas como la creación de predicciones y actualización de modelos y para crear soluciones de minería de datos de texto. Ilustración 4 Analysis Services Fuente: (Concepto de Análisis de servicio)
  • 19. 15 CAPÍTULO 4 MINERÍA DE DATOS DEL COVID-19 4.1 Definir la planificación y gestión del proyecto Una vez realizadas las reflexiones anteriores y sabiendo qué queremos mejorar el proceso con la implementación de la minería de datos, podremos definir el objetivo. A partir de este punto se podrán plantear diferentes escenarios para la consecución el objetivo fijado, y análisis de estos. Metodología y herramientas: La idea principal, es comprender cada paso que se realizará, para no caer en el tedio de tener que seguir un método al pie de la letra sin saber exactamente qué se está haciendo, ni por qué. La construcción e implementación de un proyecto puede adaptarse muy bien a cualquier ciclo de vida de desarrollo de software, con la salvedad de que, para algunas fases en particular, las acciones que se han de realizar serán muy diferentes. Lo que se debe tener muy en cuenta, es no entrar en la utilización de metodologías que requieran fases extensas de reunión de requerimientos y análisis, fases de desarrollo monolítico que conlleve demasiado tiempo y fases de despliegue muy largas. Lo que se busca, es entregar una primera implementación que satisfaga una parte de las necesidades, para demostrar las ventajas y motivar a los usuarios. La metodología adecuada, puede ser embebida en cualquier ciclo de vida que cumpla con la condición antes declarada. Con el fin de que se llegue a una total comprensión de cada paso o etapa, se acompañará con la implementación en una empresa real, para demostrar los resultados que se deben obtener y ejemplificar cada concepto.
  • 20. 16 Establecer un programa de trabajo: deben definirse todas las actividades a realizar para la consecución del objetivo y con la metodología establecida de manera precisa, detallada y clara. También será necesario, como en cualquier proyecto, definir la infraestructura y recursos necesarios para cubrir la metodología escogida y cubrir con los plazos de ejecución. Presentación: La presentación es una parte muy importante del proyecto ya que es la comunicación y explicación del proyecto al resto del equipo. Es necesario que la presentación haga entender al público de manera clara el proyecto, en caso contrario, un proyecto de minería de datos muy bien ejecutado puede perder mucho por culpa de una mala presentación y un mensaje erróneo transmitido al público. Ejecución, formación y soporte: un proyecto de Minería de datos será útil para la toma de decisiones en la organización si la información correctamente analizada y con unas buenas conclusiones con patrones y relaciones encontradas después de aplicar la minería de datos, llega a los mandos sobre los que recae la responsabilidad de la toma de la decisión en el soporte adecuado y poder aplicar los patrones. Por este motivo es muy importante formar a las personas de la organización que estén involucradas y proporcionarles un soporte técnico adecuado en el uso de las herramientas y en la interpretación y conclusión de las predicciones. 4.2. Requerimientos 4.2.1 Requerimientos funcionales Los requerimientos según las variables definidas son los siguientes:  Edad  Género  Tasa de mortalidad infantil  Camas hospitalarias
  • 21. 17  Enfermeras  Médicos  Esperanza de vida  Diabetes prevalencia  Prevalencia de tabaquismo  Temperatura media  Población masculina  Población femenina 4.2.2. Requerimientos no funcionales  Visual Studio 2019  Capacidad y velocidad del equipo computacional utilizado para poder aplicar la minería de datos.  Tiempo de resolución de la Minería de datos.  Cantidad suficiente de datos para poder predecir. 4.3. Diseño 4.3.1. Desarrollar los modelos de datos El modelo dimensional de datos a utilizar será un modelo estrella ya que es un modelo simple en el cuál filtrando adecuadamente las dimensiones podemos llegar a realizar todas las posibles consultas que deseemos.
  • 22. 18 Ejemplo de un modelo estrella: Ilustración 5 Modelo Estrella Fuente: (Concepto de Análisis de servicio) 4.3.2. Analizar las fuentes de datos La fuente de datos de donde se partió fue archivos de Excel en formato .csv, ya que ese tipo de reportes salía de su software para mayor comodidad y mejor entendimiento se lo importara a una base de datos SQL Server. Los datos que se tienen en la ilustración 6, son perfectos para realizar la minería de datos.
  • 23. 19 Ilustración 6 Fuente de datos Fuente: (Información pública del Covid - 19) 4.3.3 Limpieza de los datos Para asegurar que las predicciones realizadas salgan exactas, se requiere hacer la limpieza de datos que no son necesarios analizar con el software para la minería de datos. Para este caso de estudio se eliminó datos de otros países que no estén Latinoamérica, para tener datos solo de la región de Latinoamérica.
  • 24. 20 Ilustración 7 Fuente de datos limpia Fuente: (Información pública del Covid - 19) Una vez que se tenga los datos limpios, se realiza la importación a la base de datos SQL Server para poder utilizar en el Analysis Services de Visual Studio. Ilustración 8 Importación de datos limpios Fuente: (Elaboración Propia)
  • 25. 21 Ilustración 9 Importación de datos limpios Fuente: (Elaboración propia) 4.3.4. Análisis de datos Para poder realizar un análisis con la minería de datos de la información obtenida, se sigue con los siguientes pasos: a) Crear un proyecto multidimensional y de minería de datos con Analysis Services. Ilustración 10 Proyecto de Visual Studio – Analysis Services Fuente: (Elaboración propia)
  • 26. 22 b) Seleccionar el origen de datos, vista del origen de datos, cubos a mostrar y dimensiones Ilustración 11 Origen de datos Fuente: (Elaboración propia) Ilustración 12 Definición de datos predefinidos Fuente: (Elaboración propia)
  • 27. 23 c) Elegir el algoritmo a utilizar Ilustración 133 Elegir algoritmo de analisis Fuente: (Elaboración propia) d) Seleccionar la vista de datos
  • 28. 24 Ilustración 144 Definición de vista a mostrar Fuente: (Elaboración propia) e) Elegir las variables de entrada, clave y de predicción. Ilustración 155 Definir variables de entrada y salida
  • 29. 25 Fuente: (Elaboración propia) f) Elegir el tipo de cada variable Ilustración 166 Definir tipo de datos a cada variable Fuente: (Elaboración propia) g) Procesar el algoritmo
  • 30. 26 Ilustración 177 Ejecutar el proceso Fuente: (Elaboración propia) h) Analizar el modelo de minería de datos generado
  • 31. 27 Ilustración 188 Analisis de los datos generados Fuente: (Elaboración propia) Ilustración 199 Resultados por variables Fuente: (Elaboración propia) Viendo los resultados se concluye varias cosas entre las cuales: las personas con edades entre 80 y 99 fueron los más afectados por la enfermedad porque la mayor cantidad de muertos esta entre ese rango de edades.
  • 32. 28 CONCLUSIONES Terminado el proceso de elaboración del proyecto de minería de datos:  Se seleccionó la información de origen de datos sobre el COVID-19.  Se realizó la limpieza de los datos.  Se logró definir los algoritmos para análisis de los datos.  Se escogió un software para poder realizar la minería de datos y poder sacar información procesada para su interpretación.
  • 33. 29 RECOMENDACIONES  Obtener más información acerca de las estrategias técnicas para implementar en el proyecto y sobre todo con el equipo de trabajo.  Implementar con diferentes tipos de aplicaciones para ver sus ventajas de las demás herramientas.  Crear proyectos acordes a la Empresa y la necesidad de profundizar la minería de datos acorde a su necesidad.  Comprar software Empresarial para ver las mayores ventajas de las Herramientas de pago que se utiliza en Minería de datos.
  • 34. 30 BIBLIOGRAFÍA Libros González, C. B., & García, F. (2010). Práctica Final INTELIGENCIA EN COMUNICACIONES Minería de Dato. En Predicción de las condiciones meteorológicas. Lewandowski, C. (2015). The Effects of Brief Mindfulness Intervention on Acute Pain Experience: An Examination of Individual Difference. Páginas web Covid-19. Recuperado de: https://es.wikipedia.org/wiki/COVID-19#Historia [2021, 22 de Marzo]
  • 35. 31 Clustering. Recuperado de: https://towardsdatascience.com/k-means-data-clustering- bce3335d2203 [2021, 22 de Marzo] Sistemas basados en minería de datos. Recuperado de: https://www.x- trader.net/articulos/sistemas-de-trading/sistemas-basados-en-mineria-de-datos.html [2021, 22 de Marzo] Pierre Álvarez (2020). COVID-19 en América Latina: Retos y oportunidades. Recuperado de: https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0370- 41062020000200179#aff3 [2021, 22 de Marzo] https://www.netec.com/post/mineria-de-datos-que-es-importancia-y-tecnicas-de-su- implementacion https://www.sas.com/es_mx/insights/analytics/data-mining.html https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#T%C3%A9cnicas_de_miner%C3%A Da_de_datos