SlideShare una empresa de Scribd logo
1 de 20
Descargar para leer sin conexión
Maestría en Ciencia de los Datos y Procesamiento de
Datos Masivos (Big-Data)
Análisis Predictivo en la red social Twitter para detectar
tweets con tendencias al Ciberacoso Sexual aplicando
Machine Learning
Sustentante: Carlos Mario Jaramillo Olaya
Director de tesis: Dr. Iván Castillo Zúñiga
Fecha: 01 de diciembre de 2022
• Contexto Internacional
Desde la OMS (Organización Mundial de la Salud), se reconoce y expone que la violencia sexual, incluido el acoso
sexual son problemas de salud pública (OMS, 2013). Se ha observado un aumento del uso intensivo de la Internet por
parte de niños y adolescentes. En investigaciones realizadas en países, desde Argentina hasta Guatemala y desde
Catar hasta Turquía. Teniendo en cuenta el nivel de la conexión y la ausencia transitoria de supervisión y de control,
los niños y los adolescentes están sujetos a riesgos en línea, y también pueden convertirse en objetivos fáciles de los
depredadores en línea (OMS, 2012).
• Contexto Nacional
En Colombia los delitos sexuales por redes sociales han venido en aumento gracias, por una parte, al descuido de los
padres de familia en el control de sus hijos cuando hacen uso de la Internet y, también, con la facilidad que tienen los
violadores de acceder a los perfiles de las víctimas. Las redes sociales se han convertido no solo en el medio de
interacción social preferido por millones de personas, sino en el medio por el cual violadores, asesinos y criminales
buscan, analizan y persiguen a sus víctimas (Flores, 2019).
2
Contexto
• ¿Qué dificultades existen en la literatura para la construcción de corpus
lingüísticos para la clasificación de datos a partir de información de la red
social Twitter?
• ¿Es posible clasificar de manera efectiva características de mensajes o
tweets con tendencias de ciberacoso sexual en la red social Twitter, a
partir de la implementación de un modelo predictivo que combine técnicas
de aprendizaje supervisado, no supervisado y minería Web?
3
Pregunta de investigación
• Las técnicas de Big Data Analytics en combinación con
procedimientos de Procesamiento de Lenguaje Natural y Machine
Learning, favorecerá la clasificación de características de personas
afectadas por ciberacoso sexual y permitirá identificar cuáles son los
algoritmos más efectivos para generar valor agregado sobre la red
social Twitter.
4
Hipótesis
Relevancia social
Cada herramienta que permita minimizar el riesgo del acoso sexual es bienvenido, dicho esto, estamos frente a una problemática que puede afectar a
cualquier tipo de persona que esté usando activamente las redes sociales, tanto niños, adolescentes o adultos, sin importar su género, esto quiere
decir que la investigación propuesta impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se podría
determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual.
Aportación teórica
Particularmente con la ciencia de datos podemos tener un soporte académico, científico y técnico en esta investigación, debido a que Big Data se
apoya en metodologías de trabajo que permiten recrear un proceso ordenado en el estudio de la información objetivo, el análisis de datos y recreación
de esta con base en un mar de datos para ayudar en la toma de decisiones frente a una situación o circunstancia. Dado este marco académico, las
ciencias de la salud, como: la medicina, la sicología, salud ocupacional. Y las ciencias sociales, como: la sociología y la antropología, se han visto
beneficiadas con las técnicas de extracción y análisis de datos para determinar razones de cambio, patrones de comportamiento y predicciones para
mitigar riesgos inminentes que normalmente no pueden ser controlados o medianamente estudiados.
Aportación metodológica
Se ha realizado un proceso metodológico ordenado y sistematizado; se utilizaron técnicas de investigación cuantitativas, orientadas al análisis,
clasificación de datos (tweets) o mensajes en la red social Twitter, para su categorización del contenido de ciberacoso sexual por medio de modelos
predictivos implementados con herramientas de Big Data.
5
Justificación
6
Marco teórico
Procesamiento
de grandes
volúmenes de
datos de
naturaleza
diversa. BigData
(Moreno,
2018)
(Laney, 2001)
(Hernández,
Duque &
Moreno, 2017)
(Atif, Richards,
Bilgin, &
Marrone,
2014)
(Erl, Khattak, &
Buhler, 2015)
(Daniel,
2017)
Explorar datos para
identificar patrones,
relaciones, hechos o
tendencias y a partir
de los resultados
apoyar y respaldar la
toma de decisiones.
Analítica de datos
(Erl,
Khattak &
Buhler,
2015)
(Arcitura
Education
Inc, 2018)
Búsqueda de patrones
y de construcción de
“inteligencia” en
dispositivos que
permitan nuevos
comportamientos a
partir de su propia
experiencia. Machine
Learning
(Gollapudi,
2016)
(Bonaccorso,
2017)
7
Marco teórico
Tipo de Machine
Learning que entrena
una computadora para
realizar actividades que
hacen los seres
humanos,
reconocimiento del
habla, identificación de
imágenes o predicciones.
Deep Learning
(Sas,
2018)
Persecución de un
individuo a otro, a
través de mensajes,
fotografías o videos
de carácter sexual.
Ciberacoso Sexual
(Ciberder
echo,
2016)
8
Estudios empíricos
Objetivo general
Establecer un modelo predictivo que sea capaz de identificar y categorizar mensajes que correspondan a ciberacoso
sexual dentro de la red social Twitter, a través de la implementación de algoritmos adecuados para encontrar
conocimiento con el desarrollo de una ontología semántica que clasifique dicha información.
Objetivos específicos
• Conectar, localizar y extraer información de la red social Twitter relacionada a ciberacoso sexual.
• Determinar el conjunto de datos (dataset) que será utilizado para las pruebas de detección con aprendizaje de
máquina (Machine Learning).
• Implementar técnicas de aprendizaje supervisado para la clasificación de las características que indiquen
tendencia de ciberacoso sexual, usando el lenguaje de programación orientado a la inteligencia artificial como
Python.
• Analizar los resultados obtenidos en el proceso de clasificación y compararlos con los trabajos relacionados para
determinar la efectividad del modelo.
9
Objetivos
10
Método
Perceptrón
Multicapa en
Python buscando
establecer un
modelo de datos
con un
procedimiento más
profundo.
* Buscamos y extraemos
los tweets con
searchtwitter.py
* Obtuvimos 32842
Tweets
* Generamos un archivo
con 63 variables
predictoras y 1 categórica
con pythoncsvpandas.py
Se verifica y
determina cuál de las
técnicas es la más
apropiada para la
clasificación de
patrones de personas
con ciberacoso sexual
de acuerdo con los
porcentajes de
predicción
Máquinas de Soporte
Vectorial, Redes
Neuronales y Random
Forest, para realizar
las pruebas de
detección, a través del
lenguaje de
programación Python.
11
Instrumento
Nombre del instrumento: Machine Learning
Tipo de validez: Máquinas de Soporte Vectorial SVM
Tipo de confiabilidad: Matriz de confusión
Descripción del instrumento(s):
• El conjunto de datos contiene un total de 32842 tweets, 63 variables
predictoras de Ciberacoso sexual, adicionalmente la variable categórica
a predecir que incluye los valores “Si” y “No”. Estas muestras
corresponden a lo indicado en el punto anterior (cantidad de tweets
extraídos). La distribución para las pruebas es, 22989 tweets, si
corresponden a Ciberacoso sexual, con la clase “Si” y 9853 tweets que
no corresponden a Ciberacoso sexual, para la clase “No”. Este
conjunto de datos fue segmentando en un conjunto de entrenamiento
equivalente al 70% de los datos y, otro conjunto de prueba
representando al 30% de la población respectivamente.
• En la ejecución del presente algoritmo, se aprecia en la figura 1, que el
modelo predice 6968 registros de los 6968 analizados, alcanzando un
porcentaje de precisión promedio del 100% y un error del 0.0%.
• Se utilizaron otros algoritmos de Machine Learning, como: bosques
aleatorios y red neuronal con el mismo tipo de confiabilidad.
Figura. Matriz de confusión MSV en Python
Descripción
Verdaderos Negativos: 2885
Verdaderos Positivos: 6968
Falsos Positivos: 0
Falsos Negativos: 0
12
Resultados
Datos sociodemográficos:
• La presente investigación no presenta información sociodemográfica de
manera específica, debido a que la población sobre la que se trabajó está
constituida por miles de tweets, extraídos de la red social Twitter.
• Los tres algoritmos: máquinas de Soporte Vectorial,
Bosques Aleatorios y Red Neuronal, tienen
aproximadamente el mismo porcentaje de precisión, sin
aparente diferencia, pues el porcentaje de error es del
0.0% respectivamente. Deduciendo que los 3
algoritmos son muy competitivos. Por otro lado, se
puede apreciar que el mejor tiempo de ejecución lo
obtiene el algoritmo Máquinas de Soporte Vectorial, y
muy por debajo se encuentra la Red Neuronal. Dejando
claro que, a pesar de tener la misma efectividad, el más
eficiente, en este caso, es el más veloz
Modelo Precisión Error Tiempo
Máquinas de Soporte
Vectorial
100% 0,0% 0,70 seg
Bosques Aleatorios 100% 0,0% 0,81 seg
Red Neuronal 100% 0,0% 13,68 seg
90 95 100 105 110 115
SVM
Bosques Aleatorios
Red Neuronal
COMPARACIÓN ALGORITMOS DE MACHINE
LEARNING
% Precicisión % Error Tiempo Ejecución (seg)
Tabla. Resultados de las técnicas de Machine Learning en Python
12
Resultados
Modelo Precisión Error Tiempo
Máquinas de Soporte
Vectorial
100% 0,0% 0,70 seg
Perceptrón Multicapa Deep
Learning CPU
100% 0,0% 180,36 seg
Tabla. Comparación de resultados de técnicas de Machine Learning vs Deep Learning
0 50 100 150 200
% Precicisión
% Error
Tiempo Ejecución (seg)
Machine Learning VS Deep Learning
Deep Learning CPU (PMC) Machine Learning (SVM)
Se puede apreciar que los dos algoritmos prestaron igual resultado en precisión y
margen de error, pero vemos con un tiempo de procesamiento mucho mayor al
algoritmo Perceptrón Multicapa de Deep Learning comparado con SVM de Machine
Learning. Dejando así, a este último, como el algoritmo con mayor eficiencia, no
solo en precisión, sino en tiempo de ejecución.
13
Análisis de los resultados
•Se obtuvo un conjunto de
tweets de la red social Twitter
que representaron la
información de Ciberacoso
Sexual, mediante la
transformación de datos en
formato .csv, con ayuda de
scripts o desarrollos software
de invención propia.
•Se seleccionaron tres
algoritmos de Machine
Learning, implementados en
Python, para establecer cuál
de ellos es el más indicado
para predecir el vocabulario
de Ciberacoso Sexual.
•Se construyó un modelo
predictivo de Deep Learning,
implementado con tecnología
CPU.
•Se realizó la
comparación de los
mejores modelos
predictivos de
Machine Learning y se
comparó con el de
Deep Learning para
determinar cuál de
todas las técnicas
aplicadas es la mejor
para la detección del
vocabulario del
Ciberacoso Sexual.
14
Discusiones
Investigación
relacionada
Autor(es) y año Tipo de Relación Relación Aprovechamiento
Categorizing Online Harassment
on Twitter
Saeidi, da S. Sousa,
Milios, Zeh & Berton.
2020
• Objetivo principal de la
investigación actual.
• Uso de algoritmos de
Machine Learning.
• Detección de mensajes
que tengan que ver con
el ciberacoso sexual en
redes sociales como
Twitter.
• Regresión Logística,
Naive Bayes, Máquina
de Soporte Vectorial,
Árboles de Decisión.
• Corpus a partir de
stopwords y
tokenización,
permitiendo determinar
un vocabulario a partir
de palabras
relacionadas con
ciberacoso sexual
Detecting Offensive Language
in Tweets Using Deep
Learning
Pitsilis, Ramampiaro
& Langseth, 2018
• Uso de algoritmos de
Deep Learning.
• Detección de mensajes
que tengan que ver con
el ciberbullyng en redes
sociales como Twitter.
• Entendimiento del
camino metodológico
para la detección de
ciberacoso en Twitter.
The #MeToo Movement in the
United States: Text Analysis of
Early Twitter Conversations
Modrek & Chakalov,
2019
• Uso de algoritmos de
Machine Learning.
• Reducción mínima
absoluta, regresión del
operador de selección,
y modelos de máquinas
vectoriales de apoyo.
• Entendimiento del
movimiento MeToo en
la red social Twitter.
• Utilización del hashtag
#MeToo para detección
de palabras usadas en
casos de Ciberacoso
Sexual
15
Discusiones
Objetivo Cumplimiento ¿Por qué?
Establecer un modelo
predictivo que sea
capaz de identificar y
categorizar mensajes
que correspondan a
ciberacoso sexual
dentro de la red
social Twitter, a
través de la
implementación de
algoritmos
adecuados para
encontrar
conocimiento con el
desarrollo de una
ontología semántica
que clasifique dicha
información.
SI
Se extrajo información de la
red social Twitter
relacionada a ciberacoso
sexual.
Se construyó el conjunto de
datos (dataset) que será
utilizado para las pruebas de
detección con aprendizaje de
máquina (Machine Learning).
Se Implementaron técnicas
de aprendizaje supervisado
para la clasificación de las
características que indiquen
tendencia de ciberacoso
sexual, usando el lenguaje de
programación Python.
Se corroboró la validez de
esta investigación a través
del análisis de resultados
obtenidos en el proceso de
clasificación y compararlos
con los trabajos
relacionados.
Hipótesis Cumplimiento ¿Por qué?
Las técnicas de Big
Data Analytics en
combinación con
procedimientos de
Procesamiento de
Lenguaje Natural y
Machine Learning,
favorecerá la
clasificación de
características de
personas afectadas
por acoso sexual y
permitirá identificar
cuáles son los
algoritmos más
efectivos para generar
valor agregado sobre
la red social Twitter.
SI
Se aplicaron técnicas de
Aprendizaje Automático, en
combinación con
procedimientos de
Procesamiento de Lenguaje
Natural, Machine Learning y
Deep Learning, logrando
generar un corpus lingüístico
sobre Ciberacoso sexual
Se crearon algoritmos en el
lenguaje de programación
Python, para tomar estos
datos y hacer pruebas,
determinando porcentajes de
precisión positivos en la
clasificación de
características de tweets con
información relacionada al
Ciberacoso sexual, superiores
al 99.99% con técnicas de
Machine Learning y del
99.99% y con técnicas de
aprendizaje profundo (Deep
Learning).
16
Conclusiones
FODA
Fortalezas
La búsqueda literaria en libros o investigaciones relacionadas
en áreas de la sicología, psiquiatría, sociología, entre otras, se
determinaron temas relacionados sobre el Ciberacoso sexual,
y a partir de estos determinar palabras claves para definir el
vocabulario.
Oportunidades
Lograr la clasificación de características de tweets con
tendencias al ciberacoso sexual permitiría apoyar los procesos
y estrategias propuestas por diferentes entidades y gobiernos
que buscan mitigar o prevenir el Ciberacoso sexual en la red
social Twitter nivel mundial.
A partir de las pruebas de clasificación se identificó la
necesidad de adecuar el modelo Deep Learning de GPU a CPU,
dado que este igualaba los porcentajes de predicción respecto
a los de Machine Learning, pero el tiempo de ejecución era
precario.
Debilidades No contar con un vocabulario sobre el Ciberacoso sexual,
teniendo en cuenta que este es un insumo principal para
buscar información en la red social Twitter y lograr crear el
dataset.
Amenazas
Encontrar una arquitectura hardware adecuada que soportara
la configuración de un entorno diseñado para un modelo que
permitiera la clasificación del vocabulario del ciberacoso
sexual usando recursos hardware a partir de la GPU en el uso
de algoritmos Deep Learning.
17
Recomendaciones
Importancia:
• Se trazó un camino metodológico y se generó un producto de software que permitiría apoyar los procesos
de detección de patrones de ciberacoso sexual en Twitter.
Trascendencia:
• Impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se
podría determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual.
Trabajos futuros:
• Nuevas investigaciones hacia otras problemáticas sociales como identificación de violencia intrafamiliar y
acoso a la comunidad LGBTI en Twitter.
• Realizar pruebas usando GPUs y hardware especializado, teniendo en cuenta 1 millón de registros como
muestra.
• Incluir en estas investigaciones el análisis de sentimientos.
18
Referencias
• Chowdhury., A, Sawhney., R, Shah., R, & Mahata., D. (2019). #YouToo? Detection of Personal Recollections of
Sexual Harassment on Social Media. In Proceedings of the 57th Annual Meeting of the Association for Computational
Linguistics, pages 2527–2537, Florence, Italy. Association for Computational Linguistics.
• Ciberderecho. (2016). ¿Qué es el Ciberacoso Sexual? Obtenido de http://www.ciberderecho.com/que-es-el-
ciberacoso-sexual/
• OMS. (2013). Violencia Sexual. Obtenido de
https://apps.who.int/iris/bitstream/handle/10665/98821/WHO_RHR_12.37_spa.pdf;jsessionid=14376641DA9B9
DE22A833286FE32D1DB?sequence=1
• OMS. (2012). Protección y seguridad en internet: retos y avances en los Estados miembros: basado en los resultados
de la segunda encuesta mundial sobre ciber salud. Obtenido de
https://apps.who.int/iris/bitstream/handle/10665/77348/9789243564395_spa.pdf?sequence=1&isAllowed=y
• Saeidi M., da S. Sousa S.B., Milios E., Zeh N., Berton L. (2020). Categorizing Online Harassment on Twitter. In:
Cellier P., Driessens K. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2019.
Communications in Computer and Information Science, vol 1168. Springer, Cham. https://doi.org/10.1007/978-3-
030-43887-6_22
19
Gracias
Correo: cmjaramillo@uniquindio.edu.co

Más contenido relacionado

Similar a Análisis Predictivo en la red social Twitter para Detectar tweets con tendencias al Ciberacoso Sexual, Mediante Machine Learning.pptx

RETOS DEL APRENDIZAJE AUTOMATICO.pptx
RETOS DEL APRENDIZAJE AUTOMATICO.pptxRETOS DEL APRENDIZAJE AUTOMATICO.pptx
RETOS DEL APRENDIZAJE AUTOMATICO.pptxJUANJOSECAICEDOMALDO
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informeEdgardo Perez
 
BIG DATA EN SALUD.docx
BIG DATA EN SALUD.docxBIG DATA EN SALUD.docx
BIG DATA EN SALUD.docxEduardo F
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informeEdgardo Perez
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosBryan Barragan
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informeEdgardo Perez
 
Ética, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiaÉtica, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiaf430pablo
 
Ética, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiaÉtica, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiamarieta_og
 
planificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxplanificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxAngelDelRosarioMedin
 
Big data
Big dataBig data
Big datathegavi
 
Problemas De Validez
Problemas De ValidezProblemas De Validez
Problemas De ValidezLaura Colo
 

Similar a Análisis Predictivo en la red social Twitter para Detectar tweets con tendencias al Ciberacoso Sexual, Mediante Machine Learning.pptx (20)

RETOS DEL APRENDIZAJE AUTOMATICO.pptx
RETOS DEL APRENDIZAJE AUTOMATICO.pptxRETOS DEL APRENDIZAJE AUTOMATICO.pptx
RETOS DEL APRENDIZAJE AUTOMATICO.pptx
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informe
 
BIG DATA EN SALUD.docx
BIG DATA EN SALUD.docxBIG DATA EN SALUD.docx
BIG DATA EN SALUD.docx
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informe
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Tarea 1
Tarea 1Tarea 1
Tarea 1
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
S8 edgardo perez_informe
S8 edgardo perez_informeS8 edgardo perez_informe
S8 edgardo perez_informe
 
Ética, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiaÉtica, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapia
 
Ca732ov
Ca732ovCa732ov
Ca732ov
 
Ética, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapiaÉtica, compromiso y comunicación en la ciberterapia
Ética, compromiso y comunicación en la ciberterapia
 
Big Problem Data
Big Problem DataBig Problem Data
Big Problem Data
 
Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
 
Hoja de trabajo de clase 3
Hoja de trabajo de clase 3Hoja de trabajo de clase 3
Hoja de trabajo de clase 3
 
planificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxplanificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptx
 
Big data
Big dataBig data
Big data
 
Tema1
Tema1Tema1
Tema1
 
Problemas De Validez
Problemas De ValidezProblemas De Validez
Problemas De Validez
 

Último

Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Pere Miquel Rosselló Espases
 
Botiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdfBotiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdfefmenaes
 
Estrategia Nacional de Refuerzo Escolar SJA Ccesa007.pdf
Estrategia Nacional de Refuerzo Escolar  SJA  Ccesa007.pdfEstrategia Nacional de Refuerzo Escolar  SJA  Ccesa007.pdf
Estrategia Nacional de Refuerzo Escolar SJA Ccesa007.pdfDemetrio Ccesa Rayme
 
Estudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado BásicoEstudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado Básicomaxgamesofficial15
 
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.JonathanCovena1
 
Tema 9. Roma. 1º ESO 2014. Ciencias SOciales
Tema 9. Roma. 1º ESO 2014. Ciencias SOcialesTema 9. Roma. 1º ESO 2014. Ciencias SOciales
Tema 9. Roma. 1º ESO 2014. Ciencias SOcialesChema R.
 
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdfEdiciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdfDemetrio Ccesa Rayme
 
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdf
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdfGran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdf
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdfEdgar R Gimenez
 
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menoresFICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menoresSantosprez2
 
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Libros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdfLibros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdfGalletitas default
 
El Futuro de la Educacion Digital JS1 Ccesa007.pdf
El Futuro de la Educacion Digital  JS1  Ccesa007.pdfEl Futuro de la Educacion Digital  JS1  Ccesa007.pdf
El Futuro de la Educacion Digital JS1 Ccesa007.pdfDemetrio Ccesa Rayme
 
Síndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuaniSíndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuanishflorezg
 
Diseño Universal de Aprendizaje en Nuevos Escenarios JS2 Ccesa007.pdf
Diseño Universal de Aprendizaje en Nuevos Escenarios  JS2  Ccesa007.pdfDiseño Universal de Aprendizaje en Nuevos Escenarios  JS2  Ccesa007.pdf
Diseño Universal de Aprendizaje en Nuevos Escenarios JS2 Ccesa007.pdfDemetrio Ccesa Rayme
 
Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.JonathanCovena1
 
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptxnelsontobontrujillo
 
Lineamientos de la Escuela de la Confianza SJA Ccesa.pptx
Lineamientos de la Escuela de la Confianza  SJA  Ccesa.pptxLineamientos de la Escuela de la Confianza  SJA  Ccesa.pptx
Lineamientos de la Escuela de la Confianza SJA Ccesa.pptxDemetrio Ccesa Rayme
 
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVO
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVOSESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVO
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVOJuanaBellidocollahua
 
a propósito del estado su relevancia y definiciones
a propósito del estado su relevancia y definicionesa propósito del estado su relevancia y definiciones
a propósito del estado su relevancia y definicionessubfabian
 

Último (20)

Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
 
Botiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdfBotiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdf
 
Estrategia Nacional de Refuerzo Escolar SJA Ccesa007.pdf
Estrategia Nacional de Refuerzo Escolar  SJA  Ccesa007.pdfEstrategia Nacional de Refuerzo Escolar  SJA  Ccesa007.pdf
Estrategia Nacional de Refuerzo Escolar SJA Ccesa007.pdf
 
Estudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado BásicoEstudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado Básico
 
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
 
Tema 9. Roma. 1º ESO 2014. Ciencias SOciales
Tema 9. Roma. 1º ESO 2014. Ciencias SOcialesTema 9. Roma. 1º ESO 2014. Ciencias SOciales
Tema 9. Roma. 1º ESO 2014. Ciencias SOciales
 
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdfEdiciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
 
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdf
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdfGran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdf
Gran Final Campeonato Nacional Escolar Liga Las Torres 2017.pdf
 
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menoresFICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
 
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
 
Libros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdfLibros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdf
 
El Futuro de la Educacion Digital JS1 Ccesa007.pdf
El Futuro de la Educacion Digital  JS1  Ccesa007.pdfEl Futuro de la Educacion Digital  JS1  Ccesa007.pdf
El Futuro de la Educacion Digital JS1 Ccesa007.pdf
 
Síndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuaniSíndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuani
 
Diseño Universal de Aprendizaje en Nuevos Escenarios JS2 Ccesa007.pdf
Diseño Universal de Aprendizaje en Nuevos Escenarios  JS2  Ccesa007.pdfDiseño Universal de Aprendizaje en Nuevos Escenarios  JS2  Ccesa007.pdf
Diseño Universal de Aprendizaje en Nuevos Escenarios JS2 Ccesa007.pdf
 
flujo de materia y energía ecosistemas.
flujo de materia y  energía ecosistemas.flujo de materia y  energía ecosistemas.
flujo de materia y energía ecosistemas.
 
Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.
 
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
4. MATERIALES QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
 
Lineamientos de la Escuela de la Confianza SJA Ccesa.pptx
Lineamientos de la Escuela de la Confianza  SJA  Ccesa.pptxLineamientos de la Escuela de la Confianza  SJA  Ccesa.pptx
Lineamientos de la Escuela de la Confianza SJA Ccesa.pptx
 
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVO
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVOSESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVO
SESION DE APRENDIZAJE PARA3ER GRADO -EL SISTEMA DIGESTIVO
 
a propósito del estado su relevancia y definiciones
a propósito del estado su relevancia y definicionesa propósito del estado su relevancia y definiciones
a propósito del estado su relevancia y definiciones
 

Análisis Predictivo en la red social Twitter para Detectar tweets con tendencias al Ciberacoso Sexual, Mediante Machine Learning.pptx

  • 1. Maestría en Ciencia de los Datos y Procesamiento de Datos Masivos (Big-Data) Análisis Predictivo en la red social Twitter para detectar tweets con tendencias al Ciberacoso Sexual aplicando Machine Learning Sustentante: Carlos Mario Jaramillo Olaya Director de tesis: Dr. Iván Castillo Zúñiga Fecha: 01 de diciembre de 2022
  • 2. • Contexto Internacional Desde la OMS (Organización Mundial de la Salud), se reconoce y expone que la violencia sexual, incluido el acoso sexual son problemas de salud pública (OMS, 2013). Se ha observado un aumento del uso intensivo de la Internet por parte de niños y adolescentes. En investigaciones realizadas en países, desde Argentina hasta Guatemala y desde Catar hasta Turquía. Teniendo en cuenta el nivel de la conexión y la ausencia transitoria de supervisión y de control, los niños y los adolescentes están sujetos a riesgos en línea, y también pueden convertirse en objetivos fáciles de los depredadores en línea (OMS, 2012). • Contexto Nacional En Colombia los delitos sexuales por redes sociales han venido en aumento gracias, por una parte, al descuido de los padres de familia en el control de sus hijos cuando hacen uso de la Internet y, también, con la facilidad que tienen los violadores de acceder a los perfiles de las víctimas. Las redes sociales se han convertido no solo en el medio de interacción social preferido por millones de personas, sino en el medio por el cual violadores, asesinos y criminales buscan, analizan y persiguen a sus víctimas (Flores, 2019). 2 Contexto
  • 3. • ¿Qué dificultades existen en la literatura para la construcción de corpus lingüísticos para la clasificación de datos a partir de información de la red social Twitter? • ¿Es posible clasificar de manera efectiva características de mensajes o tweets con tendencias de ciberacoso sexual en la red social Twitter, a partir de la implementación de un modelo predictivo que combine técnicas de aprendizaje supervisado, no supervisado y minería Web? 3 Pregunta de investigación
  • 4. • Las técnicas de Big Data Analytics en combinación con procedimientos de Procesamiento de Lenguaje Natural y Machine Learning, favorecerá la clasificación de características de personas afectadas por ciberacoso sexual y permitirá identificar cuáles son los algoritmos más efectivos para generar valor agregado sobre la red social Twitter. 4 Hipótesis
  • 5. Relevancia social Cada herramienta que permita minimizar el riesgo del acoso sexual es bienvenido, dicho esto, estamos frente a una problemática que puede afectar a cualquier tipo de persona que esté usando activamente las redes sociales, tanto niños, adolescentes o adultos, sin importar su género, esto quiere decir que la investigación propuesta impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se podría determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual. Aportación teórica Particularmente con la ciencia de datos podemos tener un soporte académico, científico y técnico en esta investigación, debido a que Big Data se apoya en metodologías de trabajo que permiten recrear un proceso ordenado en el estudio de la información objetivo, el análisis de datos y recreación de esta con base en un mar de datos para ayudar en la toma de decisiones frente a una situación o circunstancia. Dado este marco académico, las ciencias de la salud, como: la medicina, la sicología, salud ocupacional. Y las ciencias sociales, como: la sociología y la antropología, se han visto beneficiadas con las técnicas de extracción y análisis de datos para determinar razones de cambio, patrones de comportamiento y predicciones para mitigar riesgos inminentes que normalmente no pueden ser controlados o medianamente estudiados. Aportación metodológica Se ha realizado un proceso metodológico ordenado y sistematizado; se utilizaron técnicas de investigación cuantitativas, orientadas al análisis, clasificación de datos (tweets) o mensajes en la red social Twitter, para su categorización del contenido de ciberacoso sexual por medio de modelos predictivos implementados con herramientas de Big Data. 5 Justificación
  • 6. 6 Marco teórico Procesamiento de grandes volúmenes de datos de naturaleza diversa. BigData (Moreno, 2018) (Laney, 2001) (Hernández, Duque & Moreno, 2017) (Atif, Richards, Bilgin, & Marrone, 2014) (Erl, Khattak, & Buhler, 2015) (Daniel, 2017) Explorar datos para identificar patrones, relaciones, hechos o tendencias y a partir de los resultados apoyar y respaldar la toma de decisiones. Analítica de datos (Erl, Khattak & Buhler, 2015) (Arcitura Education Inc, 2018) Búsqueda de patrones y de construcción de “inteligencia” en dispositivos que permitan nuevos comportamientos a partir de su propia experiencia. Machine Learning (Gollapudi, 2016) (Bonaccorso, 2017)
  • 7. 7 Marco teórico Tipo de Machine Learning que entrena una computadora para realizar actividades que hacen los seres humanos, reconocimiento del habla, identificación de imágenes o predicciones. Deep Learning (Sas, 2018) Persecución de un individuo a otro, a través de mensajes, fotografías o videos de carácter sexual. Ciberacoso Sexual (Ciberder echo, 2016)
  • 9. Objetivo general Establecer un modelo predictivo que sea capaz de identificar y categorizar mensajes que correspondan a ciberacoso sexual dentro de la red social Twitter, a través de la implementación de algoritmos adecuados para encontrar conocimiento con el desarrollo de una ontología semántica que clasifique dicha información. Objetivos específicos • Conectar, localizar y extraer información de la red social Twitter relacionada a ciberacoso sexual. • Determinar el conjunto de datos (dataset) que será utilizado para las pruebas de detección con aprendizaje de máquina (Machine Learning). • Implementar técnicas de aprendizaje supervisado para la clasificación de las características que indiquen tendencia de ciberacoso sexual, usando el lenguaje de programación orientado a la inteligencia artificial como Python. • Analizar los resultados obtenidos en el proceso de clasificación y compararlos con los trabajos relacionados para determinar la efectividad del modelo. 9 Objetivos
  • 10. 10 Método Perceptrón Multicapa en Python buscando establecer un modelo de datos con un procedimiento más profundo. * Buscamos y extraemos los tweets con searchtwitter.py * Obtuvimos 32842 Tweets * Generamos un archivo con 63 variables predictoras y 1 categórica con pythoncsvpandas.py Se verifica y determina cuál de las técnicas es la más apropiada para la clasificación de patrones de personas con ciberacoso sexual de acuerdo con los porcentajes de predicción Máquinas de Soporte Vectorial, Redes Neuronales y Random Forest, para realizar las pruebas de detección, a través del lenguaje de programación Python.
  • 11. 11 Instrumento Nombre del instrumento: Machine Learning Tipo de validez: Máquinas de Soporte Vectorial SVM Tipo de confiabilidad: Matriz de confusión Descripción del instrumento(s): • El conjunto de datos contiene un total de 32842 tweets, 63 variables predictoras de Ciberacoso sexual, adicionalmente la variable categórica a predecir que incluye los valores “Si” y “No”. Estas muestras corresponden a lo indicado en el punto anterior (cantidad de tweets extraídos). La distribución para las pruebas es, 22989 tweets, si corresponden a Ciberacoso sexual, con la clase “Si” y 9853 tweets que no corresponden a Ciberacoso sexual, para la clase “No”. Este conjunto de datos fue segmentando en un conjunto de entrenamiento equivalente al 70% de los datos y, otro conjunto de prueba representando al 30% de la población respectivamente. • En la ejecución del presente algoritmo, se aprecia en la figura 1, que el modelo predice 6968 registros de los 6968 analizados, alcanzando un porcentaje de precisión promedio del 100% y un error del 0.0%. • Se utilizaron otros algoritmos de Machine Learning, como: bosques aleatorios y red neuronal con el mismo tipo de confiabilidad. Figura. Matriz de confusión MSV en Python Descripción Verdaderos Negativos: 2885 Verdaderos Positivos: 6968 Falsos Positivos: 0 Falsos Negativos: 0
  • 12. 12 Resultados Datos sociodemográficos: • La presente investigación no presenta información sociodemográfica de manera específica, debido a que la población sobre la que se trabajó está constituida por miles de tweets, extraídos de la red social Twitter. • Los tres algoritmos: máquinas de Soporte Vectorial, Bosques Aleatorios y Red Neuronal, tienen aproximadamente el mismo porcentaje de precisión, sin aparente diferencia, pues el porcentaje de error es del 0.0% respectivamente. Deduciendo que los 3 algoritmos son muy competitivos. Por otro lado, se puede apreciar que el mejor tiempo de ejecución lo obtiene el algoritmo Máquinas de Soporte Vectorial, y muy por debajo se encuentra la Red Neuronal. Dejando claro que, a pesar de tener la misma efectividad, el más eficiente, en este caso, es el más veloz Modelo Precisión Error Tiempo Máquinas de Soporte Vectorial 100% 0,0% 0,70 seg Bosques Aleatorios 100% 0,0% 0,81 seg Red Neuronal 100% 0,0% 13,68 seg 90 95 100 105 110 115 SVM Bosques Aleatorios Red Neuronal COMPARACIÓN ALGORITMOS DE MACHINE LEARNING % Precicisión % Error Tiempo Ejecución (seg) Tabla. Resultados de las técnicas de Machine Learning en Python
  • 13. 12 Resultados Modelo Precisión Error Tiempo Máquinas de Soporte Vectorial 100% 0,0% 0,70 seg Perceptrón Multicapa Deep Learning CPU 100% 0,0% 180,36 seg Tabla. Comparación de resultados de técnicas de Machine Learning vs Deep Learning 0 50 100 150 200 % Precicisión % Error Tiempo Ejecución (seg) Machine Learning VS Deep Learning Deep Learning CPU (PMC) Machine Learning (SVM) Se puede apreciar que los dos algoritmos prestaron igual resultado en precisión y margen de error, pero vemos con un tiempo de procesamiento mucho mayor al algoritmo Perceptrón Multicapa de Deep Learning comparado con SVM de Machine Learning. Dejando así, a este último, como el algoritmo con mayor eficiencia, no solo en precisión, sino en tiempo de ejecución.
  • 14. 13 Análisis de los resultados •Se obtuvo un conjunto de tweets de la red social Twitter que representaron la información de Ciberacoso Sexual, mediante la transformación de datos en formato .csv, con ayuda de scripts o desarrollos software de invención propia. •Se seleccionaron tres algoritmos de Machine Learning, implementados en Python, para establecer cuál de ellos es el más indicado para predecir el vocabulario de Ciberacoso Sexual. •Se construyó un modelo predictivo de Deep Learning, implementado con tecnología CPU. •Se realizó la comparación de los mejores modelos predictivos de Machine Learning y se comparó con el de Deep Learning para determinar cuál de todas las técnicas aplicadas es la mejor para la detección del vocabulario del Ciberacoso Sexual.
  • 15. 14 Discusiones Investigación relacionada Autor(es) y año Tipo de Relación Relación Aprovechamiento Categorizing Online Harassment on Twitter Saeidi, da S. Sousa, Milios, Zeh & Berton. 2020 • Objetivo principal de la investigación actual. • Uso de algoritmos de Machine Learning. • Detección de mensajes que tengan que ver con el ciberacoso sexual en redes sociales como Twitter. • Regresión Logística, Naive Bayes, Máquina de Soporte Vectorial, Árboles de Decisión. • Corpus a partir de stopwords y tokenización, permitiendo determinar un vocabulario a partir de palabras relacionadas con ciberacoso sexual Detecting Offensive Language in Tweets Using Deep Learning Pitsilis, Ramampiaro & Langseth, 2018 • Uso de algoritmos de Deep Learning. • Detección de mensajes que tengan que ver con el ciberbullyng en redes sociales como Twitter. • Entendimiento del camino metodológico para la detección de ciberacoso en Twitter. The #MeToo Movement in the United States: Text Analysis of Early Twitter Conversations Modrek & Chakalov, 2019 • Uso de algoritmos de Machine Learning. • Reducción mínima absoluta, regresión del operador de selección, y modelos de máquinas vectoriales de apoyo. • Entendimiento del movimiento MeToo en la red social Twitter. • Utilización del hashtag #MeToo para detección de palabras usadas en casos de Ciberacoso Sexual
  • 16. 15 Discusiones Objetivo Cumplimiento ¿Por qué? Establecer un modelo predictivo que sea capaz de identificar y categorizar mensajes que correspondan a ciberacoso sexual dentro de la red social Twitter, a través de la implementación de algoritmos adecuados para encontrar conocimiento con el desarrollo de una ontología semántica que clasifique dicha información. SI Se extrajo información de la red social Twitter relacionada a ciberacoso sexual. Se construyó el conjunto de datos (dataset) que será utilizado para las pruebas de detección con aprendizaje de máquina (Machine Learning). Se Implementaron técnicas de aprendizaje supervisado para la clasificación de las características que indiquen tendencia de ciberacoso sexual, usando el lenguaje de programación Python. Se corroboró la validez de esta investigación a través del análisis de resultados obtenidos en el proceso de clasificación y compararlos con los trabajos relacionados. Hipótesis Cumplimiento ¿Por qué? Las técnicas de Big Data Analytics en combinación con procedimientos de Procesamiento de Lenguaje Natural y Machine Learning, favorecerá la clasificación de características de personas afectadas por acoso sexual y permitirá identificar cuáles son los algoritmos más efectivos para generar valor agregado sobre la red social Twitter. SI Se aplicaron técnicas de Aprendizaje Automático, en combinación con procedimientos de Procesamiento de Lenguaje Natural, Machine Learning y Deep Learning, logrando generar un corpus lingüístico sobre Ciberacoso sexual Se crearon algoritmos en el lenguaje de programación Python, para tomar estos datos y hacer pruebas, determinando porcentajes de precisión positivos en la clasificación de características de tweets con información relacionada al Ciberacoso sexual, superiores al 99.99% con técnicas de Machine Learning y del 99.99% y con técnicas de aprendizaje profundo (Deep Learning).
  • 17. 16 Conclusiones FODA Fortalezas La búsqueda literaria en libros o investigaciones relacionadas en áreas de la sicología, psiquiatría, sociología, entre otras, se determinaron temas relacionados sobre el Ciberacoso sexual, y a partir de estos determinar palabras claves para definir el vocabulario. Oportunidades Lograr la clasificación de características de tweets con tendencias al ciberacoso sexual permitiría apoyar los procesos y estrategias propuestas por diferentes entidades y gobiernos que buscan mitigar o prevenir el Ciberacoso sexual en la red social Twitter nivel mundial. A partir de las pruebas de clasificación se identificó la necesidad de adecuar el modelo Deep Learning de GPU a CPU, dado que este igualaba los porcentajes de predicción respecto a los de Machine Learning, pero el tiempo de ejecución era precario. Debilidades No contar con un vocabulario sobre el Ciberacoso sexual, teniendo en cuenta que este es un insumo principal para buscar información en la red social Twitter y lograr crear el dataset. Amenazas Encontrar una arquitectura hardware adecuada que soportara la configuración de un entorno diseñado para un modelo que permitiera la clasificación del vocabulario del ciberacoso sexual usando recursos hardware a partir de la GPU en el uso de algoritmos Deep Learning.
  • 18. 17 Recomendaciones Importancia: • Se trazó un camino metodológico y se generó un producto de software que permitiría apoyar los procesos de detección de patrones de ciberacoso sexual en Twitter. Trascendencia: • Impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se podría determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual. Trabajos futuros: • Nuevas investigaciones hacia otras problemáticas sociales como identificación de violencia intrafamiliar y acoso a la comunidad LGBTI en Twitter. • Realizar pruebas usando GPUs y hardware especializado, teniendo en cuenta 1 millón de registros como muestra. • Incluir en estas investigaciones el análisis de sentimientos.
  • 19. 18 Referencias • Chowdhury., A, Sawhney., R, Shah., R, & Mahata., D. (2019). #YouToo? Detection of Personal Recollections of Sexual Harassment on Social Media. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2527–2537, Florence, Italy. Association for Computational Linguistics. • Ciberderecho. (2016). ¿Qué es el Ciberacoso Sexual? Obtenido de http://www.ciberderecho.com/que-es-el- ciberacoso-sexual/ • OMS. (2013). Violencia Sexual. Obtenido de https://apps.who.int/iris/bitstream/handle/10665/98821/WHO_RHR_12.37_spa.pdf;jsessionid=14376641DA9B9 DE22A833286FE32D1DB?sequence=1 • OMS. (2012). Protección y seguridad en internet: retos y avances en los Estados miembros: basado en los resultados de la segunda encuesta mundial sobre ciber salud. Obtenido de https://apps.who.int/iris/bitstream/handle/10665/77348/9789243564395_spa.pdf?sequence=1&isAllowed=y • Saeidi M., da S. Sousa S.B., Milios E., Zeh N., Berton L. (2020). Categorizing Online Harassment on Twitter. In: Cellier P., Driessens K. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2019. Communications in Computer and Information Science, vol 1168. Springer, Cham. https://doi.org/10.1007/978-3- 030-43887-6_22