a propósito del estado su relevancia y definiciones
Análisis Predictivo en la red social Twitter para Detectar tweets con tendencias al Ciberacoso Sexual, Mediante Machine Learning.pptx
1. Maestría en Ciencia de los Datos y Procesamiento de
Datos Masivos (Big-Data)
Análisis Predictivo en la red social Twitter para detectar
tweets con tendencias al Ciberacoso Sexual aplicando
Machine Learning
Sustentante: Carlos Mario Jaramillo Olaya
Director de tesis: Dr. Iván Castillo Zúñiga
Fecha: 01 de diciembre de 2022
2. • Contexto Internacional
Desde la OMS (Organización Mundial de la Salud), se reconoce y expone que la violencia sexual, incluido el acoso
sexual son problemas de salud pública (OMS, 2013). Se ha observado un aumento del uso intensivo de la Internet por
parte de niños y adolescentes. En investigaciones realizadas en países, desde Argentina hasta Guatemala y desde
Catar hasta Turquía. Teniendo en cuenta el nivel de la conexión y la ausencia transitoria de supervisión y de control,
los niños y los adolescentes están sujetos a riesgos en línea, y también pueden convertirse en objetivos fáciles de los
depredadores en línea (OMS, 2012).
• Contexto Nacional
En Colombia los delitos sexuales por redes sociales han venido en aumento gracias, por una parte, al descuido de los
padres de familia en el control de sus hijos cuando hacen uso de la Internet y, también, con la facilidad que tienen los
violadores de acceder a los perfiles de las víctimas. Las redes sociales se han convertido no solo en el medio de
interacción social preferido por millones de personas, sino en el medio por el cual violadores, asesinos y criminales
buscan, analizan y persiguen a sus víctimas (Flores, 2019).
2
Contexto
3. • ¿Qué dificultades existen en la literatura para la construcción de corpus
lingüísticos para la clasificación de datos a partir de información de la red
social Twitter?
• ¿Es posible clasificar de manera efectiva características de mensajes o
tweets con tendencias de ciberacoso sexual en la red social Twitter, a
partir de la implementación de un modelo predictivo que combine técnicas
de aprendizaje supervisado, no supervisado y minería Web?
3
Pregunta de investigación
4. • Las técnicas de Big Data Analytics en combinación con
procedimientos de Procesamiento de Lenguaje Natural y Machine
Learning, favorecerá la clasificación de características de personas
afectadas por ciberacoso sexual y permitirá identificar cuáles son los
algoritmos más efectivos para generar valor agregado sobre la red
social Twitter.
4
Hipótesis
5. Relevancia social
Cada herramienta que permita minimizar el riesgo del acoso sexual es bienvenido, dicho esto, estamos frente a una problemática que puede afectar a
cualquier tipo de persona que esté usando activamente las redes sociales, tanto niños, adolescentes o adultos, sin importar su género, esto quiere
decir que la investigación propuesta impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se podría
determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual.
Aportación teórica
Particularmente con la ciencia de datos podemos tener un soporte académico, científico y técnico en esta investigación, debido a que Big Data se
apoya en metodologías de trabajo que permiten recrear un proceso ordenado en el estudio de la información objetivo, el análisis de datos y recreación
de esta con base en un mar de datos para ayudar en la toma de decisiones frente a una situación o circunstancia. Dado este marco académico, las
ciencias de la salud, como: la medicina, la sicología, salud ocupacional. Y las ciencias sociales, como: la sociología y la antropología, se han visto
beneficiadas con las técnicas de extracción y análisis de datos para determinar razones de cambio, patrones de comportamiento y predicciones para
mitigar riesgos inminentes que normalmente no pueden ser controlados o medianamente estudiados.
Aportación metodológica
Se ha realizado un proceso metodológico ordenado y sistematizado; se utilizaron técnicas de investigación cuantitativas, orientadas al análisis,
clasificación de datos (tweets) o mensajes en la red social Twitter, para su categorización del contenido de ciberacoso sexual por medio de modelos
predictivos implementados con herramientas de Big Data.
5
Justificación
6. 6
Marco teórico
Procesamiento
de grandes
volúmenes de
datos de
naturaleza
diversa. BigData
(Moreno,
2018)
(Laney, 2001)
(Hernández,
Duque &
Moreno, 2017)
(Atif, Richards,
Bilgin, &
Marrone,
2014)
(Erl, Khattak, &
Buhler, 2015)
(Daniel,
2017)
Explorar datos para
identificar patrones,
relaciones, hechos o
tendencias y a partir
de los resultados
apoyar y respaldar la
toma de decisiones.
Analítica de datos
(Erl,
Khattak &
Buhler,
2015)
(Arcitura
Education
Inc, 2018)
Búsqueda de patrones
y de construcción de
“inteligencia” en
dispositivos que
permitan nuevos
comportamientos a
partir de su propia
experiencia. Machine
Learning
(Gollapudi,
2016)
(Bonaccorso,
2017)
7. 7
Marco teórico
Tipo de Machine
Learning que entrena
una computadora para
realizar actividades que
hacen los seres
humanos,
reconocimiento del
habla, identificación de
imágenes o predicciones.
Deep Learning
(Sas,
2018)
Persecución de un
individuo a otro, a
través de mensajes,
fotografías o videos
de carácter sexual.
Ciberacoso Sexual
(Ciberder
echo,
2016)
9. Objetivo general
Establecer un modelo predictivo que sea capaz de identificar y categorizar mensajes que correspondan a ciberacoso
sexual dentro de la red social Twitter, a través de la implementación de algoritmos adecuados para encontrar
conocimiento con el desarrollo de una ontología semántica que clasifique dicha información.
Objetivos específicos
• Conectar, localizar y extraer información de la red social Twitter relacionada a ciberacoso sexual.
• Determinar el conjunto de datos (dataset) que será utilizado para las pruebas de detección con aprendizaje de
máquina (Machine Learning).
• Implementar técnicas de aprendizaje supervisado para la clasificación de las características que indiquen
tendencia de ciberacoso sexual, usando el lenguaje de programación orientado a la inteligencia artificial como
Python.
• Analizar los resultados obtenidos en el proceso de clasificación y compararlos con los trabajos relacionados para
determinar la efectividad del modelo.
9
Objetivos
10. 10
Método
Perceptrón
Multicapa en
Python buscando
establecer un
modelo de datos
con un
procedimiento más
profundo.
* Buscamos y extraemos
los tweets con
searchtwitter.py
* Obtuvimos 32842
Tweets
* Generamos un archivo
con 63 variables
predictoras y 1 categórica
con pythoncsvpandas.py
Se verifica y
determina cuál de las
técnicas es la más
apropiada para la
clasificación de
patrones de personas
con ciberacoso sexual
de acuerdo con los
porcentajes de
predicción
Máquinas de Soporte
Vectorial, Redes
Neuronales y Random
Forest, para realizar
las pruebas de
detección, a través del
lenguaje de
programación Python.
11. 11
Instrumento
Nombre del instrumento: Machine Learning
Tipo de validez: Máquinas de Soporte Vectorial SVM
Tipo de confiabilidad: Matriz de confusión
Descripción del instrumento(s):
• El conjunto de datos contiene un total de 32842 tweets, 63 variables
predictoras de Ciberacoso sexual, adicionalmente la variable categórica
a predecir que incluye los valores “Si” y “No”. Estas muestras
corresponden a lo indicado en el punto anterior (cantidad de tweets
extraídos). La distribución para las pruebas es, 22989 tweets, si
corresponden a Ciberacoso sexual, con la clase “Si” y 9853 tweets que
no corresponden a Ciberacoso sexual, para la clase “No”. Este
conjunto de datos fue segmentando en un conjunto de entrenamiento
equivalente al 70% de los datos y, otro conjunto de prueba
representando al 30% de la población respectivamente.
• En la ejecución del presente algoritmo, se aprecia en la figura 1, que el
modelo predice 6968 registros de los 6968 analizados, alcanzando un
porcentaje de precisión promedio del 100% y un error del 0.0%.
• Se utilizaron otros algoritmos de Machine Learning, como: bosques
aleatorios y red neuronal con el mismo tipo de confiabilidad.
Figura. Matriz de confusión MSV en Python
Descripción
Verdaderos Negativos: 2885
Verdaderos Positivos: 6968
Falsos Positivos: 0
Falsos Negativos: 0
12. 12
Resultados
Datos sociodemográficos:
• La presente investigación no presenta información sociodemográfica de
manera específica, debido a que la población sobre la que se trabajó está
constituida por miles de tweets, extraídos de la red social Twitter.
• Los tres algoritmos: máquinas de Soporte Vectorial,
Bosques Aleatorios y Red Neuronal, tienen
aproximadamente el mismo porcentaje de precisión, sin
aparente diferencia, pues el porcentaje de error es del
0.0% respectivamente. Deduciendo que los 3
algoritmos son muy competitivos. Por otro lado, se
puede apreciar que el mejor tiempo de ejecución lo
obtiene el algoritmo Máquinas de Soporte Vectorial, y
muy por debajo se encuentra la Red Neuronal. Dejando
claro que, a pesar de tener la misma efectividad, el más
eficiente, en este caso, es el más veloz
Modelo Precisión Error Tiempo
Máquinas de Soporte
Vectorial
100% 0,0% 0,70 seg
Bosques Aleatorios 100% 0,0% 0,81 seg
Red Neuronal 100% 0,0% 13,68 seg
90 95 100 105 110 115
SVM
Bosques Aleatorios
Red Neuronal
COMPARACIÓN ALGORITMOS DE MACHINE
LEARNING
% Precicisión % Error Tiempo Ejecución (seg)
Tabla. Resultados de las técnicas de Machine Learning en Python
13. 12
Resultados
Modelo Precisión Error Tiempo
Máquinas de Soporte
Vectorial
100% 0,0% 0,70 seg
Perceptrón Multicapa Deep
Learning CPU
100% 0,0% 180,36 seg
Tabla. Comparación de resultados de técnicas de Machine Learning vs Deep Learning
0 50 100 150 200
% Precicisión
% Error
Tiempo Ejecución (seg)
Machine Learning VS Deep Learning
Deep Learning CPU (PMC) Machine Learning (SVM)
Se puede apreciar que los dos algoritmos prestaron igual resultado en precisión y
margen de error, pero vemos con un tiempo de procesamiento mucho mayor al
algoritmo Perceptrón Multicapa de Deep Learning comparado con SVM de Machine
Learning. Dejando así, a este último, como el algoritmo con mayor eficiencia, no
solo en precisión, sino en tiempo de ejecución.
14. 13
Análisis de los resultados
•Se obtuvo un conjunto de
tweets de la red social Twitter
que representaron la
información de Ciberacoso
Sexual, mediante la
transformación de datos en
formato .csv, con ayuda de
scripts o desarrollos software
de invención propia.
•Se seleccionaron tres
algoritmos de Machine
Learning, implementados en
Python, para establecer cuál
de ellos es el más indicado
para predecir el vocabulario
de Ciberacoso Sexual.
•Se construyó un modelo
predictivo de Deep Learning,
implementado con tecnología
CPU.
•Se realizó la
comparación de los
mejores modelos
predictivos de
Machine Learning y se
comparó con el de
Deep Learning para
determinar cuál de
todas las técnicas
aplicadas es la mejor
para la detección del
vocabulario del
Ciberacoso Sexual.
15. 14
Discusiones
Investigación
relacionada
Autor(es) y año Tipo de Relación Relación Aprovechamiento
Categorizing Online Harassment
on Twitter
Saeidi, da S. Sousa,
Milios, Zeh & Berton.
2020
• Objetivo principal de la
investigación actual.
• Uso de algoritmos de
Machine Learning.
• Detección de mensajes
que tengan que ver con
el ciberacoso sexual en
redes sociales como
Twitter.
• Regresión Logística,
Naive Bayes, Máquina
de Soporte Vectorial,
Árboles de Decisión.
• Corpus a partir de
stopwords y
tokenización,
permitiendo determinar
un vocabulario a partir
de palabras
relacionadas con
ciberacoso sexual
Detecting Offensive Language
in Tweets Using Deep
Learning
Pitsilis, Ramampiaro
& Langseth, 2018
• Uso de algoritmos de
Deep Learning.
• Detección de mensajes
que tengan que ver con
el ciberbullyng en redes
sociales como Twitter.
• Entendimiento del
camino metodológico
para la detección de
ciberacoso en Twitter.
The #MeToo Movement in the
United States: Text Analysis of
Early Twitter Conversations
Modrek & Chakalov,
2019
• Uso de algoritmos de
Machine Learning.
• Reducción mínima
absoluta, regresión del
operador de selección,
y modelos de máquinas
vectoriales de apoyo.
• Entendimiento del
movimiento MeToo en
la red social Twitter.
• Utilización del hashtag
#MeToo para detección
de palabras usadas en
casos de Ciberacoso
Sexual
16. 15
Discusiones
Objetivo Cumplimiento ¿Por qué?
Establecer un modelo
predictivo que sea
capaz de identificar y
categorizar mensajes
que correspondan a
ciberacoso sexual
dentro de la red
social Twitter, a
través de la
implementación de
algoritmos
adecuados para
encontrar
conocimiento con el
desarrollo de una
ontología semántica
que clasifique dicha
información.
SI
Se extrajo información de la
red social Twitter
relacionada a ciberacoso
sexual.
Se construyó el conjunto de
datos (dataset) que será
utilizado para las pruebas de
detección con aprendizaje de
máquina (Machine Learning).
Se Implementaron técnicas
de aprendizaje supervisado
para la clasificación de las
características que indiquen
tendencia de ciberacoso
sexual, usando el lenguaje de
programación Python.
Se corroboró la validez de
esta investigación a través
del análisis de resultados
obtenidos en el proceso de
clasificación y compararlos
con los trabajos
relacionados.
Hipótesis Cumplimiento ¿Por qué?
Las técnicas de Big
Data Analytics en
combinación con
procedimientos de
Procesamiento de
Lenguaje Natural y
Machine Learning,
favorecerá la
clasificación de
características de
personas afectadas
por acoso sexual y
permitirá identificar
cuáles son los
algoritmos más
efectivos para generar
valor agregado sobre
la red social Twitter.
SI
Se aplicaron técnicas de
Aprendizaje Automático, en
combinación con
procedimientos de
Procesamiento de Lenguaje
Natural, Machine Learning y
Deep Learning, logrando
generar un corpus lingüístico
sobre Ciberacoso sexual
Se crearon algoritmos en el
lenguaje de programación
Python, para tomar estos
datos y hacer pruebas,
determinando porcentajes de
precisión positivos en la
clasificación de
características de tweets con
información relacionada al
Ciberacoso sexual, superiores
al 99.99% con técnicas de
Machine Learning y del
99.99% y con técnicas de
aprendizaje profundo (Deep
Learning).
17. 16
Conclusiones
FODA
Fortalezas
La búsqueda literaria en libros o investigaciones relacionadas
en áreas de la sicología, psiquiatría, sociología, entre otras, se
determinaron temas relacionados sobre el Ciberacoso sexual,
y a partir de estos determinar palabras claves para definir el
vocabulario.
Oportunidades
Lograr la clasificación de características de tweets con
tendencias al ciberacoso sexual permitiría apoyar los procesos
y estrategias propuestas por diferentes entidades y gobiernos
que buscan mitigar o prevenir el Ciberacoso sexual en la red
social Twitter nivel mundial.
A partir de las pruebas de clasificación se identificó la
necesidad de adecuar el modelo Deep Learning de GPU a CPU,
dado que este igualaba los porcentajes de predicción respecto
a los de Machine Learning, pero el tiempo de ejecución era
precario.
Debilidades No contar con un vocabulario sobre el Ciberacoso sexual,
teniendo en cuenta que este es un insumo principal para
buscar información en la red social Twitter y lograr crear el
dataset.
Amenazas
Encontrar una arquitectura hardware adecuada que soportara
la configuración de un entorno diseñado para un modelo que
permitiera la clasificación del vocabulario del ciberacoso
sexual usando recursos hardware a partir de la GPU en el uso
de algoritmos Deep Learning.
18. 17
Recomendaciones
Importancia:
• Se trazó un camino metodológico y se generó un producto de software que permitiría apoyar los procesos
de detección de patrones de ciberacoso sexual en Twitter.
Trascendencia:
• Impactaría positivamente a gran parte de la sociedad que interactúe con otras personas en Twitter, pues se
podría determinar cuándo en un intercambio de mensajes, se empieza a configurar un ciberacoso sexual.
Trabajos futuros:
• Nuevas investigaciones hacia otras problemáticas sociales como identificación de violencia intrafamiliar y
acoso a la comunidad LGBTI en Twitter.
• Realizar pruebas usando GPUs y hardware especializado, teniendo en cuenta 1 millón de registros como
muestra.
• Incluir en estas investigaciones el análisis de sentimientos.
19. 18
Referencias
• Chowdhury., A, Sawhney., R, Shah., R, & Mahata., D. (2019). #YouToo? Detection of Personal Recollections of
Sexual Harassment on Social Media. In Proceedings of the 57th Annual Meeting of the Association for Computational
Linguistics, pages 2527–2537, Florence, Italy. Association for Computational Linguistics.
• Ciberderecho. (2016). ¿Qué es el Ciberacoso Sexual? Obtenido de http://www.ciberderecho.com/que-es-el-
ciberacoso-sexual/
• OMS. (2013). Violencia Sexual. Obtenido de
https://apps.who.int/iris/bitstream/handle/10665/98821/WHO_RHR_12.37_spa.pdf;jsessionid=14376641DA9B9
DE22A833286FE32D1DB?sequence=1
• OMS. (2012). Protección y seguridad en internet: retos y avances en los Estados miembros: basado en los resultados
de la segunda encuesta mundial sobre ciber salud. Obtenido de
https://apps.who.int/iris/bitstream/handle/10665/77348/9789243564395_spa.pdf?sequence=1&isAllowed=y
• Saeidi M., da S. Sousa S.B., Milios E., Zeh N., Berton L. (2020). Categorizing Online Harassment on Twitter. In:
Cellier P., Driessens K. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2019.
Communications in Computer and Information Science, vol 1168. Springer, Cham. https://doi.org/10.1007/978-3-
030-43887-6_22