SlideShare una empresa de Scribd logo
1 de 10
Descargar para leer sin conexión
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 1
An´alisis del conflicto armado utilizando m´etodos
de miner´ıa de textos
Daniel Alfonso Garavito1 y Ana Estella Pulido G´omez2
Abstract—En Colombia el conflicto interno ha tenido una
permanencia extendida por m´as de 50 a˜nos, en este tiempo
las v´ıctimas del conflicto no han sido reparadas, la ”Unidad
para la Atenci´on y Reparaci´on de la V´ıctimas” ha desarrollado
unas bit´acoras diarias de eventos que recopila, caracteriza y
sitematiza la din´amica de la violencia que ocurre en el marco del
conflicto armado, para poder reparar de manera eficiente a las
v´ıctimas. En el presente trabajo se utilizan m´etodos de Miner´ıa
de Textos para hacer el an´alisis de dichas bit´acoras incluyendo
preprocesamiento, asociaci´on y agrupamiento, generando una
nube de palabras que permite tener las m´as frecuentes para
cada uno de los grupos.
I. OBJETIVO
Implementar m´etodos de miner´ıa de textos para preproce-
sar, agrupar, asociar y clasificar datos provenientes de noticias
relacionadas con el conflicto armado en Colombia, que per-
mita relacionar hechos, lugares y actores del conflicto en el
periodo de 2001-2017.
II. INTRODUCTION
LA historia reciente de Colombia es la historia de un
pueblo en b´usqueda de La Paz. Dentro de los elementos
sustanciales para lograrla se encuentra la verdad, la justi-
cia, la reparaci´on y la no repetici´on; elementos que est´an
´ıntimamente ligados a los acuerdos de La Habana. Dado que
el principal objetivo de la Justicia Transicional es esclarecer
los cr´ımenes que se cometieron durante el conflicto, para ello
es necesario la construcci´on de memoria hist´orica que permita
castigar a los culpables para finalmente reparar a las v´ıctimas
ya sea material o simb´olicamente.
Las noticias corresponden a un tipo de informaci´on p´ublica
que presenta caracter´ısticas muy particulares, diferentes de
otros tipos de textos [1]. Proveen grandes y recurrentes
cantidades de recursos de informaci´on [2], tanto de eventos
actuales como hist´oricos [3] y cuyo prop´osito es provocar
un impacto en el lector [4]. Las noticias reflejan el punto
de vista de una sociedad, grupo o individuo sobre alguna
tem´atica de inter´es de forma casi instant´anea una vez que los
eventos noticiosos ocurren, escritos en general en un formato
y lenguaje de reporte period´ıstico [4] [5].
1D. Garavito, Faculty of Systems Engineering, National University, Bo-
gota, Colombia
2A. Pulido Faculty of Systems Engineering, National University, Bogota,
Colombia
Con el fin de contribuir a la elaboraci´on de memoria
hist´orica, la ”Unidad para la Atenci´on y Reparaci´on de las
V´ıctimas” ha elaborado la bit´acora diaria de eventos. La
bit´acora tiene por objetivo crear un documento diario en el que
se recopilan, categorizan y sistematizan eventos relacionados
con la din´amica de violencia que ocurre en el marco del
conflicto armado. Con el fin de mejorar la oportunidad en
la atenci´on de emergencias humanitarias.
Est´as bit´acoras generan insumos para la elaboraci´on de
an´alisis de riesgos a nivel municipal, departamental y na-
cional. Se pretende analizar dicha informaci´on con t´ecnicas
de miner´ıa de textos.
Para el an´alisis de grandes cantidades de informaci´on con-
tenidas en textos, se busca extraer aquella que sea ´util, a trav´es
de la identificaci´on y exploraci´on de patrones interesantes que
no son evidentes. La miner´ıa de textos puede ser definida
como la aplicaci´on de algoritmos y m´etodos de los campos
del aprendizaje de m´aquina y estad´ıstica sobre los textos con
el objetivo de encontrar patrones ´utiles [6].
Las presentaciones de datos para la miner´ıa de datos cl´asica
y la miner´ıa de textos son bastante diferentes. Mientras que
por los m´etodos de miner´ıa de datos se ven los datos en
formato de hoja de c´alculo, para la miner´ıa de textos el
formato inicial sigue siendo el de un documento. A pesar de
que los m´etodos de an´alisis para textos no tienen en cuenta
conceptos gramaticales o sem´anticos, se aproximan bastante
bien utilizando las frecuencias de los t´erminos.
Uno de los temas principales en miner´ıa de texto es la
transformaci´on del texto en datos num´ericos, por lo que
aunque la presentaci´on inicial es diferente, en una etapa
intermedia, los datos se mueven a una codificaci´on cl´asica
de miner´ıa de datos, representados en una matriz, haciendo
que los documentos se conviertan en datos estructurados.
La representaci´on de un documento de texto se basa en
las palabras, por el modelo de ”Vector Space Model” (VSM)
[7], que corresponde al conjunto de vectores que representan
todos los documentos, que es utilizada en el procesamiento del
lenguaje natural llamada de igual manera “bolsa de palabras”.
Con esta representaci´on un documento es considerado como
una colecci´on de palabras que ocurren al menos una vez, pero
no tiene en cuenta el orden de las palabras, la combinaci´on en
la que ellas ocurren, la estructura gramatical, la puntuaci´on y
el significado de las palabras.
Cada elemento del vector representa un t´ermino, ya sea
una palabra o un conjunto de palabras de la colecci´on de
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 2
documentos, el tama˜no del vector est´a definido por el n´umero
de palabras de la colecci´on completa de documentos. Se
puede representar la importancia ponderando un t´ermino
dentro del documento con frecuencias, contando el n´umero
de ocurrencias para cada t´ermino en el documento bas´andose
en la ley de Zipf, [8] que es usada en el campo del
procesamiento del lenguaje natural para desarrollar corpus
ling¨u´ısticos, ontolog´ıas, taxonom´ıas entre otras, debido a que
ayuda a identificar el contenido tem´atico de un documento o
un conjunto de documentos.
Se puede evaluar presencia-ausencia de t´erminos como se
observa en la Tabla I.
Table I
MATRIZ QUE REPRESENTA LA FRECUENCIA DE LAS PALABRAS EN
DIFERENTES DOCUMENTOS A PARTIR DE UNA EVALUACI ´ON BINARIA
• Documento 1: Ice creams in summer are awesome
• Documento 2: I love ice cream in summer
• Documento 3: Ice creams are awesome all seasons
icecream summer love awesome season
Doc 1 1 1 0 1 0
Doc 2 1 1 1 0 0
Doc 3 1 0 0 1 1
Se puede utilizar TF-IDF (Term frequency inverse docu-
ment frequency) [9], que combina la frecuencia de un t´ermino
con un factor de escala que da la medida inversa de la
frecuencia de la palabra en el documento completo 1. Lo
que permite no solo contar la frecuencia de la palabra en
el documento, sino modificar el conteo teniendo en cuenta la
importancia percibida de esta palabra.
tf × idf(t, d) = tf(d) × ln(N/df(t)) (1)
Donde tf(d) es el n´umero de veces que el t´ermino t aparece
en el documento d; df(t) es el n´umero de documentos en la
colecci´on de t´erminos donde aparece t. Hasta este momento se
ha terminado la fase de preprocesamiento, el paso siguiente
a partir de la matriz de t´erminos, llamado tambi´en corpus,
qu´e tipo de asociaciones y agrupaciones se presentan en los
documentos. Generando para cada caso una nube de t´erminos
que permite tener un panorama general de las asociaciones y
grupos formados.
III. MATERIALES Y M ´ETODOS
Los datos fueron extra´ıdos mediante un algoritmo elaborado
por D. Garavito para construir a partir de los documentos una
base de datos con las etiquetas y categor´ıas posibles a partir
de cada Bit´acora diaria de eventos.
Descripci´on de los datos Los datos cuenta con 44.206
entradas de noticias desde el 18 de Septiembre de 2001 hasta
el 18 de Septiembre de 2017. No obstante, estos n´umeros
pueden variar ante la posible adquisici´on de nuevos datos con
el fin de completar la serie hasta la actualidad.
La base de datos cuenta con un total de 8 variables dentro
de las cuales se encuentra.
1) La bit´acora diaria de eventos de la que procede.
2) La agregaci´on de hechos victimizantes
3) El hecho victimizante
4) La fecha
5) La fuente
6) El departamento
7) El municipio
8) El cuerpo de la noticia
Todas las variables relacionadas son categ´oricas excepto la
variable de la fecha, en la Figura 1, se encuentra un ejemplo
de los registros de la base de datos.
Algunas bit´acoras diarias de conflicto armado se encuentran
disponibles en https://rni.unidadvictimas.gov.co/bitacora. In-
dependientemente de lo que se quiera hacer con los datos que
se obtienen de miner´ıa de textos, se debe pasar por una fase
de colecci´on de documentos, preprocesamiento para obtener
una matriz de t´erminos con la que se realizar´an los an´alisis
respectivos. A continuaci´on se presenta un ejemplo de la
matriz inicial con cada una de las variables y en la ´ultima
columna la noticia completa.
Figure 1. Ejemplo de registro de la base de datos
Actualmente la base no se encuentra codificada a nivel
de hechos victimizantes y fuentes, ni departamentos, ni por
municipios. Este trabajo es valioso en particular por departa-
mento y municipio para realizar una georeferenciaci´on r´apida
de los resultados, partiendo de las noticias provenientes de las
bit´acoras.
IV. PREPROCESAMIENTO
Esta es la primera fase del proceso para extraer informaci´on
de documentos, transformando las palabras en vectores, que
ser´an procesados por m´etodos predictivos. Para esto es nece-
sario utilizar una serie de herramientas que nos permitan
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 3
limpiar los documentos y obtener una matriz desde la cual
se puedan evaluar y buscar patrones.
Se presenta un esquema general del preprocesamiento de
textos en la Figura 2, que empieza con la adecuada selecci´on
de los formatos de entrada, que para el caso de estudio se
utilizar´an pdf y HTML. Acto seguido, se realiza la fase de
tokenizaci´on o identificaci´on de las palabras, que requiere
definir los delimitadores de los “tokens”, que pueden ser
signos de puntuaci´on o caracteres no alfab´eticos ( () ¡¿! ? ”).
Estos delimitadores se separan de las palabras y se reemplazan
por espacios en blanco, por medio de expresiones regulares.
Dentro de las modificaciones que se le puede hacer al texto,
est´a la de remover ”stopwords” debido a que son palabras que
no son informativas al momento de caracterizar el documento,
como lo ser´ıan los pronombres, los art´ıculos, conjunciones,
preposiciones, caracteres propios de los documentos que no
afecten el cuerpo de la noticia si se remueven. Una de las
maneras de reducir dimensionalidad cuando se utilizan textos,
es quitar palabras que tengan poca frecuencia debido a que
no tienen una significancia estad´ıstica, lo que genera una
reducci´on en el tama˜no del diccionario. Para cada caso, la
lista de ”stopwords” es diferente y es susceptible al idioma
en el que se est´e trabajando debido a que cada uno maneja
unas reglas gramaticales espec´ıficas.
Figure 2. Proceso general del preprocesamiento para el an´alisis en miner´ıa
de textos.
En la fase de lematizaci´on y stemming gira en torno a
un objetivo similar que es la reducci´on de formas flexivas
y palabras derivadas de una forma com´un. Al normalizar gra-
maticalmente se reducen variantes como singulares/plurales,
femenino/masculino, tiempos verbales, presente/pasado/futuro
(Dependiendo el idioma).
Stemming es el proceso de cortar los extremos de las
palabras, llegar a una forma de ra´ız sin sufijos y prefijos de
derivaci´on o flexi´on. Mientras que la lematizaci´on utiliza el
vocabulario y el an´alisis morfol´ogico de las palabras y elimina
s´olo las terminaciones inflexionales para devolver la forma
base de la palabra como salida.
Por ´ultimo, se puede evaluar la riqueza en el l´exico del
texto por medio de la diversidad l´exica, que corresponde a
una medida de la amplitud y variedad del vocabulario.
A manera de resumen se presentan en la Tabla II, las
librer´ıas de R que permiten realizar cada uno de los procesos
relacionados con el preprocesamiento en miner´ıa de textos.
Table II
LIBRER´IAS DE R PARA EL PREPROCESAMIENTO DE TEXTOS.
PREPROCESAMIENTO
FASE LIBRER´IA DE R
Tokenizaci´on tm
Segmentaci´on openNLR
Stemming RWera
Lemmatizaci´on spacyR/wordnet
Diversidad L´exica koRpus
El preprocesamiento se realiz´o empleando los pasos men-
cionados anteriormente, el primer paso fue la estandarizaci´on
del texto eliminando may´usculas, signos de puntuaci´on y
acentos, adem´as de cualquier car´acter que no fuese una
palabra (@, #, entre otros). Posteriormente se eliminaron
palabras vac´ıas empleando el conjunto de palabras definidas
por el paquete tm y un otro conjunto de palabras construido
por los autores teniendo en cuenta las frecuencias de las
palabras, en total se eliminaron alrededor de 1000 palabras.
Para la lematizaci´on se emple´o spaCy, con lo cual se redujo
el n´umero de palabras de 44182 a 32738 (11444), con lo cual
nuestra matriz TD tendr´ıa 44206 filas (documentos) por 32738
t´erminos o tokens (columnas)
Adicionalmente spaCy permite realizar el reconocimiento
de entidades, aunque el algoritmo clasific´o como entidades
palabras que no lo son. No obstante permiti´o construir un
conjunto de entidades lo que facilit´o la creaci´on de la variable
actor a partir de una expresi´on regular con todas las acep-
ciones de un t´ermino en los documentos. La variable tiene
tres niveles, actor Estatal, Guerrilla y Paramilitar. A su vez
el campo departamento fue depurado empleando el paquete
stringdist y la distancia de Levenshtein, como corrector or-
togr´afico.
On-line Analytical Processing (OLAP)
Las t´ecnicas de procesamiento anal´ıtico en l´ınea (OLAP)
han sido utilizadas para analizar y extraer datos estructurados,
pero no se han generado m´etodos que permitan hacer el
an´alisis sobre datos no estructurados como lo son los doc-
umentos de texto. Para el an´alisis de este tipo de documentos
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 4
y la miner´ıa en datos de texto se han utilizado modelos de
probabilidad.
El procesamiento anal´ıtico en l´ınea permite hacer an´alisis
multidimensionales. OLAP consta de tres operaciones
anal´ıticas b´asicas a saber, la consolidaci´on o roll-up, el
drill down, slicing y cubing. La consolidaci´on implica la
agregaci´on de datos que se pueden agrupar y calcular en una
o m´as dimensiones.
El cubo de tema ampl´ıa el cubo de datos tradicional para
hacer frente a una jerarqu´ıa de temas y almacena medidas de
contenido probabil´ıstico de documentos de texto aprendidos a
trav´es de un modelo de tema probabil´ıstico. Para materializar
los cubos de temas de manera eficiente, se han propuesto dos
agregaciones heur´ısticas para acelerar el algoritmo iterativo
de expectativa-maximizaci´on (EM) para estimar modelos de
tema.
Sin embargo, para los datos con los que se trabaj´o se
realizar´an los cubos con informaci´on de las categor´ıas que
incluyen el a˜no, la fecha, los departamentos, el hecho, entre
otros.
V. ASOCIACI ´ON
En la fase de asociaci´on, se tiene una matriz de documentos
que ha sido previamente filtrada, donde se le han quitado todos
los caracteres y las palabras no informativas como se vio en
detalle en el preprocesamiento.
Se utiliza TF-IDF para calcular la importancia de las
palabras en el corpus de documentos. Despu´es de este paso,
se obtiene una una matriz donde cada fila es un documento
y cada columna es una palabra, los elementos de la matriz
representan la importancia de las palabras correspondientes
en cada uno de los documentos.
Al utilizar la matriz de t´erminos-documentos a partir del
corpus y realizar la transformaci´on TF-IDF se puede realizar
la normalizaci´on de los documentos para no sobreestimar
los documentos que tengan m´as palabras respecto a los que
tengan una cantidad menor. En la figura 3 se muestra el
esquema general de los procesos realizados para cada una de
las matrices (t´erminos-documentos y documentos-t´erminos)
sobre asociaci´on y agrupamiento, incluyendo los algoritmos
utilizados.
Figure 3. Esquema general sobre el an´alisis de Asociaci´on y Agrupamiento
Para la fase de asociaci´on solo se realiz´o sobre la matriz de
t´erminos-documentos debido a que estos son m´as informativos
respecto a la matriz de documentos-t´erminos porque asocia di-
rectamente las palabras m´as frecuentes sobre los documentos.
A. Word2Vec
Es un grupo de modelos que sirven para asociar palabras.
Basados en redes neuronales superficiales de dos capas que
reconstruyen contextos ling¨u´ısticos de palabras. [10]
Para este proceso el documento de entrada es el corpus sin
la transformaci´on TF-IDF, que genera un espacio vectorial
de varias dimensiones, asignando a cada palabra ´unica en el
corpus un vector correspondiente en el espacio.
Al ubicar las palabras como vectores, en el espacio vectorial
las palabras que compartan contextos comunes en el corpus
se ubicar´an muy cerca [10] como se observa en la figura 4
donde las palabras que comparten un mismo contexto en el
texto ocupan lugares cercanos en esta representaci´on de dos
dimensiones.
Una de las asociaciones interesantes que se evidencia en
la figura 4 es la de ”guerrillero, subversivo, FARC, ELN
y guerrilla”. Se encuentran tambi´en asociados los d´ıas de
la semana, los meses y algunos nombres propios que son
frecuentes en las noticias.
−20 −10 0 10
−20−1001020
A two dimensional reduction of the vector space model using t−SNE
m[,1]
m[,2]
"
fuente
municipio
ano
asesinar
farc
irv
capturar
ejercito
desconocido
policia
do
edad
frente
santo
mediar
zona
barrio
armar
aliasmiembro
tropa
vallar
alto
vereda
guerrillero
hacer
antioquia
nacional
hombre
santander
rural
personar
autoridad
encontrar
"militar
hallar
cauca
combatir
grupo
batallon
explosivo
edad"
brigada
presunto
norte
tres
victimar
sector
segun
resultar
bajar
unidad
integrante
bolivar
corregimiento
minar
registrar
herir
jose
ciudad
presentar
dih
identificar
dar
kilo
eln
soldado
militar
cali
narino forzar
partir
subversivo
callar
diario
banda
ubicar
cordoba
conocer
realizar
informacion
jurisdiccion
secuestrar
incautar
mas
fiscalia
amenazar
puerto
departamento
cuatro
"ciones
publicar
via
artefacto
carrera
mismo
criminal
luis
pasar
poder
"martes
morir
fuego
lograr
menor
granar
decir
parecer
ilegal
delito
accionar
carlos
huila
dejar
homicidio
infanteria
cuerpo
habia
arauca
sucre
cesar
tambien
atencion
agente
casar
general
lugar
material
movil
coca
entregar
rcn
ser
atacar
destruir
medellin
atlantico
cincar
juan
llegar
investigacion
meter
desarrollar
motocicleta
movilizar
caqueta
hecho
mujer
agostar
operativo
"lunes
adscribir
derecho
uniformar
calibrar
nuevo
perteneciente
abril
autodefensa
atentar
operación
vario
página"
comandante
operacion
luego basar
murio
cucuta
"miercoles
antonio
cartucho
sitiar
magdalena
metro
galón
muerte
hora
poblacion
pais
"domingo
area adelantar
c
sur
junio
llevar
julio
accion
barranquilla
radiar
vida
jefe
comunidad
enero
"viernes
risaralda
"jueves
radiar"
tolima
septiembre
calda
tras
marzo
caracol"
acordar
cartagena
febrero
dispararhacia
bogota
control
caracol
urbano
caleta
momento
"sabado
buenaventura
antipersonal
efectivo
cargar
centrar
blocar
instalar
emergencia
capital
universal"
seis
conducir
organizacion
humano
columna
violación
cocaina
gaula
farc"
manera
denunciar
informar
deber
procesar
vehicular
coronel
ir
tipo
vivienda
cercar
marino
prevencion
asi
n
transportar
andres
ademar
familia
comerciante
riesgo
pais"
nacional"
seguridad
delinquir portar
putumayo
servicio
mayar
jesus
marcar
funcionario
diciembre
guerrilla
cadaver
finca
causar
millón
maria
tenia
segundar
especial
campar
cti
estupefaciente
estructurar
humanitario
chocar
manuel
lopez
mesar
rodriguez
enfrentamiento
division
region
joven
proveedor
alberto
traves
si
ultimar
participar
Figure 4. Gr´afica utilizando Word2Vec
En la figura 5 se observa la relaci´on que existen entre los
actores del conflicto en la matriz de t´erminos-documentos
donde se observa que los actores con mayor repetici´on en
el corpus son el ej´ercito y los paramilitares para la lista de
t´erminos m´as frecuentes.
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 5
aconsejar
adscribir
afrocolombiana
alto
aplicaria
arnufo
autodenominaron
batallon
becoche
brigada
caco
cardiaco
carnivoros
carrusel
chistian
christian
columna
combatir
contrato
crearia
crhistian
cuadrilla
desarrollar
destruir
dique
division
doris
ejercitar
eln
eris
excomandante
exjefe
explosivo
farc
frente
gobernación
guerrilla
guerrillero
idear
insercion
inyección
justicia
lain
legislatura
mancuso
masacrar
mellizo
militar
movil
municipio
nacional
negociarlos
operación
pedregoza
pempe
perteneciente
posdesmovilizados
prometiendoles
quedandose
reaparicion
recogian
registrar
replego
rubinder
salvatore
sistematicamente
soldar
subversivo
tarea
tribunal
tropa
tulapas
vereda
bacrim ejercito eln farc paramilitar
actores
palabra
0.0
0.1
0.2
0.3
0.4
correlation
Figure 5. Asociaci´on por actores
Por otra parte, en la figura 6 para la matriz de t´erminos-
documentos analizando los t´erminos frecuentes con los hechos
victimizantes se encuentra una asociaci´on mayor entre los
secuestros, los asesinatos y extorsiones con rescates y cobros
principalmente, como era de esperarse.
alias
ano
banda
barrio
cabecilla
callar
canchita
captores
capturar
caracho
carrera
clan
cobrar
comerciante
concertar
criminal
delinquir
desconocido
edad
encargar
enteraria
extorsion
extorsivo
fatidicos
finqueros
ganadero
gaula
irwin
jossuet
liberacion
liberación
liberar
loango
merito
meterlos
norcacia
ocurriria
paramilitar
perpetrar
pesadilla
plagiar
podiamos
rescatar
secuestrador
simple
vallar
asesinar desaparecer extorsionar masacrar secuestrar
actores
palabra
0.0
0.2
0.4
0.6
correlation
Figure 6. Asociaci´on con Hechos victimizantes
Lo interesante de asociar los t´erminos con los hechos
victimizantes es porque permite darle un sentido sem´antico
a las asociaciones generando las palabras m´as frecuentes con
las que estos est´an relacionados y de esta manera predecir las
posibles frases de los documentos presentes en el corpus.
VI. AGRUPAMIENTO
Consiste en agrupar los documentos similares de acuerdo
a caracter´ısticas relevantes detalladas en un vector a los que
se les asigna un peso, que generalmente corresponde al valor
que se obtiene una vez se ha fijado la medida de similitud con
la que se har´a el agrupamiento. Para cada una de las medidas
de similitud se obtendr´an distancias diferentes que alterar´an
las agrupaciones.
Teniendo en cuenta el esquema general presente en la figura
3, se realiz´o la correspondiente transformaci´on TF-IDF a
las matrices tanto la de t´erminos-documentos como a las de
documentos-t´erminos, se procede a realizar la normalizaci´on
y el agrupamiento jer´arquico mediante una filogenia para la
matriz de t´erminos-documentos y dos agrupamientos para la
matriz de documentos-t´erminos, K-means y un agrupamiento
mixto que incluye un an´alisis factorial para reducir dimen-
sionalidad seguido de un K-means, uno jer´arquico y de nuevo
un K-means porque de esta manera se hacen las correcciones
pertinentes a los m´etodos si se trabajaran individualmente.
A. Jer´arquico
Los cl´usteres jer´arquicos dan como resultado una serie
anidada de particiones, la forma de operar es de manera
general, partir el n´umero de grupos en el n´umero de individuos
que haya en la muestra, se selecciona una medida de similitud
y se van asociando los grupos que tengan mayor similitud.
Este proceso contin´ua hasta que se forma un solo grupo,
se alcanza el n´umero de grupos prefijados o se tiene una
significancia estad´ıstica para seguir agrupando los grupos
debido a que no son lo suficientemente homog´eneas para
aceptar una agrupaci´on. La ra´ız es el conjunto de todos los
documentos, las hojas son los documentos individuales, y los
niveles intermedios son conjuntos de documentos agrupados
por similaridad de caracter´ısticas relevantes.
ad
ulto
ant
ioquia
bell
o
cap
turar
edad
fiscaliageneral
hab
er
investigacion
judicial
me
dellin
menor
milicia
mun
icipio
nacion
pare
cer
participar
po
pu
lar
pro
ce
so
sos
pec
hos
o
terr
oris
ta
ejercita
r
farc
p
mie
mb
ro
santan
der
subvers
ivo
barbosa
bl
oq
ue
ar
brigada
con
trol
el
np
guerrille
ro
sitia
r
su
pu
es
to
tro
nc
al
tropa
arau
ca
combatir
des
arro
llar
farc
morir
ope
rac
ion
rural
soldar
tam
e
tres
xv
iii
zona
anoasesinaratlanticobarranquilla
ciudad
desconocido
pab
on
ós
ca
r
corregim
iento
ja
iro
lom
a
pie
de
cu
es
ta
se
villa
bo
livar
cadaver
ca
rta
ge
na
hallar
hombreident
ificar
an
to
ni
o
barrio
cabrero
cucuta
esco
bar
jo
se
lu
is
m
an
ue
l
norte
al
be
rto
ca
lda
chinchina
osp
ina
rod
rigu
ez
m
ar
tin
ez
varg
a
bui
trago
sam
ana
apro
xima
dam
ente
desconocer
ide
ntida
d
mujer
vallar
yum
bo
cali
ca
rlo
s
castrar
ortiz
taxis
ta
autodefensasp
autor
idad
barrancabe
rmeja
comite
co
ord
ina
do
r
frus
trar
intentar
m
ar
ia
organizacion
patricio
pe
rp
etrar
pertenecer
plag
iar
polici
a
pr
es
un
tamen
te
ra
m
ire
z
resi
den
ciar
sacar
segun
tra
s
agua
blanca
caic
edo
distrito
ubi
car
he
rre
ro
jh
on
wils
on
accion
cam
ilo
com
una
l
da
za
fa
bi
o
jun
to
pre
sid
en
te
ra
m
on
fre
dd
y
ga
rc
ia
jo
hn
man
iza
les
plaza
jaram
illo
m
au
ric
io
co
rdob
a
meji
a
mont
elibano
wi
llia
m
aguirre
colorar
ju
an
pereirarisaralda
finc
a
re
tirar
vere
da
bajar
colombia
comu
nic
ar
conocercuerpo
pu
er
to
sen
ale
s
tor
turar
trocha
acosta
arley
are
na
r
bajo
batallo
n
cauca
co
lum
na
dar
hila
rio
inf
an
ter
iajac
ob
o
lo
pe
z
mo
vil
presenta
r
edadp
guevara
mendoza
moto
taxista
raul
sinc
el
ej
o
su
cr
e
brazo
cort
e
sandov
al
sant
o
victim
ar
casi
cien
to
cin
car
colo
mbiano
considera
r
des
plazam
iento
despu
es
expli
car
gr
an
de
mas
mi
lló
n
mun
do
solo
terminos
ultim
os
agente
frente
juris
diccion
libertad
or
sie
te
sujeto
alia
s
billa
r
ca
qu
et
a
flo
re
nc
ia
pre
sun
to
quotel
are
a
arroyar
fusil
er
o
ma
rin
o
penar
ra
fa
el
wi
lm
er
autod
efe
nsa
co
m
an
da
r
cuatr
o
cundina
mar
ca
gru
po
inte
gra
nte
resultar
tib
u
ca
rib
e
co
njun
ta
r
fund
acio
n
magdalena
muerto
algeciras
ataca
r
ayudar
ca
us
ar
est
aci
on
huila
incurs
ion
m
at
er
ia
l
varios
insurgente
pu
tu
m
ay
o
cerca
r
ce
sa
r
co
da
zz
i
divisio
n
och
o
orien
tar
andres
ce
rca
nia
s
eln
sala
zar
da
be
ib
a
militar
sei
s
xv
ii
arau
quita
car
gar
dinam
itar
ener
gia
espera
nzar
ins
pe
cc
ion
ins
tal
ar
mom
ento
torra
r
alon
so
bug
a
cuchillo
fra
nc
isco
go
be
rna
do
r
he
rm
os
o
ho
m
ici
dio
indigena
pa
ez
resguardar
ca
mp
es
ino
hostig
ar
puen
te
er
p
an
fo
ar
tefac
to
con
trolar
des
trui
r
ex
plo
siv
o
kilo
loc
aliz
ar
ma
ner
a
me
tra
lla
ab
an
do
na
r
en
erge
tic
o
especial
form
ar
fortu
l
im
po
rta
nt
e
plan
unida
d
via
via
l
cab
alle
ria
cilindr
ar
contreras
de
sa
cti
va
r
ga
br
ie
l
gr
an
ar
libr
ar
mecan
izar
mo
rte
ro
piza
rro
sara
vena
ate
nta
r
co
mp
on
er
nac
ion
al
po
sibl
e
ant
iexplo
sivobom
bocar
ro
exp
erto
tar
ra
vehic
ula
r
ca
bleel
ec
tri
co
s
es
to
pí
n
gram
o
ileg
al
metro
mi
l
pentolita
mi
na
r
an
tip
erso
na
l
boy
aca
incursionar
ca
m
po
ce
rro
desc
ubrir
sector
ca
mp
am
en
to
ca
pa
cid
ad
de
sm
an
tel
ar
ga
ita
n
instalación
me
ter
pe
rso
na
sp
rio
ar
tesa
na
l
ca
lib
ra
r
ca
lib
re
ca
rtu
ch
o
di
fe
re
nt
e
disparar
es
co
pe
ta
fa
br
ica
cio
n
inca
utar
largar
llamar
marcar
re
vo
lve
r
fu
sila
r
pr
ov
ee
do
r
ga
lónga
solina
tie
rra
lta
ar
io
aur
elio
beltran
com
ún
delincu
ente
dieg
o
encontrar
gaula
go
m
ez
rescatarsecuestrar
carre
ter
o
fuego
luego
pa
na
me
rican
o
sab
anatorr
e
adem
ar
cos
ta
dese
mpenaba
indigenas
represen
tante
ric
o
casar
ganadero
iva
n
jo
rg
e
ma
tar
m
ig
ue
l
nue
vo
urb
an
o
ar
bo
leda
bus
cond
ucir
inc
en
dia
r
pasar
pub
lica
r
servicio
herir
men
os
unirma
ca
ren
a
pro
pie
dad
cae
r
ca
mp
ar
mo
viliza
r
pa
tio
sem
bra
r
ca
yo
en
via
r
ingenieropar
do
patrullar
ca
rm
en
alex
an
de
r
castillo
dan
iel
du
ra
r
luna
mosquera
m
un
oz
pino
popayan
ca
rd
on
a
de
sc
om
po
sic
ion
habia
montoya
or
illa
r
riofrio
sep
tiem
bre
gera
rdo
lider
rosa
armar
cad
ave
res
com
un
co
nt
en
ia
fos
arhab
rian
ov
eja
vic
en
te
bucaramanga
unive
rsid
ad
con
ocid
o
emboscar
localidad
estebanrivera
bue
naventu
ra
walter
m
an
ir
man
o
pie
tenia
ve
ga
res
to
ho
yo
ramo
bo
ca
cuyo
estab
lec
er
jamundi
pa
lo
vida
personar
villa ads
crib
ir
de
te
ct
ive
gu
aj
iro
he
rn
an
de
z
rio
ha
ch
a
tulua
co
nc
eja
l
or
te
ga
seg
und
ar
banda
jaime
sicario
victoria
tov
ar
hijo
julio
pachec
o
soledad
ed
ua
rd
o
mag
an
gu
e
mecer
ál
va
re
z
ca
mi
on
eta
dias
hab
ian
malam
bo
rete
ner
rojo
tenian
tra
nspo
rta
r
gon
zalez
turbaco
ca
rta
goco
rre
ar
he
ct
or
ado
lfo
caminaren
riq
ue
hacia
au
gu
sto
cano
fe
rn
an
do
franco
hermano
liber
tar
ve
las
qu
ez
acevedo
cabecera
coman
dante
henrio
iii
municipa
l
trata
r
igle
sia
padre
pe
re
z
senora
tambien
rey
lla
no
rionegro
angulo
au
c
de
lito
diaz
dis
tin
to
ordenar
pa
blar
pesa
r
robert
o
dep
artam
ent
o
inte
gr
ar
es
pe
cia
lizar
perim
etro
pertenec
ian
casanare
he
rm
an
ar
jefe
sur
bo
rda
r
cabeza
comunidad
eje
cu
tar
fu
sil
re
co
no
ce
r
tiro
alir
io
cecilia
politica
ch
ala
r
alto
ca
sc
ar
cilindr
o
jam
ba
lo
mo
nta
no
núm
ero
po
lvo
ra
pr
ep
arar
tor
ibio
dejar
tec
nic
os
cada
neutr
aliz
ar
ar
till
er
ia
bogota
en
co
nt
ro
ho
tel
junt
ar
tecnico
central
efrain tipo
he
ch
izo
palm
ar
vis
tah
erm
os
a
cas
tano
disparo
em
plea
r
enfrentam
iento
es
table
cim
ien
to
interior
lidera
r
marta
merca
r
m
ilim
et
ro
s
pi
st
ol
a
blo
ca
r
tolim
a
ne
gro
per
ten
ecient
e
viviend
a
cagu
an
esposa
r
flor
mesa
r
mill
er
xii
dom
ingo
pob
lac
ion
des
apa
rec
ido
gue
rrill
a
m
en
de
z
pe
tard
o
poder
pon
er
re
gu
lar
jacin
to
au
tom
oto
r
co
nd
uc
tor
hace
r
je
su
s
oc
up
an
te
orlar
pasaj
ero
pr
en
de
r
civ
il
la
nz
ar
pol
icia
s
vecino
comunitario
madre
sin
dic
ato
centrar
co
mer
cia
l
da
no
s
det
ona
r
neiva
repor
tar
em
pre
sa
volv
er
quem
ar
ele
ctr
ica
ped
ro
trujillo
vo
ltio
accidentar
kilom
etros
tra
nsitar
mu
riopis
ar
do
rar
álv
aro
comercian
te
estr
ellar
sobrin
o
ge
rm
an
kilo
me
tra
r
mar
alcalde
secretario
sergio
calima
erne
sto
gil
julian
bolsa
pla
sti
co
hernando
delgado
joaquin
m
ed
ina
paz
rin
con
rodolfo
abrir
bo
nilla
nar
ino
rosario
m
er
ce
d
jim
en
ezsa
nc
he
z
martin
m
or
al
izquie
rdo
hu
go
vict
or
fis
ca
l
ignacio
da
rio
mo
nte
ria
hecho
obrero
poblar
esposo
pla
ta
pic
ar
inter
cept
ar
ituango
omar
coleg
iar
rica
urte
ne
lso
n
patinar
co
nc
ejo
gu
tierre
z
pistolero
án
ge
l
bautis
ta
os
or
io
qu
in
te
ro
ma
rin
quind
io
traba
jar
fuen
te
leo
n
molina
ciudadela
hu
mbe
rto
co
ro
za
l
go
lp
e
vario
alc
ald
ia
bermudez
ber
nar
do
ener
o
montar
ob
tene
r
paraj
e
realiza
r
ret
ar
viajar
zuluaga
ar
tu
ro
cru
z
ru
iz
su
po
ne
r
com
ision
la
nz
ag
ra
na
da
s
llegar
media
r
com
pan
ia
em
ilio
tie
rra
cabecilla
gu
er
ra
diez
ma
xim
o
ope
rar
ag
ua
r
lan
ge
scosp
an
el
ie
ce
r
quedar
en
fre
nta
r
co
nt
ra
gu
er
rilla
entregar
volun
tar
iam
en
te
banco
ba
sar
de
sm
ov
iliz
ar
once
camion
xiii
ca
ja
cti
escond
er
m
ai
ca
o
ag
us
tin
ca
le
ta
ca
m
pa
na
co
rd
on
de
to
na
nt
e
eq
ui
po
pr
im
er
o
ure
a
ba
rre
r
co
m
un
ic
ac
ió
n
du
pl
ex
ibag
ue
in
du
ge
l
lent
o
m
ec
ha
r
ra
di
o
un
ifo
rm
e
ver
be
lico
ca
m
uf
la
r
fra
gm
en
ta
cion
m
ilím
et
ro
radiar
sig
uien
te
tra
mp
a
ch
oc
ar
cruz
ar
ade
lant
ar
an
tio
qu
en
o
con
jun
to
activar
av
alu
ar
cio
ne
sdih
ingr
esa
r
muer
te
ocasionar
principal
produ
cir
afirm
ar
amenazar
de
m
as
pr
en
sa
r
ard
ila
as
oc
iac
ion
cir
cu
ito
estan
funcionario
informar
vo
ce
ro
ex
plot
ar
familiar
funcionar
her
ido
sp
local
ola
ya
infante
narvaez
palm
ira
ciudad
ano
escapar
llev
ar
log
rar
selv
a
so
la
no
bal
boa
cu
ar
tar
sig
no
ve
la
sc
o
guerrero
elen
a
administrativo
atribu
ir
auxiliar
dobla
r
plan
et
a
amigo
palacio
tum
aco
moreno
ni
no
union
detener
da
gu
a
ordonez
castaneda
giraldo
elk
in
vale
ncia
glo
ria
vin
cu
lar
parra
alred
edor
ind
ust
rial
parqu
e
cri
sto
ba
l
coc
orn
a
exp
resa
r
inc
ine
rar
queb
rar
rod
ea
r
lle
ra
s
gus
tavo
liber
ar
asesina
to
co
nd
en
ar
cons
ejo
de
fen
so
r
derecho
dia
humano
octu
bre
pa
na
m
a
cua
drilla
efe
ctiv
o
cien
ag
a
fab
ric
ar
dos
que
bra
das
fabian
becerro
ep
l
qu
inc
hia
forzar
sost
ener
tarea
cacique
ca
rab
ine
ro
es
cu
ad
ron
per
son
al
fu
er
za
responsable
sedar
ca
ne
ca
mar
isca
l
ca
lot
o
construir
serio
cuidar
ni
ng
un
o
de
pa
rta
me
nta
l
marz
o
piedra
seccional
des
plazar
muerta
an
or
i
cu
ltiv
ar
ded
icar
afe
cta
r
ele
ctr
ico
za
mbr
an
o
co
nv
en
cion
mi
raf
lor
es
oleoductotramar
az
ul
ne
po
muc
en
o
benitez
cerca
no
lin
ea
r
oblig
ar
res
trep
o
com
une
ro
villa
m
izar
pa
tia
cor
ral
guzma
n
tejar
cab
o
saldar
provocar
m
ar
io
su
ar
ez
al
fo
ns
oda
vid
callar
romero
lond
on
o
limon
ja
vier
ur
ibe
ag
ua
ch
ica
el
ia
s
pro
fes
or
aeropuerto
infraestruc
tura
pl
ay
a
to
ne
lada
padilla
ric
ardo
soto
puerta
cerrito
derribar
ve
rg
ar
a
ge
re
nt
e
ma
sivo
oc
cid
en
te
sistema
vias
or
oz
co
florez
calificar
ca
rce
l
hurtar
po
rta
r
pr
isi
on
ga
lvis
pand
illa
crudo
proc
ede
r
blan
co
ed
wi
n
jair
ana
isab
el
rio
s
des
apa
rec
er
cristian
gregorio
se
pu
lved
a
veh
icu
los
arango
luz
barrera
as
eg
ur
am
ient
o
dictar
he
ro
es
m
ed
ir
ve
lez
partir
pr
es
um
ir
ramiro
ant
iperso
nales
ch
ino
gas
ope
ración
registra
r
ab
un
da
nt
e
m
ilic
ia
no
carde
na
s
ma
nda
r
ser
sindicar
hac
end
ar
pagar
ex
plos
ion
inte
rc
am
biar
mo
nta
no
sa
pr
ov
en
ien
te
se
ria
r
pu
nt
o
alejandro
ha
cia
n
profesional
mo
ro
cien
escuela
pe
rte
ne
cia
corin
to
m
un
icio
n
tal
ler
ca
no
n
va
ld
ivia
pa
raiso
arm
am
en
to
lan
za
mi
en
to
tub
o
in
te
nd
en
cia
ele
men
to
es
talla
r
acto
jui
cio
pre
dio
recoge
r
segu
ir
tra
ba
jad
or
arrieta
diana
págin
a
num
erar
ap
arec
er
cir
cu
lar
droga
r
firm
ar
pa
nfl
eto
vivir
ag
ru
pa
ci
on
coordinacion
m
on
ta
ni
ta
tam
bo
docente
alertar
bo
scoso
hab
itan
te
inm
edia
to
tu
rb
ar
caro
dive
rs
o
ren
do
n
castellano
alc
anzar
nina
tor
o
fre
dy
alf
red
o
oscar
polo
mo
vim
ien
to
za
pa
ta
policar
pa
leonardo
ve
rde
airebue
no
martha
clau
dia
intimidar
no
m
br
ar
oc
am
po
pro
pie
tari
o
vas
que
z
vis
ible
as
is
prad
o
cobrarextorsionar
m
in
er
o
yar
um
al
inme
diaci
ón
oc
ho
a
tole
do
ag
ud
elo
m
on
te
ferna
ndez
gallego
hernan
calderon
pita
lito
ro
qu
e
gu
am
ue
z
acercar
gua
rda
cos
tas
lancha
mad
er
ar
segu
ridad
be
ne
fic
iar
de
ten
cio
n
ag
ra
va
r
extorsivo
ilic
ito
s
m
ed
io
pr
oteg
ido
tentativo
terrorismo
co
nc
er
ta
r
de
lin
qu
ir
juni
o
ley
map
iripa
n
mar
ge
n
mien
tras
perm
anecer
cha
parr
al
apoyarred
detenido
ho
nd
o
santiago
reg
ion
fina
nci
ero
coordinar
log
istico
cocar
accionar
an
ibal
sen
ala
do
va
lle
du
pa
r
bagre
rif
le
qu
iro
z
for
ero
jovenlugar
patruller
o
teo
filo
ultimar
ba
lón
dis
trib
uir
kilog
ramo
con
trol
ada
me
nte
alb
erga
r
ga
na
r
finanzas
saen
z
decidio
ga
lil
lib
an
o
presionar
or
ito
m
oc
oa
barbac
oa
ac
us
ar
residente
ca
uc
as
ia
serrar
ca
tat
um
bo
combatiente
tulio
extorsion
ind
io
pa
ramilit
ar
ariza
rob
ins
on
termin
al
est
udian
te agos
tar
gracia
flo
rid
o
pr
ad
er
a
henao
ma
rulan
da
ap
ar
ta
r
sa
lar
gu
ille
rm
o
an
se
rm
a
bedoya
floresta
co
mbu
sti
ble
ve
nd
ed
or
ecu
ator
iano
nicolas
educa
tivo
ins
titu
cio
n
oc
an
a
oficia
l
denu
nciar
or
ga
niza
ció
n
social
dir
ige
nte
es
pe
cia
lm
en
te
hospital
salir
de
sm
oviliz
acion
proce
sar
rebelion
competentedisposicion
ru
be
n
pa
sta
r
encargar
mismo
rec
lutam
ien
to
vivere
s
dicie
mbr
e
deco
misar
ab
at
ir
co
nta
cta
r
esme
ral
da
de
to
na
do
r
so
lid
os
in
el
ec
tri
co
s
carga
mento
gu
av
iar
e
ope
rativo
qu
ibdo
embar
cac
ion
co
m
un
ic
ac
io
n
producto
unif
orm
ar
m
ut
at
a
salio
plan
ad
a
mo
toc
icleta
trasladar
m
az
ar
sa
rd
in
at
a
vie
jo
au
nq
ue
emb
arga
r
est
ruc
turar
co
rpora
cio
n
fig
ur
ar
jov
en
es
mediante
nin
os
inm
ueb
le
acabar
ch
aira
reunion
itag
ui
duque
ce
re
te
ca
nd
ela
ria
lunes
den
tro
agricultor
ro
da
r
tomar
vigilante
perdom
o
altura
jardin
respectivamente
com
erc
ializar
na
va
rro
vill
eg
as
arg
elia
republica
cuba
ke
nn
ed
y
pais
reg
res
ar
sema
na
ven
ta
fro
nt
er
o
comuna
anterior
aseg
urar
po
litic
o
buscar
captores
habria
ha
ca
ri
noviembre
fam
ilia
m
an
ej
ar
opinion
periodis
ta
ca
lam
ar
anun
ciar
comis
ionar
mes
ayer
co
m
er
ciar
de
be
ra
n
febre
ro
justicia
ocurrir
pe
na
l
re
sp
on
de
r
re
sp
on
sa
bil
ida
d
sabotaje
su
bo
fic
ial
capital
juzg
ar
senalados
garzon
centauro
felipe
clinica
alda
na
cep
eda
co
nfor
mar
pre
ten
dian
on
ofr
e
cab
alipiales
metrop
olita
no
ba
te
ria
s
volu
ntar
io
presion
taxi
campoalegre
laborar
vigi
lanc
ia
mur
illo
abordar
petrolero
pr
od
uc
cio
n
cl
ar
o
de
str
uccio
n
terc
ero
teo
ram
a
preten
dia
corone
l
an
da
r
des
tac
ar
ca
ce
re
s
he
cta
reas
libard
o
albeiro
env
igad
o
lucio
sa
lce
doqu
ino
ne
z
lozano
isla
viern
es
caserio
pa
lm
ito
recibio
ro
nd
on
actividad
con
trat
ista
parir
recib
ir
acor
dar
deber
liberacion
reclu
ir
solicitar
ve
rs
io
na
r
yesid
galan
ba
na
ne
ro
huir
ajustarcuenta
usar
ae
re
a
ataque
de
tec
tar
inic
iar
me
se
ta
decir
sufrir
policial
buenavista
concentrar
cr
ee
r
gober
nar
re
m
ed
io
ub
ica
cio
n
conflicto
impactar
ofic
ina
preo
cupa
r
refugiar
te
rri
to
rio
pre
sen
ciar
ca
rvaja
l
maya
r
brice
no
jue
z
co
mp
an
era
se
nti
me
nta
l
incluir
flu
via
l
inteligencia
redar
co
rto
m
un
ici
on
ar
brisa
de
po
sita
r
cum
plir
fu
er
te
pe
rso
ne
ro
cu
sto
dia
r
des
min
ado
su
pe
rio
r
perd
er
estrada
mas
ac
rar
se
na
lar
on
ve
sti
r
alexis
perd
ido
pe
so
pin
ed
a
benito
igua
l
sen
tir
ber
rio
ca
rgo
tardar
ma
rque
z
em
pr
es
ar
io
human
itario
man
data
rio
ne
go
ciar
permiti
r
sena
lo
bienestar
corr
er
fisico
nación
se
nt
en
cia
r
villav
ice
nc
io
abril
gilber
to
pa
rticip
ac
ion
se
go
via
pla
ntar
ve
ne
zo
la
no
ve
ne
zu
el
a
pis
tar
barbar
isidro
se
ba
sti
an
proteccion
ac
pm
sumo
arro
jar
nue
ve
me
dic
ina
r
direc
tor
activac
ion
res
puesta
de
no
mina
r
or
ar
ga
ba
rra
post
eriormente
balar
reg
ion
al
salud
su
pu
es
ta
m
en
te
traves
miran
da
pinta
r
edgar
liberal
bosq
ue
natur
al
lor
ica
avenir
fase
fin
al
ad
ve
rti
r
ambo
s
defens
oria
tene
rife
requerir
sen
ala
envo
lver
ocult
opaqu
ete
rumbo
dir
igi
r
secuestrador
pac
ifica
r
tem
or
zara
goza
prelimi
nar
afil
iar
au
tom
ov
il
balear
pa
rtic
ula
r
prestar
carrera
es
co
lta
r
ca
de
na
xiv
parejo
rod
rig
ar
av
an
za
r
au
n
confirmar
de
sc
ar
ta
r
es
tab
lec
io
mision
orga
nism
o
total
verificar
vis
itar
agreg
ar
ini
cia
tiv
o
co
m
pu
ta
do
r
informacion
de
cis
ion
eje
cu
cio
n
pr
oc
ur
ad
ur
ia
doc
umentar
intern
acion
al
m
an
te
ne
r
relacionar
prevencion
gu
ard
ia
zu
lia
lim
ita
r
aprehender
autor
do
nc
el
lo
vii
utiliz
ar
ilic
ita
emergencia
situ
acio
n
gravar
medicos
po
bla
ció
n
ta
ra
za
des
apa
rici
on
indic
ar
ur
ra
o
vez
exde
vil
lanu
ev
a
man
ifesto
ca
pi
ta
n
esquinar
listo
vie
nto
gravemente
hora
atender
violencia
suministrar
batalla
r
an
tip
er
so
na
harold
ramp
a
ab
og
ar
rut
a
actua
l
vich
ar
bien
dano
de
be
ra
lesion
ar
ecu
ado
r
po
pa
alusivo
do
cu
m
en
to
man
gu
er
a
obje
tar
asi
escondite
repeticion
prop
io
son
son
afor
ar
sijin
sam
anie
go
go
do
y
minut
o
entrar
ur
ba
ni
za
cion
impacto
plen
o
alla
nam
ien
to
razon
destin
ar
proyectar
reparacion
entid
ad
at
ra
to
ori
en
tal
comete
r
se
cu
es
tro
co
nc
or
dia
ma
nu
al
po
tas
io
pr
oc
ed
en
tem
ay
or
ia
eq
uip
ar
programar
cu
ltiv
o
err
ad
ica
cio
n
ca
nd
ida
to
gaviria
floridablanca
medica
r
tenie
nte
ocurrio
testigo
co
m
pr
ar
ad
ole
scen
te
juev
es
perd
io
ac
tu
alm
en
te
alli
es
ta
ria
est
rategi
a
hog
ar
mini
ste
rio
dolar
presidencial
vigente
profi
rio
elaboracion
ce
lu
la
r
charco
nav
al
evitar
fin
nevada
m
en
cion
ar
co
lor
ch
al
ec
o
in
te
re
s
de
fen
sa
paul
ar
diag
on
al
proyectil
des
ple
gar
ve
nir
con
stru
ccion
ág
uil
a
do
ce
esp
erar
inici
alm
en
te
moto
giron
yopal
de
leg
ar
implicar
exigir
ilic
ito
investig
ar
enlazar
alc
alo
ide
ho
ja
lab
ora
tor
io
pro
ce
sa
mi
en
to
tiem
po
sa
rg
en
to
quilic
hao
multiples
res
ist
en
cia
pr
ivat
ivo
manana
unive
rsit
ario
viii
conta
r
ad
mini
str
ad
or
diario
ma
rch
ar
me
ns
aje
preocu
pac
ion
sus
tan
ciar
gravedad
propinar
serna
be
le
n
salga
r
balacera
quinto
hab
lar
individuo
sep
tima
tender
com
enz
ar
teme
r
eje
as
al
ta
r
marco
brindar
nece
sario
ejer
ce
r
de
te
rm
in
ar
calarca
sen
or
grave
sufrio
comprender
do
n
instituto
rio
su
cio
...
dijin
atencion
nadie
po
dr
ia
rcn
sino
citar
mir
ar
inve
stig
ació
n
senalan
bli
nd
ar
co
m
pu
es
to
im
pr
ov
isa
r
can
tida
d
po
ste
rio
r
tri
bu
na
l
quer
er
cubri
a
represen
tar
nieto
auto
parrillero
úsuga
dinero
gra
n
ro
ba
r
co
rta
r
fal
lir
mot
ivar
ent
errar
gen
era
cion
erradic
ar
man
ifestar
orden
cambiar
dec
lara
r
objetivar
alimento
pierna
tirar
costar
sujetar
may
or
calle
se
xto
au
die
nc
ia
cua
lqu
iera
jorn
ada
pre
cisa
r
ser
a
continuar
crimina
l
ddhh
inte
rve
nci
on
m
en
su
al
in
vo
lu
cr
ar
simon
pa
trio
requisa
r
do
lor
ha
lla
zg
o
fila
rec
lutar
po
blad
or
leg
uiz
am
o
intim
idac
ión
finar
ba
raya
fallecio
de
cim
a
de
tra
s
am
on
iac
o
narco
tra
fico
tra
ns
po
rta
do
r
term
ina
r
me
rid
ian
o
problema
co
ns
ec
ue
nc
ia
gira
rdo
t
xx
x
luch
ar
fals
o
martes
minis
tro
reso
luc
ion
sol
icit
ud
luc
ian
o
puesto
metali
co
s
ac
on
dic
ion
ar
noticiar
asistenciatecnica
compromiso
anali
zar
co
nt
inu
o
se
lec
tivo
prote
ger
cla
ndestino
dir
igi
a
caso
observatorio
sensibilizacion
terrestre
vicepresidencia
rec
ha
za
r
incidente
narco
traficante
pedi
r
co
bij
ar
carte
l
abu
rrir
es
ta
ria
n
retén
irreg
ula
r
pechar
materia
cum
plim
ien
to
crimen
la
do
garantias
ofre
cer
escuchar
de
sa
pa
ric
ión
ig
ua
lm
en
te
leg
al
pidio
al
gu
n
seguimiento
dios
delictivo
ofe
nsi
vo
co
nfi
an
za
ur
ab
a
tra
fic
ar
emprender
incau
tacio
n
perm
itio
inv
es
tig
ad
or
violento
efec
tuar
integral
de
linc
ue
ncial
pirateria
tra
nq
ui
lid
ad
valor
ah
or
a
cerrar
inte
rve
nir
saba
do
conten
er
ac
tiv
o
co
m
plejo
ca
lix
to
de
to
na
cio
n
hoy
increme
ntar
noche
ser
an
pelig
rar
ma
tea
r
silva
arrib
ar
fuga
r
agresor
ce
me
nta
r
emp
ezar
go
be
rna
cio
n
ins
titu
cio
na
l
del
incuen
cia
organizar
pla
ca
flagrancia
sorprender
pil
on
oc
cis
o
vige
sim
a
reserva
r
violac
ión
ten
er
pla
sti
ca
s
espalda
exis
tir
hostigamiento
pe
rm
an
en
te
co
rre
sp
on
die
nte
ins
um
o
flaco
go
rdo
reac
cion
bulto
em
pac
ar
antinarcoticos
pues
repetir
riesgo
aumentar
alm
ac
en
ar
direccion
gen
era
r
es
tu
pe
fa
cie
nt
e
distrib
ucion
tra
ba
jo
am
et
ra
lla
do
r
ocu
ltar
so
da
hera
ldo
em
itir
iden
tific
acio
n
mo
no
liq
uida
ractualizacion
de
ta
lle
dir
ec
to
ten
dria
labor
exigian
patr
ulla
je
octa
var
carac
ol
ante
cedente
tanq
ue
sp
an
en
movile
s
palabra
re
ve
lar
cr
im
en
es
di
sp
ut
ar
litr
o
rev
isa
r
caldo
no
arme
nio
reto
rna
r
evento
ve
nia
cont
enia
n
alm
ac
en
am
ien
to
nota
r
com
erc
ializ
acion
interp
ol
asim
ism
o
ac
ida
r
su
lfu
ric
o
acopiar
ve
nd
er
re
cu
pe
ra
r
oportunidad
mierc
oles
most
rar
esp
ecta
dor
pr
ue
ba
tal
información
proba
bilidad
en
to
nc
es
co
rre
sp
on
de
r
paradero
torax
aprovechar
bus
que
da
fec
ho
re
la
ci
on
al
gu
no
bitacor
a
cifra
r
tan
con
dic
ion
ar
ning
un
re
co
rd
ar
resid
ia
constan
te
hu
m
an
id
ad
suce
der
alu
cinoge
nas
co
ca
ina
qu
im
ico
s
alu
cinoge
nos
sangrar
integ
ridad
vivia
ev
iden
cia
r
gri
s
saber
om
ega
adminis
tra
cio
n
eme
rgen
te
co
nt
un
de
nt
e
homicida
re
sp
ec
tiv
o
madrugar
esp
aciar
ras
tro
jo
versio
n
info
rm
e
asisten
cial
ac
ep
tar
acom
pa
na
mien
to
ga
ra
nt
izar
oriundo
dili
gen
cia
r
mo
rgue
cas
trense
temprano
at
ra
s
infracc
ión
al
ar
m
ar
liq
uid
os
fin
alm
en
te
oportuno
croni
ca
territorial
da
to
pr
op
os
ito
mo
da
lid
ad
ca
us
tic
a
clo
rhidr
ato
promover
conocio
un
ive
rsa
l
vanguardia
perte
necer
ia
av
isa
r
golfo
cin
ar
uc
ovo
z
en
vio
aproximar
bo
m
ba
rd
ea
r
ca
lor
ía
misiona
r
m
ov
ilid
ad
subdireccion
exclusiv
o
ilicitas
pe
rm
an
ga
na
to
pr
ac
tic
ar
vio
len
tar
funcion
historico
vita
l
sicaria
l
proyecto
clan
paisa
s
pos
itivo
es
clar
ec
er
ap
olo
metodolog
ia
lev
an
tamien
to
remitir
basico
vulne
rabilidad
ma
rihu
ana
inmo
viliza
r
exp
end
io
mo
rta
l
urgenc
ia
nivel
tendientes
ae
i
relatar
revistar
fallecer
libe
rac
ión
hi
po
te
sis
im
pu
tar
ciu
da
da
nia
obs
erva
r
rec
urs
o
co
no
cim
ie
nt
o
de
sa
rtic
ula
r
so
meter
ba
cr
im
kit
m
in
er
ia
ca
rce
lar
io
se
mi
lle
ro
urabenos
potencial
formulacion
baz
uca
r
ho
rnomi
cro
on
da
s
aluci
noge
no
cr
ist
aliza
de
ro
dos
is
clasificar
inm
ed
iat
am
en
te
entender
resti
tuc
ion
proc
edim
iento
afec
tacio
n
psicologico
antildeos
bit
ac
htm
l
inc
au
tació
nverificacion
balazo
definicion
interins
titucion
al
manejars
e
mitigar
prudencia
retención
uariv
utilizarse
m
apm
us
e
acontecimientoglosario
desmovilización
ant
inarcó
tico
s
trig
es
im
a
de
sactivació
n
pro
toc
olo
peg
aso
vu
lca
no
cmjt
transicional
ocurre
ncia
honor
m
icro
tra
fic
o
hsb
soc
iali
zar
subcomite
injerencia
judicializacion
contingencia
imp
lem
ent
aci
on
gent
e
pe
rc
at
ar
compo
rtamie
nto
dimension
ar
estad
istica
irv
multiv
ariado
victim
izacio
n
índice
aprobacion
sppgnr
ctjt
cua
drante
hs
bn
ot
ici
as
Figure 7. Asociaci´on Hechos
En este algoritmo se utiliz´o como medida de distancia
Ward, porque agrega los grupos teniendo en cuenta la varianza
e incluye las relaciones entre los puntos pertenecientes al
grupo respecto a la relaci´on con los otros grupos.
MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 6
B. K-means
Este algoritmo permite hacer el agrupamiento con un K ini-
cial que es ajustado por el usuario teniendo y la inicializaci´on
de los centroides. Para este algoritmo se corri´o la gr´afica de
”Elbow” para conocer el n´umero de clusters adecuados como
se observa en la figura 8 debido a que los tiempos de calculo
son elevados no ha sido posible tener resultados para este
algoritmo.
Figure 8. M´etodo de ”Elbow” para analizar el n´umero adecuado de k para
el algoritmo
C. Mixto
Aplicando la estrategia de Lebart [99] la cual se puede
resumir en realizar un an´alisis multivariado adecuado (cor-
respondencias simples) para los datos, posteriormente sobre
las proyecciones de los individuos (sobre los primeros 20
ejes factoriales) agregarlos por medio del m´etodo de k-means,
con un n´umero elevado de puntos, posteriormente sobre las
clases obtenidas se realiza una clasificaci´on jer´arquica y
posteriormente, con el fin de evitar el anidamiento propio de
los algoritmos jer´arquicos, realizar un nuevo an´alisis de k-
means de las clases obtenidas del dendrograma y con ello se
obtienen las clases consolidadas.
Posteriormente se procede a caracterizar las clases
obtenidas en funci´on de variables ilustrativas, se utiliza el
criterio de los valores test (Lebart et al. 1995) [11], utilizando
el paquete FactoClass (Pardo & Del Campo 2007) [12]. Los
valores test son cuantiles de la distribuci´on normal est´andar
que detectan las categor´ıas de las variables cualitativas que
caracterizan a cada uno de las clases, en el sentido de que
su porcentaje dentro del quintiles razonablemente superior al
porcentaje global, esto es al porcentaje de la ciudad. Para las
variables continuas los valores test resultan de la comparaci´on
del promedio de la variable dentro de la clase con el promedio
global.
El m´etodo de Ward es un procedimiento jer´arquico en el
cual, en cada etapa, se unen los dos clusters para los cuales
se tenga el menor incremento en el valor total de la suma de
los cuadrados de las diferencias, dentro de cada uno de los
clusters, desde cada individuo hasta el centroide del cluster.
En la figura 9 se tiene la distribuci´on de inercia para la
agregaci´on de las clases.
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Figure 9. Distribuci´on de inercia agregaci´on clases - Ward
En la figura 10 se observa el dendrograma realizado para
las clases de la matriz
7052488497449014777712999256135639659931288318931162667153120540574590986867397802444857149604394461124928341936038413874627434717996820988344503948963272801885339525756377634562023610942779382548935352164556781340269788798589593317821822923159636074779555881299526367530681108184674331005244009902564882709082116304635411903646953325504668461124848224130465595651661086652750099422678217935331259393381043542234369041733524079492281598505456933712486836536625785416712588868648649782455458739900407908532555305642014144258583833845111595910512376869091368596710162118765123940568614542189113388030184372076915162251180423867658799757665077353752668561975526196945913491074183516522729323774492794923102833488065174797069745149949691854288567839171337566582111639076617176550468421283031832671113359435117466387616346015469965282355628875196290841355135807362679906113594872204863112455848907275749130330117260473608852485902656736235848181767815798881928199722389707667864063391575256260094237115542043847529641161145622926175267341647125870707157509822141113955199189966471454760595038479610626832339978164334270498397097976297621525898175893198606912962322220821843975850242328246943345735844432553398367729572847205661364670183630640920372882629542928472145971679295114625156888853987760786921636678863563896276190349633333319325631725905929798095227844105078893838554502473029870819424943516163968883274866680054995738549187444071062969329463466575599935844225857073244156189316114471487436579684996606778991329163272178452280238616752691117022468711089615637048714091635183437449302895629847438058663186733142581305805941978496940958291378614622068037379381621957607779925565818327226816582759574571689341223634655574476546691291346422918281509916024016689238762494796052975394553164646923427313940159560618163506735854812725238281937455970083330895579717797311819181737598092758992083137666492273738434672989609393137518589213072627573682769045495861789041277636957981023286219277286497217232027472818357213372322510343696614233593404528498152225202879840873310264346336977128808998309563107453219220726752670687637968053814282164569740413791813592214459812696147151213624478770523535131253478321662615489935209642547175027752375325369468725043351859747085915864478910003785957279445097135556921032714643224774558097150657887141744350847648195420785505799300659302493641315842467778613882349381824303188408448778141762929756561693728831279551989667243145162825737791916957741888471828134011993121266742493269126528559215376444512175639148391439298155492495320942371975449460173182740362727838821084529787826513689734544802060268289770383726981122117515200860277446156836679396771885542640851926143546854324198396124155718697514796516070980141431361543241702102180230544448244936363296985014193344683737794257234308862436553493357391547489474286578793690943426287987495583490497780286365
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Indexes
Figure 10. Dendrograma seg´un clases
Análisis del conflicto armado utilizando métodos de minería de textos
Análisis del conflicto armado utilizando métodos de minería de textos
Análisis del conflicto armado utilizando métodos de minería de textos
Análisis del conflicto armado utilizando métodos de minería de textos

Más contenido relacionado

Similar a Análisis del conflicto armado utilizando métodos de minería de textos

Practica n.01 biotecnologia 2021 ruth mayra apaza foraquita
Practica n.01 biotecnologia 2021  ruth mayra apaza foraquitaPractica n.01 biotecnologia 2021  ruth mayra apaza foraquita
Practica n.01 biotecnologia 2021 ruth mayra apaza foraquitaRuthApaza8
 
3. Referencias de fuentes electrónicas
3. Referencias de fuentes electrónicas3. Referencias de fuentes electrónicas
3. Referencias de fuentes electrónicashidrologia
 
Presentación materiales audiovisuales Actividad 1
Presentación materiales audiovisuales Actividad 1Presentación materiales audiovisuales Actividad 1
Presentación materiales audiovisuales Actividad 1Jiveth Cortes Varela
 
Teoria de la informacion
Teoria de la informacionTeoria de la informacion
Teoria de la informacionrikupenumbra
 
Información textual y documental
Información textual y documentalInformación textual y documental
Información textual y documentalesthermorenoestevez
 
Teoria de la informacion
Teoria de la informacionTeoria de la informacion
Teoria de la informacionJanetsy Salazar
 
Introducción a la Documática, Hipertexto,
Introducción a la Documática, Hipertexto,Introducción a la Documática, Hipertexto,
Introducción a la Documática, Hipertexto,Exagono Bibliotecario
 
Que Es Informatica.Docxsoir
Que Es Informatica.DocxsoirQue Es Informatica.Docxsoir
Que Es Informatica.Docxsoirlilibohorquez
 
Taller de informatica aplicada no. 2
Taller de informatica aplicada no. 2Taller de informatica aplicada no. 2
Taller de informatica aplicada no. 2ottyvidal28
 
Modelo De Servicio Semantico De Dsi Para Bibliotecas Digitales
Modelo De Servicio Semantico De Dsi Para Bibliotecas DigitalesModelo De Servicio Semantico De Dsi Para Bibliotecas Digitales
Modelo De Servicio Semantico De Dsi Para Bibliotecas Digitalesxiomaraj
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 

Similar a Análisis del conflicto armado utilizando métodos de minería de textos (20)

Base datos t1 u1
Base datos t1 u1Base datos t1 u1
Base datos t1 u1
 
Text mining
Text miningText mining
Text mining
 
12714 12794-1-pb
12714 12794-1-pb12714 12794-1-pb
12714 12794-1-pb
 
Web Semantica
Web SemanticaWeb Semantica
Web Semantica
 
Practica n.01 biotecnologia 2021 ruth mayra apaza foraquita
Practica n.01 biotecnologia 2021  ruth mayra apaza foraquitaPractica n.01 biotecnologia 2021  ruth mayra apaza foraquita
Practica n.01 biotecnologia 2021 ruth mayra apaza foraquita
 
3. Referencias de fuentes electrónicas
3. Referencias de fuentes electrónicas3. Referencias de fuentes electrónicas
3. Referencias de fuentes electrónicas
 
Presentación materiales audiovisuales Actividad 1
Presentación materiales audiovisuales Actividad 1Presentación materiales audiovisuales Actividad 1
Presentación materiales audiovisuales Actividad 1
 
Teoria de la informacion
Teoria de la informacionTeoria de la informacion
Teoria de la informacion
 
Información textual y documental
Información textual y documentalInformación textual y documental
Información textual y documental
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
 
Teoria de la informacion
Teoria de la informacionTeoria de la informacion
Teoria de la informacion
 
Articulo
ArticuloArticulo
Articulo
 
Introducción a la Documática, Hipertexto,
Introducción a la Documática, Hipertexto,Introducción a la Documática, Hipertexto,
Introducción a la Documática, Hipertexto,
 
Que Es Informatica.Docxsoir
Que Es Informatica.DocxsoirQue Es Informatica.Docxsoir
Que Es Informatica.Docxsoir
 
Taller de informatica aplicada no. 2
Taller de informatica aplicada no. 2Taller de informatica aplicada no. 2
Taller de informatica aplicada no. 2
 
Modelo De Servicio Semantico De Dsi Para Bibliotecas Digitales
Modelo De Servicio Semantico De Dsi Para Bibliotecas DigitalesModelo De Servicio Semantico De Dsi Para Bibliotecas Digitales
Modelo De Servicio Semantico De Dsi Para Bibliotecas Digitales
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 

Último

Novedades Banderas Azules en España para el año 2024
Novedades Banderas Azules en España para el año 2024Novedades Banderas Azules en España para el año 2024
Novedades Banderas Azules en España para el año 202420minutos
 
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...Impacto del desplazamiento como consecuencia de las etapas de gentrificación...
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...Kenneth Cortés
 
Informe sobre el Bono Verde en el Parque Eólico Arauco
Informe sobre el Bono Verde en el Parque Eólico AraucoInforme sobre el Bono Verde en el Parque Eólico Arauco
Informe sobre el Bono Verde en el Parque Eólico AraucoEduardo Nelson German
 
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdfredaccionxalapa
 
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdf
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdfReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdf
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdfmedinaam2
 
tandeos xalapa zona_alta_MAYO_2024_VF.pdf
tandeos xalapa zona_alta_MAYO_2024_VF.pdftandeos xalapa zona_alta_MAYO_2024_VF.pdf
tandeos xalapa zona_alta_MAYO_2024_VF.pdfredaccionxalapa
 
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...Eduardo Nelson German
 
Boletín semanal informativo 18 Mayo 2024.pdf
Boletín semanal informativo 18 Mayo 2024.pdfBoletín semanal informativo 18 Mayo 2024.pdf
Boletín semanal informativo 18 Mayo 2024.pdfNueva Canarias-BC
 
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...Baker Publishing Company
 
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍ
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍLA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍ
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍAntoniaBarrera5
 
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdf
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdfRELACIÓN DE PLAYAS GALARDONADAS 2024.pdf
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdf20minutos
 
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de Fondos
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de FondosParque Eólico Arauco: Reporte sobre el Estado de Aplicación de Fondos
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de FondosEduardo Nelson German
 

Último (13)

Novedades Banderas Azules en España para el año 2024
Novedades Banderas Azules en España para el año 2024Novedades Banderas Azules en España para el año 2024
Novedades Banderas Azules en España para el año 2024
 
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...Impacto del desplazamiento como consecuencia de las etapas de gentrificación...
Impacto del desplazamiento como consecuencia de las etapas de gentrificación...
 
Informe sobre el Bono Verde en el Parque Eólico Arauco
Informe sobre el Bono Verde en el Parque Eólico AraucoInforme sobre el Bono Verde en el Parque Eólico Arauco
Informe sobre el Bono Verde en el Parque Eólico Arauco
 
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdfPRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdf
PRECIOS_M_XIMOS_VIGENTES_DEL_12_AL_18_DE_MAYO_DE_2024.pdf
 
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdf
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdfReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdf
ReglamentodelRegistrodeDeudoresAlimentariosMorosos (1).pdf
 
tandeos xalapa zona_alta_MAYO_2024_VF.pdf
tandeos xalapa zona_alta_MAYO_2024_VF.pdftandeos xalapa zona_alta_MAYO_2024_VF.pdf
tandeos xalapa zona_alta_MAYO_2024_VF.pdf
 
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...
Por la designación de la jueza transitoria del Juzgado de Instrucción nº 1 de...
 
Boletín semanal informativo 18 Mayo 2024.pdf
Boletín semanal informativo 18 Mayo 2024.pdfBoletín semanal informativo 18 Mayo 2024.pdf
Boletín semanal informativo 18 Mayo 2024.pdf
 
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...
PROPUESTAS Y RECOMENDACIONES PARA UN NUEVO TRATO ENTRE EL ESTADO, LOS PUEBLOS...
 
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍ
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍLA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍ
LA HISTORIA E INICIO DEL CONFLICTO ÁRABE-ISRAELÍ
 
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdf
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdfRELACIÓN DE PLAYAS GALARDONADAS 2024.pdf
RELACIÓN DE PLAYAS GALARDONADAS 2024.pdf
 
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de Fondos
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de FondosParque Eólico Arauco: Reporte sobre el Estado de Aplicación de Fondos
Parque Eólico Arauco: Reporte sobre el Estado de Aplicación de Fondos
 
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1080
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1080LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1080
LA CRÓNICA COMARCA DE ANTEQUERA _ Nº 1080
 

Análisis del conflicto armado utilizando métodos de minería de textos

  • 1. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 1 An´alisis del conflicto armado utilizando m´etodos de miner´ıa de textos Daniel Alfonso Garavito1 y Ana Estella Pulido G´omez2 Abstract—En Colombia el conflicto interno ha tenido una permanencia extendida por m´as de 50 a˜nos, en este tiempo las v´ıctimas del conflicto no han sido reparadas, la ”Unidad para la Atenci´on y Reparaci´on de la V´ıctimas” ha desarrollado unas bit´acoras diarias de eventos que recopila, caracteriza y sitematiza la din´amica de la violencia que ocurre en el marco del conflicto armado, para poder reparar de manera eficiente a las v´ıctimas. En el presente trabajo se utilizan m´etodos de Miner´ıa de Textos para hacer el an´alisis de dichas bit´acoras incluyendo preprocesamiento, asociaci´on y agrupamiento, generando una nube de palabras que permite tener las m´as frecuentes para cada uno de los grupos. I. OBJETIVO Implementar m´etodos de miner´ıa de textos para preproce- sar, agrupar, asociar y clasificar datos provenientes de noticias relacionadas con el conflicto armado en Colombia, que per- mita relacionar hechos, lugares y actores del conflicto en el periodo de 2001-2017. II. INTRODUCTION LA historia reciente de Colombia es la historia de un pueblo en b´usqueda de La Paz. Dentro de los elementos sustanciales para lograrla se encuentra la verdad, la justi- cia, la reparaci´on y la no repetici´on; elementos que est´an ´ıntimamente ligados a los acuerdos de La Habana. Dado que el principal objetivo de la Justicia Transicional es esclarecer los cr´ımenes que se cometieron durante el conflicto, para ello es necesario la construcci´on de memoria hist´orica que permita castigar a los culpables para finalmente reparar a las v´ıctimas ya sea material o simb´olicamente. Las noticias corresponden a un tipo de informaci´on p´ublica que presenta caracter´ısticas muy particulares, diferentes de otros tipos de textos [1]. Proveen grandes y recurrentes cantidades de recursos de informaci´on [2], tanto de eventos actuales como hist´oricos [3] y cuyo prop´osito es provocar un impacto en el lector [4]. Las noticias reflejan el punto de vista de una sociedad, grupo o individuo sobre alguna tem´atica de inter´es de forma casi instant´anea una vez que los eventos noticiosos ocurren, escritos en general en un formato y lenguaje de reporte period´ıstico [4] [5]. 1D. Garavito, Faculty of Systems Engineering, National University, Bo- gota, Colombia 2A. Pulido Faculty of Systems Engineering, National University, Bogota, Colombia Con el fin de contribuir a la elaboraci´on de memoria hist´orica, la ”Unidad para la Atenci´on y Reparaci´on de las V´ıctimas” ha elaborado la bit´acora diaria de eventos. La bit´acora tiene por objetivo crear un documento diario en el que se recopilan, categorizan y sistematizan eventos relacionados con la din´amica de violencia que ocurre en el marco del conflicto armado. Con el fin de mejorar la oportunidad en la atenci´on de emergencias humanitarias. Est´as bit´acoras generan insumos para la elaboraci´on de an´alisis de riesgos a nivel municipal, departamental y na- cional. Se pretende analizar dicha informaci´on con t´ecnicas de miner´ıa de textos. Para el an´alisis de grandes cantidades de informaci´on con- tenidas en textos, se busca extraer aquella que sea ´util, a trav´es de la identificaci´on y exploraci´on de patrones interesantes que no son evidentes. La miner´ıa de textos puede ser definida como la aplicaci´on de algoritmos y m´etodos de los campos del aprendizaje de m´aquina y estad´ıstica sobre los textos con el objetivo de encontrar patrones ´utiles [6]. Las presentaciones de datos para la miner´ıa de datos cl´asica y la miner´ıa de textos son bastante diferentes. Mientras que por los m´etodos de miner´ıa de datos se ven los datos en formato de hoja de c´alculo, para la miner´ıa de textos el formato inicial sigue siendo el de un documento. A pesar de que los m´etodos de an´alisis para textos no tienen en cuenta conceptos gramaticales o sem´anticos, se aproximan bastante bien utilizando las frecuencias de los t´erminos. Uno de los temas principales en miner´ıa de texto es la transformaci´on del texto en datos num´ericos, por lo que aunque la presentaci´on inicial es diferente, en una etapa intermedia, los datos se mueven a una codificaci´on cl´asica de miner´ıa de datos, representados en una matriz, haciendo que los documentos se conviertan en datos estructurados. La representaci´on de un documento de texto se basa en las palabras, por el modelo de ”Vector Space Model” (VSM) [7], que corresponde al conjunto de vectores que representan todos los documentos, que es utilizada en el procesamiento del lenguaje natural llamada de igual manera “bolsa de palabras”. Con esta representaci´on un documento es considerado como una colecci´on de palabras que ocurren al menos una vez, pero no tiene en cuenta el orden de las palabras, la combinaci´on en la que ellas ocurren, la estructura gramatical, la puntuaci´on y el significado de las palabras. Cada elemento del vector representa un t´ermino, ya sea una palabra o un conjunto de palabras de la colecci´on de
  • 2. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 2 documentos, el tama˜no del vector est´a definido por el n´umero de palabras de la colecci´on completa de documentos. Se puede representar la importancia ponderando un t´ermino dentro del documento con frecuencias, contando el n´umero de ocurrencias para cada t´ermino en el documento bas´andose en la ley de Zipf, [8] que es usada en el campo del procesamiento del lenguaje natural para desarrollar corpus ling¨u´ısticos, ontolog´ıas, taxonom´ıas entre otras, debido a que ayuda a identificar el contenido tem´atico de un documento o un conjunto de documentos. Se puede evaluar presencia-ausencia de t´erminos como se observa en la Tabla I. Table I MATRIZ QUE REPRESENTA LA FRECUENCIA DE LAS PALABRAS EN DIFERENTES DOCUMENTOS A PARTIR DE UNA EVALUACI ´ON BINARIA • Documento 1: Ice creams in summer are awesome • Documento 2: I love ice cream in summer • Documento 3: Ice creams are awesome all seasons icecream summer love awesome season Doc 1 1 1 0 1 0 Doc 2 1 1 1 0 0 Doc 3 1 0 0 1 1 Se puede utilizar TF-IDF (Term frequency inverse docu- ment frequency) [9], que combina la frecuencia de un t´ermino con un factor de escala que da la medida inversa de la frecuencia de la palabra en el documento completo 1. Lo que permite no solo contar la frecuencia de la palabra en el documento, sino modificar el conteo teniendo en cuenta la importancia percibida de esta palabra. tf × idf(t, d) = tf(d) × ln(N/df(t)) (1) Donde tf(d) es el n´umero de veces que el t´ermino t aparece en el documento d; df(t) es el n´umero de documentos en la colecci´on de t´erminos donde aparece t. Hasta este momento se ha terminado la fase de preprocesamiento, el paso siguiente a partir de la matriz de t´erminos, llamado tambi´en corpus, qu´e tipo de asociaciones y agrupaciones se presentan en los documentos. Generando para cada caso una nube de t´erminos que permite tener un panorama general de las asociaciones y grupos formados. III. MATERIALES Y M ´ETODOS Los datos fueron extra´ıdos mediante un algoritmo elaborado por D. Garavito para construir a partir de los documentos una base de datos con las etiquetas y categor´ıas posibles a partir de cada Bit´acora diaria de eventos. Descripci´on de los datos Los datos cuenta con 44.206 entradas de noticias desde el 18 de Septiembre de 2001 hasta el 18 de Septiembre de 2017. No obstante, estos n´umeros pueden variar ante la posible adquisici´on de nuevos datos con el fin de completar la serie hasta la actualidad. La base de datos cuenta con un total de 8 variables dentro de las cuales se encuentra. 1) La bit´acora diaria de eventos de la que procede. 2) La agregaci´on de hechos victimizantes 3) El hecho victimizante 4) La fecha 5) La fuente 6) El departamento 7) El municipio 8) El cuerpo de la noticia Todas las variables relacionadas son categ´oricas excepto la variable de la fecha, en la Figura 1, se encuentra un ejemplo de los registros de la base de datos. Algunas bit´acoras diarias de conflicto armado se encuentran disponibles en https://rni.unidadvictimas.gov.co/bitacora. In- dependientemente de lo que se quiera hacer con los datos que se obtienen de miner´ıa de textos, se debe pasar por una fase de colecci´on de documentos, preprocesamiento para obtener una matriz de t´erminos con la que se realizar´an los an´alisis respectivos. A continuaci´on se presenta un ejemplo de la matriz inicial con cada una de las variables y en la ´ultima columna la noticia completa. Figure 1. Ejemplo de registro de la base de datos Actualmente la base no se encuentra codificada a nivel de hechos victimizantes y fuentes, ni departamentos, ni por municipios. Este trabajo es valioso en particular por departa- mento y municipio para realizar una georeferenciaci´on r´apida de los resultados, partiendo de las noticias provenientes de las bit´acoras. IV. PREPROCESAMIENTO Esta es la primera fase del proceso para extraer informaci´on de documentos, transformando las palabras en vectores, que ser´an procesados por m´etodos predictivos. Para esto es nece- sario utilizar una serie de herramientas que nos permitan
  • 3. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 3 limpiar los documentos y obtener una matriz desde la cual se puedan evaluar y buscar patrones. Se presenta un esquema general del preprocesamiento de textos en la Figura 2, que empieza con la adecuada selecci´on de los formatos de entrada, que para el caso de estudio se utilizar´an pdf y HTML. Acto seguido, se realiza la fase de tokenizaci´on o identificaci´on de las palabras, que requiere definir los delimitadores de los “tokens”, que pueden ser signos de puntuaci´on o caracteres no alfab´eticos ( () ¡¿! ? ”). Estos delimitadores se separan de las palabras y se reemplazan por espacios en blanco, por medio de expresiones regulares. Dentro de las modificaciones que se le puede hacer al texto, est´a la de remover ”stopwords” debido a que son palabras que no son informativas al momento de caracterizar el documento, como lo ser´ıan los pronombres, los art´ıculos, conjunciones, preposiciones, caracteres propios de los documentos que no afecten el cuerpo de la noticia si se remueven. Una de las maneras de reducir dimensionalidad cuando se utilizan textos, es quitar palabras que tengan poca frecuencia debido a que no tienen una significancia estad´ıstica, lo que genera una reducci´on en el tama˜no del diccionario. Para cada caso, la lista de ”stopwords” es diferente y es susceptible al idioma en el que se est´e trabajando debido a que cada uno maneja unas reglas gramaticales espec´ıficas. Figure 2. Proceso general del preprocesamiento para el an´alisis en miner´ıa de textos. En la fase de lematizaci´on y stemming gira en torno a un objetivo similar que es la reducci´on de formas flexivas y palabras derivadas de una forma com´un. Al normalizar gra- maticalmente se reducen variantes como singulares/plurales, femenino/masculino, tiempos verbales, presente/pasado/futuro (Dependiendo el idioma). Stemming es el proceso de cortar los extremos de las palabras, llegar a una forma de ra´ız sin sufijos y prefijos de derivaci´on o flexi´on. Mientras que la lematizaci´on utiliza el vocabulario y el an´alisis morfol´ogico de las palabras y elimina s´olo las terminaciones inflexionales para devolver la forma base de la palabra como salida. Por ´ultimo, se puede evaluar la riqueza en el l´exico del texto por medio de la diversidad l´exica, que corresponde a una medida de la amplitud y variedad del vocabulario. A manera de resumen se presentan en la Tabla II, las librer´ıas de R que permiten realizar cada uno de los procesos relacionados con el preprocesamiento en miner´ıa de textos. Table II LIBRER´IAS DE R PARA EL PREPROCESAMIENTO DE TEXTOS. PREPROCESAMIENTO FASE LIBRER´IA DE R Tokenizaci´on tm Segmentaci´on openNLR Stemming RWera Lemmatizaci´on spacyR/wordnet Diversidad L´exica koRpus El preprocesamiento se realiz´o empleando los pasos men- cionados anteriormente, el primer paso fue la estandarizaci´on del texto eliminando may´usculas, signos de puntuaci´on y acentos, adem´as de cualquier car´acter que no fuese una palabra (@, #, entre otros). Posteriormente se eliminaron palabras vac´ıas empleando el conjunto de palabras definidas por el paquete tm y un otro conjunto de palabras construido por los autores teniendo en cuenta las frecuencias de las palabras, en total se eliminaron alrededor de 1000 palabras. Para la lematizaci´on se emple´o spaCy, con lo cual se redujo el n´umero de palabras de 44182 a 32738 (11444), con lo cual nuestra matriz TD tendr´ıa 44206 filas (documentos) por 32738 t´erminos o tokens (columnas) Adicionalmente spaCy permite realizar el reconocimiento de entidades, aunque el algoritmo clasific´o como entidades palabras que no lo son. No obstante permiti´o construir un conjunto de entidades lo que facilit´o la creaci´on de la variable actor a partir de una expresi´on regular con todas las acep- ciones de un t´ermino en los documentos. La variable tiene tres niveles, actor Estatal, Guerrilla y Paramilitar. A su vez el campo departamento fue depurado empleando el paquete stringdist y la distancia de Levenshtein, como corrector or- togr´afico. On-line Analytical Processing (OLAP) Las t´ecnicas de procesamiento anal´ıtico en l´ınea (OLAP) han sido utilizadas para analizar y extraer datos estructurados, pero no se han generado m´etodos que permitan hacer el an´alisis sobre datos no estructurados como lo son los doc- umentos de texto. Para el an´alisis de este tipo de documentos
  • 4. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 4 y la miner´ıa en datos de texto se han utilizado modelos de probabilidad. El procesamiento anal´ıtico en l´ınea permite hacer an´alisis multidimensionales. OLAP consta de tres operaciones anal´ıticas b´asicas a saber, la consolidaci´on o roll-up, el drill down, slicing y cubing. La consolidaci´on implica la agregaci´on de datos que se pueden agrupar y calcular en una o m´as dimensiones. El cubo de tema ampl´ıa el cubo de datos tradicional para hacer frente a una jerarqu´ıa de temas y almacena medidas de contenido probabil´ıstico de documentos de texto aprendidos a trav´es de un modelo de tema probabil´ıstico. Para materializar los cubos de temas de manera eficiente, se han propuesto dos agregaciones heur´ısticas para acelerar el algoritmo iterativo de expectativa-maximizaci´on (EM) para estimar modelos de tema. Sin embargo, para los datos con los que se trabaj´o se realizar´an los cubos con informaci´on de las categor´ıas que incluyen el a˜no, la fecha, los departamentos, el hecho, entre otros. V. ASOCIACI ´ON En la fase de asociaci´on, se tiene una matriz de documentos que ha sido previamente filtrada, donde se le han quitado todos los caracteres y las palabras no informativas como se vio en detalle en el preprocesamiento. Se utiliza TF-IDF para calcular la importancia de las palabras en el corpus de documentos. Despu´es de este paso, se obtiene una una matriz donde cada fila es un documento y cada columna es una palabra, los elementos de la matriz representan la importancia de las palabras correspondientes en cada uno de los documentos. Al utilizar la matriz de t´erminos-documentos a partir del corpus y realizar la transformaci´on TF-IDF se puede realizar la normalizaci´on de los documentos para no sobreestimar los documentos que tengan m´as palabras respecto a los que tengan una cantidad menor. En la figura 3 se muestra el esquema general de los procesos realizados para cada una de las matrices (t´erminos-documentos y documentos-t´erminos) sobre asociaci´on y agrupamiento, incluyendo los algoritmos utilizados. Figure 3. Esquema general sobre el an´alisis de Asociaci´on y Agrupamiento Para la fase de asociaci´on solo se realiz´o sobre la matriz de t´erminos-documentos debido a que estos son m´as informativos respecto a la matriz de documentos-t´erminos porque asocia di- rectamente las palabras m´as frecuentes sobre los documentos. A. Word2Vec Es un grupo de modelos que sirven para asociar palabras. Basados en redes neuronales superficiales de dos capas que reconstruyen contextos ling¨u´ısticos de palabras. [10] Para este proceso el documento de entrada es el corpus sin la transformaci´on TF-IDF, que genera un espacio vectorial de varias dimensiones, asignando a cada palabra ´unica en el corpus un vector correspondiente en el espacio. Al ubicar las palabras como vectores, en el espacio vectorial las palabras que compartan contextos comunes en el corpus se ubicar´an muy cerca [10] como se observa en la figura 4 donde las palabras que comparten un mismo contexto en el texto ocupan lugares cercanos en esta representaci´on de dos dimensiones. Una de las asociaciones interesantes que se evidencia en la figura 4 es la de ”guerrillero, subversivo, FARC, ELN y guerrilla”. Se encuentran tambi´en asociados los d´ıas de la semana, los meses y algunos nombres propios que son frecuentes en las noticias. −20 −10 0 10 −20−1001020 A two dimensional reduction of the vector space model using t−SNE m[,1] m[,2] " fuente municipio ano asesinar farc irv capturar ejercito desconocido policia do edad frente santo mediar zona barrio armar aliasmiembro tropa vallar alto vereda guerrillero hacer antioquia nacional hombre santander rural personar autoridad encontrar "militar hallar cauca combatir grupo batallon explosivo edad" brigada presunto norte tres victimar sector segun resultar bajar unidad integrante bolivar corregimiento minar registrar herir jose ciudad presentar dih identificar dar kilo eln soldado militar cali narino forzar partir subversivo callar diario banda ubicar cordoba conocer realizar informacion jurisdiccion secuestrar incautar mas fiscalia amenazar puerto departamento cuatro "ciones publicar via artefacto carrera mismo criminal luis pasar poder "martes morir fuego lograr menor granar decir parecer ilegal delito accionar carlos huila dejar homicidio infanteria cuerpo habia arauca sucre cesar tambien atencion agente casar general lugar material movil coca entregar rcn ser atacar destruir medellin atlantico cincar juan llegar investigacion meter desarrollar motocicleta movilizar caqueta hecho mujer agostar operativo "lunes adscribir derecho uniformar calibrar nuevo perteneciente abril autodefensa atentar operación vario página" comandante operacion luego basar murio cucuta "miercoles antonio cartucho sitiar magdalena metro galón muerte hora poblacion pais "domingo area adelantar c sur junio llevar julio accion barranquilla radiar vida jefe comunidad enero "viernes risaralda "jueves radiar" tolima septiembre calda tras marzo caracol" acordar cartagena febrero dispararhacia bogota control caracol urbano caleta momento "sabado buenaventura antipersonal efectivo cargar centrar blocar instalar emergencia capital universal" seis conducir organizacion humano columna violación cocaina gaula farc" manera denunciar informar deber procesar vehicular coronel ir tipo vivienda cercar marino prevencion asi n transportar andres ademar familia comerciante riesgo pais" nacional" seguridad delinquir portar putumayo servicio mayar jesus marcar funcionario diciembre guerrilla cadaver finca causar millón maria tenia segundar especial campar cti estupefaciente estructurar humanitario chocar manuel lopez mesar rodriguez enfrentamiento division region joven proveedor alberto traves si ultimar participar Figure 4. Gr´afica utilizando Word2Vec En la figura 5 se observa la relaci´on que existen entre los actores del conflicto en la matriz de t´erminos-documentos donde se observa que los actores con mayor repetici´on en el corpus son el ej´ercito y los paramilitares para la lista de t´erminos m´as frecuentes.
  • 5. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 5 aconsejar adscribir afrocolombiana alto aplicaria arnufo autodenominaron batallon becoche brigada caco cardiaco carnivoros carrusel chistian christian columna combatir contrato crearia crhistian cuadrilla desarrollar destruir dique division doris ejercitar eln eris excomandante exjefe explosivo farc frente gobernación guerrilla guerrillero idear insercion inyección justicia lain legislatura mancuso masacrar mellizo militar movil municipio nacional negociarlos operación pedregoza pempe perteneciente posdesmovilizados prometiendoles quedandose reaparicion recogian registrar replego rubinder salvatore sistematicamente soldar subversivo tarea tribunal tropa tulapas vereda bacrim ejercito eln farc paramilitar actores palabra 0.0 0.1 0.2 0.3 0.4 correlation Figure 5. Asociaci´on por actores Por otra parte, en la figura 6 para la matriz de t´erminos- documentos analizando los t´erminos frecuentes con los hechos victimizantes se encuentra una asociaci´on mayor entre los secuestros, los asesinatos y extorsiones con rescates y cobros principalmente, como era de esperarse. alias ano banda barrio cabecilla callar canchita captores capturar caracho carrera clan cobrar comerciante concertar criminal delinquir desconocido edad encargar enteraria extorsion extorsivo fatidicos finqueros ganadero gaula irwin jossuet liberacion liberación liberar loango merito meterlos norcacia ocurriria paramilitar perpetrar pesadilla plagiar podiamos rescatar secuestrador simple vallar asesinar desaparecer extorsionar masacrar secuestrar actores palabra 0.0 0.2 0.4 0.6 correlation Figure 6. Asociaci´on con Hechos victimizantes Lo interesante de asociar los t´erminos con los hechos victimizantes es porque permite darle un sentido sem´antico a las asociaciones generando las palabras m´as frecuentes con las que estos est´an relacionados y de esta manera predecir las posibles frases de los documentos presentes en el corpus. VI. AGRUPAMIENTO Consiste en agrupar los documentos similares de acuerdo a caracter´ısticas relevantes detalladas en un vector a los que se les asigna un peso, que generalmente corresponde al valor que se obtiene una vez se ha fijado la medida de similitud con la que se har´a el agrupamiento. Para cada una de las medidas de similitud se obtendr´an distancias diferentes que alterar´an las agrupaciones. Teniendo en cuenta el esquema general presente en la figura 3, se realiz´o la correspondiente transformaci´on TF-IDF a las matrices tanto la de t´erminos-documentos como a las de documentos-t´erminos, se procede a realizar la normalizaci´on y el agrupamiento jer´arquico mediante una filogenia para la matriz de t´erminos-documentos y dos agrupamientos para la matriz de documentos-t´erminos, K-means y un agrupamiento mixto que incluye un an´alisis factorial para reducir dimen- sionalidad seguido de un K-means, uno jer´arquico y de nuevo un K-means porque de esta manera se hacen las correcciones pertinentes a los m´etodos si se trabajaran individualmente. A. Jer´arquico Los cl´usteres jer´arquicos dan como resultado una serie anidada de particiones, la forma de operar es de manera general, partir el n´umero de grupos en el n´umero de individuos que haya en la muestra, se selecciona una medida de similitud y se van asociando los grupos que tengan mayor similitud. Este proceso contin´ua hasta que se forma un solo grupo, se alcanza el n´umero de grupos prefijados o se tiene una significancia estad´ıstica para seguir agrupando los grupos debido a que no son lo suficientemente homog´eneas para aceptar una agrupaci´on. La ra´ız es el conjunto de todos los documentos, las hojas son los documentos individuales, y los niveles intermedios son conjuntos de documentos agrupados por similaridad de caracter´ısticas relevantes. ad ulto ant ioquia bell o cap turar edad fiscaliageneral hab er investigacion judicial me dellin menor milicia mun icipio nacion pare cer participar po pu lar pro ce so sos pec hos o terr oris ta ejercita r farc p mie mb ro santan der subvers ivo barbosa bl oq ue ar brigada con trol el np guerrille ro sitia r su pu es to tro nc al tropa arau ca combatir des arro llar farc morir ope rac ion rural soldar tam e tres xv iii zona anoasesinaratlanticobarranquilla ciudad desconocido pab on ós ca r corregim iento ja iro lom a pie de cu es ta se villa bo livar cadaver ca rta ge na hallar hombreident ificar an to ni o barrio cabrero cucuta esco bar jo se lu is m an ue l norte al be rto ca lda chinchina osp ina rod rigu ez m ar tin ez varg a bui trago sam ana apro xima dam ente desconocer ide ntida d mujer vallar yum bo cali ca rlo s castrar ortiz taxis ta autodefensasp autor idad barrancabe rmeja comite co ord ina do r frus trar intentar m ar ia organizacion patricio pe rp etrar pertenecer plag iar polici a pr es un tamen te ra m ire z resi den ciar sacar segun tra s agua blanca caic edo distrito ubi car he rre ro jh on wils on accion cam ilo com una l da za fa bi o jun to pre sid en te ra m on fre dd y ga rc ia jo hn man iza les plaza jaram illo m au ric io co rdob a meji a mont elibano wi llia m aguirre colorar ju an pereirarisaralda finc a re tirar vere da bajar colombia comu nic ar conocercuerpo pu er to sen ale s tor turar trocha acosta arley are na r bajo batallo n cauca co lum na dar hila rio inf an ter iajac ob o lo pe z mo vil presenta r edadp guevara mendoza moto taxista raul sinc el ej o su cr e brazo cort e sandov al sant o victim ar casi cien to cin car colo mbiano considera r des plazam iento despu es expli car gr an de mas mi lló n mun do solo terminos ultim os agente frente juris diccion libertad or sie te sujeto alia s billa r ca qu et a flo re nc ia pre sun to quotel are a arroyar fusil er o ma rin o penar ra fa el wi lm er autod efe nsa co m an da r cuatr o cundina mar ca gru po inte gra nte resultar tib u ca rib e co njun ta r fund acio n magdalena muerto algeciras ataca r ayudar ca us ar est aci on huila incurs ion m at er ia l varios insurgente pu tu m ay o cerca r ce sa r co da zz i divisio n och o orien tar andres ce rca nia s eln sala zar da be ib a militar sei s xv ii arau quita car gar dinam itar ener gia espera nzar ins pe cc ion ins tal ar mom ento torra r alon so bug a cuchillo fra nc isco go be rna do r he rm os o ho m ici dio indigena pa ez resguardar ca mp es ino hostig ar puen te er p an fo ar tefac to con trolar des trui r ex plo siv o kilo loc aliz ar ma ner a me tra lla ab an do na r en erge tic o especial form ar fortu l im po rta nt e plan unida d via via l cab alle ria cilindr ar contreras de sa cti va r ga br ie l gr an ar libr ar mecan izar mo rte ro piza rro sara vena ate nta r co mp on er nac ion al po sibl e ant iexplo sivobom bocar ro exp erto tar ra vehic ula r ca bleel ec tri co s es to pí n gram o ileg al metro mi l pentolita mi na r an tip erso na l boy aca incursionar ca m po ce rro desc ubrir sector ca mp am en to ca pa cid ad de sm an tel ar ga ita n instalación me ter pe rso na sp rio ar tesa na l ca lib ra r ca lib re ca rtu ch o di fe re nt e disparar es co pe ta fa br ica cio n inca utar largar llamar marcar re vo lve r fu sila r pr ov ee do r ga lónga solina tie rra lta ar io aur elio beltran com ún delincu ente dieg o encontrar gaula go m ez rescatarsecuestrar carre ter o fuego luego pa na me rican o sab anatorr e adem ar cos ta dese mpenaba indigenas represen tante ric o casar ganadero iva n jo rg e ma tar m ig ue l nue vo urb an o ar bo leda bus cond ucir inc en dia r pasar pub lica r servicio herir men os unirma ca ren a pro pie dad cae r ca mp ar mo viliza r pa tio sem bra r ca yo en via r ingenieropar do patrullar ca rm en alex an de r castillo dan iel du ra r luna mosquera m un oz pino popayan ca rd on a de sc om po sic ion habia montoya or illa r riofrio sep tiem bre gera rdo lider rosa armar cad ave res com un co nt en ia fos arhab rian ov eja vic en te bucaramanga unive rsid ad con ocid o emboscar localidad estebanrivera bue naventu ra walter m an ir man o pie tenia ve ga res to ho yo ramo bo ca cuyo estab lec er jamundi pa lo vida personar villa ads crib ir de te ct ive gu aj iro he rn an de z rio ha ch a tulua co nc eja l or te ga seg und ar banda jaime sicario victoria tov ar hijo julio pachec o soledad ed ua rd o mag an gu e mecer ál va re z ca mi on eta dias hab ian malam bo rete ner rojo tenian tra nspo rta r gon zalez turbaco ca rta goco rre ar he ct or ado lfo caminaren riq ue hacia au gu sto cano fe rn an do franco hermano liber tar ve las qu ez acevedo cabecera coman dante henrio iii municipa l trata r igle sia padre pe re z senora tambien rey lla no rionegro angulo au c de lito diaz dis tin to ordenar pa blar pesa r robert o dep artam ent o inte gr ar es pe cia lizar perim etro pertenec ian casanare he rm an ar jefe sur bo rda r cabeza comunidad eje cu tar fu sil re co no ce r tiro alir io cecilia politica ch ala r alto ca sc ar cilindr o jam ba lo mo nta no núm ero po lvo ra pr ep arar tor ibio dejar tec nic os cada neutr aliz ar ar till er ia bogota en co nt ro ho tel junt ar tecnico central efrain tipo he ch izo palm ar vis tah erm os a cas tano disparo em plea r enfrentam iento es table cim ien to interior lidera r marta merca r m ilim et ro s pi st ol a blo ca r tolim a ne gro per ten ecient e viviend a cagu an esposa r flor mesa r mill er xii dom ingo pob lac ion des apa rec ido gue rrill a m en de z pe tard o poder pon er re gu lar jacin to au tom oto r co nd uc tor hace r je su s oc up an te orlar pasaj ero pr en de r civ il la nz ar pol icia s vecino comunitario madre sin dic ato centrar co mer cia l da no s det ona r neiva repor tar em pre sa volv er quem ar ele ctr ica ped ro trujillo vo ltio accidentar kilom etros tra nsitar mu riopis ar do rar álv aro comercian te estr ellar sobrin o ge rm an kilo me tra r mar alcalde secretario sergio calima erne sto gil julian bolsa pla sti co hernando delgado joaquin m ed ina paz rin con rodolfo abrir bo nilla nar ino rosario m er ce d jim en ezsa nc he z martin m or al izquie rdo hu go vict or fis ca l ignacio da rio mo nte ria hecho obrero poblar esposo pla ta pic ar inter cept ar ituango omar coleg iar rica urte ne lso n patinar co nc ejo gu tierre z pistolero án ge l bautis ta os or io qu in te ro ma rin quind io traba jar fuen te leo n molina ciudadela hu mbe rto co ro za l go lp e vario alc ald ia bermudez ber nar do ener o montar ob tene r paraj e realiza r ret ar viajar zuluaga ar tu ro cru z ru iz su po ne r com ision la nz ag ra na da s llegar media r com pan ia em ilio tie rra cabecilla gu er ra diez ma xim o ope rar ag ua r lan ge scosp an el ie ce r quedar en fre nta r co nt ra gu er rilla entregar volun tar iam en te banco ba sar de sm ov iliz ar once camion xiii ca ja cti escond er m ai ca o ag us tin ca le ta ca m pa na co rd on de to na nt e eq ui po pr im er o ure a ba rre r co m un ic ac ió n du pl ex ibag ue in du ge l lent o m ec ha r ra di o un ifo rm e ver be lico ca m uf la r fra gm en ta cion m ilím et ro radiar sig uien te tra mp a ch oc ar cruz ar ade lant ar an tio qu en o con jun to activar av alu ar cio ne sdih ingr esa r muer te ocasionar principal produ cir afirm ar amenazar de m as pr en sa r ard ila as oc iac ion cir cu ito estan funcionario informar vo ce ro ex plot ar familiar funcionar her ido sp local ola ya infante narvaez palm ira ciudad ano escapar llev ar log rar selv a so la no bal boa cu ar tar sig no ve la sc o guerrero elen a administrativo atribu ir auxiliar dobla r plan et a amigo palacio tum aco moreno ni no union detener da gu a ordonez castaneda giraldo elk in vale ncia glo ria vin cu lar parra alred edor ind ust rial parqu e cri sto ba l coc orn a exp resa r inc ine rar queb rar rod ea r lle ra s gus tavo liber ar asesina to co nd en ar cons ejo de fen so r derecho dia humano octu bre pa na m a cua drilla efe ctiv o cien ag a fab ric ar dos que bra das fabian becerro ep l qu inc hia forzar sost ener tarea cacique ca rab ine ro es cu ad ron per son al fu er za responsable sedar ca ne ca mar isca l ca lot o construir serio cuidar ni ng un o de pa rta me nta l marz o piedra seccional des plazar muerta an or i cu ltiv ar ded icar afe cta r ele ctr ico za mbr an o co nv en cion mi raf lor es oleoductotramar az ul ne po muc en o benitez cerca no lin ea r oblig ar res trep o com une ro villa m izar pa tia cor ral guzma n tejar cab o saldar provocar m ar io su ar ez al fo ns oda vid callar romero lond on o limon ja vier ur ibe ag ua ch ica el ia s pro fes or aeropuerto infraestruc tura pl ay a to ne lada padilla ric ardo soto puerta cerrito derribar ve rg ar a ge re nt e ma sivo oc cid en te sistema vias or oz co florez calificar ca rce l hurtar po rta r pr isi on ga lvis pand illa crudo proc ede r blan co ed wi n jair ana isab el rio s des apa rec er cristian gregorio se pu lved a veh icu los arango luz barrera as eg ur am ient o dictar he ro es m ed ir ve lez partir pr es um ir ramiro ant iperso nales ch ino gas ope ración registra r ab un da nt e m ilic ia no carde na s ma nda r ser sindicar hac end ar pagar ex plos ion inte rc am biar mo nta no sa pr ov en ien te se ria r pu nt o alejandro ha cia n profesional mo ro cien escuela pe rte ne cia corin to m un icio n tal ler ca no n va ld ivia pa raiso arm am en to lan za mi en to tub o in te nd en cia ele men to es talla r acto jui cio pre dio recoge r segu ir tra ba jad or arrieta diana págin a num erar ap arec er cir cu lar droga r firm ar pa nfl eto vivir ag ru pa ci on coordinacion m on ta ni ta tam bo docente alertar bo scoso hab itan te inm edia to tu rb ar caro dive rs o ren do n castellano alc anzar nina tor o fre dy alf red o oscar polo mo vim ien to za pa ta policar pa leonardo ve rde airebue no martha clau dia intimidar no m br ar oc am po pro pie tari o vas que z vis ible as is prad o cobrarextorsionar m in er o yar um al inme diaci ón oc ho a tole do ag ud elo m on te ferna ndez gallego hernan calderon pita lito ro qu e gu am ue z acercar gua rda cos tas lancha mad er ar segu ridad be ne fic iar de ten cio n ag ra va r extorsivo ilic ito s m ed io pr oteg ido tentativo terrorismo co nc er ta r de lin qu ir juni o ley map iripa n mar ge n mien tras perm anecer cha parr al apoyarred detenido ho nd o santiago reg ion fina nci ero coordinar log istico cocar accionar an ibal sen ala do va lle du pa r bagre rif le qu iro z for ero jovenlugar patruller o teo filo ultimar ba lón dis trib uir kilog ramo con trol ada me nte alb erga r ga na r finanzas saen z decidio ga lil lib an o presionar or ito m oc oa barbac oa ac us ar residente ca uc as ia serrar ca tat um bo combatiente tulio extorsion ind io pa ramilit ar ariza rob ins on termin al est udian te agos tar gracia flo rid o pr ad er a henao ma rulan da ap ar ta r sa lar gu ille rm o an se rm a bedoya floresta co mbu sti ble ve nd ed or ecu ator iano nicolas educa tivo ins titu cio n oc an a oficia l denu nciar or ga niza ció n social dir ige nte es pe cia lm en te hospital salir de sm oviliz acion proce sar rebelion competentedisposicion ru be n pa sta r encargar mismo rec lutam ien to vivere s dicie mbr e deco misar ab at ir co nta cta r esme ral da de to na do r so lid os in el ec tri co s carga mento gu av iar e ope rativo qu ibdo embar cac ion co m un ic ac io n producto unif orm ar m ut at a salio plan ad a mo toc icleta trasladar m az ar sa rd in at a vie jo au nq ue emb arga r est ruc turar co rpora cio n fig ur ar jov en es mediante nin os inm ueb le acabar ch aira reunion itag ui duque ce re te ca nd ela ria lunes den tro agricultor ro da r tomar vigilante perdom o altura jardin respectivamente com erc ializar na va rro vill eg as arg elia republica cuba ke nn ed y pais reg res ar sema na ven ta fro nt er o comuna anterior aseg urar po litic o buscar captores habria ha ca ri noviembre fam ilia m an ej ar opinion periodis ta ca lam ar anun ciar comis ionar mes ayer co m er ciar de be ra n febre ro justicia ocurrir pe na l re sp on de r re sp on sa bil ida d sabotaje su bo fic ial capital juzg ar senalados garzon centauro felipe clinica alda na cep eda co nfor mar pre ten dian on ofr e cab alipiales metrop olita no ba te ria s volu ntar io presion taxi campoalegre laborar vigi lanc ia mur illo abordar petrolero pr od uc cio n cl ar o de str uccio n terc ero teo ram a preten dia corone l an da r des tac ar ca ce re s he cta reas libard o albeiro env igad o lucio sa lce doqu ino ne z lozano isla viern es caserio pa lm ito recibio ro nd on actividad con trat ista parir recib ir acor dar deber liberacion reclu ir solicitar ve rs io na r yesid galan ba na ne ro huir ajustarcuenta usar ae re a ataque de tec tar inic iar me se ta decir sufrir policial buenavista concentrar cr ee r gober nar re m ed io ub ica cio n conflicto impactar ofic ina preo cupa r refugiar te rri to rio pre sen ciar ca rvaja l maya r brice no jue z co mp an era se nti me nta l incluir flu via l inteligencia redar co rto m un ici on ar brisa de po sita r cum plir fu er te pe rso ne ro cu sto dia r des min ado su pe rio r perd er estrada mas ac rar se na lar on ve sti r alexis perd ido pe so pin ed a benito igua l sen tir ber rio ca rgo tardar ma rque z em pr es ar io human itario man data rio ne go ciar permiti r sena lo bienestar corr er fisico nación se nt en cia r villav ice nc io abril gilber to pa rticip ac ion se go via pla ntar ve ne zo la no ve ne zu el a pis tar barbar isidro se ba sti an proteccion ac pm sumo arro jar nue ve me dic ina r direc tor activac ion res puesta de no mina r or ar ga ba rra post eriormente balar reg ion al salud su pu es ta m en te traves miran da pinta r edgar liberal bosq ue natur al lor ica avenir fase fin al ad ve rti r ambo s defens oria tene rife requerir sen ala envo lver ocult opaqu ete rumbo dir igi r secuestrador pac ifica r tem or zara goza prelimi nar afil iar au tom ov il balear pa rtic ula r prestar carrera es co lta r ca de na xiv parejo rod rig ar av an za r au n confirmar de sc ar ta r es tab lec io mision orga nism o total verificar vis itar agreg ar ini cia tiv o co m pu ta do r informacion de cis ion eje cu cio n pr oc ur ad ur ia doc umentar intern acion al m an te ne r relacionar prevencion gu ard ia zu lia lim ita r aprehender autor do nc el lo vii utiliz ar ilic ita emergencia situ acio n gravar medicos po bla ció n ta ra za des apa rici on indic ar ur ra o vez exde vil lanu ev a man ifesto ca pi ta n esquinar listo vie nto gravemente hora atender violencia suministrar batalla r an tip er so na harold ramp a ab og ar rut a actua l vich ar bien dano de be ra lesion ar ecu ado r po pa alusivo do cu m en to man gu er a obje tar asi escondite repeticion prop io son son afor ar sijin sam anie go go do y minut o entrar ur ba ni za cion impacto plen o alla nam ien to razon destin ar proyectar reparacion entid ad at ra to ori en tal comete r se cu es tro co nc or dia ma nu al po tas io pr oc ed en tem ay or ia eq uip ar programar cu ltiv o err ad ica cio n ca nd ida to gaviria floridablanca medica r tenie nte ocurrio testigo co m pr ar ad ole scen te juev es perd io ac tu alm en te alli es ta ria est rategi a hog ar mini ste rio dolar presidencial vigente profi rio elaboracion ce lu la r charco nav al evitar fin nevada m en cion ar co lor ch al ec o in te re s de fen sa paul ar diag on al proyectil des ple gar ve nir con stru ccion ág uil a do ce esp erar inici alm en te moto giron yopal de leg ar implicar exigir ilic ito investig ar enlazar alc alo ide ho ja lab ora tor io pro ce sa mi en to tiem po sa rg en to quilic hao multiples res ist en cia pr ivat ivo manana unive rsit ario viii conta r ad mini str ad or diario ma rch ar me ns aje preocu pac ion sus tan ciar gravedad propinar serna be le n salga r balacera quinto hab lar individuo sep tima tender com enz ar teme r eje as al ta r marco brindar nece sario ejer ce r de te rm in ar calarca sen or grave sufrio comprender do n instituto rio su cio ... dijin atencion nadie po dr ia rcn sino citar mir ar inve stig ació n senalan bli nd ar co m pu es to im pr ov isa r can tida d po ste rio r tri bu na l quer er cubri a represen tar nieto auto parrillero úsuga dinero gra n ro ba r co rta r fal lir mot ivar ent errar gen era cion erradic ar man ifestar orden cambiar dec lara r objetivar alimento pierna tirar costar sujetar may or calle se xto au die nc ia cua lqu iera jorn ada pre cisa r ser a continuar crimina l ddhh inte rve nci on m en su al in vo lu cr ar simon pa trio requisa r do lor ha lla zg o fila rec lutar po blad or leg uiz am o intim idac ión finar ba raya fallecio de cim a de tra s am on iac o narco tra fico tra ns po rta do r term ina r me rid ian o problema co ns ec ue nc ia gira rdo t xx x luch ar fals o martes minis tro reso luc ion sol icit ud luc ian o puesto metali co s ac on dic ion ar noticiar asistenciatecnica compromiso anali zar co nt inu o se lec tivo prote ger cla ndestino dir igi a caso observatorio sensibilizacion terrestre vicepresidencia rec ha za r incidente narco traficante pedi r co bij ar carte l abu rrir es ta ria n retén irreg ula r pechar materia cum plim ien to crimen la do garantias ofre cer escuchar de sa pa ric ión ig ua lm en te leg al pidio al gu n seguimiento dios delictivo ofe nsi vo co nfi an za ur ab a tra fic ar emprender incau tacio n perm itio inv es tig ad or violento efec tuar integral de linc ue ncial pirateria tra nq ui lid ad valor ah or a cerrar inte rve nir saba do conten er ac tiv o co m plejo ca lix to de to na cio n hoy increme ntar noche ser an pelig rar ma tea r silva arrib ar fuga r agresor ce me nta r emp ezar go be rna cio n ins titu cio na l del incuen cia organizar pla ca flagrancia sorprender pil on oc cis o vige sim a reserva r violac ión ten er pla sti ca s espalda exis tir hostigamiento pe rm an en te co rre sp on die nte ins um o flaco go rdo reac cion bulto em pac ar antinarcoticos pues repetir riesgo aumentar alm ac en ar direccion gen era r es tu pe fa cie nt e distrib ucion tra ba jo am et ra lla do r ocu ltar so da hera ldo em itir iden tific acio n mo no liq uida ractualizacion de ta lle dir ec to ten dria labor exigian patr ulla je octa var carac ol ante cedente tanq ue sp an en movile s palabra re ve lar cr im en es di sp ut ar litr o rev isa r caldo no arme nio reto rna r evento ve nia cont enia n alm ac en am ien to nota r com erc ializ acion interp ol asim ism o ac ida r su lfu ric o acopiar ve nd er re cu pe ra r oportunidad mierc oles most rar esp ecta dor pr ue ba tal información proba bilidad en to nc es co rre sp on de r paradero torax aprovechar bus que da fec ho re la ci on al gu no bitacor a cifra r tan con dic ion ar ning un re co rd ar resid ia constan te hu m an id ad suce der alu cinoge nas co ca ina qu im ico s alu cinoge nos sangrar integ ridad vivia ev iden cia r gri s saber om ega adminis tra cio n eme rgen te co nt un de nt e homicida re sp ec tiv o madrugar esp aciar ras tro jo versio n info rm e asisten cial ac ep tar acom pa na mien to ga ra nt izar oriundo dili gen cia r mo rgue cas trense temprano at ra s infracc ión al ar m ar liq uid os fin alm en te oportuno croni ca territorial da to pr op os ito mo da lid ad ca us tic a clo rhidr ato promover conocio un ive rsa l vanguardia perte necer ia av isa r golfo cin ar uc ovo z en vio aproximar bo m ba rd ea r ca lor ía misiona r m ov ilid ad subdireccion exclusiv o ilicitas pe rm an ga na to pr ac tic ar vio len tar funcion historico vita l sicaria l proyecto clan paisa s pos itivo es clar ec er ap olo metodolog ia lev an tamien to remitir basico vulne rabilidad ma rihu ana inmo viliza r exp end io mo rta l urgenc ia nivel tendientes ae i relatar revistar fallecer libe rac ión hi po te sis im pu tar ciu da da nia obs erva r rec urs o co no cim ie nt o de sa rtic ula r so meter ba cr im kit m in er ia ca rce lar io se mi lle ro urabenos potencial formulacion baz uca r ho rnomi cro on da s aluci noge no cr ist aliza de ro dos is clasificar inm ed iat am en te entender resti tuc ion proc edim iento afec tacio n psicologico antildeos bit ac htm l inc au tació nverificacion balazo definicion interins titucion al manejars e mitigar prudencia retención uariv utilizarse m apm us e acontecimientoglosario desmovilización ant inarcó tico s trig es im a de sactivació n pro toc olo peg aso vu lca no cmjt transicional ocurre ncia honor m icro tra fic o hsb soc iali zar subcomite injerencia judicializacion contingencia imp lem ent aci on gent e pe rc at ar compo rtamie nto dimension ar estad istica irv multiv ariado victim izacio n índice aprobacion sppgnr ctjt cua drante hs bn ot ici as Figure 7. Asociaci´on Hechos En este algoritmo se utiliz´o como medida de distancia Ward, porque agrega los grupos teniendo en cuenta la varianza e incluye las relaciones entre los puntos pertenecientes al grupo respecto a la relaci´on con los otros grupos.
  • 6. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 6 B. K-means Este algoritmo permite hacer el agrupamiento con un K ini- cial que es ajustado por el usuario teniendo y la inicializaci´on de los centroides. Para este algoritmo se corri´o la gr´afica de ”Elbow” para conocer el n´umero de clusters adecuados como se observa en la figura 8 debido a que los tiempos de calculo son elevados no ha sido posible tener resultados para este algoritmo. Figure 8. M´etodo de ”Elbow” para analizar el n´umero adecuado de k para el algoritmo C. Mixto Aplicando la estrategia de Lebart [99] la cual se puede resumir en realizar un an´alisis multivariado adecuado (cor- respondencias simples) para los datos, posteriormente sobre las proyecciones de los individuos (sobre los primeros 20 ejes factoriales) agregarlos por medio del m´etodo de k-means, con un n´umero elevado de puntos, posteriormente sobre las clases obtenidas se realiza una clasificaci´on jer´arquica y posteriormente, con el fin de evitar el anidamiento propio de los algoritmos jer´arquicos, realizar un nuevo an´alisis de k- means de las clases obtenidas del dendrograma y con ello se obtienen las clases consolidadas. Posteriormente se procede a caracterizar las clases obtenidas en funci´on de variables ilustrativas, se utiliza el criterio de los valores test (Lebart et al. 1995) [11], utilizando el paquete FactoClass (Pardo & Del Campo 2007) [12]. Los valores test son cuantiles de la distribuci´on normal est´andar que detectan las categor´ıas de las variables cualitativas que caracterizan a cada uno de las clases, en el sentido de que su porcentaje dentro del quintiles razonablemente superior al porcentaje global, esto es al porcentaje de la ciudad. Para las variables continuas los valores test resultan de la comparaci´on del promedio de la variable dentro de la clase con el promedio global. El m´etodo de Ward es un procedimiento jer´arquico en el cual, en cada etapa, se unen los dos clusters para los cuales se tenga el menor incremento en el valor total de la suma de los cuadrados de las diferencias, dentro de cada uno de los clusters, desde cada individuo hasta el centroide del cluster. En la figura 9 se tiene la distribuci´on de inercia para la agregaci´on de las clases. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Figure 9. Distribuci´on de inercia agregaci´on clases - Ward En la figura 10 se observa el dendrograma realizado para las clases de la matriz 7052488497449014777712999256135639659931288318931162667153120540574590986867397802444857149604394461124928341936038413874627434717996820988344503948963272801885339525756377634562023610942779382548935352164556781340269788798589593317821822923159636074779555881299526367530681108184674331005244009902564882709082116304635411903646953325504668461124848224130465595651661086652750099422678217935331259393381043542234369041733524079492281598505456933712486836536625785416712588868648649782455458739900407908532555305642014144258583833845111595910512376869091368596710162118765123940568614542189113388030184372076915162251180423867658799757665077353752668561975526196945913491074183516522729323774492794923102833488065174797069745149949691854288567839171337566582111639076617176550468421283031832671113359435117466387616346015469965282355628875196290841355135807362679906113594872204863112455848907275749130330117260473608852485902656736235848181767815798881928199722389707667864063391575256260094237115542043847529641161145622926175267341647125870707157509822141113955199189966471454760595038479610626832339978164334270498397097976297621525898175893198606912962322220821843975850242328246943345735844432553398367729572847205661364670183630640920372882629542928472145971679295114625156888853987760786921636678863563896276190349633333319325631725905929798095227844105078893838554502473029870819424943516163968883274866680054995738549187444071062969329463466575599935844225857073244156189316114471487436579684996606778991329163272178452280238616752691117022468711089615637048714091635183437449302895629847438058663186733142581305805941978496940958291378614622068037379381621957607779925565818327226816582759574571689341223634655574476546691291346422918281509916024016689238762494796052975394553164646923427313940159560618163506735854812725238281937455970083330895579717797311819181737598092758992083137666492273738434672989609393137518589213072627573682769045495861789041277636957981023286219277286497217232027472818357213372322510343696614233593404528498152225202879840873310264346336977128808998309563107453219220726752670687637968053814282164569740413791813592214459812696147151213624478770523535131253478321662615489935209642547175027752375325369468725043351859747085915864478910003785957279445097135556921032714643224774558097150657887141744350847648195420785505799300659302493641315842467778613882349381824303188408448778141762929756561693728831279551989667243145162825737791916957741888471828134011993121266742493269126528559215376444512175639148391439298155492495320942371975449460173182740362727838821084529787826513689734544802060268289770383726981122117515200860277446156836679396771885542640851926143546854324198396124155718697514796516070980141431361543241702102180230544448244936363296985014193344683737794257234308862436553493357391547489474286578793690943426287987495583490497780286365 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Indexes Figure 10. Dendrograma seg´un clases