Implementar mítodos de minería de textos para preprocesar, agrupar, asociar y clasificar datos provenientes de noticias
relacionadas con el conflicto armado en Colombia, que permita relacionar hechos, lugares y actores del conflicto en el periodo de 2001-2017.
Análisis del conflicto armado utilizando métodos de minería de textos
1. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 1
An´alisis del conflicto armado utilizando m´etodos
de miner´ıa de textos
Daniel Alfonso Garavito1 y Ana Estella Pulido G´omez2
Abstract—En Colombia el conflicto interno ha tenido una
permanencia extendida por m´as de 50 a˜nos, en este tiempo
las v´ıctimas del conflicto no han sido reparadas, la ”Unidad
para la Atenci´on y Reparaci´on de la V´ıctimas” ha desarrollado
unas bit´acoras diarias de eventos que recopila, caracteriza y
sitematiza la din´amica de la violencia que ocurre en el marco del
conflicto armado, para poder reparar de manera eficiente a las
v´ıctimas. En el presente trabajo se utilizan m´etodos de Miner´ıa
de Textos para hacer el an´alisis de dichas bit´acoras incluyendo
preprocesamiento, asociaci´on y agrupamiento, generando una
nube de palabras que permite tener las m´as frecuentes para
cada uno de los grupos.
I. OBJETIVO
Implementar m´etodos de miner´ıa de textos para preproce-
sar, agrupar, asociar y clasificar datos provenientes de noticias
relacionadas con el conflicto armado en Colombia, que per-
mita relacionar hechos, lugares y actores del conflicto en el
periodo de 2001-2017.
II. INTRODUCTION
LA historia reciente de Colombia es la historia de un
pueblo en b´usqueda de La Paz. Dentro de los elementos
sustanciales para lograrla se encuentra la verdad, la justi-
cia, la reparaci´on y la no repetici´on; elementos que est´an
´ıntimamente ligados a los acuerdos de La Habana. Dado que
el principal objetivo de la Justicia Transicional es esclarecer
los cr´ımenes que se cometieron durante el conflicto, para ello
es necesario la construcci´on de memoria hist´orica que permita
castigar a los culpables para finalmente reparar a las v´ıctimas
ya sea material o simb´olicamente.
Las noticias corresponden a un tipo de informaci´on p´ublica
que presenta caracter´ısticas muy particulares, diferentes de
otros tipos de textos [1]. Proveen grandes y recurrentes
cantidades de recursos de informaci´on [2], tanto de eventos
actuales como hist´oricos [3] y cuyo prop´osito es provocar
un impacto en el lector [4]. Las noticias reflejan el punto
de vista de una sociedad, grupo o individuo sobre alguna
tem´atica de inter´es de forma casi instant´anea una vez que los
eventos noticiosos ocurren, escritos en general en un formato
y lenguaje de reporte period´ıstico [4] [5].
1D. Garavito, Faculty of Systems Engineering, National University, Bo-
gota, Colombia
2A. Pulido Faculty of Systems Engineering, National University, Bogota,
Colombia
Con el fin de contribuir a la elaboraci´on de memoria
hist´orica, la ”Unidad para la Atenci´on y Reparaci´on de las
V´ıctimas” ha elaborado la bit´acora diaria de eventos. La
bit´acora tiene por objetivo crear un documento diario en el que
se recopilan, categorizan y sistematizan eventos relacionados
con la din´amica de violencia que ocurre en el marco del
conflicto armado. Con el fin de mejorar la oportunidad en
la atenci´on de emergencias humanitarias.
Est´as bit´acoras generan insumos para la elaboraci´on de
an´alisis de riesgos a nivel municipal, departamental y na-
cional. Se pretende analizar dicha informaci´on con t´ecnicas
de miner´ıa de textos.
Para el an´alisis de grandes cantidades de informaci´on con-
tenidas en textos, se busca extraer aquella que sea ´util, a trav´es
de la identificaci´on y exploraci´on de patrones interesantes que
no son evidentes. La miner´ıa de textos puede ser definida
como la aplicaci´on de algoritmos y m´etodos de los campos
del aprendizaje de m´aquina y estad´ıstica sobre los textos con
el objetivo de encontrar patrones ´utiles [6].
Las presentaciones de datos para la miner´ıa de datos cl´asica
y la miner´ıa de textos son bastante diferentes. Mientras que
por los m´etodos de miner´ıa de datos se ven los datos en
formato de hoja de c´alculo, para la miner´ıa de textos el
formato inicial sigue siendo el de un documento. A pesar de
que los m´etodos de an´alisis para textos no tienen en cuenta
conceptos gramaticales o sem´anticos, se aproximan bastante
bien utilizando las frecuencias de los t´erminos.
Uno de los temas principales en miner´ıa de texto es la
transformaci´on del texto en datos num´ericos, por lo que
aunque la presentaci´on inicial es diferente, en una etapa
intermedia, los datos se mueven a una codificaci´on cl´asica
de miner´ıa de datos, representados en una matriz, haciendo
que los documentos se conviertan en datos estructurados.
La representaci´on de un documento de texto se basa en
las palabras, por el modelo de ”Vector Space Model” (VSM)
[7], que corresponde al conjunto de vectores que representan
todos los documentos, que es utilizada en el procesamiento del
lenguaje natural llamada de igual manera “bolsa de palabras”.
Con esta representaci´on un documento es considerado como
una colecci´on de palabras que ocurren al menos una vez, pero
no tiene en cuenta el orden de las palabras, la combinaci´on en
la que ellas ocurren, la estructura gramatical, la puntuaci´on y
el significado de las palabras.
Cada elemento del vector representa un t´ermino, ya sea
una palabra o un conjunto de palabras de la colecci´on de
2. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 2
documentos, el tama˜no del vector est´a definido por el n´umero
de palabras de la colecci´on completa de documentos. Se
puede representar la importancia ponderando un t´ermino
dentro del documento con frecuencias, contando el n´umero
de ocurrencias para cada t´ermino en el documento bas´andose
en la ley de Zipf, [8] que es usada en el campo del
procesamiento del lenguaje natural para desarrollar corpus
ling¨u´ısticos, ontolog´ıas, taxonom´ıas entre otras, debido a que
ayuda a identificar el contenido tem´atico de un documento o
un conjunto de documentos.
Se puede evaluar presencia-ausencia de t´erminos como se
observa en la Tabla I.
Table I
MATRIZ QUE REPRESENTA LA FRECUENCIA DE LAS PALABRAS EN
DIFERENTES DOCUMENTOS A PARTIR DE UNA EVALUACI ´ON BINARIA
• Documento 1: Ice creams in summer are awesome
• Documento 2: I love ice cream in summer
• Documento 3: Ice creams are awesome all seasons
icecream summer love awesome season
Doc 1 1 1 0 1 0
Doc 2 1 1 1 0 0
Doc 3 1 0 0 1 1
Se puede utilizar TF-IDF (Term frequency inverse docu-
ment frequency) [9], que combina la frecuencia de un t´ermino
con un factor de escala que da la medida inversa de la
frecuencia de la palabra en el documento completo 1. Lo
que permite no solo contar la frecuencia de la palabra en
el documento, sino modificar el conteo teniendo en cuenta la
importancia percibida de esta palabra.
tf × idf(t, d) = tf(d) × ln(N/df(t)) (1)
Donde tf(d) es el n´umero de veces que el t´ermino t aparece
en el documento d; df(t) es el n´umero de documentos en la
colecci´on de t´erminos donde aparece t. Hasta este momento se
ha terminado la fase de preprocesamiento, el paso siguiente
a partir de la matriz de t´erminos, llamado tambi´en corpus,
qu´e tipo de asociaciones y agrupaciones se presentan en los
documentos. Generando para cada caso una nube de t´erminos
que permite tener un panorama general de las asociaciones y
grupos formados.
III. MATERIALES Y M ´ETODOS
Los datos fueron extra´ıdos mediante un algoritmo elaborado
por D. Garavito para construir a partir de los documentos una
base de datos con las etiquetas y categor´ıas posibles a partir
de cada Bit´acora diaria de eventos.
Descripci´on de los datos Los datos cuenta con 44.206
entradas de noticias desde el 18 de Septiembre de 2001 hasta
el 18 de Septiembre de 2017. No obstante, estos n´umeros
pueden variar ante la posible adquisici´on de nuevos datos con
el fin de completar la serie hasta la actualidad.
La base de datos cuenta con un total de 8 variables dentro
de las cuales se encuentra.
1) La bit´acora diaria de eventos de la que procede.
2) La agregaci´on de hechos victimizantes
3) El hecho victimizante
4) La fecha
5) La fuente
6) El departamento
7) El municipio
8) El cuerpo de la noticia
Todas las variables relacionadas son categ´oricas excepto la
variable de la fecha, en la Figura 1, se encuentra un ejemplo
de los registros de la base de datos.
Algunas bit´acoras diarias de conflicto armado se encuentran
disponibles en https://rni.unidadvictimas.gov.co/bitacora. In-
dependientemente de lo que se quiera hacer con los datos que
se obtienen de miner´ıa de textos, se debe pasar por una fase
de colecci´on de documentos, preprocesamiento para obtener
una matriz de t´erminos con la que se realizar´an los an´alisis
respectivos. A continuaci´on se presenta un ejemplo de la
matriz inicial con cada una de las variables y en la ´ultima
columna la noticia completa.
Figure 1. Ejemplo de registro de la base de datos
Actualmente la base no se encuentra codificada a nivel
de hechos victimizantes y fuentes, ni departamentos, ni por
municipios. Este trabajo es valioso en particular por departa-
mento y municipio para realizar una georeferenciaci´on r´apida
de los resultados, partiendo de las noticias provenientes de las
bit´acoras.
IV. PREPROCESAMIENTO
Esta es la primera fase del proceso para extraer informaci´on
de documentos, transformando las palabras en vectores, que
ser´an procesados por m´etodos predictivos. Para esto es nece-
sario utilizar una serie de herramientas que nos permitan
3. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 3
limpiar los documentos y obtener una matriz desde la cual
se puedan evaluar y buscar patrones.
Se presenta un esquema general del preprocesamiento de
textos en la Figura 2, que empieza con la adecuada selecci´on
de los formatos de entrada, que para el caso de estudio se
utilizar´an pdf y HTML. Acto seguido, se realiza la fase de
tokenizaci´on o identificaci´on de las palabras, que requiere
definir los delimitadores de los “tokens”, que pueden ser
signos de puntuaci´on o caracteres no alfab´eticos ( () ¡¿! ? ”).
Estos delimitadores se separan de las palabras y se reemplazan
por espacios en blanco, por medio de expresiones regulares.
Dentro de las modificaciones que se le puede hacer al texto,
est´a la de remover ”stopwords” debido a que son palabras que
no son informativas al momento de caracterizar el documento,
como lo ser´ıan los pronombres, los art´ıculos, conjunciones,
preposiciones, caracteres propios de los documentos que no
afecten el cuerpo de la noticia si se remueven. Una de las
maneras de reducir dimensionalidad cuando se utilizan textos,
es quitar palabras que tengan poca frecuencia debido a que
no tienen una significancia estad´ıstica, lo que genera una
reducci´on en el tama˜no del diccionario. Para cada caso, la
lista de ”stopwords” es diferente y es susceptible al idioma
en el que se est´e trabajando debido a que cada uno maneja
unas reglas gramaticales espec´ıficas.
Figure 2. Proceso general del preprocesamiento para el an´alisis en miner´ıa
de textos.
En la fase de lematizaci´on y stemming gira en torno a
un objetivo similar que es la reducci´on de formas flexivas
y palabras derivadas de una forma com´un. Al normalizar gra-
maticalmente se reducen variantes como singulares/plurales,
femenino/masculino, tiempos verbales, presente/pasado/futuro
(Dependiendo el idioma).
Stemming es el proceso de cortar los extremos de las
palabras, llegar a una forma de ra´ız sin sufijos y prefijos de
derivaci´on o flexi´on. Mientras que la lematizaci´on utiliza el
vocabulario y el an´alisis morfol´ogico de las palabras y elimina
s´olo las terminaciones inflexionales para devolver la forma
base de la palabra como salida.
Por ´ultimo, se puede evaluar la riqueza en el l´exico del
texto por medio de la diversidad l´exica, que corresponde a
una medida de la amplitud y variedad del vocabulario.
A manera de resumen se presentan en la Tabla II, las
librer´ıas de R que permiten realizar cada uno de los procesos
relacionados con el preprocesamiento en miner´ıa de textos.
Table II
LIBRER´IAS DE R PARA EL PREPROCESAMIENTO DE TEXTOS.
PREPROCESAMIENTO
FASE LIBRER´IA DE R
Tokenizaci´on tm
Segmentaci´on openNLR
Stemming RWera
Lemmatizaci´on spacyR/wordnet
Diversidad L´exica koRpus
El preprocesamiento se realiz´o empleando los pasos men-
cionados anteriormente, el primer paso fue la estandarizaci´on
del texto eliminando may´usculas, signos de puntuaci´on y
acentos, adem´as de cualquier car´acter que no fuese una
palabra (@, #, entre otros). Posteriormente se eliminaron
palabras vac´ıas empleando el conjunto de palabras definidas
por el paquete tm y un otro conjunto de palabras construido
por los autores teniendo en cuenta las frecuencias de las
palabras, en total se eliminaron alrededor de 1000 palabras.
Para la lematizaci´on se emple´o spaCy, con lo cual se redujo
el n´umero de palabras de 44182 a 32738 (11444), con lo cual
nuestra matriz TD tendr´ıa 44206 filas (documentos) por 32738
t´erminos o tokens (columnas)
Adicionalmente spaCy permite realizar el reconocimiento
de entidades, aunque el algoritmo clasific´o como entidades
palabras que no lo son. No obstante permiti´o construir un
conjunto de entidades lo que facilit´o la creaci´on de la variable
actor a partir de una expresi´on regular con todas las acep-
ciones de un t´ermino en los documentos. La variable tiene
tres niveles, actor Estatal, Guerrilla y Paramilitar. A su vez
el campo departamento fue depurado empleando el paquete
stringdist y la distancia de Levenshtein, como corrector or-
togr´afico.
On-line Analytical Processing (OLAP)
Las t´ecnicas de procesamiento anal´ıtico en l´ınea (OLAP)
han sido utilizadas para analizar y extraer datos estructurados,
pero no se han generado m´etodos que permitan hacer el
an´alisis sobre datos no estructurados como lo son los doc-
umentos de texto. Para el an´alisis de este tipo de documentos
4. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 4
y la miner´ıa en datos de texto se han utilizado modelos de
probabilidad.
El procesamiento anal´ıtico en l´ınea permite hacer an´alisis
multidimensionales. OLAP consta de tres operaciones
anal´ıticas b´asicas a saber, la consolidaci´on o roll-up, el
drill down, slicing y cubing. La consolidaci´on implica la
agregaci´on de datos que se pueden agrupar y calcular en una
o m´as dimensiones.
El cubo de tema ampl´ıa el cubo de datos tradicional para
hacer frente a una jerarqu´ıa de temas y almacena medidas de
contenido probabil´ıstico de documentos de texto aprendidos a
trav´es de un modelo de tema probabil´ıstico. Para materializar
los cubos de temas de manera eficiente, se han propuesto dos
agregaciones heur´ısticas para acelerar el algoritmo iterativo
de expectativa-maximizaci´on (EM) para estimar modelos de
tema.
Sin embargo, para los datos con los que se trabaj´o se
realizar´an los cubos con informaci´on de las categor´ıas que
incluyen el a˜no, la fecha, los departamentos, el hecho, entre
otros.
V. ASOCIACI ´ON
En la fase de asociaci´on, se tiene una matriz de documentos
que ha sido previamente filtrada, donde se le han quitado todos
los caracteres y las palabras no informativas como se vio en
detalle en el preprocesamiento.
Se utiliza TF-IDF para calcular la importancia de las
palabras en el corpus de documentos. Despu´es de este paso,
se obtiene una una matriz donde cada fila es un documento
y cada columna es una palabra, los elementos de la matriz
representan la importancia de las palabras correspondientes
en cada uno de los documentos.
Al utilizar la matriz de t´erminos-documentos a partir del
corpus y realizar la transformaci´on TF-IDF se puede realizar
la normalizaci´on de los documentos para no sobreestimar
los documentos que tengan m´as palabras respecto a los que
tengan una cantidad menor. En la figura 3 se muestra el
esquema general de los procesos realizados para cada una de
las matrices (t´erminos-documentos y documentos-t´erminos)
sobre asociaci´on y agrupamiento, incluyendo los algoritmos
utilizados.
Figure 3. Esquema general sobre el an´alisis de Asociaci´on y Agrupamiento
Para la fase de asociaci´on solo se realiz´o sobre la matriz de
t´erminos-documentos debido a que estos son m´as informativos
respecto a la matriz de documentos-t´erminos porque asocia di-
rectamente las palabras m´as frecuentes sobre los documentos.
A. Word2Vec
Es un grupo de modelos que sirven para asociar palabras.
Basados en redes neuronales superficiales de dos capas que
reconstruyen contextos ling¨u´ısticos de palabras. [10]
Para este proceso el documento de entrada es el corpus sin
la transformaci´on TF-IDF, que genera un espacio vectorial
de varias dimensiones, asignando a cada palabra ´unica en el
corpus un vector correspondiente en el espacio.
Al ubicar las palabras como vectores, en el espacio vectorial
las palabras que compartan contextos comunes en el corpus
se ubicar´an muy cerca [10] como se observa en la figura 4
donde las palabras que comparten un mismo contexto en el
texto ocupan lugares cercanos en esta representaci´on de dos
dimensiones.
Una de las asociaciones interesantes que se evidencia en
la figura 4 es la de ”guerrillero, subversivo, FARC, ELN
y guerrilla”. Se encuentran tambi´en asociados los d´ıas de
la semana, los meses y algunos nombres propios que son
frecuentes en las noticias.
−20 −10 0 10
−20−1001020
A two dimensional reduction of the vector space model using t−SNE
m[,1]
m[,2]
"
fuente
municipio
ano
asesinar
farc
irv
capturar
ejercito
desconocido
policia
do
edad
frente
santo
mediar
zona
barrio
armar
aliasmiembro
tropa
vallar
alto
vereda
guerrillero
hacer
antioquia
nacional
hombre
santander
rural
personar
autoridad
encontrar
"militar
hallar
cauca
combatir
grupo
batallon
explosivo
edad"
brigada
presunto
norte
tres
victimar
sector
segun
resultar
bajar
unidad
integrante
bolivar
corregimiento
minar
registrar
herir
jose
ciudad
presentar
dih
identificar
dar
kilo
eln
soldado
militar
cali
narino forzar
partir
subversivo
callar
diario
banda
ubicar
cordoba
conocer
realizar
informacion
jurisdiccion
secuestrar
incautar
mas
fiscalia
amenazar
puerto
departamento
cuatro
"ciones
publicar
via
artefacto
carrera
mismo
criminal
luis
pasar
poder
"martes
morir
fuego
lograr
menor
granar
decir
parecer
ilegal
delito
accionar
carlos
huila
dejar
homicidio
infanteria
cuerpo
habia
arauca
sucre
cesar
tambien
atencion
agente
casar
general
lugar
material
movil
coca
entregar
rcn
ser
atacar
destruir
medellin
atlantico
cincar
juan
llegar
investigacion
meter
desarrollar
motocicleta
movilizar
caqueta
hecho
mujer
agostar
operativo
"lunes
adscribir
derecho
uniformar
calibrar
nuevo
perteneciente
abril
autodefensa
atentar
operación
vario
página"
comandante
operacion
luego basar
murio
cucuta
"miercoles
antonio
cartucho
sitiar
magdalena
metro
galón
muerte
hora
poblacion
pais
"domingo
area adelantar
c
sur
junio
llevar
julio
accion
barranquilla
radiar
vida
jefe
comunidad
enero
"viernes
risaralda
"jueves
radiar"
tolima
septiembre
calda
tras
marzo
caracol"
acordar
cartagena
febrero
dispararhacia
bogota
control
caracol
urbano
caleta
momento
"sabado
buenaventura
antipersonal
efectivo
cargar
centrar
blocar
instalar
emergencia
capital
universal"
seis
conducir
organizacion
humano
columna
violación
cocaina
gaula
farc"
manera
denunciar
informar
deber
procesar
vehicular
coronel
ir
tipo
vivienda
cercar
marino
prevencion
asi
n
transportar
andres
ademar
familia
comerciante
riesgo
pais"
nacional"
seguridad
delinquir portar
putumayo
servicio
mayar
jesus
marcar
funcionario
diciembre
guerrilla
cadaver
finca
causar
millón
maria
tenia
segundar
especial
campar
cti
estupefaciente
estructurar
humanitario
chocar
manuel
lopez
mesar
rodriguez
enfrentamiento
division
region
joven
proveedor
alberto
traves
si
ultimar
participar
Figure 4. Gr´afica utilizando Word2Vec
En la figura 5 se observa la relaci´on que existen entre los
actores del conflicto en la matriz de t´erminos-documentos
donde se observa que los actores con mayor repetici´on en
el corpus son el ej´ercito y los paramilitares para la lista de
t´erminos m´as frecuentes.
5. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 5
aconsejar
adscribir
afrocolombiana
alto
aplicaria
arnufo
autodenominaron
batallon
becoche
brigada
caco
cardiaco
carnivoros
carrusel
chistian
christian
columna
combatir
contrato
crearia
crhistian
cuadrilla
desarrollar
destruir
dique
division
doris
ejercitar
eln
eris
excomandante
exjefe
explosivo
farc
frente
gobernación
guerrilla
guerrillero
idear
insercion
inyección
justicia
lain
legislatura
mancuso
masacrar
mellizo
militar
movil
municipio
nacional
negociarlos
operación
pedregoza
pempe
perteneciente
posdesmovilizados
prometiendoles
quedandose
reaparicion
recogian
registrar
replego
rubinder
salvatore
sistematicamente
soldar
subversivo
tarea
tribunal
tropa
tulapas
vereda
bacrim ejercito eln farc paramilitar
actores
palabra
0.0
0.1
0.2
0.3
0.4
correlation
Figure 5. Asociaci´on por actores
Por otra parte, en la figura 6 para la matriz de t´erminos-
documentos analizando los t´erminos frecuentes con los hechos
victimizantes se encuentra una asociaci´on mayor entre los
secuestros, los asesinatos y extorsiones con rescates y cobros
principalmente, como era de esperarse.
alias
ano
banda
barrio
cabecilla
callar
canchita
captores
capturar
caracho
carrera
clan
cobrar
comerciante
concertar
criminal
delinquir
desconocido
edad
encargar
enteraria
extorsion
extorsivo
fatidicos
finqueros
ganadero
gaula
irwin
jossuet
liberacion
liberación
liberar
loango
merito
meterlos
norcacia
ocurriria
paramilitar
perpetrar
pesadilla
plagiar
podiamos
rescatar
secuestrador
simple
vallar
asesinar desaparecer extorsionar masacrar secuestrar
actores
palabra
0.0
0.2
0.4
0.6
correlation
Figure 6. Asociaci´on con Hechos victimizantes
Lo interesante de asociar los t´erminos con los hechos
victimizantes es porque permite darle un sentido sem´antico
a las asociaciones generando las palabras m´as frecuentes con
las que estos est´an relacionados y de esta manera predecir las
posibles frases de los documentos presentes en el corpus.
VI. AGRUPAMIENTO
Consiste en agrupar los documentos similares de acuerdo
a caracter´ısticas relevantes detalladas en un vector a los que
se les asigna un peso, que generalmente corresponde al valor
que se obtiene una vez se ha fijado la medida de similitud con
la que se har´a el agrupamiento. Para cada una de las medidas
de similitud se obtendr´an distancias diferentes que alterar´an
las agrupaciones.
Teniendo en cuenta el esquema general presente en la figura
3, se realiz´o la correspondiente transformaci´on TF-IDF a
las matrices tanto la de t´erminos-documentos como a las de
documentos-t´erminos, se procede a realizar la normalizaci´on
y el agrupamiento jer´arquico mediante una filogenia para la
matriz de t´erminos-documentos y dos agrupamientos para la
matriz de documentos-t´erminos, K-means y un agrupamiento
mixto que incluye un an´alisis factorial para reducir dimen-
sionalidad seguido de un K-means, uno jer´arquico y de nuevo
un K-means porque de esta manera se hacen las correcciones
pertinentes a los m´etodos si se trabajaran individualmente.
A. Jer´arquico
Los cl´usteres jer´arquicos dan como resultado una serie
anidada de particiones, la forma de operar es de manera
general, partir el n´umero de grupos en el n´umero de individuos
que haya en la muestra, se selecciona una medida de similitud
y se van asociando los grupos que tengan mayor similitud.
Este proceso contin´ua hasta que se forma un solo grupo,
se alcanza el n´umero de grupos prefijados o se tiene una
significancia estad´ıstica para seguir agrupando los grupos
debido a que no son lo suficientemente homog´eneas para
aceptar una agrupaci´on. La ra´ız es el conjunto de todos los
documentos, las hojas son los documentos individuales, y los
niveles intermedios son conjuntos de documentos agrupados
por similaridad de caracter´ısticas relevantes.
ad
ulto
ant
ioquia
bell
o
cap
turar
edad
fiscaliageneral
hab
er
investigacion
judicial
me
dellin
menor
milicia
mun
icipio
nacion
pare
cer
participar
po
pu
lar
pro
ce
so
sos
pec
hos
o
terr
oris
ta
ejercita
r
farc
p
mie
mb
ro
santan
der
subvers
ivo
barbosa
bl
oq
ue
ar
brigada
con
trol
el
np
guerrille
ro
sitia
r
su
pu
es
to
tro
nc
al
tropa
arau
ca
combatir
des
arro
llar
farc
morir
ope
rac
ion
rural
soldar
tam
e
tres
xv
iii
zona
anoasesinaratlanticobarranquilla
ciudad
desconocido
pab
on
ós
ca
r
corregim
iento
ja
iro
lom
a
pie
de
cu
es
ta
se
villa
bo
livar
cadaver
ca
rta
ge
na
hallar
hombreident
ificar
an
to
ni
o
barrio
cabrero
cucuta
esco
bar
jo
se
lu
is
m
an
ue
l
norte
al
be
rto
ca
lda
chinchina
osp
ina
rod
rigu
ez
m
ar
tin
ez
varg
a
bui
trago
sam
ana
apro
xima
dam
ente
desconocer
ide
ntida
d
mujer
vallar
yum
bo
cali
ca
rlo
s
castrar
ortiz
taxis
ta
autodefensasp
autor
idad
barrancabe
rmeja
comite
co
ord
ina
do
r
frus
trar
intentar
m
ar
ia
organizacion
patricio
pe
rp
etrar
pertenecer
plag
iar
polici
a
pr
es
un
tamen
te
ra
m
ire
z
resi
den
ciar
sacar
segun
tra
s
agua
blanca
caic
edo
distrito
ubi
car
he
rre
ro
jh
on
wils
on
accion
cam
ilo
com
una
l
da
za
fa
bi
o
jun
to
pre
sid
en
te
ra
m
on
fre
dd
y
ga
rc
ia
jo
hn
man
iza
les
plaza
jaram
illo
m
au
ric
io
co
rdob
a
meji
a
mont
elibano
wi
llia
m
aguirre
colorar
ju
an
pereirarisaralda
finc
a
re
tirar
vere
da
bajar
colombia
comu
nic
ar
conocercuerpo
pu
er
to
sen
ale
s
tor
turar
trocha
acosta
arley
are
na
r
bajo
batallo
n
cauca
co
lum
na
dar
hila
rio
inf
an
ter
iajac
ob
o
lo
pe
z
mo
vil
presenta
r
edadp
guevara
mendoza
moto
taxista
raul
sinc
el
ej
o
su
cr
e
brazo
cort
e
sandov
al
sant
o
victim
ar
casi
cien
to
cin
car
colo
mbiano
considera
r
des
plazam
iento
despu
es
expli
car
gr
an
de
mas
mi
lló
n
mun
do
solo
terminos
ultim
os
agente
frente
juris
diccion
libertad
or
sie
te
sujeto
alia
s
billa
r
ca
qu
et
a
flo
re
nc
ia
pre
sun
to
quotel
are
a
arroyar
fusil
er
o
ma
rin
o
penar
ra
fa
el
wi
lm
er
autod
efe
nsa
co
m
an
da
r
cuatr
o
cundina
mar
ca
gru
po
inte
gra
nte
resultar
tib
u
ca
rib
e
co
njun
ta
r
fund
acio
n
magdalena
muerto
algeciras
ataca
r
ayudar
ca
us
ar
est
aci
on
huila
incurs
ion
m
at
er
ia
l
varios
insurgente
pu
tu
m
ay
o
cerca
r
ce
sa
r
co
da
zz
i
divisio
n
och
o
orien
tar
andres
ce
rca
nia
s
eln
sala
zar
da
be
ib
a
militar
sei
s
xv
ii
arau
quita
car
gar
dinam
itar
ener
gia
espera
nzar
ins
pe
cc
ion
ins
tal
ar
mom
ento
torra
r
alon
so
bug
a
cuchillo
fra
nc
isco
go
be
rna
do
r
he
rm
os
o
ho
m
ici
dio
indigena
pa
ez
resguardar
ca
mp
es
ino
hostig
ar
puen
te
er
p
an
fo
ar
tefac
to
con
trolar
des
trui
r
ex
plo
siv
o
kilo
loc
aliz
ar
ma
ner
a
me
tra
lla
ab
an
do
na
r
en
erge
tic
o
especial
form
ar
fortu
l
im
po
rta
nt
e
plan
unida
d
via
via
l
cab
alle
ria
cilindr
ar
contreras
de
sa
cti
va
r
ga
br
ie
l
gr
an
ar
libr
ar
mecan
izar
mo
rte
ro
piza
rro
sara
vena
ate
nta
r
co
mp
on
er
nac
ion
al
po
sibl
e
ant
iexplo
sivobom
bocar
ro
exp
erto
tar
ra
vehic
ula
r
ca
bleel
ec
tri
co
s
es
to
pí
n
gram
o
ileg
al
metro
mi
l
pentolita
mi
na
r
an
tip
erso
na
l
boy
aca
incursionar
ca
m
po
ce
rro
desc
ubrir
sector
ca
mp
am
en
to
ca
pa
cid
ad
de
sm
an
tel
ar
ga
ita
n
instalación
me
ter
pe
rso
na
sp
rio
ar
tesa
na
l
ca
lib
ra
r
ca
lib
re
ca
rtu
ch
o
di
fe
re
nt
e
disparar
es
co
pe
ta
fa
br
ica
cio
n
inca
utar
largar
llamar
marcar
re
vo
lve
r
fu
sila
r
pr
ov
ee
do
r
ga
lónga
solina
tie
rra
lta
ar
io
aur
elio
beltran
com
ún
delincu
ente
dieg
o
encontrar
gaula
go
m
ez
rescatarsecuestrar
carre
ter
o
fuego
luego
pa
na
me
rican
o
sab
anatorr
e
adem
ar
cos
ta
dese
mpenaba
indigenas
represen
tante
ric
o
casar
ganadero
iva
n
jo
rg
e
ma
tar
m
ig
ue
l
nue
vo
urb
an
o
ar
bo
leda
bus
cond
ucir
inc
en
dia
r
pasar
pub
lica
r
servicio
herir
men
os
unirma
ca
ren
a
pro
pie
dad
cae
r
ca
mp
ar
mo
viliza
r
pa
tio
sem
bra
r
ca
yo
en
via
r
ingenieropar
do
patrullar
ca
rm
en
alex
an
de
r
castillo
dan
iel
du
ra
r
luna
mosquera
m
un
oz
pino
popayan
ca
rd
on
a
de
sc
om
po
sic
ion
habia
montoya
or
illa
r
riofrio
sep
tiem
bre
gera
rdo
lider
rosa
armar
cad
ave
res
com
un
co
nt
en
ia
fos
arhab
rian
ov
eja
vic
en
te
bucaramanga
unive
rsid
ad
con
ocid
o
emboscar
localidad
estebanrivera
bue
naventu
ra
walter
m
an
ir
man
o
pie
tenia
ve
ga
res
to
ho
yo
ramo
bo
ca
cuyo
estab
lec
er
jamundi
pa
lo
vida
personar
villa ads
crib
ir
de
te
ct
ive
gu
aj
iro
he
rn
an
de
z
rio
ha
ch
a
tulua
co
nc
eja
l
or
te
ga
seg
und
ar
banda
jaime
sicario
victoria
tov
ar
hijo
julio
pachec
o
soledad
ed
ua
rd
o
mag
an
gu
e
mecer
ál
va
re
z
ca
mi
on
eta
dias
hab
ian
malam
bo
rete
ner
rojo
tenian
tra
nspo
rta
r
gon
zalez
turbaco
ca
rta
goco
rre
ar
he
ct
or
ado
lfo
caminaren
riq
ue
hacia
au
gu
sto
cano
fe
rn
an
do
franco
hermano
liber
tar
ve
las
qu
ez
acevedo
cabecera
coman
dante
henrio
iii
municipa
l
trata
r
igle
sia
padre
pe
re
z
senora
tambien
rey
lla
no
rionegro
angulo
au
c
de
lito
diaz
dis
tin
to
ordenar
pa
blar
pesa
r
robert
o
dep
artam
ent
o
inte
gr
ar
es
pe
cia
lizar
perim
etro
pertenec
ian
casanare
he
rm
an
ar
jefe
sur
bo
rda
r
cabeza
comunidad
eje
cu
tar
fu
sil
re
co
no
ce
r
tiro
alir
io
cecilia
politica
ch
ala
r
alto
ca
sc
ar
cilindr
o
jam
ba
lo
mo
nta
no
núm
ero
po
lvo
ra
pr
ep
arar
tor
ibio
dejar
tec
nic
os
cada
neutr
aliz
ar
ar
till
er
ia
bogota
en
co
nt
ro
ho
tel
junt
ar
tecnico
central
efrain tipo
he
ch
izo
palm
ar
vis
tah
erm
os
a
cas
tano
disparo
em
plea
r
enfrentam
iento
es
table
cim
ien
to
interior
lidera
r
marta
merca
r
m
ilim
et
ro
s
pi
st
ol
a
blo
ca
r
tolim
a
ne
gro
per
ten
ecient
e
viviend
a
cagu
an
esposa
r
flor
mesa
r
mill
er
xii
dom
ingo
pob
lac
ion
des
apa
rec
ido
gue
rrill
a
m
en
de
z
pe
tard
o
poder
pon
er
re
gu
lar
jacin
to
au
tom
oto
r
co
nd
uc
tor
hace
r
je
su
s
oc
up
an
te
orlar
pasaj
ero
pr
en
de
r
civ
il
la
nz
ar
pol
icia
s
vecino
comunitario
madre
sin
dic
ato
centrar
co
mer
cia
l
da
no
s
det
ona
r
neiva
repor
tar
em
pre
sa
volv
er
quem
ar
ele
ctr
ica
ped
ro
trujillo
vo
ltio
accidentar
kilom
etros
tra
nsitar
mu
riopis
ar
do
rar
álv
aro
comercian
te
estr
ellar
sobrin
o
ge
rm
an
kilo
me
tra
r
mar
alcalde
secretario
sergio
calima
erne
sto
gil
julian
bolsa
pla
sti
co
hernando
delgado
joaquin
m
ed
ina
paz
rin
con
rodolfo
abrir
bo
nilla
nar
ino
rosario
m
er
ce
d
jim
en
ezsa
nc
he
z
martin
m
or
al
izquie
rdo
hu
go
vict
or
fis
ca
l
ignacio
da
rio
mo
nte
ria
hecho
obrero
poblar
esposo
pla
ta
pic
ar
inter
cept
ar
ituango
omar
coleg
iar
rica
urte
ne
lso
n
patinar
co
nc
ejo
gu
tierre
z
pistolero
án
ge
l
bautis
ta
os
or
io
qu
in
te
ro
ma
rin
quind
io
traba
jar
fuen
te
leo
n
molina
ciudadela
hu
mbe
rto
co
ro
za
l
go
lp
e
vario
alc
ald
ia
bermudez
ber
nar
do
ener
o
montar
ob
tene
r
paraj
e
realiza
r
ret
ar
viajar
zuluaga
ar
tu
ro
cru
z
ru
iz
su
po
ne
r
com
ision
la
nz
ag
ra
na
da
s
llegar
media
r
com
pan
ia
em
ilio
tie
rra
cabecilla
gu
er
ra
diez
ma
xim
o
ope
rar
ag
ua
r
lan
ge
scosp
an
el
ie
ce
r
quedar
en
fre
nta
r
co
nt
ra
gu
er
rilla
entregar
volun
tar
iam
en
te
banco
ba
sar
de
sm
ov
iliz
ar
once
camion
xiii
ca
ja
cti
escond
er
m
ai
ca
o
ag
us
tin
ca
le
ta
ca
m
pa
na
co
rd
on
de
to
na
nt
e
eq
ui
po
pr
im
er
o
ure
a
ba
rre
r
co
m
un
ic
ac
ió
n
du
pl
ex
ibag
ue
in
du
ge
l
lent
o
m
ec
ha
r
ra
di
o
un
ifo
rm
e
ver
be
lico
ca
m
uf
la
r
fra
gm
en
ta
cion
m
ilím
et
ro
radiar
sig
uien
te
tra
mp
a
ch
oc
ar
cruz
ar
ade
lant
ar
an
tio
qu
en
o
con
jun
to
activar
av
alu
ar
cio
ne
sdih
ingr
esa
r
muer
te
ocasionar
principal
produ
cir
afirm
ar
amenazar
de
m
as
pr
en
sa
r
ard
ila
as
oc
iac
ion
cir
cu
ito
estan
funcionario
informar
vo
ce
ro
ex
plot
ar
familiar
funcionar
her
ido
sp
local
ola
ya
infante
narvaez
palm
ira
ciudad
ano
escapar
llev
ar
log
rar
selv
a
so
la
no
bal
boa
cu
ar
tar
sig
no
ve
la
sc
o
guerrero
elen
a
administrativo
atribu
ir
auxiliar
dobla
r
plan
et
a
amigo
palacio
tum
aco
moreno
ni
no
union
detener
da
gu
a
ordonez
castaneda
giraldo
elk
in
vale
ncia
glo
ria
vin
cu
lar
parra
alred
edor
ind
ust
rial
parqu
e
cri
sto
ba
l
coc
orn
a
exp
resa
r
inc
ine
rar
queb
rar
rod
ea
r
lle
ra
s
gus
tavo
liber
ar
asesina
to
co
nd
en
ar
cons
ejo
de
fen
so
r
derecho
dia
humano
octu
bre
pa
na
m
a
cua
drilla
efe
ctiv
o
cien
ag
a
fab
ric
ar
dos
que
bra
das
fabian
becerro
ep
l
qu
inc
hia
forzar
sost
ener
tarea
cacique
ca
rab
ine
ro
es
cu
ad
ron
per
son
al
fu
er
za
responsable
sedar
ca
ne
ca
mar
isca
l
ca
lot
o
construir
serio
cuidar
ni
ng
un
o
de
pa
rta
me
nta
l
marz
o
piedra
seccional
des
plazar
muerta
an
or
i
cu
ltiv
ar
ded
icar
afe
cta
r
ele
ctr
ico
za
mbr
an
o
co
nv
en
cion
mi
raf
lor
es
oleoductotramar
az
ul
ne
po
muc
en
o
benitez
cerca
no
lin
ea
r
oblig
ar
res
trep
o
com
une
ro
villa
m
izar
pa
tia
cor
ral
guzma
n
tejar
cab
o
saldar
provocar
m
ar
io
su
ar
ez
al
fo
ns
oda
vid
callar
romero
lond
on
o
limon
ja
vier
ur
ibe
ag
ua
ch
ica
el
ia
s
pro
fes
or
aeropuerto
infraestruc
tura
pl
ay
a
to
ne
lada
padilla
ric
ardo
soto
puerta
cerrito
derribar
ve
rg
ar
a
ge
re
nt
e
ma
sivo
oc
cid
en
te
sistema
vias
or
oz
co
florez
calificar
ca
rce
l
hurtar
po
rta
r
pr
isi
on
ga
lvis
pand
illa
crudo
proc
ede
r
blan
co
ed
wi
n
jair
ana
isab
el
rio
s
des
apa
rec
er
cristian
gregorio
se
pu
lved
a
veh
icu
los
arango
luz
barrera
as
eg
ur
am
ient
o
dictar
he
ro
es
m
ed
ir
ve
lez
partir
pr
es
um
ir
ramiro
ant
iperso
nales
ch
ino
gas
ope
ración
registra
r
ab
un
da
nt
e
m
ilic
ia
no
carde
na
s
ma
nda
r
ser
sindicar
hac
end
ar
pagar
ex
plos
ion
inte
rc
am
biar
mo
nta
no
sa
pr
ov
en
ien
te
se
ria
r
pu
nt
o
alejandro
ha
cia
n
profesional
mo
ro
cien
escuela
pe
rte
ne
cia
corin
to
m
un
icio
n
tal
ler
ca
no
n
va
ld
ivia
pa
raiso
arm
am
en
to
lan
za
mi
en
to
tub
o
in
te
nd
en
cia
ele
men
to
es
talla
r
acto
jui
cio
pre
dio
recoge
r
segu
ir
tra
ba
jad
or
arrieta
diana
págin
a
num
erar
ap
arec
er
cir
cu
lar
droga
r
firm
ar
pa
nfl
eto
vivir
ag
ru
pa
ci
on
coordinacion
m
on
ta
ni
ta
tam
bo
docente
alertar
bo
scoso
hab
itan
te
inm
edia
to
tu
rb
ar
caro
dive
rs
o
ren
do
n
castellano
alc
anzar
nina
tor
o
fre
dy
alf
red
o
oscar
polo
mo
vim
ien
to
za
pa
ta
policar
pa
leonardo
ve
rde
airebue
no
martha
clau
dia
intimidar
no
m
br
ar
oc
am
po
pro
pie
tari
o
vas
que
z
vis
ible
as
is
prad
o
cobrarextorsionar
m
in
er
o
yar
um
al
inme
diaci
ón
oc
ho
a
tole
do
ag
ud
elo
m
on
te
ferna
ndez
gallego
hernan
calderon
pita
lito
ro
qu
e
gu
am
ue
z
acercar
gua
rda
cos
tas
lancha
mad
er
ar
segu
ridad
be
ne
fic
iar
de
ten
cio
n
ag
ra
va
r
extorsivo
ilic
ito
s
m
ed
io
pr
oteg
ido
tentativo
terrorismo
co
nc
er
ta
r
de
lin
qu
ir
juni
o
ley
map
iripa
n
mar
ge
n
mien
tras
perm
anecer
cha
parr
al
apoyarred
detenido
ho
nd
o
santiago
reg
ion
fina
nci
ero
coordinar
log
istico
cocar
accionar
an
ibal
sen
ala
do
va
lle
du
pa
r
bagre
rif
le
qu
iro
z
for
ero
jovenlugar
patruller
o
teo
filo
ultimar
ba
lón
dis
trib
uir
kilog
ramo
con
trol
ada
me
nte
alb
erga
r
ga
na
r
finanzas
saen
z
decidio
ga
lil
lib
an
o
presionar
or
ito
m
oc
oa
barbac
oa
ac
us
ar
residente
ca
uc
as
ia
serrar
ca
tat
um
bo
combatiente
tulio
extorsion
ind
io
pa
ramilit
ar
ariza
rob
ins
on
termin
al
est
udian
te agos
tar
gracia
flo
rid
o
pr
ad
er
a
henao
ma
rulan
da
ap
ar
ta
r
sa
lar
gu
ille
rm
o
an
se
rm
a
bedoya
floresta
co
mbu
sti
ble
ve
nd
ed
or
ecu
ator
iano
nicolas
educa
tivo
ins
titu
cio
n
oc
an
a
oficia
l
denu
nciar
or
ga
niza
ció
n
social
dir
ige
nte
es
pe
cia
lm
en
te
hospital
salir
de
sm
oviliz
acion
proce
sar
rebelion
competentedisposicion
ru
be
n
pa
sta
r
encargar
mismo
rec
lutam
ien
to
vivere
s
dicie
mbr
e
deco
misar
ab
at
ir
co
nta
cta
r
esme
ral
da
de
to
na
do
r
so
lid
os
in
el
ec
tri
co
s
carga
mento
gu
av
iar
e
ope
rativo
qu
ibdo
embar
cac
ion
co
m
un
ic
ac
io
n
producto
unif
orm
ar
m
ut
at
a
salio
plan
ad
a
mo
toc
icleta
trasladar
m
az
ar
sa
rd
in
at
a
vie
jo
au
nq
ue
emb
arga
r
est
ruc
turar
co
rpora
cio
n
fig
ur
ar
jov
en
es
mediante
nin
os
inm
ueb
le
acabar
ch
aira
reunion
itag
ui
duque
ce
re
te
ca
nd
ela
ria
lunes
den
tro
agricultor
ro
da
r
tomar
vigilante
perdom
o
altura
jardin
respectivamente
com
erc
ializar
na
va
rro
vill
eg
as
arg
elia
republica
cuba
ke
nn
ed
y
pais
reg
res
ar
sema
na
ven
ta
fro
nt
er
o
comuna
anterior
aseg
urar
po
litic
o
buscar
captores
habria
ha
ca
ri
noviembre
fam
ilia
m
an
ej
ar
opinion
periodis
ta
ca
lam
ar
anun
ciar
comis
ionar
mes
ayer
co
m
er
ciar
de
be
ra
n
febre
ro
justicia
ocurrir
pe
na
l
re
sp
on
de
r
re
sp
on
sa
bil
ida
d
sabotaje
su
bo
fic
ial
capital
juzg
ar
senalados
garzon
centauro
felipe
clinica
alda
na
cep
eda
co
nfor
mar
pre
ten
dian
on
ofr
e
cab
alipiales
metrop
olita
no
ba
te
ria
s
volu
ntar
io
presion
taxi
campoalegre
laborar
vigi
lanc
ia
mur
illo
abordar
petrolero
pr
od
uc
cio
n
cl
ar
o
de
str
uccio
n
terc
ero
teo
ram
a
preten
dia
corone
l
an
da
r
des
tac
ar
ca
ce
re
s
he
cta
reas
libard
o
albeiro
env
igad
o
lucio
sa
lce
doqu
ino
ne
z
lozano
isla
viern
es
caserio
pa
lm
ito
recibio
ro
nd
on
actividad
con
trat
ista
parir
recib
ir
acor
dar
deber
liberacion
reclu
ir
solicitar
ve
rs
io
na
r
yesid
galan
ba
na
ne
ro
huir
ajustarcuenta
usar
ae
re
a
ataque
de
tec
tar
inic
iar
me
se
ta
decir
sufrir
policial
buenavista
concentrar
cr
ee
r
gober
nar
re
m
ed
io
ub
ica
cio
n
conflicto
impactar
ofic
ina
preo
cupa
r
refugiar
te
rri
to
rio
pre
sen
ciar
ca
rvaja
l
maya
r
brice
no
jue
z
co
mp
an
era
se
nti
me
nta
l
incluir
flu
via
l
inteligencia
redar
co
rto
m
un
ici
on
ar
brisa
de
po
sita
r
cum
plir
fu
er
te
pe
rso
ne
ro
cu
sto
dia
r
des
min
ado
su
pe
rio
r
perd
er
estrada
mas
ac
rar
se
na
lar
on
ve
sti
r
alexis
perd
ido
pe
so
pin
ed
a
benito
igua
l
sen
tir
ber
rio
ca
rgo
tardar
ma
rque
z
em
pr
es
ar
io
human
itario
man
data
rio
ne
go
ciar
permiti
r
sena
lo
bienestar
corr
er
fisico
nación
se
nt
en
cia
r
villav
ice
nc
io
abril
gilber
to
pa
rticip
ac
ion
se
go
via
pla
ntar
ve
ne
zo
la
no
ve
ne
zu
el
a
pis
tar
barbar
isidro
se
ba
sti
an
proteccion
ac
pm
sumo
arro
jar
nue
ve
me
dic
ina
r
direc
tor
activac
ion
res
puesta
de
no
mina
r
or
ar
ga
ba
rra
post
eriormente
balar
reg
ion
al
salud
su
pu
es
ta
m
en
te
traves
miran
da
pinta
r
edgar
liberal
bosq
ue
natur
al
lor
ica
avenir
fase
fin
al
ad
ve
rti
r
ambo
s
defens
oria
tene
rife
requerir
sen
ala
envo
lver
ocult
opaqu
ete
rumbo
dir
igi
r
secuestrador
pac
ifica
r
tem
or
zara
goza
prelimi
nar
afil
iar
au
tom
ov
il
balear
pa
rtic
ula
r
prestar
carrera
es
co
lta
r
ca
de
na
xiv
parejo
rod
rig
ar
av
an
za
r
au
n
confirmar
de
sc
ar
ta
r
es
tab
lec
io
mision
orga
nism
o
total
verificar
vis
itar
agreg
ar
ini
cia
tiv
o
co
m
pu
ta
do
r
informacion
de
cis
ion
eje
cu
cio
n
pr
oc
ur
ad
ur
ia
doc
umentar
intern
acion
al
m
an
te
ne
r
relacionar
prevencion
gu
ard
ia
zu
lia
lim
ita
r
aprehender
autor
do
nc
el
lo
vii
utiliz
ar
ilic
ita
emergencia
situ
acio
n
gravar
medicos
po
bla
ció
n
ta
ra
za
des
apa
rici
on
indic
ar
ur
ra
o
vez
exde
vil
lanu
ev
a
man
ifesto
ca
pi
ta
n
esquinar
listo
vie
nto
gravemente
hora
atender
violencia
suministrar
batalla
r
an
tip
er
so
na
harold
ramp
a
ab
og
ar
rut
a
actua
l
vich
ar
bien
dano
de
be
ra
lesion
ar
ecu
ado
r
po
pa
alusivo
do
cu
m
en
to
man
gu
er
a
obje
tar
asi
escondite
repeticion
prop
io
son
son
afor
ar
sijin
sam
anie
go
go
do
y
minut
o
entrar
ur
ba
ni
za
cion
impacto
plen
o
alla
nam
ien
to
razon
destin
ar
proyectar
reparacion
entid
ad
at
ra
to
ori
en
tal
comete
r
se
cu
es
tro
co
nc
or
dia
ma
nu
al
po
tas
io
pr
oc
ed
en
tem
ay
or
ia
eq
uip
ar
programar
cu
ltiv
o
err
ad
ica
cio
n
ca
nd
ida
to
gaviria
floridablanca
medica
r
tenie
nte
ocurrio
testigo
co
m
pr
ar
ad
ole
scen
te
juev
es
perd
io
ac
tu
alm
en
te
alli
es
ta
ria
est
rategi
a
hog
ar
mini
ste
rio
dolar
presidencial
vigente
profi
rio
elaboracion
ce
lu
la
r
charco
nav
al
evitar
fin
nevada
m
en
cion
ar
co
lor
ch
al
ec
o
in
te
re
s
de
fen
sa
paul
ar
diag
on
al
proyectil
des
ple
gar
ve
nir
con
stru
ccion
ág
uil
a
do
ce
esp
erar
inici
alm
en
te
moto
giron
yopal
de
leg
ar
implicar
exigir
ilic
ito
investig
ar
enlazar
alc
alo
ide
ho
ja
lab
ora
tor
io
pro
ce
sa
mi
en
to
tiem
po
sa
rg
en
to
quilic
hao
multiples
res
ist
en
cia
pr
ivat
ivo
manana
unive
rsit
ario
viii
conta
r
ad
mini
str
ad
or
diario
ma
rch
ar
me
ns
aje
preocu
pac
ion
sus
tan
ciar
gravedad
propinar
serna
be
le
n
salga
r
balacera
quinto
hab
lar
individuo
sep
tima
tender
com
enz
ar
teme
r
eje
as
al
ta
r
marco
brindar
nece
sario
ejer
ce
r
de
te
rm
in
ar
calarca
sen
or
grave
sufrio
comprender
do
n
instituto
rio
su
cio
...
dijin
atencion
nadie
po
dr
ia
rcn
sino
citar
mir
ar
inve
stig
ació
n
senalan
bli
nd
ar
co
m
pu
es
to
im
pr
ov
isa
r
can
tida
d
po
ste
rio
r
tri
bu
na
l
quer
er
cubri
a
represen
tar
nieto
auto
parrillero
úsuga
dinero
gra
n
ro
ba
r
co
rta
r
fal
lir
mot
ivar
ent
errar
gen
era
cion
erradic
ar
man
ifestar
orden
cambiar
dec
lara
r
objetivar
alimento
pierna
tirar
costar
sujetar
may
or
calle
se
xto
au
die
nc
ia
cua
lqu
iera
jorn
ada
pre
cisa
r
ser
a
continuar
crimina
l
ddhh
inte
rve
nci
on
m
en
su
al
in
vo
lu
cr
ar
simon
pa
trio
requisa
r
do
lor
ha
lla
zg
o
fila
rec
lutar
po
blad
or
leg
uiz
am
o
intim
idac
ión
finar
ba
raya
fallecio
de
cim
a
de
tra
s
am
on
iac
o
narco
tra
fico
tra
ns
po
rta
do
r
term
ina
r
me
rid
ian
o
problema
co
ns
ec
ue
nc
ia
gira
rdo
t
xx
x
luch
ar
fals
o
martes
minis
tro
reso
luc
ion
sol
icit
ud
luc
ian
o
puesto
metali
co
s
ac
on
dic
ion
ar
noticiar
asistenciatecnica
compromiso
anali
zar
co
nt
inu
o
se
lec
tivo
prote
ger
cla
ndestino
dir
igi
a
caso
observatorio
sensibilizacion
terrestre
vicepresidencia
rec
ha
za
r
incidente
narco
traficante
pedi
r
co
bij
ar
carte
l
abu
rrir
es
ta
ria
n
retén
irreg
ula
r
pechar
materia
cum
plim
ien
to
crimen
la
do
garantias
ofre
cer
escuchar
de
sa
pa
ric
ión
ig
ua
lm
en
te
leg
al
pidio
al
gu
n
seguimiento
dios
delictivo
ofe
nsi
vo
co
nfi
an
za
ur
ab
a
tra
fic
ar
emprender
incau
tacio
n
perm
itio
inv
es
tig
ad
or
violento
efec
tuar
integral
de
linc
ue
ncial
pirateria
tra
nq
ui
lid
ad
valor
ah
or
a
cerrar
inte
rve
nir
saba
do
conten
er
ac
tiv
o
co
m
plejo
ca
lix
to
de
to
na
cio
n
hoy
increme
ntar
noche
ser
an
pelig
rar
ma
tea
r
silva
arrib
ar
fuga
r
agresor
ce
me
nta
r
emp
ezar
go
be
rna
cio
n
ins
titu
cio
na
l
del
incuen
cia
organizar
pla
ca
flagrancia
sorprender
pil
on
oc
cis
o
vige
sim
a
reserva
r
violac
ión
ten
er
pla
sti
ca
s
espalda
exis
tir
hostigamiento
pe
rm
an
en
te
co
rre
sp
on
die
nte
ins
um
o
flaco
go
rdo
reac
cion
bulto
em
pac
ar
antinarcoticos
pues
repetir
riesgo
aumentar
alm
ac
en
ar
direccion
gen
era
r
es
tu
pe
fa
cie
nt
e
distrib
ucion
tra
ba
jo
am
et
ra
lla
do
r
ocu
ltar
so
da
hera
ldo
em
itir
iden
tific
acio
n
mo
no
liq
uida
ractualizacion
de
ta
lle
dir
ec
to
ten
dria
labor
exigian
patr
ulla
je
octa
var
carac
ol
ante
cedente
tanq
ue
sp
an
en
movile
s
palabra
re
ve
lar
cr
im
en
es
di
sp
ut
ar
litr
o
rev
isa
r
caldo
no
arme
nio
reto
rna
r
evento
ve
nia
cont
enia
n
alm
ac
en
am
ien
to
nota
r
com
erc
ializ
acion
interp
ol
asim
ism
o
ac
ida
r
su
lfu
ric
o
acopiar
ve
nd
er
re
cu
pe
ra
r
oportunidad
mierc
oles
most
rar
esp
ecta
dor
pr
ue
ba
tal
información
proba
bilidad
en
to
nc
es
co
rre
sp
on
de
r
paradero
torax
aprovechar
bus
que
da
fec
ho
re
la
ci
on
al
gu
no
bitacor
a
cifra
r
tan
con
dic
ion
ar
ning
un
re
co
rd
ar
resid
ia
constan
te
hu
m
an
id
ad
suce
der
alu
cinoge
nas
co
ca
ina
qu
im
ico
s
alu
cinoge
nos
sangrar
integ
ridad
vivia
ev
iden
cia
r
gri
s
saber
om
ega
adminis
tra
cio
n
eme
rgen
te
co
nt
un
de
nt
e
homicida
re
sp
ec
tiv
o
madrugar
esp
aciar
ras
tro
jo
versio
n
info
rm
e
asisten
cial
ac
ep
tar
acom
pa
na
mien
to
ga
ra
nt
izar
oriundo
dili
gen
cia
r
mo
rgue
cas
trense
temprano
at
ra
s
infracc
ión
al
ar
m
ar
liq
uid
os
fin
alm
en
te
oportuno
croni
ca
territorial
da
to
pr
op
os
ito
mo
da
lid
ad
ca
us
tic
a
clo
rhidr
ato
promover
conocio
un
ive
rsa
l
vanguardia
perte
necer
ia
av
isa
r
golfo
cin
ar
uc
ovo
z
en
vio
aproximar
bo
m
ba
rd
ea
r
ca
lor
ía
misiona
r
m
ov
ilid
ad
subdireccion
exclusiv
o
ilicitas
pe
rm
an
ga
na
to
pr
ac
tic
ar
vio
len
tar
funcion
historico
vita
l
sicaria
l
proyecto
clan
paisa
s
pos
itivo
es
clar
ec
er
ap
olo
metodolog
ia
lev
an
tamien
to
remitir
basico
vulne
rabilidad
ma
rihu
ana
inmo
viliza
r
exp
end
io
mo
rta
l
urgenc
ia
nivel
tendientes
ae
i
relatar
revistar
fallecer
libe
rac
ión
hi
po
te
sis
im
pu
tar
ciu
da
da
nia
obs
erva
r
rec
urs
o
co
no
cim
ie
nt
o
de
sa
rtic
ula
r
so
meter
ba
cr
im
kit
m
in
er
ia
ca
rce
lar
io
se
mi
lle
ro
urabenos
potencial
formulacion
baz
uca
r
ho
rnomi
cro
on
da
s
aluci
noge
no
cr
ist
aliza
de
ro
dos
is
clasificar
inm
ed
iat
am
en
te
entender
resti
tuc
ion
proc
edim
iento
afec
tacio
n
psicologico
antildeos
bit
ac
htm
l
inc
au
tació
nverificacion
balazo
definicion
interins
titucion
al
manejars
e
mitigar
prudencia
retención
uariv
utilizarse
m
apm
us
e
acontecimientoglosario
desmovilización
ant
inarcó
tico
s
trig
es
im
a
de
sactivació
n
pro
toc
olo
peg
aso
vu
lca
no
cmjt
transicional
ocurre
ncia
honor
m
icro
tra
fic
o
hsb
soc
iali
zar
subcomite
injerencia
judicializacion
contingencia
imp
lem
ent
aci
on
gent
e
pe
rc
at
ar
compo
rtamie
nto
dimension
ar
estad
istica
irv
multiv
ariado
victim
izacio
n
índice
aprobacion
sppgnr
ctjt
cua
drante
hs
bn
ot
ici
as
Figure 7. Asociaci´on Hechos
En este algoritmo se utiliz´o como medida de distancia
Ward, porque agrega los grupos teniendo en cuenta la varianza
e incluye las relaciones entre los puntos pertenecientes al
grupo respecto a la relaci´on con los otros grupos.
6. MINER´IA DE DATOS, AVANCE 2 , 23 ABRIL 2018 6
B. K-means
Este algoritmo permite hacer el agrupamiento con un K ini-
cial que es ajustado por el usuario teniendo y la inicializaci´on
de los centroides. Para este algoritmo se corri´o la gr´afica de
”Elbow” para conocer el n´umero de clusters adecuados como
se observa en la figura 8 debido a que los tiempos de calculo
son elevados no ha sido posible tener resultados para este
algoritmo.
Figure 8. M´etodo de ”Elbow” para analizar el n´umero adecuado de k para
el algoritmo
C. Mixto
Aplicando la estrategia de Lebart [99] la cual se puede
resumir en realizar un an´alisis multivariado adecuado (cor-
respondencias simples) para los datos, posteriormente sobre
las proyecciones de los individuos (sobre los primeros 20
ejes factoriales) agregarlos por medio del m´etodo de k-means,
con un n´umero elevado de puntos, posteriormente sobre las
clases obtenidas se realiza una clasificaci´on jer´arquica y
posteriormente, con el fin de evitar el anidamiento propio de
los algoritmos jer´arquicos, realizar un nuevo an´alisis de k-
means de las clases obtenidas del dendrograma y con ello se
obtienen las clases consolidadas.
Posteriormente se procede a caracterizar las clases
obtenidas en funci´on de variables ilustrativas, se utiliza el
criterio de los valores test (Lebart et al. 1995) [11], utilizando
el paquete FactoClass (Pardo & Del Campo 2007) [12]. Los
valores test son cuantiles de la distribuci´on normal est´andar
que detectan las categor´ıas de las variables cualitativas que
caracterizan a cada uno de las clases, en el sentido de que
su porcentaje dentro del quintiles razonablemente superior al
porcentaje global, esto es al porcentaje de la ciudad. Para las
variables continuas los valores test resultan de la comparaci´on
del promedio de la variable dentro de la clase con el promedio
global.
El m´etodo de Ward es un procedimiento jer´arquico en el
cual, en cada etapa, se unen los dos clusters para los cuales
se tenga el menor incremento en el valor total de la suma de
los cuadrados de las diferencias, dentro de cada uno de los
clusters, desde cada individuo hasta el centroide del cluster.
En la figura 9 se tiene la distribuci´on de inercia para la
agregaci´on de las clases.
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Figure 9. Distribuci´on de inercia agregaci´on clases - Ward
En la figura 10 se observa el dendrograma realizado para
las clases de la matriz
7052488497449014777712999256135639659931288318931162667153120540574590986867397802444857149604394461124928341936038413874627434717996820988344503948963272801885339525756377634562023610942779382548935352164556781340269788798589593317821822923159636074779555881299526367530681108184674331005244009902564882709082116304635411903646953325504668461124848224130465595651661086652750099422678217935331259393381043542234369041733524079492281598505456933712486836536625785416712588868648649782455458739900407908532555305642014144258583833845111595910512376869091368596710162118765123940568614542189113388030184372076915162251180423867658799757665077353752668561975526196945913491074183516522729323774492794923102833488065174797069745149949691854288567839171337566582111639076617176550468421283031832671113359435117466387616346015469965282355628875196290841355135807362679906113594872204863112455848907275749130330117260473608852485902656736235848181767815798881928199722389707667864063391575256260094237115542043847529641161145622926175267341647125870707157509822141113955199189966471454760595038479610626832339978164334270498397097976297621525898175893198606912962322220821843975850242328246943345735844432553398367729572847205661364670183630640920372882629542928472145971679295114625156888853987760786921636678863563896276190349633333319325631725905929798095227844105078893838554502473029870819424943516163968883274866680054995738549187444071062969329463466575599935844225857073244156189316114471487436579684996606778991329163272178452280238616752691117022468711089615637048714091635183437449302895629847438058663186733142581305805941978496940958291378614622068037379381621957607779925565818327226816582759574571689341223634655574476546691291346422918281509916024016689238762494796052975394553164646923427313940159560618163506735854812725238281937455970083330895579717797311819181737598092758992083137666492273738434672989609393137518589213072627573682769045495861789041277636957981023286219277286497217232027472818357213372322510343696614233593404528498152225202879840873310264346336977128808998309563107453219220726752670687637968053814282164569740413791813592214459812696147151213624478770523535131253478321662615489935209642547175027752375325369468725043351859747085915864478910003785957279445097135556921032714643224774558097150657887141744350847648195420785505799300659302493641315842467778613882349381824303188408448778141762929756561693728831279551989667243145162825737791916957741888471828134011993121266742493269126528559215376444512175639148391439298155492495320942371975449460173182740362727838821084529787826513689734544802060268289770383726981122117515200860277446156836679396771885542640851926143546854324198396124155718697514796516070980141431361543241702102180230544448244936363296985014193344683737794257234308862436553493357391547489474286578793690943426287987495583490497780286365
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Indexes
Figure 10. Dendrograma seg´un clases