O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao
crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um
estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) – Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos estudantes de tal Instituto.
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP
1. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE
DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP
Thiago Reis da Silva1, Diego Grosmann1, Fábio Abrantes Diniz1, Íthalo Bruno Grigório de Moura1,
Angélica Félix de Castro1
1
Programa de Pós-Graduação em Ciência da Computação, UERN/UFERSA, Mossoró – RN.
{trsilva.si, diegogrosmann, fabio.abrantes.diniz, ithalobgm, angelicafcastro}@gmail.com
RESUMO: O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no
tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento
territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas
computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem
desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao
crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de
Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta
para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos
de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta
VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um
estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) –
Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações
entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos
estudantes de tal Instituto.
PALAVRAS-CHAVE: Mineração de dados geográficos, Análise espaço-temporal, Sistemas de
informações geográficas.
INTRODUÇÃO: Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que
produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para formação da
cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo para o progresso
socioeconômico local, regional e nacional. A implantação do campi, no interior do Estado, atende a
meta do Programa de Expansão da Rede Federal de Educação Tecnológica e à própria natureza dos
Institutos Federais de Educação, Ciência e Tecnologia, no que diz respeito à descentralização de
qualificação profissional, levando em conta as necessidades socioeconômicas de cada região. Com
isso, pretende-se evitar o êxodo de jovens estudantes para a capital (SILVA et. al. 2012).
Neste contexto, este artigo analisa a base de dados do Instituto Federal do Piauí (IFPI – Campus
Floriano), para detectar, através de Mineração de Dados Geográficos e com utilização da ferramenta
VIS-STAMP, os perfis da comunidade acadêmica desta Instituição de Ensino, verificando se a classe
social, a etnia declarada pelos estudantes, tem impacto na escolha do curso ou realidade
socioeconômica dos mesmos.
O trabalho proposto por Oliveira et. al. (2011) apresenta uma análise da base de dados das matrículas
dos discentes do IFPI - Campus Picos, utilizando a ferramenta WEKA e três algoritmos diferentes:
Classificação, Clusterização e Associação. Em Silva et. al. (2011) é apresentada uma análise similar a
de Oliveira et. al. (2011), utilizando a ferramenta WEKA para encontrar padrões que mostrassem
relações entre a classe social, etnia e cidade de procedência dos alunos matriculados no IFPI – Campus
Floriano. Este artigo diferencia-se dos trabalhos anteriores por utilizar a ferramenta VIS-STAMP para
descobrir padrões e depois comparar com os resultados do trabalho proposto por Silva et. al. (2011).
MINERAÇÃO DE DADOS E A FERRAMENTA VIS-STAMP: A Mineração de Dados é uma das
etapas do processo de descoberta do conhecimento em banco de dados, do inglês, Knowledge
Discovery in Databases (KDD), sendo um processo, não trivial, de extração de informações
2. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.
implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um
banco de dados (FAYYAD; SHAPIRO; SMYTH, 1996). A ferramenta VIS-STAMP é um software
para explorar dados multivariados em espaço-temporal (DIASHENG, 2006). Descobre padrões e
apresenta-os de uma forma de fácil interpretação humana, ajudando no raciocínio analítico e/ou
tomada de decisão.
A ferramenta é composta por um MapMatrix (Mapa de Matriz) para a visualização temporal dos
mapas; um Space-Time Matrix (S-T Matrix) o qual organiza os padrões multivariados no campo
espaço-temporal; um Self Organizing Map (SOM), que são Mapa Auto Organizável, possibilitando a
representação multivariada de agrupamento e de abstração (incluindo agrupamento de séries
temporais); e um Parallel Coordinate Plot (PCP), que são os Plots de coordenadas paralelas que
permitem a visualização de padrões multivariados (DIASHENG, 2006).
METODOLOGIA E ÁREA DE ESTUDO: Para o desenvolvimento deste artigo foi utilizada a base
de dados de matrícula do IFPI – Campus Floriano, que contém dados dos estudantes matriculados
entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. As etapas da Mineração de dados
utilizadas foram: seleção de dados, pré-processamento, transformação dos dados,
interpretação/avaliação (SILVA et. al. 2011).
O presente artigo faz uma análise dos dados do corpo discente que estudou e estuda no IFPI – Campus
Floriano, localizado no estado do Piauí. O Piauí está localizado a noroeste da região Nordeste do
Brasil, ocupa uma área de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes
(IBGE, 2012). Sua capital é a cidade de Teresina. A economia do estado é baseada no setor de
serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja, algodão, arroz,
cana-de-açúcar, mandioca, mel) e na pecuária extensiva. A Figura 1 ilustra a localização da área de
estudos (município de Floriano) em relação ao mapa do Brasil e ao estado do Piauí, do qual o
município de Floriano faz parte.
Figura 1 - Localização da área de estudos em relação ao território do Brasil. Fonte: (SILVA et. al.
2011).
RESULTADOS E DISCUSSÃO: Nesta seção, são apresentados os resultados da análise espaço-
temporal dos índices apresentados com o VIS-STAMP. Inicialmente, foi feita uma Mineração de
Dados usando as seguintes variáveis: renda, classe social (C, D, E e F) e cor da pele (Parda, Amarela,
Branca e Negra) e constatou-se uma correlação entre elas. Foi visto que os estudantes de etnia parda
(cluster amarelo forte) e com uma renda em média de 2 (dois) salários mínimos são maioria no
instituto, como ilustra a Figura 2 (A).
A Figura 2 (B) corresponde ao SOM (que é um Mapa Auto Organizável para processar os perfis
multivariados, onde cada nó colorido representa um cluster e nós mais próximos são mais parecidos).
O SOM é utilizado em Mineração de Dados para reduzir a dimensionalidade dos dados, apresentando-
os no formato bidimensional. É importante salientar que o cluster de cor azul, o maior cluster na
3. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.
Figura 2 (B), representa a cidade de Floriano – PI, pois é a cidade que possui a maior quantidade de
aluno no Instituto. Assim, quanto maior a quantidade de dados presentes no cluster, maior será a área
do círculo no SOM.
Figura 2 – (A) PCP com os clusters formados pelos índices, (B) SOM mostrando os clusters formados
e suas grandezas.
As outras cidades, que possuem um número considerado de alunos no Instituto são: Guadalupe,
representado pelo cluster vermelho, Jerumenha, que corresponde ao cluster verde escuro. O cluster
roxo representa a cidade de Canto do Buriti, o cluster lilás corresponde à cidade de Amarante. Outras
cidades do Piauí também são apresentadas na Figura 2 (B), mas com um número pequeno de alunos,
como é o caso da cidade de Oeiras, representado na Figura 2 (B), pelo cluster azul claro.
Figura 3 – Matrix de Mapa representando a formação de cluster espaço-temporal com os dados do
Instituto entre os anos de 1998 a 2010.
A representação do MapMatrix (Matrix de Mapa) – Figura 3 – possibilita ao usuário visualizar os
clusters, mostrando como eles se apresentam e como as mudanças ocorrem em uma determinada linha
4. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.
de tempo, entre os anos de 1998 a 2010. Constatando que, com o passar dos tempos, mais estudantes
das cidades circunvizinhas se deslocaram para estudar no campus de Floriano – PI. É no MapMatrix
que podemos analisar a representação espaço-temporal, analisando as diferenças que ocorrem nos
mapas em cada ano.
Posteriormente a base foi minerada, usando apenas a classe etnia (Branca, Amarela, Negra e Parda).
Notou-se, visualizando apenas um cluster (cluster roxo), uma correlação entre os índices. É possível
verificar relações esperadas e inesperadas. A relação esperada é que a grande maioria dos estudantes é
da cidade de Floriano – PI e a inesperada é que uma parte considerada dos alunos se declarou negra,
como podemos observar na Figura 4.
Figura 4 – Visão individual dos dados do clus ter selecionado.
A Figura 5 representa o SOM após a seleção do cluster, exibido na Figura 4, onde se constatou que a
dimensão do círculo é elevada, caracterizando assim, a existência de uma grande quantidade de
estudantes presentes nele.
Figura 5 – Visão em cluster da seleção de um cluster.
Analisando os padrões gerados pela ferramenta, identificou-se que a cor da pele em nada influencia a
instituição de origem: em todas as etnias, a maioria dos alunos foi proveniente de escola pública. No
entanto, na classe social C apresentou uma predominância em instituições filantrópicas. Para as
instituições públicas e privadas, a predominância continua sendo de estudantes da classe E.
5. Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.
A classe social também apresentou relação direta com o curso escolhido. Identificou-se que alunos de
classe social mais alta preferem cursos nas áreas de técnico em edificações e informática e ensino
médio subsequente em edificações. Outros padrões relevantes foram:
1. Os alunos, que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso
de Matemática, são da cidade de Floriano, pertencem classe social C e são de etnia negra;
2. Os alunos que ingressaram depois de 2008 e oriundos de escolas particulares, escolheram o
curso de Análise e Desenvolvimento de Sistemas e são de etnia parda;
3. O curso de Biologia até o ano de 2005 foi preferido por mulheres da classe social C e etnia
branca.
Comparando os resultados gerados com o trabalho apresentado em Silva et. al. (2011), constatou-se
que mesmo utilizando outra ferramenta para mineração dos dados da base do IFPI, os resultados
encontrados são basicamente os mesmos, não diferenciando muito de uma ferramenta para outra.
Concluindo-se que não importa utilizar diferentes ferramentas para mineração desta base, que o
resultado encontrado será essencialmente o mesmo.
CONCLUSÕES: Verificou-se que os estudantes do IFPI – Campus Floriano são predominantes de
classe social baixa e de etnia parda. Foi constatado também que, a cada ano os estudantes de etnia
negra vêm aumentando no Instituto. Tais estudantes são oriundos de escolas públicas, verificando que
o IFPI, de fato, exerce o seu papel de inclusão social, pois não apresentou uma disparidade entre seus
alunos referentes à classe social, a etnia e a origem escolar dos mesmos.
Através desta pesquisa concluiu-se que a Mineração de Dados é um processo de fundamental
importância para a obtenção de informações de grandes bases de dados. Como trabalho futuro propõe-
se a exploração desta base de dados utilizando outros softwares de Mineração de Dados Geográficos,
fazendo uma comparação entre os resultados gerados.
AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao
IFPI – Campus Floriano pela disponibilização da base de dados.
REFERÊNCIAS:
IBGE. Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso
em: jun. 2012.
Diasheng, G., Jin, C., Maceachren, M. A., K, L. A Visual Inquiry System for Space-Time and
Multivariate Patterns (VIS-STAMP). 2006.
Fayyad, U. M.; Shapiro, G. P.; Smyth, P. From data mining to knowledge discovery: An overview.
AI Magazine pp. 37–54, 1996.
Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. Spatial analysis of the
student profile of federal techical school of Piauí. In: ISTI: Conferência Ibérica de Sistemas e
Tecnologias de Informação. Portugal, 2011. p. 368-373.
Silva, T. R.; Grosmann, D.; Oliveira, A. T; Castro, A. F.; Silva, M. P. S. Análise Espacial do Perfil
dos Alunos do IFPI – Campus Floriano usando Técnicas de Mineração de Dados. In: Encontro
Regional de Computação Ceará, Maranhão e Piauí - ERCEMAPI. Teresina, PI. 2011.