O documento descreve um sistema inteligente para avaliar e selecionar documentos textuais da web usando técnicas de inteligência computacional como sistemas especialistas e redes neurais. O sistema foi desenvolvido para um mestrado e inclui processos de pré-processamento de texto, criação de uma base de conhecimento e treinamento de uma rede neural para classificar documentos.
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
Sistemas Inteligentes para Textos da WEB
1. Sistemas Inteligentes
para Textos da WEB
Dr. Eng. Fernando Hideo Fukuda
Centro de Conhecimento em Tecnologias da Estácio
Agência de Desenvolvimento e Inovação Tecnológica da Estácio
Trabalho aprovado para apresentação oral
26 de outubro de 2013
2. Categoria
• Dissertação de Mestrado em Sistemas
de Computação pelo Departamento de
Engenharia Elétrica da PUC/RJ aprovada
em 7 de abril de 1999
• Mestrado realizado com bolsa de estudos da
CAPES.
• Orientador: Prof. Dr. Emmanuel L. P. Passos
3. Objetivos
• O objetivo principal deste artigo é investigar a
aplicação de algoritmos e técnicas de
inteligência
computacional
para
o
tratamento e seleção de documentos
textuais da Internet encontrados na WWW
(World Wide Web), bem como a construção de
um protótipo para avaliar estas técnicas.
4. Objetivos
• As técnicas de inteligência computacional
pesquisadas são baseadas em KDD, Sistemas
Especialistas e Redes Neurais para a
avaliação de textos da Web sem a
necessidade de um PLN, tornando-as
independentes da linguagem natural escrita
utilizada nos textos.
5. Processos de KDD / KDT
• A WEB pode ser considerada como um
enorme Data Warehouse.
• Assim, aplicamos os conceitos de KDD
(Knowlegde Discovery in Database) para
avaliação dos textos da WEB.
• KDT (Knowledge Discovery in Text) é um
novo ramo do KDD, específico para
descoberta de conhecimentos em texto.
6. Processos de KDD / KDT
• Definição do problema
– Avaliar e selecionar os textos da WEB baseado
em um perfil de interesse.
Data Cleansing (Limpeza dos Dados)
– Extração das tags HTML e DHTML;
– Extração dos códigos de scripts:
• Javascript
• VBscript,
– Extração das referências às imagens e links;
7. Processos de KDD / KDT
– Conversão dos caracteres com acentuação
estendida na codificação ISO Latin-1 para a
codificação ASC-II;
• Informática
Informática
– Conversão dos caracteres minúsculos para
maiúsculos para normalização textual.
• Informática
INFORMÁTICA
8. Processos de KDD / KDT
Data Selection (Seleção dos Dados)
– Nesta etapa os ruídos são eliminados do
texto, mantendo-se apenas os termos
significativos.
– No modo de treinamento é feita a seleção dos
exemplos POSITIVOS e NEGATIVOS.
Data Reduction (Redução dos Dados)
– A redução da quantidade de termos do texto
é obtida através do dicionário de sinônimos.
9. Sistemas Especialistas
• RUÍDOS
– SE termo = “DE”
– ENTÃO é ruído e elimina da avaliação do texto
• SINÔNIMOS
– SE
termo = ”VOLLEY” ou termo =
”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou
termo = ”VOLEI” ou termo = VOLEYBALL” ou
termo = ”VOLEYBOL”
– ENTÃO termo = “VOLEIBOL”
10. Processos de KDD / KDT
Data Representation (Representação dos
Dados)
– Nesta fase são realizadas as avaliações dos:
• TERMOS
• RELACIONAMENTOS DE TERMOS
• PROXIMIDADES DE RELACIONAMENTOS
de cada texto.
11. Processos de KDD / KDT
Knowledge Learning (Aquisição do
Conhecimento)
Modo de treinamento
– As avaliações dos termos, relacionamentos e
proximidades de cada texto são armazenadas na
base positiva ou negativa e processadas para
formar a Base de Conhecimentos sobre o perfil
de interesse.
12. Processos de KDD / KDT
Data Representation
Dados)
(Representação
dos
– Nesta fase é realizada a avaliação das
CARACTERÍSTICAS do texto em função da Base de
Conhecimentos, cujos resultados numéricos
representam o texto e são fornecidos como
entrada da rede neural.
13. Processos de KDD / KDT
Model and Architecture Selection (Seleção do
Modelo e da Arquitetura)
Modo de treinamento
– Foi escolhida a técnica de REDES NEURAIS,
tendo-se em vista que estas dispensam a
modelagem do algoritmo de avaliação do
problema pelo especialista.
14. Processos de KDD / KDT
Knowledge
Learning
Conhecimento)
(Aquisição
do
Modo de treinamento
– Nesta etapa é realizado o treinamento da REDE
NEURAL com os padrões de treinamento obtido
do conjunto de textos fornecido pelo usuário
para a Aquisição dos Conhecimentos das
Características de um determinado perfil.
15. Processos de KDD / KDT
Classification (Classificação)
– A Rede Neural executa a Classificação dos textos
em função das Avaliações das Características.
Data Mining (Mineração de Dados) ou Text
Mining (Mineração de Texto)
– A interpretação da saída da rede neural
representa a classificação do texto.
16. Processos de KDD / KDT
Knowledge
Discovery
Conhecimento)
(Descoberta
do
– Descobre-se, nesta última etapa do KDD, se o
texto está de acordo ou não com o perfil de
interesse.
17. Redes Neurais
• Neste trabalho foram investigadas as redes
de treinamento supervisionado do tipo
feedfoward com algoritmo backpropagation,
devido a sua consagrada característica de
classificador universal.
18. Técnicas de avaliação de textos da
WEB
Termo
– Pode ser uma palavra, raiz de uma palavra,
fragmento de palavra ou fragmento do texto.
Ruídos
– São termos comuns e por isso não possuem
utilidade na pesquisa, já que estarão contidos
na maioria dos documentos. Geralmente são
artigos, conjunções, pronomes, numerais,
símbolos, pontuações, letras isoladas.
19. Técnicas de avaliação de textos da
WEB
Relacionamento entre termos
– Os termos contidos em um mesmo fragmento de
texto (parágrafo ou documento), geralmente
estão relacionados em um fragmento para
expressar um determinado conceito.
– Logo, a ocorrência destes relacionamentos
recebe uma pontuação para indicar o
fortalecimento deste conceito no texto.
20. Técnicas de avaliação de textos da
WEB
Proximidade
– Os operadores de proximidade localizam termos
ou relacionamentos de termos dentro de uma
certa distância entre si.
– A distância é medida em quantidade de termos,
sentenças, parágrafos ou unidades de estruturas.
– Neste trabalho é medida a distância em
parágrafos entre relacionamentos de termos.
21. Técnicas de avaliação de textos da
WEB
Pesquisa ponderada
– A pesquisa ponderada é baseada numa
pontuação (pesos) para medir o quanto um
documento se enquadra numa consulta.
– Este processo é muito útil quando a pesquisa é
realizada em grandes bases de documentos.
22. Técnicas de avaliação de textos da
WEB
• Métodos de pesquisa ponderada
– Contagem do número de documentos que
apresentam o termo;
– Contagem do número de ocorrências de cada
termo ou padrão.
– Combinação de estratégias, onde cada termo ou
padrão recebe um peso, o qual é multiplicado
pela quantidade de ocorrências.
23. Modelagem do SITEX
• Objetivos:
– Realizar a conexão de acesso discado à Internet;
– Realizar a conexão à Web através do protocolo
HTTP baseado no TCP/IP;
– Obter a página HTML na URL especificada;
– Navegar na WWW (Web) através dos links
hipertexto da página HTML;
24. Modelagem do SITEX
• Objetivos:
– Abrir e salvar páginas HTML;
– Interpretar os comandos HTML da página;
– Apresentar a página HTML para visualização
gráfica no video;
– Extrair o texto da página HTML sem: tags,
scripts, referências e links;
– Converter as acentuações codificadas em ISO
Latin-1 para ASCII;
25. Modelagem do SITEX
• Objetivos:
– Extrair o texto sem os ruídos;
– Substituir os sinônimos dos termos;
– Normalizar os termos;
– Abrir e salvar arquivos texto;
– Criar a Base de Conhecimento para um perfil de
interesse;
26. Modelagem do SITEX
• Objetivos:
– Analisar as Características textuais do texto;
– Armazenar e recuperar o perfil do usuário;
– Avaliar o texto em função do perfil de interesse;
28. Algoritmo do SITEX
• Modo de Treinamento
– Avaliação de Termos, Relacionamentos e
Proximidades
– Criação da Base de Conhecimentos
– Avaliação das Características Textuais
– Treinamento da Rede Neural
– Validação dos Resultados
29. Algoritmo do SITEX
• Modo de Produção
– Avaliação de Termos, Relacionamentos e
Proximidades
– Avaliação das Características Textuais
– Execução da Rede Neural
– Verificação dos Resultados
33. Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO
QUANT
PESO
35. Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS
EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1
TERMO2
QUANT
PESO
36. Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1
TERMO2
DIST
PESO
37. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO
QUANT
Base de Conhecimentos
TERMO
PESO TOT
PESO
38. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO
QUANT
PESO
Base de Conhecimentos
TERMO
PESO TOT
39. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1
TERMO2
QUANT
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
PESO
40. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1
TERMO2
QUANT
PESO
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
41. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1
TERMO2
DIST
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
PESO
42. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1
TERMO2
DIST
PESO
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
43. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO
PESO TOT
/ quant. exemplos
positivos
TERMO
PESO MED
44. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO
PESO TOT
/ quant. exemplos
negativos
TERMO
PESO MED
45. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
/ quant. exemplos positivos
TERMO1
TERMO2
PESO MED
46. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
/ quant. exemplos negativos
TERMO1
TERMO2
PESO MED
47. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
/ quant. exemplos positivos
TERMO1
TERMO2
PESO MED
48. Modo de Treinamento
Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO1
TERMO2
PESO TOT
/ quant. exemplos negativos
TERMO1
TERMO2
PESO MED
49. Modo de Treinamento
Criação da Base de Conhecimentos
TERMO
PESO MED
TERMO1
TERMO2
PESO MED
TERMO1
TERMO2
PESO MED
T
R
D
Base de
Conhecimentos
TERMO
PESO MED
TERMO1
TERMO2
PESO MED
TERMO1
TERMO2
PESO MED
T
R
D
52. Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO
QUANT
PESO
53. Modo de Treinamento
Avaliação de TP
TERMO
QUANT
PESO
TERMO
PESO MED
T
TP = ( quant (PM - PM) ) / quant de termos do texto
na base positiva
TERMO
PESO MED
T
54. Modo de Treinamento
Avaliação de TN
TERMO
QUANT
PESO
TERMO
PESO MED
T
TN = ( quant (PM - PM) ) / quant de termos do texto
na base negativa
TERMO
PESO MED
T
56. Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS
EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1
TERMO2
QUANT
PESO
57. Modo de Treinamento
Avaliação de RP
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
RP = ( quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva
TERMO1
TERMO2
PESO MED
R
58. Modo de Treinamento
Avaliação de RN
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
RN = ( quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa
TERMO1
TERMO2
PESO MED
R
59. Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1
TERMO2
DIST
PESO
60. Modo de Treinamento
Avaliação de DP
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
DP = ( quant (PM - PM) ) / quant de proximidades do texto
na base positiva
TERMO1
TERMO2
PESO MED
R
61. Modo de Treinamento
Avaliação de DN
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
DN = ( quant (PM - PM) ) / quant de proximidades do texto
na base negativa
TERMO1
TERMO2
PESO MED
R
66. Modo de Produção
Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO
QUANT
PESO
67. Modo de Produção
Avaliação de TP
TERMO
QUANT
PESO
TERMO
PESO MED
T
TP = ( quant (PM - PM) ) / quant de termos do texto
na base positiva
TERMO
PESO MED
T
68. Modo de Produção
Avaliação de TN
TERMO
QUANT
PESO
TERMO
PESO MED
T
TN = ( quant (PM - PM) ) / quant de termos do texto
na base negativa
TERMO
PESO MED
T
70. Modo de Produção
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS
EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1
TERMO2
QUANT
PESO
71. Modo de Produção
Avaliação de RP
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
RP = ( quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva
TERMO1
TERMO2
PESO MED
R
72. Modo de Produção
Avaliação de RN
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
RN = ( quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa
TERMO1
TERMO2
PESO MED
R
73. Modo de Produção
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1
TERMO2
DIST
PESO
74. Modo de Produção
Avaliação de DP
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
DP = ( quant (PM - PM) ) / quant de proximidades do texto
na base positiva
TERMO1
TERMO2
PESO MED
R
75. Modo de Produção
Avaliação de DN
TERMO1
TERMO2
QUANT
TERMO1
PESO
TERMO2
PESO MED
R
DN = ( quant (PM - PM) ) / quant de proximidades do texto
na base negativa
TERMO1
TERMO2
PESO MED
R
79. Resultados
• Tecnologia da Informação
• Taxa de acertos sobre todos os arquivos:
• Taxa de acertos sobre arq. dentro do perfil:
• Taxa de acertos sobre arq. fora do perfil:
93,15%
83,33%
96,36%
80. Conclusões
• As principais contribuições deste
trabalho foram:
– o desenvolvimento de técnicas inéditas de
KDD / KDT e
– o desenvolvimento de algoritmos inéditos
de avaliação de textos da WEB para um perfil
de interesse.
84. Contato
Dr. Fernando Hideo Fukuda
Diretor Executivo da Agência de Desenvolvimento e
Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO)
Diretor do Centro de Conhecimento em Tecnologias
E-mail: fernando.fukuda@estacio.br
Tel.: +55 (21) 2503-7076
Cel.: +55 (21) 98496-7098