Sistemas Inteligentes para Textos da WEB

Sistemas Inteligentes
para Textos da WEB
Dr. Eng. Fernando Hideo Fukuda
Centro de Conhecimento em Tecnologias da Estácio
Agência de Desenvolvimento e Inovação Tecnológica da Estácio
Trabalho aprovado para apresentação oral
26 de outubro de 2013

Categoria
• Dissertação de Mestrado em Sistemas
de Computação pelo Departamento de
Engenharia Elétrica da PUC/RJ aprovada
em 7 de abril de 1999
• Mestrado realizado com bolsa de estudos da
CAPES.
• Orientador: Prof. Dr. Emmanuel L. P. Passos

Objetivos
• O objetivo principal deste artigo é investigar a
aplicação de algoritmos e técnicas de
inteligência
computacional
para
o
tratamento e seleção de documentos
textuais da Internet encontrados na WWW
(World Wide Web), bem como a construção de
um protótipo para avaliar estas técnicas.

Objetivos
• As técnicas de inteligência computacional
pesquisadas são baseadas em KDD, Sistemas
Especialistas e Redes Neurais para a
avaliação de textos da Web sem a
necessidade de um PLN, tornando-as
independentes da linguagem natural escrita
utilizada nos textos.

Processos de KDD / KDT
• A WEB pode ser considerada como um
enorme Data Warehouse.
• Assim, aplicamos os conceitos de KDD
(Knowlegde Discovery in Database) para
avaliação dos textos da WEB.
• KDT (Knowledge Discovery in Text) é um
novo ramo do KDD, específico para
descoberta de conhecimentos em texto.

• Definição do problema
– Avaliar e selecionar os textos da WEB baseado
em um perfil de interesse.

 Data Cleansing (Limpeza dos Dados)
– Extração das tags HTML e DHTML;
– Extração dos códigos de scripts:
• Javascript
• VBscript,

– Extração das referências às imagens e links;

– Conversão dos caracteres com acentuação
estendida na codificação ISO Latin-1 para a
codificação ASC-II;
• Inform&aacutetica
 Informática
– Conversão dos caracteres minúsculos para
maiúsculos para normalização textual.

• Informática



INFORMÁTICA

 Data Selection (Seleção dos Dados)
– Nesta etapa os ruídos são eliminados do
texto, mantendo-se apenas os termos
significativos.
– No modo de treinamento é feita a seleção dos
exemplos POSITIVOS e NEGATIVOS.

 Data Reduction (Redução dos Dados)
– A redução da quantidade de termos do texto
é obtida através do dicionário de sinônimos.

Sistemas Especialistas
• RUÍDOS
– SE termo = “DE”
– ENTÃO é ruído e elimina da avaliação do texto

• SINÔNIMOS
– SE
termo = ”VOLLEY” ou termo =
”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou
termo = ”VOLEI” ou termo = VOLEYBALL” ou
termo = ”VOLEYBOL”
– ENTÃO termo = “VOLEIBOL”

 Data Representation (Representação dos
Dados)
– Nesta fase são realizadas as avaliações dos:
• TERMOS
• RELACIONAMENTOS DE TERMOS
• PROXIMIDADES DE RELACIONAMENTOS

de cada texto.

 Knowledge Learning (Aquisição do
Conhecimento)
 Modo de treinamento
– As avaliações dos termos, relacionamentos e
proximidades de cada texto são armazenadas na
base positiva ou negativa e processadas para
formar a Base de Conhecimentos sobre o perfil
de interesse.

 Data Representation
Dados)

(Representação

dos

– Nesta fase é realizada a avaliação das
CARACTERÍSTICAS do texto em função da Base de
Conhecimentos, cujos resultados numéricos
representam o texto e são fornecidos como
entrada da rede neural.

 Model and Architecture Selection (Seleção do
Modelo e da Arquitetura)
– Foi escolhida a técnica de REDES NEURAIS,
tendo-se em vista que estas dispensam a
modelagem do algoritmo de avaliação do
problema pelo especialista.

 Knowledge
Learning
Conhecimento)

(Aquisição

do

– Nesta etapa é realizado o treinamento da REDE
NEURAL com os padrões de treinamento obtido
do conjunto de textos fornecido pelo usuário
para a Aquisição dos Conhecimentos das
Características de um determinado perfil.

 Classification (Classificação)
– A Rede Neural executa a Classificação dos textos
em função das Avaliações das Características.

 Data Mining (Mineração de Dados) ou Text
Mining (Mineração de Texto)
– A interpretação da saída da rede neural
representa a classificação do texto.

 Knowledge
Discovery
Conhecimento)

(Descoberta

do

– Descobre-se, nesta última etapa do KDD, se o
texto está de acordo ou não com o perfil de
interesse.

Redes Neurais
• Neste trabalho foram investigadas as redes
de treinamento supervisionado do tipo
feedfoward com algoritmo backpropagation,
devido a sua consagrada característica de
classificador universal.

Técnicas de avaliação de textos da
WEB
 Termo
– Pode ser uma palavra, raiz de uma palavra,
fragmento de palavra ou fragmento do texto.

 Ruídos
– São termos comuns e por isso não possuem
utilidade na pesquisa, já que estarão contidos
na maioria dos documentos. Geralmente são
artigos, conjunções, pronomes, numerais,
símbolos, pontuações, letras isoladas.

WEB
 Relacionamento entre termos
– Os termos contidos em um mesmo fragmento de
texto (parágrafo ou documento), geralmente
estão relacionados em um fragmento para
expressar um determinado conceito.
– Logo, a ocorrência destes relacionamentos
recebe uma pontuação para indicar o
fortalecimento deste conceito no texto.

WEB
 Proximidade
– Os operadores de proximidade localizam termos
ou relacionamentos de termos dentro de uma
certa distância entre si.
– A distância é medida em quantidade de termos,
sentenças, parágrafos ou unidades de estruturas.
– Neste trabalho é medida a distância em
parágrafos entre relacionamentos de termos.

WEB
 Pesquisa ponderada
– A pesquisa ponderada é baseada numa
pontuação (pesos) para medir o quanto um
documento se enquadra numa consulta.
– Este processo é muito útil quando a pesquisa é
realizada em grandes bases de documentos.

WEB
• Métodos de pesquisa ponderada
– Contagem do número de documentos que
apresentam o termo;
– Contagem do número de ocorrências de cada
termo ou padrão.
– Combinação de estratégias, onde cada termo ou
padrão recebe um peso, o qual é multiplicado
pela quantidade de ocorrências.

Modelagem do SITEX
• Objetivos:
– Realizar a conexão de acesso discado à Internet;
– Realizar a conexão à Web através do protocolo
HTTP baseado no TCP/IP;
– Obter a página HTML na URL especificada;
– Navegar na WWW (Web) através dos links
hipertexto da página HTML;

Modelagem do SITEX
• Objetivos:
– Abrir e salvar páginas HTML;
– Interpretar os comandos HTML da página;
– Apresentar a página HTML para visualização
gráfica no video;
– Extrair o texto da página HTML sem: tags,
scripts, referências e links;
– Converter as acentuações codificadas em ISO
Latin-1 para ASCII;

Modelagem do SITEX
• Objetivos:
– Extrair o texto sem os ruídos;
– Substituir os sinônimos dos termos;
– Normalizar os termos;
– Abrir e salvar arquivos texto;
– Criar a Base de Conhecimento para um perfil de
interesse;

Modelagem do SITEX
• Objetivos:
– Analisar as Características textuais do texto;
– Armazenar e recuperar o perfil do usuário;
– Avaliar o texto em função do perfil de interesse;

Algoritmo do SITEX
• Modo de Treinamento
• Modo de Produção

Algoritmo do SITEX
• Modo de Treinamento
– Avaliação de Termos, Relacionamentos e
Proximidades
– Criação da Base de Conhecimentos
– Avaliação das Características Textuais
– Treinamento da Rede Neural
– Validação dos Resultados

Algoritmo do SITEX
• Modo de Produção
– Avaliação de Termos, Relacionamentos e
Proximidades
– Avaliação das Características Textuais
– Execução da Rede Neural
– Verificação dos Resultados

Modo de Treinamento
Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS
(positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO

Modo de Treinamento
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS

Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO

QUANT

PESO

Modo de Treinamento
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO

Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS

PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
TERMO1

TERMO2

QUANT

PESO

Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS
(maior dist. / dist. média)
TERMO1

TERMO2

DIST

PESO

Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

QUANT



Base de Conhecimentos

TERMO

PESO TOT

PESO

Modo de Treinamento
TERMO

QUANT

PESO




TERMO

PESO TOT

Modo de Treinamento
TERMO1

TERMO2

QUANT




TERMO1

TERMO2

PESO TOT

PESO

Modo de Treinamento
TERMO1

TERMO2

QUANT

PESO



TERMO1

TERMO2

PESO TOT

Modo de Treinamento
TERMO1

TERMO2

DIST




TERMO1

TERMO2

PESO TOT

PESO

Modo de Treinamento
TERMO1

TERMO2

DIST

PESO



TERMO1

TERMO2

PESO TOT

Modo de Treinamento


TERMO

PESO TOT

/ quant. exemplos
positivos

TERMO

PESO MED

Modo de Treinamento


TERMO

PESO TOT

/ quant. exemplos
negativos
TERMO

PESO MED

Modo de Treinamento


TERMO1

TERMO2

PESO TOT

/ quant. exemplos positivos
TERMO1

TERMO2

PESO MED

Modo de Treinamento


TERMO1

TERMO2

PESO TOT

/ quant. exemplos negativos
TERMO1

TERMO2

PESO MED

Modo de Treinamento
TERMO

PESO MED

TERMO1

TERMO2

PESO MED

TERMO1

TERMO2

PESO MED

T
R
D

Base de
Conhecimentos
TERMO

PESO MED

TERMO1

TERMO2

PESO MED

TERMO1

TERMO2

PESO MED

T
R
D

Modo de Treinamento
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos do texto
na base positiva

TERMO

PESO MED

T

Modo de Treinamento
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos do texto
na base negativa

TERMO

PESO MED

T

Modo de Treinamento
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva

TERMO1

TERMO2

PESO MED

R

Modo de Treinamento
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa

TERMO1

TERMO2

PESO MED

R

Modo de Treinamento
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) / quant de proximidades do texto
na base positiva

TERMO1

TERMO2

PESO MED

R

Modo de Treinamento
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) / quant de proximidades do texto
na base negativa

TERMO1

TERMO2

PESO MED

R

Modo de Treinamento
Treinamento da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0

Modo de Produção
DOCUMENTOS

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO

Modo de Produção
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS

Modo de Produção
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS

PESOS DOS TERMOS SIGNIFICATIVOS
TERMO

QUANT

PESO

Modo de Produção
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos do texto
na base positiva

TERMO

PESO MED

T

Modo de Produção
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos do texto
na base negativa

TERMO

PESO MED

T

Modo de Produção
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO

Modo de Produção
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS

PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
TERMO1

TERMO2

QUANT

PESO

Modo de Produção
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva

TERMO1

TERMO2

PESO MED

R

Modo de Produção
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa

TERMO1

TERMO2

PESO MED

R

Modo de Produção
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
(dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS
(maior dist. / dist. média)
TERMO1

TERMO2

DIST

PESO

Modo de Produção
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) / quant de proximidades do texto
na base positiva

TERMO1

TERMO2

PESO MED

R

Modo de Produção
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) / quant de proximidades do texto
na base negativa

TERMO1

TERMO2

PESO MED

R

Modo de Produção
Execução da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0

Resultados
• Tecnologia da Informação
• Taxa de acertos sobre todos os arquivos:

• Taxa de acertos sobre arq. dentro do perfil:
• Taxa de acertos sobre arq. fora do perfil:

93,15%
83,33%
96,36%

Conclusões
• As principais contribuições deste
trabalho foram:
– o desenvolvimento de técnicas inéditas de
KDD / KDT e
– o desenvolvimento de algoritmos inéditos
de avaliação de textos da WEB para um perfil
de interesse.

Produções Científicas
• Artigo aprovado no Data Mining 2000,
Cambridge University, UK

• Capítulo do livro Data Mining II

• Artigo aprovado no SBRN RIO 2000

Contato
Dr. Fernando Hideo Fukuda
Diretor Executivo da Agência de Desenvolvimento e
Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO)
Diretor do Centro de Conhecimento em Tecnologias
E-mail: fernando.fukuda@estacio.br
Tel.: +55 (21) 2503-7076
Cel.: +55 (21) 98496-7098

Sistemas Inteligentes para Textos da WEB

Recomendados

Recomendados

Más contenido relacionado

Similar a Sistemas Inteligentes para Textos da WEB

Similar a Sistemas Inteligentes para Textos da WEB (20)

Más de Fernando Hideo Fukuda

Más de Fernando Hideo Fukuda (8)

Sistemas Inteligentes para Textos da WEB