SlideShare una empresa de Scribd logo
1 de 84
Descargar para leer sin conexión
Sistemas Inteligentes
para Textos da WEB
Dr. Eng. Fernando Hideo Fukuda
Centro de Conhecimento em Tecnologias da Estácio
Agência de Desenvolvimento e Inovação Tecnológica da Estácio
Trabalho aprovado para apresentação oral
26 de outubro de 2013
Categoria
• Dissertação de Mestrado em Sistemas
de Computação pelo Departamento de
Engenharia Elétrica da PUC/RJ aprovada
em 7 de abril de 1999
• Mestrado realizado com bolsa de estudos da
CAPES.
• Orientador: Prof. Dr. Emmanuel L. P. Passos
Objetivos
• O objetivo principal deste artigo é investigar a
aplicação de algoritmos e técnicas de
inteligência
computacional
para
o
tratamento e seleção de documentos
textuais da Internet encontrados na WWW
(World Wide Web), bem como a construção de
um protótipo para avaliar estas técnicas.
Objetivos
• As técnicas de inteligência computacional
pesquisadas são baseadas em KDD, Sistemas
Especialistas e Redes Neurais para a
avaliação de textos da Web sem a
necessidade de um PLN, tornando-as
independentes da linguagem natural escrita
utilizada nos textos.
Processos de KDD / KDT
• A WEB pode ser considerada como um
enorme Data Warehouse.
• Assim, aplicamos os conceitos de KDD
(Knowlegde Discovery in Database) para
avaliação dos textos da WEB.
• KDT (Knowledge Discovery in Text) é um
novo ramo do KDD, específico para
descoberta de conhecimentos em texto.
Processos de KDD / KDT
• Definição do problema
– Avaliar e selecionar os textos da WEB baseado
em um perfil de interesse.

 Data Cleansing (Limpeza dos Dados)
– Extração das tags HTML e DHTML;
– Extração dos códigos de scripts:
• Javascript
• VBscript,

– Extração das referências às imagens e links;
Processos de KDD / KDT
– Conversão dos caracteres com acentuação
estendida na codificação ISO Latin-1 para a
codificação ASC-II;
• Inform&aacutetica
 Informática
– Conversão dos caracteres minúsculos para
maiúsculos para normalização textual.

• Informática



INFORMÁTICA
Processos de KDD / KDT
 Data Selection (Seleção dos Dados)
– Nesta etapa os ruídos são eliminados do
texto, mantendo-se apenas os termos
significativos.
– No modo de treinamento é feita a seleção dos
exemplos POSITIVOS e NEGATIVOS.

 Data Reduction (Redução dos Dados)
– A redução da quantidade de termos do texto
é obtida através do dicionário de sinônimos.
Sistemas Especialistas
• RUÍDOS
– SE termo = “DE”
– ENTÃO é ruído e elimina da avaliação do texto

• SINÔNIMOS
– SE
termo = ”VOLLEY” ou termo =
”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou
termo = ”VOLEI” ou termo = VOLEYBALL” ou
termo = ”VOLEYBOL”
– ENTÃO termo = “VOLEIBOL”
Processos de KDD / KDT
 Data Representation (Representação dos
Dados)
– Nesta fase são realizadas as avaliações dos:
• TERMOS
• RELACIONAMENTOS DE TERMOS
• PROXIMIDADES DE RELACIONAMENTOS

de cada texto.
Processos de KDD / KDT
 Knowledge Learning (Aquisição do
Conhecimento)
 Modo de treinamento
– As avaliações dos termos, relacionamentos e
proximidades de cada texto são armazenadas na
base positiva ou negativa e processadas para
formar a Base de Conhecimentos sobre o perfil
de interesse.
Processos de KDD / KDT
 Data Representation
Dados)

(Representação

dos

– Nesta fase é realizada a avaliação das
CARACTERÍSTICAS do texto em função da Base de
Conhecimentos, cujos resultados numéricos
representam o texto e são fornecidos como
entrada da rede neural.
Processos de KDD / KDT
 Model and Architecture Selection (Seleção do
Modelo e da Arquitetura)
 Modo de treinamento
– Foi escolhida a técnica de REDES NEURAIS,
tendo-se em vista que estas dispensam a
modelagem do algoritmo de avaliação do
problema pelo especialista.
Processos de KDD / KDT
 Knowledge
Learning
Conhecimento)

(Aquisição

do

 Modo de treinamento
– Nesta etapa é realizado o treinamento da REDE
NEURAL com os padrões de treinamento obtido
do conjunto de textos fornecido pelo usuário
para a Aquisição dos Conhecimentos das
Características de um determinado perfil.
Processos de KDD / KDT
 Classification (Classificação)
– A Rede Neural executa a Classificação dos textos
em função das Avaliações das Características.

 Data Mining (Mineração de Dados) ou Text
Mining (Mineração de Texto)
– A interpretação da saída da rede neural
representa a classificação do texto.
Processos de KDD / KDT
 Knowledge
Discovery
Conhecimento)

(Descoberta

do

– Descobre-se, nesta última etapa do KDD, se o
texto está de acordo ou não com o perfil de
interesse.
Redes Neurais
• Neste trabalho foram investigadas as redes
de treinamento supervisionado do tipo
feedfoward com algoritmo backpropagation,
devido a sua consagrada característica de
classificador universal.
Técnicas de avaliação de textos da
WEB
 Termo
– Pode ser uma palavra, raiz de uma palavra,
fragmento de palavra ou fragmento do texto.

 Ruídos
– São termos comuns e por isso não possuem
utilidade na pesquisa, já que estarão contidos
na maioria dos documentos. Geralmente são
artigos, conjunções, pronomes, numerais,
símbolos, pontuações, letras isoladas.
Técnicas de avaliação de textos da
WEB
 Relacionamento entre termos
– Os termos contidos em um mesmo fragmento de
texto (parágrafo ou documento), geralmente
estão relacionados em um fragmento para
expressar um determinado conceito.
– Logo, a ocorrência destes relacionamentos
recebe uma pontuação para indicar o
fortalecimento deste conceito no texto.
Técnicas de avaliação de textos da
WEB
 Proximidade
– Os operadores de proximidade localizam termos
ou relacionamentos de termos dentro de uma
certa distância entre si.
– A distância é medida em quantidade de termos,
sentenças, parágrafos ou unidades de estruturas.
– Neste trabalho é medida a distância em
parágrafos entre relacionamentos de termos.
Técnicas de avaliação de textos da
WEB
 Pesquisa ponderada
– A pesquisa ponderada é baseada numa
pontuação (pesos) para medir o quanto um
documento se enquadra numa consulta.
– Este processo é muito útil quando a pesquisa é
realizada em grandes bases de documentos.
Técnicas de avaliação de textos da
WEB
• Métodos de pesquisa ponderada
– Contagem do número de documentos que
apresentam o termo;
– Contagem do número de ocorrências de cada
termo ou padrão.
– Combinação de estratégias, onde cada termo ou
padrão recebe um peso, o qual é multiplicado
pela quantidade de ocorrências.
Modelagem do SITEX
• Objetivos:
– Realizar a conexão de acesso discado à Internet;
– Realizar a conexão à Web através do protocolo
HTTP baseado no TCP/IP;
– Obter a página HTML na URL especificada;
– Navegar na WWW (Web) através dos links
hipertexto da página HTML;
Modelagem do SITEX
• Objetivos:
– Abrir e salvar páginas HTML;
– Interpretar os comandos HTML da página;
– Apresentar a página HTML para visualização
gráfica no video;
– Extrair o texto da página HTML sem: tags,
scripts, referências e links;
– Converter as acentuações codificadas em ISO
Latin-1 para ASCII;
Modelagem do SITEX
• Objetivos:
– Extrair o texto sem os ruídos;
– Substituir os sinônimos dos termos;
– Normalizar os termos;
– Abrir e salvar arquivos texto;
– Criar a Base de Conhecimento para um perfil de
interesse;
Modelagem do SITEX
• Objetivos:
– Analisar as Características textuais do texto;
– Armazenar e recuperar o perfil do usuário;
– Avaliar o texto em função do perfil de interesse;
Algoritmo do SITEX
• Modo de Treinamento
• Modo de Produção
Algoritmo do SITEX
• Modo de Treinamento
– Avaliação de Termos, Relacionamentos e
Proximidades
– Criação da Base de Conhecimentos
– Avaliação das Características Textuais
– Treinamento da Rede Neural
– Validação dos Resultados
Algoritmo do SITEX
• Modo de Produção
– Avaliação de Termos, Relacionamentos e
Proximidades
– Avaliação das Características Textuais
– Execução da Rede Neural
– Verificação dos Resultados
Modo de Treinamento
Modo de Treinamento
Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS
(positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO
Modo de Treinamento
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO

QUANT

PESO
Modo de Treinamento
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1

TERMO2

QUANT

PESO
Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1

TERMO2

DIST

PESO
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

QUANT



Base de Conhecimentos

TERMO

PESO TOT

PESO
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

QUANT

PESO



Base de Conhecimentos

TERMO

PESO TOT
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

QUANT



Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

PESO
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

QUANT

PESO



Base de Conhecimentos
TERMO1

TERMO2

PESO TOT
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

DIST



Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

PESO
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

DIST

PESO



Base de Conhecimentos
TERMO1

TERMO2

PESO TOT
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO

PESO TOT

/ quant. exemplos
positivos

TERMO

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO

PESO TOT

/ quant. exemplos
negativos
TERMO

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos positivos
TERMO1

TERMO2

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos negativos
TERMO1

TERMO2

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos positivos
TERMO1

TERMO2

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos negativos
TERMO1

TERMO2

PESO MED
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

PESO MED

TERMO1

TERMO2

PESO MED

TERMO1

TERMO2

PESO MED

T
R
D

Base de
Conhecimentos
TERMO

PESO MED

TERMO1

TERMO2

PESO MED

TERMO1

TERMO2

PESO MED

T
R
D
Modo de Treinamento
Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS
(positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO
Modo de Treinamento
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO

QUANT

PESO
Modo de Treinamento
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos do texto
na base positiva

TERMO

PESO MED

T
Modo de Treinamento
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos do texto
na base negativa

TERMO

PESO MED

T
Modo de Treinamento
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1

TERMO2

QUANT

PESO
Modo de Treinamento
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva

TERMO1

TERMO2

PESO MED

R
Modo de Treinamento
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa

TERMO1

TERMO2

PESO MED

R
Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1

TERMO2

DIST

PESO
Modo de Treinamento
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) / quant de proximidades do texto
na base positiva

TERMO1

TERMO2

PESO MED

R
Modo de Treinamento
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) / quant de proximidades do texto
na base negativa

TERMO1

TERMO2

PESO MED

R
Modo de Treinamento
Treinamento da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0
Modo de Produção
Modo de Produção
Filtro/Extrator/Conversor
DOCUMENTOS

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO
Modo de Produção
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Produção
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS
(quant. / menor quant.)
TERMO

QUANT

PESO
Modo de Produção
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos do texto
na base positiva

TERMO

PESO MED

T
Modo de Produção
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos do texto
na base negativa

TERMO

PESO MED

T
Modo de Produção
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Produção
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS
SIGNIFICATIVOS
(quant. / menor quant.)
TERMO1

TERMO2

QUANT

PESO
Modo de Produção
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base positiva

TERMO1

TERMO2

PESO MED

R
Modo de Produção
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) / quant de relacionamentos do texto
na base negativa

TERMO1

TERMO2

PESO MED

R
Modo de Produção
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS DE RELACIONAMENTOS
(maior dist. / dist. média)
TERMO1

TERMO2

DIST

PESO
Modo de Produção
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) / quant de proximidades do texto
na base positiva

TERMO1

TERMO2

PESO MED

R
Modo de Produção
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) / quant de proximidades do texto
na base negativa

TERMO1

TERMO2

PESO MED

R
Modo de Produção
Execução da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0
Resultados
• Tecnologia da Informação
• Taxa de acertos sobre todos os arquivos:

• Taxa de acertos sobre arq. dentro do perfil:
• Taxa de acertos sobre arq. fora do perfil:

93,15%
83,33%
96,36%
Conclusões
• As principais contribuições deste
trabalho foram:
– o desenvolvimento de técnicas inéditas de
KDD / KDT e
– o desenvolvimento de algoritmos inéditos
de avaliação de textos da WEB para um perfil
de interesse.
Produções Científicas
• Artigo aprovado no Data Mining 2000,
Cambridge University, UK
Produções Científicas
• Capítulo do livro Data Mining II
Produções Científicas
• Artigo aprovado no SBRN RIO 2000
Contato
Dr. Fernando Hideo Fukuda
Diretor Executivo da Agência de Desenvolvimento e
Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO)
Diretor do Centro de Conhecimento em Tecnologias
E-mail: fernando.fukuda@estacio.br
Tel.: +55 (21) 2503-7076
Cel.: +55 (21) 98496-7098

Más contenido relacionado

Similar a Sistemas Inteligentes para Textos da WEB

Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018Renato Groff
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...Renato Groff
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Apresentação Banco de Dados - Caché
Apresentação Banco de Dados - CachéApresentação Banco de Dados - Caché
Apresentação Banco de Dados - CachéRenzo Petri
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxDell Technologies
 
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e Planificações
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e PlanificaçõesPractice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e Planificações
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e PlanificaçõesRogerio P C do Nascimento
 
Em Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do FuturoEm Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do FuturoMagnos Martinello
 
Java No Setor Público: Produtividade, Flexibilidade e Baixo Custo
Java No Setor Público: Produtividade, Flexibilidade e Baixo CustoJava No Setor Público: Produtividade, Flexibilidade e Baixo Custo
Java No Setor Público: Produtividade, Flexibilidade e Baixo CustoÉberli Cabistani Riella
 
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...DouglasAmmirantedaCu
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudAmazon Web Services
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Mocks, Stubs e Fakes - Developers-SP - Julho-2017
Mocks, Stubs e Fakes - Developers-SP - Julho-2017Mocks, Stubs e Fakes - Developers-SP - Julho-2017
Mocks, Stubs e Fakes - Developers-SP - Julho-2017Renato Groff
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositoriesRafael Rossi
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 

Similar a Sistemas Inteligentes para Textos da WEB (20)

Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Hertz - Janeiro-2018
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
5 bdoo+bdor
5 bdoo+bdor5 bdoo+bdor
5 bdoo+bdor
 
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...
Testes na plataforma .NET: TDD, Mocks, BDD e Selenium - Grupo Bandeirantes - ...
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Apresentação Banco de Dados - Caché
Apresentação Banco de Dados - CachéApresentação Banco de Dados - Caché
Apresentação Banco de Dados - Caché
 
Agr introducao
Agr introducaoAgr introducao
Agr introducao
 
Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - Linux
 
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e Planificações
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e PlanificaçõesPractice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e Planificações
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e Planificações
 
Em Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do FuturoEm Direção às Redes Programáveis na Internet do Futuro
Em Direção às Redes Programáveis na Internet do Futuro
 
Java No Setor Público: Produtividade, Flexibilidade e Baixo Custo
Java No Setor Público: Produtividade, Flexibilidade e Baixo CustoJava No Setor Público: Produtividade, Flexibilidade e Baixo Custo
Java No Setor Público: Produtividade, Flexibilidade e Baixo Custo
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
 
Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloud
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Mocks, Stubs e Fakes - Developers-SP - Julho-2017
Mocks, Stubs e Fakes - Developers-SP - Julho-2017Mocks, Stubs e Fakes - Developers-SP - Julho-2017
Mocks, Stubs e Fakes - Developers-SP - Julho-2017
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositories
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 

Más de Fernando Hideo Fukuda

Certificado-IBM-Top-Gun-Cloud-Software
Certificado-IBM-Top-Gun-Cloud-SoftwareCertificado-IBM-Top-Gun-Cloud-Software
Certificado-IBM-Top-Gun-Cloud-SoftwareFernando Hideo Fukuda
 
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...Fernando Hideo Fukuda
 
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...Fernando Hideo Fukuda
 
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015Fernando Hideo Fukuda
 
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...Fernando Hideo Fukuda
 

Más de Fernando Hideo Fukuda (8)

Certificado-JOVAED-2015
Certificado-JOVAED-2015Certificado-JOVAED-2015
Certificado-JOVAED-2015
 
Certificado-IBM-Top-Gun-Cloud-Software
Certificado-IBM-Top-Gun-Cloud-SoftwareCertificado-IBM-Top-Gun-Cloud-Software
Certificado-IBM-Top-Gun-Cloud-Software
 
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...
Carta de Referência do Sr. Luis Nassif sobre os serviços de consultoria e sup...
 
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...
Certificado emitido pela Telemar pelos serviços prestados pelo Dr. Fernando H...
 
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015
Certificado da ABED de Participação do Fernando Hideo Fukuda na JOVAED 2015
 
FUKUDA_NI_ACADEMIC_DAY_2014
FUKUDA_NI_ACADEMIC_DAY_2014FUKUDA_NI_ACADEMIC_DAY_2014
FUKUDA_NI_ACADEMIC_DAY_2014
 
FUKUDA_ADITEC
FUKUDA_ADITECFUKUDA_ADITEC
FUKUDA_ADITEC
 
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
Certificado de apresentação do trabalho Sistemas Inteligentes para Textos da ...
 

Sistemas Inteligentes para Textos da WEB

  • 1. Sistemas Inteligentes para Textos da WEB Dr. Eng. Fernando Hideo Fukuda Centro de Conhecimento em Tecnologias da Estácio Agência de Desenvolvimento e Inovação Tecnológica da Estácio Trabalho aprovado para apresentação oral 26 de outubro de 2013
  • 2. Categoria • Dissertação de Mestrado em Sistemas de Computação pelo Departamento de Engenharia Elétrica da PUC/RJ aprovada em 7 de abril de 1999 • Mestrado realizado com bolsa de estudos da CAPES. • Orientador: Prof. Dr. Emmanuel L. P. Passos
  • 3. Objetivos • O objetivo principal deste artigo é investigar a aplicação de algoritmos e técnicas de inteligência computacional para o tratamento e seleção de documentos textuais da Internet encontrados na WWW (World Wide Web), bem como a construção de um protótipo para avaliar estas técnicas.
  • 4. Objetivos • As técnicas de inteligência computacional pesquisadas são baseadas em KDD, Sistemas Especialistas e Redes Neurais para a avaliação de textos da Web sem a necessidade de um PLN, tornando-as independentes da linguagem natural escrita utilizada nos textos.
  • 5. Processos de KDD / KDT • A WEB pode ser considerada como um enorme Data Warehouse. • Assim, aplicamos os conceitos de KDD (Knowlegde Discovery in Database) para avaliação dos textos da WEB. • KDT (Knowledge Discovery in Text) é um novo ramo do KDD, específico para descoberta de conhecimentos em texto.
  • 6. Processos de KDD / KDT • Definição do problema – Avaliar e selecionar os textos da WEB baseado em um perfil de interesse.  Data Cleansing (Limpeza dos Dados) – Extração das tags HTML e DHTML; – Extração dos códigos de scripts: • Javascript • VBscript, – Extração das referências às imagens e links;
  • 7. Processos de KDD / KDT – Conversão dos caracteres com acentuação estendida na codificação ISO Latin-1 para a codificação ASC-II; • Inform&aacutetica  Informática – Conversão dos caracteres minúsculos para maiúsculos para normalização textual. • Informática  INFORMÁTICA
  • 8. Processos de KDD / KDT  Data Selection (Seleção dos Dados) – Nesta etapa os ruídos são eliminados do texto, mantendo-se apenas os termos significativos. – No modo de treinamento é feita a seleção dos exemplos POSITIVOS e NEGATIVOS.  Data Reduction (Redução dos Dados) – A redução da quantidade de termos do texto é obtida através do dicionário de sinônimos.
  • 9. Sistemas Especialistas • RUÍDOS – SE termo = “DE” – ENTÃO é ruído e elimina da avaliação do texto • SINÔNIMOS – SE termo = ”VOLLEY” ou termo = ”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou termo = ”VOLEI” ou termo = VOLEYBALL” ou termo = ”VOLEYBOL” – ENTÃO termo = “VOLEIBOL”
  • 10. Processos de KDD / KDT  Data Representation (Representação dos Dados) – Nesta fase são realizadas as avaliações dos: • TERMOS • RELACIONAMENTOS DE TERMOS • PROXIMIDADES DE RELACIONAMENTOS de cada texto.
  • 11. Processos de KDD / KDT  Knowledge Learning (Aquisição do Conhecimento)  Modo de treinamento – As avaliações dos termos, relacionamentos e proximidades de cada texto são armazenadas na base positiva ou negativa e processadas para formar a Base de Conhecimentos sobre o perfil de interesse.
  • 12. Processos de KDD / KDT  Data Representation Dados) (Representação dos – Nesta fase é realizada a avaliação das CARACTERÍSTICAS do texto em função da Base de Conhecimentos, cujos resultados numéricos representam o texto e são fornecidos como entrada da rede neural.
  • 13. Processos de KDD / KDT  Model and Architecture Selection (Seleção do Modelo e da Arquitetura)  Modo de treinamento – Foi escolhida a técnica de REDES NEURAIS, tendo-se em vista que estas dispensam a modelagem do algoritmo de avaliação do problema pelo especialista.
  • 14. Processos de KDD / KDT  Knowledge Learning Conhecimento) (Aquisição do  Modo de treinamento – Nesta etapa é realizado o treinamento da REDE NEURAL com os padrões de treinamento obtido do conjunto de textos fornecido pelo usuário para a Aquisição dos Conhecimentos das Características de um determinado perfil.
  • 15. Processos de KDD / KDT  Classification (Classificação) – A Rede Neural executa a Classificação dos textos em função das Avaliações das Características.  Data Mining (Mineração de Dados) ou Text Mining (Mineração de Texto) – A interpretação da saída da rede neural representa a classificação do texto.
  • 16. Processos de KDD / KDT  Knowledge Discovery Conhecimento) (Descoberta do – Descobre-se, nesta última etapa do KDD, se o texto está de acordo ou não com o perfil de interesse.
  • 17. Redes Neurais • Neste trabalho foram investigadas as redes de treinamento supervisionado do tipo feedfoward com algoritmo backpropagation, devido a sua consagrada característica de classificador universal.
  • 18. Técnicas de avaliação de textos da WEB  Termo – Pode ser uma palavra, raiz de uma palavra, fragmento de palavra ou fragmento do texto.  Ruídos – São termos comuns e por isso não possuem utilidade na pesquisa, já que estarão contidos na maioria dos documentos. Geralmente são artigos, conjunções, pronomes, numerais, símbolos, pontuações, letras isoladas.
  • 19. Técnicas de avaliação de textos da WEB  Relacionamento entre termos – Os termos contidos em um mesmo fragmento de texto (parágrafo ou documento), geralmente estão relacionados em um fragmento para expressar um determinado conceito. – Logo, a ocorrência destes relacionamentos recebe uma pontuação para indicar o fortalecimento deste conceito no texto.
  • 20. Técnicas de avaliação de textos da WEB  Proximidade – Os operadores de proximidade localizam termos ou relacionamentos de termos dentro de uma certa distância entre si. – A distância é medida em quantidade de termos, sentenças, parágrafos ou unidades de estruturas. – Neste trabalho é medida a distância em parágrafos entre relacionamentos de termos.
  • 21. Técnicas de avaliação de textos da WEB  Pesquisa ponderada – A pesquisa ponderada é baseada numa pontuação (pesos) para medir o quanto um documento se enquadra numa consulta. – Este processo é muito útil quando a pesquisa é realizada em grandes bases de documentos.
  • 22. Técnicas de avaliação de textos da WEB • Métodos de pesquisa ponderada – Contagem do número de documentos que apresentam o termo; – Contagem do número de ocorrências de cada termo ou padrão. – Combinação de estratégias, onde cada termo ou padrão recebe um peso, o qual é multiplicado pela quantidade de ocorrências.
  • 23. Modelagem do SITEX • Objetivos: – Realizar a conexão de acesso discado à Internet; – Realizar a conexão à Web através do protocolo HTTP baseado no TCP/IP; – Obter a página HTML na URL especificada; – Navegar na WWW (Web) através dos links hipertexto da página HTML;
  • 24. Modelagem do SITEX • Objetivos: – Abrir e salvar páginas HTML; – Interpretar os comandos HTML da página; – Apresentar a página HTML para visualização gráfica no video; – Extrair o texto da página HTML sem: tags, scripts, referências e links; – Converter as acentuações codificadas em ISO Latin-1 para ASCII;
  • 25. Modelagem do SITEX • Objetivos: – Extrair o texto sem os ruídos; – Substituir os sinônimos dos termos; – Normalizar os termos; – Abrir e salvar arquivos texto; – Criar a Base de Conhecimento para um perfil de interesse;
  • 26. Modelagem do SITEX • Objetivos: – Analisar as Características textuais do texto; – Armazenar e recuperar o perfil do usuário; – Avaliar o texto em função do perfil de interesse;
  • 27. Algoritmo do SITEX • Modo de Treinamento • Modo de Produção
  • 28. Algoritmo do SITEX • Modo de Treinamento – Avaliação de Termos, Relacionamentos e Proximidades – Criação da Base de Conhecimentos – Avaliação das Características Textuais – Treinamento da Rede Neural – Validação dos Resultados
  • 29. Algoritmo do SITEX • Modo de Produção – Avaliação de Termos, Relacionamentos e Proximidades – Avaliação das Características Textuais – Execução da Rede Neural – Verificação dos Resultados
  • 31. Modo de Treinamento Filtro/Extrator/Conversor DOCUMENTOS EXEMPLOS (positivos e negativos) FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  • 32. Modo de Treinamento Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  • 33. Modo de Treinamento Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  • 34. Modo de Treinamento Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  • 35. Modo de Treinamento Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  • 36. Modo de Treinamento Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  • 37. Modo de Treinamento Criação da Base de Conhecimentos TERMO QUANT  Base de Conhecimentos TERMO PESO TOT PESO
  • 38. Modo de Treinamento Criação da Base de Conhecimentos TERMO QUANT PESO  Base de Conhecimentos TERMO PESO TOT
  • 39. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 QUANT  Base de Conhecimentos TERMO1 TERMO2 PESO TOT PESO
  • 40. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 QUANT PESO  Base de Conhecimentos TERMO1 TERMO2 PESO TOT
  • 41. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 DIST  Base de Conhecimentos TERMO1 TERMO2 PESO TOT PESO
  • 42. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 DIST PESO  Base de Conhecimentos TERMO1 TERMO2 PESO TOT
  • 43. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO PESO TOT / quant. exemplos positivos TERMO PESO MED
  • 44. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO PESO TOT / quant. exemplos negativos TERMO PESO MED
  • 45. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos positivos TERMO1 TERMO2 PESO MED
  • 46. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos negativos TERMO1 TERMO2 PESO MED
  • 47. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos positivos TERMO1 TERMO2 PESO MED
  • 48. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos negativos TERMO1 TERMO2 PESO MED
  • 49. Modo de Treinamento Criação da Base de Conhecimentos TERMO PESO MED TERMO1 TERMO2 PESO MED TERMO1 TERMO2 PESO MED T R D Base de Conhecimentos TERMO PESO MED TERMO1 TERMO2 PESO MED TERMO1 TERMO2 PESO MED T R D
  • 50. Modo de Treinamento Filtro/Extrator/Conversor DOCUMENTOS EXEMPLOS (positivos e negativos) FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  • 51. Modo de Treinamento Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  • 52. Modo de Treinamento Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  • 53. Modo de Treinamento Avaliação de TP TERMO QUANT PESO TERMO PESO MED T TP = (  quant (PM - PM) ) / quant de termos do texto na base positiva TERMO PESO MED T
  • 54. Modo de Treinamento Avaliação de TN TERMO QUANT PESO TERMO PESO MED T TN = (  quant (PM - PM) ) / quant de termos do texto na base negativa TERMO PESO MED T
  • 55. Modo de Treinamento Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  • 56. Modo de Treinamento Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  • 57. Modo de Treinamento Avaliação de RP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RP = (  quant (PM - PM) ) / quant de relacionamentos do texto na base positiva TERMO1 TERMO2 PESO MED R
  • 58. Modo de Treinamento Avaliação de RN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RN = (  quant (PM - PM) ) / quant de relacionamentos do texto na base negativa TERMO1 TERMO2 PESO MED R
  • 59. Modo de Treinamento Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  • 60. Modo de Treinamento Avaliação de DP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DP = (  quant (PM - PM) ) / quant de proximidades do texto na base positiva TERMO1 TERMO2 PESO MED R
  • 61. Modo de Treinamento Avaliação de DN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DN = (  quant (PM - PM) ) / quant de proximidades do texto na base negativa TERMO1 TERMO2 PESO MED R
  • 62. Modo de Treinamento Treinamento da Rede Neural TP RP DP TN RN DN ............................. 1 ou 0
  • 64. Modo de Produção Filtro/Extrator/Conversor DOCUMENTOS FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  • 65. Modo de Produção Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  • 66. Modo de Produção Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  • 67. Modo de Produção Avaliação de TP TERMO QUANT PESO TERMO PESO MED T TP = (  quant (PM - PM) ) / quant de termos do texto na base positiva TERMO PESO MED T
  • 68. Modo de Produção Avaliação de TN TERMO QUANT PESO TERMO PESO MED T TN = (  quant (PM - PM) ) / quant de termos do texto na base negativa TERMO PESO MED T
  • 69. Modo de Produção Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  • 70. Modo de Produção Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  • 71. Modo de Produção Avaliação de RP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RP = (  quant (PM - PM) ) / quant de relacionamentos do texto na base positiva TERMO1 TERMO2 PESO MED R
  • 72. Modo de Produção Avaliação de RN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RN = (  quant (PM - PM) ) / quant de relacionamentos do texto na base negativa TERMO1 TERMO2 PESO MED R
  • 73. Modo de Produção Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  • 74. Modo de Produção Avaliação de DP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DP = (  quant (PM - PM) ) / quant de proximidades do texto na base positiva TERMO1 TERMO2 PESO MED R
  • 75. Modo de Produção Avaliação de DN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DN = (  quant (PM - PM) ) / quant de proximidades do texto na base negativa TERMO1 TERMO2 PESO MED R
  • 76. Modo de Produção Execução da Rede Neural TP RP DP TN RN DN ............................. 1 ou 0
  • 77.
  • 78.
  • 79. Resultados • Tecnologia da Informação • Taxa de acertos sobre todos os arquivos: • Taxa de acertos sobre arq. dentro do perfil: • Taxa de acertos sobre arq. fora do perfil: 93,15% 83,33% 96,36%
  • 80. Conclusões • As principais contribuições deste trabalho foram: – o desenvolvimento de técnicas inéditas de KDD / KDT e – o desenvolvimento de algoritmos inéditos de avaliação de textos da WEB para um perfil de interesse.
  • 81. Produções Científicas • Artigo aprovado no Data Mining 2000, Cambridge University, UK
  • 82. Produções Científicas • Capítulo do livro Data Mining II
  • 83. Produções Científicas • Artigo aprovado no SBRN RIO 2000
  • 84. Contato Dr. Fernando Hideo Fukuda Diretor Executivo da Agência de Desenvolvimento e Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO) Diretor do Centro de Conhecimento em Tecnologias E-mail: fernando.fukuda@estacio.br Tel.: +55 (21) 2503-7076 Cel.: +55 (21) 98496-7098