SlideShare una empresa de Scribd logo
1 de 2
Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação de
Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.
Universidade de São Paulo – São Carlos.

       Implementação, Avaliação e Validação de Algoritmos de Extração de
Palavras−Chave de Textos Científicos em Português, tendo como autores Marcel Brito
Pereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de Lingüística
Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) na
Universidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado em
Ciência da Computação.

O trabalho apresentado teve como objetivo investigar o desempenho de dois algoritmos
de extração de palavras−chave de textos em português, usando técnicas extrativas
simples, recursos adicionais de processamento de língua natural (PLN), e metodologia
compatível com os trabalhos desenvolvidos para outras línguas.O porquê do surgimento
desse trabalho foi para a destinação de um projeto de iniciação científica destinado a
implementar, avaliar e validar, por meio de extração de palavras-chaves de textos
científicos em português. De acordo com o artigo a aplicação que motivou diretamente
esse estudo – embora não a única – é a geração de sumários (resumos) extrativos de
textos em português.

       A forma na qual os autores utilizaram para expor as suas ideias foi na de um
artigo científico, o foco principal do artigo é a geração automática de sumários
extrativos de textos em português. Esse artigo contém um prefácio, que é um resumo
informativo, onde fala sobre a importância das palavras-chaves na indexação de
documentos, os resultados obtidos durante o projeto, a relevância e a originalidade desse
trabalho pela escassez de trabalhos nessa área em português.

       As palavras−chave podem ser úteis em diversas aplicações computacionais, em
especial aquelas que necessitam indexar documentos para buscas posteriores. A
literatura apresenta diversas técnicas de extração de palavras−chave de textos, em sua
maioria aplicada à língua inglesa. Nenhum trabalho que leve em conta a língua
portuguesa foi encontrado na literatura. No caso do português, o que se têm usado são
técnicas bastante superficiais, como as baseadas unicamente na freqüência de palavras e
não no seu contexto.

Os autores delimitaram dois tipos de métodos de extração já estabelecidos o EPC-P
(Extrator de Palavras−Chave por freqüência de Padrões) e o EPC-R (Extrator de
Palavras−Chave por freqüência de Radicais). O EPC−P não trabalha sobre o texto


                                                                                       1
Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação de
Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.
Universidade de São Paulo – São Carlos.

original, e sim sobre um texto etiquetado, onde todas as palavras ‘Nome’ podem ser um
Nome Próprio ou um Substantivo Comum, ele não as difere, e sim faz uma análise da
freqüência de determinados padrões morfossintáticos no texto para decidir quais
palavras podem ser utilizadas para representar o tema central do mesmo; já o EPC-R
utiliza somente a freqüência de radicais no texto, não se prendendo a padrões, portanto
há uma análise morfossintática (combinações de categorias gramaticais) das palavras, o
EPC-R faz uma análise da freqüência de radicais (simples, duplas ou trios) no texto, em
detrimento à utilização de padrões.

        O artigo foi de fato muito esclarecedor, com um tema muito interessante e que é
usado comumente, sendo que a maioria das vezes as pessoas nem se quer sabem da
existência desse tipo de ferramenta.

Existe uma grande importância de se investir e criar aplicações dedicadas à língua
portuguesa, já que esses experimentos constituem passos iniciais para um sistema de
simplificação automática de textos, além da ferramenta que pode auxiliar tanto os
escritores quanto para algum tipo de usuário final comum, de diferentes níveis de
escolaridade e idade.

Já a metodologia utilizada, deixou a desejar um pouco quanto a gramática e a sua
coerência, em alguns pontos foi percebido erros gramaticais e uma falta de nexo entro
uma frase e outra.

O assunto do artigo foi de muita originalidade, pois como os próprios autores disseram
há pouco material disponível sobre a sumarização automática utilizando a língua
portuguesa como base. Assim o trabalho dos mesmos é de grande contribuição
acadêmica, pois além pode ser destinado e ajudar tanto os profissionais da área como os
escritores, quanto a alunos e pessoas em geral na criação de seus trabalhos, artigos
científicos, etc.




                                                                                      2

Más contenido relacionado

La actualidad más candente

Meu pré projeto joiara nara
Meu pré projeto joiara naraMeu pré projeto joiara nara
Meu pré projeto joiara narajoiramara
 
Modelo de plano de aula
Modelo de plano de aulaModelo de plano de aula
Modelo de plano de aulaDenise
 
Resenha crítica modelo
Resenha crítica   modeloResenha crítica   modelo
Resenha crítica modelotaise_paz
 
Modelo de ficha de leitura
Modelo de ficha de leituraModelo de ficha de leitura
Modelo de ficha de leituraSérgio Lagoa
 
Modelo trabalho na ABNT
Modelo trabalho na ABNTModelo trabalho na ABNT
Modelo trabalho na ABNTMicheli Wink
 
Modelo de artigo científico básico - com normas ABNT
Modelo de artigo científico básico - com normas ABNTModelo de artigo científico básico - com normas ABNT
Modelo de artigo científico básico - com normas ABNTRosineia Oliveira dos Santos
 
Lista de verbos para projeto de pesquisa
Lista de verbos para projeto de pesquisaLista de verbos para projeto de pesquisa
Lista de verbos para projeto de pesquisamarildabacana
 
Apresentação abnt citações
Apresentação abnt citaçõesApresentação abnt citações
Apresentação abnt citaçõesDiogo Maxwell
 
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins Rodrigues
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins RodriguesRelatorio de estágio final.de estagio Supervisionado Kamilla Martins Rodrigues
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins RodriguesKamilla Rodrigues
 
Resumo do tcc modelo
Resumo do tcc modeloResumo do tcc modelo
Resumo do tcc modeloElys Regina
 
Como problematizar o tema da pesquisa
Como problematizar o tema da pesquisaComo problematizar o tema da pesquisa
Como problematizar o tema da pesquisaAntenor Casagrande
 
Como Elaborar Um Projeto De Pesquisa
Como Elaborar Um Projeto De PesquisaComo Elaborar Um Projeto De Pesquisa
Como Elaborar Um Projeto De Pesquisamauricio aquino
 

La actualidad más candente (20)

Modelo de artigo cientifico
Modelo de artigo cientificoModelo de artigo cientifico
Modelo de artigo cientifico
 
Meu pré projeto joiara nara
Meu pré projeto joiara naraMeu pré projeto joiara nara
Meu pré projeto joiara nara
 
Modelo de plano de aula
Modelo de plano de aulaModelo de plano de aula
Modelo de plano de aula
 
Resenha crítica modelo
Resenha crítica   modeloResenha crítica   modelo
Resenha crítica modelo
 
Modelo de Projeto de Pesquisa
Modelo de Projeto de PesquisaModelo de Projeto de Pesquisa
Modelo de Projeto de Pesquisa
 
Modelo de ficha de leitura
Modelo de ficha de leituraModelo de ficha de leitura
Modelo de ficha de leitura
 
Modelo trabalho na ABNT
Modelo trabalho na ABNTModelo trabalho na ABNT
Modelo trabalho na ABNT
 
Modelo de artigo científico básico - com normas ABNT
Modelo de artigo científico básico - com normas ABNTModelo de artigo científico básico - com normas ABNT
Modelo de artigo científico básico - com normas ABNT
 
Projeto de intervenção
Projeto de intervençãoProjeto de intervenção
Projeto de intervenção
 
Lista de verbos para projeto de pesquisa
Lista de verbos para projeto de pesquisaLista de verbos para projeto de pesquisa
Lista de verbos para projeto de pesquisa
 
Modelo de pre projeto tcc
Modelo de pre projeto tccModelo de pre projeto tcc
Modelo de pre projeto tcc
 
Apresentação abnt citações
Apresentação abnt citaçõesApresentação abnt citações
Apresentação abnt citações
 
Relatorio final pronto!
Relatorio final pronto!Relatorio final pronto!
Relatorio final pronto!
 
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins Rodrigues
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins RodriguesRelatorio de estágio final.de estagio Supervisionado Kamilla Martins Rodrigues
Relatorio de estágio final.de estagio Supervisionado Kamilla Martins Rodrigues
 
Fichamento de Texto
Fichamento de TextoFichamento de Texto
Fichamento de Texto
 
Modelo do paper uniasselvi
Modelo do paper uniasselviModelo do paper uniasselvi
Modelo do paper uniasselvi
 
Resumo do tcc modelo
Resumo do tcc modeloResumo do tcc modelo
Resumo do tcc modelo
 
Apresentação TCC
Apresentação TCCApresentação TCC
Apresentação TCC
 
Como problematizar o tema da pesquisa
Como problematizar o tema da pesquisaComo problematizar o tema da pesquisa
Como problematizar o tema da pesquisa
 
Como Elaborar Um Projeto De Pesquisa
Como Elaborar Um Projeto De PesquisaComo Elaborar Um Projeto De Pesquisa
Como Elaborar Um Projeto De Pesquisa
 

Similar a Implementação de algoritmos de extração de palavras-chave em português

Atps paradigmas linguagem programacao
Atps paradigmas linguagem programacaoAtps paradigmas linguagem programacao
Atps paradigmas linguagem programacaopablogranola
 
O uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalO uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalClaudio Franco
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Joel S. Coleti
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Joel S. Coleti
 
defesa dissertação mestrado
defesa dissertação mestradodefesa dissertação mestrado
defesa dissertação mestradoMarcirio Chaves
 
Projeto De Aprendizagem
Projeto De AprendizagemProjeto De Aprendizagem
Projeto De Aprendizagemguest4664744
 
As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...Diogoncosta
 
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...Stephane Tosta
 
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...Jonatas Oliveira
 
Manual pesquisa informações para a elaboração de projetos e relatórios de pe...
Manual pesquisa  informações para a elaboração de projetos e relatórios de pe...Manual pesquisa  informações para a elaboração de projetos e relatórios de pe...
Manual pesquisa informações para a elaboração de projetos e relatórios de pe...Rosane Domingues
 
Sistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na PráticaSistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na PráticaWilliam Colen
 
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...Joel S. Coleti
 
Comoelaborarresumo
ComoelaborarresumoComoelaborarresumo
ComoelaborarresumoPauloLima309
 
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSIBiUSP
 
Elementos Fundamentais de Linguagens de Programação e a Linguagem Python
Elementos Fundamentais de Linguagens de Programação e a Linguagem PythonElementos Fundamentais de Linguagens de Programação e a Linguagem Python
Elementos Fundamentais de Linguagens de Programação e a Linguagem PythonCaliane Z. Pecenin
 

Similar a Implementação de algoritmos de extração de palavras-chave em português (20)

Atps paradigmas linguagem programacao
Atps paradigmas linguagem programacaoAtps paradigmas linguagem programacao
Atps paradigmas linguagem programacao
 
Paradigmas de programação
Paradigmas de programaçãoParadigmas de programação
Paradigmas de programação
 
O uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalO uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumental
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
 
defesa dissertação mestrado
defesa dissertação mestradodefesa dissertação mestrado
defesa dissertação mestrado
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Projeto De Aprendizagem
Projeto De AprendizagemProjeto De Aprendizagem
Projeto De Aprendizagem
 
As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...
 
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
 
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
(Ebook) projetos de algoritmos com implementações em pascal e c (nivio zivian...
 
PORT4NOOJ - Até onde se pode ir? Anabela Barreiro & Cristina Mota
PORT4NOOJ - Até onde se pode ir? Anabela Barreiro & Cristina MotaPORT4NOOJ - Até onde se pode ir? Anabela Barreiro & Cristina Mota
PORT4NOOJ - Até onde se pode ir? Anabela Barreiro & Cristina Mota
 
Manual pesquisa
Manual pesquisaManual pesquisa
Manual pesquisa
 
Manual pesquisa informações para a elaboração de projetos e relatórios de pe...
Manual pesquisa  informações para a elaboração de projetos e relatórios de pe...Manual pesquisa  informações para a elaboração de projetos e relatórios de pe...
Manual pesquisa informações para a elaboração de projetos e relatórios de pe...
 
Sistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na PráticaSistemas de Processamento de Linguagem Natural na Prática
Sistemas de Processamento de Linguagem Natural na Prática
 
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...
Exame de Qualificação - BASE DE DADOS MORFOLÓGICOS DE TERMINOLOGIAS DO PORTUG...
 
Comoelaborarresumo
ComoelaborarresumoComoelaborarresumo
Comoelaborarresumo
 
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
 
Apostila Redação Técnica CFS
Apostila Redação Técnica CFSApostila Redação Técnica CFS
Apostila Redação Técnica CFS
 
Elementos Fundamentais de Linguagens de Programação e a Linguagem Python
Elementos Fundamentais de Linguagens de Programação e a Linguagem PythonElementos Fundamentais de Linguagens de Programação e a Linguagem Python
Elementos Fundamentais de Linguagens de Programação e a Linguagem Python
 

Implementação de algoritmos de extração de palavras-chave em português

  • 1. Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português. Universidade de São Paulo – São Carlos. Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português, tendo como autores Marcel Brito Pereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de Lingüística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) na Universidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado em Ciência da Computação. O trabalho apresentado teve como objetivo investigar o desempenho de dois algoritmos de extração de palavras−chave de textos em português, usando técnicas extrativas simples, recursos adicionais de processamento de língua natural (PLN), e metodologia compatível com os trabalhos desenvolvidos para outras línguas.O porquê do surgimento desse trabalho foi para a destinação de um projeto de iniciação científica destinado a implementar, avaliar e validar, por meio de extração de palavras-chaves de textos científicos em português. De acordo com o artigo a aplicação que motivou diretamente esse estudo – embora não a única – é a geração de sumários (resumos) extrativos de textos em português. A forma na qual os autores utilizaram para expor as suas ideias foi na de um artigo científico, o foco principal do artigo é a geração automática de sumários extrativos de textos em português. Esse artigo contém um prefácio, que é um resumo informativo, onde fala sobre a importância das palavras-chaves na indexação de documentos, os resultados obtidos durante o projeto, a relevância e a originalidade desse trabalho pela escassez de trabalhos nessa área em português. As palavras−chave podem ser úteis em diversas aplicações computacionais, em especial aquelas que necessitam indexar documentos para buscas posteriores. A literatura apresenta diversas técnicas de extração de palavras−chave de textos, em sua maioria aplicada à língua inglesa. Nenhum trabalho que leve em conta a língua portuguesa foi encontrado na literatura. No caso do português, o que se têm usado são técnicas bastante superficiais, como as baseadas unicamente na freqüência de palavras e não no seu contexto. Os autores delimitaram dois tipos de métodos de extração já estabelecidos o EPC-P (Extrator de Palavras−Chave por freqüência de Padrões) e o EPC-R (Extrator de Palavras−Chave por freqüência de Radicais). O EPC−P não trabalha sobre o texto 1
  • 2. Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português. Universidade de São Paulo – São Carlos. original, e sim sobre um texto etiquetado, onde todas as palavras ‘Nome’ podem ser um Nome Próprio ou um Substantivo Comum, ele não as difere, e sim faz uma análise da freqüência de determinados padrões morfossintáticos no texto para decidir quais palavras podem ser utilizadas para representar o tema central do mesmo; já o EPC-R utiliza somente a freqüência de radicais no texto, não se prendendo a padrões, portanto há uma análise morfossintática (combinações de categorias gramaticais) das palavras, o EPC-R faz uma análise da freqüência de radicais (simples, duplas ou trios) no texto, em detrimento à utilização de padrões. O artigo foi de fato muito esclarecedor, com um tema muito interessante e que é usado comumente, sendo que a maioria das vezes as pessoas nem se quer sabem da existência desse tipo de ferramenta. Existe uma grande importância de se investir e criar aplicações dedicadas à língua portuguesa, já que esses experimentos constituem passos iniciais para um sistema de simplificação automática de textos, além da ferramenta que pode auxiliar tanto os escritores quanto para algum tipo de usuário final comum, de diferentes níveis de escolaridade e idade. Já a metodologia utilizada, deixou a desejar um pouco quanto a gramática e a sua coerência, em alguns pontos foi percebido erros gramaticais e uma falta de nexo entro uma frase e outra. O assunto do artigo foi de muita originalidade, pois como os próprios autores disseram há pouco material disponível sobre a sumarização automática utilizando a língua portuguesa como base. Assim o trabalho dos mesmos é de grande contribuição acadêmica, pois além pode ser destinado e ajudar tanto os profissionais da área como os escritores, quanto a alunos e pessoas em geral na criação de seus trabalhos, artigos científicos, etc. 2