SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Extração Automática de Definições
Um Estudo de Caso em Textos Legislativos
Augusto Herrmann Batista
Orientador: Edilson Ferneda
Co-orientador: Hércules Antonio do Prado
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Roteiro
 Contextualização e Motivação
 Problema
 Objetivos
 Revisão da Literatura (EI e ED)
 Referencial Teórico
 Metodologia
 Resultados e Discussão
 Conclusões e Trabalhos Futuros
Ref.: pág. 13
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
 Por que se fazer um Glossário?
 Facilitar o aprendizado
 Fixar conceitos
 Externalizar um jargão
 Evitar ambiguidades
 Reduzir ruídos de comunicação
Ref.: págs. 10 a 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
 Extração Manual
 Tarefa Dispendiosa
 Grande Volume de Textos
Obs.: ainda está sujeita a desacordo entre anotadores!
Ref.: págs. 10 a 12, 39 e 40
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Problema
 Problema
 ”Dado um conjunto de textos em linguagem natural
em língua portuguesa, em meio eletrônico, como
extrair automaticamente um conjunto de termos e
definições originalmente apresentados de forma
não-estruturada visando a construção de um
glossário?”
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Objetivos
 Objetivo Geral
 Elaborar um método de extração de definições a
partir de textos em língua portuguesa aplicando
técnicas de processamento de linguagem natural
 Objetivos Específicos
 Estudar técnicas existentes em ED
 Selecionar, adaptar e combinar
 Efetuar estudo de caso e aplicar a técnica
Ref.: pág. 12
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Origens na Extração de Informação (EI)
 Revisões de Muslea (1999) e Sarawagi (2007)
 Uso de sequências de padrões sintáticos e slots
(e.g. AutoSlog – RILOFF, 1993)
 Proximidade semântica com uso do Wordnet
(MILLER, 1995)
 Aprendizagem de máquina estatística
 Modelos Markovianos Ocultos (HMM)
 Entropia Máxima (MEMM)
 Campos Aleatórios Condicionais (CRF)
 Modelos Híbridos (regras + aprendizagem)
Ref.: págs. 14 a 23
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Problemas Relacionados à Extração de Definições
(ED)
 Origem: sistemas de resposta automática a
perguntas (e.g. SAGGION, 2004)
 ”Quem é … ?”
 ”O que é um … ?”
 Extração de Tesauros (e.g., CURRAN e MOENS,
2002)
 Apoio à Construção de Ontologias (e.g., MALAISÉ,
2005, apud ALARCÓN et al, 2007; GANGEMI et al,
2003 apud NAVIGLI e VELARDI, 2010)
Ref.: págs. 24 a 26
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 Abordagens em ED
 Baseadas em regras / padrões morfossintáticos
(e.g. TANEV et al, 2005)
 Baseadas em aprendizagem de máquina estatística
(e.g. FAHMI e BOUMA, 2006)
 Bayesiano Ingênuo
 Entropia Máxima
 Máquinas de Vetor de Suporte (MVS)
 Algortimos Genéticos (BORG et al, 2007)
Ref.: págs. 25, 29, 30 e 35
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
 ED em Língua Portuguesa
 Pinto e Oliveira (2004)
 Corpógrafo – Textos de Medicina
 Identificação manual de estruturas sintáticas comuns
 Construção de expressões regulares
 Del Gaudio e Branco (2007, 2009)
 Textos em TI e EAD
 Gramática baseada em regras
Ref.: págs. 30 a 32
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Definições
 Genus et differentia – Aristóteles
 definiendum
 genus
 differentia
 Shaw (1922):
 por etimologia
 por análise (ou intensional)
 por exclusão
 por exemplo (ou extensional)
Ref.: págs. 47 a 49
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Etiquetagem Morfossintática
 presente na cadeia de processamento de PLN
 atribui etiquetas com o papel desempenhado pelo
segmento na frase
 Tipos de etiquetadores
 Expressões Regulares
 Estatísticos N-Gramas
 Aprendizagem baseada em transformações
(BRILL, 1993 apud BIRD et al, 2009)
Ref.: págs. 49 a 54
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
 Máquinas de Vetor de Suporte
 abordagem de aprendizagem de máquina para
problemas de classificação
 classifica vetores n-dimensionais
 cada dimensão representa uma característica
 separador que maximiza a margem entre as
classes de vetores
Ref.: págs. 54 a 57
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Ref.: Figura 12, pág. 58
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Corpus de experimentação – Coleção Brasileira do
Direito das Telecomunicações (ARANHA e LIMA,
2009)
 1.940 documentos com 6.120.832 tokens
 Leis, Decretos, Resoluções, Jurisprudência
 1.757 termos no glossário
 2.097 definições
Ref.: págs. 59 a 60
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 ”Problemas” no corpus
 faltam alguns documentos referenciados
 Ex.: ”Acessórios”, referencia a Resolução da ANATEL
nº 533, de 10/09/2009. O documento não consta no
corpus.
 correções ortográficas
 Ex.: no Anexo à Resolução da ANATEL nº 297, de
10/05/2002 está: ”questão específca”. No glossário,
”questão específica”.
 definições omitidas
 Ex.: ”contratante” e ”contratado” na Lei 8.666/1993
Ref.: págs. 60 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Pré-processamento
 conversão de formatos
 filtragem para sanear os problemas
 Segmentação
 por períodos
 por palavras
Ref.: págs. 61 a 62
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Etiquetagem morfossintática
 treino no corpus MAC-MORPHO (ALUÍSIO et al,
2003)
 divisão de treino/testes 90%/10%
 acurácia: 90,44%
Ref.: págs. 62 a 65
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Funções extratoras de características (FEC)
 retornam um valor numérico ou binário
 normalizado para a faixa [0, 1]
 exemplos:
 o segmento contém o verbo ”ser” seguido de um
determinante?
 o segmento contém dois pontos (”:”) entre as cinco
primeiras posições?
 exemplos de características negativas:
 palavra não seguida por conjugação do verbo ”ser”
Ref.: págs. 65 a 66
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
 Treino
 Coleção Brasileira de Direito das
Telecomunicações (ARANHA e LIMA, 2009)
 amostragem aleatória de 70% dos períodos
utilizados para treino
 normalização dos valores das FEC
 resposta de referência (”gold standard”)
 balanceamento da quantidade de instâncias
 Aplicação
 30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Resultados e Discussão
 Resultados
 acurácia: 73,5%
 precisão: 75,6%
 Revocação: 69,6%
 Matriz de confusão:
Predição
Correção
Negativa Positiva
Negativa 305
38,7%
89
11,3%
Positiva 120
15,2%
275
34,9%
Ref.: págs. 70 a 71
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Conclusões
 Atingidos os objetivos geral e específicos
 estudo das técnicas existentes
 escolha de uma abordagem p/ construir glossário
 estudo de caso
 Poucos trabalhos em língua portuguesa, nenhum
aplicado a textos normativos
 Primeiro passo para a construção de glossários
(revisão manual)
Ref.: pág. 72
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Trabalhos Futuros
 Construção de corpus anotado manualmente
revisado
 Aplicação em outras áreas do conhecimento
 Uso de programação genética e outras, aplicadas
à língua portuguesa
Ref.: págs. 72 a 75

Más contenido relacionado

Más de Augusto Herrmann Batista

Open Data Day 2020 – Arquivo Nacional, Rio de Janeiro
Open Data Day 2020 – Arquivo Nacional, Rio de JaneiroOpen Data Day 2020 – Arquivo Nacional, Rio de Janeiro
Open Data Day 2020 – Arquivo Nacional, Rio de JaneiroAugusto Herrmann Batista
 
Política de Dados Abertos do poder executivo federal
Política de Dados Abertos do poder executivo federalPolítica de Dados Abertos do poder executivo federal
Política de Dados Abertos do poder executivo federalAugusto Herrmann Batista
 
Oficina para levantamento necessidades de uso de dados em educação e saúde
Oficina para levantamento necessidades de uso de dados em educação e saúdeOficina para levantamento necessidades de uso de dados em educação e saúde
Oficina para levantamento necessidades de uso de dados em educação e saúdeAugusto Herrmann Batista
 
Processo de construção do portal brasileiro de dados abertos
Processo de construção do portal brasileiro de dados abertosProcesso de construção do portal brasileiro de dados abertos
Processo de construção do portal brasileiro de dados abertosAugusto Herrmann Batista
 
Política de Dados Abertos - II Fórum de Transferências Voluntárias
Política de Dados Abertos - II Fórum de Transferências VoluntáriasPolítica de Dados Abertos - II Fórum de Transferências Voluntárias
Política de Dados Abertos - II Fórum de Transferências VoluntáriasAugusto Herrmann Batista
 
Política de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - EnapPolítica de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - EnapAugusto Herrmann Batista
 
Oficina: Dados Abertos, Ciência Aberta - Política de Dados Abertos
Oficina: Dados Abertos, Ciência Aberta - Política de Dados AbertosOficina: Dados Abertos, Ciência Aberta - Política de Dados Abertos
Oficina: Dados Abertos, Ciência Aberta - Política de Dados AbertosAugusto Herrmann Batista
 
Challenges in raising the social and economic impact of Open Data Policy in B...
Challenges in raising the social and economic impact of Open Data Policy in B...Challenges in raising the social and economic impact of Open Data Policy in B...
Challenges in raising the social and economic impact of Open Data Policy in B...Augusto Herrmann Batista
 
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en Brasil
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en BrasilEstrategias y Planes Nacionales para Datos Abiertos de Gobierno en Brasil
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en BrasilAugusto Herrmann Batista
 
Blockchain: registros eletrônicos distribuídos, imutáveis e seguros
Blockchain: registros eletrônicos distribuídos, imutáveis e segurosBlockchain: registros eletrônicos distribuídos, imutáveis e seguros
Blockchain: registros eletrônicos distribuídos, imutáveis e segurosAugusto Herrmann Batista
 
Planejando dados abertos - novos compromissos para implementar a Estratégia d...
Planejando dados abertos - novos compromissos para implementar a Estratégia d...Planejando dados abertos - novos compromissos para implementar a Estratégia d...
Planejando dados abertos - novos compromissos para implementar a Estratégia d...Augusto Herrmann Batista
 
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...Augusto Herrmann Batista
 
Curso Padrões da Web Semântica e Dados Ligados - parte 3
Curso Padrões da Web Semântica e Dados Ligados - parte 3Curso Padrões da Web Semântica e Dados Ligados - parte 3
Curso Padrões da Web Semântica e Dados Ligados - parte 3Augusto Herrmann Batista
 
Aspectos legais na utilização de dados abertos
Aspectos legais na utilização de dados abertosAspectos legais na utilização de dados abertos
Aspectos legais na utilização de dados abertosAugusto Herrmann Batista
 
Curso Padrões da Web Semântica e Dados Ligados - parte 2
Curso Padrões da Web Semântica e Dados Ligados - parte 2Curso Padrões da Web Semântica e Dados Ligados - parte 2
Curso Padrões da Web Semântica e Dados Ligados - parte 2Augusto Herrmann Batista
 
Curso Padrões da Web Semântica e Dados Ligados - parte 1
Curso Padrões da Web Semântica e Dados Ligados - parte 1Curso Padrões da Web Semântica e Dados Ligados - parte 1
Curso Padrões da Web Semântica e Dados Ligados - parte 1Augusto Herrmann Batista
 

Más de Augusto Herrmann Batista (20)

Open Data Day 2020 – Arquivo Nacional, Rio de Janeiro
Open Data Day 2020 – Arquivo Nacional, Rio de JaneiroOpen Data Day 2020 – Arquivo Nacional, Rio de Janeiro
Open Data Day 2020 – Arquivo Nacional, Rio de Janeiro
 
Política de Dados Abertos do poder executivo federal
Política de Dados Abertos do poder executivo federalPolítica de Dados Abertos do poder executivo federal
Política de Dados Abertos do poder executivo federal
 
Políticas de dados abertos
Políticas de dados abertosPolíticas de dados abertos
Políticas de dados abertos
 
Oficina para levantamento necessidades de uso de dados em educação e saúde
Oficina para levantamento necessidades de uso de dados em educação e saúdeOficina para levantamento necessidades de uso de dados em educação e saúde
Oficina para levantamento necessidades de uso de dados em educação e saúde
 
Processo de construção do portal brasileiro de dados abertos
Processo de construção do portal brasileiro de dados abertosProcesso de construção do portal brasileiro de dados abertos
Processo de construção do portal brasileiro de dados abertos
 
Política de Dados Abertos - II Fórum de Transferências Voluntárias
Política de Dados Abertos - II Fórum de Transferências VoluntáriasPolítica de Dados Abertos - II Fórum de Transferências Voluntárias
Política de Dados Abertos - II Fórum de Transferências Voluntárias
 
Política de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - EnapPolítica de Dados Abertos - 21º Concurso Inovação - Enap
Política de Dados Abertos - 21º Concurso Inovação - Enap
 
Oficina: Dados Abertos, Ciência Aberta - Política de Dados Abertos
Oficina: Dados Abertos, Ciência Aberta - Política de Dados AbertosOficina: Dados Abertos, Ciência Aberta - Política de Dados Abertos
Oficina: Dados Abertos, Ciência Aberta - Política de Dados Abertos
 
Ecossistema de Uso dos dados abertos
Ecossistema de Uso dos dados abertosEcossistema de Uso dos dados abertos
Ecossistema de Uso dos dados abertos
 
Ecossistema e impacto dos dados abertos
Ecossistema e impacto dos dados abertosEcossistema e impacto dos dados abertos
Ecossistema e impacto dos dados abertos
 
Challenges in raising the social and economic impact of Open Data Policy in B...
Challenges in raising the social and economic impact of Open Data Policy in B...Challenges in raising the social and economic impact of Open Data Policy in B...
Challenges in raising the social and economic impact of Open Data Policy in B...
 
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en Brasil
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en BrasilEstrategias y Planes Nacionales para Datos Abiertos de Gobierno en Brasil
Estrategias y Planes Nacionales para Datos Abiertos de Gobierno en Brasil
 
Blockchain: registros eletrônicos distribuídos, imutáveis e seguros
Blockchain: registros eletrônicos distribuídos, imutáveis e segurosBlockchain: registros eletrônicos distribuídos, imutáveis e seguros
Blockchain: registros eletrônicos distribuídos, imutáveis e seguros
 
Planejando dados abertos - novos compromissos para implementar a Estratégia d...
Planejando dados abertos - novos compromissos para implementar a Estratégia d...Planejando dados abertos - novos compromissos para implementar a Estratégia d...
Planejando dados abertos - novos compromissos para implementar a Estratégia d...
 
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...
Governança digital, interoperabilidade e web semântica - II Seminário Coorte ...
 
Curso Padrões da Web Semântica e Dados Ligados - parte 3
Curso Padrões da Web Semântica e Dados Ligados - parte 3Curso Padrões da Web Semântica e Dados Ligados - parte 3
Curso Padrões da Web Semântica e Dados Ligados - parte 3
 
Aspectos legais na utilização de dados abertos
Aspectos legais na utilização de dados abertosAspectos legais na utilização de dados abertos
Aspectos legais na utilização de dados abertos
 
Curso Padrões da Web Semântica e Dados Ligados - parte 2
Curso Padrões da Web Semântica e Dados Ligados - parte 2Curso Padrões da Web Semântica e Dados Ligados - parte 2
Curso Padrões da Web Semântica e Dados Ligados - parte 2
 
Curso Padrões da Web Semântica e Dados Ligados - parte 1
Curso Padrões da Web Semântica e Dados Ligados - parte 1Curso Padrões da Web Semântica e Dados Ligados - parte 1
Curso Padrões da Web Semântica e Dados Ligados - parte 1
 
CKAN overview
CKAN overviewCKAN overview
CKAN overview
 

Extração Automática de Definições: um estudo de caso em textos legislativos

  • 1. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições Um Estudo de Caso em Textos Legislativos Augusto Herrmann Batista Orientador: Edilson Ferneda Co-orientador: Hércules Antonio do Prado
  • 2. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Roteiro  Contextualização e Motivação  Problema  Objetivos  Revisão da Literatura (EI e ED)  Referencial Teórico  Metodologia  Resultados e Discussão  Conclusões e Trabalhos Futuros Ref.: pág. 13
  • 3. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Por que se fazer um Glossário?  Facilitar o aprendizado  Fixar conceitos  Externalizar um jargão  Evitar ambiguidades  Reduzir ruídos de comunicação Ref.: págs. 10 a 12
  • 4. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Extração Manual  Tarefa Dispendiosa  Grande Volume de Textos Obs.: ainda está sujeita a desacordo entre anotadores! Ref.: págs. 10 a 12, 39 e 40
  • 5. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Problema  Problema  ”Dado um conjunto de textos em linguagem natural em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?” Ref.: pág. 12
  • 6. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Objetivos  Objetivo Geral  Elaborar um método de extração de definições a partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural  Objetivos Específicos  Estudar técnicas existentes em ED  Selecionar, adaptar e combinar  Efetuar estudo de caso e aplicar a técnica Ref.: pág. 12
  • 7. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Origens na Extração de Informação (EI)  Revisões de Muslea (1999) e Sarawagi (2007)  Uso de sequências de padrões sintáticos e slots (e.g. AutoSlog – RILOFF, 1993)  Proximidade semântica com uso do Wordnet (MILLER, 1995)  Aprendizagem de máquina estatística  Modelos Markovianos Ocultos (HMM)  Entropia Máxima (MEMM)  Campos Aleatórios Condicionais (CRF)  Modelos Híbridos (regras + aprendizagem) Ref.: págs. 14 a 23
  • 8. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Problemas Relacionados à Extração de Definições (ED)  Origem: sistemas de resposta automática a perguntas (e.g. SAGGION, 2004)  ”Quem é … ?”  ”O que é um … ?”  Extração de Tesauros (e.g., CURRAN e MOENS, 2002)  Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010) Ref.: págs. 24 a 26
  • 9. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Abordagens em ED  Baseadas em regras / padrões morfossintáticos (e.g. TANEV et al, 2005)  Baseadas em aprendizagem de máquina estatística (e.g. FAHMI e BOUMA, 2006)  Bayesiano Ingênuo  Entropia Máxima  Máquinas de Vetor de Suporte (MVS)  Algortimos Genéticos (BORG et al, 2007) Ref.: págs. 25, 29, 30 e 35
  • 10. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  ED em Língua Portuguesa  Pinto e Oliveira (2004)  Corpógrafo – Textos de Medicina  Identificação manual de estruturas sintáticas comuns  Construção de expressões regulares  Del Gaudio e Branco (2007, 2009)  Textos em TI e EAD  Gramática baseada em regras Ref.: págs. 30 a 32
  • 11. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Definições  Genus et differentia – Aristóteles  definiendum  genus  differentia  Shaw (1922):  por etimologia  por análise (ou intensional)  por exclusão  por exemplo (ou extensional) Ref.: págs. 47 a 49
  • 12. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Etiquetagem Morfossintática  presente na cadeia de processamento de PLN  atribui etiquetas com o papel desempenhado pelo segmento na frase  Tipos de etiquetadores  Expressões Regulares  Estatísticos N-Gramas  Aprendizagem baseada em transformações (BRILL, 1993 apud BIRD et al, 2009) Ref.: págs. 49 a 54
  • 13. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Máquinas de Vetor de Suporte  abordagem de aprendizagem de máquina para problemas de classificação  classifica vetores n-dimensionais  cada dimensão representa uma característica  separador que maximiza a margem entre as classes de vetores Ref.: págs. 54 a 57
  • 14. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia Ref.: Figura 12, pág. 58
  • 15. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009)  1.940 documentos com 6.120.832 tokens  Leis, Decretos, Resoluções, Jurisprudência  1.757 termos no glossário  2.097 definições Ref.: págs. 59 a 60
  • 16. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  ”Problemas” no corpus  faltam alguns documentos referenciados  Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.  correções ortográficas  Ex.: no Anexo à Resolução da ANATEL nº 297, de 10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.  definições omitidas  Ex.: ”contratante” e ”contratado” na Lei 8.666/1993 Ref.: págs. 60 a 62
  • 17. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Pré-processamento  conversão de formatos  filtragem para sanear os problemas  Segmentação  por períodos  por palavras Ref.: págs. 61 a 62
  • 18. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Etiquetagem morfossintática  treino no corpus MAC-MORPHO (ALUÍSIO et al, 2003)  divisão de treino/testes 90%/10%  acurácia: 90,44% Ref.: págs. 62 a 65
  • 19. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Funções extratoras de características (FEC)  retornam um valor numérico ou binário  normalizado para a faixa [0, 1]  exemplos:  o segmento contém o verbo ”ser” seguido de um determinante?  o segmento contém dois pontos (”:”) entre as cinco primeiras posições?  exemplos de características negativas:  palavra não seguida por conjugação do verbo ”ser” Ref.: págs. 65 a 66
  • 20. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Treino  Coleção Brasileira de Direito das Telecomunicações (ARANHA e LIMA, 2009)  amostragem aleatória de 70% dos períodos utilizados para treino  normalização dos valores das FEC  resposta de referência (”gold standard”)  balanceamento da quantidade de instâncias  Aplicação  30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
  • 21. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia
  • 22. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Resultados e Discussão  Resultados  acurácia: 73,5%  precisão: 75,6%  Revocação: 69,6%  Matriz de confusão: Predição Correção Negativa Positiva Negativa 305 38,7% 89 11,3% Positiva 120 15,2% 275 34,9% Ref.: págs. 70 a 71
  • 23. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Conclusões  Atingidos os objetivos geral e específicos  estudo das técnicas existentes  escolha de uma abordagem p/ construir glossário  estudo de caso  Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos  Primeiro passo para a construção de glossários (revisão manual) Ref.: pág. 72
  • 24. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Trabalhos Futuros  Construção de corpus anotado manualmente revisado  Aplicação em outras áreas do conhecimento  Uso de programação genética e outras, aplicadas à língua portuguesa Ref.: págs. 72 a 75