SlideShare una empresa de Scribd logo
1 de 29
Clasificación de textos académicos en función de su
             contenido léxico-semántico
                            René Venegas
          Pontificia Universidad Católica de Valparaíso-Chile

             Cátedra Unesco, Puerto Rico, Junio de 2007
Agenda
• Objetivo
• Discurso especializado y académico
• Clasificación automatizada de textos
  – Bayes ingenuo
  – Máquina de soporte de vectores
• La Investigación
  – Corpus
  – Preprocedimientos y procedimientos
  – Resultados
  – Conclusiones
                                     2
Objetivo
• Clasificar, utilizando y comparando dos
  métodos de categorización automática, los
  textos académicos incluidos en el Corpus
  Académico PUCV-2006.

  – Proyecto Fondecyt 1060440 “El discurso
    especializado escrito en el ámbito universitario
    y profesional: Lingüística de corpus y análisis
    multidimensional”
                                      3
Discurso especializado
• Gotti (2003),  DE es un continuum
 las variaciones disciplinares producen no solo
  connotaciones léxicas especiales, sino que
  también a menudo influencian otras opciones
  (morfosintácticas, textuales y pragmáticas),
  teniendo además repercusiones en las
  peculiaridades epistemológicas, semánticas y
  funcionales de una variedad particular de
  discurso especializado.

                                     4
Discurso académico
• El discurso académico se caracteriza por el
  ámbito      de    circulación,   los   propósitos
  pedagógicos, los tópicos y los lectores en
  formación.
• Este discurso se identifica a partir de ciertos
  grupos de rasgos lingüísticos que tienden a co-
  ocurrir sistemáticamente a lo largo de las tramas
  textuales.
• Esto quiere decir que las funciones más
  comunicativas y sociales, así como el
  conocimiento disciplinar que se transmite a
  través de ciertas selecciones léxicas y retórico
  estructurales (Parodi, 2004, 2005; Venegas,
  2005, 2006).                         5
Clasificación de textos
• Tipología de textos y clasificación automatizada
  de textos

• En particular, los clasificadores (programas que
  ejecutan algoritmos de clasificación) son
  entrenados en un grupo de documentos,
  previamente clasificados y etiquetados acorde a
  algún criterio particular (tema, materia, origen,
  etc.), conformando una clase para descubrir
  variables que sean útiles en la discriminación de
  textos nuevos.

                                      6
Utilidad de la CAT
• La utilidad de la clasificación automática
  de documentos se basa en la posibilidad
  de poder efectuar una adecuada
  recuperación     de      documentos     no
  conocidos, asumiendo que aquellos textos
  que tratan, por ejemplo, de la misma
  materia, están clasificados juntos, o en
  sectores cercanos.

                                 7
Método Bayesiano Ingenuo
• Los clasificadores bayesianos permiten predecir
  tanto las probabilidades del número de
  miembros de una clase, como la probabilidad de
  que una muestra dada pertenezca a una clase
  particular.
• MBI ha demostrado una alta exactitud y
  velocidad cuando se han aplicado a grandes
  bases de datos textuales.
• Para el español ver: Molina y García, 2004;
  Cerviño et al., 2004; Bordignon, Peri, Tolosa,
  Villa y Paoletti, 2004.
                                     8
MBI
• El objetivo de este método de aprendizaje matemático-
  estadístico es determinar cuál es la mejor hipótesis (la
  más probable) dado un conjunto de datos pre-
  existentes.



 •Así, si denotamos P(D) como la probabilidad a priori de los datos y
 P(D|h) como la probabilidad de los datos dada una hipótesis, lo que
 queremos estimar es P(h|D), o sea, la probabilidad posterior de h
 dado ciertos datos conocidos, de aquí la noción de “probabilidad
 condicionada”.
 •Esto se puede estimar con el teorema de Bayes en el que se asume
 que el efecto de un valor del atributo en una clase dada es
 independiente de los valores de los otros atributos. Esta suposición
 se llama “independencia condicional de clase”  Bayes Ingenuo.
                                                   9
Máquina de vectores de
                       soporte
• La Máquina de Vectores de Soporte es un método de
  clasificación de datos relativamente nuevo, con el que
  diversos     investigadores   han   conseguido     buen
  desempeño de generalización sobre una amplia
  variedad de problemas de clasificación, destacando
  recientemente en problemas de clasificación de textos.
• Se le reconoce al método la capacidad de minimizar el
  error de generalización, es decir, los errores del
  clasificador sobre nuevos documentos (Cortes &
  Vapnick, 1995; Hsu, Chan & Lin, 2003; Baldi, Fresconi &
  Smyth, 2003; Téllez, 2005).


                                           10
MVS
• En términos geométricos, el problema que
  resuelve la MVS es identificar una frontera de
  decisión linear entre dos grupos, a través de una
  línea que los separe maximizando el espacio del
  hiperplano. Sin embargo, la MVS incluye una
  operación nueva llamada “truco de kernel”, la
  que le permite realizar separaciones no lineales
  de los datos y con ello optimizar la clasificación
  de los mismos.




                                       11
• Por ejemplo, en un espacio multidimensional las
  posibilidades de separación de las clases
  pueden ser múltiples.




                                     12
MVS
• Sin embargo, lo que se
  necesita       es      una
  separación óptima del
  hiperplano,     sustentada
  por márgenes definidos,
  que en la práctica serán
  los vectores de soporte.
• Tiene dos propiedades
  importantes: es único para
  cada grupo de datos
  separables linealmente, y
  el riesgo asociado de
  sobreestimación es más
  reducido      que     para
  cualquier otro hiperplano
  de separación.


                                     13
MVS
•   La característica más relevante de la MVS es el uso de las funciones
    kernel para extender las aplicaciones de la determinación de
    separación óptima a casos no lineales (Christianini & Shaw-Taylor,
    2002).
•   Esto se hace traspasando los datos desde el espacio de entrada X a
    un amplio espacio de características X mediante una función Ф, y
    resolviendo el problema de aprendizaje lineal en X(Ф : X—>X). La
    función real Ф no necesita ser conocida, es suficiente tener una
    función kernel k que calcule el producto interno en el espacio de
    características (Christianini & Shaw-Taylor, 2002; Bautista, Guzmán
    & Figueroa, 2004).




                                                      14
La investigación

  • CORPUS: Se aplicó ambos métodos de clasificación a una muestra de
    33% (aprox.) del Corpus Académico PUCV-2006

Corpus       Textos                                         Palabras
académico
Áreas        Carreras         PUCV_2006   Muestra   %       PUCV_2006    Muestra      %
Ciencias     Química          76          26        34,21   22.103.620   8.209.911    37,14
Básicas y    Industrial
de la
Ingeniería
             Ingeniería en    92          31        33,70   14.653.760   4.937.665    33,70
             Construcción
Ciencias     Trabajo Social   188         64        34,04   29.394.904   7.601.999    25,86
Sociales y
Humanas
             Psicología       296         95        32,09   30.136.590   10.136.506   33,64
Total                         652         216       33,12   96.288.874   30.886.081   32, 07



                                                                   15
PERL
                                                                  Agrupación

P                                                                 EXCEL
    ICC               QUI                     TS        PSI
R                                                                 Filtraje de
E                                                                 Lexemas
                      www.elgrial.cl                              de
P
                        output                                    contenido
R
                            PERL
O                        Frecuencias                              PERL
C                                                                 Identificació
E    ICC          QUI             TS              PSI             n de
                                                                  lexemas
D
                                                                  compartido
I                                                                 s
                   Lexemas Compartidos
M            y su frecuencia en cada disciplina               PERL
I                                                             Identificación
E                                                             de frecuencia
                                                              de lexemas
N          Matriz de LC en cada Texto                         compartidos
T               de cada disciplina
                                                              en cada texto
O
S                                                             SPSS
                                                              Identificación de
                clasificadores                                los grupos y de
                                                        16    los lexemas
                                                              discriminadores
Procedimientos MBI
• Reducción de la matriz original: Para ello se utilizó en el
  caso del método BI dos técnicas combinadas, la que
  permitirán:
   – a) entregar las variables (lexemas de contenido semántico)
     que permitirán clasificar los documentos y,
   – b) desechar las variables que no aportan nada a la
     identificación de las clases (en este caso la identificación de
     cuatro disciplinas a partir de los textos académicos).

• Se usó la determinación de valor umbral para la frecuencia
  de documento (document frequency thresholding, DF) y la
  ganancia informativa (information gain, IG) (ver Yang &
  Pedersen, 1997; Manning & Schütze, 2003). De este
  modo, aplicando DF e IG se obtuvieron 74 variables útiles
  para nuestra tarea de clasificación.
                                                   17
Procedimiento MVS
• Reducción matricial solo se requirió
  utilizar el criterio IG, obteniéndose 513
  variables para la clasificación.
• Además, se utilizó el kernel denominado
  Función de Base Radial (Radial Basis
  Function, RBF).



                                  18
% de Lexemas discriminadores
                   según Método
                  % LCS discrimiandores

    60,00
    50,00
    40,00
                                               MBI
    30,00
%




                                               MSV
    20,00
    10,00
     0,00
              A            S              V
                      Tipos de LCS



MBI= 74
MVS= 513
                                          19
Etapas
• Se calculó      con ambos métodos los
  valores de clasificación.
• Esto se realizó en tres etapas: a) etapa de
  entrenamiento, b) etapa de prueba y c)
  etapa de clasificación general.
• Para la etapa de entrenamiento se utilizó
  el 80% de los textos de cada disciplina y,
  para la de prueba, el restante 20% de los
  textos.
                                  20
Validación
               Precisión y exhaustividad



Donde:
R es la exhaustividad
P es la precisión
a es el número de documentos pertenecientes a una clase
   y adscritos a esa clase (clasificados correctamente)
b es el número de documentos no pertenecientes a una
   clase pero asignados a esa clase (clasificados
   incorrectamente)
c es el número de documentos pertenecientes a una clase
   no asignados a esa clase.
                                          21
Validación
                                Medida F
Adicionalmente, se utiliza una medida, también común en trabajos de
   clasificación, que unifica en los resultados la precisión y la
   exhaustividad. Esta medida es conocida como medida F (Fβ) y se
   expresa como:




Donde β es un parámetro que permite ajustar la influencia relativa de
  ambos componentes, precisión y exhaustividad. De este modo, β=1
  proporciona igual peso a ambos componentes de la medida. Si β es
  mayor que uno, la precisión se ve favorecida y si β menor que 1 se
  ve favorecida la exhaustividad (Manning & Schütze, 2003).

                                                    22
Resultados MBI
%(#)   IC
        IC           QUIQUI
                      QUI          TS TS
                                    TS         PSI PSI
                                                  PSI         TotalTotal
                                                                Total
IC     57,14 (4)
        83,87 (26)
       91,67 (22)    14,29 (2)
                      8,33 (1)
                        9,68 (3) 0,00 (0)
                                       0,00
                                    0,00 (0)   28,576,45 (2) 100,00 (7)(24)
                                                      (2)
                                                  0,00 (0)         100,00 (31)
                                                                100,00
QUI    0,00 (0)
        0,00 (0)     100,00 (4)(26) 0,00 (0)
                      100,00 (22) 0,00 (0)
                        100,00         0,00    0,00 (0)(0)(0) 100,00 (4)(22)
                                                     0,00
                                                  0,00             100,00 (26)
                                                                100,00
TS     0,00 (0)
        4,69 (3)
       5,56 (3)      0,00 (0)
                        0,00
                      0,00 (0)     80,00 (8) (53) 11,11 (6)(8) 100,00 (54)
                                    83,33 (45) 20,0012,50 100,00 (10) (64)
                                       82,81          (2)          100,00
PSI    8,70 (2)
        5,26 (5)
       4,17 (3)      13,04 (3)(21) 17,39 (4) (13) 58,33 (42) 100,00 (23) (95)
                        22,11
                      25,00 (18)    12,50 (9) 60,8758,95 (56) 100,00 (72)
                                       13,68          (14)         100,00
                                                              (44) (216)
                                                                (172)




Fase 1: Entrenamiento
Fase 2: Prueba
Fase 3: General




                                                             23
Resultados MSV

%(#)    IC
         IC           QUI
                       QUI          TS
                                     TS
                                     TS         PSI
                                                  PSI
                                                   PSI       Total
                                                               Total
                                                                Total
IC      100,00 (28)
         90,32 (4)
         57,14 (24)    3,23
                      14,29 (0)
                       0,00 (1)      0,00 (0) 28,57 (2)
                                    0,00 (0)
                                     0,00 (0)      6,45 (2) 100,00 (7) (31)
                                                  0,00 (0)      100,00
                                                               100,00 (24)
QUI      3,85 (1)
        4,55 (1)
         0,00 (0)      96,15 (25)
                      100,00 (21)
                       95,45 (4)     0,00 (0) 0,00 (0)(0) 100,00 (4) (26)
                                    0,00 (0)
                                     0,00 (0)      0,00
                                                  0,00 (0)      100,00
                                                               100,00 (22)
TS       0,00 (0)
        0,00 (0)      0,00 (0)
                       0,00 (0)      98,15 (53) 60,00 (6)(7) 100,00(10)
                                     89,06 (57) 1,85 (1)
                                    40,00(4)       10,94        100,00 (64)
                                                               100,00 (54)
PSI      0,00 (0)
        0,00 (0)      0,00 (0)
                       0,00 (0)      2,15 (2) 95,45 (21)
                                    4,55 (1)
                                     1,41 (1)      97,85 (91) 100,00 (71)
                                                                100,00 (93)
                                                  98,59 (70) 100,00(22)
                                                                (214)
                                                             (43)
                                                               (171)




       Fase 1: Entrenamiento
       Fase 2: Prueba
       Fase 3: General




                                                          24
Comparación de métodos y
         fases




                 25
Medidas de validación

Métodos                MBI                      MSV
Medidas de             R                P       Fβ      R        P      Fβ
validación
ICC                    0,84             0,76    0,8     0,9      0,97   0,93
QUI                    1                0,52    0,68    0,96     0,96   0,96
TS                     0,83             0,8     0,82    0,89     0,97   0,93
PSI                    0,59             0,85    0,7     0,98     0,91   0,94
Promedio               0,81             0,73    0,75    0,93     0,95   0,94



 El método MVS (con el kernel RBF) clasifica de mejor manera los textos del
 Corpus Académico PUCV-2006 que el método BI, acorde con un grupo de
 lexemas de contenido semántico, compartidos entre las áreas, cuya variación
 sistemática en términos de frecuencia normalizada caracteriza a los textos de
 cada una de las cuatro disciplinas en estudio.

                                                            26
Conclusiones
• Ambos métodos discriminan las 4 disciplinas = MSV  MBI
• MSV= +exhaustividad y +precisión de la clasificación.
• Tipos de Lexemas = SAV
• Resulta interesante que los textos de Química, solo
  considerando sus lexemas de contenido semántico
  compartido con las otras áreas, se distinga fuertemente
  respecto de las otras disciplinas. Esto, sin duda, nos revela
  la importancia de la selección léxica condicionada por el
  área de especialidad.
• Según el MVS las áreas de las Ciencias Básicas y de la
  Ingeniería tienden a compartir textos en menor cantidad
  que lo que lo hacen las áreas de las Ciencias Sociales y
  Humanas.
• El MVS es capaz de diferenciar mucho mejor áreas más
  difusas como PSI y TS.                       27
Proyecciones
• Avanzar en la descripción de los textos
  académicos de estas cuatro disciplinas con
  mayor profundidad y detalle.
• Usar MVS en la clasificación de tipos de
  textos académicos.
• Aportar al desarrollo interdisciplinar de la
  Lingüística y el PNL, a través de trabajos
  empíricos con grandes cantidades de textos
  (ver Parodi & Venegas, 2004; Venegas,
  2005; Cademartori, Parodi & Venegas, 2006;
  Parodi, 2006a, 2006b; Venegas, 2006).
                                  28
Más información en:
• http://www.scielo.cl/scielo.php?script=sci_artte
• Venegas, R. (2007). Clasificación de textos académicos
  en función de su contenido léxico-semántico. Revista
  Signos, 40(63), 239-271.




                                          29

Más contenido relacionado

Destacado

Buenfil Burgos - Análisis de discurso y educación
Buenfil Burgos - Análisis de discurso y educaciónBuenfil Burgos - Análisis de discurso y educación
Buenfil Burgos - Análisis de discurso y educaciónComunicacionyEducacionCat2
 
El Dircurso Academico
El  Dircurso  Academico El  Dircurso  Academico
El Dircurso Academico Orleam GP
 
Estilos de aprendizajes
Estilos de aprendizajesEstilos de aprendizajes
Estilos de aprendizajesadisla
 
Discurso academico
Discurso academicoDiscurso academico
Discurso academicomonica
 
Ppp historia unicaribe (2)
Ppp historia unicaribe (2)Ppp historia unicaribe (2)
Ppp historia unicaribe (2)adisla
 
Aprendizaje autónomo
Aprendizaje autónomoAprendizaje autónomo
Aprendizaje autónomoadisla
 
Aprendizaje colaborativo
Aprendizaje colaborativoAprendizaje colaborativo
Aprendizaje colaborativoadisla
 
Clase 6. discusión, conclusiones, recomendaciones
Clase 6. discusión, conclusiones, recomendacionesClase 6. discusión, conclusiones, recomendaciones
Clase 6. discusión, conclusiones, recomendacioneszoilamoreno
 

Destacado (13)

Redes Bayesianas
Redes BayesianasRedes Bayesianas
Redes Bayesianas
 
Algoritmo Naive Bayes
Algoritmo Naive BayesAlgoritmo Naive Bayes
Algoritmo Naive Bayes
 
Buenfil Burgos - Análisis de discurso y educación
Buenfil Burgos - Análisis de discurso y educaciónBuenfil Burgos - Análisis de discurso y educación
Buenfil Burgos - Análisis de discurso y educación
 
El Dircurso Academico
El  Dircurso  Academico El  Dircurso  Academico
El Dircurso Academico
 
Estilos de aprendizajes
Estilos de aprendizajesEstilos de aprendizajes
Estilos de aprendizajes
 
Discurso academico
Discurso academicoDiscurso academico
Discurso academico
 
Ppp historia unicaribe (2)
Ppp historia unicaribe (2)Ppp historia unicaribe (2)
Ppp historia unicaribe (2)
 
Parrafo presentación discurso
Parrafo presentación discursoParrafo presentación discurso
Parrafo presentación discurso
 
El trabajo académico
El trabajo académicoEl trabajo académico
El trabajo académico
 
Texto académico
Texto académicoTexto académico
Texto académico
 
Aprendizaje autónomo
Aprendizaje autónomoAprendizaje autónomo
Aprendizaje autónomo
 
Aprendizaje colaborativo
Aprendizaje colaborativoAprendizaje colaborativo
Aprendizaje colaborativo
 
Clase 6. discusión, conclusiones, recomendaciones
Clase 6. discusión, conclusiones, recomendacionesClase 6. discusión, conclusiones, recomendaciones
Clase 6. discusión, conclusiones, recomendaciones
 

Similar a Clasificación de textos académicos en función de su

Presentacion Medios Documentales V Final
Presentacion   Medios Documentales V FinalPresentacion   Medios Documentales V Final
Presentacion Medios Documentales V FinalJavier Balan
 
Programa mecanismos de transferencia
Programa mecanismos de transferenciaPrograma mecanismos de transferencia
Programa mecanismos de transferenciaNorman Rivera
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de ClasificaciónUTPL
 
Glosario de términos especificos utilizados en la red - Melania
Glosario de términos especificos utilizados en la red - MelaniaGlosario de términos especificos utilizados en la red - Melania
Glosario de términos especificos utilizados en la red - MelaniaGrisaul OROZCO MEDINA
 
Glosario de términos especificos utilizados en la red - Emmanuel
Glosario de términos especificos utilizados en la red  - EmmanuelGlosario de términos especificos utilizados en la red  - Emmanuel
Glosario de términos especificos utilizados en la red - EmmanuelGrisaul OROZCO MEDINA
 
De la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectivaDe la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectivaProducción Virtual CIE
 
Produccion textual
Produccion textualProduccion textual
Produccion textualjoelk17
 
Deep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeVictoria López
 
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIOAnálisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIOLuciana Dubiau
 
Análisis de la investigación sobre radio en España
Análisis de la investigación sobre radio en EspañaAnálisis de la investigación sobre radio en España
Análisis de la investigación sobre radio en EspañaTorres Salinas
 

Similar a Clasificación de textos académicos en función de su (20)

ANALISIS DE CONTENIDO
ANALISIS DE CONTENIDOANALISIS DE CONTENIDO
ANALISIS DE CONTENIDO
 
Presentacion Medios Documentales V Final
Presentacion   Medios Documentales V FinalPresentacion   Medios Documentales V Final
Presentacion Medios Documentales V Final
 
Programa mecanismos de transferencia
Programa mecanismos de transferenciaPrograma mecanismos de transferencia
Programa mecanismos de transferencia
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de Clasificación
 
Ontologías
OntologíasOntologías
Ontologías
 
Revisión técnicas de estudio
Revisión técnicas de estudioRevisión técnicas de estudio
Revisión técnicas de estudio
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Glosario de términos especificos utilizados en la red - Melania
Glosario de términos especificos utilizados en la red - MelaniaGlosario de términos especificos utilizados en la red - Melania
Glosario de términos especificos utilizados en la red - Melania
 
Glosario de términos especificos utilizados en la red - Emmanuel
Glosario de términos especificos utilizados en la red  - EmmanuelGlosario de términos especificos utilizados en la red  - Emmanuel
Glosario de términos especificos utilizados en la red - Emmanuel
 
GLOSARIO
GLOSARIOGLOSARIO
GLOSARIO
 
Seminario deustotech 13marzo-2013
Seminario deustotech 13marzo-2013Seminario deustotech 13marzo-2013
Seminario deustotech 13marzo-2013
 
Ii corte presentacion i
Ii corte presentacion iIi corte presentacion i
Ii corte presentacion i
 
Ii corte presentacion i
Ii corte presentacion iIi corte presentacion i
Ii corte presentacion i
 
Cap 14 (1)
Cap 14 (1)Cap 14 (1)
Cap 14 (1)
 
De la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectivaDe la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectiva
 
Produccion textual
Produccion textualProduccion textual
Produccion textual
 
Deep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel Valverde
 
IC-SBC1-2008.ppt
IC-SBC1-2008.pptIC-SBC1-2008.ppt
IC-SBC1-2008.ppt
 
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIOAnálisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
 
Análisis de la investigación sobre radio en España
Análisis de la investigación sobre radio en EspañaAnálisis de la investigación sobre radio en España
Análisis de la investigación sobre radio en España
 

Más de Daniel Mamani

Más de Daniel Mamani (8)

Voluntariado ifd 6018 oran
Voluntariado ifd 6018 oranVoluntariado ifd 6018 oran
Voluntariado ifd 6018 oran
 
Voluntariado IFD 6018
Voluntariado IFD  6018Voluntariado IFD  6018
Voluntariado IFD 6018
 
Los norteños 2
Los norteños 2Los norteños 2
Los norteños 2
 
Los norteños 3
Los norteños 3Los norteños 3
Los norteños 3
 
Los norteños 2
Los norteños 2Los norteños 2
Los norteños 2
 
Los norteños
Los norteñosLos norteños
Los norteños
 
Proyecto de voluntariado
Proyecto de voluntariadoProyecto de voluntariado
Proyecto de voluntariado
 
Grupo los norteños
Grupo los norteñosGrupo los norteños
Grupo los norteños
 

Clasificación de textos académicos en función de su

  • 1. Clasificación de textos académicos en función de su contenido léxico-semántico René Venegas Pontificia Universidad Católica de Valparaíso-Chile Cátedra Unesco, Puerto Rico, Junio de 2007
  • 2. Agenda • Objetivo • Discurso especializado y académico • Clasificación automatizada de textos – Bayes ingenuo – Máquina de soporte de vectores • La Investigación – Corpus – Preprocedimientos y procedimientos – Resultados – Conclusiones 2
  • 3. Objetivo • Clasificar, utilizando y comparando dos métodos de categorización automática, los textos académicos incluidos en el Corpus Académico PUCV-2006. – Proyecto Fondecyt 1060440 “El discurso especializado escrito en el ámbito universitario y profesional: Lingüística de corpus y análisis multidimensional” 3
  • 4. Discurso especializado • Gotti (2003),  DE es un continuum  las variaciones disciplinares producen no solo connotaciones léxicas especiales, sino que también a menudo influencian otras opciones (morfosintácticas, textuales y pragmáticas), teniendo además repercusiones en las peculiaridades epistemológicas, semánticas y funcionales de una variedad particular de discurso especializado. 4
  • 5. Discurso académico • El discurso académico se caracteriza por el ámbito de circulación, los propósitos pedagógicos, los tópicos y los lectores en formación. • Este discurso se identifica a partir de ciertos grupos de rasgos lingüísticos que tienden a co- ocurrir sistemáticamente a lo largo de las tramas textuales. • Esto quiere decir que las funciones más comunicativas y sociales, así como el conocimiento disciplinar que se transmite a través de ciertas selecciones léxicas y retórico estructurales (Parodi, 2004, 2005; Venegas, 2005, 2006). 5
  • 6. Clasificación de textos • Tipología de textos y clasificación automatizada de textos • En particular, los clasificadores (programas que ejecutan algoritmos de clasificación) son entrenados en un grupo de documentos, previamente clasificados y etiquetados acorde a algún criterio particular (tema, materia, origen, etc.), conformando una clase para descubrir variables que sean útiles en la discriminación de textos nuevos. 6
  • 7. Utilidad de la CAT • La utilidad de la clasificación automática de documentos se basa en la posibilidad de poder efectuar una adecuada recuperación de documentos no conocidos, asumiendo que aquellos textos que tratan, por ejemplo, de la misma materia, están clasificados juntos, o en sectores cercanos. 7
  • 8. Método Bayesiano Ingenuo • Los clasificadores bayesianos permiten predecir tanto las probabilidades del número de miembros de una clase, como la probabilidad de que una muestra dada pertenezca a una clase particular. • MBI ha demostrado una alta exactitud y velocidad cuando se han aplicado a grandes bases de datos textuales. • Para el español ver: Molina y García, 2004; Cerviño et al., 2004; Bordignon, Peri, Tolosa, Villa y Paoletti, 2004. 8
  • 9. MBI • El objetivo de este método de aprendizaje matemático- estadístico es determinar cuál es la mejor hipótesis (la más probable) dado un conjunto de datos pre- existentes. •Así, si denotamos P(D) como la probabilidad a priori de los datos y P(D|h) como la probabilidad de los datos dada una hipótesis, lo que queremos estimar es P(h|D), o sea, la probabilidad posterior de h dado ciertos datos conocidos, de aquí la noción de “probabilidad condicionada”. •Esto se puede estimar con el teorema de Bayes en el que se asume que el efecto de un valor del atributo en una clase dada es independiente de los valores de los otros atributos. Esta suposición se llama “independencia condicional de clase”  Bayes Ingenuo. 9
  • 10. Máquina de vectores de soporte • La Máquina de Vectores de Soporte es un método de clasificación de datos relativamente nuevo, con el que diversos investigadores han conseguido buen desempeño de generalización sobre una amplia variedad de problemas de clasificación, destacando recientemente en problemas de clasificación de textos. • Se le reconoce al método la capacidad de minimizar el error de generalización, es decir, los errores del clasificador sobre nuevos documentos (Cortes & Vapnick, 1995; Hsu, Chan & Lin, 2003; Baldi, Fresconi & Smyth, 2003; Téllez, 2005). 10
  • 11. MVS • En términos geométricos, el problema que resuelve la MVS es identificar una frontera de decisión linear entre dos grupos, a través de una línea que los separe maximizando el espacio del hiperplano. Sin embargo, la MVS incluye una operación nueva llamada “truco de kernel”, la que le permite realizar separaciones no lineales de los datos y con ello optimizar la clasificación de los mismos. 11
  • 12. • Por ejemplo, en un espacio multidimensional las posibilidades de separación de las clases pueden ser múltiples. 12
  • 13. MVS • Sin embargo, lo que se necesita es una separación óptima del hiperplano, sustentada por márgenes definidos, que en la práctica serán los vectores de soporte. • Tiene dos propiedades importantes: es único para cada grupo de datos separables linealmente, y el riesgo asociado de sobreestimación es más reducido que para cualquier otro hiperplano de separación. 13
  • 14. MVS • La característica más relevante de la MVS es el uso de las funciones kernel para extender las aplicaciones de la determinación de separación óptima a casos no lineales (Christianini & Shaw-Taylor, 2002). • Esto se hace traspasando los datos desde el espacio de entrada X a un amplio espacio de características X mediante una función Ф, y resolviendo el problema de aprendizaje lineal en X(Ф : X—>X). La función real Ф no necesita ser conocida, es suficiente tener una función kernel k que calcule el producto interno en el espacio de características (Christianini & Shaw-Taylor, 2002; Bautista, Guzmán & Figueroa, 2004). 14
  • 15. La investigación • CORPUS: Se aplicó ambos métodos de clasificación a una muestra de 33% (aprox.) del Corpus Académico PUCV-2006 Corpus Textos Palabras académico Áreas Carreras PUCV_2006 Muestra % PUCV_2006 Muestra % Ciencias Química 76 26 34,21 22.103.620 8.209.911 37,14 Básicas y Industrial de la Ingeniería Ingeniería en 92 31 33,70 14.653.760 4.937.665 33,70 Construcción Ciencias Trabajo Social 188 64 34,04 29.394.904 7.601.999 25,86 Sociales y Humanas Psicología 296 95 32,09 30.136.590 10.136.506 33,64 Total 652 216 33,12 96.288.874 30.886.081 32, 07 15
  • 16. PERL Agrupación P EXCEL ICC QUI TS PSI R Filtraje de E Lexemas www.elgrial.cl de P output contenido R PERL O Frecuencias PERL C Identificació E ICC QUI TS PSI n de lexemas D compartido I s Lexemas Compartidos M y su frecuencia en cada disciplina PERL I Identificación E de frecuencia de lexemas N Matriz de LC en cada Texto compartidos T de cada disciplina en cada texto O S SPSS Identificación de clasificadores los grupos y de 16 los lexemas discriminadores
  • 17. Procedimientos MBI • Reducción de la matriz original: Para ello se utilizó en el caso del método BI dos técnicas combinadas, la que permitirán: – a) entregar las variables (lexemas de contenido semántico) que permitirán clasificar los documentos y, – b) desechar las variables que no aportan nada a la identificación de las clases (en este caso la identificación de cuatro disciplinas a partir de los textos académicos). • Se usó la determinación de valor umbral para la frecuencia de documento (document frequency thresholding, DF) y la ganancia informativa (information gain, IG) (ver Yang & Pedersen, 1997; Manning & Schütze, 2003). De este modo, aplicando DF e IG se obtuvieron 74 variables útiles para nuestra tarea de clasificación. 17
  • 18. Procedimiento MVS • Reducción matricial solo se requirió utilizar el criterio IG, obteniéndose 513 variables para la clasificación. • Además, se utilizó el kernel denominado Función de Base Radial (Radial Basis Function, RBF). 18
  • 19. % de Lexemas discriminadores según Método % LCS discrimiandores 60,00 50,00 40,00 MBI 30,00 % MSV 20,00 10,00 0,00 A S V Tipos de LCS MBI= 74 MVS= 513 19
  • 20. Etapas • Se calculó con ambos métodos los valores de clasificación. • Esto se realizó en tres etapas: a) etapa de entrenamiento, b) etapa de prueba y c) etapa de clasificación general. • Para la etapa de entrenamiento se utilizó el 80% de los textos de cada disciplina y, para la de prueba, el restante 20% de los textos. 20
  • 21. Validación Precisión y exhaustividad Donde: R es la exhaustividad P es la precisión a es el número de documentos pertenecientes a una clase y adscritos a esa clase (clasificados correctamente) b es el número de documentos no pertenecientes a una clase pero asignados a esa clase (clasificados incorrectamente) c es el número de documentos pertenecientes a una clase no asignados a esa clase. 21
  • 22. Validación Medida F Adicionalmente, se utiliza una medida, también común en trabajos de clasificación, que unifica en los resultados la precisión y la exhaustividad. Esta medida es conocida como medida F (Fβ) y se expresa como: Donde β es un parámetro que permite ajustar la influencia relativa de ambos componentes, precisión y exhaustividad. De este modo, β=1 proporciona igual peso a ambos componentes de la medida. Si β es mayor que uno, la precisión se ve favorecida y si β menor que 1 se ve favorecida la exhaustividad (Manning & Schütze, 2003). 22
  • 23. Resultados MBI %(#) IC IC QUIQUI QUI TS TS TS PSI PSI PSI TotalTotal Total IC 57,14 (4) 83,87 (26) 91,67 (22) 14,29 (2) 8,33 (1) 9,68 (3) 0,00 (0) 0,00 0,00 (0) 28,576,45 (2) 100,00 (7)(24) (2) 0,00 (0) 100,00 (31) 100,00 QUI 0,00 (0) 0,00 (0) 100,00 (4)(26) 0,00 (0) 100,00 (22) 0,00 (0) 100,00 0,00 0,00 (0)(0)(0) 100,00 (4)(22) 0,00 0,00 100,00 (26) 100,00 TS 0,00 (0) 4,69 (3) 5,56 (3) 0,00 (0) 0,00 0,00 (0) 80,00 (8) (53) 11,11 (6)(8) 100,00 (54) 83,33 (45) 20,0012,50 100,00 (10) (64) 82,81 (2) 100,00 PSI 8,70 (2) 5,26 (5) 4,17 (3) 13,04 (3)(21) 17,39 (4) (13) 58,33 (42) 100,00 (23) (95) 22,11 25,00 (18) 12,50 (9) 60,8758,95 (56) 100,00 (72) 13,68 (14) 100,00 (44) (216) (172) Fase 1: Entrenamiento Fase 2: Prueba Fase 3: General 23
  • 24. Resultados MSV %(#) IC IC QUI QUI TS TS TS PSI PSI PSI Total Total Total IC 100,00 (28) 90,32 (4) 57,14 (24) 3,23 14,29 (0) 0,00 (1) 0,00 (0) 28,57 (2) 0,00 (0) 0,00 (0) 6,45 (2) 100,00 (7) (31) 0,00 (0) 100,00 100,00 (24) QUI 3,85 (1) 4,55 (1) 0,00 (0) 96,15 (25) 100,00 (21) 95,45 (4) 0,00 (0) 0,00 (0)(0) 100,00 (4) (26) 0,00 (0) 0,00 (0) 0,00 0,00 (0) 100,00 100,00 (22) TS 0,00 (0) 0,00 (0) 0,00 (0) 0,00 (0) 98,15 (53) 60,00 (6)(7) 100,00(10) 89,06 (57) 1,85 (1) 40,00(4) 10,94 100,00 (64) 100,00 (54) PSI 0,00 (0) 0,00 (0) 0,00 (0) 0,00 (0) 2,15 (2) 95,45 (21) 4,55 (1) 1,41 (1) 97,85 (91) 100,00 (71) 100,00 (93) 98,59 (70) 100,00(22) (214) (43) (171) Fase 1: Entrenamiento Fase 2: Prueba Fase 3: General 24
  • 26. Medidas de validación Métodos MBI MSV Medidas de R P Fβ R P Fβ validación ICC 0,84 0,76 0,8 0,9 0,97 0,93 QUI 1 0,52 0,68 0,96 0,96 0,96 TS 0,83 0,8 0,82 0,89 0,97 0,93 PSI 0,59 0,85 0,7 0,98 0,91 0,94 Promedio 0,81 0,73 0,75 0,93 0,95 0,94 El método MVS (con el kernel RBF) clasifica de mejor manera los textos del Corpus Académico PUCV-2006 que el método BI, acorde con un grupo de lexemas de contenido semántico, compartidos entre las áreas, cuya variación sistemática en términos de frecuencia normalizada caracteriza a los textos de cada una de las cuatro disciplinas en estudio. 26
  • 27. Conclusiones • Ambos métodos discriminan las 4 disciplinas = MSV  MBI • MSV= +exhaustividad y +precisión de la clasificación. • Tipos de Lexemas = SAV • Resulta interesante que los textos de Química, solo considerando sus lexemas de contenido semántico compartido con las otras áreas, se distinga fuertemente respecto de las otras disciplinas. Esto, sin duda, nos revela la importancia de la selección léxica condicionada por el área de especialidad. • Según el MVS las áreas de las Ciencias Básicas y de la Ingeniería tienden a compartir textos en menor cantidad que lo que lo hacen las áreas de las Ciencias Sociales y Humanas. • El MVS es capaz de diferenciar mucho mejor áreas más difusas como PSI y TS. 27
  • 28. Proyecciones • Avanzar en la descripción de los textos académicos de estas cuatro disciplinas con mayor profundidad y detalle. • Usar MVS en la clasificación de tipos de textos académicos. • Aportar al desarrollo interdisciplinar de la Lingüística y el PNL, a través de trabajos empíricos con grandes cantidades de textos (ver Parodi & Venegas, 2004; Venegas, 2005; Cademartori, Parodi & Venegas, 2006; Parodi, 2006a, 2006b; Venegas, 2006). 28
  • 29. Más información en: • http://www.scielo.cl/scielo.php?script=sci_artte • Venegas, R. (2007). Clasificación de textos académicos en función de su contenido léxico-semántico. Revista Signos, 40(63), 239-271. 29