SlideShare a Scribd company logo
1 of 9
A HG-1 TREEBANK
•   Bevezetés
•   A HG-1 elkészítésének folyamata
•   HG-1 adatok az INESS adatbázisban
Bevezetés: a „korpusz” fogalma
A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus
(lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra
használunk         fel  helyesírásunk      ellenőrzésétől  kezdve
szabályszerűségek szakértői vagy automatizált feltárásáig.

Az általános célú korpuszokat úgy tervezik meg, hogy többféle
célra              (pl.           általános          nyelvtani
tanulmányok,      lexikográfia, nyelvtanulás) felhasználhatók
legyenek. Ennek érdekében több (száz)millió szavas, műfajilag
lehetőleg   univerzális     és  reprezentatív gyűjteményeket
készítenek, általában kereskedelmi célra.

A speciális célú korpuszok szerkesztésmódjuk és/vagy a
hozzáadott nyelvi információk (címkék) révén bizonyos
nyelvészeti területekre és célokra szakosodnak.
Bevezetés: a „treebank” fogalma

A treebank mondattani információt tartalmazó korpusz. A
mondattani információ tartalmazza a mondat összetevős
szerkezetét (melynek hierarchikus, fákkal ábrázolható
jellege adja ennek a korpuszfajtának a treebank nevet), és
a szavakra és az összetevőkre vonatkozó nyelvtani
információkat.

A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol
Nyelvészeti Tanszékén működő LFGRG munkacsoport
treebank fejlesztése.
A HG-1 korpusz alapadatok
HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz.

Teljes gépi morfológiai és mondattani (összetevős szerkezet)
annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű.
Kijelölt alkorpusz kézi egyértelműsítése.

Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának
megalkotása (http://hungram.unideb.hu)

Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése
(lásd következő dia), annotáció előkészítése; kézi egyértelműsítés

IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése
(XLE         és        korpuszolvasó         segédeszközök),        INESS
(http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező
felület
A HG-1 „nyers” forrásai

• Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol
 párhuzamos korpusz
 Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005).
 Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596.

• Szeged Treebank 2.0: 1,2 millió szavas treebank
 (korpuszannotációját nem használjuk)
 Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak
 története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005)
 kiadványa, Szeged, pp. 409-412.

• Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió
 szavas), .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz
 részletei
 Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based
 frequency dictionaries for medium density languages In: Proceedings of the 2nd International
 Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
A korpuszépítés lépései
1.   A korpuszforrásokból
     kinyert mondatok
     elemzeztetése a HunGram
     nyelvtannal az XLE
     parserben
2.   Sikeres elemzések
     tárolása PROLOG
     fájlokban (sikertelen
     elemzés a nyelvtanírás
     számára visszacsatolás)
3.   Az elemzés feltöltése az
     INESS renszerbe
4.   Kézi egyértelműsítés ill. az
     eredmény on-line
     böngészése INESS-ben
INESS: treebank kiválasztása
INESS: mondat kiválasztása
INESS: mondatelemzés vizualizációja

                                            F-STRUCTURE
                                            Attributum-érték
                                                 párok a
                                              predikátum-
                                              argumentum
                                            relációk ás más
                                                nyelvtani
                                              infrormációk
                                            (szám, igeidő, e
                                                   set)
                                              ábrázolására




C-STRUCTURE
  Környezetfüg-
      getlen
 frázisstruktúra-
    ágrajz az
   összetevős-
 szerkezet és a
lineáris szórend
  ábrázolására

More Related Content

Viewers also liked

03.3 instrumen sma 14.03.18 ok
03.3 instrumen sma 14.03.18 ok03.3 instrumen sma 14.03.18 ok
03.3 instrumen sma 14.03.18 okdjokots
 
Virtualización de Escritorios: De vuelta al mainframe pero mejor!
Virtualización de Escritorios: De vuelta al mainframe pero mejor!Virtualización de Escritorios: De vuelta al mainframe pero mejor!
Virtualización de Escritorios: De vuelta al mainframe pero mejor!Andres Mauricio Mujica Zalamea
 
Praktisch competentiemanagement def
Praktisch competentiemanagement defPraktisch competentiemanagement def
Praktisch competentiemanagement defHauthem
 
Schooladmissionprocessmanagement 140227084915-phpapp01
Schooladmissionprocessmanagement 140227084915-phpapp01Schooladmissionprocessmanagement 140227084915-phpapp01
Schooladmissionprocessmanagement 140227084915-phpapp01Aarambhi Manke
 
Usando Docker con sistemas Asterisk
Usando Docker con sistemas AsteriskUsando Docker con sistemas Asterisk
Usando Docker con sistemas AsteriskElio Rojano
 
6 instrumen-standar-pengelolaan
6 instrumen-standar-pengelolaan6 instrumen-standar-pengelolaan
6 instrumen-standar-pengelolaanMuhamad Anugrah
 
Delapan Standar Nasional Pendidikan
Delapan Standar Nasional PendidikanDelapan Standar Nasional Pendidikan
Delapan Standar Nasional Pendidikanade putra
 

Viewers also liked (8)

03.3 instrumen sma 14.03.18 ok
03.3 instrumen sma 14.03.18 ok03.3 instrumen sma 14.03.18 ok
03.3 instrumen sma 14.03.18 ok
 
Virtualización de Escritorios: De vuelta al mainframe pero mejor!
Virtualización de Escritorios: De vuelta al mainframe pero mejor!Virtualización de Escritorios: De vuelta al mainframe pero mejor!
Virtualización de Escritorios: De vuelta al mainframe pero mejor!
 
Silabus kdm ib
Silabus kdm ibSilabus kdm ib
Silabus kdm ib
 
Praktisch competentiemanagement def
Praktisch competentiemanagement defPraktisch competentiemanagement def
Praktisch competentiemanagement def
 
Schooladmissionprocessmanagement 140227084915-phpapp01
Schooladmissionprocessmanagement 140227084915-phpapp01Schooladmissionprocessmanagement 140227084915-phpapp01
Schooladmissionprocessmanagement 140227084915-phpapp01
 
Usando Docker con sistemas Asterisk
Usando Docker con sistemas AsteriskUsando Docker con sistemas Asterisk
Usando Docker con sistemas Asterisk
 
6 instrumen-standar-pengelolaan
6 instrumen-standar-pengelolaan6 instrumen-standar-pengelolaan
6 instrumen-standar-pengelolaan
 
Delapan Standar Nasional Pendidikan
Delapan Standar Nasional PendidikanDelapan Standar Nasional Pendidikan
Delapan Standar Nasional Pendidikan
 

HG-1 TREEBANK Bevezetés

  • 1. A HG-1 TREEBANK • Bevezetés • A HG-1 elkészítésének folyamata • HG-1 adatok az INESS adatbázisban
  • 2. Bevezetés: a „korpusz” fogalma A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus (lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra használunk fel helyesírásunk ellenőrzésétől kezdve szabályszerűségek szakértői vagy automatizált feltárásáig. Az általános célú korpuszokat úgy tervezik meg, hogy többféle célra (pl. általános nyelvtani tanulmányok, lexikográfia, nyelvtanulás) felhasználhatók legyenek. Ennek érdekében több (száz)millió szavas, műfajilag lehetőleg univerzális és reprezentatív gyűjteményeket készítenek, általában kereskedelmi célra. A speciális célú korpuszok szerkesztésmódjuk és/vagy a hozzáadott nyelvi információk (címkék) révén bizonyos nyelvészeti területekre és célokra szakosodnak.
  • 3. Bevezetés: a „treebank” fogalma A treebank mondattani információt tartalmazó korpusz. A mondattani információ tartalmazza a mondat összetevős szerkezetét (melynek hierarchikus, fákkal ábrázolható jellege adja ennek a korpuszfajtának a treebank nevet), és a szavakra és az összetevőkre vonatkozó nyelvtani információkat. A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol Nyelvészeti Tanszékén működő LFGRG munkacsoport treebank fejlesztése.
  • 4. A HG-1 korpusz alapadatok HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz. Teljes gépi morfológiai és mondattani (összetevős szerkezet) annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű. Kijelölt alkorpusz kézi egyértelműsítése. Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának megalkotása (http://hungram.unideb.hu) Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése (lásd következő dia), annotáció előkészítése; kézi egyértelműsítés IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése (XLE és korpuszolvasó segédeszközök), INESS (http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező felület
  • 5. A HG-1 „nyers” forrásai • Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol párhuzamos korpusz Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005). Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596. • Szeged Treebank 2.0: 1,2 millió szavas treebank (korpuszannotációját nem használjuk) Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005) kiadványa, Szeged, pp. 409-412. • Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió szavas), .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz részletei Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
  • 6. A korpuszépítés lépései 1. A korpuszforrásokból kinyert mondatok elemzeztetése a HunGram nyelvtannal az XLE parserben 2. Sikeres elemzések tárolása PROLOG fájlokban (sikertelen elemzés a nyelvtanírás számára visszacsatolás) 3. Az elemzés feltöltése az INESS renszerbe 4. Kézi egyértelműsítés ill. az eredmény on-line böngészése INESS-ben
  • 9. INESS: mondatelemzés vizualizációja F-STRUCTURE Attributum-érték párok a predikátum- argumentum relációk ás más nyelvtani infrormációk (szám, igeidő, e set) ábrázolására C-STRUCTURE Környezetfüg- getlen frázisstruktúra- ágrajz az összetevős- szerkezet és a lineáris szórend ábrázolására