University of Szeged Natural Language Processing Group Hungarian Academy of Sciences

Nyelvtechnológiai kutatások

A Nyelvtechnológiai Csoportnál 1998 óta folynak nyelvtechnológiai (elsősorban információkinyerési) kutatások, a csoport mára a magyar számítógépes nyelvészet egyik meghatározó műhelyévé vált. Munkánk folyamán magyar és angol nyelvű szövegek feldolgozásával foglalkozunk. Általános célkitűzésünk, hogy az egyes kifejlesztett technológiák nyelvfüggetlenek vagy legalább könnyen adaptálhatóak legyenek.

Az információkinyerés célja, hogy folyó szövegekből automatikus módon jussunk hasznos információkhoz, összefüggésekhez. Igazi haszna akkor mutatkozhat meg, amikor nagy mennyiségű szöveget kell végigolvasni a szükséges információ megtalálásához. Ekkor - megfelelő méretű tanító adatbázis esetén - a gépi tanulóalgoritmusok segítségével radikálisan csökkenthető a szükséges emberi munkaerő-ráfordítás. A legfontosabb alkalmazási területek az információ kinyerés üzleti hírekből, biológiai publikációkból, orvosi jelentésekből és az internetről (például fórumokból, blogokból).

A kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet, a SzegedNE és egyéb korpuszok kifejlesztése lehetővé tették gépi tanuláson alapuló módszerek alkalmazását magyar nyelvű szövegek szintaktikai és szemantikai elemzésére. A csoport rendelkezik az elemzésekhez szükséges alaptechnológiákkal (szófaji elemző /POS-tagger/, szintaktikai elemző, tulajdonnév-felismerő és kategorizáló, jelentés-egyértelműsítő) mind magyar, mind angol nyelvre.

A Nyelvtechnológiai Csoportban zajló kutatásokhoz fiatal és tapasztalt kutatók, PhD- és MSc-hallgatók, programozók és nyelvészek is egyaránt hozzájárulnak tudásuk legjavával. A csoport a témában több mint 70 publikációval rendelkezik, az elmúlt években 16 pályázatban vett részt, valamint számos ipari alkalmazás megvalósításában is részt vállalt. A csoport tagjai írták a 2007 nyarán megjelent Szövegbányászat című könyv információkinyeréssel foglalkozó fejezetét is.

A csoport tagjainak szervezésében valósult meg:

Kapcsolat

Csoportvezető: CSIRIK János

Tel: +36-62-544126, +36-62-546396

Fax: +36 62 546737

Cím: Szeged, 6720, Tisza Lajos körút 103.

Munkatársak

CSIRIK János, egyetemi tanár, csoportvezető

FARKAS Richárd, szenior kutató

VINCZE Veronika, szenior kutató, nyelvész szakértő

BEREND Gábor, kutató

DOBÓ András, PhD-hallgató

NAGY István, PhD-hallgató

KOJEDZINSZKY Tamás, szoftverfejlesztő

NAGY Ágoston, szoftverfejlesztő

ZSIBRITA János, szoftverfejlesztő