A Nyelvtechnológiai Csoportnál 1998 óta folynak nyelvtechnológiai (elsősorban információkinyerési) kutatások, a csoport mára a magyar számítógépes nyelvészet egyik meghatározó műhelyévé vált. Munkánk folyamán magyar és angol nyelvű szövegek feldolgozásával foglalkozunk. Általános célkitűzésünk, hogy az egyes kifejlesztett technológiák nyelvfüggetlenek vagy legalább könnyen adaptálhatóak legyenek.
Az információkinyerés célja, hogy folyó szövegekből automatikus módon jussunk hasznos információkhoz, összefüggésekhez. Igazi haszna akkor mutatkozhat meg, amikor nagy mennyiségű szöveget kell végigolvasni a szükséges információ megtalálásához. Ekkor - megfelelő méretű tanító adatbázis esetén - a gépi tanulóalgoritmusok segítségével radikálisan csökkenthető a szükséges emberi munkaerő-ráfordítás. A legfontosabb alkalmazási területek az információ kinyerés üzleti hírekből, biológiai publikációkból, orvosi jelentésekből és az internetről (például fórumokból, blogokból).
A kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet, a SzegedNE és egyéb korpuszok kifejlesztése lehetővé tették gépi tanuláson alapuló módszerek alkalmazását magyar nyelvű szövegek szintaktikai és szemantikai elemzésére. A csoport rendelkezik az elemzésekhez szükséges alaptechnológiákkal (szófaji elemző /POS-tagger/, szintaktikai elemző, tulajdonnév-felismerő és kategorizáló, jelentés-egyértelműsítő) mind magyar, mind angol nyelvre.
A Nyelvtechnológiai Csoportban zajló kutatásokhoz fiatal és tapasztalt kutatók, PhD- és MSc-hallgatók, programozók és nyelvészek is egyaránt hozzájárulnak tudásuk legjavával. A csoport a témában több mint 70 publikációval rendelkezik, az elmúlt években 16 pályázatban vett részt, valamint számos ipari alkalmazás megvalósításában is részt vállalt. A csoport tagjai írták a 2007 nyarán megjelent Szövegbányászat című könyv információkinyeréssel foglalkozó fejezetét is.
A csoport tagjainak szervezésében valósult meg:
Csoportvezető: CSIRIK János
Tel: +36-62-544126, +36-62-546396
Fax: +36 62 546737
Cím: Szeged, 6720, Tisza Lajos körút 103.
CSIRIK János, egyetemi tanár, csoportvezető
FARKAS Richárd, szenior kutató
VINCZE Veronika, szenior kutató, nyelvész szakértő
BEREND Gábor, kutató
DOBÓ András, PhD-hallgató
NAGY István, PhD-hallgató
KOJEDZINSZKY Tamás, szoftverfejlesztő
NAGY Ágoston, szoftverfejlesztő
ZSIBRITA János, szoftverfejlesztő