ENGLISH
 

Kutatás

Többszavas kifejezések Bizonytalanság és tagadás felismerése Morfológiai és szintaktikai elemzők Korpuszépítés Ontológiák

Többszavas kifejezések

A többszavas kifejezések olyan lexikai egységek, melyek több szövegszóból állnak, azonban szintaktikai, szemantikai, pragmatikai vagy statisztikai szempontból sajátos viselkedést mutatnak. Számítógépes nyelvészeti szempontból kezelésük nem problémamentes, hiszen egyrészt fel kell ismernie a rendszernek, hogy esetükben egy lexikai egységről van szó (azaz nem két vagy több különálló szó kapcsolatáról), ezért célszerű őket egységként tárolni a lexikonban, másrészt pedig a rájuk jellemző speciális viselkedési szabályokat is kódolni kell a rendszerben.

Kapcsolódó publikációk

Bizonytalanság és tagadás felismerése

A bizonytalan és/vagy tagadott szövegrészek megkülönböztetése a tényeket tartalmazó szövegrészektől elengedhetetlen az információkinyerésben és -visszakeresésben. A legtöbb esetben a felhasználónak tényszerű információra van szüksége, így a bizonytalan / tagadott szövegrészek különleges kezelést igényelnek: alkalmazástól függően a rendszer vagy kiszűri az ilyen szövegrészeket, vagy pedig a tényektől elkülönítve adja őket vissza a felhasználónak (aki később eldöntheti, hogy szüksége van-e ezekre).

Kapcsolódó publikációk

Morfológiai és szintaktikai elemzők

A természetes nyelvű szövegek magasabb szintű számítógépes feldolgozásának és mélyebb elemzésének előfeltétele egy alapvető elemző eszköztár, mely a szövegek szegmentálásától kezdve a morfológiai és szintaktikai elemzést és egyértelműsítést is végrehajtja. A rendelkezésre álló eszközök egységesítése érdekében harmonizáltuk az MSD és KR kódrendszereket, és az új kódrendszerre épülő morfológiai elemzőt integráltuk a magyarlanc nevű programcsomagunkba, melybe integráltuk az általunk fejlesztett magyar dependenciaelemzőt is.

Kapcsolódó publikációk

Korpuszépítés

A nyelvtechnológiai problémákra születő algoritmusok fejlesztéséhez és kiértékeléséhez szükséges egy, az adott célnak megfelelő, kézzel annotált adatbázis (korpusz). A korpuszok építése tehát elengedhetetlen része a különféle nyelvtechnológiai alkalmazások létrejöttének.

Néhány korpusz, melynek építésében részt vállaltam:

Kapcsolódó publikációk

Ontológiák

Az ontológiák jellemzően nagyméretű hierarchikus adatbázisok, melyekben az egyes szavak és a köztük levő kapcsolatok tárolódnak. Az ontológiák nagymértékben segíthetik a különféle nyelvtechnológiai alkalmazásokat: például információkinyerés és -visszakeresés esetén jól lehet hasznosítani a hipernímia-hiponímia viszonyokat.

Ontológiák, melyek építésében részt vettem:

  • Magyar WordNet
  • HuWN gazdasági szakontológia
  • TaXWN jogi szakontológia

Kapcsolódó publikációk

  • Vincze, Veronika; Almási, Attila 2014: Non-Lexicalized Concepts in Wordnets: A Case Study of English and Hungarian. In: Proceedings of the 7th International Global WordNet Conference, pp. 118-126.
  • Vincze, Veronika; Almási, Attila; Csirik, János 2012: Multiword Verbs in WordNets. In: Proceedings of the 6th International Global WordNet Conference, pp. 377-381.
  • Alexin, Zoltán; Csirik, János; Almási, Attila; Vincze, Veronika 2010: Domain Specific Wordnet on Customs Law. In: Proceedings of the Fifth Global WordNet Conference, GWC2010, January 31-February 4 2010, Mumbai, India, pp. 234-239.
  • Vincze, Veronika; Almási, Attila; Szauter, Dóra 2008: Comparing WordNet Relations to Lexical Functions. In: Tanács, Attila; Csendes, Dóra; Vincze, Veronika; Fellbaum, Christiane; Vossen, Piek (eds.): Proceedings of the Fourth Global WordNet Conference. GWC 2008. Szeged, University of Szeged, Department of Informatics, pp. 462-473.
  • Vincze, Veronika; Szarvas, György; Csirik, János 2008: Why are wordnets important? In: Cepisca, Costin; Kouzaev, Guennadi A.; Mastorakis, Nikos M. (eds.): New Aspects on Computing Research. Proceedings of the 2nd European Computing Conference (ECC'08), WSEAS Press, pp. 316-322.