A kurzus célja megismertetni a hallgatókkal a számítógépes nyelvészet (másnéven természetes nyelvi feldolgozás) alapproblémáit és alkalmazási területeit.
Az egyes alkalmazások feldolgozásakor bemutatásra kerülnek a legfontosabb megoldási irányvonalak és legfrissebb eredmények is.
Előadás fóliák
Bevezetés
Korpuszok, szegmentálás és szófaji elemzés
Gépi tanulás
Tulajdonnév felismerés
Szintaktikai elemzés
Szemantika
Dokumentum klasszifikáció
Információ visszakeresés
Információ kinyerés
Gépi fordítás
Kivonatolás, Kérdés megválaszolás, dialógus rendszerek
Linkek
Az SzTE Számítógépes nyelvészeti csoportja
Kötelező program
A kurzus teljesítésének feltétele egy egyszerű nyelvtechnológiai alkalmazás elkészítése egyénileg.
Az alábbi lista ajánlás ilyen témákra, más témákkal is lehet jelentkezni.
- Szöveges tartalmak letöltése webről és tisztítása. Például egy fórum crawlolása és HTML tagektől tisztítása.
- Tulajdonnevek együttemlítési infomrációk gyűjtése szövegekből. A feladat megismerkedni egy tulajdonnév-felismerő modullal:
- Töltsd le a magyar tulajdonnév-felismerőt [innen]
- Vizsgáld meg, hogy milyen a teljesítménye egy etalon korpuszon [business/criminal]
- Válassz egy szöveghalmazt (egy könyvtár a 3+1+5+1+3-ól) és futtasd le rá a tulajdonnév kinyerőt [innen]
- Keress legalább 3 hibát a kimenetben, próbáld megindokolni, hogy mi okozhatja a hibát (a rendszer azért meg azért gondolhatta...)
- Csinálj egy nagyon egyszerű együtt-előfordulási statisztikát (egy grafikon mondjuk Excelben), például milyen más személyekkel említik gyakran együtt Barack Obamat (nem muszáj személy-személy, bármi lehet).
- Az eredményeket (teljesítmény, hibák és grafikon) szedd össze egy dokumentumba.
- Kifejezések (jelzős szerkezetek stb.) együttemlítési infomrációinak gyűjtése mondatokból.
- Kollokációk gyűjtése.
- Kísérletezés egy dokumentum osztályozási feladattal:
- Újsághírek téma szerinti besorolása
- E-mailek folderbe sorolása
- Beteg dohányzási szokásai
- Véleménydetekció (pozitív/negatív polaritás) az amazon.com-on
- Információ kinyerés táblázatokból (például önéletrajzok).
- Jelentés-egyértelműsítés magyarra
- Eredmények vizualizációja
- Együttelőfordulási gráfok
- Címkefelhők
- Mélyebb "belenyúlás"
- Jellemzőtér bővítés tulajdonnev felismerésnél (pl. mondat igéje)
- Mondatra és tokenre bontási kísérletek
- Különböző tanuló algoritmusok összehasonlítása dokumentum osztályozásnál