DrFarkasRichárd
egyetemi tanársegéd
SzegediTudományegyetem
INFORMATIKAI TANSZÉKCSOPORT
email: rfarkas AT inf.u-szeged.hu
szoba: IR fsz. MestInt Kutatócsoport 45.
» Számítógépes nyelvészeti alkalmazások speckoll.
» Mesterséges Intelligencia I. gyakorlat
» Mesterséges Intelligencia előadás anyagok
- "Játékok" MestInt. I. előadás, 2010
- "Nyelvtechnológiai alkalmazások" MestInt. II. előadás, 2009
- "Bizonytalanság" MestInt. I. előadás, 2009
- "Bayes Hálók" MestInt. I. előadás, 2008
Diplomamunka/TDK témák:
Gépi tanulási technikák a szövegbáynászatban
A szövegbányászat célja, hogy az emberek által írt folyó szöveges adattengerből (weblapok, blogok, céges belső jelentések) automatikusan kiemelje a lényeges információt. Ehhez speciális gépi tanulási (mesterséges intelligencia) megoldásokra van szükség, mint például
- Tudásgyűjtés közösségi portálokról (pl. Wikipedia),
- Humán-gép interakció erősítése,
- Szekvenciális tanulási módszerek.
Webbányászat
Az Interneten elérhető adat (aminek 80% folyó szöveg) exponenciálisan növekszik, azonban a jelenlegi keresőrendszerek nem minden esetben képesek a szükséges információ összegyűjtésére. A diplomamunka témája lehet egy bizonyos erősen leszűkített keresésnek a megvalósítása és tesztelése, ami lehet például:
- Üzleti információszerzés, pl. "Mi a szegedi autókereskedések címe és telefonszáma?",
- Trendelemzés, pl. "A számítástechnika területén milyen új termékekről lehet hallani?",
- Vélemény analízis, pl. "Milyen véleménnyel vannak a vásárlók az XY termékről?",
- Dokumentumok címkézése.
vagy a webbányászathoz szükséges alaptechnikák módszeres körüljárása, mint például:
- Szövegrészletek nyelvének azonosítása
- WebSpam detektálás
- Wrapper induction módszerek
BiológiaiEseményekazonosításatermészetesnyelvűszövegekben
Tudományos cikkekben leírt összefüggések, kísérletek (prior-art) ismerete elengedhetetlen a biológus kutatók munkájához. A közlemények nagy száma szükségessé teszi ennek (fél-)automatizálását. A feladat számítógépes nyelvészeti, gépi tanulási megközelítésben a terület egy-egy részproblémájának körüljárása. A feladatokhoz általában rendelkezésre állnak előre feldolgozott tudományos szövegekből álló (tanító) adatbázisok, melyekben a szükséges információt biológusok bejelölték, így azok biológiai ismereteket nem igényelnek. Lehetséges részfeladatok:
- Gének, fehérjék, egyéb biológiai entitások azonosítása
- Génnév normalizáció
- Gén- és fehérje interakciók detektálása
- Tagadásban, spekulációban lévő mondatrészek azonosítása
- Biológiai protokollok felismerése

Kezdőlap
Hallgatóknak