Gépi tanulási módszerek

2012/13 tavasz

Előadás fóliák

Bevezetés, valszám retro

Bayes döntéselmélet

Nem paraméteres osztályozók

Fogalom tanulás, döntési fák

Lineáris gépek

Neuronhálók

Klaszterezés (diajegyzettel Balogh Tamástól!)

Generatív modellezés

MaxEnt, HMM, MEMM illetve CRF

Ajánló rendszerek

Rangsorolás

Megerősítéses tanulás

Kollokvíum

Írásbeli vizsga. 90 perc áll rendelkezésre két téma "mélyebb" kifejtésére. A témák alapját az előadásfóliák képzik.

Gyakorlati ZH

A nagyZH eredmények fent vannak coospacen és infosheeten.

A pót- és javító nagyZH egy időpontban csütörtökön 9:00-9:50-ig az IR 218. teremben lesz!

A ZHt minden csoport május 8-án 14:00-14:45-ig írja az IR 217. teremben (előadás helye és időpontja).

Pótolni igazolással lehet a szorgalmi időszak utolsó hetében. Aki pótolni akar e-mailben jelezze ezt nekem május 10-ig!

ZH témakörei:

Bayes döntéselmélet
Maximum Likelihood Becslés
Osztályozók:
   Naive Bayes
   kNN
   Parzen-ablak
   C.45
   perceptron
Klaszterezők:
   k-közép
   hierarchikus
   DBSCAN
Bayes háló tanulása (EM)
Rejtett Markov Mezők
Ajánló rendszerek

Projekt feladat

A feladat gépi tanulási módszerek felhasználásával olyan szoftver kidolgozása ami termékekhez kapcsolódó hozzászólásokatról eldönti, hogy azok pozitív vagy negatív véleményt fejeznek-e ki. A tanító adatbázis (letölthető innen) 3000-3000 hozzászólást tartalmaz DVD és háztartási eszköz témakörökben. Formátuma:

DOCID \t TÉMAKÖR \t POS/NEG \t szöveg

A teszt adatbázis a BIRO rendszeren keresztül kerül kiosztásra és minden hallgatónak más dokumentumokat fog tartamazni. Ennek formátuma megegyezik a tanító adatbázisével (POS/NEG helyett ? szerepel). A BIROra csak a predikált címkéket kell feltölteni, az alábbi formátumban:

DOCID \t POS/NEG

A predikciókat bármilyen gépi tanulási módszerrel, tetszőleges programcsomag felhasználásával kialakíthatod! A tanulás órákig is eltarthat...

Kiértékelési metrikaként a helyesen osztályozott dokumentumok arányát fogjuk használni (accuracy).

március 12. Tanító adatbázis, kiértékelési metrika, segédanyagok elérhetővé vállnak.
március 26. Megnyílik a lehetőség a megoldások beadására a BÍRÓ-ban. Mindenkinek saját teszt adatbázisa lesz. A teljesítés egy baseline algoritmus legyőzése esetén van meg.
április 29. Eddig a napig (beleértve ezt a napot) produkálni kell egy elfogadható verziót. Azaz ha eddig nem sikerült elfogadható verziót produkálni, ezután nincs több lehetőség, és a projekt sikertelen.
április 30. A második forduló kezdete, amelynek során korlátlan számú feltöltés áll rendelkezésre. Figyelem, új feladat lesz a BÍRÓ-ban. Mindenkinek ugyanaz a teszt adatbázis. Rangsor kerül kialakításra ami folyamatosan frissül.
május 18. Utolsó lehetőség a megoldás feltöltésére akkor, ha valaki még versenyben van (azaz időben volt elfogadható verzió). A végső rangsor ezután alakul ki.

Tippek a projekt feladathoz

Az alábbi eszközökkel (sok más mellett) megoldható a probléma:

Weka lásd: inputfile mintának a weka disztribúció data/ReutersCorn-train.arff ill. StringToWordVector

R lásd: TM package

Mallet lásd: Dokumentum osztályozás

Mahout

Linkek

Stanford gépi tanulási online kurzusa

Az SzTE Nyelvtechnológiai csoportja