Klaszterezés (diajegyzettel Balogh Tamástól!)
MaxEnt, HMM, MEMM illetve CRF
Írásbeli vizsga. 90 perc áll rendelkezésre két téma "mélyebb" kifejtésére. A témák alapját az előadásfóliák képzik.
A nagyZH eredmények fent vannak coospacen és infosheeten.
A pót- és javító nagyZH egy időpontban csütörtökön 9:00-9:50-ig az IR 218. teremben lesz!
A ZHt minden csoport május 8-án 14:00-14:45-ig írja az IR 217. teremben (előadás helye és időpontja).
Pótolni igazolással lehet a szorgalmi időszak utolsó hetében. Aki pótolni akar e-mailben jelezze ezt nekem május 10-ig!
ZH témakörei:
Bayes döntéselmélet
Maximum Likelihood Becslés
Osztályozók:
Naive Bayes
kNN
Parzen-ablak
C.45
perceptron
Klaszterezők:
k-közép
hierarchikus
DBSCAN
Bayes háló tanulása (EM)
Rejtett Markov Mezők
Ajánló rendszerek
A feladat gépi tanulási módszerek felhasználásával olyan szoftver kidolgozása ami termékekhez kapcsolódó hozzászólásokatról eldönti, hogy azok pozitív vagy negatív véleményt fejeznek-e ki. A tanító adatbázis (letölthető innen) 3000-3000 hozzászólást tartalmaz DVD és háztartási eszköz témakörökben. Formátuma:
DOCID \t TÉMAKÖR \t POS/NEG \t szöveg
A teszt adatbázis a BIRO rendszeren keresztül kerül kiosztásra és minden hallgatónak más dokumentumokat fog tartamazni. Ennek formátuma megegyezik a tanító adatbázisével (POS/NEG helyett ? szerepel). A BIROra csak a predikált címkéket kell feltölteni, az alábbi formátumban:
DOCID \t POS/NEG
A predikciókat bármilyen gépi tanulási módszerrel, tetszőleges programcsomag felhasználásával kialakíthatod! A tanulás órákig is eltarthat...
Kiértékelési metrikaként a helyesen osztályozott dokumentumok arányát fogjuk használni (accuracy).
március 12. | Tanító adatbázis, kiértékelési metrika, segédanyagok elérhetővé vállnak. |
március 26. | Megnyílik a lehetőség a megoldások beadására a BÍRÓ-ban. Mindenkinek saját teszt adatbázisa lesz. A teljesítés egy baseline algoritmus legyőzése esetén van meg. |
április 29. | Eddig a napig (beleértve ezt a napot) produkálni kell egy elfogadható verziót. Azaz ha eddig nem sikerült elfogadható verziót produkálni, ezután nincs több lehetőség, és a projekt sikertelen. |
április 30. | A második forduló kezdete, amelynek során korlátlan számú feltöltés áll rendelkezésre. Figyelem, új feladat lesz a BÍRÓ-ban. Mindenkinek ugyanaz a teszt adatbázis. Rangsor kerül kialakításra ami folyamatosan frissül. |
május 18. | Utolsó lehetőség a megoldás feltöltésére akkor, ha valaki még versenyben van (azaz időben volt elfogadható verzió). A végső rangsor ezután alakul ki. |
Az alábbi eszközökkel (sok más mellett) megoldható a probléma:
Weka lásd: inputfile mintának a weka disztribúció data/ReutersCorn-train.arff ill. StringToWordVector
R lásd: TM package
Mallet lásd: Dokumentum osztályozás