Előismeret
A gépi tanulás manapság igencsak összekapcsolódik a képfeldolgozással. A képekből kinyert jellemzőket gépi tanulás útján kép- és alakfelismerésre is lehet használni.
A gépi tanulásnak sokféle változata van, egy-egy típusból is többféle algoritmus létezik. Ebben a leckében csak azt a célt tartjuk szem előtt, hogy ezeknek a módszeretnek az elvét megismertessük az olvasóval, az egyes algoritmusokról többet is olvashat az ezekkel foglalkozó szakirodalomban.
A gépi tanulás fő fázisra bontható:
- a tanítás (angolul training) során a vizsgált mintahalmaz egyedei ismert cimkével rendelkeznek és jellemzőteret a mintaegyedek alapján particionáljuk, vagyis egy modellt alkotunk.
- a kiértékelés során (angolul evaluation) során a teszt egyedeket elhelyezzük a jellemzőtérben és jellemzőtér-szegmens cimkéjével látjuk el, vagyis összevetjük a modellel és ez alapján kategorizáljuk, majd megvizsgáljuk, hogy a tesztelés során kapott cimke megegyezik-e a teszteset valódi cimkéjével.
A gépi tanulási módszereket háromféle csoportba sorolhatjuk:
- Felügyelt tanulás: a tanulópéldákhoz közvetlen információk is rendelkezésre állnak (pl. osztálycímkék)
- Felügyelet nélküli tanulás: a tanítópéldákban nincsenek közvetlen segéd információk, az algoritmus határozza meg az egyes csoportokat (ilyen például a klaszterezés, ahol nincsenek osztálycimkék, de a csoportok elkülöníthetők a jellemzőtérben.)
- Félig felügyelt tanulás: az adatok a fenti két eset kombinációjaként vannak jelen (pl. a fenti két típusú adatokat egyszerre tartalmazó adatbázissal rendelkez feladatok, mint amilyen az újságcikkel valamilyen szempont szerinti osztályozása).
Az osztályozási problémák, amelyekkel foglalkozni fogunk a felügyelt tanulás kategóriájába tartoznak.