Előismeret

Az SVM alapötletének szemléltetéséhez először bevezetjük a maximális margójú hipersík (maximal margin hyperplane) fogalmát és megmagyarázzuk egy ilyen hipersík választásának értelmét. Ezután bemutatjuk, hogyan tanítható a lineáris SVM arra, hogy kifejezetten ezt a fajta hipersíkot keresse lineárisan szeparálható adatokban. Annak megmutatásával zárunk, hogy hogyan terjeszhető ki az SVM módszertan nemlineárisan szeparálható adatokra.

Az 5.21. ábrán egy olyan adathalmaz ábrázolása látható, amely két különböző osztályba tartozó eseteket tartalmaz (az osztályokat négyzetek és körök reprezentálják). Az adathalmaz lineárisan szeparálható, azaz találhatunk olyan hipersíkot, amelynek egyik oldalán van az összes négyzet, a másik oldalán pedig az összes kör. Mint azonban az ábrán is látható, végtelen sok ilyen hipersík lehetséges. Noha ezek a tanulóhalmazon mért hibája nulla, nincs garancia arra, hogy a hipersíkok egyformán jól fognak teljesíteni korábban még nem látott esetekre. Az osztályozó ki kell, hogy válassza a hipersíkok egyikét a döntési határ reprezentálásához annak alapján, hogy várhatólag milyen jól teljesítenek a teszteseteken.

Hogy tisztább képet kapjunk arról, hogy a hipersíkok különböző megválasztása milyen hatással van az általánosítási hibára, tekintsük az alábbi ábrán látható két döntési határt, -et és -t. Mindkét döntési határ szét tudja választani a tanulóeseteket a megfelelő osztályokra, félreosztályozási hiba elkövetése nélkül. Mindegyik döntési határhoz tartozik két hipersík, amelyeket és jelöl. -et úgy kapjuk meg, hogy addig tolunk el a döntési határtól egy vele párhuzamos hipersíkot, amíg az nem érinti a legközelebbi négyzetet, míg -t úgy kapjuk, hogy a hipersíkot addig toljuk el, míg az nem érinti a legközelebbi kört. A két hipersík közötti távolságot nevezzük az osztályozó margójának. Vegyük észre az alábbi ábrán látható rajzról, hogy margója jelentősen nagyobb, mint -é. A példában bizonyul a tanulópéldányok maximális margójú hipersíkjának.

[forrás: Bevezetés az adatbányászatba]

Megjegyezzük, hogy az SVM algoritmus több kernellel használható. A kernel megválasztása problémafüggő.