Különféle szövetminták osztályozása
jellemző tulajdonságaik súlyozásával
Kertész-Farkas Attila, Kocsor
András
A biológia területén a számítógépek
elterjedésének köszönhetően, illetve a
számítási és a tároló kapacitás
növekedésével egyre komplexebb matematikai modellek
kifejlesztése és alkalmazása vált lehetővé.
Az alkalmazási területek között említhetjük
a filogenetikát, a protein homológiát, a rákos
szövetek elkülönítését az egészséges
szövetektől génexpressziós adataik alapján,
és például a proteinek osztályozását
aminosav sorrendjük szerint. Azokra a biológiai problémákra,
amelyek osztályozási feladatokra vezetnek, széleskörűen
alkalmazzák a Support Vektor Machine-t. Ez az eljárás
a különböző osztályokba eső pontok szeparációját
végzi kernel függvények segítségével,
amely voltaképpen az input vektorokon egy nemlineáris
transzformációt hajt végre. Ebben a publikációban
bemutatunk egy olyan módszert, amellyel a kerneles transzformáció
során az input vektorok komponenseit alkalmas módón
skálázhatjuk. Az osztályozás szempontjából
fontosabb komponensekhez nagyobb súlyokat, míg a kevésbé
jelentős komponensekhez kisebb súlyokat rendelhetünk.
A súlyozást tulajdonságkinyerő algoritmusok
és entrópia függvények alkalmazásával
végeztük. A módszert az UCI Repository biológiai
adatbázisain, továbbá leukémiai, illetve
egyéb rákos szövetek génexpressziós
adatait tartalmazó adatbázisokon teszteltük. Az elvégzett
összehasonlító tesztek alapján a bevezetett
súlyozási technikával sikerült jobb osztályozási
eredményeket elérni.