Különféle szövetminták osztályozása jellemző tulajdonságaik súlyozásával

  Kertész-Farkas Attila, Kocsor András

A biológia területén a számítógépek elterjedésének köszönhetően, illetve a számítási és a tároló kapacitás növekedésével egyre komplexebb matematikai modellek kifejlesztése és alkalmazása vált lehetővé. Az alkalmazási területek között említhetjük a filogenetikát, a protein homológiát, a rákos szövetek elkülönítését az egészséges szövetektől génexpressziós adataik alapján, és például a proteinek osztályozását aminosav sorrendjük szerint. Azokra a biológiai problémákra, amelyek osztályozási feladatokra vezetnek, széleskörűen alkalmazzák a Support Vektor Machine-t. Ez az eljárás a különböző osztályokba eső pontok szeparációját végzi kernel függvények segítségével, amely voltaképpen az input vektorokon egy nemlineáris transzformációt hajt végre. Ebben a publikációban bemutatunk egy olyan módszert, amellyel a kerneles transzformáció során az input vektorok komponenseit alkalmas módón skálázhatjuk. Az osztályozás szempontjából fontosabb komponensekhez nagyobb súlyokat, míg a kevésbé jelentős komponensekhez kisebb súlyokat rendelhetünk. A súlyozást tulajdonságkinyerő algoritmusok és entrópia függvények alkalmazásával végeztük. A módszert az UCI Repository biológiai adatbázisain, továbbá leukémiai, illetve egyéb rákos szövetek génexpressziós adatait tartalmazó adatbázisokon teszteltük. Az elvégzett összehasonlító tesztek alapján a bevezetett súlyozási technikával sikerült jobb osztályozási eredményeket elérni.