Jelenlegi hely
Intézeti szeminárium
A beszédfelismerés egyik nagy problémája a modellek környezeti zajokkal
szembeni zajtűrő képességének növelése. A háttérzaj annyira sokféle lehet,
hogy pusztán a különféle zajos környezetekből való mintagyűjtéssel nem
lehet minden eshetőségre felkészíteni a rendszert. Előadásunkban
ezért abból a feltételezésből fogunk kiindulni, hogy csak tiszta
tanítóadatok állnak rendelkezésünkre, tesztelni viszont zajos környezetben
fogunk.
A mély neuronhálók robosztusabbá tételére, azaz az általánosítóképességük
növelésére egy ismert módszer az ún. dropout ("kiejtés"). Ennek speciális
esete az ún. input dropout, amikor a bemeneti jellemzők egy részét
véletlenszerűen kitöröljük. Ez erősen analóg azzal, mint ha zajt adnánk az
adatokhoz, és ez az egyszerű módszer közismerten növeli a modell
robosztusságát. Egy másik lehetséges megközelítés az adatkiegészítés (data
augmentation), amikor mesterségesen kibővítjük a tanító adathalmazt,
például zajminták hozzáadásával. Eléggé nyilvánvaló a két technológia
rokonsága, hiszen a dropout megoldással is tulajdonképpen módosított
tanítómintákat képzünk.
Az általános célú input dropout módszer nem feltételez semmit a
jellemzőkről, teljesen véletlenszerűen választja ki a törölt
komponenseket. Beszédfelismerés esetén viszont vannak a priori ismereteink
az egyes jellemzők fontosságáról. Az előadásban két olyan megoldást
mutatunk be, amellyel az input dropout módszert próbáltuk meg finomítani
speciálisan beszédfelismerés esetére, kihasználva a beszédjellemzőkre
vonatkozó a priori tudásunkat.