Jelenlegi hely

Intézeti szeminárium

Félév: 
2017/18 I. félév
Helyszín: 
Árpád tér 2. II. em. 220. sz.
Dátum: 
2017-10-17
Időpont: 
14:00-15:00
Előadó: 
Tóth László
Cím: 
Zajtűrő beszédfelismerés tanítóadatok kiegészítésével illetve kiejtésével
Absztrakt: 

A beszédfelismerés egyik nagy problémája a modellek környezeti zajokkal
szembeni zajtűrő képességének növelése. A háttérzaj annyira sokféle lehet,
hogy pusztán a különféle zajos környezetekből való mintagyűjtéssel nem
lehet minden eshetőségre felkészíteni a rendszert. Előadásunkban
ezért abból a feltételezésből fogunk kiindulni, hogy csak tiszta
tanítóadatok állnak rendelkezésünkre, tesztelni viszont zajos környezetben
fogunk.
A mély neuronhálók robosztusabbá tételére, azaz az általánosítóképességük
növelésére egy ismert módszer az ún. dropout ("kiejtés"). Ennek speciális
esete az ún. input dropout, amikor a bemeneti jellemzők egy részét
véletlenszerűen kitöröljük. Ez erősen analóg azzal, mint ha zajt adnánk az
adatokhoz, és ez az egyszerű módszer közismerten növeli a modell
robosztusságát. Egy másik lehetséges megközelítés az adatkiegészítés (data
augmentation), amikor mesterségesen kibővítjük a tanító adathalmazt,
például zajminták hozzáadásával. Eléggé nyilvánvaló a két technológia
rokonsága, hiszen a dropout megoldással is tulajdonképpen módosított
tanítómintákat képzünk.
Az általános célú input dropout módszer nem feltételez semmit a
jellemzőkről, teljesen véletlenszerűen választja ki a törölt
komponenseket. Beszédfelismerés esetén viszont vannak a priori ismereteink
az egyes jellemzők fontosságáról. Az előadásban két olyan megoldást
mutatunk be, amellyel az input dropout módszert próbáltuk meg finomítani
speciálisan beszédfelismerés esetére, kihasználva a beszédjellemzőkre
vonatkozó a priori tudásunkat.