Jelenlegi hely

Intézeti szeminárium

Félév:

2017/18 I. félév

Helyszín:

Árpád tér 2. II. em. 220. sz.

Dátum:

2017-10-17

Időpont:

14:00-15:00

Előadó:

Tóth László

Cím:

Zajtűrő beszédfelismerés tanítóadatok kiegészítésével illetve kiejtésével

Absztrakt:

A beszédfelismerés egyik nagy problémája a modellek környezeti zajokkal
szembeni zajtűrő képességének növelése. A háttérzaj annyira sokféle lehet,
hogy pusztán a különféle zajos környezetekből való mintagyűjtéssel nem
lehet minden eshetőségre felkészíteni a rendszert. Előadásunkban
ezért abból a feltételezésből fogunk kiindulni, hogy csak tiszta
tanítóadatok állnak rendelkezésünkre, tesztelni viszont zajos környezetben
fogunk.
A mély neuronhálók robosztusabbá tételére, azaz az általánosítóképességük
növelésére egy ismert módszer az ún. dropout ("kiejtés"). Ennek speciális
esete az ún. input dropout, amikor a bemeneti jellemzők egy részét
véletlenszerűen kitöröljük. Ez erősen analóg azzal, mint ha zajt adnánk az
adatokhoz, és ez az egyszerű módszer közismerten növeli a modell
robosztusságát. Egy másik lehetséges megközelítés az adatkiegészítés (data
augmentation), amikor mesterségesen kibővítjük a tanító adathalmazt,
például zajminták hozzáadásával. Eléggé nyilvánvaló a két technológia
rokonsága, hiszen a dropout megoldással is tulajdonképpen módosított
tanítómintákat képzünk.
Az általános célú input dropout módszer nem feltételez semmit a
jellemzőkről, teljesen véletlenszerűen választja ki a törölt
komponenseket. Beszédfelismerés esetén viszont vannak a priori ismereteink
az egyes jellemzők fontosságáról. Az előadásban két olyan megoldást
mutatunk be, amellyel az input dropout módszert próbáltuk meg finomítani
speciálisan beszédfelismerés esetére, kihasználva a beszédjellemzőkre
vonatkozó a priori tudásunkat.

Főmenü

Jelenlegi hely

Intézeti szeminárium

Kutatás

Hírek

Gyorslinkek

Főmenü

Keresés űrlap

Jelenlegi hely

Intézeti szeminárium

Kutatás

Hírek

Gyorslinkek