|
AZ MTBA MAGYAR TELEFONBESZÉD-ADATBÁZIS
KÉZI FELDOLGOZÁSÁNAK TAPASZTALATAI
Tóth László, Kocsor András
Az MTBA magyar telefonbeszéd-adatbázis olyan nagyméretű,
telefonos beszédkorpusz, amely a magyar nyelvű fonetikai,
beszédtechnológiai kutatások és fejlesztések
támogatására készült. Az adatbázis
500 adatközlő hangfelvételeit tartalmazza, amelynek jelentős
részét, beszélőnként 12 mondatot és
4 szót fonetikai szinten annotáltunk és szegmentáltunk.
A feldolgozás során számtalan érdekes fonetikai
és fonológiai jelenséggel találkoztunk, ami
annak köszönhető, hogy a mondatok összeállításában
a hangkapcsolatokban való gazdagságra törekedtünk.
Jelen cikkben a fonetikai szintű szegmentálás nehézségeiről,
tapasztalatairól és érdekességeiről számolunk
be.
|
|