AZ MTBA MAGYAR TELEFONBESZÉD-ADATBÁZIS KÉZI FELDOLGOZÁSÁNAK TAPASZTALATAI

Tóth László, Kocsor András

Az MTBA magyar telefonbeszéd-adatbázis olyan nagyméretű, telefonos beszédkorpusz, amely a magyar nyelvű fonetikai, beszédtechnológiai kutatások és fejlesztések támogatására készült. Az adatbázis 500 adatközlő hangfelvételeit tartalmazza, amelynek jelentős részét, beszélőnként 12 mondatot és 4 szót fonetikai szinten annotáltunk és szegmentáltunk. A feldolgozás során számtalan érdekes fonetikai és fonológiai jelenséggel találkoztunk, ami annak köszönhető, hogy a mondatok összeállításában a hangkapcsolatokban való gazdagságra törekedtünk. Jelen cikkben a fonetikai szintű szegmentálás nehézségeiről, tapasztalatairól és érdekességeiről számolunk be.