Orvosi „íródeák”. Latin szavak és szószerkezetek egy diktáló programban

Sejtes Györgyi, Kocsor András, Zsigri Gyula, Paczolay Dénes

Az MTA-SZTE Mesterséges Intelligencia Kutatócsoport és a BMGE Távközlési és Médiainformatikai Tanszéke az IKTA-00056/2003 számon regisztrált projekt keretében orvosi diktálóprogram készítését tűzte ki céljául. A pajzsmirigy scintigráfiás leletek diktálására alkalmas programkomponens elkészítését a Mesterséges Intelligencia Kutatócsoport végzi, amelyhez a nyelvi struktúrák kinyerése céljából egy 9367 leletet tartalmazó szövegkorpuszt használ. Az orvosi leletekben 95177 mondat fordul elő, amelybe jelentős mennyiségben ágyazódnak be latin szavak és szószerkezetek. Az élőszóbeli megnyilatkozások írott szöveggé alakítását megnehezíti, hogy az orvosi helyesírási szabályzat megmagyarosodott magyar szavak esetén a magyar helyesírás szerinti alakot írja elő, egyébként pedig az eredeti latinos alakot. Azok a szószerkezetek azonban, amelyek szórendjük alapján vagy egyéb okból nem tekinthetők magyar szószerkezetnek, teljes egészében latinosan írandók, akkor is, ha van bennük megmagyarosodott latin szó. Ennek három fő típusa a genitivusos birtokos szerkezet, a jelzett szó – jelző szórendű minőségjelzős szerkezet és az elöljárós kifejezést tartalmazó szerkezet. Ezeknek a kiszűréséhez egy általunk készített statisztikai programot használunk. Első lépésként a leletekben előforduló 584972 szóból kiszűrtük a latin szavakat (17,1%). Következő lépésként morfológiai elemző programunkkal keressük meg a három fő típushoz tartozó szerkezeteket, majd egy fonológiai átíró alkalmazásával adunk támpontot a kiejtéshez. Ez a projektum azon kívül, hogy megkönnyítheti az orvosok munkáját, hasznos lehet az orvosi nyelvhez hasonlóan idegen nyelvű beágyazásokkal élő kétnyelvű közösségek nyelvhasználatának a kutatásában is.