Orvosi „íródeák”.
Latin szavak és szószerkezetek egy diktáló
programban
Sejtes Györgyi,
Kocsor András, Zsigri Gyula, Paczolay Dénes
Az MTA-SZTE Mesterséges Intelligencia Kutatócsoport
és a BMGE Távközlési és Médiainformatikai
Tanszéke az IKTA-00056/2003 számon regisztrált
projekt keretében orvosi diktálóprogram készítését
tűzte ki céljául. A pajzsmirigy scintigráfiás
leletek diktálására alkalmas programkomponens elkészítését
a Mesterséges Intelligencia Kutatócsoport végzi,
amelyhez a nyelvi struktúrák kinyerése céljából
egy 9367 leletet tartalmazó szövegkorpuszt használ.
Az orvosi leletekben 95177 mondat fordul elő, amelybe
jelentős mennyiségben ágyazódnak be latin
szavak és szószerkezetek. Az élőszóbeli
megnyilatkozások írott szöveggé alakítását
megnehezíti, hogy az orvosi helyesírási szabályzat
megmagyarosodott magyar szavak esetén a magyar helyesírás
szerinti alakot írja elő, egyébként pedig
az eredeti latinos alakot. Azok a szószerkezetek azonban, amelyek
szórendjük alapján vagy egyéb okból
nem tekinthetők magyar szószerkezetnek, teljes egészében
latinosan írandók, akkor is, ha van bennük megmagyarosodott
latin szó. Ennek három fő típusa a genitivusos
birtokos szerkezet, a jelzett szó – jelző szórendű
minőségjelzős szerkezet és az elöljárós
kifejezést tartalmazó szerkezet. Ezeknek a kiszűréséhez
egy általunk készített statisztikai programot használunk.
Első lépésként a leletekben előforduló
584972 szóból kiszűrtük a latin szavakat (17,1%).
Következő lépésként morfológiai
elemző programunkkal keressük meg a három fő típushoz
tartozó szerkezeteket, majd egy fonológiai átíró
alkalmazásával adunk támpontot a kiejtéshez.
Ez a projektum azon kívül, hogy megkönnyítheti
az orvosok munkáját, hasznos lehet az orvosi nyelvhez
hasonlóan idegen nyelvű beágyazásokkal élő
kétnyelvű közösségek nyelvhasználatának
a kutatásában is.