DrFarkasRichárd
egyetemi tanársegéd
SzegediTudományegyetem
INFORMATIKAI TANSZÉKCSOPORT
email: rfarkas AT inf.u-szeged.hu
szoba: IR fsz. MestInt Kutatócsoport 45.
NyelvtechnológiaAzÉlettudományokban
Az élettudományok terén a világban felhalmozott tudás jelentős része szöveges dokumentumokban (publikációk, szabdalmak, orvosi zárójelentések stb.) található, amelyet manuálisan átlátni képtelenség. Kutatócsoportunk célja ezeknek a szövegekben rejlő információk automatikus kinyerése és feldolgozása:
OrvosiKórlapokAnonimizálása
Az orvosi dokumentumok adatbányászati célú felhasználásához (statisztikák, következtetések levonásához) elengedhetetlen az abban szereplő személyes adatok védelmének biztosítása. Ezért mielőtt - valamilyen körben - publikussá válik egy orvosi adatbázis az abban előforduló személyek neveit (orvos, páciens), telefonszámát, lakhelyét, a korház nevét, azonosítókat stb. beazonosíthatatlanná kell tenni. Ezeknek az entitásoknak a szövegben történő felfedezését és egy véletlenszerűen generált helyettesítővel való felcserélését nevezzük anonimizálásnak. A dokumentumok ilyen jellegű feldolgozása történhet automatikus módon, jelenlegi rendszerünk 99,75%-os pontossággal működik angol nyelvű szövegeken. A feladatra kiírt nyílt nemzetközi versenyen (i2b2) kutatócsoportunk által készített - gépi tanulási technikákon alapuló - modell igen jó eredményeket ért el. [pdf]
AutomatikusBNOKódolás
Statisztikai és utófinanszírozási célokra a világ legtöbb országában megkövetelik, hogy az orvosi zárójelentésekben szereplő tűneteket, betegségeket és elvégzett kezeléseket megjelöljék/kódolják. A Betegségek Nemzetközi Osztályozása (BNO) egy kódtáblázat amelyet Magyarországon is használ az OEP. Gazdaságossági és kutatási szempontból egyaránt érdekes kérdés, hogy ez a kódolás elvégezhető-e automatikus módon az orvosok által leírt megjegyzések alapján. Kutatócsoportunk bebizonyította, hogy az emberi egyetértést elérő automatikus kódolórendszer építhető. Rendszerünk a BNO kódolásra kiírt nyílt nemzetközi versenyt (CMC) megnyerte. [demo] [pdf]
BiológiaiInformációKinyerés
A biológiai publikációkban és szabadalmakban a keresett információ valamely fehérjéhez vagy génhez kapcsolodók. Az szövegbányászat első feladata a szövegben előforduló fehérje és génnevek azonosítása. Azonban egy gént több különböző néven is említhetnek kutatók, sőt egy névvel több génre is hivatkozhatnak. Ez utóbbi feldatra (Gene Name Disambiguation) a társszerzőségi gráfon értelmezett egyszerű heurisztika felhasználásával adtam egy 98%-os megoldást. [pdf]
Kutatócsoportunk ezen felül a biológiai szövegbányászat számos részproblémájával foglalkozik:
- Spekulációban ill. tagadásban lévő szövegegységek detektálása
- Numerikus értékek kinyerése és normalizációja
- Fehérje interakciók azonosítása

Kezdőlap
BioMed