Jelenlegi hely

ÚNKP Informatikai konferencia

Szegedi Tudományegyetem,
Természettudományi és Informatikai Kar, Informatikai Intézet

Időpont: 2022.06.10. 14:00-16:15

Helyszín: Online (Google Meet)
A Google Meet linket a lehetséges visszaélések miatt nem tesszük közzé, az érdeklődők megkaphatják itt: hpeter@inf.u-szeged.hu

Levezető elnök: Hegedűs Péter

Program


14.00-14.05 Hegedűs Péter: konferencia megnyitása

14.05-14.15 Márkus András: Köd alapú IoT workflow-k vizsgálata szimulációs környezetben  

A felhő és IoT rendszerek együttműködése már egy ideje kutatott terület, azonban az okoseszközök számának intenzív növekedése és az ezzel járó hatalmas mennyiségű adat és hálózati forgalom megfelelő kezelése köd erőforrásokkal támogatott felhő környezetben új kihívásokat teremtett. IoT workflow-szerű alkalmazások esetében a hangsúly közvetlenül nem a nagy mennyiségű adat feldolgozási helyén, tárolásán és a feldolgozási sebességen van, hanem az előre meghatározott sorrendű lépések optimális végrehajtásán. Egy ilyen lépéssorozat általában virtuális gépeken futó számítási feladatok és IoT eszközökhöz futó kérésekből áll. Előadásomban bemutatom a terület kihívásait és az egységesített IoT workflow-t leíró sablont, amelyben különböző számítási és IoT feladatok definiálhatóak azok függőségeivel együtt és betölthető a DISSECT-CF-Fog köd szimulátorba tetszőleges IoT workflow-k szimulálására.

14.15-14.25 Pap Gergely: DNS-fehérje kötőhelyek osztályozására tanított hálózatok transzlációs robusztussága

Kutatásom során az új mély tanulási eszközök segítségével próbáltunk Témavezetőmmel biológiai adatokon vizsgálatokat végezni, hogy vagy a mesterséges intelligenciai modellek működéséről vagy pedig az adott DNS-fehérje kötődést leíró eseményekről új információkhoz jussunk. A neuronális hálózatok interpretálhatósága egy aktívan kutatott téma, a munkám során a transzkripciós faktorok osztályozásánál használt gyakori háló-architektúrákat használtam robusztusság vizsgálatára. Az ide kapcsolódó irodalom egyik népszerű elmélete szerint a mély tanuló modellek konvolúciós változatai a DNS-fehérje kapcsolatok kötőhelyeit transzláció-invariáns módon ismerik fel. Azaz, nem fontos, hogy az adott szekvenciában (nukleotid sorozatban) hol helyezkedik el a konzervált kötőmotívum, a hálózat ugyanúgy fel fogja ismerni. A leírt elméletet megvizsgálandó, két adatbázison és két ismert modellel folytattam méréseket úgy, hogy a kötőhely pozícióját módosítottam. A hálózatok rosszabb teljesítményt értek el ezeken az ellenséges példákon. Továbbgondolva az egyik modell felépítéséből (TBiNet – konvolúció és ’attention’ mechanizmus (Park, és mtsai., 2020)) következő jelentőségét ennek a megfigyelésnek, megpróbáltuk kijavítani, úgymond robusztussá tenni a hálózatokat a kötőhelyek\szekvenciák hosszanti eltolásával szemben. E célból az interpretálhatósághoz szorosan kapcsolódó robusztus modelltanítási módszerek közül az augmentációs tanítási eljárást alkalmaztam. Azok a modellek, amelyek a tanulásuk során ellenséges és módosítás nélküli példákat is láttak, kevésbé voltak érzékenyek a kiértékelés során az eltolással terhelt egyedekre. Kiegészítve a fenti kutatásom észrevételeit egyéb adatokkal és modellekkel, egy elfogadott publikácó készült a DNS-fehérje kötő gépi tanuló modellek robusztusságával kapcsolatban, ahol különböző eltolási módszereket vizsgáltunk mind a tanítás, mind a kiértékelés során.

14.25-14.35 Csuvik Viktor: Forráskód szintetizálás absztrakt reprezentációból

Programszintetizálás alatt azt a folyamatot értjük, amikor automatikusan készít forráskódot valamilyen gépi modell. A szakirodalomban megtalálható megközelítések alapján azt szűrhetjük le, hogy a programszintetizáló modell bemenete nagyon sokféle lehet kezdve a program specifikációtól, a kommenteken keresztül egészen más forráskód részletekig. Az automatikus programjavítás célja a szoftverhibák kijavítása emberi beavatkozás nélkül. A szoftverfejlesztés területén az automatikus programjavításnak egyre nagyobb figyelmet szentelnek, a szektor vezető vállalatai is előálltak a saját megoldásaikkal (ld. Facebook Getafix, SapFix, Sapienz). A kutatásban a célom az volt, hogy a programjavítás valamilyen absztrakt reprezentációból indoljon ki. A megközelítés az eredeti hibás program absztrakt szintaxisfájára alapul, vagyis ezen absztrakt reprezentációból kiindulva kezd hozzá a forráskód szintetizálásához. A tanuláshoz számos példa is kell, ehhez készült a FixJS nevű JavaScript adatbázis. Az előadásban bemutatásra kerül az újonnan elkészíttett adatbázis valamint a rajta futtatott programjavító eszköz.

14.35-14.45 Bíró Máté: Mobilis okoseszközökön végzett számítások modellezése köd szimulátorban

A köd számítás számos problémára adott hatékony megoldást azáltal, hogy a felhőt terhelő feladatok egy részét kiszervezte a felhasználói eszközökhöz közelebbi, jellemzően limitáltabb számítási egységekbe, amelyek a földrajzi és a hálózati topológiában elfoglalt helyük és elosztottságuk miatt magasabb szintű felhasználói élményt képesek biztosítani. A gyors és kiszámítható válaszidő garantálása azonban nem triviális feladat. Az eszközök mobilitásából adódóan a szolgáltatás minősége romolhat, így ennek kiküszöbölésére és optimalizálására jelentős erőforrásokat fordítanak a kutatók. A megfelelő minőség fenntartásának legelterjedtebb módja a köd csomópontok közötti szolgáltatás migrálás, melyről számos tanulmány található a szakirodalomban. Ugyanakkor a gyakori migrálás költséges és kontraproduktív lehet, továbbá előfordulhat hogy a felhasználó környezetében nincs megfelelő reszponzivitással rendelkező köd számítási egység. Kritikus esetekben a köd szolgáltatás kiterjesztése a megfelelő kapacitással rendelkező felhasználói eszközökre a köd számítás paradigmája szerint lehetséges feladat, azonban számottevő kutatási eredmények nincsenek ezen a területen. A TDK dolgozatom célja, ennek az újszerű irányzatnak a vizsgálata és mérése költséghatékony módon a DISSECT-CF-Fog szimulátor segítségével. Munkám során valós GPS adatokkal dolgoztam és egy proaktív szolgáltatás telepítési algoritmust fejlesztettem ki, módosított súlyozott Markov modell segítségével.

14.45-14.55 Gosztolya Gábor: Mélytanulás-alapú jellemzőkinyerés orvosi célú beszédfeldolgozásban

A nemverbális beszédfeldolgozás egyik fontos részterülete különféle szervi vagy mentális betegségek, tünetegyüttesek (pl. Alzheimer-kór, Parkinson-kór, Sclerosis Multiplex) felismerése, súlyosságának meghatározása az alany beszéde alapján. Ezen feladatok nehézségét (gépi tanulási szemszögből) elsősorban az adja, hogy a páciensek száma nagyon korlátozott, így az előálló adathalmazok mérete is kicsi. Emiatt a terület gépi tanulási szempontból két részfeladatra bomlik: a hangfelvételekből a megfelelő jellemzők kinyerésére, valamint az azokra támaszkodó gépi tanulási (osztályozási vagy regressziós) lépésre. Az előadásban bemutatok egy saját, mélytanulás-alapú jellemzőkinyerési eljárást, mely egy általános beszédkorpuszra lett tanítva (ennek előnye, hogy nagyméretű ilyen adatbázisok érhetőek el); valamint demonstrálom annak hatékonyságát.

14.55-15.05 Pflanzner Tamás: IoT-Felhő rendszerek skálázhatóságának és biztonságának vizsgálata

A Huawei becslése szerint 100 milliárd újabb IoT eszköz megjelenésére lehet számítani 2025-ig, melyek észrevétlenül olvadnak be és segítik mindennapjainkat. Az így keletkező hatalmas mennyiségű adat kezelésére kézenfekvő választás a felhők használata, jó skálázódási, megbízhatósági, valamint nagy adattárolási és számítási kapacitást nyújtó tulajdonságainak köszönhetően. Kutatásom célja, hogy megvizsgáljam és új módszerekkel elősegítsem az IoT rendszerek által generált nagymennyiségű adatok felhős gateway szolgáltatásokkal történő feldolgozását, tárolását és vizualizációját, valamint a biztonsággal kapcsolatos problémák megoldására a blokklánc technológia felhasználhatóságát kutassam.

15.05-15.15 Cserháti Réka: Többnyelvű szóreprezentációs modellek vizsgálata és fejlesztése

Napjainkban a korszerű természetesnyelv-feldolgozási technológiáknak elengedhetetlen részévé váltak a felhasznált szóreprezentációk. A kutatásom első felében többnyelvű vektoros szóreprezentációkat vizsgáltam. Különböző, egynyelvű modellek egymáshoz illesztésén alapuló technikákon teszteltem a körülmények hatását az eredményességre különböző módszerek esetén. A kutatás második felében újfajta, gráffal megvalósított szóreprezentációkat hoztam létre. Ezek a Fedőnevek társasjátékban kémfőnök ágensek alapjaként is felhasználásra alkalmasnak bizonyultak. Ebben az irányban sok további, a szóreprezentációkhoz kapcsolódó érdekes kérdés és kihívás felmerül.

15.15-15.25 Gera Imre: Mohó algoritmus egymásba ágyazott közösségi struktúra felderítésére

Sokszor keresünk különféle struktúrákat vagy mintákat hálózatokban, leggyakrabban klaszterek vagy közösségek formájában, amelyek valamely szempont szerint csoportosítják a hálózat csúcsait. Elsősorban páros gráfokban figyelték meg az ún. egymásba ágyazottságot (nestedness), ahol a csúcsok sorba rendezhetők úgy, hogy a sorrendben előrébb lévő csúcs szomszédsága részhalmaza a rá következő csúcs szomszédságának. Az egymásba ágyazottságot ugyan sokféleképpen megpróbálták már számszerűsíteni, a nem teljesen egymásba ágyazott gráfokon belül a csúcsok viszonyára vonatkozó szerkezet felderítésével kevés munka foglalkozott. Ebben az előadásban egy élcímkézésen alapú közösségkereső algoritmust mutatok be, amely képes felderíteni egy hálózat átfedő, egymásba ágyazott részgráfjait. Az algoritmus futási ideje (és ezáltal pontossága) finomhangolható, a teljesítményét és az eredményül kapott közösségszerkezeteket két, páros gráfokból álló adathalmazon is megvizsgálom.

15.25-15.35 Hervay Bence: Gráfelméleti algoritmusok és gépi tanulás játékelméleti alkalmazása

A legtöbb körökre osztott játék felfogható egy komplex, de matematikailag pontosan definiálható irányított gráfként, melyben a csúcsok bizonyos állásokat jelentenek, az irányított élek pedig egy lépést két ilyen állás között. Néhány csúcsra a játék szabályai közvetlenül meghatározzák, hogy nyerő, vesztő, vagy döntetlen állásnak számít (egy bizonyos játékos számára). Vannak ismert eljárások, melyekkel hatékonyan meghatározható az összes többi állásra is, hogy melyik kategóriába sorolható. Amikor viszont egy játékban felfoghatatlanul sok állás van, ezek a módszerek használhatatlanokká válnak és bizonyos egyszrűsítéseket kell bevezetnünk a kivitelezhetőség érdekében. Minél kevesebb részletet hagyunk ki a játék modelljéből, illetve a hátramaradt részleteket minél hatékonyabban használjuk fel, annál sikeresebb stratégiákat tudunk találni. Az elsőben segítségünkre szolgál a számítógépek által felkínált számítási kapacitás, a másodikban pedig a gépi tanulás különböző módszerei.
A sakk remek példa egy ilyen játékra: népszerű, intuitívan megérthető a legtöbb lépés és stratégia mögötti motiváció, bonyolult annyira, hogy rá legyünk szorulva az említett módszerekre, viszont tisztán látható, hogy melyik módszert milyen módokon alkalmazható benne. Éppen ezért én a kutatásom során egy sakkot minél optimálisabban játszó algoritmust fejlesztettem több különböző módszer felhasználásával. Az előadásom során a program fejlesztésének folyamatát, és a különböző komponensei mögött rejlő motivációt fogom bemutatni.

15.35-15.45 Zombori Dániel:  Neuronhálók verifikációjának numerikus védelme

A MIPVerify verifikáló algoritmus praktikus méretű neuronhálók verifikálására alkalmas módszer. MILP (Mixed Integer Linear Programming) problémákat generál, majd azok optimumát létező megoldókkal keresi meg. Korábbi kutatásunkban megmutattuk a módszer sebezhetőségét numerikus hibákra, speciális neuronhálókat készítve elérhető hogy a verifikáló ne találjon meg bizonyos ellenséges térrészeket. A verifikáló hibáját a lebegőpontos számítások során előforduló kerekítések okozzák, így az azok ellen való védekezés kiemelt fontosságú. Bemutatok egy új heurisztikát, ami a korábbi támadásokban felhasznált hálókat sikeresen jelöli meg ellenségesként, miközben a futási időt érdemben nem növeli.

15.45-15.55 Kicsi András: Új flexibilis módszerek a radiológiai nyelvi modellezésben

Korábbi kutatásaink során egy értelmező rendszert fejlesztettünk a szöveges radiológiai gerincleletekre. Módszerünk detektálta a szövegben lévő entitásokat (testrészek, elváltozások és tulajdonságok), azonosította őket, és megállapította szemantikai kapcsolataikat. Habár ezek nagy pontossággal működtek korábban is, a detektálás során használt Bi-LSTM-CRF megoldásunk, és a nyelvi elemzésen alapuló szabály-alapú módszereink is kis rugalmasságot engednek csak meg a megszokott tartalmi és formai szerkezetektől. Mindkét megoldás modernizálható azonban új technikák felhasználásával, jelen esetben a szövegfeldolgozásban napjainkban egyik vezető modellt, a BERT-et fel lehet használni mind az entitások pontosabb keresésére, mind szemantikai kapcsolataiknak egy rugalmasabb feltérképezésére.

15.55-16.05 Vidács László: Forráskód történet és (automatikus) hibajavítások elemzési módszereinek kutatása

A kutatás a forráskód történet feldolgozásával és a korábbi, emberi hibajavítások elemzésével segíti a történeti, tanulás alapú hibajavítási módszerek megértését és hatékonyságuk növelését. Az előadásban gépi tanulási megközelítéshez kapcsolódó elemzési módszereket illetve egy korábbi humán javításokra épülő adatbázist  mutatunk be, melyekkel a forráskód generálás általánosabb területét is érintjük.

16.05-16.15 Hegedűs Péter: Kódelemzésen és modern gépi tanuló algoritmusokon alapuló könnyűsúlyú és inkrementális sérülékenység detektálási és javítási módszerek kidolgozása

A szoftverek biztonsága napjaink egyik legkritikusabb témakörévé lépett elő, hiszen a mindennapokat teljesen átszövő programrendszerek apró biztonsági sérülékenységeinek kihasználása beláthatatlan károkat okozhat. Kutatásomban olyan kódelemzésen és mesterséges intelligencián alapuló módszereket vizsgálok, amelyek segíthetnek ezen sérülékenységek minél előbbi automatikus azonosításában. A módszerek megalkotásakor két gyakorlati szempontot vettem figyelembe, legyenek "könnyűsúlyuak", azaz alkalmazásuk legyen egyszerű és könnyen beilleszthető a fejlesztési folyamatokba, valamint lehetőség szerint legyenek inkrementálisak, azaz ne kelljen minden kódmódosítás után teljes újraelemzést csinálni, hanem csak a változtatott részeket vizsgáljuk. Ezek olyan szempontok, amelyek megkerülhetetlenek, ha gyakorlatban működő módszereket szeretnénk.
Előadásomban négy fontosabb eredményt foglalok össze a témában, az egyik hogy hogyan lehet a gépi tanuló algoritmusokat felhasználni már létező gyors, de pontatlan statikus sérülékenység elemző eszközök találatainak pontosítására, majd bemutatok egy teljesen gépi tanulásra épülő sorszintű Java sérülékenység elemző módszert. Harmadik eredményként bemutatom azt az adatgyűjtő módszert és a segítségével összeállított adathalmazt, mely megfelelő tanítóhalmazt nyújt kód változtatások klasszifikációjához, azaz inkrementális sérülékenység detekció megvalósításához. Végezetül felvázolom egy ASG transzformáción alapuló automatikus sérülékenység detektáló és javító eszköz működését, amelyet nemzetközi partnerekkel közösen fejlesztünk.