A tudomány tudománya
Alprojekt vezető: Prof. Dr. Kampis György (ELTE)
Prof. Dr. Kampis György 1981-ben szerezte okleveles villamosmérnöki diplomáját a Budapesti Műszaki és Gazdaságtudományi Egyetemen, 1987-től a biológiai tudományok kandidátusa, 1988-ban egyetemi doktori címet szerzett az Eötvös Loránd Tudományegyetemen, ezt közvetően pedig 1995-ben a filozófiai tudományok doktora lett. Tagja az Amerikai Filozófiai Szövetségnek, a Eötvös Loránd Fizikai Társulatnak, a Magyar Alexander von Humboldt Társaságnak, a Magyar Biológiai Társaságnak és a Magyar Filozófiai Társaságnak. Kutatási területeit a számítástudomány, komplex rendszerek kutatása, hálózatkutatás, valamint a tudományfilozófia és kognitív tudomány kérdései jelölik ki. Prof. Dr. Kampis György több nemzetközi projekt vezetője is. Emelett több külföldi egytemen meghívott előadóként is öregbítette a magyar tudományfilozófia és kognitív tudomány hírnevét.
A tudományos innováció szerkezete átalakulóban van, konceptuális és infrastrukutális támogató eszközei dinamikusan változnak. A tudományos projektek előkészítésének kvalitatív és kvantitatív adat elemzésekkel való támogatása ebben új elem, mely korábban a rendelkezésre álló adatok és szélesen hozzáférhető platformok hiányában nem valósulthatott meg. Most a területen nemzetközi áttörés tapasztalható, az adatelemzés révén történő innovációgyorsítás érdekében módszer- és eszközfejlesztések kezdődnek, jelen javaslatunkkal ehhez a frontvonalhoz kapcsolódunk.
Az alprogram a FuturICT flagship pilot tervezetben szereplő “Innovation Accelerator” (IA) modul létrehozása érdekében folyó munkákhoz közvetlenül kötődik. Az IA célja a tudományos teljesítmény értékelésének új módszerein keresztül a szakértők egymásra találásának és együttműködésének elősegítése. Ez javaslatunkban két ágon is megjelenik, egyrészt új funkcionalitások fejlesztésére irányuló eredeti kutatómunkát kínálunk, másrészt magyar nyelvű adaptált funkciók megvalósítását. Utóbbira példa a magyar adatokkal dolgozó fejlett tudomány- és bibliometriai elemzés. Az egyik javaslattevő jelenleg a FuturICT IA előkészítő munkáiban vesz részt az Elsevier kiadó és az ETH (Zürich) együttműködésében.
Célunk olyan hazai környezetet teremteni, amely e fejlett technológiák kutatásában való részvételt tartósan biztosítja, a tervezett FuturICT flagship-pel való nemzetközi együttműködés fogadására alkalmas. Ennek részeként de egyben kiegészítésekánt is, olyan munkatársakból és infrastruktúrából (intézmény + eszköz + módszer + adat) álló háttér kidolgozását tervezzük, amely ütőképes pályázati csoportot jelenthet a jövő számára, EC Horizon 2020 vagy hazai TÁMOP – KMOP környezetben.
Aktuális kutatási trendek azonosítása, területek emergenciája, hirtelen előretörések (”bursts”) detektálása, tudományos kutatások impaktjának és támogatások megvalósulásának elemzése, a valós idejű, validált monitorozás és más alább vállalt feladatok adják az innovációgyorsító eszközök legfontosabb fejlesztés alatt álló módszereit.
Célkitűzés
Tudományos és innovációs folyamatok feltérképezése, értékelése, az elemzések megosztása, vizualizációja újfajta elemző eszközök és innovatív megoldások fejlesztése révén. Publikációs adattár építése, strukturált adatok kinyerése és elemzése.
Tudományos tevékenységek statisztikai mutatóinak fejlesztése, sikeresség inferálása webes és egyéb adatokból, többszempontú analízisek adatbázisának és új elemző módszereinek létrehozása. A FuturICT céljaihoz közvetlenül kapcsolódó, több alprojektre építő (Hálózatok elemzése, Természetes nyelv feldolgozás) végcélt valósít meg a tevékenység.
A pályázatban a következő kutatásokat és fejlesztéseket tervezzük, a következő eredményekre számítunk: Strukturálatlan adatok letöltésével és feldolgozásával kapcsolatos kutatási eredmények Új tudományos indikátorrendszer kidolgozása és implementálása magyar és nemzetközi adatok alapján Feldolgozott, tisztított, vizualizált tudástár Speciális modulok a magyar adatok elemzéséhez Peer review tesztmodul fejlesztése és létrehozása.
Előzetes eredmények
Textrend project (Benczúr András, Jelasity Márk, Vicsek Tamás, Kampis György részvételével), www.textrend.hu
DynaNets project (EU FP7, dinamikus hálózatelemzési eszközök és integratív keretrendszer fejlesztése, www.dynanets.org, Vittoria Colizza, Alex Vespignani, Kampis György és másokkal közösen) FuturICT project www.futurict.eu (az egyik javaslattevő a projektmendezsment munkatársa és a Steering Committee tagja)
A magyar teljes publikációs és citációs adathalmaz (130,000 tétel) átfogó elemzéseit közöltük hazai és nemzetközi folyóiratcikkekben és az elemzési eredmények teljes anyagát minden hazai intézményre közzétettük a www.hungrianscience.org portálon
A DBLP publikációs adatbázis (2 millió tétel) metaadatainak elemzésére új eszközöket dolgoztunk ki és tettünk közzé.
Újfajta módszerekeket javasoltunk tudományos indikátorokra, ezek közleményeinkben megtalálhatók eszközeit nyilvános forráskódú eszközök formájában elérhetővé tettük.
Web feldolgozás, keresőrendszerekkel kapcsolatos kutatás eredménye számos publikáció mellett egy SZTAKI kereső alkalmazás, illetve az Internet alrhívumok részére Spam szűrő, tisztító eljárások kidolgozása.
A „peer review” tudománymetriai alkalmazás egy lehetséges megvalósítását teszteltük a közismert Egervári-féle hozzárendelési feladatban. Az algoritmus egy változatát kipróbáltuk borkóstolási tesztek adatain is (vagyis egy specáilis peer review közegben). Hasonló feladatra az ajánlórendszerek módszertana is alkalmazható, amelyben a SZTAKI sikereket ért el.
Módszertan
Saját fejlesztésű tudomány- és bibliometriai eszközök, teljesz szövegek elemésére alkalmas szövegbányászati workflow-k, idősorok trendelemzése, dinamikus hálózatelméleti eszközök.
Web adatok gyűjtése. Nem strukturált válaszok feldolgozása. Publikációs metaadatok (szerző, cím, intézmény, hivatkozás) kinyerése, egyértelműsítése. Kapcsolatok, hivatkozások elemzése és megjelenítése.
Iteratív hálózati algoritmusok megfelelő változatainak fejlesztése, amelyek irányított súlyozott gráfokban képesek a csomópontok értékének meghatározására. Az előképek a PageRank és a HITS. A kulcskérdés a kitűzött minősítési feladatokhoz (peer review) releváns modell kialakítása, amely az élsúlyok és hasonlósági mértékek definícióján alapul.
Elsősorban a CIShell alapú NWB, TexTrend, DIP eszköztár, saját korábbi fejlesztéseink alapján, mely R statisztikai csomagot (és specifikus scriupteket), integrált adatbányászati eszközöket (WEKA, WordIJ, etc), hálózatelemzési eszközöket (pl Cytoscape) és fejlett integrációs eszközöket (wrapping wizards) tartalmaz. Hadoop – nyílt forráskódú elosztott környezet.UIMA – nyílt forráskódú természetes nyelv feldolgozó keretrendszer. Ezen felül felhasználásra kerül a VIVO platform, amely tudományos eredmények és kutatói adatok integrált, intuitív kezelésű, vizuális eszközökkel támogatott nemzetközi adatbázisrendszere.
Adatvédelem
Alprojekt vezető: Dr. Alexin Zoltán (SZTE)
Dr. Alexin Zoltán 1985-ben szerezte okleveles matematikus diplomáját az akkor még József Attila Tudományegyetemen. Kutatásait előbb az MTA-SZTE Automatatelméleti Kutatócsoportban, majd az SZTE Természettudományi és Informatikai Kar Alkalmazott Informatika Tanszékén folytatta, ahol 1994-től 2003-ig egyetemi tanársegédként dolgozott. Doktori fokozatát 2003-ban szerezte meg. 2003 júliusától egyetemi adjunktusként dolgozik a Szegedi Tudományegyetem Természettudományi és Informatikai Karának Szoftverfejlesztés Tanszékén, ahol számítógépes nyelvészettel, gépi tanulással, logikai algoritmusok fejlesztésével foglalkozik. Dr. Alexin Zoltán az Magyar Tudományos Akadémia köztestületi tagja, számos magyar és több nemzetközi projektben vett részt, és oktatási tevékenységet is folytat a Szegedi Tudományegyetemen. Személyes adatok védelmével kapcsolatos kutatásait 2004-ben kezdte el.
Az információs társadalmakban, így különösen az Európai Unióban nagy szerepet kap – a tudományos projektek szintjén is – a személyes adatok védelme. Az Európai Unióban megkövetelik, hogy az egyes kutatási projektekben rigorózus adatvédelmi intézkedések történjenek a közvetetten érintett kutatási alanyok (ha vannak ilyenek) magán- és családi életének védelme érdekében.
Magyarországon jelentős probléma származik abból, hogy csak töredékesen történt meg az európai adatvédelmi jog átültetése a magyar szabályozásba. Ennek oka leginkább az, hogy a magyar jogalkotó nem értette meg az ottani szabályozás elvi alapjait, lényegét és célját. Ezért kiemelkedően fontos, hogy tanulmányozzuk más EU tagállamok gyakorlatát, és ennek során megértsük az EU jogi szabályozás mozgató rugóit.
Az Európai Parlament a közeljövőben új, minden tagállamra kiterjedő adatvédelmi jogszabályt alkot, amelynek alapvonalai 2012 elején láttak napvilágot, és küszöbön áll a végleges változat elfogadása. Az új jogi eszközrendszer egyik eleme az adatvédelmi hatástanulmány (privacy impact analysis). Pilot jelleggel, 2011 augusztusa óta már kell ilyet készíteni minden rádiófrekvenciás azonosítási módszert használó feldolgozási folyamat esetén. Várható, hogy ezt hamarosan meg fogják követelni az egészségügyi adatok feldolgozásai esetén is.
Jelen tudományos kutatási projektben több olyan tevékenység tervezete szerepel, amelyek személyes adatok feldolgozásán alapulnak. A tevékenységek matematikai és informatika szempontból kiváló elvi alapokkal rendelkeznek, azonban szükséges, hogy e tevékenységek társadalmi beágyazottságát is megvizsgáljuk és etikai, illetve emberi jogi szempontból is megfelelő, biztonságos alapokra helyezzük.
Célkitűzés
Az informatikus kutatók adatvédelmi tudatosságának fejlesztése az által, hogy tevékenységüket átvilágítjuk. Megismertetjük őket a háttérben meghúzódó társadalmi elvárásokkal és jogi kötelezettségeikkel. Fokozni kívánjuk a kutatók érzékenységét a jogi, etikai és morális kérdések iránt. Ezeket az ismereteket a jövő informatikus hallgatói számára is szeretnénk átadni olyan új kurzusok bevezetésével, amelyek szélesítik a hallgatók látókörét ebben az irányban.
Az információfeldolgozás társadalmi hatásait vizsgálva nem csak az adatfeldolgozás közvetlen hatásait kell megvizsgálnunk, hanem magának a feldolgozási folyamatnak, egyáltalán a különböző nyilvántartások létezésének a társadalomra, az információs önrendelkezésre gyakorolt hatásait is. Ebben nyújthat stabil hátteret az adatvédelmi jogi szakirodalom és nemzetközi gyakorlat tanulmányozása. A részt vevő kutatókat rá kívánjuk ébreszteni ennek fontosságára.
Az SZTE informatikus mesterszakokon megtervezünk egy új jogi tantárgyblokkot, kurzusokat, tematikát és jegyzeteket készítünk, amelyek alapvető ismereteket nyújtanak jogi kérdésekről a közigazgatás, és más nagy állami rendszerek működésével kapcsolatban.
Adatvédelmi hatástanulmányt készítünk két tevékenységhez az SZTE Állam- és Jogtudományi Kar, valamint a Pécsi Tudományegyetem Állam- és Jogtudományi Kar (PTE, ÁJK) szakértőinek segítségével. Ezzel rávilágítunk a kutatásban azokra a kockázatot jelentő pontokra, amelyek esetén különösen körültekintően kell eljárni, óvintézkedéseket kell tenni, a kutatási alanyok érdekében. Személyes egészségügyi adatok esetén a jogi szabályozás független kutatásetikai bizottság bevonását is megköveteli, erre vonatkozóan is tanácsokkal tudjuk ellátni a tevékenységet végző kutatókat.
Minden résztvevő számára biztosítjuk az adatvédelmi konzultáció lehetőségét. Szakmai találkozókat szervezünk, ahol előadásokon mutatjuk be a fontosabb adatvédelmi alapelveket, jogi kötelezettségeket. A nemzetközi szakirodalom fontosabb eredményeit közvetítjük. A projekt vitele során felmerülő adatvédelmi problémák megoldásában segítséget nyújtunk.
Előzetes eredmények
1. EuroSOCAP, European Standards on Confidentiality and Privacy in Healthcare (FP6, QRLT‐2002‐00771).
2. A Szegedi Tudományegyetem (SZTE) és a Veszprémi Egyetem (VE) konzorciuma által elnyert, TÁMOP-4.1.2-08/1/A-2009-0008 számú, „Tananyagfejlesztés mérnök informatikus, programtervező informatikus és gazdaságinformatikus képzésekhez” c. pályázati projektje támogatta egy adatvédelmi kurzus alapjául szolgáló: „A személyes adatok védelmének jogi, etikai és informatikai kérdései” c. egyetemi jegyzet elkészítését, és elektronikus kiadását 2010-ben.
3. Szegedi Tudományegyetem (SZTE) és az MTA Szegedi Biológiai Kutatóközpont (SZBK) konzorciumának TÁMOP-4.2.2-08/1/2008-0008 számú „Szenzorhálózat alapú adatgyűjtés és információfeldolgozás” projektje támogatta, hogy a University of Central Lancashire, Centre for Law, Information and Converging Technologies partnerrel közös adatvédelmi kutatások kezdődjenek 2010-ben.
Dr. Alexin Zoltán szakértőként csatlakozott az EuroSOCAP projekthez (1). A 11 európai ország 20 neves szakembere által elindított kezdeményezés során elkészült egy európai útmutató és egy szabvány, amely egészségügyi személyes adatok kezelésével és védelmével kapcsolatos alapvető intézkedéseket tartalmazta. Az angol eredeti szöveg nyilvános, magyar fordításban is rendelkezésre áll.
A tananyag fejlesztési pályázat (2) eredményeként számos elektronikus tananyag készült. Egyebek mellett létrejött egy adatvédelmi jegyzet, amely ingyenesen letölthető és felhasználható 5 éven keresztül. Erre alapozva elkezdődött az SZTE informatikai képzésében az adatvédelmi ismeretek oktatása. A gazdaságinformatikus mesterképzésben ez a tárgy a kötelezően választható kurzusok között található, míg a programtervező informatikus mester szak hallgatói számára szabadon választható tárgy. Időközben számos jogszabály megváltozott, ami indokolja e jegyzet átdolgozását, frissítését.
Az adatvédelmi jog napjainkra olyan sajátos jogrendszerré nőtte ki magát, melynek alkalmazása szakértelmet kíván. E jogintézmény átszövi az egész magyar jogrendszert, és megjelenik az eljárási jogokban, valamint az anyagi jogi szabályokban is. A hatályos jogszabályok az egyes fontosabb adatkezelők törvényes működésének biztosítása érdekében kötelezően elrendelik, hogy azoknál adatvédelmi szakértőt nevezzenek ki, aki felelős az adatvédelmi rendelkezések betartása és az intézmények jogszerű működése tekintetében és elkészíti az adatvédelmi szabályzatot.
A fenti szükségletek kielégítésére hozták létre először az országban az SZTE ÁJTK-n, 2011-ben az adatvédelmi szakjogász és adatvédelmi szakértő szakirányú képzést. A képzés célja olyan az adatvédelem, és az információszabadság alapvető rendelkezéseit, illetőleg az egyes jogterületeket részletesen bemutató képzés nyújtása, mely megfelelő alapot nyújt ahhoz, hogy az azt elvégző személy bármely intézménynél adatvédelmi és információszabadsággal kapcsolatos szakértői posztot tölthessen be.
A szenzorhálózat alapú adatgyűjtés pályázat (3) során került sor egy összehasonlító elemzésre, amely az EU és a magyar adatvédelmi jog közötti különbségeket tárta fel. Ebben a pályázatban ugyancsak eredmény volt egy adatvédelmi útmutató elkészítése vezeték nélküli szenzorokat használó AAL (Ambient Assisted Living) rendszerek számára. Ez az útmutató figyelembe vette az időközben megjelent PIA (Privacy Impact Analysis), azaz adatvédelmi hatástanulmánnyal kapcsolatos EU fejleményeket. Ezt az eredményt e kutatási projektben fel kívánjuk használni.
A PTE ÁJK Informatikai és Kommunikációs Jogi Kutatóintézete a 2002-ben hazai környezetben megalapozott, majd 2011-2012-ben nemzetközi kapcsolatrendszerben folytatott adatvédelmi jogi kutatásainak eredményeként rendelkezik olyan adatvédelmi tanúsításra szolgáló módszertannal, amely a pályázat érdekében felhasználható.
A módszertan elsősorban munkáltató és munkavállalók viszonyában, munkahelyi környezetben elvégzendő adatvédelmi audit céljaira szolgál, s kiemelt figyelemmel van az informatikai és hírközlő eszközökkel végzett megfigyelési lehetőségek törvényes alkalmazására, valamint a technikai és szervezési intézkedésekkel megvalósítandó adatbiztonsági követelmények érvényesítésére.
Módszertan
Az adatvédelem és a társadalom viszonyának vizsgálatára számos nemzetközi (leginkább EU) kezdeményezés indult, amely projektekben rendszerint nincs magyar résztvevő. A magyar részvételt elsősorban a nemzetközi konferenciákon történő jelenéttel, publikációk írásával kívánjuk erősíteni. Keressük a nemzetközi kollaboráció újabb és újabb lehetőségeit.
A tevékenységek résztvevői számára az adatvédelmi átvilágítás vagy elemzés nemzetközi ajánlásoknak megfelelően, közzétett szabványok szerint folyna, amely személyes interjúkkal és beszélgetésekkel egészülne ki.
Az adatvédelmi auditálási módszertant kiegészíti a szervezetek belső adatvédelmi rezsimjének kialakításához mintaként alkalmazható modell-szabályozás. A kidolgozott code of conduct jellegű sablonok a konkrét szervezet helyi sajátosságainak megfelelő adaptáció után az auditálási követelményeket és szempontokat kielégítő rendszert alkotnak.
Nemzetközi jogi adatbázisok (European Court of Justice, European Court on Human Rigths, külföldi adatvédelmi biztosok állásfoglalásai, külföldi adatvédelmi perek iratai), folyóiratok, konferencia kiadványok.
Hálózatok szerkezete és dinamikája
Alprojekt vezető: Prof. Dr. Kertész János (BME)
Prof. Dr. Kertész János a Közép-európai Egyetem (CEU) és a Budapesti Műszaki és Gazdaságtudományi Egyetem professzora. 1976-ban kapott fizikus diplomát az Eötvös Loránd Tudományegyetemen, majd ugyanitt szerzett doktori fokozatot 1981-ben. 1989-től a Magyar Tudományos Akadémia doktora, majd 2001-ben levelező, 2007-től pedig rendes tagja. Pályafutásának nagy részében a Budapesti Műszaki és Gazdaságtudományi Egyetem Fizika Intézetében dolgozott tanszékvezetőként és egyetemi tanárként, majd intézetigazgatóként. Munkáját többek között 2006-ban Ipolyi Arnold díjjal, legutóbb 2011-ben pedig Szent-Györgyi Albert díjjal ismerték el. Vendégkutatóként dolgozott Kölnben, Münchenben, Duisburgban, Helsinkiben, Bostonban, Nápolyban és Párizsban. Fő kutatási területe a statisztikus fizika, hálózatkutatás és az ezek határterületein kirajzolódó problémák.
A hálózatkutatás a komplex rendszerek vizsgálatának egyik leggyorsabban fejlődő ága, amely kezdettől multidiszciplináris jellegű: a matematikai gráfelmélettől az IKT hálózatokon keresztül a szociális hálózatokig számos tudomány eredményeire épít. Robbanásszerű fejlődésnek mintegy másfél évtizede indult, amikor az IKT révén hirtelen nagymértékben megnőtt adatmennyiségre támaszkodva főképpen statisztikus fizikusok megmutatták, hogy a korábbi modellek a valóság széles tartományában nem működnek, és gyökeresen új megközelítésekre van szükség. Kiderült, hogy számos, egymástól lényegesen különböző komplex rendszer mögött topológiailag hasonló hálózatok állnak. A sztatikus tuljdonságok feltárképezése és új, paradigmatikus modellek megalkotása után a figyelem a dinamikus tulajdonságok felé fordult. Ezek között is kiemelt szerepet játszanak a terjedési jelenségek. A nemzetközi trendre jellemző, hogy a hálózatkutatás területén publikált tudományos dolgozatok száma a rokon témákat messze meghaladó mértékben növekedett. A jelen alprojekt keretében a hálózatok dinamikai jelenségeivel kívánunk foglalkozni. Hangsúlyozni kell, hogy a hálózatkutatási eredményekhez kezdettől igen erős volt a külföldön és itthon dolgozó magyar kutatók hozzájárulása.
A hálózatelméleti kutatásokra jellemző, hogy az itt elért eredmények viszonylag gyorsan megtalálják az utat az alkalmazásokhoz. Ennek oka a megközelítés holisztikus jellegében rejlik, ugyanis rendkívül általános és ennek megfelelően igen széles körben alkalmazható eredmények születnek. Az alkalmazások között így szerepel a gyógyszerkutástól az epidemiológián keresztül a közlekedéstervezésig számos terület. Az egyik legfontosabb alkalmazás a társadalom szerkezetének és működésének megértése, különös tekintettel az IKT-vel való kölcsönhatásra. Az elmúlt két évtizedben az IKT fejlődése gyökeres változásokat idézett elő a társadalmi kapcsolatteremtés és -ápolás, sőt a társadalom egészének működése terén. Elegendő itt a közelmúlt észak-afriakai eseményeire utalni, ahol bebizonyosodott, hogy az IKT történelem-formáló tényezővé vált. Az ún. „Facebook-generáció” másként létesít kapcsolatokat, mások a véleményalkotási fórumai, a tanuláshoz és a munkához való viszonya. A társadalom és az IKT kölcsönhatásának megértése releváns egyrészt azért, mert hozzásegít olyan IKT fejlesztéséhez, amely az életminőség javításának szolgálatában áll, másrészt a társadalom működésének feltárásával akár a politikai döntéshozatal szintjéig fontos felismerésekhez vezet.
Célkitűzés
Társadalmilag releváns IKT-ra épülő hálózatok dinamikájának vizsgálata, különös tekintettel terjedési jelenségekre. Fel kívánjuk tárni a terjedési jelenségek alapvető törvényszerűségeit, beleértve az járványterjedés függését a hálózat szerkezetétől, a késleltetési hatásoktól és transzportációs hálózattól. A társadalomban meghatározó kommunikációs terjedésnél a különböző csatornák szerepének megértését tűzzük ki célul. Fel kívánjuk deríteni az eltérő kommunikációs stratégiákat, illetve azok hatását a hálózatok topológiájára. Különös hangsúlyt fektetünk a technológiai információk terjedésének tanulmányozására és meghatározzuk a terjedés módjának és mélységének függését az internetes környezettől, illetve hogy a know-how transzfer hogyan hat az innovációs folyamatokra.
A kutatás végcélja, hogy az IKT-t felhasználva, illetve annak hatását vizsgálva jobban megértsük a társadalom szerkezetét és működését, ezáltal hozzájáruljunk a kockázati tényezők hatásának csökkentéséhez, az életminőség javításához.
A kutatás eredményeképpen megértjük a társadalomban zajló terjedési jelenségek dinamikáját, a különböző kommunikációs csatornák és a rájuk alkalmazott stratégiák szerepét, valamint a tudástársadalomban alapvető folyamat, a technológiatranszferből a tudástranszferbe történő átmenet törvényszerűségeit.
Előzetes eredmények
1. Terjedési jelenségek
Megmutattuk, hogy a kommunikációs hálózatokon a terjedés sebessége erősen fékeződik a hálózat inhomogén topológiája, annak a kommunikációk gyakoriságával való kapcsolata és a szereplők villanásos (bursty) viselkedése miatt. Megmutattuk, hogy mi a naptári ciklusok hatása, valamint azt, hogy a csatornák válaszásának függvényében mennyire lesz kiegyenysúlyozott az információ-csere. A rendezetlenség hatásait vizsgáltuk Erdős-Rényi és általánosított kisvilághálózaton definiált kontakt folyamaton. Eredményeink jelentősen befolyásolják az erősen csatolt rendszerekeben elvárható átlagtérszerű viselkedésekről alkotott elképzeléseinket, melyek gyors dinamikákat jósolnak. Ezen túl az ilyen típusú rendszereken végzett egyes korábbi szimulációk kritikai felülvizsgálatának szükségességére is rámutatnak.
2. Kommunikáció csatornák és stratégiák
Kommunikációs stratégiákat vizsgáltunk absztrakt algebrai keretrendszerben. Hálózati topológiák kialakulását elemeztük stratégiai környezetben (játékelméleti keretrendszerben). Útvonalválasztó eljárásokat elemeztünk számítási és tárolási komplexitás szempontjából. Vizsgáltuk a komplex rendszerekben történő navigálhatóságot. Méréseket végeztünk az internet AS szintű topológián. Modelleztük, hogy milyen hatása van egy médium (pl. egy közösen szerkesztett Wikipedia cikk) a csoport véleménydinamikájára. Azonosítottuk a különböző csatornákon való kommunikáció néhány jellemzőjét.
3. Tudástranszfer
A témában folytatott korábbi kutatások egyfelől a tudástranszfer rendszerek kiépülésével, a korábban szigorúan materializált technológia transzfer folyamatok tudástranszfer folyamatokká való átalakulásának vizsgálatával foglalkoztak. Másrészt a korábbi kutatások ugyancsak foglalkoztak a nyílt közösségekben történő technológiai információk megosztásával a közösségnek felkínált fejlesztési feladatokon (crowdsourcing) keresztül. Végül, de nem utolsó sorban az előzetes kutatások rávilágítottak a know-how transzfer dogmatikai problémáira.
1. Terjedési jelenségek
Megmutattuk, hogy lassú dinamikák alakulhatnak ki a hálózatokban előforduló rendezetlenségek, illetve akár csak tisztán topológikus inhomogenitások következtében. Ezen eredményeink az információ/betegség terjedés legegyszerűbb modelljére, az úgy nevezett kontakt folyamatra vonatkoznak, véges topológikus dimenziós hálózatok esetében. Nyílt kérdés a fenti állítások érvényessége más modellek esetére, illetve végtelen topológikus dimenziójú hálózatokban, mint pl. a skálamentes hálózatokban. Óriási IKT adattömegre épülő kísérletek segítségével rámutattunk a terjedés sebességét befolyásoló fő tényezőkre, illetve a folyamat alapvető jellemzőire.
2. Kommunikáció csatornák és stratégiák
Kialakítottunk egy olyan absztrakt algebrai keretrendszert, amelyben nemcsak a legrövidebb útvonalon alapuló módszerek (compact routing), hanem más kommunikációs stratégiák is elemezhetőek (compact policy routing). Megmutattuk, hogy nagyon egyszerű, kommunikáció kiépítését megcélzó stratégiai (játékelméleti) környezetben kialakulhatnak a valós hálózatokhoz hasonló struktúrájú komplex hálózatok. Előzetes eredményként felvetettük, hogy, játékelméleti környezetben, útválasztási stratégiákból levezethető a komplex hálózatok számos tulajdonsága. Meghatároztuk, hogy milyen esetekben alakul ki konfliktus a különböző véleményű csoportok között. A legfontosabb tényezők az adott téma érzékenysége és a csoportok nagysága. Megmutattuk, hogy új tagok megjelenése a csoportban nagyon megnöveli a konfliktus kialakulásának esélyét, ezen kívül sikerült kvalitatíven hűen visszaadni a Wikipedián megfigyelt konfliktus típusokat. Egy szimulációs modellben azt tapasztaltuk, hogy a hálózat moduláris szerkezete megszűnik, ha a kommunikációs aktivitás lecsökken. Modelleket vizsgáltunk az egyéni kommunikációs szokások időbeli leírásához, amelyeket sikerült analitikusan kezelnünk. Bizonyos egyéntípusokra nagy pontossággal sikerült reprodukálnunk a telefonhívások időbeli statisztikáját figyelembe véve a napi és heti aktivitásváltozásokat.
3. Tudástranszfer
A tudástársadalom átalakulását leíró, a technológia transzferből a tudástranszferbe történő átmenetet elemző illetve ebben az olyan tudásközösségek, mint az egyetemek szerepét tisztázó nemzetközi és hazai publikációk láttak napvilágot, melyekben feltártuk a folyamatok alapvető mozgatórugóit. Emellett a nyílt innováció, a crowdsourcing lényegét érintő kérdések, illetve ezek hazai példákon történő bemutatása is publikálásra került. Végül, de nem utolsó sorban a know-how transzferrel kapcsolatos terminológiai közlemény, valamint az ilyen tranzakciók dogmatikai problémáit elemző összefoglaló mű is megszületett. Ugyanakkor a korábbiakban a megfelelő, nagy mennyiségű információ hiánya illetve az alacsonyabb fordulatszámon működö közösségi aktivitás nem tette lehetővé olyan célzott információáramlások kutatását, amire ez a projekt lehetőséget adna. A specializált közösségek tevékenységének elemzése, valamint a twitter adatfolyam primer feldolgozása illetve a facebook-on indított terjedési próbafolyamatok elemzése egy új szintre helyezi ezen kutatásokat.
Módszertan
A hálózatok vizsgálatának egyik alapvető módszere a nagy IKT adatbázisok statisztikai elemzése, pl. Twitter adatfolyam és Facebook információfolyam analízise. Ezen kívül elméleti módszereket kívánunk alkalmazni, úgy mint egyszerű sztochasztikus modelleket, heterogén átlagtérelméletet, komplexitás elméletet, absztrakt algebrai módszereket, kombinatorikus csoporttesztelést, játékelméleti keretrendszereket, hálózatformációs játékokat metrikus terekben. Nagyskálájú szimulációs számításokat is tervezünk. Mindezt kiegészíti célzott lekérdezés illetve esettenulmányok elemzése. A kutatás továbbá nagy méretű dinamikus hálózati adatbázisokon alapul, ahol a csoportok kialakulását, sikerességét, és teljes hálózati történetét követni lehet. Ezen adatbázisok elemzéséhez a hálózattudomány új statisztikai módszereit használjuk (Exponential Random Graphs, SIENA), amelyek dinamikus hálózatok esetén lehetővé teszik endogén, történeti okságra vonatkozó hipotézisek tesztelését. Ezen túl saját fejlesztésű módszereket használunk másodlagos interakciók (kapcsolatokra vonatkozó hatások) elemzésére. Másrészt olyan esettanulmányokon alapul a kutatás, ahol az innovációk történetét és a kapcsolatok kialakulását interjúkkal fel lehet térképezni.
Méréseket végzünk és modellezünk az MTA SZTAKI-ban rendelkezésre álló valós hálózatokon (Web, LiveJournal barátok, Last.fm barátok és meghallgatott zenék) is.
Saját fejlesztésű szimulátorok (C,C++), statisztikai programcsomag (R), gráf analízis és vizualizáló szoftverek (igraph, ubigraph), Weka – szabad forráskódú gépi tanulás szoftver. Mindehhez részben a helyi számítógépes kapacitást illetve hazai és nemzetközi szuperszámítógép eléréseket, lokális számítógép klasztereket, multi-core programozást segítő szoftvereket kívánunk felhasználni.
Klímaváltozás társadalmi hatásai
Alprojekt vezető: Prof. Dr. Bozó László (BME)
Prof. Dr. Bozó László az Országos Meteorológiai Szolgálat vezető főtanácsosa, a Budapesti Corvinus Egyetem kutatóprofesszora, akinek szűkebb szakterülete a levegőkémia, illetve a légköri nyomanyag terjedésének modellezése. A tudóst 2007-ben választották az Magyar Tudományos Akadémia levelező tagjává. Egyik legjelentősebb eredménye az európai légköri szennyezőanyag-terhelés 2020-ig várható mértékének modellezése. A hazai környezetállapot átfogó vizsgálatának részeként értékelte az egyes hazai régiók legfontosabb levegőminőségi jellemzőit. Ő vezette az MTA Környezeti jövőkép környezet-és klímabiztonság című köztestületi stratégiai kutatási programját, amelynek keretében a természeti erőforrások felhasználásában érintett ágazatok klímaalkalmazkodási lehetőségeit vizsgálták.
Ismert, hogy a klímaváltozások jelentős társadalmi változások előmozdítói. Az El-Nino jelenség periódusai, vagy az utóbbi évek jelentős afrikai változásai mind a klímaváltozások és a társadalmi változások kapcsolatára utalnak.
Az éghajlati változásokhoz történő alkalmazkodás gyakran konfliktusokkal terhelt folyamat. Nagyszámú történeti munkában merül fel, hogy a klíma megváltozása kiterjedt erőszakos–háborús eseményekhez vezet (lásd: „Kis jégkorszak” Európa területén), sőt még civilizációs összeomlásokat is tulajdonítanak hasonló okoknak (pl. az Akkád birodalom szétesése, vagy a Maják hirtelen eltűnése, stb.). Thomas Malthus 1798-ban írt, többször újra kiadott könyve („Tanulmány a népesedés törvényéről”) sokáig meghatározó módon befolyásolta a témával kapcsolatos álláspontokat, mely szerint a környezeti állapot alapvetően hat az országokon belüli és országok közötti erőszakos konfliktusok gyakoriságára és kiterjedtségére.
A kérdéskör rendszerezett tudományos vizsgálata alig pár évtizedes múlttal rendelkezik. Az „információs társadalom” létrejötte teszi lehetővé, hogy az éghajlati és társadalmi eseményekkel kapcsolatban elegendő adat álljon rendelkezésre a statisztikai vizsgálatokhoz. Számos új tanulmány elég nagy visszhangot kapott a szélesebb közvélemény körében is, ami nem csoda, hiszen a globális klímaváltozás témakörét igen jelentős érdeklődés kíséri mostanában. Az sem lehet nagy meglepetés, hogy egyenlőre nem látszik tudományos konszenzus az éghajlatváltozás és a társadalmi folyamatok csatoltságának problematikájával kapcsolatban, néha igen indulatos viták lobbannak fel egy-egy állítás kapcsán.
Az éghajlatváltozáshoz kötődő jelenségek és komplex folyamatok rendszerén belül a társadalmi és gazdasági szempontú kutatások fontosságát hangsúlyozza, hogy a klímaváltozás hatásaihoz történő alkalmazkodás, a regionális hatásokhoz történő felkészülés a magyar nemzetgazdaságot is jelentős kihívások elé állítja.
Minél tovább késlekedünk, várunk arra, hogy a tudomány a bizonytalanságok kizárásával igazolja az éghajlati rendszer változási folyamatait, illetve annak regionális következményeit, annál több visszafordíthatatlan változás következik be a Föld számos sérülékeny régiójának környezeti feltételeiben.
A 21. századra vonatkozó klímaprognózisok által hordozott információk pontosítására világszerte számos kísérlet folyik, melyek általában a következő módszereket alkalmazzák:
(i) az ún. ensemble-technika, mely a kísérletek nagy számával próbálja csökkenteni a bizonytalanságot,
(ii) a nagyszámú eredmény eloszlásfüggvényeinek megjelenítése, elemzése, illetve valószínűségi előrejelzések megadása, melyek az extrém éghajlati viszonyok pontosabb leírását is lehetővé teszik,
(iii) a regionális klímamodellek output mezőinek hiba korrekciója az eloszlásfüggvények illesztésével,
(iv) a legújabb globális modellfejlesztési kutatások, melyek a legbizonytalanabb csapadékképződési, felhőfizikai folyamatokat kísérlik meg javítani egy minden eddiginél finomabb felbontású és pontosabb parametrizációjú modellverzió alkalmazásával.
A fenti nemzetközi trendekhez alkalmazkodva végeznénk a hazai klímaprognózis számításokat, melyek kiindulási alapját képezik a változások társadalmi hatásainak komplex adatbázisokra (földhasználat, vízgazdálkodás, távérzékelés, kritikus infrastruktúrális rendszerek) épített elemzésének.
A nagy pontosságú adatok, amelyekkel a mai környezeti változások monitorozhatók, lehetővé teszik, hogy nem csak a globális, hanem a lokális viszonyok nagy időfelbontású változásait is követhessük. Az online médiumok, az állampolgárok és gazdasági szereplők tevékenységeit akár másodperc pontossággal is rögzítő adatbázisok manapság teszik lehetővé először a történelem folyamán, hogy a klímaváltozások gazdasági és társadalmi hatását valós időben, a helyi specialitások figyelembe vételével követhessük.
A földi éghajlati rendszer folyamatai kimutathatóan változnak: a globális átlaghőmérséklet és a tengerek vízszintje emelkedik, bizonyos szélsőséges meteorológiai események gyakorisága és intenzitása növekszik.
Biológiai fajok és élőhelyek kerülnek veszélybe, megváltozhat a társadalmi-gazdasági szerkezet.
Átalakulhat a földhasználat jellege, a vízgazdálkodás, a növénytermesztés.
Jelentős humán-egészségügyi, foglalkoztatási és élelmiszerbiztonsági kockázatok jelennek meg. A Kárpát-medence Európán belül az éghajlatváltozás szempontjából a legsérülékenyebb területek közé tartozik.
Az előttünk álló évtizedekben hosszabb aszályos időszakok, hőhullámok, valamint az extrém csapadékeseményeket követő kiterjedt belvízi borítottság és árvízveszély egyre szélsőségesebb dinamikával váltakozhatnak az ország területén. Az ebből fakadó társadalmi következmények becslése és a lehetséges beavatkozások tervezése csak rendszerszemléletű komplex adatbázisok kiépítésével és felhasználásával lehetséges.
Célkitűzés
A klímaváltozások gazdasági és társadalmi hatásainak feltérképezése, a klímaadatokra épülő, társadalmi és gazdasági változásokat előre jelző modellek megalkotása.
A várható éghajlatváltozás mértékének becslése modellszámításokkal, beleértve az extrémumok várható értékeit és a komplex éghajlati indexeket. Modellfejlesztés: PRECIS és RegCM, becslések a 21. század végéig tartó időszakra.
Hatásvizsgálatok: A klímamodellek eredményeire támaszkodó, komplex adatbázisokra épülő módszertan kidolgozása a hatásvizsgálók igényeihez igazodva. A kidolgozandó módszertan része lehet a Nemzeti Éghajlati Stratégia, és kapcsolódó programjai felülvizsgálatának.
Adatbázis létrehozása és alkalmazása az éghajlatváltozás társadalmi hatásainak elemzésére. Potenciálisan megcélzott területek lehetnek: mezőgazdaság, vízgazdálkodás, humán-egészségügy, állat-egészségügy, élelmiszerbiztonság, kritikus infrastruktúrák.
Klimamodell kidolgozása és társadalmi hatások elemzése komplex adatbázisok segítségével, valamint döntéshozói támogatás klímaváltozások figyelembe vételével.
Nemzetközi színvonalú klímamodellezési technika és komplex adatbázis létrehozása, alkalmazása az éghajlatváltozás társadalmi hatásainak vizsgálatára. A rendszer lehetővé teszi, hogy a döntéshozók különböző szempontjai szerint rendezzük a rendelkezésre álló, illetve a modellszámítások során előállítandó információs csomagokat az ország különböző adottságú területeire.
Részletes térbeli felbontású számítási eredmények, térképek a legfontosabb éghajlati elemekre és a szélsőségek várható eloszlására vonatkozóan. Az éghajlatváltozás szempontjából kritikus sérülékenységgel bíró területek meghatározása, és részletes elemzése.
Éghajlatváltozás társadalmi hatásainak elemzésére szolgáló adatbázisok.
A klímamodellek eredményeire támaszkodó, klímadinamikai modellekhez alkalmazkodó adatbázisokra épülő társadalmi hatásvizsgálati dokumentáció.
Előzetes eredmények
Meteorológiai adatok elemzésében, a bennük rejlő összefüggések feltárásában jelentős tapasztalattal rendelkezünk. Ehhez elsősorban a GDCN, NIWA és az ECMWF ERA-40 és ERA-INTERIM adatbázisait használjuk, több más forrás mellett. Az előző években számos vizsgálatot folytattunk az alábbi részterületeken: Aeroszol részecskék (pl. vulkáni hamu) sodródásának elméleti modellezése, valamint adatbanki szélmezők alapján a terjedés kvantitatív jellemzőinek vizsgálata, Globális villám észlelési adatok statisztikai analízise, egyéb környezeti paraméterekkel való csatolások vizsgálata.
Szélenergia potenciál hazai és teljes Európát lefedő modell hálózatokban (részben szélturbina adatokat is felhasználva), Globális sztratoszférikus ózonadatok idősorainak elemzése, numerikus modellszámítások eredményeinek összehasonlítása empirikus adatokkal, Globális lefedettségű napi hőmérsékleti adatok korrelációs tulajdonságainak analízise, sztochasztikus modellezése.
Klímadinamikai modellfejlesztések; Klímaszcenáriók készítése korábbi modellverziókkal; Klímaváltozással kapcsolatos alkalmazkodási szükségszerűség és lehetőség vizsgálata az egészségügy és az ökológia területén; A Kárpát-medence éghajlati tendenciáinak vizsgálata (átlagok és szélsőségek).
Múltbeli éghajlati adatsorok elemzése, homogenizálása megtörtént.
Regionális klímadinamikai modellek korábbi verzióinak hazai viszonyokra történő adaptálása sikeresen befejeződött, a validáláshoz a homogenizált sorokat alkalmaztuk.
Statisztikai kapcsolatokat mutattunk ki a tartós hőhullámok és a különböző okból történő elhalálozások között.
Publikációk, konferencia előadások, tankönyvek.
Módszertan
Olyan statisztikai eljárásokat kívánunk alkalmazni, amelyek az időbeli korrelációk feltárását, az együttjáró mennyiségek közti kapcsolatok erősségét, az összefüggések megbízhatóságát számszerűsítik. Különleges kihívás az ok-okozati összefüggések feltárása, ami statisztikailag szignifikáns korrelációk esetén sem egyszerű a rendkívül komplex csatolási mechanizmusok miatt.
Ensemble-technika, mely a kísérletek nagy számával próbálja csökkenteni a bizonytalanságot.
A nagyszámú eredmény eloszlásfüggvényeinek megjelenítése, elemzése, illetve valószínűségi előrejelzések megadása, melyek az extrém éghajlati viszonyok pontosabb leírását is lehetővé teszik.
A regionális klímamodellek output mezőinek hiba korrekciója az eloszlásfüggvények illesztésével.
Rendszerszemléletû adatbázis konstrukciós, illesztési és kapcsolódó komplex adatelemzési módszerek.
PRECIS és RegCM éghajlatdinamikai modellek Magyarországra adaptált, fejlesztett verziói, adatbázis kezelõ és elemzõ szoftverek.
Publikus szoftvereken kívül Mathematica és Matlab szoftvercsomagok, megvásárolható adatbázisok klíma- és gazdasági folyamatok vizsgálatához.
Okostelefon középréteg, valós idejű elosztott adatfeldolgozás
Alprojekt vezető: Dr. Bilicki Vilmos (SZTE)
Dr. Bilicki Vilmos 1974-ben született Zentán, a volt Jugoszláviában. Középiskolai tanulmányait az adai Műszaki Iskolában végezte. 1993-ban a Budapesti Műszaki és Gazdaságtudományi Egyetem villamosmérnök szakára nyert felvételt. Diákként bekapcsolódott a BME Távközlési és Médiainformatikai Tanszék munkájába, ahol a mobil telefon használók mobilitásának modellezésével foglalkozott. Ebből a témakörből készítette el a TDK és diplomamunkáját is, melyet 1999-ben szerzett meg. 2001-ben tudományos segédmunkatársként felvételt nyert az SZTE Informatikai Tanszékcsoportjához, ahol elosztott tárolással és SIP kód tömörítéssel kezdett el foglalkozni. Ezek mellett kutatásokat végzett a elosztott kivonat tábla alapú BotNet-ek felderíthetőségével és a kis fokszámú elosztott kivonat tábla alapú P2P megoldások skálázhatóságával.
A tárgyak internete paradigma egy népszerű és számos forrásból támogatott kutatási terület. Az okostelefonok és a hozzájuk kapcsolódó szenzorok jelenleg szigetként illetve valamilyen háttér vagy felhő szolgáltatás információforrásaként jelennek meg. A tárgyak internete ezen változtatna az okostelefonok és szenzorok rendszerbe szervezésével.
A tárgyak internete által igényelt korlátlan skálázhatóság, magas rendelkezésre állás, a fizikai határok elmosódása olyan követelményeket támaszt mely számos IT részterület hatékony-megoldásainak megfelelő integrálását igényli. Az integráció helye, ahol ezen technológiák tárgyiasulnak és a szolgáltatásaikat igénybe lehet venni a köztesréteg. A köztesréteg fejlesztés szinte minden nagyobb IT AAL-lel, jövő internettel vagy tárgyak internetével foglalkozó projekten megjelenik valamilyen formában. Ezen fejlesztések azonban ritkán ölelik fel a terület teljes verikumát, gyakran csak egy-egy rétegre fókuszálnak a többi rétegek elnagyolva. Ennek eredményeképpen az újrahasználható köztesréteg megoldások száma elenyésző.
A fenti paradigmák (felhő, tárgyak internete) jelenleg az FP7-es keretprogram fókuszpontjában van, de a művelt területek szorosan kapcsolódnak a következő Horizon 2020-as területekhez is:
„Ipari vezető szerep” című II. rész – a(z) XX/2012/EU [„Horizon 2020”keretprogram] rendelet 5. cikke (2) bekezdésének b) pontjában meghatározott „Ipari vezető szerep” prioritással összhangban – a következő különös célkitűzésekkel erősíti meg az ipari vezető szerepet és a versenyképességet:
- információs és kommunikációs technológiák;
- 1.1.1. Új generációs összetevők és rendszerek: fejlett és intelligens beágyazott komponensek és rendszerek kialakítása
- 1.1.2. Új generációs számítástechnika: korszerű számítástechnikai rendszerek és technológiák
- 1.1.3 A jövő internete: infrastruktúra, technológiák és szolgáltatások
- 1.1.4 Tartalomkezelési technológia és információkezelés: a digitális tartalmakat és a kreativitást támogató IKT
Alprojektünk fókuszterülete is a tárgyak internetéhez kapcsolódik: olyan szoftver referencia architektúrát leíró tervezési mintákat kutatunk melyek a mobil eszközökből alkotott felhő segítségével lehetővé teszik az érzékeny adatok bizalmas kezelését. A kutatás az elérhető legmagasabb szintre törekszik: az adatok nem hagyják el a telefont, valamint az adatok elemzése, feldolgozása a telefonon történik. Ugyanakkor, ha az adatfeldolgozás nem helyi jelentőségű, akkor intelligens pletyka algoritmusokon ill. más P2P paradigmák mentén a telefonokat transzparens módon tudjuk különböző kiértékelések szolgálatába állítani.
Azon túl, hogy az IT tudóstársadalom jelentős részének érdeklődési körében megtalálható a tárgyak internete a terület stratégiai jelentőségű is mivel az infrastruktúra és az ehhez kapcsolódó üzleti modellek következő generációját hozhatja magával. Hatása akár mai felhő modellek hatásához mérhető. Ennek megfelelően jelen alprojekt célkitűzése az okos telefon köztesréteg referencia architektúra és az ezzel kapcsolatos tervezési minták kutatása időszerű és fontos területnek számít.
A célkitűzésünk, hogy a mobil felhő paradigmának megfelelően a telefonokat egy egységként kezeljük, magában nem hordoz forradalmi újdonságot. Az elképzelés esszenciája azonban mely arról szól, hogy az adatok nem hagyják el a telefont mégis értelmes nagytömegű statisztikai és tanuló algoritmus használhatja őket egyedi. A koncepciói részleteiben: az érzékeny adatok nem hagyják el a telefont a számításokat (statisztika, tanuló algoritmusok, …) a helyszínre visszük a számításokat tetszőlegesen nagy populáción el tudjuk végezni (mobil Felhő). Azaz például ki lehet kérdezni 100.000 ember anonim véleményét úgy, hogy a válaszuk nem hagyja el a telefont, de a statisztika kinyerhető a rendszerből A rendszer számára transzparens lesz a telefon típusa a rajta futó operációs rendszer (Keresztplatformos fejlesztés) A rendszer számára transzparens lesz a kommunikációs közeg és a helyszín (P2P primitívek) A rendszer extrém skálázható és extrém robosztus lesz (különböző P2P algoritmusok, > 100.000 felhasználó, mozgás telefon ki/be kapcsolás) A rendszer magasszintű absztrakciókat nyújt a P2P algoritmusok felet a kontextus alapú programozáshoz (szemantikus keretrendszer, szabályok) A rendszer felhő szintű absztrakciós réteget nyújt az adatok tárolására, elérésére és manipulálására (ez persze adott esetben csak a helyszínen történhet meg) A rendszer produktív futtatási környezet ad a funkcióinak megfelelő használatához (IoC, Kontextus alapú kezelése a funkcionális és nem funkcionális követelményeknek) A rendszer lehetővé teszi a végfelhasználók számára is a logika megadását (végfelhasználói programozás).
A fenti képességeket megvalósító rendszer elemeiben/rétegeiben is egyedi alapkutatási értéket képvisel, de ezek együttese olyan alapkutatási értéket jelent amelyre alapozva, valamint az ipari és a külföldi kutató partnerekkel együttműködve számos EU-s K+F projekt válik elérhetővé.
Célkitűzés
Az utóbbi évtizedben az okostelefonok és a hordozható eszközök rohamos fejlődésének lehetünk tanúi Az elterjedésük azt jelzi, hogy a következő időszakban ezek az eszközök dominálni fognak a személyi számítógépek rovására. Az okostelefonok által generált adatforgalom több felmérés szerint drasztikusan nőtt az elmúlt évtizedben és további növekedés várható. Az okostelefonok alkalmazás kínálata napról napra nő a szoftver piactereknek köszönhetően. Több gyártó ökorendszere a mobil alkalalmazásokon alapul. Az alkalmazás jellegéből fakadóan, a mobil alkalmazások vagy a hátérrendszerben ( akár felhőben is) tárolják az adataikat vagy az eszközön. A nagy érzékenységű adatok általában az eszközökön maradnak. A tevékenység célja, hogy egy megoldást kínáljon a mobil alkalmazások által generált adatok feldolgozására, mind a háttérrendszerben, mind az eszközön. A tevékenység a következő feladatokra fókuszál:
1. Egy keretrendszer a keresztplatform alkalmazások fejlesztésére. Alapvetően minták és algoritmusok formájában jelenik meg az eredmény.
2. A keretrendszerhez kapcsolódó, a fejlesztést támogató köztes réteg megtervezése és megvalósítása Szemantikus P2P kiegészítés a köztes réteghez
3. Felhő absztrakciós szintet nyújtó adatkezelést támogató minták kidolgozása
4. Szakterület-specifikus minták kidolgozása
5. A mobil alkalmazások monitorozására
6. A közigazgatási terület mint alkalmazási terület. A mobil alkalmazások és a közigazgatási ESB együttműködése
7. Modellvezérelt alkalmazásfejlesztés eltérő mobil platformokra
A FutureICT mint fő direktíva gyarapítás mobil alkalmazások fejlesztéséhez szükséges tervezési mintákkal és algoritmusokkal. A FutureICT a technikai jellegen kívül nagy hangsúlyt fektet a társadalmi hatásokra is. A kutatás hozzájárul ahhoz, hogy a felhasználói ígényeket a fejlesztésbe integrálja.
Egy komplex keretrendszer a mobil alkalmazások fejlesztéshez. Minták és algoritmusok. Köztesréteg és P2P kiegészítés a köztes réteghez. Ajánlások.
Előzetes eredmények
1.1. feladat: A „Mobil keresztplatform tervezési minták” feladathoz tartozó nemzetközi és hazai kutatási projektek (BME AUT):
- Peer-to-Peer lehetőségek vizsgálata okostelefonokon és középkategóriás készülékeken, kutatási és fejlesztési együttműködés a Nokia Research Center-el, 2007-2010.
- Hatékony tartalommegosztás hybrid Peer-to-Peer hálózatokban, kutatási és fejlesztési együttműködés a Nokia Siemens Networks Kft-vel, 2008.
- „Streaming alapú média megosztás”, kutatási és fejlesztési együttműködés a Magyar Telekom-mal, 2011.
- Cross-platform alkalmazás leírás, kutatási és fejlesztési együttműködés a Mobil Innovációs Központ-al, 2008-2009.
1.2,1.3,1.4 feladat:
- Collaboration @ Rural EU FP6 IP Project FP&-2005-IST-034921 (Szemantikus réteggel kiegészített referencia architektúra a projekt számára, Living Laboratory) EU (FP6) –2006 – 2009
- Collaborative Communication Driven Decision Management in Non-hierarchical Supply Chains of the Electronic Industry – CONVERGE, 228746-2 (tervezési minták és referencia architektúra a biztonságos információelosztásra) EU (FP7) – 2009 – 2011
- Digital Ecosystems Network of regions for DissEmination and Knowledge Deployment, CIP-ICT-PSP-2007-1 (P2P paradigmán alapuló köztesréteg) EU (FP7) –2008 – 2010
- Telenor Digitális Magyarország – EDH platform, ipari projekt (Mobil telefon alapuló telemedicinás megoldás és a hozzá tartozó referencia szoftver architektúra kutatása, fejlesztése), 2010 – 2010
- Proseniis – Életvitel-támogatási minták kutatása és szakértői rendszerbe foglalása az otthoni életminőség javítására – AALASRK (NKTH, 2008) (Referencia szoftver architektúra az M2M alapú telemedicinás rendszerek számára), 2008 – 2011
- DEAK Zrt. – Redmark projekt, GOP K+F projekt (Referencia szoftver architektúra az M2M alapú telemedicinás rendszerek számára), 2009
- DEAK Zrt. – Saját kutatás, GOP K+F projekt (Referencia szoftver architektúra az M2M alapú telemedicinás rendszerek számára, Telemedicinás orvosi döntés és folyamattámogatás), 2008 – 2011
- DEAK Zrt. – Nokia projekt, GOP K+F projekt (Referencia szoftver architektúra mobil telefon alapuló egészségtár OCR és információkinyerő képességekkel), 2011
- Web 3.0 paradigmán alapuló Virtual Business Support System platform és prototípus elkészítése projekt részfeladatok elvégzésére (Szemantikus web technológiákon alapuló referencia szoftver architektúra tervezése és megvalósítása) R&R Software Zrt. 2011 – 2012
1.5 feladat: A „Mobil és szenzorhálózat monitorozás” feladathoz tartozó korábbi európai és hazai kutatási projektek (BME MIT, Hibatűrő Rendszerek Kutatócsoport):
- Assessing, Measuring and Benchmarking Resilience (AMBER), EU FP7 CA, 2008-2009.
- Dependability and Security by Enhanced Reconfigurability (DESEREC), EU FP6 IP, 2006-2008.
- Highly Dependable IP-based Networks and Services (HIDENETS), EU FP6 STREP, 2006-2008.
- Minőségorientált, összehangolt oktatási és K+F+I stratégia valamint működési modell kidolgozása a Műegyetemen (TÁMOP-4.2.1/B-09/1/KMR-2010-0002) projekt,”Modell alapú tervezési és analízis módszerek kidolgozása kritikus számítógépes rendszerekhez” kutatási téma.
1.6 feladat: A BME-IK és a BME-IIT tanszék több éve foglalkozik elosztott rendszerek fejlesztésével. Részt vettünk az e-Közigazgatási Keretrendszer (EKK) megvalósításában. A projekt során és az azóta történt kutatások során sok tapasztalatot szereztünk elosztott rendszerek (RMI, CORBA, SOA, webszolgáltatások) modellezésében és fejlesztésében. Jelenleg is számos oktató, doktorandusz és hallgató dolgozik ezeken a tématerületeken.
1.7. feladat: A „Modellvezérelt alkalmazásfejlesztés eltérő mobil platformokra” feladathoz tartozó nemzetközi és hazai kutatási projektek (BME AUT):
- Mobil Innovációs Központ (2007-2009)
- BME (IT)2 (2008-2009)
- BME Kutatóegyetem: Modellezés és modellfeldolgozás (2010-2012)
- Metamodell-alapú modelltranszformáció, T-Mobile, 2005
- Szolgáltatásmodellezés, T-Mobile, 2006
- Multi-Platform Mobile Development, Nokia, 2010
- Smart City, IBM
1.1. feladat: A „Mobil keresztplatform tervezési minták” feladathoz tartozó nemzetközi és hazai kutatási projektek (BME AUT): Peer-to-Peer lehetőségek vizsgálata okostelefonokon és középkategóriás készülékeken, kutatási és fejlesztési együttműködés a Nokia Research Center-el, 2007-2010: A kutatás eredményeképpen elkészült két peer-to-peer megoldás okostelefonokra, valamint egy eszköz középkategóriás készülékekre, az eredmények publikálásra kerültek és nyílt forráskódú megoldásként is megjelentek. Hatékony tartalommegosztás hybrid Peer-to-Peer hálózatokban, kutatási és fejlesztési együttműködés a Nokia Siemens Networks Kft-vel, 2008: A kutatás eredményeképp egy hatékony tartalommegosztó rendszer készült el, mely tehermentesíti a hálózatot különféle peer-to-peer módszerek felhasználásával. Az eredmények publikálásra kerültek. „Streaming alapú média megosztás”, kutatási és fejlesztési együttműködés a Magyar Telekom-mal, 2011: A kutatás eredményeképp egy Android alapú újszerű, hatékony, streaming megoldás született, mely kiemelten támogatja a digitális tartalom védelmét is. Cross-platform alkalmazás leírás, kutatási és fejlesztési együttműködés a Mobil Innovációs Központ-tal, 2008-2009: A kutatás lezárultával elkészült egy keretrendszer, mely egy közös nyelven leírt alkalamzás modellből különböző platformokon futó alkalmazás kódot képes generálni. Az eredmények publikálásra kerültek.
1.2,1.3,1.4 feladat: A Telenor és a Nokia által finanszírozott K+F projekt során kialakult egy nyílt forráskódú mobil alapú platform (Telenor EDH), amely kellően skálázható, moduláris és biztonságos. A platform jó alapot ad a további fejlesztésekhez, mivel magába foglalja a különböző mobil platformokat (Nokia Symbian, Android) és a központi skálázható platformot. Az előző K+F projektek során kidolgoztunk egy módszertant és az ezt kiegészítő eszközkészletet, amely segítségével mérhető az adott tervezési minták által biztosított szoftver fejlesztői produktivitás. Ezzel a mérőléccel tudjuk majd a különböző tervezési mintákat kiértékelni. A DEAK Zrt-nél folytatott K+F projektek során kialakítottunk egy mobil telefon alapú döntés és folyamattámogatást megvalósító szoftver referencia architektúrát is, amely jó alapot képez a jelen projektben a végfelhasználói programozáshoz kötődő architektúrális és operatív szintű tervezési minták kutatásához. A tervezési minták kiértékelésénél fontos a karbantarthatóság, mint metrika, ezen a területen a Szoftverfejlesztés tanszék a világ első 10 kutatócsoportjába tartozik.
1.6 feladat: Az e-Közigazgatási Keretrendszer (EKK) projektet sikeresen teljesítettük. A témában számos, nemzetközi konferenciákon is megjelent publikáció született.
Módszertan
A kutatást iteratív módon végezzük az alábbi tevékenységsort ismételve:
Hipotézis->mérés->elemzés következtetés-> új, módosított hipotézis, …. A hipotézisek validálása (tervezési minták mérése) csak úgy történhet, hogy vizsgált tervezési minta alapján adott funkcionalitásokat megvalósítunk, és közben mérjük az adott tervezési minta halmaz jellemzőit (pl.: fejlesztői produktivitás, teljesítmény, adaptálhatóság, …).
1.1 feladat: A „Mobil keresztplatform tervezési minták” feladathoz alkalmazandó kutatási módszerek: Hálózati kommunikációs technológiák vizsgálata és elosztott működésre való tervezési minták kidolgozása az egyes technológiákhoz. Adattárolási elvek vizsgálata mobil eszközökön és tervezési minták és módszerek kidolgozása titkosított és biztonságos adattárolásra, valamint továbbításra.
1.2,1.3,1.4 feladat: A különböző képességeket megtestesítő P2P algoritmusok kutatása (kontextusokhoz adaptálódó pletyka lapú algoritmusok gépi tanulás és statisztika támogatására, …).
Itt a hipotézisben szereplő algoritumsokat meg kell valósítani és a skálázhatóságukat, hatékonyságukat megfelelő szimulátorokkal meg kell vizsgálni majd a tanulságok levonása után új/módosított hipotéziseket kell előállítani. Az igazolt hipotézisek konkrét P2P algoritmusok formájában lesznek publikálva. A szemantikus réteg esetén a legfontosabb kérdés a megfelelő a különböző kontextusokat leíró ontológiák létrehozása ezek használhatóságának vizsgálata és magának a következtető motornak a mobil követelményeknek megfelelő következtető algoritmusainak kutatása. Mindkét terület vizsgálatához a konkrét implementáció és annak megfelelő valós környezetben futtatott mérése, kiértékelése szükséges. z igazolt hipotézisek konkrét tervezési minták formájában lesznek publikálva és ezek nyílt forrású referencia megvalósításával lesznek publikálva. A felhő absztrakció réteg esetén a kötött adatokhoz adaptált algoritmusok, működési módok kutatása és fejlesztése a legfontosabb kérdés. Itt az implementáció után egyrészt a skálázhatóságot szimulátoron (> 100.000). A valós környezethez történő alkalmazkodást valós kísérletekben (~100 felhasználó) történő mérések és ezek kiértékelése szükséges. Az igazolt hipotézisek konkrét tervezési minták formájában lesznek publikálva és ezek nyílt forrású referencia megvalósításával lesznek publikálva. A futtató konténer és a végfelhasználó programozás kiértékeléséhez a valós implementáció mérése és ennek mérése szükséges. Az igazolt hipotézisek konkrét tervezési minták formájában lesznek publikálva és ezek nyílt forrású referencia megvalósításával lesznek publikálva.
1.5 feladat: A „mobil és szenzorhálózat monitorozás és verifikáció” feladathoz alkalmazni kívánt kutatási módszerek: Elosztott, on-line (futásidőbeli) monitorozási és diagnosztikai algoritmusok tervezése, valamint ezek helyességének verifikációja formális módszerek alkalmazásával. Alacsony szintű átkonfigurálási technikák tervezése és ezek hatásvizsgálata modell alapú szolgáltatásbiztonsági analízissel.
1.6. feladat: „A mobil közigazgatás” feladathoz alkalmazni kívánt kutatási módszerek: Integrációs technológiák, ESB megoldások elemzése, formális tesztelési modellek kialakítása. M-Közigazgatási kommunikációs modellek és sémák kialakítási módszertanának megalapozása.
Produktivitás beépülő modul a szoftverfejlesztők produktivitásának mérésére (SZTE által fejlesztett nyílt forrású Eclipse plugin)
Pénzügyi rendszerek
Alprojekt vezető: Prof. Dr. Levendovszky János (BME)
Prof. Dr. Levendovszky János okleveles villamosmérnökként végzett 1986-ban a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karán. PhD fokozatát ugyanitt szerezte meg 1995-ben, 2004 óta pedig az Magyar Tudományos Akadémi doktora. Kutatási területei az adaptív algoritmusok, neurális hálók, kommunikációs hálózatok, statisztikus döntéselmélet, algebrai kódelmélet. Gyakori vendégkutatói meghívásai különböző neves külföldi egyetemeken biztosítják széles látókörét és nemzetközi szakmai kapcsolatainak sokféleségét, melyek különböző kutatási együttműködésekben válnak gyümölcsözővé mind a nemzetközi kutatói közösség, mind pedig a hazai kutatók számára.
Napjaink egyik fontos kihívása a nagy pénzügyi adatbázisokban és idősorokban történő adatbányászat és az ehhez kapcsolódó kis kockázatú, algoritmikus kereskedési módszerek kidolgozása. A tőzsdéken végzett algoritmikus kereskedés volumene manapság meghaladja a 80%-ot, azaz minden öt ügylet közül négyet a számítógépek önállóan, emberi beavatkozás nélkül végeznek. Ebben a környezetben alapvető fontosságú a pénzügyi idősorokat feldolgozó algoritmusok korlátainak és teljesítőképességének vizsgálata, illetve új – biztonságosabb kereskedést eredményező – módszerek kutatása. A BME Pénzügyi Innovációs Központhoz tartozó kutatócsoportja 2009 óta folytatnak idevágó kutatásokat, amelyek a pénzügyi számításelméleti háttér mellett a pénzügyi adatbányászati algoritmusok SW tesztkörnyezetének megteremtését, valamint a kidolgozott módszerek teljesítőképesség analízisét végzik valós históriai adatsorokon (Forex, SP500, SWAPs,… etc.). A rendkívüli méretű és elhúzódó globális válság hatására az érdeklődés az elmúlt időszakban fontossá vált a pénzügyi kockázat, a kockázatelemzés és –kezelés, valamint az eredetileg a biztonságot célzó, de időközben igen veszélyesnek nyilvánított bonyolult származtatott pénzügyi termékek vizsgálata. Az analízist nagymértékben segíti, hogy az infokommunikációs eszközöknek köszönhetően a rendelkezésre álló adatmennyiség ugrásszerűen megnőtt. Az elemzés módszerei, a modellezési technikák ezekre az adatokra és számítógépes szimulációs módszerekre támaszkodnak. Kockázati szempontból fontos a kockázatfelosztást vizsgálni nem likvid piacok es rendszerkockázat esetén. Mindehhez szükséges az utóbbi évtized egyik legjelentősebb tudományos fejleménye a hálózatkutatás új módszereinek és szemléletének az alkalmazása. A hatalmas adatbázisokban rejlő információ vizsgálatára a gráfelmélet, adatbányászat és mesterséges intelligencia módszertanát alkalmazták. Az idősorok analízisének és adatbányászatának az egyik legfontosabb feladata rejtett minták, és korrelációk feltárása, amely segít a pénzügyi piacok állapotának és működésének jobb megértésében és hatékony kereskedési algoritmusok kidolgozásában, valamint a portfóliók és kereskedési módok kockázatának felmérésében. A szöveges adatok felhasználása internetes forrásokból (blog, twitter, hírfolyamok, stb.) pénzügyi trendek jelzésére még nem teljesen körüljárt terület. Ugyanakkor fontos a pénzügyi rendszerek, gazdasági kapcsolatok nagyléptékű (teljes adatbázisok alapuló) modellezése, ahol az ágensek közti kapcsolatokat is figyelembe vesszük. Az átalakuló rendszerek fő kérdései a kockázat, biztonság, a növekedés valódi okai. Ezek a kérdések szokványos eszközökkel nem válaszolhatók meg, szükséges új módszerek kidolgozása A kockázatfelosztáshoz kapcsolódó kutatásoknak számos alkalmazási lehetősége van: ezt használhatjuk a bankok tőkekövetelményének meghatározásakor, új üzletágak létrehozásakor a stratégiai döntésben, termékárazásra, teljesítményértékelésre és kockázati limitek felállítására. Mivel a pénzügyi piacok nem végtelenül likvidek, a hagyományos piaci érték alapú értékelést, kockázatmérést és kockázatfelosztást korrigálni kell. Ez új perspektívákat nyithat a már említett alkalmazások esetén, és segíthet annak beazonosításában, hogy melyik pénzügyi intézmény mennyire fontos rendszerszinten, így csökkentve a jövőbeli pénzügyi válságok bekövetkezését. Az IKT-nek köszönhetően rendkívül felgyorsult és komplex módon összefüggő világunkban kis változások az ún. dominó-elvnek megfelelően olykor globális hatásokat váltanak ki. Az ilyen lavina-effektusok megértése alapvető a globális válságok megelőzése és kezelése szempontjából.
Célkitűzés
Adatbányászati és algoritmikus kutatások a pénzügyi kereskedésben és kockázatelemzésben. Hatékony SW implementációk, teszt környezet és teljesítőképesség analízis kidolgozása a módszerek összehasonlító analíziséhez.
Párhuzamos implementációk kifejlesztése „magas frekvenciás” kereskedéshez. Az egyes piaci kereskedések statisztikai modellezése („a kereskedési könyv” dinamikus modellezése). A tevékenység másik célja olyan módszertan kifejlesztése, amely egy újszerű módszerrel árfolyam előrejelzést készít, felhasználva a numerikus árfolyamadatok mellett szöveges adatforrásokat is. A javasolt kutatások lehetővé teszik, hogy az árfolyam előrejelzés pontosságát, megbízhatóságát növeljük, egyúttal megvizsgáljuk a hírek és vélemények hatását a tőzsdei árfolyamokra és ezáltal megvizsgálhassuk azok hatásait a tőkepiacokra vonatkozóan. Hálózatkutatási módszerek alkalmazása pénzügyi rendszerek modellezésére és elemzésére. Kockázat megosztási kutatások: a egy pénzügyi vállalkozás (bank, biztosító, stb.) több alegységből áll, akkor nem csak az a fontos, hogy jól mérjük a vállalkozás egészének kockázatát, hanem az is, hogy meghatározzuk, hogy az alegységek hogyan járulnak hozzá ehhez a kockázathoz. A kutatás célja a ennek a kockázatfelosztásnak a vizsgálata nem likvid piacokon és rendszerkockázat esetén, játékelmélet, szimulációs módszerek és kísérleti közgazdaságtan segítségével. A vizsgálatokhoz nagy frekvenciás adatok sajátosságaira támaszkodunk. A pénzügyi rendszerekben megfigyelhető lavinaeffektusok elemzése és modellezése.
A kutatás során jobban megérhető a pénzügyi idősorok természete, az ezeken definiált portfóliók kockázata, a kereskedés dinamikája. Ez elősegítheti a biztonságosabb pénzpiaci működést és viselkedést, valamint az egyes pénzügyi termékek értékközeli kereskedését.
Másrészt a kutatás a modellezhetőség lehetőségét (illetve a már létrejött modellek finomítását) célozza. Ennek során tisztázhatók a hálózatok változóinak és a topológiájának a szerepe, a modell kiértékelésének módszertana illetve a megoldás tényleges kivitelezhetősége.
Alapkérdés, hogy lehetséges-e az igazságos kockázatfelosztás nem likvid piacokon és a rendszerkockázat szintjén, vagy ha nem, akkor milyen szempontokról kell lemondanunk.
Továbbá az is kérdés, hogy hogyan lehet jól alkalmazni a kockázatfelosztást a rendszerkockázat vizsgálatára, így azonosítva a rendszerszinten fontos pénzügyi intézményeket. A lavinaeffektusok pontosabb megértése, modellezése és ezáltal olyan szabályozás elősegítése, amely lehetővé teszi elkerülésüket. Az eredményeket nemzetközi folyóiratokban és konferenciákon fogjuk publikálni Eredmények a következő csoportokban várhatók:
1. Mean reverting portfóliók optimalizálása „ritkás portfóliók” kényszere alatt, amellyel a tranzakciós költségeket lehet minimalizálni. Új prediktív alapú kereskedési algoritmusok kidolgozása soft computing módszerekkel (Support Vector Machine, Előrecsatolt Neurális háló, Rekurrens neurális háló). Nemparaméteres statisztikai és gépi tanulási eredményekre támaszkodva új előrejelzési módszertanok kidolgozása, amelyek hatékonyan alkalmazhatók olyan komplex idősorok esetén, ahol a meglévő folyamatstatisztikai modellek és módszerek nem működnek, valamint sz0veegs adatbázisok használata.
2. Új adaptív approximációs technikák kidolgozása kockázatelemzéshez, valamint pénzügyi idősorok identifikációjára, illetve piacok és megrendelések dinamikájának modellezésére.
3. A módszerek SW implementálása, tesztkörnyezet létrehozása és kiterjedt teljesítőképesség analízise alapján egy algoritmikus rangsor kidolgozása.
4. A különböző típusú adatokból történő gráf felépítések közti döntés; melyik milyen alkalmazások mellett releváns
5. A változók felhasználhatósága, esetleges transzformációinak a szükségessége.
6. A hatásokat összegző lehetséges modellek összehasonlítása és a kiértékelésüket elvégző algoritmusok kifejlesztése. Melléktermékként remélhető az emberi erőforrás fejlesztése és esetleges benchmark problémák létrejötte.
7. Az igazságos (stabil, ösztönző és egyenlően kezelő) kockázatelosztás lehetetlenségének bebizonyítása. Annak megmutatása, hogy a különböző kockázatelosztási módszerek milyen igazságossági követelményt sértenek meg általános esetben, és nem likvid portfóliók esetén is.
8. Véletlen kockázatelosztási helyzetek szimulálása általában és különböző likviditási helyzetekben, annak eldöntésére, hogy átlagosan mekkora arányban sértjük meg az igazságossági követelményeket.
9. A lavinaeffektusok pontosabb megértése, modellezése és ezáltal olyan szabályozás elősegítése, amely lehetővé teszi elkerülésüket. Az eredményeket nemzetközi folyóiratokban és konferenciákon fogjuk publikálni
Előzetes eredmények
A Szegedi Tudományegyetemen az elmúlt években különböző fertőzési (összefüggőség, közösség alapú és a Domingos-Richardson) modellek alkalmazásait vizsgáltuk többek között csőd (default), a lemorzsolódás (churn) előrejelzésére és az esetleges csalások megállapítására (fraud detection). A hálózatokat tranzakciós adatok illetve hasonlósági metrikák által generáltuk. Ezen felül kísérletet tettünk a fertőzési modellek működéséhez szükséges fertőzési valószínűségek tapasztalati úton történő megállapítására.
A BME Pénzügyi Innovációs Központban az elmúlt periódusban korrelált idősorokon való kerekedési algoritmusok, valamint mean reverting portfóliók optimalizálásra vonatkozó algoritmusok kifejlesztése történt. Másrészt kockázati- és megbízhatósági mértékek nagy állapottér feletti kiszámításához hatékony mintavételezési technikák kerültek kifejlesztésre.
A BME Fizikai Intézete Magyarországon úttörő szerepet játszott a pénzügyi rendszerek elemzésének és modellezésének új, a statisztikus fizika eszköztárát és fogalmait felhasználó tudományágának a meghonosításában. A világon először szerveztünk tudományos műhelyt a gazdaságfizika területén, amit azóta számos hasonló rendezvény követett. Kiterjedt vizsgálatokat végeztunk az ú.n. Trade and Quote, valamint az ajánlati könyvre vonatkozó adatokon és modelleket alkottunk az eredmények értelmezéséhez.
A Corvinus Egyetemen a kockázat mérésénél Csóka, Herings és Kóczy (2007) cikkünkben koherens kockázati mértékeke vizsgáltak általános egyensúlyelméleti szempontból. Csóka, Herings és Kóczy (2009) kooperatív játékelméleti módszerekkel vizsgálta a kockázatelosztást és belátta, hogy mindig van stabil elosztási módszer. A pénzügyi piacok likviditásához kapcsolódva a nem likvid portfóliók kérdését veti fel a Balog, Bátyi, Csóka, Pintér (2010) cikk. A kockázatelosztási játékok vizsgálat során felmerülő kooperatív játékelméleti eredményeket közöl Csóka (2003), Csóka, Herings és Kóczy (2011), Csóka, Herings, Kóczy és Pintér (2011) Balog, Bátyi, Csóka Pintér (2011).
Az idevágó kutatások végeredménye implementálható algoritmusok voltak, amelyek egyrészt nyereséges kereskedésre voltak képesek a históriai Forex, SP500-as adatsorokon, illetve hatékony algoritmusok kockázati mértékek real-time kiszámolására.
Sikeres vizsgálatokat végeztünk a tőzsdei árfolyamok jellemzőinek skálaviselkedésére, az ún. fluktuáció skálázásra és a méreteffektusokra vonatkozóan. Részletesen vizsgáltuk az árfolyamok közötti korrelációkat, illetve azok zajmentesítésének lehetőségét. Ezek az eredmények közvetlenül felhasználhatók voltak a portfólió-optimalizálás problémájának kezelésénél. Elméletet dolgoztunk ki a korrelációk függésére azon időablaktól, amelyen az árfolyamváltozásokat figyelembe vesszük. Elsőként vizsgáltuk az időfüggő keresztkorrelációkat és segítségükkel kimutattuk, hogy a piaci hatékonyság egyre növekszik. Részletesen tanulmányoztuk az ajánlati könyvet, és a különböző karakterisztikus idők közötti összefüggésekre egyszerű modellt dolgoztunk ki. Megvizsgáltuk, hogy az árfolyamban megjelenő hirtelen változás milyen hatással van a keresleti és kínálati ár közötti különbségre, a kereskedett volumenre és a volatilitásra, valamint az ajánlati könyv alakjára. Modellszámolásokkal megmutattuk, hogy a spontán fluktuációk hatására létrejövő nagy eltérések lassabban csengenek le, mint a külső hatásra bekövetkezők.
A fertőzési (összefüggőség, közösség alapú és a Domingos-Richardson) modellek alkalmazásaira vonatkozó kutatások szintén bíztató eredménnyel zárultak, a modellek a fent említett feladatokra jól alkalmazhatóak. A fertőzési modellekből nyerhető előrejelzések jelentős javulást adnak, ugyanakkor az alkalmazott módszerek mélyebb megalapozásra, az algoritmusai fejlesztésre szorulnak.
Módszertan
A kutatás során a sztochasztikus optimalizálás, soft coputing és adaptív rendszeridentifikáció módszereit használjuk. Szimulációkat MATLAB, C++ platformon végzünk. Illetve az adatbányászat eszközeit kell használnunk az adatok kinyerésére, tisztítására, szegmentációjára. A gráfok felépítésére, az attribútumok élekhez/pontokhoz kapcsolására és a hatások modellezésére saját eljárásokat szándékozunk ki-, továbbfejleszteni.
A kutatási módszerek közé tartozik az adatok tisztítása, feldolgozása, elemzése. Az elemzés során olyan mértékek bevezetése felmerül, amely alkalmas a lavinajelenségek új szempontú leírására. A modellezés során az egyszerű, a jelenség lényegét megragadó modellekből indulunk ki, és ezeket fokozatosan illesztjük egyre jobban az empirikus megfigyelésekhez.
A kereskedési algoritmusok fejlesztésénél rendszer back end oldala RESTful web service-ként kerül implementálásra, így a kommunikáció a kliensek és a szerver között HTTP protokollon keresztül zajlik.
Technológiai szempontból a back end Microsoft .NET környezetben készül, C# programozási nyelvvel. Az adatbázis pedig Microsoft SQL Server-ben kerül megvalósításra. A web service-ek Microsoft WCF-fel készülnek, így a szerver által visszaadott és elvárt adatformátumok könnyen konfigurálhatók. A jelenlegi IOS kliens és a szerver pl. JSON segítségével kommunikál. E mellé szabadon felvehetőek újabb endpointok, amik mögött ugyanaz a kód fut, de pl. XML (vagy akár más) formátumban adják vissza az adatokat.
A Yahoo! finance által visszaadott fontosabb adatok a következőek: Legutóbbi kötés árfolyama Százalékos változást Előző napi záró árfolyam Átlagos napi forgalom Bid, Ask (Jelenleg a Yahoo az NYSE-n kereskedett papírokhoz sajnos null-t ad vissza, a többi részvényen ez működik) A cég által fizetett legutóbbi osztalék mértéke Napi/Éves minimum/maximum Piaci kapitalizáció EBITDA 200 és 50 napos mozgó átlagtól való eltérés százalékban és az adott devizában
A tőzsdei árfolyamokat és a Twitter bejegyzések összekötését az utóbbiakben megjelenő hashtag-ek alapján végezzük el: olyan bejegyzéseket gyűjtünk össze egy adatbázisban, ahol egy-egy kiemelten fontos értékpapír rövidítése, tickerje jelenik meg mint hashtag azonosító. Ebből a fajta adathalmazból már rendelkezésünkre áll egy több száz napos időintervallumra vonatkozó adathalmaz az amerikai értékpapírpiac kiemelkedő néhány részvényére. A projekt kezdetén ezen adathalmazt fogjuk kiterjeszteni úgy, hogy a projekttel párhuzamosan megjelenő újabb bejegyzések is az adathalmaz részei legyenek. Ehhez olyan külső adatszolgáltatók forrásadatit integráljuk, melyek a Twitter speciális keresési eredményeit tárolják permanensen, ezáltal lehetségessé válik a Twitter szervereinek túlterhelése nélkül elérni a twitteren megjelenő hatalmas adatmennyiség megfelelő kezelése. Természetesen a játékelméletet és a kísérleti közgazdaságtan módszertanát is felhasználjuk.
Saját számítási erőforrásokat használunk (PC, klaszteralapú szuperszámítógép), ugyanakkor GP GPU beszerzésére szükség lehet, illetve a partnereink az adatok tisztításában, kiértékelésében nyújtanak szoftver és hardver támogatást.
Társadalmi struktúrák
Alprojekt vezető: Prof. Dr. Vicsek Tamás (ELTE)
Prof. Dr. Vicsek Tamás az ELTE Biológiai Fizika Tanszékének egyetemi tanára, és az MTA-ELTE Statisztikus és Biológiai Fizika Kutatócsoportjának vezetője. Az elmúlt 25 évben a következő területeken végzett kutatásokat: aggregációs jelenségek; fraktálnövekedés; mintázatképződés (számítógépes és laboratóriumi kísérletek); kooperatív biológiai rendszerek (baktériumtelepek, sejttenyészetek, rajzás) modellezése és kísérleti vizsgálata; kollektív emberi viselkedés (szinkronizáció, pánik, szociális hálózatok); komplex hálózatok struktúrája és dinamikája. PhD fokozatát 1975-ben a debreceni Kossuth Lajos Tudománygyetemen szerezte. Több egyetemen volt vendégkutató ill. vendégprofesszor, köztük az Emory, a Yale, és a Notre Dame Egyetemeken. A Magyar Tudományos Akadémia és az Academia Europea tagja, az Amerikai Fizikai Társaság tiszteletbeli tagja. 165 cikke jelent meg vezető nemzetközi folyóiratokban, és további 5 könyvet publikált mint szerző ill. szerkesztő.
A digitális adatrögzítés következtében új dimenziók nyíltak a társadalmi struktúrák, közösségi csoportok, intézmények stb működése során keletkező adatok vizsgálatára. Az intézményi feladatok célra törő megtervezése vált lehetővé az ellátandó feladatokról gyűjthető, eddig elképzelhetetlen részletességgel archiválható és feldolgozható adatok következtében. A társadalmi szintű igények, trendek kimutatása és követése a mindennapok során keletkező adatfolyamok felhasználásával az újabb nemzetközi kutatások célpontja. Például az egészségpolitikai döntéseket az orvosi eljárások, a közegészségügyben statisztikai szinten megjelenő orvosi gyakorlat és népegészségügyi állapot jelentősen meghatározzák.
A társadalom működését meghatározó szervezetek, intézmények kialakításánál mindig fontos szempont a megfelelő emberek kiválasztása, a hatékony működéshez pedig elengedhetetlen ezeknek az egyéneknek az együttműködése, az egyének és intézményi részegységek közti információ-csere biztosítása. Több nemzetközi kutatócsoport is intenzíven foglalkozik az információ-terjedési hálózatok, illetve a közösségek vagy egyének együttműködési hálózatának vizsgálatával.
A társadalmi struktúrák működését nem csak a hétköznapokban felmerülő igények, hanem az intézményen belüli viszonyok is jelentősen meghatározzák. Az intézményekben dolgozó egyének és a társadalmi struktúrákat felépítő csoportok közti interakciók mintázatainak vizsgálata segít a kialakuló hatékony vagy éppen nehézkes együttműködések, lassú vagy gyors információ-cserék előrejelzésében. Ezeknek a folyamatoknak kiváló modell rendszerei az utóbbi évek technológiai fejlődésének köszönhetően megjelenő újfajta publikációs formák, és a hagyományos publikációkról gyűjthető nagy pontosságú adatrendszerek. Az internetes fórumokon, a blog oldalakon, az interaktív közösségi oldalakon a közlemények megjelenése igen gyorsan történik, így az információk terjedése és frissülése napi vagy akár még gyorsabb ütemben is lehetséges. Az on-line média gyors reakcióideje és a hagyományos publikációs archívumok időben egyre bővülő részletes adatai lehetővé teszi azt is, hogy a szerzők közti emberi kapcsolatok, viták, együttműködések felépülését, alakulását is vizsgálni lehessen.
Döntéshozók számára fontos terület a közegészségügyi intézményhálózat. Az egyének betegségeinek kezelése mindig egyedi elbírálást igényel, mégis ha egyének sokaságát vizsgáljuk, akkor a nagy skálán már mutatkoznak univerzális (általános) törvényszerűségek, amelyek statisztikus átlagban társadalmi méretekben lesznek érvényesek. A mai biztosítói illetve kórházi nyilvántartási adatok számítógépes adatbázisai már lehetőséget adnak arra, hogy nagy skálájú statisztikus összefüggéseket vizsgáljunk. Kapacitás-tervezési szempontból fontos, hogy statisztikai megbízhatóságú jóslásokat lehessen tenni az egyes betegségek előfordulásairól, a betegségek közti közvetlen vagy közvetett összefüggésekről, például a betegségek gyakori együttes előfordulásai vagy a tipikus betegség-lefolyási idősorok vizsgálatával.
Célkitűzés
Célunk a társadalmi struktúrák modellezése, a társadalmi folyamatok megértéséhez fontos kapcsolatok, belső törvényszerűségek nagy mennyiségű, a mindennapok során keletkező és digitálisan rögzíthető adatokon alapuló vizsgálata. Például az egészségügy számára a betegségek közti kapcsolatok, a populációra jellemző paraméterek és a környezeti tényezők változásának figyelembe vételével az egyes betegségek statisztikus előfordulásának, ellátásukra szolgáló intézmények terhelésének elemzése. Online médiák, publikációs archívumok és egyéb kommunikációs csatornák adataira alapozva keressük azokat a hálózati topológiai jellemzőket, amelyek segítenek az együtt dolgozó csoportok azonosításában, a párhuzamosságok felderítésében. Keressük továbbá azokat a jellegzetességeket, amelyek segítenek a társadalom igényeit ellátó intézmények fejlesztéséhez fontos részegységek, csoportok illetve egyének azonosításában és az együttes viselkedési minták jóslásában.
A döntéshozói támogatás és társadalmi méretű folyamatok jósolhatóságának kutatásához kapcsolódó modelleket és eljárásokat tervezünk kidolgozni.
Előzetes eredmények
A csoportnak jelentős tapasztalata van nagyléptékű hálózatos adatbázisok szerkezetének, a bennük lévő áttételes kapcsolatoknak a felderítésében, modellezésében. Nagy sikerű klaszterezési eljárást dolgoztunk ki, amely a többszörös kapcsolódások segítségével gyűjti össze a hasonló jellemzőket mutató objektumokat. Az eljárás a kapcsolatok súlyát és irányultságát is képes figyelembe venni, továbbá az időfejlődést is képes követni.
Tanulmányoztuk címkézett hálózatok tulajdonságait, az elméleti módszereket tudományos és online publikációk, továbbá biológiai kölcsönhatási hálózatokon mutattuk be. További, kapcsolódó kutatások folytak állatok és egyszerű gépek csoportos viselkedéséről is.
Publikációk és konferenciákon bemutatott előadások, poszterek születtek és publikusan letölthető szoftver készült az eddigi eredmények alapján.
Módszertan
Az egymással kapcsolatba hozható események, intézmények, betegségek és jellemzőik hálózatba rendezése után a hálózat topológiájának, statisztikai jellemzőinek a vizsgálatával időbeli változások mintázatának nyomon követésével tervezzük a kutatást végezni. A publikációk és online szövegarchívumok elemzéséhez az archívumok elemeit és metaadatait címkézett hálózatokként ábrázoljuk. Ezeknek a hálózatoknak tervezzük vizsgálni a belső konzisztenciáját, a címkék és a topológia viszonyát.
Elsősorban saját fejlesztésű szoftverekkel dolgozunk, amelyek hálózati jellemzők számítását, vizualizációjat segítő nyílt forráskódú szoftver-könyvtárakat használnak.
Teljesen elosztott adatfeldolgozás és adatbányászat
Alprojekt vezető: Dr. Vinkó Tamás (SZTE)
Dr. Vinkó Tamás 2000-ben végzett programtervező matematikusként a Szegedi Tudományegyetemen, majd ugyanitt szerezte meg PhD fokozatát 2007-ben globális optimalizálás témakörben. Posztdoktori kutatóként hat évig dolgozott Hollandiában, két évet az Európai Űrügynökség ACT csoportjában, majd a Delfti Műszaki Egyetem Párhuzamos és Osztott Számítások Tanszékén. Jelenleg a Szegedi Tudományegyetem Számítógépes Optimalizálás Tanszékének adjunktusa, kutatási területe az elosztott rendszerek matematikai modellezése.
A teljesen elosztott algoritmusok kutatása az utóbbi évtized során óriási fejlődésen ment keresztül. Jellemző területei a peer-to-peer (P2P) hálózatok, a grid és cloud computing, valamint a szenzorhálózatok. Ezen területek jelenleg konvergálnak egy közös platformon, amit az okostelefonok hálózata alkot. Ez a hálózat ötvözi magában a fenti területek jellemzőit, hiszen internet eléréssel rendelkező, lokális kommunikációra is képes (bluetooth, ad hoc wifi), rengeteg szenzorral felszerelt és viszonylag erős hardverrel rendelkező eszközök hatalmas méretű, dinamikus és heterogén hálózatáról van szó. Ennek megfelelően a terület iránt a nemzetközi érdeklődés mind az akadémiában, mind az iparban exponenciálisan növekszik, ahol kiemelt szerepet kapnak az alprojekt által vizsgálni kívánt alapkutatási területek.
A teljesen elosztott algoritmusok kutatása a futurICT globális céljai szempontjából rendkívül releváns, hiszen a társadalmi jelenségek vizsgálatához szükséges eddig elérhetetlen adatok elemzését végezhetjük el a segítségével, mégpedig hatékonyan és az adatvédelmi szempontok figyelembe vételével.
Célkitűzés
Olyan algoritmusok, mechanizmusok és protokollok kifejlesztését, vizsgálatát és prototípus szintű megvalósítását tervezzük, amelyek az okostelefon hálózatokban keletkező nagy mennyiségű adat teljesen elosztott feldolgozását teszik lehetővé az adatvédelmi szempontok figyelembevételével. Céljaink közt szerepel: olyan adatbányász algoritmusok vizsgálata, amelyek különböző (egy alkalmazás által definiált) jelenségek és események előrejelzését, jóslását teszik lehetővé; a mobil képalkotás és mobil készülékek kapcsolatfelvételének lehetőségeit és újfajta információtartalmat kihasználó algoritmusok tervezése; a felmerülő optimalizálási problémák vizsgálata és hatékony megoldása, elsősorban az egyes ösztönző mechanizmusokra és osztott erőforrás elosztásra fókuszálva; olyan elosztott, hierarchikus adatbáziskezelő algoritmusok fejlesztése, amellyel kevés erőforrással rendelkező eszközök is képesek lehetnek nagyon nagy és sok relációt tartalmazó adathalmazok tárolására és konkurrens módosítására anélkül, hogy a teljes adathalmazt bármely eszköz képes lenne önmagában tárolni; valamint elosztott architektúrákon történő adatkezelési, adatelemzési, gépi tanulási és ajánló módszerek kutatása.
A valós adatokon végzett szimulációk mellett célunk az elméleti alapkutatások eredményeinek több esettanulmányon keresztüli demonstrálása.
A futurICT céljaihoz elengedhetetlen, hogy a napjainkban keletkező, eddig soha nem látott mennyiségű adatot intelligens, hatékony és etikus módon elérhessék a társadalomtudósok, orvosok, politikai vezetők, és általában a polgárok is. Az elosztott algoritmusok kulcsszerepet játszanak ebben, hiszen lehetővé fogják tenni, hogy az okostelefonok milliárdjai hasznos információval szolgálhassanak a legkülönbözőbb társadalmi, orvosi, és tudományos kérdések modellezésében. Mindezt az adatvédelmi szempontok figyelembe vételével, és hatékonyan.
Az alprojekt erőteljesen kapcsolódik a futurICT kezdeményezés Planetary Nervous System, és Global Participatory Platform elemeihez.
Az eredményeinket -elosztott algoritmusok leírása és elemzése- színvonalas nemzetközi és hazai konferenciákon, valamint hatástényezős folyóiratokban kívánjuk publikálni. Ezen kívül az okostelefon középréteget fejlesztő alprojekttel együttműködve prototípus implementációk is születnek majd az algoritmusainkhoz.
Előzetes eredmények
Az MTA-SZTE Mesterséges Intelligencia Kutatócsoportban a témával kapcsolatos kutatások évtizedes múltra tekintenek vissza. Jelasity Márk kutatási területén, ami főleg a pletyka alapú és más önszervező algoritmusokra terjed ki, aktív kutatás folyt ez idő alatt. Az ilyen irányú kutatások támogatást is nyertek több alkalommal. Az elosztott optimalizálás témájában az ESA részére elosztott P2P architektúrák alkalmazhatóságát vizsgáltuk komplex optimalizálási feladatok elvégzésére. Ennek során elosztott hiper-heurisztikákat fejlesztettünk ki, és a branch and bound algoritmus P2P megvalósítását készítettük el. Vizsgáltuk a részecskeraj algoritmus P2P adaptációit is. A QLectives EU FP7 FET projekt keretében pedig elosztott adatbányászattal foglalkozunk. Elosztott ajánló rendszereket fejlesztettünk ki, és egy számos más célra is alkalmazható teljesen elosztott tanulást támogató keretrendszert vezettünk be és implementáltunk. Ezen kívül Jelasity Márk két alkalommal nyerte el az MTA Bolyai kutatási ösztöndíját, elosztott rendszerek témakörben.
A mobil eszközök kooperatív képalkotása során különösen kis számítási komplexitású regisztrációs eljárásokra van szükség. Az utóbbi években ezen a területen értünk el jelentősebb eredményeket. Munkánkat az Országos Tudományos Kutatási Alapprogramok (OTKA) támogatta "Parametric Estimation of Linear Shape Deformations" című, OTKA K-75637 azonosítójú projekt keretében 2009-2011 között. A "Kutatóegyetemi Kiválósági Központ létrehozása a Szegedi Tudományegyetemen" című TÁMOP-4.2.1/B-09/1/KONV-2010-0005 számú pályázat keretében 2010-ben létrehoztunk egy mobil képfeldolgozó labort. A labor eszközeit felhasználjuk az oktatásban is, 2011. tavaszától folyamatosan minden szemeszterben meghirdetjük a "Mobil képfeldolgozás" kurzust.
Vinkó Tamás az ESA, majd a Delfti Műszaki Egyetem munkatársaként az elmúlt 6 évben a masszívan elosztott rendszerekkel és ezek algoritmusaival, alkalmazásaival foglalkozott. Ezen belül az egyik fő kutatási területe a P2P hálózatokon vizsgálandó elosztott optimalizálás, az itt született eredmények között kiemelhető az ACM SIGCOMM konferencián társszerzőként publikált cikke. A fentebb említett, P2P architektúrák alkalmazhatóságát vizsgáló tanulmány technikai vezetője volt az ESA részéről, valamint szintén részt vett a QLectives projektben a Delfti egyetem részéről.
A Vanderbilt Egyetem „Institute for Software Integrated Systems” több évtizedes tapasztalattal rendelkezik a model alapú számítástechnikai megoldások kutatásában (model integrated computing) a kis vezeték nélküli szenzorhálózatok (networked embedded systems) és beágyazott rendszerek (distributed object computing) kutatásától kezdve a nagyon nagy valós idejű globális katonai rendszerek fejlesztéséig (cyber-physical systems). Szinte minden alkalmazás a megfelelő terület-specifikus modellek építésére, analízisére, transzformációjára és végrehajtására épül (automatikus program szintézis), amelynek alapjait egy model adatbázis és ahhoz kapcsolódó eszköztár alkotja. Noha a kifejlesztett rendszerek elosztottak voltak, maguk az adatbázisok és a modellezés során felhasznált algoritmusok nem, így automatikus újrakonfiguráció vagy modellek beágyazása nehézkes. Maróti Miklós ezen fejlesztések egyik irányítója volt 1999 és 2005 között, illetve helyettes vezetője a DARPA „Networked Embedded Systems Technology” projektnek, és folyamatos kutatási viszonyt ápol a Vanderbilt Egyetemmel.
Számos folyóiratban és konferenciakötetben megjelent cikk, két sikeres, és három befejezéshez közeli PhD disszertáció, és sikeresen zárult kutatási projektek, mint a felsorolt OTKA, ESA Ariadna projekt és a QLectives projekt. Első helyezés a KDD Cup 2007 feladatán. Helyezés a KDD Cup 2009 Churn előrejelzés feladatán. Elnyert FP7 projektek (LAWA 2010-2013, NADINE 2012-2015).
Módszertan
A kidolgozott algoritmusok elméleti vizsgálata (helyesség, konvergencia, hatékonyság) mellett azokat valós adatokkal is segített szimulációkon fogjuk kiértékelni. Hangsúlyt helyezünk a módszerek skálázhatóságára, eloszott architektúrákon (pl. Mahout, MOA, GraphLab) történő megvalósítására. Az így letisztázott eredményeinket az általunk javasolt újszerű mechanizmusokkal és protokollokkal együtt prototípus szintjén implementáljuk és teszteljük a mobil céleszközökök.
Elsősorban saját programkódokat és szimulátorokat használunk (Java, python, C++), de szükség lesz Matlab licenszekre is. Az Android rendszeren az OpenCV számítógépes látás csomagot használjuk fel. Hadoop, S4, Mahout, MOA, GraphLab – szabad forráskódú elosztott szoftver keretrendszerek.
A prototípusok teszteléséhez normál és sztereó kamerával felszerelt Android okostelefonok; a szimulációkhoz nagyteljesítményű, többmagos számítógépek, a fejlesztésekhez munkaállomások szükségesek.
Természetesnyelv-feldolgozás
Alprojekt vezető: Dr. Farkas Richárd (SZTE)
Dr. Farkas Richárd 2003-ban végzett a Szegedi Tudományegyetemen közgazdasági programozó matematikusként, majd 2007-ben szerzett közgazdász mesterfokozatot. 2010-ben megszerezte PhD fokozatát, kutatási területeiben a természetesnyelv-feldolgozással, gépi tanulással és információkinyeréssel foglalkozik. Részt vett több nemzetközi projektben, különböző nemzetközi gépi tanulási versenyek szervezésében is. 2011 és 2012 között a stuttgarti Institute for Natural Language Processing intézményében dolgozott és kutatott Németországban, jelenleg a Szegedi Tudományegyetem Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszékének adjunktusa.
Nyelvtechnológiai kutatások az 1950-es évek óta folynak, de az elmúlt évtizedben robbanásszerűen nőtt meg az igény az ilyen jellegű alkalmazásokra. Ennek következményeként a világ minden táján jelentős kutatási pénzeket allokáltak a témára (évente nagyságrendileg 3-4000 publikáció jelenik meg a témában). Számunkra különösen fontos a magyar nyelvű szövegek elemzésének a kérdése – a magyar nyelv sajátosságai miatt gyakran nem elég más nyelvekre kidolgozott módszereket adaptálni, új megoldások kidolgozása szükséges –, hiszen azt csak magyar kutatók képesek megoldani.
Az internet és a globalizáció által az elérhető adattömeg szinte végtelenné vált, ám míg „úszunk az adatban, szomjazunk az információra”. A nyelvtechnológiai kutatások célja a nagy mennyiségű szöveges és hangzó anyagok automatikus elemzése, kezelhetővé tétele.
Célkitűzés
A célunk újszerű nyelvtechnológiai algoritmusok kidolgozása és empirikus validálása. A módszerek elsősorban a nagy szöveges és hangzó adatbázisokban történő keresést és információkinyerést szolgálják. A kutatás folyamán elsősorban az angol és magyar nyelv elemzésére fókuszálunk. Előbbi biztosítja kutatásaink nemzetközi szintű publicitását, a magyar nyelvhez kapcsolódó kutatások pedig új nyelvtechnológiai alkalmazások fejlesztése előtt nyitják meg a kaput.
Egy másik meghatározó célkitűzésünk a beszédfeldolgozás és a természetes nyelvű szövegek feldolgozás területén végzett kutatások integrált folytatása révén újszerű alkalmazások lehetővé tétele.
A FuturICT alkalmazásaihoz legszorosabban kapcsolódó lehetséges témák blogok, fórumok, újsághírek elemzése, de általában is a FuturICT adatbázisainak lekérdezése természetes nyelven is hasznos lenne. Az innovation acceleratorhoz kapcsolódóan kutatási témák automatikus monitorozása, automatikus kulcsszavazás, témahierarchia azonosítása, kutatói szociális kapcsolatok felderítése. Végül, a planetary nervous systemhez kapcsolódóan érdekes alkalmazások a perszonalizált ajánló rendszerek szöveges tartalmak alapján vagy a felhasználói interakcióból tanuló algoritmusok.
Újszerű algoritmusok, amelyeket implementálunk és empirikusan tesztelünk. Az eredmények publikálása nemzetközi és hazai konferenciákon, illetve újságcikkek és nyilvános tanulmányok formájában.
Előzetes eredmények
Az SzTE Nyelvtechnológiai Csoportnál 1998 óta folynak nyelvtechnológiai (elsősorban információkinyerési) kutatások. A csoport a témában több mint 70 publikációval rendelkezik, az elmúlt években 16 pályázati finanszírozású projektben vett részt (fontosabb partnerek: MTA Nyelvtudományi Intézet, MorphoLogic kft., BME TMIT, BME MOKK), valamint számos ipari alkalmazás megvalósításában is részt vállalt (fontosabb megrendelők: origo.hu, Szervezett Bűnözés Elleni Koordinációs Központ).
A kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet, a SzegedNE és egyéb korpuszok kifejlesztése lehetővé tették gépi tanuláson alapuló módszerek alkalmazását magyar nyelvű szövegek szintaktikai és szemantikai elemzésére. A csoport rendelkezik az elemzésekhez szükséges alaptechnológiákkal.
Módszertan
Az általunk kidolgozott eljárásokat, algoritmusokat prototípus-jelleggel implementáljuk. Kvantitatív és kvalitatív módon kiértékeljük. Ha lehetséges, a kiértékelés során nyilvánosan elérhető adathalmazokat használunk, ezáltal segítve az eredményeink reprodukálhatóságát. Amennyiben létező feladatra dolgozunk ki egy új eljárást, azt összehasonlítjuk már meglévő, a tudomány mai állása szerint modern eljárásokkal.
A számítógépes implementációhoz az alábbi szoftvereket kívánjuk használni : Linux, Java, Eclipse, Netbeans, Prolog, MySQL, Weka, Octave, R, GNU Octave, RapidMiner, LibSVM, Mallet, Stanford CoreNLP, illetve a kísérletek elvégzéséhez szükségünk lesz nagy számításkapacitású többmagos szerverekre is.
Twitter adatfolyam előfeldolgozása, nyilvános adat archívumok
Alprojekt vezető: Prof. Dr. Vattay Gábor (ELTE)
Prof. Dr. Vattay Gábor egyetemi tanár az ELTE Komplex Rendszerek Fizikája Tanszék vezetője. Kutatási területe a komplex hálózatoktól a kvantumos vezetési jelenségekig terjed. Az ELTE-Ericsson Kommunikációs Hálózatok Laboratórium igazgatója, melynek keretében 14 PhD hallgató és 6 témavezető tevékenységét irányítja. Több egyetemen volt vendégkutató ill. vendégprofesszor, köztük a Niels Bohr Intézetben, a Pierre et Marie Curie, a Marburgi, a Nortwestern és a Vermont Egyetemeken. Az MTA Statisztikus Fizikai Bizottság elnöke. 120 közleménye jelent meg nemzetközi folyóiratokban és konferenciákon, további két könyvet publikált mint szerző ill. szerkesztő.
Az utóbbi évtizedben megjelent hálózati szociális médiát (pl. Facebook és Twitter) a fejlett és a fejlődő világ lakosságának egyre nagyobb része használja. Ez új lehetőségeket nyit meg a társadalmi és kapcsolódó gazdasági folyamatok vizsgálatában. Ezek a médiák egyre inkább hozzáférhetők a tudományos kutatás számára, különösen a Twitter ad erre jó lehetőséget, ahol a megjelenő üzenetek pontos helye és ideje követhető a szolgáltató fejlesztői adatfolyamában. Az utóbbi időben számos publikáció jelent meg, mely megmutatta, hogy a társadalom általános jólétének idősora mérhető és követhető ezekből az adatsorokból. Mára az Egyesült Államokban sorban jelennek meg a politikai hírcsatornákban az egyes politikai eseményekkel párhuzamosan a hozzájuk kapcsolódó tweetekből készült, államokra lebontott statisztikák az időjárás jelentéshez hasonló formában.
Aktuális szociális események (forradalmak, választások, krízisek vagy társadalmi kezdeményezések) és a szociális média eszközök kölcsönhatása. Társadalmi és gazdasági statisztikai mutatók (munkanélküliség, termékek elterjedtsége, jövedelem, iskolázottság, társadalmi státusz) inferálása szociális médiában előforduló gyakoriságokból.
Célkitűzés
Társadalmi-gazdasági folyamatok tér és időbeli feltérképezése a szociális hálózatok mérése és monitorozása segítségével
Társadalmi és gazdasági statisztikai mutatók (munkanélküliség, termékek elterjedtsége, jövedelem, iskolázottság, társadalmi státusz) inferálása szociális médiában előforduló gyakoriságokból
A pályázatban a következő fejlesztéseket tervezzük:
- Szoftver és adatbázis rendszer létrehozása a tweet folyamatok valós idejű letöltésére és kereshető adatbázisba (Virtuális Obszervatórium) való rendezésére
- Kiválasztott adatok téridő evolúciójának vizualizációs szoftverei
- Speciális részmodulok a magyar sajátosságok vizsgálatához
Előzetes eredmények
Átfogó elemzéseket publikáltunk az Internet topológia térbeli tulajdonságairól és szerkezetéről, vizsgáltuk webes tartalmak térbeli elhelyezkedését, ill. módszereket adtunk Internetes hosztok térbeli helyzetének meghatározásához, melyeket ebben a projektben is fel fogunk használni.
Publikációk, adatbázisok, online monitoring rendszer számítógépes hálózatok vizsgálatához (http://sonoma.etomic.org), IP geolokalizálós szolgáltatás prototípusa (http://spotter.etomic.org)
Módszertan
Hálózati toplógiai jellemzők kvantitatív mutatói, szövegbányászati és más NLP (természetes nyelv feldolgozó) módszerek, idősorok trendjeinek elemzése, különböző események korreláltatása Twitter üzenetekkel.
Twitter Streaming API, NLP könyvtárak (NLTK (Neutral Language Processing Toolkit), stb.), adatbányászati szoftverek és könyvtárak (Weka, RapidMiner, stb.)