Jelenlegi hely

Teljesen elosztott adatbányászat

A személyi számítógépek és az Internet elterjedésével a 90-es évek végén egy forradalom zajlott le, amelynek során előtérbe kerültek azok az informatikai alkalmazások és fejlesztések, amelyek a személyi számítógépeket kihasználva nagyszámú felhasználóra épülő alkalmazásokat hoztak létre. Először központosított (elsősorban webes), később a közvetlen kommunikációra épülő ún. peer-to-peer (tipikusan fájlcserélő vagy internetes telefon) alkalmazások jelentek meg. A 2000-es évek második felétől egy második forradalom vette kezdetét, ami a személyi számítógépek új generációjára, az egyre terjedő tabletekre és okostelefonokra épül. Ezek rengeteg adat gyűjtését teszik lehetővé a felhasználójukról és annak környezetéről, ami a korábbinál sokkal gazdagabb élményt és több alkalmazást tesz lehetővé. Ezek az adatok származhatnak az eszközökben található számos érzékelőből, vagy keletkezhetnek különböző alkalmazások használata során, mint amilyenek pl. a böngészők vagy kapcsolattartásra szolgáló alkalmazások. A jelenlegi gyakorlat szerint ezeket az adatokat az egyes alkalmazások központi helyen tárolják (a felhőben) és itt végzik el a statisztikai elemzést és adatbányászatot. Ez a gyakorlat azonban számos problémát vet fel. Ide tartozik, hogy a központi adattárolás nagyon költségessé válik egy bizonyos adatmennyiség felett, ami kizárja a közcélú vagy kísérletező jellegű nonprofit alkalmazásokat. Ezen kívül jelenleg szinte lehetetlen több különböző alkalmazásból származó adatokat egyesíteni és közös modellben elemezni, holott ezek magán az eszközön együtt vannak jelen, míg a központi tárhelyen már elválnak.

Kutatásaink során azt vizsgáljuk, hogy a legfontosabbnak tekinthető, tipikusan felhőben végzett, számítási és adatfeldolgozási funkciókat hogyan lehetne a központi komponensek kikerülésével, vagy nagyon korlátozott bevonásával, megvalósítani, tisztán az egyes eszközök közötti közvetlen kommunikációra építve. Ez a ma már hagyományosnak tekinthető asztali gépek platformján is túlmutat az ott ismert alkalmazásokon, amik gyakran nem jelentenek számítási feladatokat, csak tárolási vagy kommunikációs problémákat oldanak meg. Emellett természetesen a modern okostelefonok platformján rengeteg új alkalmazást tenne lehetővé a jelenleg elérhető technológiánál sokkal olcsóbban és rugalmasabban.

Az általános adatbányászati problémák vizsgálatától eltekintve, az elosztott probléma vizsgálata is immár évtizedes múlttal rendelkezik a kutatócsoportban. A kezdeti eredmények Jelasity Márk nevéhez fűződnek, aki pletyka alapú algoritmusokat javasolt néhány egyszerű statisztikai feladat elosztott megoldására, mint amilyen pl. az átlagszámítás (Jelasity és mtársai, 2004). Az ilyen algoritmusok alapötlete, hogy az egyes eszközök közösen egy diffúzióra emlékeztető folyamatot valósítanak meg, amelynek során kiegyenlítődnek az egyes eszközök közelítései.

Az évek során sokkal általánosabb problémákat is sikerült megoldanunk, megtartva a pletyka algoritmusok hatékonyságát és robosztusságát. Itt az alapötletünk az ún. sztochasztikus gradiens módszerek adaptálása, amelynek során az adatokat leíró statisztikai modell (pl. legegyszerűbb esetben az egy átlag, bonyolultabb esetben akár egy nemlineáris döntési felület) véletlen sétát végez az eszközök felett, és minden eszközön az ott található adatokat felhasználva egy gradiens lépést hajt végre (Ormándi és mtársai, 2013). Természetesen az alapötletnek és magának a problémának számos vonatkozását vizsgáljuk, kezdve az okostelefonok használatának, halózati kapcsolatának, energiaszintjének, stb., modellezésétől egészen olyan kurrens algoritmusok megvalósításáig, mint amilyen pl. az ún. boosting algoritmus vagy az ún. többkarú bandita algoritmusok. Számos kapcsolódó témát is vizsgáltunk, mint amilyenek a magánjellegű adatok védelme, ami egyre fontosabb kutatási terület, és az algoritmusaink adaptivitása abban az esetben, ha dinamikusan változik az adathalmaz, amin dolgozunk.

A témában számos nemzetközi kapcsolattal rendelkezünk, többek között egy EU FP7-es projektet (QLectives) is sikeresen lezártunk, ahol az algoritmusainkat peer-to-peer hálózatokban alkalmaztuk ajánló rendszerek és spamszűrés megvalósítására.