Elosztott adatbányászat

Jelasity Márk, 2012 tavasz, Szeged

Big Data | Peer-to-peer fedőhálózatok | Peersim szimulátor | Pletyka algoritmusok | Ajánlás és rangsorolás | Kötelező program feladatleírás


A kurzus helyszíne a Mesterséges Intelligencia Kutatócsoport szemináriumi terme. A Kutatócsoport címe: H-6720 Szeged, Tisza Lajos krt. 103. (Irinyi épület) 3. lépcsőház magasföldszint. Az órák összevontan lesznek megtartva a következő péntekeken: marcius 23., április 20. és 27., május 4., 11., és 18. Minden alkalommal két óra lesz megtartva 11:00-12:30, és 13:00-14:30 időpontokban.

A kurzus teljesítése egy kötelező program elkészítéséből áll. Az ehhez szükséges instrukciókat és információkat a kurzus során tárgyalni fogjuk, és ezen a honlapon is közzétesszük. A kötelező programot személyesen kell majd bemutatni a vizsgaidőszak folyamán. A doktori hallgatók ezen felül egy angol nyelvű cikket feldolgoznak és bemutatnak egy-egy 20 perces előadás keretében május 18.-án.


Összefoglaló

Az elmúlt években az információtechnológiai rendszerek egyre nagyobb méretűvé és egyre elosztottabbá válnak, legyen szó akár szuperszámítógépekről, adabázisokról, fájlmegosztó hálózatokról, vagy szenzorhálózatokról. Ezekben a rendszerekben egyre több adat keletkezik, amit tárolni kell és fel kell dolgozni. A feldolgozás egyre inkább elosztott feldolgozást jelent, hiszen a rendszerek architektúrája is ezt diktálja, nem beszélve egyéb szempontokról, mint például az adatvédelem és a magánélet tisztelete.

A kurzus során olyan elosztott algoritmusokkal fogunk foglalkozni, amelyek nagy mennyiségű adat párhuzamos feldolgozására, közelebbről az adatok feletti gépi tanulásra alkalmasak különböző renszerekben, pl. peer-to-peer hálózatokban vagy nagyméretű adatközpontokban.


Big Data

Benczúr András (SZTAKI) vendégelőadásaihoz tartozó diák: pptx, és külön diák a Graphlab keretrendszerről: pptx.


Peer-to-peer fedőhálózatok

Az első előadás ennek a tutorialnak a válogatott fejezeteire épült. A fedőhálózatok fontosságát foglalta össze a teljesen elosztott rendszerekben, és néhány releváns komplex hálózatos témát is érintett. A második részben struktúrált fedőhálókról, pontosabban elosztott hash táblákról volt szó (pdf).


Peersim szimulátor

A Peersim szimulátor forráskodja és dokumentációja elérhető a http://peersim.sf.net címen. Az órán bemutatott szimulációk forráskódja itt található.


Pletyka algoritmusok

Az első előadáson áttekintettük a pletyka alapú kommunikációt, és ennek főbb tulajdonságait. A második előadás témája a pletyka alapú számítások voltak, mint amilyen a minimum, maximum, átlag, stb. Az EM algoritmus segítségével illusztráltuk a módszer alkalmazhatóságát. Az előadás itt elérhető.


Ajánlás és rangsorolás

Az előadások témája az ajánlórendszerek (collaborative filtering) és a rangsoroló algoritmusok (PageRank, HITS), ill ezek P2P implementációi. Érintettük a privacy preserving data mining kérdését is a PageRankkel kapcsolatban. Az előadás itt elérhető.


Valid XHTML 1.0! Jelasity Márk
Mon May 14 08:24:04 CEST 2012