2. gyak

1. Egy n méretű U univerzumból véletlenszerűen kiválasztjuk annak m méretű S és T részhalmazait.
a) Mi lesz a két halmaz metszetének elemszámának várható értéke?

b) Mi lesz a két halmaz Jaccard hasonlóságának várható értéke? (v.ö. (10,5); (8,6); (8,4); (4,5))

c) Mi volt az egész értelme? Pl. Kappa-mérték számítás: [P(J)-P(J_e)]/[1-P(J_e)]

(2). Lássuk be, hogy amennyiben két halmaz metszete m méretű, szimmetrikus differenciájuk n nagyságú (komplementereik metszete pedig k nagyságú), úgy a karakterisztikus mátrix sorainak (összes!) lehetséges permutációja mellett kiszámított minhash értékek egyezésének aránya éppen a két halmaz Jaccard hasonlóságát adja!

3. Adott az alábbi karakterisztikus mátrix, illetve a h1=(5x+2) mod 6 és h2=(2x+1) mod 6 hasítófüggvények.

Elem| S1| S2| S3| S4
 0  | 0 | 1 | 0 | 1
 1  | 0 | 1 | 0 | 0
 2  | 1 | 0 | 0 | 1
 3  | 0 | 0 | 1 | 0
 4  | 0 | 0 | 1 | 1
 5  | 1 | 0 | 0 | 0

a) Mik lesznek az egyes halmazok minhash lenyomatai?
b) Melyik hasítófüggvény tűnik hasznosabbnak?
c) Mekkora lesz az S1 és S4 halmazok közötti tényleges, valamint a minhash lenyomataik alapján becsült Jaccard hasonlóság (és távolság) mértéke?

4. Octave-ban implementáld az előadáson elhangzott távolságdefiníciókat, és használd föl őket az első gyakorlat adatbázisának (outliers.mat) adatpontjai közötti távolságok átlagának és szórásának meghatározására!
Törekedj a vektorizált implementációra! Ha nem megy, vedd igénybe a naív (=vektorizációt nem alkalmazó) megvalósítás vázát tartalamazó tavolsagVaz.m fájlt!

Az egyes távolságokhoz tartozó távolságmátrixok első sorainak első 5 kontrolleleme az X input mátrix használata esetén (azaz a [d(1,1), d(1,2), d(1,3), d(1,4), d(1,5)] értékek):
L1->[0.00000   1.33959   2.26113   3.30099   1.22819]
L2->[0.00000   1.04263   1.59907   2.35431   0.87659]
Linf->[0.00000   0.97788   1.14910   1.86789   0.69830]
cos*-> [0.000000   0.047843   0.005802   0.020406   0.044022]
mah.->[0.00000   0.76628   1.28487   1.88149   0.62445]
*:(a távolság ebben az esetben arccos(bezárt szög) formulával került kiszámításra, és nem 1-cos(bezárt szög) módon)

A kapott eredmények ellenőrzését a statistics csomagból elérhető pdist (pontpáronkénti távolságokat kiszámító) és squareform (főátló feletti értékekből szimmetrikus mátrixot előállító) metódusokkal is el lehet végezni (a squareform(pdist(input_mtx, tavolsag_neve)); utasítással).

Gyakorló feladat.
- 4. feladat otthoni befejezése
- Hozz létre egy C adatsort, amiben Celsius fokban kifejezett hőmérséklet-mérések eredményei találhatók (mindegy mik)! Az előző adatsor alapján hozz létre egy F adatsort, amely a mérési eredmények értékeit a legközelebbi egészre kerekített Fahrenheit fokban tartalmazza (F=5/9*C+32)! A két adatsorból hozz létre egy M=[C' F'] adatmátrixot (ahol tehát egy adatpont a kétféle módon megadott hőmérsékletpárok fognak meghatározni). Jelenítsd meg az adatpontpárokat (pl. scatter segítségével), és adj az adatokhoz egy "zajos" mérési pontot, és számítsd ki az adatpontok távolságmátrixát az előző feladat megoldása során elkészített távolságfüggvényeket alkalmazva! Melyik távolságdefiníció alkalmazása tűnik a leghasznosabbnak ebben az esetben?