Klasszikus, alacsonyszintű képfeldolgozás
Bár a képfeldolgozás és képelemzés az egyik zászlóshajója a ma divatos mélytanuló neuronháló alkalmazásoknak, a klasszikus, alacsonyszintű képfeldolgozási megközelítések ismerete is elengedhetetlen. Az alacsonyszintű alatt nagyon röviden fogalmazva azt értjük, hogy a képet alkotó képpontokat mint számértékeket tekintjük. Nem a képi tartalom értelmezését tűzzük ki célul, hanem a képmátrixban található számértékeket vizsgáljuk és alakítjuk át, esetlegesen a környezetükban található további számértékek figyelembe vételével. Ez kevésnek tűnhet, de ezen egyszerű megközelítések segítségével is számos, a képekhez tartozó problémát meg tudunk oldani. Emellett a mélytanulási módszerek előkészítéséhez, eredményeinek felhasználásához is szükségesek alacsonszintű ismeretek.
Mik lehetnek a mélytanulásos képelemzési megközelítés nehézségei?
1. A "Fekete Doboz" átláthatósága (Explainability)
A mélytanulási modellek (CNN, Vision Transformers) gyakran megmagyarázhatatlan döntéseket hoznak. A klasszikus képfeldolgozás determinisztikus: pontosan tudjuk, miért tűnt el egy pixel az erózió után, vagy miért emelődtek ki a vertikális élek. Aki érti az alacsony szintű műveleteket, az képes a mélytanuló hálózatok belső rétegeiben (feature maps) zajló folyamatokat is értelmezni.
2. Adat- és erőforrás-hatékonyság
A mélytanulásnak hatalmas tanító adatbázisra és komoly hardverre (GPU) van szüksége. Sok ipari feladatnál (pl. egy futószalagon elhaladó alkatrész méretének ellenőrzése konstans megvilágítás mellett) egy jól beállított élkereső és Hough-transzformáció nagyságrendekkel gyorsabb, olcsóbb és robusztusabb megoldást ad, ami akár egy filléres mikrokontrolleren is elfut.
3. Előfeldolgozás (Preprocessing) – "Garbage in, garbage out"
A mélytanuló modellek teljesítménye drasztikusan javítható, ha a bemeneti képet először klasszikus módszerekkel tisztítjuk.
-
Zajszűrés és kontrasztjavítás: Segít a hálózatnak a lényeges jellemzőkre fókuszálni.
-
Adat-augmentáció: A képek elforgatása, torzítása vagy zajjal való terhelése mind-mind klasszikus geometriai és intenzitás-transzformációkon alapul.
4. Specifikus alkalmazási területek (Pl. orvosi vagy mérnöki képalkotás)
Vannak olyan területek, ahol a fizikai méréshatár és a matematikai precizitás fontosabb a "felismerésnél". A Fourier-analízis elengedhetetlen az MRI/CT rekonstrukcióban, a morfológiai mérések pedig olyan pontosságot adnak a sejtszámolásnál vagy anyagszerkezeti vizsgálatoknál, amit egy statisztikai alapon működő neurális hálózat nem tud garantálni.