Skip navigation

A képfeldolgozás rövid áttekintése

Klasszikus, alacsonyszintű képfeldolgozás

Bár a képfeldolgozás és képelemzés az egyik zászlóshajója a ma divatos mélytanuló neuronháló alkalmazásoknak, a klasszikus, alacsonyszintű képfeldolgozási megközelítések ismerete is elengedhetetlen. Az alacsonyszintű alatt nagyon röviden fogalmazva azt értjük, hogy a képet alkotó képpontokat mint számértékeket tekintjük. Nem a képi tartalom értelmezését tűzzük ki célul, hanem a képmátrixban található számértékeket vizsgáljuk és alakítjuk át, esetlegesen a környezetükban található további számértékek figyelembe vételével. Ez kevésnek tűnhet, de ezen egyszerű megközelítések segítségével is számos, a képekhez tartozó problémát meg tudunk oldani. Emellett a mélytanulási módszerek előkészítéséhez, eredményeinek felhasználásához is szükségesek alacsonszintű ismeretek.

Mik lehetnek a mélytanulásos képelemzési megközelítés nehézségei?

1. A "Fekete Doboz" átláthatósága (Explainability)

A mélytanulási modellek (CNN, Vision Transformers) gyakran megmagyarázhatatlan döntéseket hoznak. A klasszikus képfeldolgozás determinisztikus: pontosan tudjuk, miért tűnt el egy pixel az erózió után, vagy miért emelődtek ki a vertikális élek. Aki érti az alacsony szintű műveleteket, az képes a mélytanuló hálózatok belső rétegeiben (feature maps) zajló folyamatokat is értelmezni.

2. Adat- és erőforrás-hatékonyság

A mélytanulásnak hatalmas tanító adatbázisra és komoly hardverre (GPU) van szüksége. Sok ipari feladatnál (pl. egy futószalagon elhaladó alkatrész méretének ellenőrzése konstans megvilágítás mellett) egy jól beállított élkereső és Hough-transzformáció nagyságrendekkel gyorsabb, olcsóbb és robusztusabb megoldást ad, ami akár egy filléres mikrokontrolleren is elfut.

3. Előfeldolgozás (Preprocessing) – "Garbage in, garbage out"

A mélytanuló modellek teljesítménye drasztikusan javítható, ha a bemeneti képet először klasszikus módszerekkel tisztítjuk.

  • Zajszűrés és kontrasztjavítás: Segít a hálózatnak a lényeges jellemzőkre fókuszálni.

  • Adat-augmentáció: A képek elforgatása, torzítása vagy zajjal való terhelése mind-mind klasszikus geometriai és intenzitás-transzformációkon alapul.

4. Specifikus alkalmazási területek (Pl. orvosi vagy mérnöki képalkotás)

Vannak olyan területek, ahol a fizikai méréshatár és a matematikai precizitás fontosabb a "felismerésnél". A Fourier-analízis elengedhetetlen az MRI/CT rekonstrukcióban, a morfológiai mérések pedig olyan pontosságot adnak a sejtszámolásnál vagy anyagszerkezeti vizsgálatoknál, amit egy statisztikai alapon működő neurális hálózat nem tud garantálni.

Képfeldolgozás alkalmazási területek

A digitális képfeldolgozás klasszikus módszerei ma már szinte minden iparágban jelen vannak, gyakran a háttérben, láthatatlanul segítve a döntéshozatalt vagy az adatkinyerést. Az alábbiakban a teljesség igénye nélkül felsorolunk néhány ilyen területet.

1. Orvosi képalkotás és diagnosztika

Ez az egyik legkritikusabb terület, ahol a pontosság életeket menthet. Itt a mélytanulás mellett a klasszikus algoritmusok adják a mérések alapját.

  • Diagnosztikai eszközök: MRI, CT, és PET felvételek zajszűrése és rekonstrukciója (Fourier-analízis segítségével).

  • Szegmentálás: Tumorok, szervek vagy erek pontos körvonalazása.

  • Mikroszkópia: Automatikus sejtszámlálás morfológiai műveletekkel (erózió, dilatáció), és a sejtek morfológiai jellemzőinek (kerület, terület) mérése.

2. Ipari minőségellenőrzés (gépi látás)

A gyártósorokon a sebesség és a megbízhatóság kulcsfontosságú. Itt a klasszikus módszerek gyakran jobbak a mélytanulásnál, mert valós időben, konstans megvilágítás mellett kell dönteniük.

  • Méretellenőrzés: Alkatrészek tűréshatárának vizsgálata szubpixel pontosságú élkereséssel.

  • Hiba detektálás: Repedések, felületi karcolások vagy hiányzó komponensek felismerése sablonillesztéssel (template matching).

  • Kódolvasás: QR-kódok, vonalkódok és lejárati dátumok (OCR) robusztus felismerése zajos környezetben is.

3. Biztonságtechnika és biometria

A személyazonosítás és a megfigyelés alapvető eszköze.

  • Ujjlenyomat-olvasás: A vonalak kiemelése vékonyító algoritmusokkal és morfológiával.

  • Rendszámfelismerés (ANPR): A rendszámtábla lokalizálása élek és textúrák alapján, majd a karakterek szegmentálása.

  • Mozgásérzékelés: Háttérkivonás és képkülönbség-képzés a gyanús mozgások detektálására.

4. Mezőgazdaság és környezetvédelem

A precíziós gazdálkodás alapja a képi adatok elemzése.

  • Drónfelvételek elemzése: Növényzetindexek (pl. NDVI) számítása multispektrális képekből a terméshozam becsléséhez.

  • Gyomirtás: A kultúrnövény és a gyom megkülönböztetése alakleírók és színanalízis alapján.

  • Távérzékelés. műholdas képfeldolgozás: Erdőirtások, árvizek vagy városiasodás nyomon követése változásdetektáló algoritmusokkal.

5. Dokumentumfeldolgozás és archiválás

A papíralapú adatok digitálisba mentése.

  • Szkennelés javítása: Ferdeség-korrekció (deskewing) Hough-transzformációval, küszöbölés a háttér eltávolítására (pl. Otsu-módszer).

  • Restaurálás: Régi, sérült fényképek karcolásainak eltüntetése interpolációs és simító eljárásokkal.

6. Autonóm rendszerek és robotika

Bár a tárgyfelismerésben dominál a mélytanulás, a navigációhoz sokszor klasszikus geometria kell.

  • Sávtartás: Az útburkolati jelek detektálása élkereséssel és perspektivikus transzformációval.

  • Távolságmérés: Sztereó kamerák képeinek összevetése (disparity map) a mélység meghatározásához.

  • SLAM (Simultaneous Localization and Mapping): Jellegzetes pontok (SIFT, SURF, ORB) követése a robot térbeli helyzetének meghatározásához.

7. Digitális képmanipuláció és retusálás

Ebben a tartományban az esztétikai javítás és a tartalom módosítása a cél, gyakran pixelszintű vagy frekvenciatartománybeli műveletekkel.

  • Retusálás és zajszűrés: A bőrhibák eltüntetése vagy a digitális zaj csökkentése olyan simító szűrőkkel (pl. Gauss- vagy mediánszűrő), amelyek megőrzik az éleket, de homogenizálják a felületeket.

  • Képélesítés: Az életlen fotók javítása "unsharp masking" eljárással, amely valójában a kép magas frekvenciás komponenseinek (éleinek) felerősítését jelenti.

  • Képösszeillesztés (Stitching): Panorámaképek készítése, ahol kulcspontok (keypoints) detektálása és geometriai transzformációk (homográfia) segítségével fűzik össze a különböző szögekből készült felvételeket.

  • Színkorrekció és filterek: A képek hangulatának módosítása a hisztogram transzformálásával, a színtelítettség állításával vagy a színterek (pl. RGB-ből HSV-be) közötti konverzióval.

  • Tartalomfüggő módosítás: Objektumok eltávolítása a környező pixelek statisztikai jellemzőin alapuló "in-painting" technikákkal, vagy intelligens kijelölés a szín- és intenzitáskülönbségek (szegmentálás) alapján.