Kandidátusi értekezés
EGY KOMPUTÁCIÓS MODELL
A SZTEREÓ PÁROSÍTÁSI PROBLÉMA
MEGOLDÁSÁRA
Geier János
Budapest, 1994
TARTALOMJEGYZÉK
BEVEZETÉS 1
A SZTEREÓLÁTÁS SZAKIRODALMÁNAK ÁTTEKINTÉSE 3
Történeti elõzmény 3
A probléma részletes ismertetése 9
Az ismert modellek bemutatása, kritikája 14
A lokális ill. globális sztereopszis 21
A vergencia szerepe a nagy mélységek észlelésében 23
A vergencia szerepe a fúziós sztereopszisban 27
A téves cél probléma és a négytûs illúzió 30
A SZTEREÓ PÁROSÍTÁSI PROBLÉMA ÚJ MODELLJE 33
A sztereólátással kapcsolatos alapvetõ állítások 33
A szemmozgás mechanikai modellje 37
A VERGENCE sztereó párosítási modell 41
Kiterjesztés színes képekre 46
Összehasonlítás a von Holst modellel 46
A súlyfüggvény szerepe, tulajdonságai 47
A modell analóg jellege 49
SZIMULÁCIÓS FUTTATÁSOK 53
Szimulációs futtatások természetes képekre 54
Szimulációs futtatások random sztereogramokra 63
Hálóábra készítõ szimulációs futtatások 68
A képpárra alkalmazott azonos mértékû simítás hatása 72
A képpárra alkalmazott eltérõ mértékû simítás hatása 76 A négytûs illúzió szimulációja 79 Szimulációs futások egyenletes ablakfüggvény felhasználásával 84
A CRYSTAL EYES-ZEL VÉGZETT KÍSÉRLETEK 86
Kísérlet 1 87
Kísérlet 2. 93
Kísérlet 3. 96
ÖSSZEFOGLALÁS 97
KÖSZÖNETNYILVÁNÍTÁS 101
FÜGGELÉK 102
FELHASZNÁLT IRODALOM 106
BEVEZETÉS
Dolgozatomban a sztereólátás alapkérdésére, a sztereó párosítási probléma megoldására ismertetek egy saját ötleten alapuló komputációs modellt, valamint ismertetem azokat a kísérleteimet, melyek a vergens[1] (azaz konvergens-divergens) szemmozgás és a fúziós (más néven patent) sztereopszis egymástól való elkülönítését célozzák. A modell plauzibilitását számítógépes szimulációval és humán kísérletekkel támasztom alá.
Sztereó párosítási probléma (stereo matching problem) alatt a szakirodalom azt érti, hogy valódi térbeli látvány, vagy ezt szimuláló sztereoszkópos vetítés esetén hogyan találja meg az idegrendszer a bal ill. jobb retinára vetülõ képeken az egymásnak megfelelõ, azonos térbeli pontból származó képpontokat. A térbeli pont mélysége (nézõtõl való távolsága) ennek alapján meghatározható. E probléma megoldását D. Marr és T. Poggio (1979) a látás komputációs modelljében a korai szakasznak (early vision) tulajdonítják, ami összhangban van azokkal a kísérleti tényekkel, melyek a Julesz Béla (1971) -féle random sztereogramokkal (Random Dot Stereogram, RDS) kapcsolatosak. A probléma megoldására több modell ismert, többek között Julesz (1971) mágnestûs modellje ill. a Marr és Poggio (1979), Grimson (1980) által számítógéppel realizált éldetekciós modell. E modellek közös jellegzetessége, hogy természetes képekre kevésbé mûködnek jól, mint mesterséges képekre (RDS-re), továbbá a szemmozgásnak nem, vagy csak másodlagos szerepet tulajdonítanak.
Dolgozatomban leírt saját modellemrõl ezzel szemben meg fogom mutatni, hogy az jobban mûködik természetes, mint mesterséges képek esetében, és a szemek konvergens mozgását is figyelembe veszi. Ez a tulajdonsága összhangban van a humán kísérletek tapasztalataival.
A továbbiakban a téma történeti áttekintése után definiálom a dolgozatban használt alapvetõ fogalmakat, majd áttekintem az adott probléma megoldását célzó ismert modelleket és azok elemzõ kritikáját adom. Ezután ismertetem saját modellemet, annak számítógépes szimulációját és az abból eredõ bizonyítékokat. Végül azokat a humán kísérleteimet mutatom be, melyek kettéválasztják a sztereólátásban fennálló két eltérõ, de egymást kiegészítõ mechanizmust: az fúziós sztereopszist és a vergens szemmozgáson alapuló mélységészlelést.
A SZTEREÓLÁTÁS SZAKIRODALMÁNAK ÁTTEKINTÉSE
Ebben a részben a szakirodalom alapján áttekintést adok a sztereólátással kapcsolatos fontosabb ismeretekrõl. A történeti elõzmények összefoglalása után ismertetem a késõbb felhasználásra kerülõ alapfogalmakat és a probléma pontos megfogalmazását. Ezután ismertetem a sztereó párosítási probléma megoldását célzó ismert modelleket, azok elemzõ kritikáját adom. Végül két fontos nyitott vitakérésrõl, a globális ill. lokális sztereopszis szembeállításáról, továbbá a vergens szemmozgás ill. a patent sztereopszis szembeállításáról fejtem ki álláspontomat.
Történeti elõzmények
Leonardo da Vinci írja: "Lehetetlenség, hogy a festmény, még ha a legtökéletesebben utánozza is vonalában, árnyékában, fényében, színében a tárgyat, ugyanolyan plasztikusnak tûnjék, mint a természeti tárgy, kivéve, ha ezt a tárgyat nagy távolságból nézzük, s fél szemmel." (idézet: Gregory 1973, 119. oldal). A festõk nagyon jól ismerik, hogyan kell a perspektivikus torzulás, a takarás, az árnyékoltság és a távoli tárgyak "ködösségén" alapuló térhatást, plasztikusságot kialakítani. Ennek ellenére nyilvánvaló, hogy még valami hiányzik a síkra festett vagy rajzolt képekbõl, legalábbis ami a térhatás kialakulását illeti. (Itt természetesen nem a képek mûvészi értékére gondolok.)
Az ismert adatok szerint Johannes Kepler állította fel elsõként a hipotézist, mely szerint az ún. binokuláris parallaxis jelenti a hatásos ingert a térélmény kialakulásához. J. Harris (Treatise on Opticks (Értekezés az optikáról) 1775, idézet Gregory, 1973 alapján) is leírja, hogy a két szem közti távolság, és az ebbõl adódó szögeltérés lehet az alapja a térhatásnak.
Az elsõ, valódi térhatású ábrát Ch. Wheatstone láthatta 1833-38 körül, az általa feltalált tükrös sztereoszkóp segítségével (Gregory, 1973). Az ötlet egyszerû: mindkét szem elé olyan képet kell helyezni, amely valódi tárgy esetén megfelel az adott szemben keletkezõ képnek. Ezt két, 45 fokban elhelyezett tükör segítségével valósította meg (1. ábra).
A Wheatstone-féle tükrös sztereoszkóp közvetlen bizonyítékát adja a következõ állításnak: a valódi sztereó élmény létrejöttének elégséges feltétele, ha a bal ill. jobb kép egyes részletei között vízszintes irányú eltolódás (ún. binokuláris parallaxis) áll fenn.
Tehát a plasztikusság kialakulásához nem szükségesek a fent említett hatások: takarás, árnyékolás, perspektivikus torzulás, stb. Sõt a szemlencse akkomodációja sem szükséges, hiszen a tükrös sztereoszkópban optikai szempontból mindkét kép minden részlete gyakorlatilag azonos távolságban van a szemektõl. Az más kérdés, hogy ezek az említett hatások önmagukban szintén elégségesek bizonyos mértékû plasztikus illúzió keltésére.
A múlt században a sztereoszkópok több változata látott napvilágot, a fényképezés térhódításával elterjedtek a sztereófényképek. A mai technikai szinten a sztereó eszközök széles skálája ismert: tükrös sztereoszkóp, prizmás sztereoszkóp, színszûrõ (piros-zöld) szemüveg azaz anaglif, polarizátoros szemüveg, és a számítógép képernyõjéhez szinkronizált folyadékkristályos szemüveg. Utóbbit -tekintve, hogy ez volt a kísérleteim legfontosabb eszköze- késõbb ismertetem részletesen.
A sztereóélmény kialakulásának részleteit már a múlt században többen vizsgálták. Dove, H. W. (1841) Über spektroskopie c. mûvében (hivatkozás Julesz, 1971, 374. oldal alapján) a sztereóélmény kiakulásának sebességét vizsgálva megállapította, hogy az már néhány ezred másodperc alatt is létrejöhet. (A korabeli technikai szintnek megfelelõen, kísérleteihez ívlámpákat használt.) A kb. 5 ms idejû bemutatás alatt a szemmozgás elhanyagolható, ezért Dove kísérlete azt is bizonyítja, hogy a sztereóélmény kialakulásához nincs szükség a konvergens szemmozgásokra.
Ez az állítás azonban pontosításra szorul, mivel csak bizonyos korlátozásokon belül igaz. Nevezetesen, már Panum, P. L. (1858, Physiologische Untersuchungen über das Sehen mit zwei Augen, Kiel: Schwers mûvében. hivatkozás Julesz, 1971, 383. oldal alapján) megállapítja, hogy a sztereóélmény csak akkor jöhet létre, ha a retinális diszparitás (tehát a két retinán lévõ képpont, képrészlet egymáshoz viszonyított elcsúszása), az azóta Panum-féle fúziós áreának nevezett korláton belül van. (Ennek részleteire késõbb visszatérek.) Ha a retinális diszparitás nagyobb a Panum áreánál (ami különféle becslésektõl és kísérleti körülményektõl függõen kb. 0.1 fok és 1.5 fok között van), akkor megszûnik a sztereóélmény (az ún. fúzió) és kettõs kép keletkezik. (Ahhoz, hogy a két kép a fúziós területen belülre kerüljön, természetesen a konvergens szemmozgás megfelelõ vezérlésére van szükség.) Késõbb Volkmann (1864) és Helmholtz (1909) felfedezi, hogy a kettõslátásnak ez a korlátja nem egy mindentõl független, abszolút számérték, hanem adott tárgy esetén függ a tárgy közelében lévõ egyéb tárgyak jelenlététõl is.
Ogle (1950, 1962) részletesen vizsgálja és összefoglalja a sztereóról ismert jelenségeket. Bevezeti a patent sztereopszis fogalmát, ami akkor jön létre, ha a szem konvergens/divergens mozgása a két retinaképet kellõ mértékben egymásra illeszti. Ennek mérésére egy fixációs pontot tartalmazó felületet és egy ettõl eltérõ mélységben lévõ függõleges egyenest használt. A patent sztereopszis tartománya kissé nagyobb, mint a Panum-féle fúziós tartomány, mivel Ogle ebbe beleérti az a tartományt is, amikor már kettõslátás lép fel, de a (két!) függõleges vonalat még mindig a fixációs ponttól eltérõ mélységben látjuk.
A sztereólátás részletes elemzése ellenére a sztereóélmény létrejöttének magyarázatát mindezek a kísérletek nem tartalmazták. Több mint 100 éven keresztül az a naiv elképzelés volt általánosan elfogadott, hogy a bal ill. a jobb szem külön-külön felismeri a látott kép egyes részleteit, és a felismerés alapján mintegy "összepárosítja" azokat. Ennek alapján adódik a tárgyponthoz tartozó binokuláris parallaxis, amibõl "kiszámítható" a tárgypont nézõtõl való távolsága, azaz a tárgypont mélysége. (Mérnöki szempontból a párosítás után egy háromszögelési eljárásra van szükség a távolság kiszámításához, ami a megfelelõ trigonometriai formulákkal elvégezhetõ.)
Az utolsó jelentõs áttörést a sztereólátás kutatásában a Julesz-féle random sztereogramok (továbbiakban RDS, Random Dot Stereogram) feltalálása jelentette (Julesz Béla, 1960). Az ezt megelõzõ idõben a kísérletekhez használt sztereogramok valóban nem tartalmaztak a mélységre utaló olyan jeleket, mint takarás, árnyékolás stb., azonban egy közös tulajdonságuk mégiscsak volt: monokuláris információt tartalmaztak. Mászóval mindkét szemnek megfelelõ ábra valamilyen, legtöbbször egymáshoz nagyon hasonló, egy szemmel is felismerhetõ alakzatokat tartalmazott. A Julesz-féle RDS-ek ezzel szemben nem tartalmaznak semmiféle monokuláris információt: a bal ill. jobb kép önmagában szemlélve rendezetlen, véletlenszerû ponthalmaz látszatát kelti, de sztereoszkópba helyezve a képpárt, térbeli alakzat (pl. egy, a papírlap felett lebegõ négyzet) jelenik meg a szemlélõ elõtt (3. ábra). A Julesz-féle RDS-ek zsenialitása éppen abban áll, hogy azt a klasszikus fizikai ideált valósítja meg az agykutatás területén, amikor a kísérleti körülmények megfelelõ megválasztásával a vizsgált jelenség egyetlen tulajdonságát tudjuk a többitõl elkülönülten vizsgálni. A Julesz-féle RDS-ek csak és kizárólag binokuláris információt hordoznak.
A Julesz-féle RDS számítógép segítségével készül. A "lebegõ négyzetet" készítõ számítógépprogram elõször két azonos négyzetrácsot készít, minden rácspontot egymástól független, azonos 1/2 valószínûségû esemény szerint sorsolva fehérre vagy feketére választ . Második lépésként a program mindkét négyzetrácsból körülhatárol egy kisebb négyzetet, mindkét oldalon azonosat, de a bal képen jobbra, a jobb képen viszont balra csúsztatja adott számú pixellel. Az ezáltal keletkezõ hiányzó részt mindkét képen újra feltölti az eredeti valószínûségeloszlás szerint. Az elcsúsztatás eredményeképp a két kép pontjai egy valódi lebegõ négyzet bal- ill. jobb szemmel látható képének fognak megfelelni. Monokulárisan nézve továbbra sem lesz látható semmilyen alakzat, de sztereoszkópba helyezve elõáll a sztereóélmény.
Ennek az elvnek egyszerû továbbfejlesztésével bonyolultabb felületeket is elô lehet állítani, pl. több lépcsõt, vagy hiperbolikus paraboloidot stb. Az alapelv az, hogy az elõállítandó felület koordinátageometriai egyenlete alapján, a két szemnek megfelelõ pontokból vetítõsugarakkal két eltérõ képet állítunk elô az alapsíkon.
Julesz (1971) az RDS-ek alapján arra a következtetésre jut, hogy valójában csak egy "belsõ" szemünk van, amit Küklopsz-szemnek vagy -retinának nevez. Könyvében hivatkozik egyébként arra is, hogy a magyar nyelv félszemûnek nevezi azt, akinek hiányzik az egyik szeme. A Küklopsz-retina fogalmát olyan kísérletekkel támasztja alá, mint a monokulárisan jól ismert látványillúziók fellépése RDS esetében. Ha pl. az ismert Müller-Lyer illúziót keltõ ábrapárt valósítjuk meg RDS-sel, a nyílvégzõdésû két vonal között ugyanazt a méretbeli eltérést észleljük, mint monokulárisan. Tehát az illúzióért felelõs idegrendszeri mechanizmus a bal és jobb szembõl érkezõ két kép egyesülése után dolgozza fel a képet, ami a Küklopsz retina realitásának egyik bizonyítéka. Természetesen a Küklopsz retina azonosítása valamely neuroanatómiai struktúrával nem egyszerû feladat.
Az utóbbi három évtizedben a sztereólátás kutatása elképzelhetetlen az RDS-ek nélkül, sõt éppen ezek feltalálása adott nagy lendületet az ez irányú kutatásoknak. Manapság az RDS-eket nemcsak felnõtt kísérleti személyeknél, hanem csecsemõknél, Sõt állatoknál (majmoknak, macskáknak) is alkalmazzák a látáskutatásban. Természetesen utóbbiaknál a szubjektív élmény létrejötte nem ellenõrizhetõ, helyette kondicionálást alkalmaznak. Az egzaktság igényével fellépõ felnõtt pszichofizikai kísérletekre is hasonló vonatkozik: nem elég a kísérleti személy beszámolója arról, hogy mit lát, hanem alkalmas, pszichometriai elveken nyugvó kísérleteket kell tervezni.
A probléma részletes ismertetése
Ebben a dolgozatban a tágabb értelemben vett sztereólátáson belül csak azzal az információ feldolgozó folyamattal foglalkozom, amit álló kép és álló nézõpont (azaz a kép áll, a nézõ személy feje áll, szemmozgás megengedett) esetén az idegrendszer megvalósít.
A továbbiakban binokuláris sztereó jelzésnek (röviden sztereójelnek, vagy mélységjelnek) nevezem azt a plusz információt, amit álló kép és álló nézõpont esetén a kétszemes látás nyújt az egyszemes látáshoz képest.[2] Tehát ebbe nem értem bele pl. a takarásból, perspektivikus torzulásból, árnyékolásból stb. származó, egy szemmel is észlelhetõ téri jelzéseket. Ugyancsak nem értem bele a tárgy mozgásából ill. a nézõ mozgásából keletkezõ, egyébként nagyon erõteljes térhatást. Ezek önmagukban szintén alkalmasak bizonyos mértékû mélységélmény keltésére, azonban kutatásuk egy újabb dolgozat témája lehetne.
Alapfogalmak
Most összefoglalását adom a késõbb felhasználásra kerülõ alapvetõ, a szakirodalomból jól ismert fogalmaknak.
bázis, bázistávolság: a két szem forgási középpontját összekötõ szakasz, ill. e szakasz hossza.
mélység: az adott tárgypont mélysége alatt annak nézõtõl való távolságát értjük.
nézôvonal: a fovea centruma és a szemlencse optikai centruma által meghatározott egyenes.
konvergenciaszög: a két nézõvonal által bezárt szög.
szemmozgások:
egy szemre vonatkozó:
vertikális (függõleges),
horizontális (vízszintes,)
sagittális ("csavart")
két szemre vonatkozó:
konvergens (a konvergenciaszög növekszik)
divergens ( a konvergenciaszög csökken)
vergens (konvergens és divergens közös neve)
korrespondáló pontok: a bal ill. jobb szem retináján az azonos koordinátájú pontok (mindkét koordinátapár, azaz a "hosszúsági" és a "szélességi" koordináta azonos).
fixációs pont: az a térbeli pont (ha van ilyen), ahol a két nézõvonal metszi egymást.
Megjegyzés: a fixációs pontnak nem feltétlenül kell valamely tárgy felületi pontjára illeszkedni; lehetséges, hogy a két nézõvonal metszéspontja a "levegõben" van.
Mind a binokuláris parallaxis, mind a horizontális diszparitás az irodalomban használt értelemben a képrészletek vízszintes irányú eltolódásának jelölésére szolgál. Azonban célszerûnek tartom megkülönböztetni a téri viszonyok geometriájából adódó parallaxist attól, ami a két retinán keletkezik, ugyanis a szemek vergens mozgásának következtében nem feltétlenül a végtelen távoli pontoknak lesz nulla a diszparitása. A megkülönböztetés érdekében vezessük be a következõ két definíciót.
binokuláris parallaxis: Adott térbeli pont binokuláris parallaxisa alatt a pontból a két szem forgási középpontjához húzott egyenesek által közrezárt szöget értjük. Ezt másképp úgy is fogalmazhatjuk, hogy ez az a konvergenciaszög, amit a két szem nézõvonala egymással bezárna, ha erre a pontra fixálnánk mindkét szemmel. A végtelen távoli pontok binokuláris parallaxisa 0.
horizontális retinális diszparitás: a nézõvonalak adott iránya esetén egy térbeli pont horizontális retinális diszparitása alatt e pontnak a bal ill. jobb szem retinájára esõ vetületeinek szögkoordinátái közti különbséget nevezzük (2. ábra.). Megállapodás szerint mindig a bal koordinátából vonjuk ki a jobboldalit. A horizontális retinális diszparitás elõjeles mennyiség. Ha adott fixációs pont esetén egy másik pont az un. Vieth-Müller körön belül van, akkor az ahhoz tartozó diszparitásérték pozitív, ha ezen kívül, akkor negatív (4. ábra).
Egyszerû elemi geometriai meggondolással a 2. ábráról leolvasható, hogy az imént adott definícióval ekvivalens a következõ: ha a konvergenciaszög [phi]1, és egy adott tárgypont binokuláris parallaxisa [phi]2, akkor a horizontális retinális diszparitás azonos a d= [phi]2- [phi]1 szöggel.
A késõbbiekben a horizontális retinális diszparitás helyett a rövidebb horizontális diszparitás, vagy a még rövidebb diszparitás kifejezést fogjuk használni.
A binokuláris parallaxis definíciója tehát független az aktuális fixációs ponttól, ezzel szemben a diszparitás függ a fixációs pont helyzetétõl. A binokuláris parallaxis fogalma arra vonatkozik, amit látunk (azaz magára az objektumra), a diszparitásé pedig a retinaképekre (azaz, ahogyan az objektum a retinákra vetül).
Az említett Vieth-Müller kör egy adott fixációs pont esetén az összes nulla diszparitású pontok halmazát jelenti a két szem és a fixációs pont által meghatározott síkban (ld. pl. Kardos, 1970). Ezen pontok mértani helye az elemi geometriából jól ismert tétel szerint egy kör, mely átmegy a két szem optikai centrumán és a fixációs ponton. Az Vieth-Müller kör tapasztalati megfelelõje a kísérletileg megállapítható "horopter", mely a szubjektív megítélés alapján ugyanabba a mélységbe esõ pontoknak halmazát jelenti. Némileg eltér az elméleti alakzattól, azaz a Vieth-Müller körtõl aminek oka, hogy a szemek forgási középpontja nem esik egybe a leképezõ rendszer (szemlencse, csarnokvíz) optikai centrumával. A 4. ábrából adódik az a lényeges megállapítás, hogy egy tárgy látható felületének relatív mélységét mindig a fixációs ponthoz kell viszonyítani. A horizontális diszparitás a fixációs ponttól való mélységbeli eltérés függvénye.
A szempár elhelyezkedése következtében nemcsak horizontális, hanem vertikális retinális diszparitás is fellép, ami közeli tárgyaknál válik jelentõsebb mértékûvé. Ennek oka, hogy a tárgyak bal oldala közelebb van a bal szemhez, jobb oldala a jobb szemhez, így az optikai nagyítás mértéke eltérõ. Ezt szemlélteti a 5. ábra, ahol egy négyzet sztereófényképe látható, "befelé" fordított kamerákkal fényképezve. Figyeljük meg a képeken az ellenkezõ értelmû trapéztorzítást.
Itt szeretném felhívni a figyelmet egy, a szakirodalomban ritkán hangsúlyozott tényre: vertikális diszparitás létezik, de vertikális parallaxis nem. Vegyük észre a 5. ábra képein, hogy a foveának megfelelõ pontok ( azaz a képek centrumai) vízszintes vonalában nincs vertikális eltérés a képrészletek között. Az is könnyen belátható, hogy egy tetszõleges adott P pont esetén mindkét szemet ugyanakkora függõleges szöggel kell elforgatni, ha a két nézõvonalat erre a P pontra szeretnénk irányítani. Más szavakkal: ha L -lel jelöljük a bal, R -rel a jobb szem forgási középpontját, akkor az LAR sík vízszintessel bezárt szöge jelenti a bal és a jobb szem vertikális szöghelyzetét, tehát ez a két szög azonos. Vertikális parallaxis pedig csak akkor állhatna fenn, ha ez a két függõleges irányt mérõ szög eltérõ lenne.
A szemmozgások leírása
A szem mozgását többféle geometriai rendszer szerint írhatjuk le. A két legismertebb a Helmholtz-féle, valamint a Fick-féle leírás. (Collevijn and Erkelens, 1991, 218. oldal). Ezek között a horizontális és vertikális szögelmozdulások közötti sorrendben van eltérés.
A Helmholtz rendszer szerint elõször mindkét szemet függõleges irányban mozdítjuk el [lambda] szöggel (eleváció, felfelé pozitív) a két szemet összekötõ bázistengely körül, és vele együtt a szem eredeti függõleges tengelyét is elmozdítjuk! Ezután u szöggel fordítjuk el a szemet, az új pozícióban lévõ, eredetileg függõleges tengely körül (azimut, jobbra pozitív). Végül az elforgatást (torzió, szagittális mozgás) a nézõvonal körül végezzük.
Az említett Fick leírásban fordított a sorrend. Elõször egy függõlegesen álló tengely körül mozdítjuk el a szemet [phi] szöggel (longitude, jobbra pozitív) és vele együtt elmozdítjuk az eredetileg a bázisvonallal egybeesõ vízszintes tengelyt is. Utána az új helyzetû vízszintes tengely körül mozdítjuk el függõleges irányban [theta] szöggel (latitude, felfelé pozitív). Az elforgatás végül a nézõvonal körül történik.
A két leírás között nehéz választani, ha azt kérdezzük, melyik az "igazi". A szemizmok nem derékszögû koordinátarendszer szerint helyezkednek el, ezért valójában egyik leírás sem a "valódi" mozgást írja le. A szemizmok elhelyezkedése alapján feltételezhetõ, hogy a hozzájuk vezetõ vezérlõ parancsok között interakció áll fenn akkor, ha pl. egy függõlegesen álló képkeret mentén végigvisszük a fixációs pontot. A szemizmok vezérlõ jele nem feltétlenül fog úgy alakulni, hogy a függõleges résznél csak a függõleges, a vízszintes résznél csak a vízszintes izmok kapnak jelet; a kissé oldalt lévõ függõleges egyenes végigtapogatásához a vízszintes izmok korrekciójára is szükség lehet. Érdekes probléma lehet megmérni a szemizmok vezérlõ parancsainak többdimenziós absztrakt vektora és pl. a Helmholtz-féle koordináták közötti transzformációt.
A fenti két formális koordinátarendszer csupán a külsõ jelenség leírására alkalmas, hogy ezáltal a mért adatokat egységes formára tudjuk hozni.
A vertikális parallaxisról tett fenti állítást ezek után pontosítanunk kell: a Helmholtz-féle koordinátarendszerben nincs vertikális parallaxis. Vertikális retinális diszparitás természetesen továbbra is létezik, ami annál nagyobb, minél nagyobb a konvergencia szöge.
Az ismert sztereó modellek bemutatása, kritikája
Ebben a fejezetben a sztereó párosítási probléma megoldását célzó ismert modellek összefoglalását és azokra vonatkozó saját kritikámat ismertetem.
Az éldetekciós modell
Az elsõ, széles körben elfogadott sztereó modell Marr és Poggio éldetekciós modellje volt, amit most Grimson (1981) alapján ismertetek. Ez a komputációs algoritmus a következõ 5 lépésbõl áll.
i) Ki kell indulni egy adott konvergenciaszögbõl, és a hozzá tartozó két retinaképébõl. Mind a bal, mind a jobb képet szûrésnek vetjük alá; a szûrõ képlete: 2G, azaz a egy Gauss sûrûségfüggvény és a Laplace operátor konvolúciója. (A 2 szimbólum szokásos elnevezése a fizikában: nabla négyzet.)
Ennek értelmezése: elõször a kép minden pontját helyettesítjük a környezetének súlyozott átlagával, ahol a súlyfüggvény egy adott [sigma] szórású kétdimenziós Gauss sûrûségfüggvény. Ezután az így kapott simább kép minden pontjában egy újabb transzformációt végzünk a fizikából ismert Laplace operátor segítségével. Ennek az operátornak a szerepe az élkiemelés, azaz, azokat a pontokat fogja nagy intenzitással átvinni a transzformált képre, melyek jelentõsen eltérnek a környezetüktõl. Ennek hátterében az áll, hogy pl. a fizikai hõtanban a Laplace operátor azt fejezi ki, hogy mekkora a kifolyó fluxus egy adott pontban. Egy adott hõeloszlással rendelkezõ vékony lemez valamely pontjából annál nagyobb a kifolyó fluxus, minél melegebb ez a pont a közvetlen környezeténél (Feynman és mtsai, 1969).
A 2G intenzitástranszformáció hatására egy vonalábraszerû képet kapunk. A vonalak annál távolabb lesznek egymástól, minél nagyobb volt a Gauss függvény szórása, azaz minél erõteljesebb volt a simító hatás.
ii) egy vízszintes letapogató vonal mentén meg kell keresni az ún. nulla-átmeneteket (zero crossing), azaz, hogy a vonalat metszõ él, balról jobbra haladva sötétbõl világos, avagy világosból sötétbe menõ képrészletet határol-e; ennek megfelelõen pozitív vagy negatív elõjelet rendelünk hozzá.
iii) a Gauss függvény adott szórásához kiszámítható egy maximális méretû "maszk", amin belül kell keresni a bal és a jobb kép egymásnak megfelelõ éleit. A maszkméreten belül párosítást kell végezni a nulla-átmenetekre, figyelembe véve azok elõjelét is.
iv) az esetek nagy részében ekkor már egyértelmû a párosítás, mivel legtöbbször csak egy azonos elõjelû él esik a másik képen a maszkon belülre. (Ha esetleg nem így van, akkor újabb trükkökkel egyértelmûvé kell tenni a párosítást, amit itt most nem részletezek.)
v) a diszparitásokat egy átmeneti tárba (bufferbe) helyezi az algoritmus, és a fovea kis környezetében létrejövõ diszparitás alapján új konvergenciaszöget állapít meg.
Ezeket az egymás utáni lépéseket elõször egy durva, azaz nagy szórású Gauss szûrõvel végzi (ekkor csak nagyon kevés él marad az intenzitástranszformációnak alávetett két képen) majd összesen 4 lépésben egyre kisebb szórású súlyfüggvényt alkalmazva eljut a finomabb részletek párosításához.
Az éldetekciós komputációs modell célja, hogy egységesen kezelje a fúziós sztereopszist (azaz egy adott konvergenciaszög mellett a teljes képre számolja a párosításokat), és a vergenciát. A két folyamat közti viszonyt kölcsönhatásként kezeli: a vergencia elõsegíti a fúziót, és a fúzió tovább vezérli a vergenciát.
Ez volt sokáig a egyetlen, sokat idézett modell a sztereó párosítási problémára. Az algoritmus valóban mûködik RDS-ekre és valódi képekre egyaránt. Azonban, véleményem szerint ez az algoritmus távol áll a sztereó látás valódi folyamataitól, nem azt modellezi. Ezt a közvetkezõkre alapozom.
Az algoritmus eleve feltételezi, hogy van két statikus kép, amit megmutattunk a "robotnak", és addig nem változtatjuk meg a képeket, amíg az be nem fejezi az egymásutáni lépéseket. Csakhogy a valódi világ állandóan változik, és nem világos, hogy mit kezd az algoritmus akkor, ha pl. a harmadik durvaságú szûrés ii) pontjánál hirtelen megváltoznak a képek, pl. a tárgy eltávolodik a nézõtõl. Hol fogja folytatni, ill. újra kezdeni a feldolgozást? Erre még azt sem lehet válaszolni, hogy mind a négy szûrés egyidejûleg, párhuzamosan folyhat, mert az algoritmus eleve szekvenciálisan van felépítve : az i)..v) lépéseket csakis egymásután lehet elvégezni, és a szûrés négy lépcsõjét szintén. Ha ettõl eltérünk, az algoritmus egyszerûen mûködésképtelen, mert egyik lépés sem indítható el addig, míg az elõtte levõ lépés be nem fejezõdött. Ez az algoritmus nem párhuzamosítható, dinamikusan változó képek feldolgozására alkalmatlan és ezért távol áll a valódi idegrendszeri folyamatoktól.
Egy másik ellenvetésem talán inkább nevezhetõ "esztétikai" jellegûnek: az evolúció nem szereti az olyan mesterkélt megoldásokat, hogy "haladjunk balról jobbra" és eszerint állapítsuk meg a zéró átmenetek elõjelét. Miért éppen balról jobbra? Mert úgy szokás olvasni? Ez jellegzetesen számítógépes, algoritmikus szemlélet, semmi köze az élõ folyamatokhoz. Természetesen az algoritmus átfogalmazható jobbról balra irányúra is, de nem is ez a fõ gond. A megoldásban rejlõ aszimmetria az, ami mesterkéltnek tûnik.
Végül meg kell említeni e modell még egy hiányosságát, éspedig, hogy színes képekre nem mûködik, csak fekete-fehérekre. Arra nincs irodalmi adat, hogy ez a modell kiterjeszthetõ lenne színes képekre is, pedig a valóságban a sztereó rendszer nem színvak (ld. Kovács, I. és Julesz, B., 1993).
A Julesz-féle mágnestûs modell
A másik figyelemre méltó sztereopszis modell a Julesz-féle mágnestûs avagy "sezlon" modell (Julesz 1971, továbbfejlesztve Julesz, 1978). Ez egy kooperatív modell, ahol a mágnestûk a Küklopsz ( Cyclopian ) retinán a fekete-fehér pontoknak megfelelõen fekete ill. fehér végükkel felfelé állnak. (A kooperatív jelzõ arra vonatkozik, hogy a mágnestûk kölcsönös együttmûködésébõl jön létre a megoldás.)
A két oldalról rávetített RDS képpár esetén a tûk a mélységnek megfelelõ szöghelyzetet vesznek fel. (6. ábra) Ugyanakkor a mágnestûk egymással "rugókkal" vannak összekötve, ami biztosítja, hogy az egymás melletti diszparitások lehetõleg ne nagyon térjenek el egymástól. Így adott RDS esetén létrejön egy kompromisszumos megoldás, ami biztosítja a téves cél elkerülését (ld. 9. ábra). Ez a modell a következõ fejezetben részletesen kifejtésre kerülõ globális sztereopszis szemléletet tükrözi.
E modell fõ jellegzetessége, hogy tipikus analógiás modell: nem kíván azonosulni a teljes modellezni kívánt jelenséggel, csupán annak egy önálló aspektusával foglalkozik. Csak RDS-re ad magyarázatot, valódi képekre nem. Se a színekkel, sõt a szürkeségi szintekkel sem foglalkozik. A szemmozgást nem veszi figyelembe.
Az energiafüggvényes modellek
A sztereó párosítási probléma megoldásának újabb típusait az ún. energia függvényen alapuló modellek jelentik. Ezek pl. Yuille (1989) összefoglalásából ismerhetjük meg. A megoldáshoz Hopfield típusú neuronhálózatot használnak. E modellek lényege, hogy az adott pontpárosításokra megadnak egy, a teljes párosítási rendszer jóságát jellemzõ energiafüggvényt:
ahol d(i) a diszparitás az i. képpontok között, L(i) és R(i) a bal ill. jobb kép i. pontjának valamely mérõszáma, ami folytonos és diszkrét is lehet. Ez a mérõszám lehet pl. a kép intenzitása az adott pontban, vagy akár az elõfeldolgozás után a null-átmenethez tartozó elõjeles érték. Az E(d) kifejezés elsõ tagja a lehetõség szerinti pontos párosítást, a második tag pedig a diszparitásgradiens minimalizálását szolgálja. Az elsõ tag akkor lesz kicsi, ha a párosítás során azonos intenzitású pontok kerülnek összepárosításra, a második tag viszont akkor, ha a diszparitás nem változik nagyot a szomszédos pontok között. A u konstans megválasztásával lehet súlyozni e két ellentétes szempont között. A sztereó párosítási probléma megoldását az E(d) függvény minimalizálása szolgáltatja.
Könnyen látható, hogy ez a modell lényegében a Julesz-féle mágnestûs modell formalizálása. Az E(d) elsõ tagja megfelel annak, hogy a mágnestûk igyekeznek beállni az azonos intenzitású pontoknak megfelelõ irányba, a második tag pedig a rugókat, u a rugóállandókat képviseli. A Julesz modellben is megadható egy energiafüggvény, ami az összes mágneses és az összes rugóenergia teljes összege. A mágnestûk úgy állnak be, hogy ennek az összenergiának lokális minimuma legyen. Ha az egyensúly beállása után önállóan megpróbálunk egyetlen mágnestût kissé elmozdítani, akkor az energia nõ, ami ennek a tûnek a visszatérítésére irányuló erõ megjelenésében nyilvánul meg.
A modell azt a párosítási rendszert (párosításegyüttest) tekinti jónak, amelynél minden pont "viszonylag jól" lett párosítva. Más szavakkal: nem lokális jegyek alapján párosítja a pontokat (hiszen azok jórészt egyformák, így a párosítás többértelmû lenne), hanem a teljes kép párosítási rendszerét optimalizálja. Ebben a felállásban az, hogy egy adott baloldali pontot mely jobboldali ponttal párosítunk, függ attól, hogy az összes többi pontpárosítást hogyan végeztük. Ebben az értelemben tehát ez egy globális, és nem lokális modell.
E modellel szembeni kritikám lényege, hogy túlzottan formális, nem igazán azonosítható pszichofiziológiai struktúrákkal. Nincs bizonyítva, hogy az idegrendszer a Hopfield modell szerint oldaná meg a minimumfeladatait. Az E(d) energiafüggvény minimalizálásának problémája itt ugyanis kombinatorikus, azaz diszkrét optimalizálási probléma. Az ilyen típusú problémáknál pedig mindig fellép a kombinatorikus robbanás veszélye, amit még a Hopfield típusú absztrakt neuronhálózatok sem tudnak kivédeni. Az idegrendszer "nem szereti" a diszkrét problémákat. (ld. A modell analóg jellege c. fejezet.)
Ez a modell távolról sem "neuronszerû", ha neuron alatt a valódi és nem az absztrakt neuronokat értjük. A modellrõl sugárzik a számítógép képernyõjének pixelszerkezete, ami az élõ szemnél egyáltalán nem így van. (Ehhez a két szem ideghálózatának teljesen azonosnak kellene lenni.) Az ilyen típusú modellek talán azért keletkeztek, mert a "sztereó párosítási probléma" valójában egy félrevezetõ kifejezés: az idegrendszer nem arra "kíváncsi", hogy melyik "pontnak" melyik a párja, hanem sokkal inkább arra, hogy egy adott térbeli pontban mi a látott felszín (mindig felszíneket látunk) térbeli gradiense. A pontpárosításból természetesen kiszámítható a térbeli gradiens, de ennek nem feltétlenül kell abban a sorrendben történnie, hogy elõször a párosítást végezzük, és majd csak ezután számítjuk ki a megfelelõ mélységet. A felület gradiense esetleg másképp is kiszámítható.
A korrelációs modellek
Végül az ún. korrelációs típusú modellek (area cross-correlation models) egy jellegzetes képviselõjét ismertetem Frisby és Pollard (1991) alapján. E modell alapötlete (és ebben hasonlít e dolgozat fõ eredményét jelentõ modellhez), hogy a képen fellelhetõ "primitívek" (pl. azonos intenzitású, vagy azonos színû, stb. pontok) helyett egy kisebb-nagyobb területet párosít. A következõ mûveleteket kell eszerint végezni: i) válasszunk egy ablakot az egyik kép (mondjuk a bal) kérdéses pontja köré, és egy ugyanekkora ablakot a másik képen is, a pont feltételezett párja körül; ii) számítsuk ki a korrelációt az ablakokba esõ képrészletek között; iii) horizontálisan (esetleg vertikálisan) csúsztassuk a másik ablakot addig, amíg a korreláció maximálissá nem válik. Ezeket a mûveleteket idõben is, és a képpontok vonatkozásában is párhuzamosan végezzük. Ha megtaláltuk azt az eltolást, melynél maximális az ablakokba esõ képrészletek közötti korreláció, akkor az ablakok középpontjait feleltessük meg egymásnak; ez lesz a sztereó párosítási problémának az adott fixációs ponthoz tartozó megoldása. Ezt a mûveletsort a képpár minden pontjára el kell végezni, ami folyat párhuzamosan is.
A keresztkorrelációs modellek "örökös" problémája volt eddig ( Frisby és Pollard, 1991, 333. oldal.: "perennial problem for area cross-correlation models") az ablak méretének megválasztása. Túl kicsi ablak esetén könnyen található jól korreláló képrészlet a másik képen, ami téves párosításhoz vezet, ha viszont túl nagy az ablak, akkor csak egy átlagos illeszkedést fogunk kapni. Ha a két kép némileg eltérõ (márpedig eltérõ, azért sztereó) akkor nagy ablakméret esetén nem lehet pontosan tudni, hogy az ablakon belül mely pontokra jó a párosítás; nincs garancia arra, hogy az ablakok középpontja fog legjobban illeszkedni .
Az ablakméret optimális megválasztására többféle módszerrel próbálkoztak. Egy ilyen a SWITCHER elnevezésû algoritmus, amire Frisby és Pollard (1991) hivatkozik. Ez az algoritmus menet közben változtatja az ablakméretet; a legjobb méretet a képek statisztikai tulajdonságaira alapozva keresi meg. A hivatkozott szerzõk számítógépes futtatási tapasztalatai azt mutatják, hogy 256x256 méretû képpár esetén 3 -tól 17 átmérõjû ablak volt optimális (méretek pixelben).
A korrelációs típusú modellek realitását humán kísérletek is alátámasztják. Frisby és Pollard (1991, 335. oldal) hivatkozik Bülthoff és Mallot (1988) szerzõkre, akik három dimenziós ellipszoidoknál a bal és a jobb képek között enyhe árnyékváltoztatást hoztak létre, ami sztereó hatást eredményezett. Ez nem magyarázható a élkiemeléses modellekkel, helyette alátámasztja egy korreláción alapuló párosítási mechanizmus létezését a látórendszerben.
A SWITCHER modell párhuzamosítható és analóg folyamatokkal megoldható, de csak akkor, ha statikus képek feldolgozásáról van szó. Ez alatt azt kell érteni, hogy egyszer "megmutatjuk" e képpárt az algoritmusnak (mintavétel és tárolás), utána megvárjuk, míg az algoritmus elindul és lefut. Idõben változó (dinamikus) képek esetében ugyanaz a probléma áll fenn, mint a Marr és Poggio algoritmusnál: ha a feldolgozási folyamat alatt megváltozik a kép, arról az algoritmus nem szerez tudomást. Természetesen, ha ezt egy nagyon gyors számítógéppel végezzük, akkor lehet azt mondani, hogy a párosítás nagyon gyorsan lefut, és jöhet az újabb mintavétel. Ekkor tehát egy "központi órajel" ütemekre bontja a folyamatot, ami ismét csak távol áll az idegrendszer szervezésétõl és mûködésmódjától. A probléma háttere az, hogy itt egy digitális algoritmusról van szó, aminek van egy "eleje" és van egy "vége" és félúton nem lehet megállítani. Azt, hogy e modell, elõnyei ellenére még mindig távol áll az idegrendszer szervezõdésének és mûködésének logikájától, az is alátámasztja, hogy idegrendszer részegységei a számítógépekhez viszonyítva nagyon lassúak, ilyen mintavételes megoldás esetében életképtelen lenne az adott biológiai rendszer. A megoldást csakis az biztosíthatja, ha a részegységek párhuzamos mûködésén alapuló folytonos ráhangolódási folyamatot tételezünk fel, nem pedig egy szakaszosan indított algoritmust. (Természetesen ez nem zárja ki, hogy az adott folyamatot digitális számítógéppel szimuláljuk.)
Az SWITCHER modell az energia típusú modellektõl annyiban tér el, hogy az optimalizálandó függvény folytonos és kevés változótól függ. (Függ a horizontális, a vertikális eltolástól, valamint az ablakmérettõl). Minden pontra önállóan dolgozik, tehát ebben az értelemben lokális, azonban ez a lokalitásfogalom nem teljesen felel meg a már említett Julesz-féle lokalitás fogalomnak. Utóbbinál az egyes pontok jellemzõit venné figyelembe a látórendszer (pl. szín, irány stb.), míg a most tárgyalt modellben a környezetet is. Mindenesetre: ez a modell nem globális.
Ez a modell a vergencia vezérlésére alkalmas, "neuronszerû" modell, de csak akkor, ha azt statikus képek feldolgozására használjuk.
Lokális ill. globális sztereopszis
A sztereopszis többféle osztályozása ismeretes. Megkülönböztetnek 'finom' és 'durva' sztereopszist a 2 fok alatti ill. 10 fok feletti diszparitásokra (Bishop és Henry (1971), hivatkozás Collevijn és Erkelens , 1990, 227. oldal alapján). Julesz (1978) ugyanezzel az elnevezéssel illet egy másik osztályozási szempontot: 'finom' a keskeny vonalakra (magas téri frekvencia), 'durva' a széles vonalakra (alacsony téri frekvencia). Egy még újabb osztályozási szempontról, a lokális/globális sztereopszisról lesz szó ebben a fejezetben.
Julesz (1971, 149 old.) vezette be a lokális és globális sztereopszis fogalmát, szembeállítva azokat egymással. Hasonlatként arról beszél, hogy az atomfizikai szintet más eszközökkel tárgyaljuk, mint a molekuláris kémiát, a személyekrõl szóló pszichológia nem azonos a szociálpszichológiával stb. Ennek alapján úgy véli, hogy a lokális sztereopszis, amikor egy önálló pont mélységét kell megállapítani, más, mint amikor sok pont együttes mélységét kell. Szerinte különbséget kell tenni egy egyszerû függõleges vonal sztereopszisa és a RDS-sztereopszis között, ezek között hierarchiabeli különbség van. ("Lássuk be, hogy a sztereopszis vagy fúzió egy egyszerû vonalnál vagy pontnál minõségileg különbözik ilyen vonalak vagy pontok együttesének fúziójától vagy sztereopszisától.")
Ezek szerint az idegrendszer számára a pont ill. vonal jelentené az elemit (atom, személy) és az RDS jelentené az összetettet (molekula, társadalom)?
Miért kellenek ezek az osztályozások? Szerintem ezeknek csak akkor van értelme, ha mögöttük bizonyíthatóan eltérõ mechanizmusok léteznek. Ha csupán arról van szó, hogy egy adott mechanizmus bizonyos korlátok között jól mûködik, szélsõségesebb körülmények között viszont mintegy mûterméket produkál (gondolok itt a patent sztereopszis tartományára, amikor már kettõs képet lát a kísérleti személy, de azokat mélységben látja. Julesz (1978, 222. oldal. ), akkor ez a megkülönböztetés már nem célszerû. Ezek az osztályozási szempontok a jelenség felszínét ragadják meg, nem a lényeget.
Álláspontom szerint a lokális/globális különbségtételre nincs szükség. Itt ugyanis inkább arról van szó, hogy ugyanaz az idegrendszeri folyamat más eredményt adhat egyszerû ill. bonyolult esetben. Ezzel szemben Julesz megfogalmazása szerint úgy tûnik, mintha két eltérõ, egymásra épülõ folyamatról lenne szó a tekintetben, hogy egyszerû vonalat néz a kísérleti személy avagy egy összetett RDS-t. Azonban gondoljuk csak meg: a már említett kísérletekben, amikor Ogle egy függõleges vonal sztereopszisát vizsgálta (ezzel mérte meg a patent sztereopszis határát), ott volt egy háttér, ami sok "pontból" állt. Tehát a látszólag egyszerûbb feladatnál ugyanúgy sok pont vesz részt, mint az RDS-nél.
Másik ellenérv a lokális/globális megkülönböztetés ellen: miért kellene feltételeznünk két külön mechanizmust az egyszerûbb (egyetlen vonal) ill. a bonyolultabb (RDS) esetre? Az még elfogadható, hogy egy egyszerû esetben jól mûködõ mechanizmus nem alkalmas a bonyolult esetre, de ez fordítva nem áll: ha egy mechanizmus meg tudja oldani a bonyolult esetet, akkor az egyszerût is meg tudja oldani. Ha meg tud birkózni sok pontpárral, akkor egy pontpárral is elbánik.
Tehát elég egyetlen sztereó mechanizmust feltételeznünk. Hangsúlyozom: itt a fúziós (avagy patent) sztereopszis megoldásáról van szó. A sztereó látás egészét tekintve természetesen két mechanizmust kell feltételeznünk: a vergencia létrehozza a kellõ pontosságú illesztést, a fúziós mechanizmus pedig ezek után számítja ki a relatív mélységet.
A fenti okok miatt nincs szükség a "lokális" vs. "globális" sztereopszis megkülönböztetésre; a fúziós sztereopszisnál egyetlen egységes mechanizmust kell keresni, mely a bonyolultabb és az egyszerûbb eseteket egyaránt megoldja. (Különben is önkényes, hogy mit tekintünk egyszerûnek, gondoljunk csak az alakfelismerés nehézségeire: egy kisgyerek hamarabb és könnyebben megtanulja szülei és a "nagymama" arcának felismerését, mint az ábécét, pedig a betûk "egyszerûbbek", hiszen kevesebb vonalból állnak, mint a nagymama "élkiemelt" arca...).
A korrelációs típusú modellem kapcsán be fogom bizonyítani, hogy nincs szükség a fenti osztályozásokra: ugyanaz a mechanizmus jól mûködik "lokális/globális" valamint "finom/durva" esetben is.
A vergencia szerepe a nagy mélységek észlelésében
Erdõben vagy utcán sétálva nagyon könnyen és gyorsan fel tudjuk építeni magunkban a látott tér kognitív modelljét, annak ellenére, hogy a tárgyak rendkívül különbözõ, a Panum-féle fúziós tartománynál jóval nagyobb parallaxissal rendelkezõ mélységekben helyezkednek el. Triviális tapasztalat, hogy ez rendkívül dinamikus szemmozgással, ezen belül vergens szemmozgással jár együtt. Noha igaz, hogy a vázolt esetben a binokuláris parallaxison kívül az összes többi sztereó jelzés is rendelkezésre áll (perspektivikus torzulás, árnyékhatások, stb.) olyan személyekkel folyatott beszélgetéseimbõl, akik csak az egyik szemükkel látnak jól, kiderül, hogy a binokuláris parallaxis hiánya nem minden esetben pótolja a többi sztereó jelzést.[3]
Mivel a fellépõ parallaxisok a Panum-féle fúziós tartománynál jóval nagyobbak (tehát a patent sztereopszis nem tudja feldolgozni azokat), ugyanakkor a tapasztalat szerint látórendszerünk a nagy mélységekbõl adódó binokuláris parallaxist is fel tudja dolgozni, emiatt fel kell tételeznünk a vergens szemmozgás sztereójelzõ szerepének fontosságát. Errõl a szereprõl azonban ellentmondó vélemények találhatók az irodalomban.
Kardos (1970, 60. old.) írja: "A két szem mindig oly módon helyezkedik el, hogy a két recehártya foveájában ugyanaz a külsõ pont (tárgypont) ábrázolódik le... Nem is tudjuk úgy beállítani (ti. a szemünket), hogy a két foveába különbözõ tárgyi pontok képe essék. A szemek egymás felé fordulásának, a konvergenciának a foka nyilván annál nagyobb, minél közelebbi tárgyat fixálunk." Eszerint a vergens szemmozgás alapvetõ szerepet játszik a sztereó élmény kialakulásában.
Ezzel szemben Julesz (1971, 176. old.) szerint a szemmozgás szerepe a sztereopszisban elhanyagolható, és csak arra korlátozódik, hogy a Küklopsz retinára kerülõ két kép átfedését a Panum tartományon belülre hozza. Hivatkozik a már említett Dove (1841) kísérletre, amikor a sztereó képpár nagyon rövid idejû bemutatása esetén is fellép a sztereóélmény.
A szemmozgás egy fontos aspektusáról szól Helmholtz gondolatmenete a szemmozgásról, amit most Julesz (1971, 176. old.) alapján ismertetek.
Álló tárgyat nézve, a fixációs pont változtatásakor a tárgy továbbra is állva látszik, noha a retinakép nyilvánvalóan elmozdult. Ezzel szemben, ha külsõ erõvel (pl. az alsó szemhéjra gyakorolt ujjnyomással) kissé elmozdítjuk a szemgolyót, az álló tárgy elmozdulni látszik. A retinakép mindkét esetben elmozdult, de csak a másodiknál észleljük a tárgyak látszólagos elmozdulását.
Helmholtz következtetései: (i) az agy a mozgási szándék alapján kompenzálja a retinakép várható elmozdulását; (ii) a szemizmokból nem jut visszajelzés az agyba a szem pozíciójáról. Az (i) pont nyilvánvaló, a (ii) pedig abból következik, hogy ha lenne visszajelzés, akkor a külsõ erõvel való elmozdítás esetén is pontosan azt kellene tapasztalnunk, mint a szándékos, akadálymentes szemmozgás estén.
Az (i) és a (ii) következmények látszólag ellentmondanak egymásnak: hogyan lehetséges az, hogy a szemizmokból nincs visszajelzés, az agy ennek ellenére pontos információval rendelkezik a szemek állásáról (azaz szöghelyzetérõl). E paradoxon feloldására a Szemmozgás mechanikai modellje c. fejezetben fogok egy lehetséges megoldást adni.
A vergencia mint mélységjel szerepérõl Collevijn és Erkelens (1990) ad részletes összefoglalást. Hivatkozik Crannell és Petesre (1970), akik 60 cm és 30 m közötti mélységben lévõ kisméretû céltárgyakat mutattak be teljes sötétségben. 2-4 sec -ig mutatták be a kis világitó tárgyakat és a kísérleti személyeknek meg kellett mondani azok mélységét azaz a nézõtõl való távolságát. Ha csak az akkomodáció és a vergencia maradt meg, és kompenzálták a távolság függvényében bekövetkezõ méret- és fényerõváltozást, akkor a mélységbecslés teljesen pontatlan volt. Ez tehát mintha azt mutatná, hogy a vergenciának nincs mélységjelzõ szerepe.
Kritikai megjegyzésem: itt a kísérleti személy feladata egy közvetlen becslés volt az abszolút mélységre. Mivel még sose találkozott hasonló "desztillált" feladattal, nem csoda, ha nem tudta a vergenciaszög "belsõ" adatát tudatos becslésre használni. A tudatos felhasználás lehetetlensége még nem bizonyítja, hogy esetleg alacsonyabb szinten ne lenne felhasználva ez az információ! A helyzet hasonló a világosságbecsléshez: nappali világosságnál egy szobában azt gondolhatnánk, hogy a fényerõ nagyjából azonos a kinti fényerõvel, fénymérõvel megmérve azonban kiderül, hogy az több nagyságrenddel eltér. Az abszolút fényintenzitást tehát valóban rendkívül pontatlanul tudjuk becsülni, ugyanakkor nyilvánvaló, hogy a látórendszer ezt a "saját számára" mégis elég pontosan méri. A közismert hideg-melegvizes kísérlet, amikor végül langyos vízbe kell tennünk a kezünket, a hõérzékelésrõl mond hasonlót, vagyis, hogy a hõérzékelésünk nem abszolút, hanem relatív. Ugyanakkor a testünk hõmérséklet-szabályozása rendkívül pontos, ami mégiscsak egy "abszolút hõmérõ" feltételezését indokolja. Ezek a példák tehát azt bizonyítják, hogy noha tudatos szinten nem tudjuk felhasználni az adott információt az észlelt inger intenzitásának abszolút becslésére, a feldolgozás alacsonyabb szintjén ez mégis megtörténik. (Az is lehetséges, hogy a fenti kísérleti helyzetben egy hosszabb tanulási folyamat alatt a kísérleti személy meg tudná tanulni a pontos mélységbecslést.) Ezekhez hasonló gondolatmenet szerint tehát az a tény, hogy tudatosan nem tudjuk felhasználni a vergenciaszög értékét abszolút távolságbecslésre, önmagában egyáltalán nem bizonyítja, hogy a látórendszer alacsonyabb szintjei sem használják fel.
Keressünk bizonyítékot arra, hogy felhasználja. A bizonyítás a következõ kísérlet lenne: ha a vergenciaszög változása megváltoztatja a látott tárgy szubjektív méretét, az csakis a vergencia hatásának tudható be. Egy jól megtervezett kísérlet, melynek során a vergenciaszög változásán túl semmilyen más lényeges jellemzõ nem változik, bizonyíthatná, hogy van visszajelzés a vergenciáról. A kísérlet leírását ld. Kísérletek a Crystal Eyes-zal.
Arról, hogy a vergenciaszöget a központi idegrendszer valamilyen formában felhasználja a percepcióban, létezik azért néhány fontos ismert eredmény.
Ilyen a közismert Emmers törvény. Eszerint a retinákon létrehozott utóképet "kivetítve" egy szürke falra, az utókép szubjektív mérete a faltól való távolságtól függ: közeledve a falhoz a kép szubjektív mérete csökken, távolodva nõ. Ugyanakkor nyilvánvaló, hogy a retinakép - lévén szó utóképrõl - eközben nem változik. Ez e jelenség tökéletesen összhangban van a nagyságkonstanciával, annak mintegy inverze. (Mint ismeretes, a nagyságkonstancia jelensége akkor észlelhetõ, amikor egy tárgy pl. közeledik, de méretét állandónak észleljük, holott nyilvánvaló, hogy a retinakép nõ.)
Hasonló jelenséget már Wheatstone ( ld. Collevijn és Erkelens, 1990) is felismert a sztereoszkóppal végzett kísérletezés közben: a binokuláris parallaxis változása hatással van a kép látszólagos méretére. Heinemann és mtsai (1959) részletesen vizsgálta ezt a problémát és megállapította, hogy a perceptuált méretváltozás csak a vergenciaszögtõl függ, de nem függ az akkomodációtól és a pupillamérettõl. Julesz (1971, 177. old.) mûvében utalás található Gregory és mtsai. (1959) munkájára, aki a fejmozgással kapcsolatban talált szubjektív méretváltozást az utóképen.
Ez a jelenség tehát egy vergenciafüggõ jel jelenlétét bizonyítja a perceptuális folyamatban. Ezt a kísérletet a Crystal Eyes eszközzel megismételve, hasonló eredményre jutottam (ld. az errõl szóló fejezetet).
Végül Francis és mtsai (1993) foglalkozik a vergencia mint mélységjelzés szerepével. Eszerint a kísérleti személyek 6 m-ig kellõ pontossággal tudták megbecsülni egy sötét szobában látható világító céltárgy távolságát. Konklúziójukban megállapítják, hogy a vergencia hatékonysága a távolság becslésére nagyban függ a kísérleti körülményektõl. Ezek az eredmények tehát ellentétesek a fent tárgyalt Crannell és Peters (1970) eredményeivel.
Látható tehát, hogy a vergencia mélységjelzõ szerepérõl egyelõre ellentmondó vélemények találhatók az irodalomban. Azt, hogy a VERGENCE komputációs modellem valós folyamatot ír le, a vergencia mélységjelzõ szerepérõl szóló pozitív kísérleti eredményekre alapozom.
A vergencia szerepe a fúziós sztereopszisban
Többször szó esett arról, hogy a vergens szemmozgás (egyik) fontos szerepe a két kép kellõ mértékben fedésbe hozása, azaz a retinális diszparitás lecsökkentése a Panum-féle fúziós tartományon belülre, a képek fúzióba hozása. Ennek részleteit nézzük meg most.
Richard (1971) és elõtte Ogle (1962) (hivatkozás Julesz, 1978, 223. oldal alapján) nagyon nagy diszparitásokat mértek fúzióba kerülõ klasszikus sztereogramoknál (nagy volt a Panum limit), sokkal nagyobbakat, mint amik RDS-eknél elõfordulnak. Ennek okát Julesz (1978) az RDS-eknél fennálló fantom párosítási lehetõségekben látja.
Ugyanakkor Regan és mtsai. (1990, 327. oldal.) irodalmi hivatkozások alapján a Panum fúziós tartomány méretére vonatkozó, a kísérleti helyzettõl függõ jelentõs eltérésekrõl számol be. Eszerint a Panum tartomány mérete erõsen függ az inger téri és idõi paramétereitõl. Pl. a sztereó képpár egyikén egy függõleges vonal látható, a másikon egy függõleges trenddel rendelkezõ szinuszhullám, akkor annak amplitúdóját növelve megállapítható az a határ, ameddig a fúzió fennáll (7. ábra). Változtatva a szinuszhullám téri frekvenciáját, közelítõleg fordított arányosság áll fenn a frekvencia és a fúziós tartomány mérete között. Ha a szinuszhullám hullámhossza 30 fok, akkor a maximális horizontális diszparitás 2 fok, ha ez a hullámhossz lecsökken 0,3 fokra, akkor a fúziós limit 2 szögpercre szökken. A Panum-féle fúziós tartomány hasonló nagyságú méretváltozatairól számolnak be idõben változó ingerek, valamint fényességükben változó ingerek esetén.
Ogle (1950) (ismertetés Regan és mtsai, 1990 alapján) annak a pszichofizikai evidenciának a bizonyítékát mutatja be, hogy a "finom sztereopszis" a nulla diszparitás közelében a legérzékenyebb. Ogle kísérletében egy horizontális "noniuszt" (skálabeosztású vonalzó) használ, ez jelöli ki a fixációs síkot. Emellett, ezzel párhuzamosan egy másik nóniusz mozog elõre-hátra, 0.1 Hz frekvenciával, adott középértékkel a mélység szerint és a kísérleti személy által befolyásolható amplitúdóval. A mérés úgy történik, hogy a középértéket különbözõ értéken tartva, az éppen adott értéknél a kísérleti személy beállítja azt a maximális amplitúdót, amikor még fúziót észlel. A sztereó érzékenység a legjobb a nulla közelében: itt 1 szögperc, és 1/2 részére csökken 4 szögpercnél.
Ugyancsak Regan és mtsai (1990) ad egy összefoglalást a diszparitásérzékelõ neuronokról, majmokon végzett fiziológiai kísérletek alapján. Eszerint háromféle neuron található: a zéróhoz képest közelre, a távolra és a zérótól eltérõre érzékeny neuronok. Ez összhangban van azzal a jól ismert eredménnyel, hogy a pszichofizikai diszparitásérzékenység a nulla diszparitás közelében a legjobb.
Poggio (1989) ennek alapján arra a következtetésre jut, hogy ezek a hangolt érzékenységû neuronok fontos szerepet játszhatnak a sztereó mechanizmusban, információt nyújtva a fúziós mechanizmusnak mind az érzékelésnél, mind a mozgásnál.
Fiziológiai kísérletek során, majmoknak mutatott RDS-ek alapján azt az eredményt találják (Poggio, Gonzalez and Krause, 1988, hivatkozás: Regan et al 1990), hogy a diszparitásérzékeny neuronok legtöbbje az un. "tuned excicatory", azaz hangolt excicatorikus neuronok osztályába tartozik. (8. ábra). Az inger "klasszikus" RDS volt, a mérések egysejt-válaszok voltak.
Ugyanitt a 329. oldal szerint "A diszparitásérzékenység drámai csökkenése tapasztalható, ha a céltárgyat egy kissé a fixációs pont elé, vagy mögé helyezzük....következésképpen az optimális sztereó érzékenység a diszjunktiv (azaz vergens) szemmozgás különösen precíz vezérlését igényli."
Eszerint tehát a vergens szemmozgással kapcsolatosan bizonyítottnak tûnik az a vélemény, hogy szerepe rendkívül fontos a két retinakép kellõ mértékû (azaz a Pánum-féle fúziós tartományon belüli) egymásra illesztésében. A fúzió, azaz a sztereóélmény csak akkor jöhet létre, ha az átfedés az adott korláton belül van. Ugyanakkor e korlát (a fúziós limit) nagyban függ a látott objektum(ok), ill. sztereó képpárok képi tulajdonságaitól.
A téves cél probléma és a négytûs illúzió
A globális sztereopszis fogalmát Julesz többek között az ún. téves cél (vagy fantom párosítások) elkerülésére vezette be (Julesz, 1971, 119. old., Julesz, 1978, 221. old.). A 9. ábrán látható vázlat azt mutatja, hogy ha egy sztereó ábrapáron 4-4 azonos méretû és intenzitású pont van, akkor összesen 16 féle párosítási lehetõség áll fenn, ha a pontoknak csak a lokális jellemzõit (méret, szín) vesszük figyelembe.
Julesz (1978. 221 old.) írja: "Valóban, a korrespondáló párok egymagukban nem képesek megoldani a sok fantom lokalizálást a 9. ábrán. Egy globális folyamatra van szükség, amely a korrespondáló elempárosítások különbözõ együttesét becsüli meg (globális sztereopszis) és kiválasztja ezek közül azt a párosítás-együttest, ami a legközelebb fekszik valamely háromdimenziós felülethez és eltávolít minden egyéb fantom lokalizálást, mely ugyanazon a nézõvonalon fekszik."
A téves cél problémával kapcsolatban azonban felmerül néhány fontos, tisztázásra váró kérdés.
Ha mesterségesen állítunk elõ egy sztereó ábrapárt, akkor valóban meg lehet rajzolni a fenti 16 párosítási lehetõséget és azt lehet mondani, hogy íme: ezek a fantomok, ezek pedig a "valódiak". De mi van akkor, ha pl. 4 gombostût szúrunk egy kis falécbe, és a lécet a szemünkre merõlegesen, a bázistávolság felezõmerõlegesének irányában tartjuk. Ügyelni kell eközben arra is, hogy a gombostûk fejei által meghatározott egyenes szintén vízszintes legyen, a fejek "azonos magasságban" legyenek.
Ekkor a következõ meglepõ eredményt kapjuk: ahelyett, hogy 4, egyre távolodó tût látnánk, 4 darab, a valódi irányra merõleges (a horoptert érintõ és nem rá merõleges) egyenest alkotó tûfejet látunk. A tûfejek fizikailag a téves cél problémát szemléltetõ 9. ábra kis pontokkal megjelölt négyzeteinek felelnek meg, amit látunk, az viszont a valóságosnak mondott 4 darab befeketített négyzet
A kísérleti személyek, arról is beszámoltak, hogy néha 5, 6, vagy 7 tûfejet látnak szintén egy sorban, a szem bázisvonalával párhuzamosan.
Akkor most feltehetõ a kérdés, hogy mi a fantom: fantomként látjuk a valódi, avagy valódiként a fantom párosításokat[4] ?
Hasonló eredmények, csak éppen 2 tûvel végezve a szakirodalomban is fellelhetõk: Mallot, H. A. és Bideau, H. (1990), Ono, Hiroshi (1982), Krol, D. J. and van de Grind, W. A. (1979). Ezekben a munkákban magát az illúziót írják le, és megpróbálnak magyarázatot adni a jelenségre.
A VERGENCE program szimulációs eredményeinek ismertetésénél meg fogom mutatni, hogy a VERGENCE modell mintegy "magától", újabb beavatkozások nélkül ugyanezt az illúziót produkálja. Pontosabban: ugyanakkor esik tévedésbe, amikor az emberi látórendszer.
A SZTEREÓ PÁROSÍTÁSI PROBLÉMA ÚJ MODELLJE
Ebben a részben ismertetem a saját modellemet, amit e dolgozót fõ eredményének tekintek. A modellnek a VERGENCE elnevezést adom, mert a szemmozgás vezérlésére, és az azon lapuló mélységmérésre ad egy lehetséges magyarázatot.
Elõször összefoglalom azokat az alapvetõ, kísérlettel közvetlenül igazolható állításokat, melyek egységes magyarázatát kívánom adni modellem alapján. Az elméleti fizika álláspontjához híven a modell elõnyeit azzal szándékozom majd bizonyítani, hogy a VERGENCE modell egységes magyarázatát adja a kísérleti jelenségek széles körének.
A sztereólátással kapcsolatos alapvetõ állítások
A következõkben elõször összefoglalom azokat az általam alapvetõnek tekintett állításokat (posztulátumokat), melyek igazsága megfelelõ kísérlettel közvetlenül bizonyítható. Posztulátumnak nevezem ezeket, hangsúlyt adva annak, hogy a posztulátumok igaz volta nem függ az õket értelmezõ és magyarázó elméletektõl. A látás jelenségeit magyarázó elméleteknek egységes képben meg kell tudni magyarázniuk ezeket a jelenségeket, ill. ezeken kell alapulniuk.
Egyes posztulátumok kísérleti bizonyítékai az irodalomból ismeretesek, azokat röviden ismertetem az adott helyen, más posztulátumokat saját kísérletekkel (is) alátámasztom. Utóbbiakra most csak hivatkozom, és a Kísérletek a Crystal Eyes-zal c. fejezetben fejtem ki részletesen.
Posztulátumok
1. Parallaxis posztulátum. A mélységlátás elégséges feltétele, ha a bal és jobb szemmel látott képek részletei között binokuláris parallaxis áll fenn.
Bizonyító kísérlet: a Wheatston-féle tükrös sztereoszkópba helyezett vonalábrákkal végzett egyszerû kísérletek. Ezeken nincs más mélységinformáció, mint a binokuláris parallaxis. Az egészséges szemû kísérleti személyek mindegyike jól látja a mélységet a képeken. Ha a személynek kellõ idõ áll rendelkezésére, ami alatt a szemmozgással a kép tetszõleges helyére fixálhat, akkor a Panum fúziós tartománynál nagyobb parallaxis is megengedett a képekre, a kísérleti személy látni fogja a kép mélységeit. A részletes kísérleti bizonyítékok közismertek a látáspszichológiában, ezért célzott kísérletet nem végeztem. A laboratóriumunkban rendelkezésre áll egy tükrös sztereoszkóp, mellyel bármikor reprodukálható a jelenség.
Megjegyzés. Ez a posztulátum a látványra (ill. sztereoszkóp esetén a két képre) vonatkozik, nem pedig a retinaképre. Utóbbi a fixációs pont változtatásakor elmozdul, és a vergens szemmozgás hatására más helyre kerülhetnek a fedésben lévõ ill. az elcsúsztatott képrészletek. (ld. fent a binokuláris parallaxis definícióját.)
2. Küklopsz I. posztulátum. A mélységlátásnak nem szükséges feltétele a monokuláris alaklátás.
Bizonyító kísérletek. Sztereoszkópba helyezett Julesz-féle random sztereogramoknál a kísérleti személyek látják a kialakuló térbeli alakzatot. Sok esetben a sztereó kép lassan "jön elõ", hosszú a latenciaidõ, hosszabb, mint pl. vonalábráknál, vagy fényképeknél.
Megjegyzés. Ez a posztulátum azt sugallja, hogy a mélységészlelés egyszerûbb feladat, mint az alakfelismerés. Ez a tény az alapja az alakfelismeréstõl független mélységészlelési modellek kidolgozásának.
Megjegyzés. Az irodalmi adatok a sztereopszis létrejöttéhez szükséges idõtartamról eltérõek, néhány másodperctõl több percre tehetõk. Julesz (1971) 216. oldal, késõbb Rogers és mtsai. (1993) foglalkozik a latenciaidõ körülményektõl való függésével. Utóbbi munka szerint egy spirált ábrázoló RDS esetében a pontméret és az intenzitás gyorsítja, a növekvõ dekorreláció és a növekvõ nézõtávolság lassítja az RDS ábra felismerésének sebességét. Azt nem közlik, hogy milyen sztereó eszközt használtak a kísérletkehhez, de feltehetõen diavetítõvel kombinált tükrös sztereoszkópot.
Saját késõbb ismertetésre kerülõ kísérleteim szerint tükrös sztereoszkóp használatakor a latenciaidõ valóban meglepõen hosszú, egybevág a fent említett adattal. Viszont a folyadékkristályos sztereó szemüveg (Crystal Eyes) használatakor ezek az idõtartamok RDS esetén is rendkívül rövidek: 2x8 ms bemutatási idõ elegendõ egy gyakorlatlan kísérleti személynek ahhoz, hogy felismerje a 3. ábrához hasonló ábrán a lebegõ négyzetet, sõt megkülönböztesse, hogy az alaphoz képest elöl ill. hátul (bemélyedõ) van-e.
A Crystal Eyes szemüveg használatakor elõálló rövid latenciaidõ annak tudható be, hogy -ellentétben a tükrös sztereoszkóppal- ennél az eszköznél a valódi helyzethez közelebb áll a látvány. Itt életszerûen látszik a képernyõ kerete, és a sztereókép is a képernyõ látható felületének közelében keletkezik. Tehát a vergenciaszög beállása nem jelent nehézséget a kísérleti személyeknek, és mint fent láttuk, a kellõen pontos vergenciaszög megtalálása elõfeltétele a fúziónak.
A Küklopsz I. posztulátummal kapcsolatban fel kell oldani a következõ látszólagos paradoxont. A random sztereogramok felismerésekor nincs monokuláris információ, sztereó eszközzel nézve mégis látunk alakzatot. Tehát kétségtelen, hogy ebben az esetben a mélységlátás képezi az alapját az alaklátásnak. Akkor viszont hogyan lehetséges mégis az egy szemmel való alaklátás, hiszen ekkor nincs mélységi információ? Vagy talán kétféle alakfelismerõ rendszer mûködik az agyban: egyik a diszparitáson, másik a fényerõn ill. színen alapszik? A Küklopsz retina fogalma jelentheti a megoldást: valójában csak egy "belsõ" szemünk van, melyben a két retinakép egyesül, és az egyes képpontokat ill. azok lokális környezetét a "textura" elemek jellemzik, melyek egyike lehet a diszparitása.
3. Küklopsz II. posztulátum. Eltérõ részleteket tartalmazó képpár sztereoszkopikus nézése esetén a kísérleti személy nem tudja megkülönböztetni, hogy az egyes képpontok a bal vagy a jobb szem retinájáról származnak-e.
Bizonyító kísérletek . (i) Tükrös sztereoszkópos kísérletnél, ha valamelyik képben egy ellenpár nélküli képrészlet van (pl. egy ceruzát tesz a kísérletvezetõ a bal vagy a jobb képre), akkor a kísérleti személy nem tudja megmondani, hogy az melyik képen van és melyikrõl hiányzik. Ez a jelenség a rendelkezésre álló tükrös sztereoszkóp segítségével bármikor reprodukálható, célzott kísérletet nem végeztem rá.[5]
(ii) A valódi 4 pontos téves cél kísérletnél elõállhat egy olyan látvány, amikor 5 vagy 7 pontot lát a személy, és itt bizonyos pontoknak nincs ellenoldali párja. (ld. A téves cél probléma és a négytûs illúzió c. fejezetet)
4. Szemmozgás posztulátum. Szabad szemmozgás esetén a központi idegrendszernek pontos információ áll rendelkezésére a szemek pozíciójáról, és így a konvergencia szögérõl is.
Bizonyítékok.
(i) Helmholtz gondolatmenete az aktív és a passzív (kívülrõl kényszerített) szemmozgásról ezt a posztulátumot igazolja (ld. A vergencia szerepe a nagy mélységek feldolgozásában c. fejezetet.). Alább, A szemmozgás mechanikai modellje c. fejezetben be fogom bizonyítani, hogy a központi idegrendszer elvileg rendelkezhet pontos információval annak ellenére, hogy nincs visszajelzés a szemizmokból. Az, hogy valóban van, külön kell bizonyítani, amirõl szintén lesz szó.
(ii) Az utókép méretváltozása (Emmers törvény) annak bizonyítéka, hogy a központi idegrendszer ismeri a szemek szöghelyzetét, máskülönben nem tudná korrigálni a méretet a távolság függvényében. Ez véleményem szerint perdöntõ bizonyíték arra, hogy a központi idegrendszernek van információja a vergenciáról. Az más kérdés, hogy ezt az információt bizonyos kísérleti helyzetekben (pl. teljes sötétségben egy világító pont mélységének becslésénél) nem tudja felhasználni a kísérleti személy, amint errõl korábban részletesen volt szó.
Megjegyzés. Fel kell oldani a következõ paradoxont. A szemizmokból nincs visszajelzés, mégis pontos információ áll rendelkezésre a szemek pozíciójáról. Egy lehetséges megoldást mutatok be A Szemmozgás mechanikai modellje c. fejezetben.
5. Panum posztulátum. A Panum tûrésen belüli diszparitásokat a Központi idegrendszer a relatív mélység észlelésére használja fel.
Bizonyító kísérletek. (i) Dove (1841) kísérlete, amit a történeti áttekintés fejezetben írtam le. Nagyon rövid (5 ms) bemutatási idõ esetén is, amikor még nincs szemmozgás, létrejön a sztereó élmény bizonyos korláton belüli diszparitásokra.
(ii) Saját kísérletem Crystal Eyes-zel, RDS-ekkel: 2x8 ms bemutatási idõ elég az egészséges szemû kísérleti személyeknek, hogy felismerjék az elöl/hátul mélységkülönbséget.
(iii) Francis, E. L., és mtsai (1993) eredményei melyek szerint a vergencia 6 m távolságig mélységjelzõ szerepet tölt be. (ld. fent.)
6. Téves cél posztulátum. Léteznek olyan valódi látványhelyzetek, amikor a látórendszer elõnyben részesíti a fantom párosításokat a valódiaknál.
Bizonyító kísérlet. A 4 tûs kísérletnél sosem látjuk egymás mögött a 4 tût, néha V alakzatban 5, vagy 7 tût látunk, máskor 4-et egy vonalban, tõlünk azonos távolságban.
A szemmozgás mechanikai modellje
A dolgozat alapját képezõ komputációs modell a szemmozgás vezérlésének magyarázatát célozza, ezért mindenekelõtt tisztázni kell azt az alapvetõ kérdést, hogy a központi idegrendszer egyáltalán rendelkezik - rendelkezhet-e - pontos információval a szemek helyzetérõl. Ez a kérdés annál is inkább fontos, mert egyes irodalmi adatok szerint (Pl. Julesz, 1971) a szemizmokból nincs visszajelzés a központi idegrendszer felé (ez elfogadható módon bizonyított is, ld. fent Helmholtz gondolatmenetét.), amibõl azt a következtetést szokták levonni, hogy a fenti kérdésre nemleges a válasz.
A most bemutatásra kerülõ mechanikai modellel bizonyítom e következtetés téves voltát, azaz állítom: a visszajelzés hiánya nem azonos az információ hiányával; a központi idegrendszernek igenis kellõen pontos információ áll(hat) rendelkezésére a szemek pozíciójáról, annak ellenére, hogy nincs visszajelzés a szemizmokból.
A megoldás titka: a szemmozgás esetében vezérlésrõl van szó, nem pedig szabályozásról. A 12. látható a modell vázlata. A szemet egy tengely körül forgatható kerék jelképezi, ezt két oldalról egy-egy ellentétesen ható elektromágnes húzza. Mindkét elektromágnesre egy potenciométeren keresztül áramot bocsátunk. A potenciométer csúszkájának elfordításával vezérelhetõ a két áramerõsség egymáshoz viszonyított aránya. Továbbá, ha külsõ erõ elmozdítja a szemmodellt, arról nem jut visszajelzés, ekkor tehát a vezérlõ parancs pontatlan információt szolgáltat a szem valódi állásáról.
A vezérlõ parancs (a potenciométer állása) akadálymentes (aktív) szemmozgás esetén egyértelmûen meghatározza a szem állását, ezért maga a vezérlõ parancs (a "mozgási szándék") jelenti a pontos információt a szem állásáról. A Központi idegrendszer azért ismeri a szem pozícióját, mert "õ" adta ki a mozgási parancsot.
Figyelemre méltó tény: ha a vezérlõ parancsot konstans értéken tartjuk, és eközben külsõ erõvel elmozdítjuk a szemmodellt, az erõ megszûnése után magától visszatér a parancsnak megfelelõ helyre anélkül, hogy a vezérlõ egység bármiféle járulékos korrigáló parancsot kiadott volna. 6
Ezt a modellt Helmholtz fent ismertetett gondolatmenetével kombinálva bizonyítottuk: a központi idegrendszernek kellõen pontos és kimerítõ információ állhat rendelkezésére a szemek abszolút pozíciójáról. Tehát az aktív szemmozgás megbízható alapját képezheti a vergenciaszögön alapuló irány- és mélységészlelésnek. (Ezzel szemben vö. Julesz, 1971, 176. oldal: "Tehát nem meglepõ, hogy sem a konjugált (aszimmetrikus) sem a konvergens (diszjunktív, avagy szimmetrikus) szemmozgás mértéke, sem az akkomodáció mértéke nem lehet valódi jelzés (cue) az abszolút helyzet vagy mélység megítélésében. ")
A modellel kapcsolatos egy érdekes tapasztalat, mely összecseng a szemmozgás egy ismert jelenségével. Ha a modellt egyenáramról táplálva jelentõs hiszterézis volt tapasztalható, azaz, pl. jobbra mozduláshoz kellett egy nullánál nagyobb éltéritõ erõ, ami legyõzi a súrlódást, visszatérítéshez pedig egy ellenkezõ irányú plusz erõre volt szükség. Ellenben, a modellt váltakozó feszültséggel táplálva, a hiszterézis jelensége megszûnt. Ennek (mellesleg a mûszakiak által ismert, és a gyakorlatban is kihasznált) jelenségnek egyszerû a magyarázata: az állandóan jelen lévõ kis amplitúdójú rezgés legyõzi a súrlódást, így a vezérlõjel akadály nélkül képes hatásának kifejtésére. Vessük
ezt össze azzal az ismert ténnyel, hogy a szemnek van egy állandó alaprezgése (tremor), melynek amplitúdója közel 25 szögmásodperc, frekvenciája 150 Hz vagy annál kisebb (Zincsenko és Vergilisz, 1977, 27. old.).
Feltételezhetõ tehát, hogy a szem állandó rezgése a szem beágyazódásában jelen lévõ kis mértékû folyadéksúrlódás legyõzését szolgálja. (Alább, a minimumszabályozó folyamat tárgyalásakor még visszatérek a szemrezgésre, mert feltételezhetõen szerepet játszik abban a folyamatban is.)
A folyamat biológiai háttereként megemlíthetõ, hogy az izmok általában, és így a szemizmok is a gumiszálakhoz (rugókhoz) hasonlóan mûködnek. Erre utaló adatokat és egy modell találhatunk C. C. Collins (1971, 323. oldal) dolgozatában. Az izmok felé terjedõ idegimpulzusok valójában nem az izmok összehúzódásának mértékét határozzák meg közvetlenül, hanem úgy tekinthetõk, mint amelyek az izom "rugóállandóját" növelik meg. Ha bármilyen akadály, (pl. az antagonisztikus izom, vagy egy külsõ erõ) megakadályozza, vagy csökkenti az összehúzódást, akkor az izom nyújtva marad még akkor is, ha a vezérlõ jel esetleg nagy. Ha tehát a szem jobb és bal oldalán elhelyezkedõ izmok mindegyike kap valamekkora, de nem feltétlenül egyenlõ mértékû vezérlõjelet, akkor a szem egy olyan közbülsõ szöghelyzetbe kerül, ahol a jobb és bal oldali "rugó" rugóereje egyensúlyban van egymással.
Rövid levezetéssel igazolható, hogy adott vezérlõjelek hatására az egyensúly a
szöghelyzetnél áll be, ahol r=szemgolyó sugara [phi]= a szem elfordulásának szöge, kl, kr = a bal ill. jobb oldali izomszál rugóállandója az adott vezérlõjelek esetén.
Ha most külsõ erõ (az említett ujjnyomás) eltéríti a szemet az izomfeszülések által meghatározott állapotból, arról a visszajelzés hiánya miatt a központi idegrendszer természetesen "nem szerez tudomást", tehát a retinakép elmozdulása a látott világ elmozdulásának élményét generálja. Ha elengedjük a szemet, akkor az járulékos mozgási parancs nélkül, egyszerûen a "rugók" rugóállandói által meghatározott eredeti helyzetbe kerül vissza.
A most részletezett mechanikai modell szorosan kapcsolódik a von Holst-féle "efferens kópia" elvet alkalmazó modellhez (von Holst and Mittelstaedt, 1950), amit Julesz (1971, 177. oldal) is megemlít. (Összefoglalását és hivatkozását ld. Marton Magda, 1981.) Azonban hangsúlyozni szeretném, hogy mechanikai modellel nem a von Holst modell újra felfedezése volt a célom (maga a modell nem is tartalmazza a teljes von Holst-féle visszacsatolást), hanem annak kézzelfogható bemutatása, hogy a visszajelzés hiánya nem zárja ki a szemek állásának ismeretét. Ennek kihangsúlyozása most nem a von Holst modellel való összehasonlítás miatt érdekes, hanem a vergencia mélységjelzõ szerepével áll szoros kapcsolatban, cáfolva ezáltal azt a véleményt, mely szerint a visszajelzés hiánya következtében a vergencia nem lehet az alapja a mélységészlelésnek. (ld. a fenti idézetet, Julesz, 1971, 176. oldal).
Megjegyzem továbbá, hogy a von Holst modell szabályozáselméleti szempontból semmi újat nem tartalmaz a fent részletezett Helmholtz-féle elképzeléshez képest, annak csupán "blokkséma" -szerû pontosítása. E témára késõbb visszatérve azt is meg fogom mutatni, hogy a teljes VERGENCE modell nem azonos a von Holst modellel, és nem is része annak.
A VERGENCE sztereó párosítási modell
Most ismertetem a szemmozgás vezérlésére szolgáló VERGENCE modell egzakt megfogalmazását. A modell a fent említett SWITCHER algoritmushoz hasonlít, azzal az eltéréssel, hogy az ablakméret konstans, és azonos a teljes retina méretével. Ezáltal kiküszöböli a keresztkorrelációs modellekkel kapcsolatban ismert ablakméret megválasztásának "örökös" problémáját.
A VERGENCE modell absztrakt megfogalmazása a következõ.
Vezessük be adott térbeli látvány és adott szemállások esetén a két retinakép hasonlóságának mérésére a következõ Q hasonlósági mérõszámot:
(1) Click here for Picture ,
ahol C a kétdimenziós Küklopsz retinát jelöli, (x,y)C, x a képpont horizontális, y a vertikális szögkoordinátája, a ill. [beta] a két szem horizontális ill. vertikális szögeltérése (vergenciája), L(x,y) ill. R(x,y) a bal ill. jobb retinára vetülõ kép intenzitáseloszlása, és
egy súlyfüggvény a teljes C-n, ahol r jelöli a Küklopsz retina sugarát.
A modell lényege: adott fixációs pont esetén a szemek helyes vergenciaszögét azáltal kapjuk meg, hogy az a és [beta] szögeltérések függvényében minimalizáljuk a Q(a, [beta]) függvényt.
Az (1) és (2) formulákat a 12. ábrán látható modell valósítja meg, a 13. ábrán a (2) súlyfüggvény háromdimenziós képe látható.
A Q hasonlósági mérõszám kiszámítása szavakban a következõt jelenti. A két retina azonos koordinátájú pontjainak intenzitását egymásból kivonjuk és képezzük e különbségek abszolút értékét; e különbség-abszolút-értékeknek a teljes retinákra vonatkozóan kiszámítjuk a súlyozott átlagát, ahol súlyfüggvényként a (2) szerinti hiperbolikus függvényt használjuk. A súlyfüggvény középpontja egybeesik a szemek foveájával.
A 12. ábrán a modell "kapcsolási vázlata" látható. Eszerint a Küklopsz retinán a két kép egyrészt pontonként összegzõdik, ez kerül további feldolgozásra (alakfelismerés, stb.), másrészt a két kép pontonkénti különbsége áll elõ, amibõl a Q számítódik. A minimumszabályozó feed-back rendszer mindig oly módon vezérli a két szem konvergenciaszögét, hogy a Q minimálissá váljon. Ez automatikusan maga után vonja, hogy a két fovea ugyanarra a térbeli pontra fog irányulni.
A minimumszabályozó által beállított konvergenciaszög (tehát a vezérlõ parancs) szolgáltatja a mélységinformációt a további, magasabb szintû feldolgozás felé. Mindezek idõben párhuzamosan folyó folyamatok, tehát
egyrészt a Q kiszámítása minden pontban egyszerre történik és ezzel egyidejûleg folyamatosan megy végbe a minimumkeresés. Itt tehát nem ha-akkor típusú egymás utáni lépésekrõl van szó, hanem egymásra épülõ folyamatokról, melyek idõben párhuzamosan zajlanak. A modell folyamatait bemutató ábra nem folyamatábra, azaz nem az "egymás utáni lépéseket" mutatja be; inkább egy analóg számítógép kapcsolási vázlata, ahol az egyes részegységek egymással való kapcsolatát láthatjuk. Az összes részegység egyszerre mûködik, mindegyik végzi a maga feladatát, felhasználja a hozzá kapcsolódó részek outputjait és ennek alapján õ maga is outputot produkál. A minimum-szabályozó analóg folyamat részleteit a függelékben ismertetem.
A modell mûködõképessége a Q elõnyös tulajdonságain alapul: a szimulációs futtatások késõbb részletezésre kerülõ tanúságai alapján Q értéke mind természetes képeknél, mind RDS-eknél a helyes párosításkor kicsi, helytelen párosításkor nagy, továbbá (és ez fontos!) a helyes párosításhoz közelítve már kezd csökkenni. Ez a tulajdonsága tehát alkalmassá teszi a párosítási probléma megoldására: ahol minimális a függvény értéke, ott nagy valószínûséggel helyes a párosítás.
Tehát itt egy folytonos minimumfeladatról van szó, így a diszkrét optimalizálási feladatoknál fennálló nehézségek fel sem merülnek. (ld. az energiafüggvényen alapuló modellekrõl mondottakat.)
A modell mûködõképességének bizonyítására elkészítettem egy számítógép programot, amely valódi fekete-fehér sztereó képpárra és RDS-ekre is kiszámítja a Q(a,[beta]) függvényt, és ennek alapján a bal kép tetszõlegesen kijelölt pontjának megtalálja a jobboldali megfelelõjét. A valódi képek sztereó fényképezõgéppel készültek, melyek ezután scanner segítségével kerültek digitális formában a számítógépbe. Az RDS-eket a számítógéppel generáltam. A szemmozgást a képek szoftver úton történõ elcsúsztatása szimulálja. A VERGENCE modell a szem vergens mozgásának modellezésére szolgál.
A VERGENCE modell a sztereó párosítási problémát azáltal oldja meg, hogy a minimum-szabályozó hatására a foveákba mindig ugyanannak a térbeli pontnak a képe kerül, és így háromszögelési elv alapján a látórendszer már ki tudja számítani e pont mélységét.
A vergencia beállása után fennmaradó diszparitásokat már egy másik folyamat párosítja, dolgozza fel (fúzió). Modellem ez utóbbi folyamatot egyelõre nem tartalmazza.
A vergencia vezérlése ebben a modellben független a fúziós sztereopszistól, nem azon alapul. Fordítva viszont függõ viszony van közöttük: a fúziós folyamat "beindulása" feltételezi, hogy a konvergencia kellõ pontossággal beállt. Ez tehát egyirányú hatás, ellentétben a fent részletezett Marr és Poggio féle éldetekciós modellel, ahol a két folyamat kölcsönösen hat egymásra.
A VERGENCE modell most említett tulajdonsága szorosan kapcsolódik a lokális-globális kérdéskörhöz. Ez a modell nem globális a Julesz-féle értelemben, azaz egy pont másik képen lévõ párját önmagában keresi meg, és nem a teljes képre vonatkozó párosítási rendszerrel foglalkozik. Tehát az energiafüggvényes modellektõl is eltér. Ha kijelölünk az egyik képen egy tetszõleges pontot, annak párját a korrelációs ablak elcsúsztatásával keresi meg, de nem foglalkozik azzal, hogy esetleg a többi pontnak mi a párja.
A modell ugyan nem globális, de lokálisnak sem nevezhetõ, mivel nem a pont egy kis környezete alapján párosít, hanem a teljes retinára vonatkozóan számítja ki a hasonlóságot, így az összes többi pont is részt vesz valamilyen formában az adott pont párosításában. De nem az számít, hogy a többi pontnak mi (volt vagy lesz) a párja. Tehát ez a modell se nem globális, se nem lokális; ez egy korrelációs típusú modell.
A szimulációs futtatások meglepetésre azt mutatják, hogy e "kvázilokális" elv alapján rendkívül kicsi a fantom párosítások lehetõsége. Amikor mégis elõfordul, az egybeesik az emberi látórendszer tévedésével. Ennek részleteit a Szimulációs futtatások c. fejezetben tárgyalom majd.
A futtatási tapasztalatok alapján bizonyított, hogy a modell mûködõképes, valódi képek esetén gyorsabban mûködik, mint RDS-ek esetén. A Q(a,[beta]) tapasztalati függvény (tapasztalati, mivel alakja a konkrét képtõl függ) elemzésébõl látható, hogy az valódi képeknél a elcsúszás monoton függvénye, így a Q(a,[beta]) szerint végzett lokális minimumkeresés megadja a helyes párosítást. RDS-ek esetén nagyon sok lokális minimum van, ami lelassítja a globális minimum megtalálását.
Kiterjesztés színes képekre
A Q mérõszám a fenti definíció szerint fekete-fehér képek feldolgozására alkalmas. A szimulációs futtatások is ilyen képekre készültek. Azonban az elv nagyon egyszerûen kiterjeszthetõ színes képekre is. Ehhez egyszerûen definiálni kell a Q*=QR+QG+QB összeget, ami a három alapszínre önállóan kiszámított Q értékek összegébõl keletkezik. A Q* minimalizálása színes képekre oldja meg a sztereó párosítási problémát.
Összehasonlítás a von Holst modellel
A VERGENCE modell nagy hasonlóságot mutat a már említett von Holst modellel, de mégsem azonos azzal. Emiatt fontos megmutatni e két modell közti jelentõs eltérést.
Nevezetesen, a most leírt modellben, ellentétben a von Holst modellel, nincs efferens másolat az elmozdulás elõtti retinaképrõl (vö. Marton Magda, 1981). A von Holst modell a szakkádikus szemmozgás modellje, ott valóban szükséges az elmozdulás elõtti retinakép belsõ kópiája, hogy összehasonlítható legyen az elmozdulás utáni retinaképpel. Eszerint, amennyiben az elmozdulás elõtti (tárolt) és az elmozdulás utáni retinakép közti tényleges eltolódás azonos a mozgási parancs alapján bejósolt eltolódással, akkor e két jel (ti. a bejósolt és a tényleges eltolódás) kioltja egymást, ami magyarázatát adja annak, hogy ez esetben nincs szubjektív mozgásélmény.
A VERGENCE modellben ezzel szemben nincs elõre "megtervezett" mozgásparancs. Modellemben a visszacsatolás a bal és jobb kép hasonlóságát mérõ Q értéken keresztül történik és a szabályozó rendszer nyugalmi helyzetét ennek lokális minimuma jelenti. A VERGENCE modell a vergens szemmozgást modellezi, itt pedig nem lehet és nem is kell élõre kiszámítani a szükséges parancsot, hanem folytonos visszacsatolással addig kell változtatni a vergenciaszöget, amíg elô nem áll a lokális minimum. Itt nincs a retinaképeknek olyan belsõ kópiája, amivel össze kellene hasonlítani a retinakép elmozdulását. A két modell különbözõségérõl könnyû meggyõzõdni, ha folyamatábráikat egymás mellé helyezzük. Az én modellem egy belsõ kópia nélküli szabályozási modell a vergens szemmozgásra, von Holst modell viszont a szakkádikus szemmozgás modellezésére szolgál.
A súlyfüggvény szerepe és tulajdonságai
A VERGENCE modell legfõbb újdonsága a w(x,y) súlyfüggvény. Ez teszi ugyanis lehetõvé, hogy az ablakméret konstans maradhasson.
A w(x,y) nem véletlenül olyan, amilyen, hanem egy heurisztikus ötleten alapul. Ha a "szokásos" ablakokkal dolgoznánk, melyeken belül tehát egyenletes a súlyeloszlás, akkor természetesen változtatni kellene az ablakméretet, a körülményektõl függõen. (Meg kell jegyezni, hogy az egyenletes eloszlású ablak esetén is tulajdonképpen a teljes retinára vonatkozóan létezik egy súlyfüggvény, vagy nevezhetjük ablakfüggvénynek is: értéke az ablakon belül nullánál nagyobb konstans, kívüle pedig mindenütt 0.) A nagy ablakméret a vergenciaszög beállításának kezdetén lenne elõnyös, amikor még pontatlan az illeszkedés és emiatt nagy területet kell átfognia, a kis ablak pedig akkor elõnyös, amikor már majdnem pontos az illeszkedés, de még tovább kell pontosítani.
Feltehetõ a kérdés: nem lehetne egy olyan súlyfüggvényt alkalmazni, mely egyesíti magában a nagy és a kis ablakok elõnyös tulajdonságait? A megoldás ötlete: rakjuk egymásra a nagytól kezdve az egyre kisebb egyenletes ablakfüggvényeket, ezzel eljutunk a középen hegyes, szélek felé ellaposodó függvényhez. Az így kialakuló függvény nézeti képe a 13. ábrán látható. Ezzel még nem indokoltam, miért éppen az 1/r függvény szerint változik a súlyfüggvény, és egyelõre nem is tudom bizonyítani, hogy a szemünk ehhez hasonló súlyfüggvény szerint dolgozik-e. Azonban az így definiált w(x,y) súlyfüggvénynek van két figyelemre méltó tulajdonsága, melyeket az alábbiakban ismertetek.
Mindenekelõtt a w(x,y) függvény "sugárban egyenletes" eloszlású. Ez azt jelenti itt, hogy tetszõleges r sugarú és nagyon kis d szélességû körgyûrût véve annak összsúlya ezen a körgyûrûn csak d-tõl függ, de nem függ r-tõl. Ez a tulajdonság egyszerû integrálással levezethetõ.
A súlyfüggvény másik tulajdonsága, hogy csak egyetlen paramétere van, de ha ezt az egyetlen paraméterét megváltoztatjuk, a lokális minimumok ugyanott lesznek. Tehát a w(x,y)-nek nincs olyan paramétere, ami kihatással lenne a megoldásra. Ezt a tényt másképp is fogalmazhatjuk: egy súlyfüggvénytõl elvárjuk, hogy a teljes ablakra normált legyen, azaz integrálja 1 legyen.
Ha eszerint választjuk meg a w(x,y) paramétereit, akkor a súlyfüggvénynek nem marad szabad paramétere. Az állítás egyszerû algebrai levezetéssel igazolható.
A modell analóg jellege
Sokat vitatott téma, hogy az agyban végbemenõ folyamatok digitális avagy analóg jellegûek-e ill. ha mindkét típusú folyamat létezik, mi ezek között a kapcsolat? A kérdéssel többek között Neumann (1964), Gregory (1973) foglalkozik.
Véleményem szerint az agyat elsõsorban és alapvetõen analóg folyamatok jellemzik, egyszerûen fogalmazva: a komputációs szemlélet szempontjából az agy egy analóg számítógép. Eszerint az agyban idõben folytonos, egymásra ható folyamatok folynak, és ezek versengésébõl, közös dinamikus optimumából jön létre a "megoldás" azaz a viselkedés. A digitális jelleg csak az agymûködés magasabb szintjein lép elõtérbe, amikor pl. egy állat "eldönti", hogy megtámadása esetén meneküljön vagy támadjon, ill. pl. amikor az Arisztotelészi logika emlõjén nevelkedett, európai kulturáltságú ember világos fogalmakban és mondatokban igyekszik megfogalmazni mondanivalóját. Azonban e magasabb szinten létrejövõ kategóriák -azaz a digitális jellegû mûködés- hátterében analóg, folytonos folyamatok húzódnak meg.
Megjegyzem, hogy a digitális számítógépek legalapvetõbb folyamatai szintén analóg folyamatok, hiszen a tranzisztorok és a belõlük felépített integrált áramkörök szintén analóg, azaz folytonos állapotokat felvenni képes eszközök. A mûszaki fejlesztés fõ csapása a sebesség növelése érdekében napjainkban éppen az, hogy az áramkörök minél inkább veszítsék el analóg jellegüket, azaz, minél gyorsabban billenjenek át az egyik szélsõ állapotból a másikba. Maga az átbillenés folyamata azonban analóg folyamat. (A billenõkörök analóg voltáról ld. Tank és Hopfield, 1988, a Hopfield modell kapcsán.)
Összehasonlítva tehát az agyat a digitális számítógépekkel, elmondható, hogy alapszinten mindkettõ analóg folyamatokon alapul. Azonban míg az agy kihasználja az analóg folyamatok elõnyeit, és csak a komputációs hierarchia magasabb szintjén vált át digitálisra, addig a digitális számítógépek már a lehetõ legalacsonyabb komputációs szinten, a bitek szintjén megteszik ezt az átváltást.
Mik az analóg folyamatok elõnyei alacsony komputációs szinten? Ehhez hadd idézzek Gregorytól (Gregory, 1973, 153-154. oldal).
" A digitális számítógépek talán azért mûködnek szakaszosan (lépésekben) mert a szimbólumokat használó nyelv is szakaszosan (lépésekben ) mûködik. Az analóg rendszerek azonban közvetlenül, elemzés vagy formális megállapítások nélkül képviselik a funkcióikat, úgy adnak választ, hogy közben nem járják végig a számítási mûveletek lépcsõit: így lehetnek folytonosak. Az analóg szerkezetek nagyon gyorsan tudnak mûködni, mert egyenes úton jutnak el az eredményhez...A jelképek...az analóg agyat segítették, amennyiben lehetõvé tették számára, hogy felvegyen átmenetileg stabil állapotokat...A szavak lettek a mi belsõ számítógépünk golyói, deduktív gondolkodás idegen erejét ruházták át az emberi agyra."
Egy, a kibernetikai folklór homályába veszõ szellemes megjegyzés szerint a kétféle "géptípus" között az a különbség, hogy amíg a digitális gépek egy szimbólumrendszer alapján kiszámítják a megoldást, addig az analóg rendszerek "átélik" a feladatot. Ez kissé hétköznapibban fogalmazva azt jelenti, hogy az analóg gépeknél maga a hardver (az "anyag") végzi a számítást, nincs szükség egy külön szimbólumrendszerre.
További érv az analóg gépek mellet, hogy a megoldási folyamatok párhuzamosítása nagyon fontos, fõleg az idegrendszernél a neuronok lassúsága miatt (ld. un. százlépéses szabály, vagy Neumann J., 1964). A digitális algoritmusok párhuzamosítása nagyon nehéz, és egyelõre megoldatlan probléma: se a technikusoknak, se az evolúciónak nincs erre igazán jó, univerzális megoldása. Ellenben az analóg számítógépek (legyen szó akár ember alkotta akár evolúciós termékrõl) lényegükbõl fakadóan könnyen párhuzamosíthatók. Ez az idegrendszer gyorsaságának titka. Itt fontos azt is megjegyezni, hogy analóg rendszereknél idõi párhuzamosságról (is) van szó: nemcsak az egymással párhuzamosan kapcsolt egységek képesek egyidejû mûködésre, hanem az egymás mögé kapcsoltak is. Miközben az egyik egység végzi a maga "számítását", eközben a hozzá kapcsolódó másik egység már használja is ezt az outputot.
A idegrendszer esetén végül még egy fontos jelenséget is meg kell említeni, nevezetesen a folyamatok statisztikus jellegét. A mindenütt jelen lévõ zaj, úgy tûnhet, káros a rendszer mûködése szempontjából, azonban az idegrendszer esetében ennek ellenkezõje is igaz lehet: megfelelõ körülmények között a zaj a feladat megoldásának alapját képezheti (Geier , 1987). Meg fogom mutatni, hogy a VERGENCE algoritmus szervesen felhasználja a szemmozgás ismert vibrációját a vergens szemmozgás vezérlésére.
Visszatérve az alapproblémához, fent már láttuk, hogy a VERGENCE modell messzemenõkig eleget tesz a párhuzamos, analóg folyamatokkal való megvalósíthatóságnak, vagyis, hogy ez egy "neuronszerû" modell. Egyszerû, az idegrendszer felépítésétõl nem idegen, folytonos és párhuzamos folyamatokkal megvalósítható. Nézzük most ezt meg kissé részletesebben, sorra véve az egyes részegységek mûködését.
A különbség-abszolút-érték képzés egyszerû, ennél egyszerûbb formula nem is létezik képek összehasonlítására. Az integrálás egyszerû párhuzamos folyamat, tehát a Q kiszámítása egyszerû és párhuzamos.
Az alkalmazott mimiumszabályozó alrendszer szintén analóg és párhuzamos mûködésû. Részletes leírása a függelékben található. Ez a minimumszabályozó egy kis amplitúdójú fehér zajt használ a minimum keresésére, ami egybevág azzal az ismert ténnyel, hogy a szemek mozgásában állandó jelleggel észlelhetõ egy kis mértékû "tremor", azaz rezgés.
Az a tény, hogy nincs szükség az ablakméret változtatására, nagyban hozzásegít a folytonos visszacsatolású szabályozó kör megvalósíthatóságához. Ha "bajlódni" kellene az ablakmérettel, akkor ennek megvalósítására a szabályozókörbe még egy alrendszert kellene beiktatni, ami az egész visszacsatolt rendszert bonyolulttá, sõt a stabil mûködés megvalósítását kérdésessé tenné. Ez esetben ugyanis a minimumszabályozó lenne a magasabb szinten, és mûködését idõnként le kellene állítani, arra az idõre, amikor az ablakméret változtatása folyik.
Az ablakméret konstans értéke biztosítja a VERGENCE modell egyszerûségét, ami végsõ soron a w(x,y) hiperbolikus súlyfüggvény elõnyös tulajdonságainak köszönhetõ.
SZIMULÁCIÓS FUTTATÁSOK
A VERGENCE modell mûködõképességét a számítógépes szimulációs futtatások részletes elemzésével mutatom be.
A modellt szimuláló számítógép programot IBM kompatíbilis PC-n, Turbo Pascal nyelven fejlesztettem ki. Fontos hangsúlyozni, hogy ez a program nem azonos a VERGENCE modellel: ez csak egy szimuláció. A VERGENCE modell az adott részfolyamatokból felépített folytonos, párhuzamos mûködésû folyamat, tehát nem egymásutáni lépésekbõl áll. A program ezt a folyamatot algoritmus szinten szimulálja. A szimuláció során alkalmazott minumimkeresõ eljárás eltér a VERGENCE modell minimum-szabályozó moduljától, aminek egyszerû programozástechnikai okai vannak.
A programot fényképrõl scannerrel bevitt valódi képekkel, valamint számítógéppel generált RDS-ekkel teszteltem. Most ezeket a futtatásokat ismertetem. Több képpel is elvégeztem a tesztelést, de most mindkét típusból csak egyet mutatok be, mivel a többire hasonló eredményt kaptam.
A szimulációs futtatások során mindig a bal kép volt a vezérkép, ezen lehetett kijelölni az (XF,YF) fixációs pontot, és a program a másik képen lévõ ablak horizontális (a) és vertikális ([beta]) eltolásának függvényében Gauss-Seidel-féle iterációs algoritmussal kereste meg a Q(a,[beta]) lokális minimumát, ezáltal a pont jobboldali megfelelõjét. A párosítás mindig a bal és jobb ablak centrumára vonatkozik. A futtatások során mindig 241x241 méretû ablakkal dolgozott a program, ezen természetesen a hiperbolikus w(x,y) súlyfüggvény szerint átlagolt.
Annak érdekében, hogy a párosítási folyamat részletei is láthatóvá, elemezhetõvé váljanak, a program képes kirajzolni a Q(a) függvényt (tehát a minimalizálandó függvényt rögzített [beta] mellett), valamint arra is fel van készítve, hogy a bal képen ne csak egy tetszõleges pontra párosítson, hanem egy téglalap rácsozat mentén egy pontsorozat minden egyes elemére elvégezze a párosítást. Ezáltal a teljes képre szolgáltat egy diszparitástérképet.
A számítógép program fel van készítve arra is, hogy az aktuális eltolás (a,[beta]) mellett a két képet felváltva gyors egymásutánban tegye a képernyõre. Ezzel megállapítható, hogy az aktuális minimum, vagy az iteráció végeredményeként elõálló a, [beta] eltolások valóban a két kép helyes párosításának felelnek-e meg.
A program és a szimulálni kívánt folyamat között a következõ megfeleltetések állnak fenn:
Valódi folyamat Szimuláció
________________ _____________
világ, látvány a scannerrel bevitt fénykép, mérete képenként változó, 128x128 tol 1200x800 pixelig terjed.
retina 241x241 pixelméretü ablak, rajta a w(x,y) súlyfüggvény
vergenciaszög a jobb kép a-val jelölt horizontális elcsúszása a bal képhez képest.
fixációs pont a bal képen kijelölhetõ egy tetszõleges pont, és megfelelõ parancs hatására a program mindig úgy helyezi a képet a képernyõre, hogy ez a pont egybe essen a képernyõ centrumával és egybe essen az ablak centrumával is.
A szimulációs futtatások eredményei közvetlenül kapcsolódnak a program által készített grafikonokhoz, ezért tárgyalásukat az ábrák sorrendjében, azokhoz kapcsolva végzem.
Szimulációs futtatások természetes képekre
Nézzük elõször a valódi, természetes képeket. Ennek egyik példája a kutyát, falat és szánkót ábrázoló fénykép ( 14, 15. ábra.) A sztereó képpár két, sínre felerõsített, egymástól 130 mm optikai távolságban lévõ, 30 fok látószögû, párhuzamos állású fényképezõgéppel készült. A képek elõhívás és nagyítás után scannerrel kerültek egy-egy file -ba. A képek mérete képernyõpixelben kifejezve 1200x1000.
A 15. ábra a sztereó képpár bal képét mutatja, a rajta látható számok (1..4) bizonyos jellegzetes fixációs pontokat jelölnek. A 16..19. ábrákon az ezekhez a pontokhoz tartozó Q(a) függvények láthatók ([beta] konstans). A VERGENCE modell valódi képekkel kapcsolatos viselkedését ezeknek a segítségével mutatom be. A továbbiakban a fixációs pont XF, YF koordinátáit és az a, [beta] eltolásokat is pixel értékben adom meg.
A soron következõ ábrák elemzését mindig az ábra alatt adom meg. Ezek az ábrák a 15. ábrán látható fixációs pontoknak megfelelõ Q(a) függvényeket ábrázolják.
A 16. ábra elemzése. A Q(a) alakulását mutatja, amikor a fixációs pont a bal képen a kutya közepére esett (15. ábra 1. pont). Látható a képen, hogy a fixációs pont környezetében egyöntetû fekete a kép, a függvénynek mégis egy határozott lokális minimuma van a=74 -nél. A két kép felváltva történõ bemutatása bizonyítja, hogy ez az érték valóban a helyes párosításnak felel meg. Annak oka, hogy a részletek hiánya ellenére sikeres a párosítás, az, hogy ekkor "automatikusan" az ablakfüggvény szélei válnak dominánssá. Ennek érdekében nem kellett semmiféle változtatást végezni, a program a maximális ablakmérettel dolgozott itt is.
A 17. ábra elemzése. A kutya alatt lévõ fal középsõ részére fixál (15. ábra 2. pont). Itt az elõzõnél markánsabb, továbbra is egyetlen lokális (tehát egyben globális) minimum látható. Az elõbb említett képváltogatás itt is azt mutatja, hogy e minimumhely a helyes párosítást szolgáltatja.
A 18. ábra elemzése. Egy nehezebb esetet mutat. Itt a bal képen a fixációs pont a szánkó egyik talpának élére illeszkedik (15. ábra. 3. pont). Ennek a grafikonnak két lokális minimuma van. A nagyobb a értékhez tartozó eltolás a szánkó élének felel meg, a kisebb pedig a szánkó talpai között távolabb látható fal mélységének. Itt tehát egy"senki földje" helyzettel állunk szemben, és ellenõrizhetõ, hogy mindkét lokális minimum valódi mélységnek felel meg. Ebben az esetben az, hogy a két lokális minimum közül melyikbe talál bele a minimumkeresõ folyamat (jelen esetben a Gauss-Seidel algoritmus), mindig az egyéb körülményektõl függ. Itt tetten érhetõ a VERGENCE modellben rejtetten jelen lévõ hiszterézis jelensége. Ha egymás után több fixációs pontra megkerestetjük az algoritmussal a lokális minimumot (azaz párosítást), akkor az, hogy éppen melyik lokális minimumba kerül, attól függ, hogy elõtte egy távolabbi, vagy esetleg egy közelebbi pontra fixált-e. (A VERGENCE program a szakkádikus szemmozgást utánozza fixációváltáskor: az elõzõleg beállított vergenciaszög a szakkád alatt változatlan marad.)
A 19. ábra elemzése. A kutya feletti fal középtájékán kijelölt fixációs ponthoz tartozik (15. ábra 4. pont). Itt a kövek függõleges élei két fantom párosítást is létrehoznak, egyiket 87 -nél, a másikat -3 -nál. Ha csak ezt az egyetlen fixációs pontot jelölnénk ki, az algoritmus könnyen bekerülhetne valamelyik ilyen téves párosítást eredményezõ lokális minimumba. Azonban, ha több egymáshoz közeli fixációs ponton haladunk keresztül és így jutunk el ebbe a most vizsgált pontba, akkor a fantom lokális minimumok mindig máshová kerülnek, aminek hatására ezekbõl nagy valószínûséggel "kiugrik" a folyamat, és megtalálja a helyes párosítást szolgáltató lokális minimumot. Ezt az esetet szemlélteti a 20. ábra, amely egymás mellet ábrázolja az FX=845 ...1060 intervallumon 10-es lépésekben végighaladó fixációs pontokhoz tartozó Q(a) grafikonokat.
A 20. ábra elemzése. A 19. ábrán lévõ grafikon és 14 szomszédja axonometrikus ábrázolása. A kép (XF=845;XF=10) pontja mellett egy vízszintes vonal mentén 15 görbét rajzoltattam ki a programmal, miközben a fixációs pont XF=845-tõl kezdve, 10-es lépésekben (csak a példa kedvéért) egy vízszintes egyenesen halad végig.
A vízszintes tengelyre az a a jobbra felfelé távolodó tengelyre pedig az egymás melletti fixációs pontok XF értékeit mértük fel. Látható, hogy a fixációs pont elcsúsztatásának hatására a téves lokális minimumok helyzete megváltozik (sõt XF<900 környékén eltûnnek), ugyanakkor a fal helyes mélységét jelentõ globális minimum végig megmarad.
A 21. ábra elemzése. A 20. ábra szintvonalas változata. Látható, hogy a kétváltozós függvénynek nagyon kevés lokális minimuma van. (Ezek az ábrán azok a területek, melyeket összefüggõ zárt görbe határol.) Pontosabban azt lehet látni, hogy ha rögzítjük az XF fixációs pontot, akkor az így kapott keresztmetszeten gyakran találhatunk lokális minimumot, de ha megengedjük az XF változtatását is, akkor már alig található lokális minimum. Ami lokális minimum még ezután megmarad (ezek a vonalkázott területek), az sem jelent nagy hátrányt, mivel az XF megváltoztatása kiemeli a folyamatot a lokális minimumból, és azután az már nem fog oda visszakerülni többé.
Látható tehát, hogy ezen a háromdimenziós felszínen mozogva a VERGENCE modell folyamata kikerüli a tartós téves célt eredményezõ lokális minimumokat.
A fenti futtatások alapján összefoglalásul elmondható, hogy valódi képek esetében a VERGENCE modell mûködõképes, a mindenkori fixációs pont sztereó párosítását nagy megbízhatósággal, tévedés nélkül elvégzi! A fixációs pont változtatása a kevés téves párosítást is megszünteti.
Végül vegyük észre, hogy a téves cél elkerüléséhez nem kellett bevezetni globális szabályt: egy adott bal oldali fixációs pont párja nem attól függött, hogy az összes többi fixációs pontnak mi lesz vagy volt a párja. Viszont bizonyos esetekben, nevezetesen a kétdimenziós lokális minimumoknál mégiscsak függ egyéb pontok párosításától, de nem az összestõl. Ezért nevezem ezt "kvázilokális" szabálynak.
A VERGENCE program diszparitástérképet készít, nem pedig valódi térbeli koordinátákat. Utóbbi is elõállítható azonban, ha már ismerjük a párosításokat, és ismerjük a "kamerák" optikai paramétereit és pozíciójukat. Ez azonban csak érintõlegesen témája a jelen dolgozatnak, ezért ennek részleteit itt nem tárgyalom. A soron következõ szimulációs futtatásoknál egy un. hálóábra (fishnet) is készült az RDS teljes feldolgozásáról, ennél alkalmaztam a diszparitástérkép és a 3 dimenziós xyz koordináták közötti transzformációs képleteket.
Szimulációs futtatások random sztereogramokra
Most térjünk át a random sztereogramokkal kapcsolatos futtatási eredményekre. Ezek a 3. ábrán látható RDS részletes feldolgozásáról szólnak. A 22. ábrán látható a 3. ábra bal képének kinagyított változata, bejelölve rajta a fontosabb fixációs pontok. Ezt az RDS-t egy erre a célra kidolgozott számítógép programmal állítottam elõ. Egy darab fekete vagy fehér négyzet alakú "pont" (dot) mérete 5x5 képernyõpixel. A teljes RDS 100x100 darab kis négyzetbõl áll. Középen egy 50x50 darab négyzetbõl álló kisebb négyzet emelkedik ki sztereoszkóppal történõ nézés esetén. E lebegõ négyzet horizontális parallaxisa 10 dot, azaz 50 képernyõpixel. A szimulációs futtatásoktól tehát az várható, hogy a fixációs pont helyzetétõl függõen a=0 ill. a=50 értékeknél találunk markáns lokális minimumokat a Q(a) függvényen.
Ennél az RDS ábránál három különbözõ típusba sorolhatók a szimulációs futtatások.
i) három jellegzetes fixációs ponthoz tartozó Q(a) grafikonok (23..25. ábrák);
ii) a teljes RDS diszparitástérképének elõállítása (26..29. ábrák)
iii) a simítás hatásának bemutatása, ha mindkét képen azonos a simítás paramétere (30..35. ábra) és ha eltérõ (36..37. ábra).
A 22. ábrán láthatók azok a fixációs pontok, melyekhez tartozó Q(a) grafikonok elemzése következik most.
A 23. ábra elemzése. A fixációs pont az RDS közepére esik (22. ábra 1. pontja). Látható, hogy a Q(a) függvénynek egy nagyon markáns lokális minimuma van a várt a=50 értéknél, ugyanakkor sok téves lokális minimum is látható. Ennek oka nyilvánvaló: egy RDS kép statisztikai szempontból homogén, és egy ilyen random ponthalmazban mindig találhatók véletlen egyezések, melyek szintén véletlenszerûen helyezkednek el. Azonban figyelemre méltó, hogy a grafikon véletlen ingadozásai között az a=0 érték nem tûnik fel, pedig ekkor az alap (a parallaxissal nem rendelkezõ képrészlet) van fedésben. Ez a tény is a hiperbolikus súlyfüggvény elõnyös tulajdonságait erõsíti.
A 24. ábra elemzése. A fixációs pont az RDS alaplemezén van, a lebegõ négyzettõl és az ábra szélétõl nagyjából azonos távolságban (22. ábra 2. pontja). Látható az a=0 -nál lévõ markáns lokális minimum, és a többi, magasabb Q értékhez tartozó téves lokális minimum. Az a=50 értéknél kissé feltûnik a lebegõ négyzethez tartozó völgy, de ez még a többi ingadozás nagyságrendjébe esik. A globális minimum az alap helyes párosítását eredményezi.
A 25. ábra elemzése. A fixációs pont a lebegõ négyzet közelében, de már az alaplemezen van (22. ábra 3. pontja). Két markáns lokális minimum látható, egyik a=0, a másik a=50 értékeknél. Utóbbihoz nagyobb Q tartozik, tehát a hasonlóság kisebb. Ekkor a VERGENCE folyamat attól függõen kerül a két lokális minimum közül az egyikbe vagy a másikba, hogy elõtte egy másik fixációs pontnál mi volt az a. Itt tehát tetten érhetõ a hiszterézis jelensége. A véletlen ingadozásokból származó téves lokális minimumok ugyanúgy jelen vannak, mint az elõzõ ábrákon.
Az utóbbi három szimulációs futtatás összefoglalásaként elmondható, hogy a markáns lokális minimumok mindig valódi parallaxisnak felelnek meg, azonban mindig jelen vannak a fantom párosítások veszélyével fenyegetõ téves lokális minimumok is. Szerencsére az utóbbiakhoz tartozó Q értékek mindig jelentõsen nagyobbak, mint a valódi párosításnak megfelelõ Q értékek.
A téves párosítást eredményezõ sok lokális minimum léte egy fontos hipotézis megfogalmazására ad alapot. Az RDS-ek feltalálása óta ismeretes, hogy akár színes szemüveggel, akár tükrös sztereoszkóppal nézi a gyakorlatlan (naiv) kísérleti személy az ábrát, elsõ alkalommal több másodperces bemutatási idõre van szükség a felismeréshez (ld. Julesz 1971, 198. oldal). Az is ismert, hogy a fúzió csak azután jöhet létre, ha a vergens szemmozgás már kellõ pontossággal egymásra illesztette a két képet a Küklopsz retinán. Ugyanakkor "valódi" (pl. fénykép) sztereókép szemlélésekor ilyen nagy idõkésés nem tapasztalható. Vessük össze ezt a két tényt a szimulációs futtatásoknak azzal az eredményével, hogy RDS esetén sok, valódi képnél viszont kevés a téves lokális minimum. Akkor kézenfekvõ a hipotézis: a naiv kísérleti személy azért ismeri fel lassan az RDS ábrában rejlõ alakzatot, mert a vizuális rendszernek a vergencia vezérlését végzõ alrendszere (modulja) a sok lokális minimumba "beakad", azaz nehezen találja meg a helyes párosítást nyújtó minimumot.
A VERGENCE modell tehát ezen a ponton a humán kísérletekkel azonos eredményt ad, ami a modell egy indirekt alátámasztását jelenti.
Hálóábra készítõ szimulációs futtatások
Az RDS ábrával kapcsolatos második futtatás a teljes képre vonatkozó diszparitástérkép elõállításáról szól. A szimulációs program három egymásra épülõ folyamatból állt.
i). Q kiszámítása a vezérképen adott XF,YF, fixációs pont, és adott a, [beta] horizontális és vertikális eltolás mellett.
ii). Gauss-Seidel-féle iteráció a, [beta] változtatásával megkeresi Q minimumát az adott XF,YF fixációs pont mellett.
iii). Egy léptetõ szubrutin végighalad a vezérképre illesztett négyzetrácson, lépésenként változtatva az XF, YF fixációs pontot.
Röviden: a iii). léptetõ rutin egy diszparitástérképet készít a kijelölt négyzetrácson. Ez akár lehetne a teljes kép minden pontja is, de a futás idõigényessége miatt az RDS ábrán 5x5 pixeltávolságban lévõ pontokból álló négyzetrácsot választottam.
A léptetõ rutin több variációban tapogatta végig a négyzetrácsot: balról jobbra, jobbról balra, függõlegesen mindkét irányban, valamint "kígyóvonalban", azaz egyik sort balról jobbra, az alatta lévõt visszafelé és így tovább. Ugyanezt függõlegesen is meg tudta tenni.
A 26. ábra elemzése. Az RDS diszparitástérképe látható felülnézeti (szintvonalas) ábrázolásban. A kép letapogatása kígyóvonalban történt. Látható, hogy a lebegõ négyzet kialakult, de a széle csipkés. A vonalak a kígyóvonalnak megfelelõen egyik sorban jobbra, másikban balra nyúlnak túl a lebegõ négyzet szélén. Ez a hiszterézis jellegzetes esete: a minimumszabályozó a kétértelmû esetben tovább marad az éppen elfoglalt lokális minimumban, márpedig a lebegõ négyzet szélénél kétértelmû lokális minimumok vannak, a=0 és a=50 esetében.
A 27. ábra elemzése. Hasonló az elõzõhöz, de most függõleges irányú kígyóvonalon mozog az XF fixációs pont. Itt a lebegõ négyzet szélei függõlegesen csipkézettek.
A 28. ábra elemzése. A 26. és a 27. ábra eredménye egymásra illesztve oly módon, hogy ha az adott rácsponton a két párosítás (azaz a minimumhoz tartozó a) eltért, akkor a kettõ közül azt az a értéket választotta az egymásra illesztést végzõ program, amelyikhez kisebb Q tartozott. Látható, hogy a lebegõ négyzet szépen kialakult, eltekintve attól, hogy a sarkait "leharapdálta" az algoritmus.
A 29. ábra elemzése. A 28. ábrán látható szintvonalas ábrázolás axonometrikus változata. (A függõleges összeköttetések az ábrázolást végzõ grafikus program mellékhatásaként keletkeztek. A program mindent összeköt és ezt nem lehet letiltani). Látható, hogy a lebegõ négyzet minden pontját, tehát a fehéreket és a feketéket egyaránt a helyes mélységbe helyezte. Ez megfelel annak a kísérleti ténynek, hogy a kísérleti személyek nem kiemelkedõ pontokat látnak az RDS ábrákon, hanem egy összefüggõ, fehér/fekete pontokból álló lebegõ négyzetet.
A képpárra alkalmazottazonos mértékû simítás hatása
A következõkben a simításnak a Q (a) függvényre gyakorolt hatását mutatom be. A 30..34 ábrákon ugyanazokkal a paraméterekkel készített Q(a) függvények láthatók, azzal az eltéréssel, hogy elõtte mindkét kép azonos mértékû simításnak lett alávetve.
A 34. ábra elemzése. A simítás hatásának bemutatása egyetlen axonometrikus ábrázoláson. A vízszintes tengely az a, a jobbra felfelé távolodó tengelyre pedig az r értékei kerültek 20-tól visszafelé egyesével, 0-ig.
Mint már elõzõleg volt szó róla, a simítás itt azt jelentette, hogy az eredeti kép minden pontját helyettesítettük a pont egy négyzet alakú környezetében lévõ pontok átlagával. Az r paraméter jelentése: adott paraméter esetén a négyzet mérete (2r+1)x(2r+1), és a középsõ pont az eredeti pontra illeszkedik. Az egymásutáni ábrák rendre a következõ r értékekkel készült simított RDS-ekhez tartoznak: r=0,2,5,10 és 20. Szépen nyomon követhetõ a Q(a) grafikonok változása, a fantom párosítást okozó lokális minimumok fokozatos eltûnése. Ugyanakkor az is látható, hogy a helyes megoldást szolgáltató a=50 értéknél mindig lokális minimum van, sõt az erõsen simított ábráknál csak ez az egyetlen éles lokális minimum található.
A simítás hatását összefoglalva azt mondhatjuk, hogy a nagyon erõteljes simítás sem rontja le a helyes párosításhoz tartozó minimumot, viszont azzal az elõnnyel jár, hogy a téves célt okozó lokális minimumok eltûnnek a Q grafikonjáról. Ez összhangban van a késõbb ismertetésre kerülõ humán kísérleti eredményeimmel, mely szerint ha mindkét képen azonos mértékû simítást végzünk, az nem megy a sztereó élmény rovására: még r=20 -nál is jól látható a lebegõ négyzet.
Utóbbi eredményünk alapján az RDS-ek lassú felismerésével kapcsolatban egy újabb hipotézist tehetünk: feltehetõ, hogy az RDS-ek felismerésében gyakorlattal rendelkezõ személynek azért elégséges a rövidebb bemutatási idõ, mert a gyakorlásai során megtanulja pl. az akkomodáció pontatlanságával átmenetileg elrontani a kép élességét! (természetesen ez nem tudatos tanulási folyamat).
A képpárra alkalmazott eltérõ mértékû simítás hatása
Az RDS-ekkel kapcsolatos utolsó szimulációs futtatásaim a két kép eltérõ simítására vonatkoznak. E futtatások célja annak megvizsgálása, hogy vajon a VERGENCE modell hasonló eredményt szolgáltat-e eltérõ simítás esetén, mint a humán kísérletek (ld. pl. Julesz, 1971).
A 35. ábra elemzése. A 3. ábra bal oldali képe r=0, a jobb oldali kép r=5 paraméterrel simítva. Látható a grafikonból, hogy a helyes párosítást adó a=50 értéknél a Q meglepõen nagy (Q(50)=0.3904) az azonos paraméterû simítással rendelkezõ képek hasonló adatához képest (pl. a 32. ábrán r=5 paramétere volt mindkét kép simításának, és Q(50)=0.0121). Másik figyelemre méltó tény, hogy a lokális minimum nem annyira éles, inkább kissé lekerekített. Ugyanezt az ábrapárt humán kísérletben bemutatva, nem észlelhetõ a sztereó hatás (ld. a kísérletek leírásánál).
A 36. ábra elemzése. Itt a bal RDS r=5, a jobb oldali r=10 paraméterrel lett simítva. Itt a Q(50)=0.1156 már valamivel kisebb, de a legfeltûnõbb, hogy a minimum közelében a Q grafikonja erõteljesen lekerekített. Humán kísérletekben bemutatva ezt az ábrát, szintén nem észlelhetõ a sztereó hatás.
Tehát, ha a két kép simítása eltérõ paraméterekkel történt, akkor a lokális minimumok jellege jelentõsen megváltozik. Ez egybe esik azzal a kísérleti ténnyel, hogy eltérõ simításnak alávetett sztereó képpárnál jelentõsen leromlik a sztereó élmény.
A négytûs illúzió szimulációja
A négytûs illúzióval kapcsolatos futási eredmények a 37-42 ábrákon láthatók. A feldolgozásra kerülõ sztereó képpár mindkét képe 4-4 függõleges vonalat tartalmazott, ezek egymástól 30 pixel távolságban voltak. A vonalvastagság 5 pixel volt.
A 37..40 ábrák grafikonjai most különbözõ fixációs pontokhoz tartozó Q(a) függvényeket ábrázolnak. Az egymás utáni grafikonoknál 10 pixeles lépésekben balról jobbra vittük a fixációs pontot (ld. az ábrákon az XF értékeket). Látható az eredmény: a grafikonok alakja ugyan változik, de a lokális minimumok mindig ugyanazoknál az a értékeknél találhatók!. Ez pedig azt jelenti, hogy ha egy fixációs pont esetén a minimumkeresõ folyamat bele talál valamelyik lokális minimumba, akkor fixációváltáskor ott is marad! Ha pl. a középsõ, a=0 értékre áll rá az algoritmus, az megfelel annak, amikor négy tût lát a kísérleti személy és bármely tûre is teszi át ezek után a fixációs pontot, a vergenciaszög (azaz szimulációnál az a) stabil marad. Ez abban a szubjektív élményben nyilvánul meg, hogy ha már egyszer megláttuk egymás mellett a négy tût, akkor horizontális irányban bármelyikre áttehetjük a fixációs pontot különösebb gond nélkül, a "kép nem esik szét".
Ezt a jelenséget a továbbiakban úgy nevezzük, hogy a vergenciaszög " fixáció szerint stabil", vagy másik lehetséges megnevezés szerint: "fixáció szerint folytonos".
Definíció: A vergenciaszöget akkor nevezzük fixáció szerint folytonosnak, ha a fixációs pont kismértékû elmozdulása a vergenciaszög kismértékû elmozdulását eredményezi. (Ennél pontosabb matematikai definíció is megadható lenne, de ettõl most eltekintek.)
Ezek szerint megállapíthatjuk : azért látjuk a 4 (vagy 5, stb.) tût egymás mellett és nem egymás mögött, mert ekkor áll fenn a vergenciaszög fixáció szerinti stabilitása. Ha a 4 tût egymás mögött "szeretnénk látni", akkor 3 alkalommal ki kellene ugrani a már megtalált lokális minimumból, ellenben ahhoz, hogy egymás mellett láthassuk õket, egyszerûen bent kell maradni a már megtalált lokális minimumban, azaz a vergenciaszöget változatlanul kell
hagyni (általánosabb esetben ez annyiban módosul, hogy kis mértékben, folytonosan kell megváltoztatni.)
Ez utóbbi elemzés még jobban nyomon követhetõ a 41. és 42. ábrából, ahol egy szintvonalas ill. egy axonometrikus képben ábrázoltam a és az XF függvényében a Q értékeit. Látható, hogy az összefüggõ "völgyek" az XF tengellyel párhuzamosak, és merõlegesek az a tengelyre.
A VERGENCE algoritmus tehát természetes módon, a lényegébõl fakadóan ugyanazt a megoldást szolgáltatja a négytûs illúzióra, mint az ember látórendszere!
A fixáció szerint stabil vergenciaszög fogalma nemcsak az ilyen szokatlan helyzetre alkalmazható, mint a tárgyalt 4 tûs illúzió, hanem általában a valódi élõ képek esetén is szerepet kaphat a téves cél-probléma megoldásában. Például visszautalva a "kutya" képpel kapcsolatos 20. és 21. ábrára, ott az a=52 értéknél található hosszú mély völgy fixáció szerint stabil a XF teljes tartományában, ellenben pl. az XF=1007; a=111 koordinátapár által megtalálható bevonalkázott lokális minimum csak kis tartományon belül az.
Az utóbb elemzett ábra nem tartalmazza a fixációs pont YF koordinátája szerinti függést, mert ehhez már egy 4 dimenziós felületet kellett volna ábrázolni. A fixáció szerint stabil vergenciaszög fogalma természetesen ennek ellenére XF és YF szempontjából egyaránt értendõ. Könnyen belátható, hogy összefüggõ felületen bármely irányban is mozdítjuk el az (XF,YF) fixációs pontot, ha helyes vergenciaszögbõl indultunk, akkor a vergenciaszög fixáció szerint stabil lesz. He ellenben egy téves vergenciaszögbõl indulunk ki, akkor a fenti szimulációs futtatások bizonysága szerint egy átlagos valódi kép esetében fixáció szerint instabil lesz a vergenciaszög -- kivéve a periodikus felületeket, amikor az ember is és a VERGENCE modell is tévedhet. (A jelenségre találó lehet a "bútorkárpit-" vagy esetleg a "lebegõ lábtörlõ effektus" elnevezés.)
Kimondható tehát a szabály: a VERGENCE modell a téves cél problémát azáltal oldja meg, hogy --mûködésének belsõ sajátosságai következtében-- megtalálja a Q hasonlósági mérték fixáció szerint stabil lokális minimumait.
Szimulációs futások egyenletes ablakfüggvény felhasználásával
Legvégül ellenpéldaként bemutatok két Q(a) függvényt a "kutya" képre, amikor nem a hiperbolikus súlyfüggvényt alkalmaztam, hanem egyenletes ablakkal dolgoztam. A maximális (241x141) egyenletes ablakméret esetében (43. ábra) látható, hogy a fixációs pont azonos a 18. ábráéval, de Q lokális minimumai nem ugyanannál az a értéknél találhatók. A háttér "elhúzza" a szánkó élét. A 44. ábra viszont kisméretû, 41x41 es egyenletes ablakkal készült, aminél sok téves lokális minimum látható.
Tehát e két ábrán az egyenletes ablakfüggvény mindkét említett hibája tapasztalható: túl kis ablak megnöveli a téves párosítás eshetõségét, túl nagy ablak pedig pontatlan párosítást eredményez az ablak középpontjában. Ez az eredmény támasztja alá a hiperbolikus (vagy ahhoz hasonló) súlyfüggvény alkalmazásának szükségességét., mert mint azt az elõzõekben láttuk, e két probléma egyike sem áll fenn.
A CRYSTAL EYES-ZEL VÉGZETT KÍSÉRLETEK
A kísérleteim nagy részét egy új eszköz, a Crystal Eyes elnevezésû sztereó szemüveggel végeztem. Mûködésének lényege, hogy a számítógép 120 Hz felfrissítési frekvenciával váltakozva 1/120 s ideig a bal és ugyanennyi ideig a jobb képet teszi a képernyõre, és a folyadékkristály ablakokkal rendelkezõ szemüveg bal ill. jobb ablaka ezzel szinkronban válik átlátszóvá ill. átlátszatlanná. Ez biztosítja, hogy mindkét szem a sztereó képpárból csak a neki szánt képet láthassa. A sztereó ingerek elõállítását saját fejlesztésû számítógépprogram végezte.
A humán sztereó kísérleteim mindegyikét úgy terveztem meg, hogy a személyek szintjén ne legyen szükség statisztikai feldolgozásra és az egyéb statisztikai-valószínûségi megfontolások is minimális szerepet játszanak.
Ezt azért fontos hangsúlyozni, mert e témakörben szokásosak az olyan kísérletek is, melyeknél úgy állítják be a felismerés nehézségi fokát, hogy az adott kísérleti személy pl. csak az ingerek 75%-át legyen képes felismerni, és ezt egy kényszerválasz helyzettel kombinálják (pl. el kell dönteni, hogy "elöl" vagy "hátul" volt-e a lebegõ négyzet). A nehézségi fokot minden egyes kísérleti személyhez személyre szabottan határozzák meg, az un. "stair case" módszerrel, ami a hibázások számától függõen nehezíti vagy könnyíti a feladatot. Igaz, hogy ez esetben nincs szükség utólagos statisztikai feldolgozásara, de magában a kísérletben jelentõs szerepet játszik a valószínûség. Az ilyen típusú kísérletek során a kísérleti személy folytonos frusztrációnak van kitéve, mert ritkán biztos abban, hogy jól válaszolt-e (szerzõ kísérleti személyként szerzett saját tapasztalata). Így egy idõ után megkérdõjelezhetõ, hogy a kísérleti személynek egyáltalán szándékában állt-e helyesen válaszolni, vagy csak nyomkodta a gombokat, hogy minél elõbb túl legyen a dolgon. Elfogadva, hogy bizonyos rejtett folyamatokhoz esetleg csak ezen az úton lehet közelebb férkõzni, az említett ok miatt igyekeztem a kérdéseket és a válasz megadására szánt kísérleteket nem így tervezni.
A "statisztikamentes" kísérleti tervek alapját az képezi, hogy az egészséges szemû személyeknél a vizsgált jelenségek mindig fennállnak.
Ezt rögtön az elsõ kísérlettel világítom meg.
Kísérlet 1.
A kísérlet általános célja: közelebb jutni ahhoz a kérdéshez, hogy mi a szerepe a szemmozgásnak a sztereopszisban?
Konkrét cél: megtalálni a legrövidebb bemutatási idõt, amikor még jól látszik a mélység egy "klasszikus" RDS-nél. Megnézni, lehetséges-e ezalatt érdemi szemmozgás.
Elõzetes hipotézis, elvárás: A kísérlettel azt szerettem volna bizonyítani, hogy a vergens szemmozgásnak elsõdleges szerepe van a sztereó látásban. Azaz, a kísérlet kimeneteleként azt vártam, hogy a nagyon rövid bemutatási idõ alatt nem lehet felismerni az RDS-be rejtett alakzatot. Ennek ellenkezõjét sikerült bizonyítani: nem túl nagy diszparitások esetén a fixációs ponthoz relatív mélységélmény a vergens szemmozgás nélkül jön létre.
Az elõzetes elvárást arra az általánosan elfogadott ismeretre alapoztam, hogy a random sztereogramok felismerése általában hosszú bemutatást igényel, mely idõ alatt viszont elindul a vergens szemmozgás. Julesz (1971, 198-216. oldal) részletesen taglalja ezt a jelenséget, amit utána több szerzõ részletesen elemez. A naiv kísérleti személy, aki elõször lát RDS-t, meglepõen hosszú, több másodperces bemutatás alatt ismeri csak fel azt. Természetesen az ábra bonyolultságától függõen ez az idõ változik. Ezzel kapcsolatban már Julesz (1971) könyvében is egymásnak ellentmondó, ill. részletesen ki nem fejtett eredményeket találhatunk. Miközben a "komplex" RDS-ek felismeréséhez szükséges idõt "több másodpercben" állapítja meg (id. mû 198. old.) addig egyszerû lebegõ négyzetes (tehát két síkot tartalmazó) RDS felismerésére 50 ms feldolgozási idõt mér. Hol kezdõdik a komplex RDS fogalma?
Egy személyes közlésbõl ismert (Kovács Ilona, 1993) kísérlet bemutatási ideje 160 ms, melynek célja a Panum-féle fúziós tartomány gyakorlással történõ megnövelése volt. Ez az idõintervallum Collevijn and Erkelens (1991) alapján nagyobb, mint a vergens szemmozgás latenciaideje, tehát ekkor nem lehet elkülöníteni egymástól a vergens szemmozgás és a patent sztereopszis hatását.
Más irodalmi adatok szerint (pl. Christophers és mtsai,1993) bonyolult RDS-ek esetében 20 másodpercre tehetõ a felismeréshez szükséges idõ, amit annak lehet tulajdonítani, hogy ekkor "oda nem illõ" vergens szemmozgások indulnak el. Julesz-féle (1971, 261. oldal) spirálist ill. hiperbolikus paraboloidot alkalmazva kísérleteikben arra a megállapításra jutottak, hogy átlagosan 3 másodperc az ábra felismeréséhez szükséges bemutatási idõ. Ennek a pontméterrõl, intenzitástól stb. való függését vizsgálták.
Látható tehát, hogy a RDS -ek felismeréséhez szükséges idõ változó voltát máig kutatják és, hogy a vergens szemmozgás mélységjelzõ szerepérõl máig nincs kialakult konszenzus. Ez az oka annak, hogy ezt a kísérletet kidolgoztam a rendelkezésre álló új sztereó eszközre.
A kísérlethez használt eszközök:
Iris Indigo workstation, képernyõje 1280x492(x2) felbontású, sztereó módba állítva. ( a (x2) azt jelenti, hogy a képernyõpixelek függõleges mérete ekkor 2 normál pixel.)
Sztereó váltási frekvencia: 120 Hz, azaz 1/120 s=8.33 ms ideig a bal kép, 8.33 s ideig a jobb kép villan fel. (Itt a 8.33 ms-ot 8 ms-ra lefelé lehet kerekíteni, mivel a képváltások között van egy kis szünet, kb. 10%, amikor a szemüveg mindkét ablaka sötét. Tehát a sztereó képpár egy-egy képe 8 ms ideig volt a képernyõn, azaz a bal retina 8 ms-ig és a jobb szinten 8 ms-ig látta a neki megfelelõ képet. Ezt a késõbbiekben úgy fogom jelölni, hogy 2x8 ms.)
A képernyõt a Crystal Eyes sztereó szemüveggel nézi a ksz.
A bemutatott sztereó ábra paraméterei:
Alap négyzet mérete: 100x100 -as négyzetrács. Minden kis RDS-dot mérete 4x4 képernyõpixel. A négyzetrács mérete képernyõpixelben kifejezve 400x400.
Ugyanez cm-ben kifejezve: az alap mérete 10 cm x 10 cm, egy kis RDS pont mérete 1 mm x 1 mm. A kísérleti személy 57 cm távolságból nézte az ábrát, ezért a teljes alap mérete 10 fok x 10 fok, egy RDS pont mérete 0.1 fok x 0.1 fok.
Az ábrában egy lebegõ négyzet van, ennek mérete 50x50 RDS-dot, ami képernyõpixelben kifejezve: 200x200.
A lebegõ négyzet horizontális diszparitása képernyõpixel lépésekben változtatható. A mostani kísérletben végig disp=2 képpixel volt, ami 0.05 foknak felel meg.
A vertikális diszparitás végig 0 volt.
Az RDS-dotok szürkeségi szintjei 1/2 valószínûséggel
R,G,B=0,0,0 (fekete) ill. 200,200,200 (fehér).
A képernyõ alaptónusa (tehát az RDS körüli mezõ is) 100,100,100. A bemutatáskor ez az alaptónus van az RDS körül, a bemutatás elõtt és után a teljes képernyõt ez az alaptónus tölti ki.
A sztereó ábrapár bemutatási ideje a képfelfrissítéshez (refresh) szinkronizált. Az, hogy melyik kép jön elõbb a párból (tehát bal/jobb vagy jobb/bal a sorrend) 1/2 valószínûséggel a véletlentõl függ.
A bemutatási szekvencia:
A kísérleti személynek egy n=24 tagú ábrasorozatra kell válaszolnia az egér gombjaival. Három lehetõség van: elöl, hátul vagy "sehol" látta-e a nagyobb alap felett a kisebb lebegõ négyzetet. ( a "sehol" azt jelentett, hogy középen dekorrelált a lebegõ négyzetnek megfelelõ terület.) A dekorrelált esetben a középen lévõ terület mérete a kis négyzet horizontális parallaxisának megfelelõ mértékben meg van növelve azért, hogy e méretebbeli eltérés se legyen esetleges támpont a döntésnél. Monokulárisan, tehát szemüveg nélkül nézve a sztereó képernyõt, a két kép egymásra illeszkedik, és ekkor nem lehet megkülönböztetni a három lehetõséget egymástól.
A kísérleti személy elõször egyöntetû szürkét lát, fekete fixációs pont középen. Instrukció: nézze a képernyõ közepén a fixációs pontot.
Kísérlet indítása MIDDLEMOUSE-zal.
0.5 s múlva felvillan a sztereó ábra, amire LEFT, MIDDLE vagy RIGHTMOUSE- zal kell válaszolni: ha elöl látta LEFT, ha 'sima' akkor MIDDLE, ha hátul, akkor RIGHT a helyes válasz.
A bemutatásra adott válasz egyben a soron következõ új bemutatást is indítja, 0.5 sec múlva. Az egymásutáni bemutatásokra a fenti módon kell válaszolni. A sorozatszám leteltével a program leáll, és a személyhez tartozó adatfileban láthatók az eredmények.
Minden egyes bemutatás elõtt új ábrapár készül.
A lebegõ négyzet véletlentõl függõen 1/3 valószínûséggel kerül elõre (+disp) vagy hátra (+disp) vagy 0-ra. A disp abszolút értéke egy sorozat alatt konstans, a program indításakor megadható.
A program random generátora a kezdõ indítási idõbõl veszi a pszeudovéletlen induló értéket, tehát minden sorozat más. A bemutatási idõ a képfrissítés páros számú többszöröse, egy sorozat alatt állandó, a program indításakor megadható.
Az alkalmazott sztereó eszköz mûködésmódjából következik, hogy a bal ill. jobb képet nem egyszerre, hanem egymás után villantja fel. Az, hogy éppen ballal vagy jobbal kezd, az indítási idõponttól függ, ami kiküszöböli az esetleges sorrendhatást.
Álljon itt most példaképp néhány elõkísérlet "kísérleti jegyzõkönyve", amit számítógépprogram készített, kiegészítve azt néhány, a kísérletvezetõtõl származó megjegyzéssel.
KSZ: LF. (nagyon kevés sztereó gyakorlat, a programot másodszor használta)
Mon Feb 14 12:17:26 MET 1994
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 11, correct = 11, incorrect = 0
middle = 5, correct = 5, incorrect = 0
behind = 8, correct = 8, incorrect = 0
Mon Feb 14 12:22:20 MET 1994
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 9, correct = 9, incorrect = 0
middle = 9, correct = 9, incorrect = 0
behind = 6, correct = 6, incorrect = 0
-------------------------
KSZ: RA. 1994.02.09 (Nulla sztereo tapasztalat, elso alkalom a programmal)
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 11, correct = 9, incorrect = 2
middle = 6, correct = 4, incorrect = 2
behind = 7, correct = 5, incorrect = 2
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 6, correct = 6, incorrect = 0
middle = 7, correct = 6, incorrect = 1
behind = 11, correct = 7, incorrect = 4
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 6, correct = 5, incorrect = 1
middle = 6, correct = 5, incorrect = 1
behind = 12, correct = 6, incorrect = 6
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 5, correct = 1, incorrect = 4
middle = 11, correct = 11, incorrect = 0
behind = 8, correct = 1, incorrect = 7
----------------------------
KSZ: Vi (Nulla sztereo tapasztalat, RDS-t most lát elõször. Ez a legelsõ kisérlet.)
Tue Feb 15 11:24:07 MET 1994
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 7, correct = 7, incorrect = 0
middle = 10, correct = 10, incorrect = 0
behind = 7, correct = 7, incorrect = 0
Tue Feb 15 11:28:14 MET 1994
KoosStereo.GJ/rds V2.0 terminated
disparity = 4, ISI = 2
front = 7, correct = 7, incorrect = 0
middle = 10, correct = 10, incorrect = 0
behind = 7, correct = 7, incorrect = 0
Az elõkísérletek után 28 kísérleti személlyel végeztem el ezt a kiséletet. A kísérleti személyek elõtte nem, vagy minimális RDS tapasztalattal rendelkeztek.
Összefoglalt eredmények a következõk. Mindenki azonos paraméterekkel látta a képeket: ISI=2, azaz bemutatási idõ 2x8 ms dispar=4, azaz a bal és a jobb képen a lebegõ kisebb négyzet +4 ill. -4 képernyõpixellel volt eltolva (összesen 8 pixel). Ez megfelelt a fenti fizikai méretek alapján 0.2fok horizontális parallaxisnak.
A feladatot akkor tekintettem teljesítettnek, ha egy 24-es sorozat minden válasza helyes volt. A kísérleti személyek elsõ sorozatát gyakorlásnak tekintettem, de ha valaki már elsõre teljesítette a feladatot, azt elfogadtam. Ha a második sorozatot teljesítette, azt teljesítésként fogadtam el, ha csak a harmadiknál, vagy azután teljesített, vagy nem teljesített sosem, akkor úgy tekintettem, hogy a kísérleti személy nem látja az ábrát.
Eredmények:
17-en teljesítették.
11-en nem teljesítették.
Megjegyzés. Mivel nem a népesség sztereó látásának vizsgálata volt a célom, hanem az egészséges szemû kísérleti személyek kiválasztása, ezért a nem-teljesitõk meglepõen nagy részarányának okát, összefüggéseit nem vizsgáltam, ez egy külön téma lenne. Annyit azonban feljegyeztünk a személyekrõl, hogy saját tudomása szerint egészséges-e a szeme, hord-e szemüveget, vagy kellene, hogy hordjon, ill. kontaktlencséje van-e. A 11 nem-teljesítõbõl 6 szemüveges volt, a kísérlet során viselte is azt. Ugyanakkor a 19 teljesítõbõl 2 kontaktlencsét, 1 szemüveget viselt.
Az, hogy a definíció szerint egészséges szemûnek tekintett kísérleti személyek (17) teljesítették a feladatot, azt bizonyítja, hogy az ember sztereó feldolgozási rendszere vergens szemmozgás nélkül fel tudja dolgozni az adott, nem túl nagy parallaxis mellett a "egyszerû" RDS-t.
Következtetések:
Mivel 16 ms alatt (helyesebben 2x8 ms alatt) valóban nincs érdemi szemmozgás, ugyanakkor a lebegõ négyzet és pozíciója (elöl/hátul/sehol) is 100% biztonsággal látszik, ezért ebbõl következik: a patent sztereopszis, avagy fúzió létezõ jelenség, azaz a fixációs ponthoz a képest a relatív mélységet párhuzamos folyamatok számítják ki a két retinaképbõl.
Más értelmezésben: a látórendszerünk képes kiszámítani a retinális diszparitás alapján a látott felszín pontjainak relatív mélységét.
Megjegyzés. A vergens szemmozgás latenciaidejét 160 ms -nak szokták venni Rashbass and Westheimer(1961) alapján. Collevijn and Erkelens (1990) ennél rövidebb idõt ad meg: 45 ms-ot, de még ez is rövidebb az itt elõforduló 16 ms-nál. Tehát ennyi idõ alatt valóban nincs szemmozgás, azaz az RDS feldolgozása ebben a kísérleti helyzetben vergens szemmozgás nélkül történik.
A kísérlet az elõzetes elvárásommal ellentétes eredményt adott: egyszerû RDS esetében a kis relatív diszparitás feldolgozásához nem szükséges a vergens szemmozgás. Ez az alapja tehát annak, hogy a sztereó feldolgozás kétszintû: a nagy mélységek feldolgozására a vergens szemmozgás, a relatív kis mélységekre a patent avagy fúziós sztereopszis szolgál.
Megjegyzés: vonalak sztereó felismerésénél a patent ill. fúziós sztereopszis fogalmak eltérõek, mivel elõbbi tartomány (ahol már kettõs kép látható, de ezek mélységben látszanak) valamivel nagyobb. Azonban RDS-ek esetén a két fogalom egybeesik, mivel ekkor vagy látszik a sztereó alakzat, vagy nem.
Kísérlet 2.
E kísérlet célja annak megállapítása, hogy a simító szûrés milyen hatással van a sztereó élményre RDS esetében. Julesz (1971) bemutat egy RDS képpárt, melynek egyik képe r=3 sugarú simításának van alávetve, a másik kép nincs simítva, ennek ellenére a sztereó élmény megmarad.
Itt most két alapváltozata volt a kísérletnek: a.) mindkét képet azonos, b.) eltérõ sugár szerint simítottuk.
a.) Azonos simítás mindkét képre.
Kísérlet eredménye: A 4 kísérleti személy egyöntetûen észlelte az r=1, 2, 5, 10 és 20 paraméterû simító szûrés esetében a lebegõ négyzetet.
b.) Eltérõ paraméterû simítás a két képre. Az r simítási paramétereket különbözõ kombinációban alkalmaztam a bal ill. jobb oldali képre.
Kísérlet eredménye: a 4 kísérleti személy kissé eltérõ mértékben ugyan, de egyöntetûen észlelte, hogy a simítás paraméterei között kis mértékû eltérés esetén a sztereó élmény nem sérül, de nagyobb eltérés esetén igen.
A pontos adatok a következõk:
KSZ rl rr sztereo élmény
______________________________________________
1. 0 0 van
0 1 van
0 2 van
0 3 nincs
5 5 van
5 6 van
5 7 van
5 8 nincs
10 10 van
10 11 van
10 12 van
10 13 van
10 14 nincs
2. 0 0 van
0 1 van
0 2 van
0 3 van
0 4 nincs
5 5 van
5 6 van
5 7 van
5 8 nincs
10 10 van
10 11 van
10 12 van
10 13 van
10 14 van
3. 0 0 van
0 1 van
0 2 van
0 3 nincs
5 5 van
5 6 van
5 7 van
5 8 nincs
10 10 van
10 11 van
10 12 van
10 13 van
10 14 nincs
4. 0 0 van
0 1 van
0 2 van
0 3 nincs
5 5 van
5 6 van
5 7 van
5 8 nincs
10 10 van
10 11 van
10 12 van
10 13 van
10 14 nincs
Következtetés. Az a.) és b.) eredmények szûrési paraméterei között jelentõs eltérés tapasztalható. Elmondható, hogy azonos szûrõparaméterek esetében meglepõen nagy simítás engedhetõ meg, ezzel szemben, ha a két kép eltérõ szûrésnek lesz alávetve, akkor az eltérés nem lehet túl nagy: nagyjából 2-4 lehet a differencia.
Kísérlet 3.
A vergencia mélységjelzõ szerepének bizonyítása az Emmert törvényhez hasonló helyzet elõállításával.
A sztereó képernyõn egy 400x400 képernyõpixel (10 cm x10 cm) méretû korrelált (a bal és jobb kép azonos) képpár látható. A billentyûzet megfelelõ gombjaival növelhetõ ill. csökkenthetõ a horizontális parallaxis, eközben a képpár fizikai mérete változatlan. A parallaxis mértékét a kísérletvezetõ úgy változtatja, hogy azt a kísérleti személy nem látja. A kísérleti személynek meg kell állapítania a kép méretének változását.
Kísérlet eredménye: a 4 kísérleti személy mindegyike növekvõ parallaxis (a kép közeledik) esetén a képméret csökkenésérõl, csökkenõ parallaxis esetén a képméret növekedésérõl számolt be. Ez összhangban van az utóképpel kapcsolatos Emmert törvénnyel.
Következtetés: az "early vision" rendszernek információ áll rendelkezésre a szemek vergenciaszögérõl.
Megjegyzés: annak mérésére, hogy ez az információ mennyire fontos, további kísérletek elvégzésére lenne szükség, ami már nem fér bele ebbe a dolgozatba.
ÖSSZEFOGLALÁS
Röviden összefoglalom a VERGENCE modell fõbb eredményeit, emlékeztetve arra, hogy a posztulátumok egységes magyarázata volt e modell alapvetõ célja.
A szimulációs futtatások eredményeként bebizonyosodott, hogy a modell
a) valódi képek esetén
- egyszerû esetben (hullámos fal, "dombormû" stb.) kifogástalanul mûködik, mivel a Q(a) függvénynek általában egyetlen lokális (és egyben globális) minimuma van;
- többértelmû esetben (pl. a szánkó a fal elõtt) a Q(a) függvények több lokális minimuma van, azonban ezek mindegyike valódi mélységet jelent, vagy ha téves célt jelöl ki, az megegyezik az ember tévedésével;
- A "senki földjét" (azt a területet, melyet csak az egyik szem láthat valamely közelebbi tárgy takarása miatt) helyes mélységbe helyezi, ill. ezzel kapcsolatban ugyanúgy vezethetõ félre, mint az ember;
- a 4 tûs illúzió esetén ugyanúgy téved, mint a humán kísérleti személy;
- gyengén tagolt felszínnél is, ahol nincsenek élek, csak elmosódott szélû foltok, helyes mélységet számít--egyezõen az emberi látórendszerrel;
- ha az egyik kép vagy mindkettõ életlen, a mélységet az emberi sztereórendszerhez hasonlóan észleli: azonos életlenség esetén meglepõen nagy életlenségek engedhetõk meg a sztereopszis fennállása mellett, a két kép eltérõ élessége azonban csak bizonyos korlátokon belül engedhetõ meg, azon túl megszûnik a sztereó élmény;
b) random dot sztereogram (RDS) esetén:
- RDS esetén sok lokális minimum van, de a globális minimum a helyes mélységet adja;
- humán kísérletekben RDS-nél a teljes alakzat, azaz a fekete pontok között lévõ fehér terület is kiemelkedik az alap síkjából, a VERGENCE modell ezzel azonos eredményt ad;
- simító szûrésnek alávetett RDS esetén kevesebb a lokális minimum, de a helyes párosítást eredményezõ lokális minimumok ugyanott maradnak;
- hiszterézis egyszerûen magyarázható: a lokális minimumból való kiugráshoz "erõ" kell, azaz, a minimum-feed-back a két kép elcsúsztatásakor mindig után-szabályoz.
A VERGENCE modell tehát egységes képben magyarázza a sztereó jelenségek széles skáláját, és mindezt korrelációs típusú, azaz lokális szabályok alapján végzi. Az összefoglalt tulajdonságok magyarázatához tehát nincs szükség globális sztereopszis fogalmára.
Ha most sorra vesszük a Posztulátumokat, könnyen látható, hogy azok mindegyikét magyarázza a VERGENCE modellt:
1. Parallaxis posztulátum. A mélységlátás elégséges feltétele, ha a bal és jobb szemmel látott képek részletei között binokuláris parallaxis áll fenn.
A VERGENCE modell ezzel összhangban van; a két képen lévõ, a binokuláris parallaxisból származó képpont-eltolódásokat megtalálja, amelyek mértékébõl számítható ki az adott térbeli pont mélysége. A modell tehát magyarázatát adja e posztulátumnak, annál is inkább, mivel éppen ennek modellezése volt a fõ cél.
2. Küklopsz I. posztulátum. A mélységlátásnak nem szükséges feltétele a monokuláris alaklátás.
Mivel a VERGENCE modell RDS-ek esetében is mûködõképes, látható, hogy a modell magyarázza ezt a posztulátumot.
3. Küklopsz II. posztulátum. Eltérõ részleteket tartalmazó képpár sztereoszkopikus nézése esetén a kísérleti személy nem tudja megkülönböztetni, hogy az egyes képpontok a bal vagy a jobb szem retinájáról származnak-e.
A VERGENCE modell a két kép különbségének abszolút értéke alapján mûködik, amibõl nem lehet visszakövetkeztetni külön a bal ill. a jobb kép adott pontjának intenzitására. A kép további feldolgozása (aminek elemzése ill. modellezése nem része e dolgozatnak) a modell szerint (ld. 12. ábra) a két kép összege alapján történik, amirõl ugyanez állítható. Tehát a modell összhangban van ezzel a posztulátummal.
4. Szemmozgás posztulátum. Szabad szemmozgás esetén a központi idegrendszernek pontos információ áll rendelkezésére a szemek pozíciójáról, és így a konvergencia szögérõl is.
A VERGENCE modell a Q minimalizálása folyamán elõállítja a konvergencia vezérlõ parancsait. A modell szerint ezek a vezérlõ parancsok hordozzák az adott fixációs pont mélységére vonatkozó információt. (Magyarázatot ld. még a Szemmozgás mechanikai modellje c. fejezetben.) Tehát a modell összhangban van ezzel a posztulátummal.
5. Panum posztulátum. A Panum tûrésen belüli diszparitásokat a Központi idegrendszer a relatív mélység észlelésére használja fel.
Ez az egyetlen posztulátum, aminek magyarázatát nem tartalmazza a VERGENCE modell. A modell lehetséges kiegészítésekét szóba jöhet, hogy a retinák (vagy a Küklopsz retina) minden pontjához hozzárendeljük ugyanazt a hiperbolikus súlyfüggvényt, és minden retinapontra egyidejûleg számítanánk ki a Q hasonlósági mérték minimumát. Ehhez azonban egy belsõ "shift regiszter"-rendszer létét kellene feltételeznünk, ahol minden pont környezete az összes többitõl függetlenül, azokkal egyidejûleg mozog, keresve a hozzá tartozó Q minimumát. (A VERGENCE modellben a szemmozgásra bíztuk ezt a shift funkciót, aminek természetesen az a hátránya, hogy egyszerre csak egy pontra lehet kiszámítani a mélységet.) Az alapvetõ gond itt a Panum-féle fúziós tartománnyal kapcsolatos: miért éppen akkora ez a tartomány, amekkora? Ha elfogadnánk az említett shift regiszter létezését a valódi idegrendszerben, akkor talán annak szükségszerûen korlátos volta magyarázhatná a Panum-tartomány korlátos voltát.
6. Téves cél posztulátum. Léteznek olyan valódi látványhelyzetek, amikor a látórendszer elõnyben részesíti a fantom párosításokat a valódiaknál.
A VERGENCE modellre ugyanez vonatkozik. Ezt bizonyítják a 4 tûs illúzióval kapcsolatos szimulációs futtatások és az azzal kapcsolatos fixáció szerinti stabilitás fogalma. A modell tehát összhangban van ezzel a posztulátummal is.
KÖSZÖNETNYILVÁNÍTÁS
Ez a dolgozat az utóbbi 4 év során a sztereó látással kapcsolatban végzett kutatásaim összefoglalása. A munka egy OTKA pályázattal kezdõdött, melynek vezetõje dr. Zétényi Tamás volt, és én is tagja voltam. (OTKA 2207). Ez dolgozat létrejötte is ennek a pályázatnak köszönhetõ.
A sztereó párosítási problémára dr. Kovács Ilona hívta fel a figyelmemet, aki szintén ennek az OTKA projektnek a tagja.
A modell elkészítésében sokan voltak közvetlenül és közvetve segítségemre. A mûködõképességet bizonyító számítógépprogramot ugyan magam fejlesztettem IBM PC-re, Turbo Pascal nyelven, de a képek beolvasásáért (digitalizálásáért), a konzultációk és az ötletek megtárgyalásáért nagyon sok kollégámnak és diákomnak tartozom köszönettel.
Köszönet illeti dr. Pléh Csaba tanszékvezetõmet a kutatási feltételek biztosításáért, a tanszék jó kutatószellemének megteremtéséért és a dolgozat megírására való buzdításáért, a kézirat gondos átnézéséért és ezzel kapcsolatos hasznos tanácsaiért. dr. Zétényi Tamást az OTKA projekt beindításáért. dr. Kovács Ilonát az 1993 évben USA-ban rendezett nemzetközi ARVO konferencián való részvételem nagyfokú segítéséért, valamint a Izabella Utcai Látáskutatás szervezéséért, a csoportban betöltött meghatározó szerepéért. Fiser Józseftõl kaptam az elsõ digitalizált képeket, késõbb Rácz János szintén segítségemre volt fényképezõgéppel készült sztereó képek számítógépbe vitelében. Koós Tibor jelen volt a "nagy ötletek" születésénél, vele beszéltem meg azokat elõször. Antal Károly, Király Zsolt, Ládonyi Ferenc és Tomasz Balázs (abc rendben) diákjaim a munka különbözõ fázisaiban szintén sokat dolgoztak a végeredmény megszületéséért. Fehér Ákos a 13. ábra (a súlyfüggvény) megrajzolásában volt segítségemre.
Köszönetet mondok dr. Cziegler Istvánnak és dr. Lõrincz Andrásnak, akik a "házi opponenseim" voltak, és hasznos kritikájukkal hozzájárultak a dolgozat végleges formájának kialakulásához. Köszönetet mondok dr. Kónya Anikónak és dr. Vargha Andrásnak a kézirat átnézéséért és hasznos tanácsaikért.
FÜGGELÉK
SOKVÁLTOZÓS FÜGGVÉNYEK MINIMALIZÁLÁSA
A VÁLTOZÓK SZÁMÁTÓL FÜGGETLEN SEBESSÉGGEL
A VERGENCE modellben szerepel egy "minimum-szabályozó" elnevezésû egység, melynek szerepe a Q minimalizálása a horizontális és vertikális vergenciaszögek függvényében. A sokváltozós függvények minimalizálásának egy analóg számítógépes modelljét ismertetem most, ami jól illeszkedik a vergencia vezérléséhez. Ennek a minimumkeresõ módszernek a részletes leírása megtalálható Geier (1986a, 1986b)-ben.
A sokváltozós függvények minimalizálásának általános feladata
Legyen adva egy n bemenettel és egy kimenettel rendelkezõ memória nélküli S rendszer. Ez alatt egy olyan stabil dinamikus rendszert értünk, amely a bemenõjeleinek megváltozására késleltetés nélkül reagál, azaz a kimenõjel tranziens nélkül veszi fel az új értéket. Pontosabban tegyük fel, hogy a rendszer bemenetére adott xt = (x1,x2,...xn)T ( T a transzponálást jelenti) idõfüggvény esetén a kimenõjel csak x(t)-tõl függ, azaz y(t)=G(x(t)). A G:RnR1 függvényt nevezzük a továbbiakban az S rendszer leírófüggvényének.
Meg kell jegyezni, hogy bár a valódi fizikai rendszerek szigorú értelemben véve sohasem memória nélküliek (mert ha más nem, a fénysebesség korlátozza a válasz sebességét), bizonyos esetekben mégis jól közelíthetõk ezzel az idealizált esettel. Például egy diavetítõ élesre állítása, vagy egy rádióvevõ állomásra hangolása nyugodtan tekinthetõ memória nélküli esetnek, hiszen a beavatkozás hatása észrevehetõ késés nélkül jelenik meg. Minden olyan esetben jól használható az idealizált memória nélküli rendszer fogalma, amikor a felhasználás idõléptéke szempontjából a tranziens idõtartama elhanyagolható. Amennyiben a Q hasonlósági mérõszám kiszámítása paralel módon történik, feltehetõ, hogy e feltételek fennállnak, azaz: Q jelentõs idõkésés nélkül a minimumkeresõ rendszer rendelkezésére áll.
Tegyük fel, hogy a fent definiált S rendszer G leírófüggvénye konvex függvénnyel minorálható, azaz létezzen egy olyan konvex F függvény, amelyre G(x)F(x) minden xRn -re. Akkor a megoldandó probléma az, hogy tetszõleges x0Rn -bõl indulva folytonos trajektória mentén meg kell találni a G függvény valamely lokális minimumát. Azaz:
(1)
A megoldás ismertetése után ezt a kitûzött feladatot pontosítani, és kissé módosítani fogom. Ki fog derülni, hogy bizonyos szélsõséges esetektõl eltekintve a globális minimum megtalálására is alkalmas a módszer. Ennek az alapja az, hogy valójában nem a G(x) függvény minimumát keresi meg a módszer, hanem annak egy "kisimított" változatáét.
A Regressziós Gradiens Módszer alapváltozata
Jelöljük Xt=(X1, X2,..., Xn)T -vel az S rendszer bemenõjelét a t idõpontban. Legyen t=([xi]t,[xi]2t,...,[xi]nt)T n dimenziós fehér zaj, azaz [xi]it -k páronként független, azonos N(0,) eloszlású Gauss folyamatok, melyeknek kovarianciafüggvénye a Dirac .
A Regressziós Gradiens Módszert a következõ sztochasztikus differenciálegyenlettel definiálom:
t = 0 idõpontban legyen Xt = X0 =(X1,X2,..,Xn)
és minden t 0 idõpontra legyen
(2) Click here for Picture ;i=1...n,
ahol k>0 a sebességet meghatározó konstans, az algoritmus paramétere.
Az RGM intuitív tartalma a következõ:
- az S rendszer minden bemenõjeléhez hozzáadunk egy-egy, páronként független, azonos eloszlású fehér zajt (bemeneti zajt);
- a zajok áthaladnak az S rendszeren, azaz a kimeneten megjelenik a bemeneti zajok keveréke;
- minden bemenetnél kiszámítjuk az S rendszer (zajt tartalmazó) kimenõjele és a megfelelõ bemeneti zaj szorzatát;
- minden bemenõjelet a neki megfelelõ szorzattal arányos sebességgel változtatunk.
- ezeket a mûveleteket (pontosabban folyamatokat) megszakítás nélkül, idõben párhuzamosan végezzük.
Az 2 és 3. ábrán látható az RGM folyamatábrája, ami megfelel egy közvetlenül az ábra alapján megépíthetõ analóg számítógépnek. Ha az (5) egyenletet integrálegyenlet formájában írjuk
(3) Click here for Picture ;i=1..n,
akkor látható, hogy az 2. ábra ennek az integrál-egyenletnek közvetlen megvalósítása.
Vegyük észre, hogy az RGM nem hagyományos értelemben vett digitális algoritmus: nincsenek benne "ha - akkor" típusú elágazások, és nincsenek "egymás utáni" lépések. Egyidõben folyó folyamatok vannak, melyek egymásra hatnak, és így alakul ki az X[0,t] trajektória.
Végül vegyük észre, hogy a keresõ zaj a folyamat jelentõs alkotóeleme, és ez egybevág azzal az ismert ténnyel, hogy a szemek mozgásánál felfedezhetõ egy állandóan jelenlévõ "tremor", azaz kis zaj. Megfogalmazható a hipotézis: a szemek tremorja a minimumkeresést szolgálja.
FELHASZNÁLT IRODALOM
Collewijn, H. and Erkelens, C. J. (1990) Binocular eye movements and the perception of depth. In: E. Kowler (Ed.) Eye movements and their role in visual and cognitive processes, Elsevier, Amsterdam, 213-262.
Collins, C. C. (1971) Orbital mechanics. In: Bach-y-Rita, P. and Collins, C. C. (Eds.) The Control of Eye Movements , Academic Press, New York, 283-342.
Feynman, R. P., Leighton, R. B. and Sands, M. (1969) Mai fizika, Mûszaki, Budapest.
Francis, E. L., Manuel, C. and Jones, J. (1993) Vergence and distance perception at long distances. In: Annual Meeting Abstract Issue, ARVO, may 2 - may 7, 1993, Sarasota,#2365.
Frisby, J. P. and Pollard, S. B. (1991) Computational Issues in Solving the Stereo Correspondence Problem. In: M. S. Landy and J. A. Movshon (Eds.) Computational Models of Visual Processing, The MIT Press., Cambridge, 331-357.
Geier, J. (1986a) Az idegrendszer egy absztrakt modellje, Magyar Pszichológiai Társaság VIII. országos konferenciája, Budapest, Elôadáskivonatok, 23. old.
Geier J. (1986b) Eljárás és berendezés többváltozós rendszer kimenõjelének optimalizálására. Találmányi leírás, OTH. 202995.
Gregory. R. L. (1973) Az értelmes szem, Budapest, Gondolat.
Grimson, W. E. L. (1981) A Computer Implementation of a Theory of Human Stereo Vision, Philosophical Transactions of the Royal Society of London,. B. Vol. 292. 217-253.
Hopfield, J. J. and Tank, D. W. (1986) Computing with Neural Circuits: A Model". In: Science, 8. aug., 1986. Vol. 233, 625-633.
Julesz, B. (1960) Binocular depth perception of computer generated patterns. Bell System Tech. J. 39, 1125-1162.
Julesz, B. (1971) Foundations of Cyclopean Perception. The University of Chicago Press, Chicago and London.
Julesz, B. (1978) Global Stereopsis: Cooperative Phenomena in Stereoscopyc Depth Perception. In: Held, R., Leibowitz, H. W. and Teuber, H. L. (Eds) Handbook of Sensory Physiology, Vol. VIII: Perception. Springer Verlag, Berlin, 215-252.
Kardos Lajos (1970) Általános psizchológia, Tankönyvkiadó, Budapest.
Julesz, B. and Kovács, I. (1993) Stereopsis is not colorblind. Annual Meeting Abstract Issue, ARVO, may 3- may 8, 1992, Sarasota.
Krol, J.D. and van de Grind, W. A. (1980) The double nail illusion: experiments on binocular vision with nails, needels and pins. Perception, 1980, vol. 9, 651-669.
Mallot, H. A. and Bideau, H. (1990) Binocular vergence influences the assignment of stereo correspondences. Vis. Res. 30, no 10, 1521-1523.
Marr, D. (1976) Early Processing of Visual information. Philosophical Transactions of the Royal Society of London,. B. Vol. 275, 483-524.
Marr D. and Poggio T. (1976) Cooperative Computation of Stereo Disparity. Science, Vol. 194., 283-287.
Marr D. and Poggio, T. (1979) A theory of human stereopsis. Proceedings of the Royal Society of London, B, 204, 301-328.
Marton Magda (1981) Az állandó tér észlelése(I): Pszichológiai és idegélettani megközelítés. Pszichológia 1981, (1), 1., 57-81.
Neumann János (1964) A számológép és az agy. Gondolat, Budapest.
Ono, Hiroshi (1982) Exorcising the double-nail illusion: giving up the ghost. Perception, 1984, Vol. 13, 753-758.
Parker, J.A., Johnston, E.B., Mansfield, J.S. and Yang Y. (1991) Stereo, Surfaces and Shape. In: M. S. Landy and J. A. Movshon (Eds.) Computational Models of Visual Processing, The MIT Press., Cambridge, 360-381.
Regan D., Frisby, J. P., Poggio, G. F. Schor, C. M. and Tyler, C. W. (1990) The perception of stereodepth and stereomotion. In: Spillmann, L. and Werner, J. S.(Eds.) Visual Perception: The Neurophysiological Foundations, Academic Press, New York.
Rogers, B. J., M. F. Bradshawand Giennerster, A. (1993) Differential perspective, disparity scaling and the perceprion od fronto-paralel surfaces. In: Annual Meeting Abstract Issue, ARVO, may 2 - may 7, 1993, Sarasota.
Tank, D. W. and Hopfield, J. J. (1988) Kollektiv számolás neuronszerû áramkörökben. In TUDOMÁNY, 1988. feb., 36-43.
Yuille, A. L. (1989) Energy Functions for Early Vision and Analog Networks. Biological Cybernetics 61, pp. 115-123.
KÖZVETETT HIVATKOZÁSOK
Bülthoff, H. H. and Mallot, H. A. (1988) Integration of depth scaling. MIT Artifical Intelligence Memo. 1157. (hiv.: Frisby et al. 1991)
Heinemann et al. (1959) The effect of oculomotor adjustemets on apparent size. Am. J. Psychol. 72, 32-45. (hiv.: Collevijn and Erkelens, 1990).
Helmholtz, H. von (1909) Physiological Optics. The Opt. Soc. 1924. ed. republished by Dover N. Y. (transferred from the 3d German ed.) (hiv.: Julesz, 1971)
Holst, E. von, Mittelstaedt, H. (1950) Das Reafferezprinzip: Wechselwirkung zwishen Zentralnervensystem und Peripherie. Naturwissenschaften, 37, 464-476. (hiv.: Marton Magda , 1981)Ogle, K. N. (1950) Researches in Binocular Vision. W. B. Saunders, Philadephia. (hiv.: Regan et al 1990)
Ogle, K. N. (1952) Disparity limits of stereopsis. Arch. Ophtal. 48: 50-60. (hiv.: Julesz 1971)
Ogle, K. N. (1959) Theory of stereoscopic vision. In: Psychology: A study of science, ed. S. Koch, New York: McGraw-Hill, Vol. 1, 362-394. (hiv.: Julesz, 1971)
Ogle, K. N.(1962) The optycal space sense. The eye, ed. H. Dawson. New York: Academic Press, Vol. 4, 211-432. (hiv.: Julesz, 1971)
Poggio, G. F., Gonzales, F. and Krause, F. (1988) Stereoscopic mechanizms in monkey visual cortex: Binocular correlation and disparity selectivity. Journal of Neuroscience, 8, 4531-4550. (hiv.: Regan et al. 1990)
Poggio, G.F., (1989) Neural responses serving stereopsis in the visual cortex of the alert macaque monkey: position-dispatity and image-correlation. In. J. L. Lund (ed.), Sensory Processing in the Mammalian Brain: Neural Substrates and Experimental Starategies, Univ. Press., Oxford, 226-241. (hiv.: Regan et al , 1990)
Rashabas, C. and Westheimer, G. (1961) Disjunktive eye movements. J. of Physiol. 159, 339-360. (hiv.: Collevinj and Erkelens, 1990, pp. 237)
Richard, W. (1971) Anomalous stereoscopic depth perception. J. Opt. Soc. Am. 61., 410-414. (hiv. Julesz 1978)
Volkmann, A. W. (1864) Physiologische Untersuchungen im Gebiete der Optik, Heft 2 (Leipzig, see review in Helmholz, 1909) (hiv.: Julesz, 1978)
[1] A bevezetõben használt fontosabb szakkifejezések meghatározása megtalálható az Alapfogalmak c. alfejezetben.
[2] Jel ill. jelzés megnevezéssel illetem az angol "cue" kifejezét. Az angol nyelvû szakirodalom "disparity as a depht cue", "vergence as a distance cue", stb. kifejeseket használ.
[3] Egyik kollégám elmondta, hogy pl. kosárlabdázásnál, amikor a labda nagy ívben repül, néha csak a földetérés után tudja megállapitani, hogy az csak keresztbe repül a pályán, vagy eközben távolodik is.
[4] Az eszközhöz piros üvegfejû gombostûket használtam fel, egy kis fenyõfa lécbe beleszúrva. A tûk egymástól nem egyenlõ távolságra voltak, hanem a távolabbiaknál nõtt a távolság, a perspektivikus torzításnak megfelelõen. A távolságok. 10..12 mm voltak, a tûk pozíciói 40cm nézõtávolsághoz és 65mm bázismérethez igazítva lettek igzítva.
[5] Ezt a jelenséget a tükrös sztereoszkóppal végzett kísérleteim során véletlenül fedeztem fel. A szakirodalomban nem tudtam fellelni hasonló kísérletet, bár lehetséges, hogy trivialitásnak tekintik, ezért nem. Ez a jelenség tovább erõsíti a Küklopsz retina fogalmának találó voltát.
6 Modellként szinte bármilyen elektromos mérõmûszert (pl. Deprez mûszert) használhattunk volna.