Transcript
Sensordatafusion av IR- och radarbilder Examensarbete utf¨ort i bildbehandling vid Tekniska H¨ogskolan i Link¨oping av Johan Schultz Reg nr: LiTH-ISY-EX-3475 Link¨oping 2004
Sensordatafusion av IR- och radarbilder Examensarbete utf¨ort i bildbehandling vid Tekniska H¨ogskolan i Link¨oping av Johan Schultz Reg nr: LiTH-ISY-EX-3475
Handledare: Ulf Gustafsson och Torbj¨ orn Crona Saab Bofors Dynamics AB Examinator: Klas Nordberg Link¨oping 24 februari 2004.
Avdelning, Institution Division, Department
Datum Date 2004-02-20
Institutionen för systemteknik 581 83 LINKÖPING Språk Language X Svenska/Swedish Engelska/English
Rapporttyp Report category Licentiatavhandling X Examensarbete C-uppsats D-uppsats
ISBN ISRN LITH-ISY-EX-3475-2004 Serietitel och serienummer Title of series, numbering
ISSN
Övrig rapport ____
URL för elektronisk version http://www.ep.liu.se/exjobb/isy/2004/3475/ Titel Title
Sensordatafusion av IR- och radarbilder Sensor data fusion of IR- and radar images
Författare Author
Johan Schultz
Sammanfattning Abstract This thesis describes and evaluates a number of algorithms for multi sensor fusion of radar and IR/TV data. The fusion is performed on raw data level, that is prior to attribute extraction. The idea is that less information will be lost compared to attribute level fusion. Two methods are presented. The first method transforms the radar image to the IR-view and vice versa. The images sharing the same dimension are then fused together. The second method fuses the original images to a three dimensional volume. Another version is also presented, where stereo vision is used. The results show that stereo vision can be used with good performance and gives a more general solution to the problem.
Nyckelord Keyword Sensordatafusion, IR, radar, rådatafusion, stereoseende Sensor data fusion, IR, radar, raw data fusion, stereo vision
Sammanfattning English This thesis describes and evaluates a number of algorithms for multi sensor fusion of radar and IR/TV data. The fusion is performed on raw data level, that is prior to attribute extraction. The idea is that less information will be lost compared to attribute level fusion. Two methods are presented. The first method transforms the radar image to the IR-view and vice versa. The images sharing the same dimension are then fused together. The second method fuses the original images to a three dimensional volume. Another version is also presented, where stereo vision is used. The results show that stereo vision can be used with good performance and gives a more general solution to the problem. Svenska Den h¨ar rapporten beskriver och utv¨arderar ett antal algoritmer f¨or multisensorfusion av radar- och IR/TV-data p˚ a r˚ adataniv˚ a. Med r˚ adatafusion menas att fusionen ska ske innan attribut- eller objektextrahering. Attributextrahering kan medf¨ora att information g˚ ar f¨orlorad som skulle kunna f¨orb¨attra fusionen. Om fusionen sker p˚ a r˚ adataniv˚ an finns mer information tillg¨anglig och skulle kunna leda till en f¨orb¨attrad attributextrahering i ett senare steg. Tv˚ a tillv¨agag˚ angss¨att presenteras. Den ena metoden projicerar radarbilden till IR-vyn och vice versa. Fusionen utf¨ors sedan p˚ a de par av bilder med samma dimensioner. Den andra metoden fusionerar de tv˚ a ursprungliga bilderna till en volym. Volymen sp¨anns upp av de tre dimensionerna representerade i ursprungsbilderna. Metoden ut¨okas ocks˚ a genom att utnyttja stereoseende. Resultaten visar att det kan vara givande att utnyttja stereoseende d˚ a den extra informationen underl¨attar fusionen samt ger en mer generell l¨osning p˚ a problemet.
vii
F¨ orord Denna rapport sammanfattar resultaten av ett examensarbete utf¨ort som en del av civilingenj¨orsutbildningen Teknisk fysik och elektroteknik vid Link¨opings Universitet. Examensarbetet har utf¨orts p˚ a Saab Bofors Dynamics AB i Link¨oping. Arbetet har varit b˚ ade intressant och stimulerande, samtidigt som en hel del nya kunskaper inom omr˚ adet har f¨orv¨arvats. Jag skulle vilja tacka f¨oljande personer: - Ulf Gustafsson och Torbj¨ orn Crona: Mina handledare som b˚ ada kommit med goda r˚ ad och varit till stor hj¨alp under arbetets g˚ ang. - Christina Oth´erus p˚ a Saab Bofors Dynamics i J¨arf¨alla, som hj¨alpte mig att spela in n˚ agra av testsekvenserna som har anv¨ants i arbetet. - Min examinator Klas Nordberg p˚ a institutionen f¨or systemteknik, ISY, Link¨opings Universitet f¨or sina synpunkter och kommentarer. - Mimmi Ademark: F¨or den mycket noggranna korrekturl¨asningen. - Min opponent Per Cronvall f¨or sina synpunkter.
ix
F¨ orkortningar och ordlista F¨oljande f¨orkortningar och ord anv¨ands i denna rapport. b¨ aring: Kallas ocks˚ a f¨or sidvinkel. Vinkeln till en punkt i rymden relativt ett vertikalt plan. Engelsk beteckning: azimuth. CCD: Charged Coupled Device. En sensor vars element ¨ar ljusk¨ansliga. disparitet: Med disparitet menas det avst˚ and en pixel f¨orflyttat sig mellan tv˚ a bilder i ett stereopar. FLIR: Forward Looking InfraRed camera. En infrar¨od kamera som ”tittar” i f¨ardriktningen. h¨ ojdvinkel: Kallas ocks˚ a elevationsvinkel. Vinkeln till en punkt i rymden relativt ett horisontellt plan. Engelsk beteckning: elevation. IR: F¨orkortning f¨or infrar¨ott. kvadraturfilter: Ett filter som ¨ar noll i halva fourierdom¨anen. mmw-radar: Millimeterv˚ agradar. En radar d¨ar de uts¨anda signalernas v˚ agl¨angd har storleksordningen millimeter. m˚ alsp˚ ar: Den v¨ag i rymden ett m˚ al estimeras att f¨olja. Engelsk beteckning: track pol¨ art komplement¨ ara egenskaper: Tv˚ a v¨arden som vid addition sl¨acker ut varandra. T.ex. en svart varm b˚ at ses som vit i en IR-bild men svart i TVbilden. Dessa egenskaper kan kallas pol¨art komplement¨ara. radar: F¨orkortning f¨or ”radio detection and ranging”. Ett radiodetekteringssystem som s¨ander ut radiosignaler och detekterar signalernas ekon. radarm˚ alarea: Beskriver ett objekts f¨orm˚ aga att reflektera radiov˚ agor i radarmottagarens riktning. M˚ attet ¨ar en j¨amf¨orelse mot en perfekt sl¨at sf¨ar med snittarean 1m2 . Sf¨aren best˚ ar av en perfekt metall som antas reflektera all infallande energi. Engelsk beteckning: radar cross section. stereoseende: F¨orm˚ agan att se tredimensionellt. T.ex. ger tv˚ a kameror s¨arskilda i sidled bilder som kan anv¨andas f¨or avst˚ andsuppskattning. xi
voxel: En tredimensionell pixel. Voxlarna kan bygga upp volymer precis som pixlarna kan bygga upp ytor.
Inneh˚ all 1 Inledning 1.1 Bakgrund . . . 1.2 Uppgift . . . . 1.3 F¨oruts¨attningar 1.4 Utf¨orande . . . ¨ 1.5 Oversikt . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
1 1 1 1 2 2
2 Grundl¨ aggande begrepp och information 2.1 Radar . . . . . . . . . . . . . . . . . . . . 2.1.1 Radarekvationen . . . . . . . . . . 2.1.2 Radarloben . . . . . . . . . . . . . 2.2 IR . . . . . . . . . . . . . . . . . . . . . . 2.2.1 V¨armestr˚ alning . . . . . . . . . . . 2.2.2 Optiska detektorer . . . . . . . . . 2.3 Stereoseende . . . . . . . . . . . . . . . . 2.3.1 Pinnh˚ alskameran . . . . . . . . . . 2.3.2 Stereogeometri . . . . . . . . . . . 2.3.3 Estimera disparitet . . . . . . . . . 2.4 Sensordatafusion . . . . . . . . . . . . . . 2.4.1 Fusion av radar och infrar¨ott . . . 2.4.2 Fusionsniv˚ aer . . . . . . . . . . . . 2.5 Metoder vid r˚ adatafusion . . . . . . . . . 2.5.1 Medelv¨arde och viktat medelv¨arde 2.5.2 Bayesiansk optimering . . . . . . . 2.5.3 Fuzzymetoden . . . . . . . . . . . 2.5.4 Skalpyramider och skalhierarkier .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
3 3 3 4 5 5 7 7 7 9 10 11 12 12 14 14 15 15 15
3 Litteraturstudie 3.1 S¨okning . . . . . . . . . . . . . . . 3.2 DRIVE-operatorn . . . . . . . . . 3.3 Projicering av bilder till gemensam ¨ 3.4 Ovriga artiklar . . . . . . . . . . . 3.4.1 Skalhierarkier . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
19 19 19 20 22 22
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
xiii
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . rymd . . . . . . . .
xiv
3.5
Inneh˚ all 3.4.2 Ytterligare metoder . . . . . . . . . . . . . . . . . . . . . . . 23 Kommentarer och funderingar . . . . . . . . . . . . . . . . . . . . . . 23
4 En 2D-fusionsmetod 4.1 F¨oruts¨attningar . . . . . . . . 4.2 Bildf¨orb¨attringar . . . . . . . 4.2.1 Diskussion . . . . . . . 4.3 Att hitta horisonten . . . . . 4.4 Projiceringen av bilderna . . 4.4.1 Radar till IR . . . . . 4.4.2 IR till radar . . . . . . 4.5 Fusion av bilderna . . . . . . 4.5.1 Diskussion . . . . . . . 4.5.2 F¨oruts¨attningar . . . . 4.5.3 Fusion . . . . . . . . . 4.6 Metoden i en sammanfattning 4.7 Resultat . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
25 25 26 27 27 28 28 30 30 30 32 32 38 39
3D-fusionsmetod F¨oruts¨attningar . . . . . . . . . . . . . . F¨orb¨attringar . . . . . . . . . . . . . . . Fusion till en 3D-volym . . . . . . . . . 5.3.1 Fusion . . . . . . . . . . . . . . . 5.3.2 H¨ansyn till horisontens placering 5.4 Fusion med stereoseende . . . . . . . . . 5.4.1 Stereoseende . . . . . . . . . . . 5.5 Metoderna i en sammanfattning . . . . 5.6 Resultat . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
41 41 42 42 43 47 49 50 58 59
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
5 En 5.1 5.2 5.3
6 Resultat 7 Slutsats 7.1 Framtida arbete . . . . . . . . . . . . . 7.1.1 Attribut- och objektextrahering 7.1.2 2D-metoden . . . . . . . . . . . ¨ 7.1.3 Overlagrad fusion . . . . . . . .
61 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
67 67 67 68 68
Kapitel 1
Inledning 1.1
Bakgrund
P˚ a Saab Bofors Dynamics utvecklas ett antal system som i n˚ agon mening innefattar bildbehandling, exempelvis m˚ als¨okare och spaningskameror. H¨ar, som i de flesta till¨ampningar, ¨ar det ¨onskv¨art att f˚ a ut s˚ a mycket information som m¨ojligt ur ett sensorsystem. Examensarbetet ¨ar en frist˚ aende studie av hur data fr˚ an flera sensorer kan fusioneras f¨or att f˚ a ett mer inneh˚ allsrikt resultat.
1.2
Uppgift
M˚ alet med examensarbetet ¨ar att hitta eller utveckla metoder f¨or att fusionera data fr˚ an flera sensorer innan attribut- eller objektextrahering utf¨ors. Fusionen p˚ a r˚ adataniv˚ a b¨or ha f¨ordelen att ingen information i ursprungsbilderna g˚ ar f¨orlorad. Sensorupps¨attningen best˚ ar av en eller flera elektrooptiska kameror och en radar.
1.3
F¨ oruts¨ attningar
Metoderna ska kunna appliceras p˚ a riktiga radar- och infrar¨oda bilder det vill s¨aga inte enbart p˚ a syntetiskt genererade bilder. F¨or detta ¨andam˚ al har Saab Bofors Dynamics en stor m¨angd flygsekvenser d¨ar IR-kameran (infrar¨od kamera) och radarn sitter monterad p˚ a en plattform f¨ast under ena vingen p˚ a ett flygplan. Under arbetets g˚ ang har ¨aven nya m¨atdata med TV-kameror och en mmw-radar (millimeterv˚ ag radar) erh˚ allits. Tillg¨angliga verktyg f¨or utvecklingen av algoritmerna ¨ar det tekniska ber¨akningsprogrammet MATLAB och programmeringsspr˚ aket C/C++ som k¨ ors under operativsystemet Linux p˚ a PC-h˚ ardvara. 1
2
1.4
Inledning
Utf¨ orande
Arbetet b¨orjade med en litteraturs¨okning f¨or att unders¨oka vad som redan gjorts inom de omr˚ aden som examensarbetet omfattar. Diverse b¨ocker ang˚ aende radar-, IRsensorer samt sensordatafusion har ocks˚ a studerats f¨or att f¨orb¨attra kunskaperna inom omr˚ adet. Litteraturen ligger till grund f¨or utvecklingsarbetet och utv¨ardering av algoritmer och metoder. Under arbetets g˚ ang har resultaten bed¨omts subjektivt av ett flertal personer. Detta ¨ar oftast ett problem inom bildbehandling d˚ a inget ¨ facit finns att tillg˚ a. Aven vissa m˚ att har ber¨aknats f¨or att kunna j¨amf¨ora de olika metoderna mot varandra.
1.5
¨ Oversikt
Kapitel 2 - ”Grundl¨aggande begrepp och information” Det h¨ar kapitlet beskriver den grundl¨aggande teorin som anv¨ants i examensarbetet. Det beskriver teorier ang˚ aende radar, infrar¨oda kameror, stereoseende och sensordatafusion. Kapitel 3 - ”Litteraturstudie” Kapitlet listar de artiklar som hittats inom omr˚ adet sensordatafusion av IR och radar och beskriver n˚ agra tidigare f¨oreslagna tillv¨agag˚ angss¨att. Kapitel 4 - ”En 2D-fusionsmetod” H¨ar beskrivs en metod f¨or fusion av radar och infrar¨oda bilder. Resultat f¨or n˚ agra fusionsmetoder redovisas och utv¨arderas. Kapitel 5 - ”En 3D-fusionsmetod” Ett annat tillv¨agag˚ angss¨ att f¨or fusionen redovisas. Det presenteras ocks˚ a en utvidgning d¨ar stereoseende utnyttjas. I samband med att n˚ agra valda fusionsmetoder utv¨arderas, redovisas resultaten. Kapitel 6 - ”Resultat” De olika metoderna i kapitel 4 och 5 j¨amf¨ors mot varandra. Kapitel 7 - ”Slutsats” Slutsatser ang˚ aende de olika metoderna diskuteras och n˚ agra f¨orslag p˚ a framtida arbeten listas.
Kapitel 2
Grundl¨ aggande begrepp och information F¨ oljande avsnitt f¨orklarar ¨oversiktligt principerna bakom radar, generering av IRbilder och sensordatafusion. Teorierna om radar ¨ar h¨amtade ur [18] och teorin om IR fr˚ an [3]. Sensordatafusionsteorier kommer ifr˚ an olika artiklar [9, 13, 16, 24] samt boken [8].
2.1
Radar
De flesta objekt s˚ asom flygplan, fartyg, fordon etc reflekterar radiov˚ agor. Radiov˚ agorna sprids i m˚ anga riktningar men en detekterbar m¨angd sprids tillbaka i den riktning ur vilken v˚ agen har sitt ursprung. M¨ojliga frekvensband ¨ar HF (3-30 MHz), VHF (30-300 MHz) , UHF (300-1000 MHz), L-band (1-2 GHz), S-band (2-4 GHz), C-band (4-8 GHz), X-band (8-12,5 GHz), Ku-, K- och Ka-band (12,5-40 GHz) och millimeterv˚ ag (>40 GHz). Valet av frekvensband p˚ averkas av en m¨angd faktorer. En st¨orre antenn kr¨avs f¨or l¨agre frekvenser, mindre effekt kan s¨andas av en antenn vid h¨ogre frekvenser och en h¨ogre frekvens ger en b¨attre vinkeluppl¨osning.
2.1.1
Radarekvationen
Radiosignalerna s¨ands oftast som pulser. Uts¨anda pulser reflekteras av det f¨orsta objektet de ”st¨oter” p˚ a, d¨arf¨or kommer skymda objekt aldrig detekteras av radarsensorn. Avst˚ andet r till ett m˚ al kan best¨ammas ur tiden t det tar f¨or ett eko att n˚ a mottagaren efter att pulsen s¨ants ut, enligt r = 12 ct, d¨ar c ¨ar ljusets hastighet. Styrkan p˚ a den reflekterade pulsen best¨ams av avst˚ andet till objektet och objektets radarm˚ alarea. Pulsens styrka avtar omv¨ant proportionellt mot avst˚ andet upph¨ojt i fyra enligt radarekvationen (2.1). Signalenergi ∼ = 3
Pavg GσAe tot (4π)2 r4
(2.1)
4
Grundl¨ aggande begrepp och information
d¨ ar Pavg = uts¨and effekt G = antennens f¨orst¨arkning σ = radarm˚ alarea Ae = Antennens effektiva area tot = ”time-on-target”, tiden som ett m˚ al ligger inom radarloben. r = avst˚ and Ekvationen visar att den reflekterade pulsen fr˚ an ett m˚ al snabbt avtar i styrka d˚ a m˚ alet r¨or sig bort fr˚ an antennen. Radarsensorns effektivitet p˚ averkas ocks˚ a av v¨ader.
2.1.2
Radarloben
F¨ or en konventionell antenn med utbredning D (l¨angden p˚ a antennen), vilken arbetar p˚ a en v˚ agl¨angd λ ges 3 dB lobvidden, se figur 2.1, av ekvation (2.2). 3-dBlobvidden best¨ams av den punkt i sidled d¨ar ekot har halva den maximala effekten. θ3dB =
λ D
(2.2)
Radarns vinkeluppl¨osning ¨ar relativt l˚ ag p.g.a. att objekt inom loben ej kan s¨arskiljas i vinkelled. M˚ al kan endast s¨arskiljas om deras vinkelseparation ¨ar st¨orre ar att en h¨ogre uppl¨osning uppn˚ as d˚ a en ¨an lobbredden. Ur ekvation (2.2) framg˚ st¨orre antenn anv¨ands. Stora antenner skulle dock bli otympliga inom m˚ anga anv¨andningsomr˚ aden. L¨angre v˚ agl¨angder kr¨aver en st¨orre antenn f¨or en given uppl¨osning och lobbredd. En h¨ogre frekvens g¨or det mer praktiskt att anv¨anda en st¨orre bandbredd, dvs kortare pulser, vilket leder till en h¨ogre avst˚ andsuppl¨osning. Generellt g¨aller ocks˚ a att l¨agre frekvenser g¨or det enklare att anv¨anda h¨ogre effekter i antennen. Om radarn sveper ¨over omgivningen kan ett st¨orre omr˚ ade t¨ackas
θ3dB
Figur 2.1. En radarlob.
upp. En h¨ogre vinkeluppl¨osning kan d˚ a uppn˚ as genom att n¨arliggande lober interpoleras. Figur 2.2 visar ett typiskt radarsvep. En radarsensor ¨ar en aktiv sensor eftersom den sj¨alv m˚ aste s¨anda ut en signal f¨or att kunna registrera ett svar.
2.2 IR
5
900
800
700
600
500
400
300
200
100
50
100
150
200
250
300
Figur 2.2. Ett radarsvep, radarn ¨ ar bel¨ agen nedanf¨ or bilden. Den horisontella axeln ¨ ar b¨ aring och den vertikala avst˚ andsluckor. De vita strecken ¨ ar svar fr˚ an objekt bel¨ agna i omgivningen radarn svept ¨ over.
2.2
IR
Bilder genererade med en IR-kamera skiljer sig v¨asentligt fr˚ an radarbilder. IRkameran registrerar den infrar¨ oda str˚ alningen fr˚ an objektet ist¨allet f¨or att m¨ata den elektromagnetiska reflektionen s˚ asom radarn. IR-sensorn beh¨over inte s¨anda n˚ agra signaler f¨or att kunna m¨ata str˚ alningen och ¨ar d¨arf¨or en passiv sensor. P˚ a s˚ a s¨att avsl¨ojar heller inte IR-sensorn sin egen position.
2.2.1
V¨ armestr˚ alning
Alla objekt utstr˚ alar v¨arme, f¨ordelad ¨over ett spektrum av v˚ agl¨angder. Spektralf¨ordelningen f¨or en enkel radiator (svartkropp, en kropp som absorberar all infallande str˚ alning) ges av Plancks lag enligt Wλbb = d¨ ar λ = v˚ agl¨angden
c1 c2
λ5 (e λT − 1)
(2.3)
6
Grundl¨ aggande begrepp och information T = absolut temperatur hos radiatorkroppen c1 = 2πhc2 c2 =
ch k
h = Plancks konstant 6, 6256 · 10−34 W s−2 k = Boltzmanns konstant 1, 38054 · 10−23 WKs c = Ljusets hastighet 2, 9979 · 108 m s Figur 2.3 visar radiansen fr˚ an en svartkropp f¨or temperaturerna T = 300, 400 och 500K. L¨agg m¨arke till hur toppens v˚ agl¨angd λmax skiftar mot l¨agre v¨arden d˚ a temperaturen ¨okar. V˚ agl¨angden λmax ges av Wiens f¨ orskjutningslag enligt (2.4). 8
4.5
x 10
T = 500
4
3.5
W Emittans [ m 3]
3
2.5
2
1.5
T = 400
1
T = 300
0.5
0
0
1 λmax
V˚ agl¨angd [m]
2
3 −5
x 10
Figur 2.3. Radiansen f¨ or en svartkropp vid temperaturerna T = 300, 400 och 500 K.
λmax =
k1 , T
k1 = 2, 898 · 103 mK
(2.4)
Ekvation (2.4) visar att om ett objekt med l˚ ag temperatur ska detekteras m˚ aste detektorn vara k¨ansligare f¨or l¨angre v˚ agl¨angder. Om temperaturen ¨ar tillr¨ackligt h¨og
2.3 Stereoseende
7
kan str˚ alningen ses av m¨anniskans ¨oga som f¨argat ljus, till exempel en bit gl¨odande kol. De flesta naturliga objekt har dock mycket l¨agre temperaturer, motsvarande en intensitetstopp omkring 0, 8 − 30µm. Dessa frekvenser, mellan synligt ljus och mikrov˚ agor, tillh¨or det infrar¨oda bandet i det elektromagnetiska spektrumet. Sensorer, vilka detekterar fotoner med v˚ agl¨angder i detta omr˚ ade, producerar en bild med intensiteter, motsvarande temperaturen i den observerade scenen.
2.2.2
Optiska detektorer
En digitalkamera best˚ ar av ett objektiv och en CCD-sensor (Charged Coupled Device). Objektivet kan vara uppbyggt av ett antal r¨orliga linser. Om dessa linser r¨ors i f¨orh˚ allande till varandra, kan bildvinkeln ¨andras och sk¨arpan st¨allas in. CCDsensorn best˚ ar av en m¨angd ljusk¨ansliga element. F¨or IR-fallet ¨ar elementen k¨ansliga f¨or v˚ agl¨angder mellan 0, 8 − 30µm. Ljusm¨angden som tr¨affar elementen avg¨or hur mycket de laddas upp. F¨or att registrera hur mycket ljus vardera element mottagit, skiftas laddningarna hos respektive element ut ur CCD:n och avl¨ases. D¨arefter erh˚ alls en analog TV-signal vilken kan digitaliseras med A/D-omvandling.
2.3
Stereoseende
M¨anniskan har alltid kunnat avg¨ora avst˚ and till objekt i en omgivning. Detta eftersom vi har tv˚ a ¨ogon ˚ atskilda med ett fast avst˚ and och d¨arf¨or kan betrakta f¨orem˚ al fr˚ an tv˚ a olika vinklar. Vinklarna ¨ar st¨orre f¨or f¨orem˚ al n¨ara oss ¨an f¨or f¨orem˚ al l¨angre bort. Med hj¨alp av f¨orskjutningen mellan de tv˚ a bilder fr˚ an ¨ogonen kan hj¨arnan skapa ett djup i det vi ser. Figur 2.4 visar ett stereopar skapat med tv˚ a kameror ˚ atskilda i sidled. Stereoseende syftar till att ”h¨arma” m¨anniskans f¨orm˚ aga att avg¨ora djup. Att best¨amma djup ur ett stereopar kallas stereoproblemet. M¨anniskans f¨orm˚ aga ¨ar dock l˚ angt mer sofistikerat och endast ur en bild kan vi avg¨ora vad som ¨ar n¨ara och l˚ angt bort. M¨anniskan kan ocks˚ a hitta mycket annat i bilderna, t.ex. plan s˚ asom marken. F¨ oljande kapitel belyser problemet att avg¨ora djup utifr˚ an ett stereopar. Kapitel 2.3.1 samt 2.3.2 beskriver geometrierna i stereoproblemet och kapitel 2.3.3 beskriver vanliga tillv¨agag˚ angss¨att f¨ or att estimera dispariteter. Med disparitet menas det avst˚ and en pixel f¨orflyttat sig mellan de tv˚ a bilderna i stereoparet. F¨or mer detaljer se artikeln [6] och boken [7].
2.3.1
Pinnh˚ alskameran
F¨or att f¨orst˚ a stereoproblemet m˚ aste en modell av kamerorna finnas och diverse geometrier i modellen s¨attas upp. Pinnh˚ alskameran, se figur 2.5, ¨ar en enkel och passande modell. Kamerans lins antas vara tunn. Kamerans koordinatsystem (x, y, z) ¨ar valt s˚ a att bildplanet sammanfaller med x, y-planet med sitt centrum i origo. Kamerans optiska axel sammanfaller med z-axeln och det optiska centrat ˚ aterfinns i punkten (0, 0, f ), d¨ar f ¨ar fokall¨angden och best¨ams av kameran. Kamerabilden erh˚ alls d˚ a objekt i omgivningen projiceras genom det optiska centrumet
8
Grundl¨ aggande begrepp och information
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
50
100
(a)
150
200
250
300
350
400
450
500
(b)
Figur 2.4. Ett stereopar, (a) v¨ anster bild, (b) h¨ oger bild.
till bildplanet, se figur 2.5. En punkt i omgivningen (X, Y, Z) projiceras in p˚ a kamerakoordinaten (x, y, 0). Sambanden mellan koordinatsystemen kan h¨arledas ur de liksidiga trianglarna i figur 2.6, vilka ger: X x =− f Z −f y Y =− f Z −f
(2.5) (2.6)
Minustecknen visar att den projicerad bilden a¨r roterad 180◦ relativt scenen. F¨or att undvika detta kan bildplanet placeras framf¨or det optiska centrat ist¨allet f¨or bakom. y, Y Bildplan x, X
(X, Y, Z)
f
(x, y)
z, Z
Optiskt centrum
Figur 2.5. Pinnh˚ alskameran, bilden tagen ur [6].
2.3 Stereoseende
9
x, X (X, Y, Z)
(0, 0, f )
z, Z
(x, y) Figur 2.6. Projektion av pinnh˚ alskameran p˚ a x, z-planet, bilden tagen ur [6].
2.3.2
Stereogeometri
Stereokonfigurationens geometrin d¨ar tv˚ a identiska pinnh˚ alskameror anv¨ands ses i figur 2.7. De b˚ ada kamerornas optiska axlar ¨ar parallella och de ¨ar endast s¨arskilda i X-led med avst˚ andet 2h. ˚ Aterigen kan liksidiga trianglar anv¨andas f¨or att ge de v¨anster bildplan zl
f xl
h
(X, Y, Z) Z
h zr f X
xr
h¨oger bildplan Figur 2.7. Stereokonfigurationen, tagen ur [6].
tv˚ a relationerna: xl h+X = Z f h−X −xr = Z f
(2.7) (2.8)
10
Grundl¨ aggande begrepp och information
Summering av dessa ger: 2h xl − xr = Z f
(2.9)
Dispariteten, d, definieras som d = xl − xr . F¨oljande relation f˚ as mellan djup och disparitet: 2hf (2.10) d Djupet i bilden ¨ar s˚ aledes proportionellt mot inversen av dispariteten. Stereoproblemet kan d¨arf¨or koncentreras till att estimera dispariteten. Z=
2.3.3
Estimera disparitet
Disparitetsestimeringen bygger p˚ a att finna motsvarande punkter i de b˚ ada bilderna i stereoparet, oftast f¨oruts¨atter man att translationen endast skett i horisontal riktning. Algoritmer f¨or att finna dessa punkter kan delas in i tre kategorier. • Korrelationsbaserade • Karakt¨arsbaserade • Algoritmer baserad p˚ a lokala strukturer
Algoritmer i den f¨orsta gruppen f¨ors¨oker hitta pixlar i de b˚ ada bilderna genom att j¨amf¨ora intensiteter. Ett exempel ¨ar blockmatchning. Att j¨amf¨ora pixel f¨or pixel kan vara os¨akert och d¨arf¨or j¨amf¨ors block typiskt 5 × 5 stora med varandra. Likheten avg¨ors med korrelation eller minstakvadratmetoden. Metoderna kallas l˚ agniv˚ ametoder och ¨ar oftast l˚ angsamma. Den andra gruppen inneh˚ aller metoder av en h¨ogre niv˚ a och som namnet antyder anv¨ands karakt¨arsdrag i bilderna. I f¨orsta steget identifieras punkter med en speciell egenskap s˚ asom h¨orn, kanter eller linjer. F¨or att estimera dispariteten j¨amf¨ors intensiterna mellan de b˚ ada karakt¨arsbilderna. Eftersom endast pixlar med ¨onskade egenskaper beaktas f˚ as f¨ordelen att mycket f¨arre pixlar anv¨ands vid estimeringen. Algoritmerna ¨ar oftast komplexa men blir mer robusta ¨an de i den f¨oreg˚ aende gruppen. Den sista gruppen undviker att s¨oka efter likheter. Ist¨allet unders¨oks signaler lokalt i samma punkt i de b˚ ada bilderna. En vanlig metod i gruppen ¨ar de fasbaserade disparitetsalgoritmerna. Id´en ¨ar enkel, betrakta tv˚ a sinussignaler vilka ¨ar identiska f¨orutom ett lite skift. Om fasen och frekvensen f¨or de b˚ ada signalerna kan estimeras i n˚ agon punkt s˚ a kan dispariteten ber¨aknas utifr˚ an detta. Metoderna ¨ar oftast mycket snabba och ger h¨og precision. De kr¨aver dock att omgivningarna kan beskrivas med lokala strukturer. Figur 2.8 visar den estimerade dispariteten av stereoparet i figur 2.4. Den anv¨anda stereoalgoritmen ¨ar en fasbaserad algoritm vilken ocks˚ a utnyttjar en skalpyramid, se 2.5.4. Skalpyramiden g¨or det m¨ojligt att estimera st¨orre dispariteter i stereoparet.
2.4 Sensordatafusion
11
50
100
150
200
250
300
350
400
450
500 50
100
150
200
250
300
350
400
450
500
Figur 2.8. Logaritmen av dispariteten estimerad fr˚ an stereoparet i figur 2.4.
2.4
Sensordatafusion
Multisensordatafusion inneh˚ aller teorier om hur man kan kombinera data fr˚ an flera olika sensorer. Detta f¨or att f˚ a en b¨attre ¨overblick ¨over en situation, aktivitet eller h¨andelse ¨an man skulle f˚ att med en ensam sensor. Applikationer f¨or datafusion sp¨anner ¨over ett stort omr˚ ade vilket inkluderar s˚ av¨al milit¨ara applikationer, t.ex. luftf¨orsvar, samt ickemilit¨ara applikationer, s˚ asom robotar och automatisk tillverkning. Det finns en m¨angd datafusionstekniker som kan bygga p˚ a statistik, artificiell intelligens, digital signalbehandling eller beslutsteorier. Oftast ¨ar det sv˚ art att avg¨ora vilka metoder och tekniker som l¨ampar sig b¨ast f¨or ett specifikt problem. Problematiken beskrivs v¨al av f¨ oljande problem. I en omgivning ska flygplan detekteras och identifieras. Observerbara fenomen inkluderar elektromagnetisk str˚ alning d¨ ar infrar¨ott, synligt ljus och radiofrekvenser ing˚ ar. F¨or detektering av str˚ alningen finns b˚ ade passiva och aktiva sensorer, t.ex. radar, IR-kameror, laser, radar och elektro-optiska sensorer (TV). Utifr˚ an dessa valm¨ojligheter finns ett stort antal kombinationer av sensorer och metoder. Dock ¨ar det inte alltid sj¨alvklart hur man v¨ aljer den b¨asta kombinationen bland dessa sensorer. Fusion av data fr˚ an multipla sensorer resulterar i b˚ ade kvalitativa och kvantitativa f¨ordelar. Huvudm˚ alet ¨ar att estimera position och identitet av objekt som inte
12
Grundl¨ aggande begrepp och information
al, ¨ar m¨ojligt med endast en ensam sensor. F¨orutom att ¨oka kunskapen om ett m˚ f˚ as en st¨orre robusthet mot sensorhaveri eller andra o¨onskade fenomen. Chansen att uppt¨acka ett m˚ al blir st¨orre d˚ a det i en viss situation kan finnas en sensor som ser m˚ alet medan en annan sensor inte g¨or det, t.ex. kan en IR-sensor uppt¨acka m˚ al under natten medan en TV-kamera kr¨aver mer ljusrika f¨orh˚ allanden. En datafusionsprocess inkluderar detektering, associering, korrelation, estimering och kombinering av data.
2.4.1
Fusion av radar och infraro ¨tt
Radarsensorer och IR-kameror kompletterar varandra v¨al d˚ a de ger olika intressant information om omgivningen. Det finns en stor m¨angd radarsensorer men den vanligaste tillhandah˚ aller m¨atdata inneh˚ allande avst˚ and och b¨aring. Radarns rymd illustreras i figur 2.9(a), d¨ar r anger avst˚ andet och φ b¨aring. I figur 2.9(b) illustreras IR-sensorns rymd, vilken sp¨anns upp av de tv˚ a vinklarna b¨aring φ och h¨ojdvinkel θ. Dvs radarn ger ingen eller d˚ alig uppl¨osning i h¨ojdvinkel, medan en IR-sensor ger ingen eller d˚ alig uppl¨osning i avst˚ and. D˚ a IR och radar kombineras ¨ar estimatets os¨akerhet mindre ¨an hos vardera sensor f¨or sig. Problemet vid fusion ses l¨att d˚ a de b˚ ada bilderna endast delar en gemensam dimension (b¨aring φ). I en fusionerad slutprodukt b¨or information fr˚ an alla tre dimensionerna finnas representerad. Tv˚ a bilder eller en volym kan vara n˚ agra m¨ ojliga representationer av rymden. z
z r
x
1 0 al 0 M˚ 1
1 0 al 0M˚ 1
111111 000000 000000 111111 000000 111111 000000 111111 000000 111111 000000 φ 111111 000000 111111 000000 111111
(a)
y
x
θ 111111 000000 000000 111111 000000 111111 000000 111111 000000 111111 000000 φ 111111 000000 111111 000000 111111
y
(b)
Figur 2.9. (a) Radarrymden (r, φ), (b) IR-rymden (φ, θ).
2.4.2
Fusionsniv˚ aer
Datafusion kan ske p˚ a en m¨angd olika niv˚ aer. R˚ adatafusion ¨ar den l¨agsta niv˚ an d¨ ar okorrelerad och obearbetad data fusioneras. Attributniv˚ afusion ¨ar n¨asta niv˚ a d¨ar t. ex. konturer och detaljer f¨orst extraheras separat, f¨or att sedan fusioneras. Vid beslutsniv˚ afusion har sensordata bearbetats ytterligare. Vissa beslut har gjorts
2.4 Sensordatafusion
13
ang˚ aende egenskaperna i den tidigare niv˚ an, besluten styr sedan fusionen. Ett exempel ¨ar att para ihop m˚ alsp˚ ar, framtagna i vardera sensor och sedan fusionera dessa m˚ alsp˚ ar (den v¨ag ett m˚ al tar). R˚ adatafusion R˚ adataniv˚ an ¨ar den l¨agsta niv˚ an p˚ a vilken fusion kan utf¨oras. Endast r˚ a och okorrelerad data tillhandah˚ alls. Denna r˚ aa och okorrelerade data i bilderna fusioneras sedan till en gemensam representation. F¨ordelen med att fusionera f¨ore ytterligare analys ¨ar att mindre information b¨or g˚ a f¨orlorad. Den totala m¨angden information i ursprungsbilderna ska finnas representerad i den sammanslagna representationen. F¨ orhoppningsvis ska fortsatt bearbetning av fusionerad data underl¨attas och bli mer exakt. Den stora m¨angd data som finns tillg¨anglig kr¨aver mer ber¨akningskraft Sensor 1 Fusion
Objekt
Attributextrahering
Beslut
Resultat
Sensor n
Figur 2.10. R˚ adatafusion.
afusion. Det uppst˚ ar ¨aven problem om sensorerna inte delar sam¨an t.ex attributniv˚ ma datarymd och d¨arf¨or inte har mycket gemensamt. Om scenen inte ¨ar statisk b¨ or sensorerna ocks˚ a arbeta synkront, dvs de b¨or vara synkroniserade i tiden. En illustration ¨over r˚ adatafusion ges i figur 2.10. Attributniv˚ afusion Vid attributniv˚ afusion utnyttjas viktiga karakt¨arsdrag i data vid fusionen. Karakt¨arsdragen ska beskriva ett ¨onskat utseende/beteende och ber¨aknas f¨or var och en av sensorerna. P˚ a s˚ a s¨att kommer m¨angden data att kraftigt minska. Fusionen inneb¨ar att man associerar karakt¨arsdrag i de olika m¨angderna med varandra och utifr˚ an det skapar en fusionerad representation. Viktiga detaljer kan vara kanSensor 1
Attributextrahering
Objekt
Fusion Sensor n
Beslut
Resultat
Attributextrahering
Figur 2.11. Attributniv˚ afusion.
ter, h¨orn, linjer, avst˚ and, utbredning, form etc. Om scenen inte ¨ar statisk b¨or
14
Grundl¨ aggande begrepp och information
sensorerna ¨aven h¨ar arbeta synkront. Sj¨alvklart ¨ar den reducerade m¨angden information en nackdel, dock med f¨ordelen att mindre ber¨akningskraft kr¨avs ¨an vid r˚ adataniv˚ afusion. Figur 2.11 illustrerar fusionen. Beslutsniv˚ afusion Niv˚ an ¨over attributniv˚ afusion heter beslutsniv˚ afusion. Ut¨over de ¨onskade drag man tagit fram p˚ a den tidigare niv˚ an, klassificeras m˚ alen ytterligare f¨or att p˚ a s˚ a s¨att kunna avg¨ora vilket typ av m˚ al det ¨ar fr˚ agan om. Utifr˚ an klassificeringarna om Sensor 1
Attributextrahering
Beslut
Objekt
Fusion Sensor n
Attributextrahering
Resultat
Beslut
Figur 2.12. Beslutsniv˚ afusion.
vardera bilds inneh˚ all s¨atts en rad beslut upp. Besluten kommer att styra fusionen och d¨arav namnet, se figur 2.12.
2.5
Metoder vid r˚ adatafusion
I detta kapitel ber¨ors allm¨anna id´eer och teorier ang˚ aende olika fusionsmetoder. Det finns otaliga varianter och hybrider p˚ a de presenterade fusionsmetoderna. Nedanst˚ aende ¨overblick ska ses som en allm¨an sammanfattning. De flesta fusionsmetoder f¨oruts¨atter att m¨atdata delar en gemensam rymd och st¨ammer d¨arf¨or inte exakt ¨overens med radar-IR-fusion. Metoderna n¨amns h¨ar eftersom de kan ge id´eer och inblickar i hur sensordatafusionen kan t¨ankas g˚ a till.
2.5.1
Medelv¨ arde och viktat medelv¨ arde
Det enklaste s¨attet att fusionera flera bilder, ¨ar att ber¨akna medelv¨ardet av bildernas intensiteter. Medelv¨arde reducerar signal-brus f¨orh˚ allandet men reducerar ¨aven kontrasterna d¨ar pol¨art komplement¨ara egenskaper finns. Med pol¨art komplement¨ara egenskaper menas tv˚ a v¨arden som vid addition sl¨acker ut varandra. D˚ a viktat medelv¨arde anv¨ands, kan de optimala viktskoefficienterna, med avseende p˚ a informationsinneh˚ all, avg¨ oras med principalkomponent analys (PCA) av alla inkommande intensiteter. Genom att applicera PCA p˚ a kovariansmatrisen av intensiteterna, f˚ as vikterna fr˚ an egenvektorn till det motsvarande st¨orsta egenv¨ardet. PCA maximerar variansen i utbilden. Viktade medelv¨arden kan ¨aven appliceras p˚ a en m¨angd olika s¨att, d¨ar lokala v¨arden p˚ a energier, varianser eller andra m˚ att avg¨or vikterna.
2.5 Metoder vid r˚ adatafusion
2.5.2
15
Bayesiansk optimering
De bayesianska fusionsmetoderna j¨amf¨or m¨atdata med hypoteser f¨or att besluta vilken hypotes som b¨ast beskriver m¨atdata, se artikel [14]. Konceptet introducerades av Thomas Bayes (1702-1761) i en artikel som publicerades tv˚ a˚ ar efter hans d¨ od. Teorierna anv¨ander sannolikhetsbeskrivningar av m¨atdatav¨arden och tidigare anv¨andbar information f¨or att ber¨akna ett sannolikhetsv¨arde f¨or en viss hypotes. Bayes metod s¨ager hur dessa ska uppdateras med nya m¨atdata. Fr˚ an b¨orjan ans¨atts en f¨ordelning, typiskt en gaussf¨ ordelning, som med tiden f¨or¨andras. F¨ordelen med de bayesianska metoderna ¨ar: (1) de ger konsistenta metoder som inkluderar ny och gammal information, (2) om man f¨oljer reglerna, f˚ as ett Bayes optimalt estimat, och (3) kan oftast appliceras p˚ a m˚ anga skilda typer av problem. Nackdelar med metoderna ¨ar att det kr¨avs kr¨avande numeriska algoritmer och mycket datorkraft j¨amf¨ort med t.ex. viktade medelv¨arden, f¨or att l¨osa optimeringen.
2.5.3
Fuzzymetoden
Fuzzyteorin a¨r en matematisk teori f¨or att beskriva os¨akerheter, se artikel [13]. En fuzzyfunktion ska hj¨alpa fusionsprocessen att avg¨ora hur ”bra” det aktuella v¨ardet a¨r. V¨arden n¨ara de intressanta v¨ardena kommer f˚ a en st¨orre vikt i fusionen a¨n de l¨angre ifr˚ an. Funktionen kan ses som en f¨ordelning vilken talar om hur sannolikt det ¨ar att v¨ardet ¨ar bra. Ekvationen (2.11) visar en fuzzy-funktion med en m¨angd parametrar vilka kan styra dess utseende. ff uzzy (in) = e−(
|in−mean| spread
power
)
(2.11)
Med mean, spread och power kan medel, bredd och avtagande ¨andras f¨or att f˚ anga upp de speciella egenskaper problemet kr¨aver. Variabeln In beskriver oftast ”intresset” f¨or en viss pixel, t. ex. hur mycket den skiljer sig fr˚ an omgivningen. Pixelv¨ardena och fuzzyfunktionerna styr fusionsprocessen d¨ar fuzzyv¨ardet i pixeln avg¨or hur en pixeln ska viktas. Till skillnad fr˚ an bayesianska metoder utf¨ors ingen optimering av problemet och f¨ ordelningen uppdateras heller inte. Detta leder till mindre ber¨akningskr¨avande operationer.
2.5.4
Skalpyramider och skalhierarkier
Inom bildbehandling ¨ar det vanligt att man arbetar med olika storlekar och uppl¨osningar av samma bild. P˚ a s˚ a s¨att kan ber¨akningskraft sparas, d˚ a en ber¨akningstung operation ist¨allet kan utf¨oras p˚ a en bild med l¨agre uppl¨osning och d¨armed f¨arre pixlar. N¨ar man zoomar in en bild ser man substrukturerna tydligt, men man f¨orlorar helhetsintrycket av bilden. Om man ist¨allet zoomar ut bilden f˚ as en bra ar f¨orlorade. Man kan allts˚ a finna oli¨oversikt ¨over bilden men detaljerna i bilden g˚ ka information i olika uppl¨osningar av bilden. Begreppet skalpyramid kommer av att bilderna kan s¨attas samman till en pyramid, d¨ar den bild med h¨ogst uppl¨osning l¨aggs i botten och den med l¨agst uppl¨osning p˚ a toppen, se artikel [4]. M˚ anga av de
16
Grundl¨ aggande begrepp och information
metoder som hittades vid litteraturs¨okningen anv¨ander skalpyramider eller skalhierarkier. En liknande id´e vilken resulterar i en skalhierarki, ¨ar wavelettransformen, se 2.5.4. Skalhierarkierna i sig ¨ ar inte en fusionsmetod utan fusionen sker p˚ a varje niv˚ a i hierarkin. P˚ a dessa niv˚ aer kan ”vanliga” fusionsmetoder appliceras. De kan d˚ a styras mer specifikt eftersom olika egenskaper framh¨avs p˚ a olika niv˚ aer i pyramiden. Gausspyramiden Gausspyramiden ¨ar oftast grunden f¨or de flesta skalpyramider. Den best˚ ar av l˚ agpassfiltrerade och nedsamplade bilder d¨ar den ursprungliga bilden ¨ar botten p˚ a pyramiden, se figur 2.13 och 2.14. En niv˚ a konstrueras alltid genom att den G3 G2 REDUCE G1
G0
Figur 2.13. Schematisk bild hur en gausspyramid genereras.
f¨oreg˚ aende niv˚ an l˚ agpassfiltreras och nedsamplas. Gl = REDU CE(Gl−1 ) 1≤l≤N X Gl (i, j) = w(m, n)Gl−1 (2i + m, 2j + n)
(2.12)
m,n
I ekvation (2.12) ¨ar w(m, n) matrisen f¨or l˚ agpassfiltreringen. L˚ agpassk¨arnan kan v¨aljas p˚ a ¨onskat s¨att, men vanligast ¨ar en gauss- eller binomialk¨arna av storlek 3 eller 5. REDU CE-funktionen best˚ ar av en faltning och dessutom en reducering av bilddata som resulterar i en bild som har fyra g˚ anger f¨arre pixlar ¨an bilden p˚ a niv˚ an under. Totalt f˚ as 43 fler pixlar ¨an i ursprungsbilden. Laplacepyramiden Laplacepyramiden konstrueras genom att man tar skillnaden mellan en niv˚ a och en expanderad version av niv˚ an ¨over i gausspyramiden se ekvation (2.13). Den kallas ocks˚ a DOG-pyramid (Difference Of Gauss) eller DOLP-pyramid (Difference Of
2.5 Metoder vid r˚ adatafusion
17
20 40 60 80 100 120 140 160 180 200 220
50
100
150
200
250
300
350
400
450
Figur 2.14. Ett exempel p˚ a en gausspyramid i fyra niv˚ aer av en IR-bild.
Low Pass). Varje niv˚ a kan ses som en bandpassfiltrerad version av originalbilden. P˚ a den l¨agsta niv˚ an ˚ aterfinns de h¨ogsta frekvenserna, och den ¨oversta niv˚ an ¨ar en rent l˚ agpassfiltrerad och nedsamplad version av original bilden. Storleken p˚ a laplacepyramiden blir som f¨or gausspyramiden 34 st¨orre ¨an ursprungsbilden. Ll = Gl − EXP AN D(Gl−1 ) 1 ≤ l ≤ N, LN = GN X i−m j−n , ) w(m, n)Gl,n−1 ( Gl,n (i, j) = 4 2 2 m,n
(2.13)
Fr˚ an laplacepyramiden kan originalbilden rekonstrueras exakt, genom att utf¨ora additioner mellan niv˚ aerna i pyramiden, enligt ekvation (2.14). GN = LN Gl = Ll + EXP AN D(Gl+1 )
0≤l ≤N −1
(2.14)
Fusionering av bilder med skalpyramider inneb¨ar att vardera bilds skalpyramid f¨orst genereras. Fusionen sker sedan p˚ a varje niv˚ a och den slutliga pyramiden rekonstrueras till en fusionerad bild. Sj¨alva fusionen skiljer sig mycket fr˚ an till¨ampning till till¨ampning men kan t.ex. vara ett viktat medelv¨arde, se kapitel 2.5.1. Wavelet Waveletrepresentationen, introducerad av St´ephane Mallat, se boken [12], f¨oresl˚ ar att en niv˚ a endast ska inneh˚ alla de detaljer som inte finns p˚ a en tidigare niv˚ a. En annan f¨ordel relativt skalpyramiderna ¨ar att storleken p˚ a wavelettransformen blir
18
Grundl¨ aggande begrepp och information
densamma som ursprungsbilden. Wavelettransformen anv¨ander en bank av filter vilka delar upp signalen i olika frekvensband. En tv˚ adimensionell wavelettransform inneh˚ aller l˚ ag-l˚ ag (LL) band, l˚ ag-h¨og (LH) band, h¨og-l˚ ag (HL) band och h¨og-h¨og (HH) band av bilden i olika niv˚ aer , se figur 2.15. H¨ar betyder l˚ ag-h¨og att den har l˚ agpassfiltrerade rader och h¨ogpassfiltrerade kolumner. Varje delbild blir unik d˚ a filtrena v¨aljes ortogonala mot varandra. Dock leder den diskreta wavelettransformen till en skiftvariant signalrepresentation, dvs ett litet skift av insignalen leder till en icketrivial ¨andring av transformkoefficienterna. Som vid m˚ anga transformationstekniker fusioneras de transformerade bilderna i waveletdom¨anen. Den fusionerade bilden inverstransformeras sedan till spatialdom¨anen f¨or att ge det slutliga fusionerade resultatet. LL2
HL2
LH2
HH2
HL1 W
LH1
HH1 W −1
LL2
HL2
LH2
HH2
HL1 W
LH1
HH1
Figur 2.15. Fusion med tv˚ aniv˚ aers tv˚ adimensionell diskret wavelettransform.
Kapitel 3
Litteraturstudie I arbetets b¨orjan utf¨ordes en litteraturstudie f¨or att unders¨oka vilka resultat som redan presenterats i ¨amnena som examensarbetet omfattar. Ett antal artiklar samt delar av b¨ocker studerades.
3.1
S¨ okning
S¨ okningen efter vetenskapliga artiklar och rapporter gjordes i databasen INSPEC [10], med s¨okmotorn CiteSeer [19] och google [20], genom att s¨oka p˚ a l¨ampliga ¨ nyckelord s˚ asom radar, ir, sensor fusion och raw data. Aven CD-ROM skivor fr˚ an konferenser inom ¨amnet har genoms¨okts. Totalt skummades en stor m¨angd artiklar igenom och en del valdes ut d˚ a de verkade mer eller mindre intressanta. Kvaliteten p˚ a artiklarna var h¨ogst varierande, b˚ ade i inneh˚ all och begriplighet p˚ a framst¨allningen. Endast n˚ agra f˚ a artiklar med exakt matchning av problemet hittades och studerades mer i detalj. Men ca 20 stycken andra artiklar studerades ocks˚ a f¨or att hitta id´eer till egna metoder. En kort beskrivning av vad artikels¨okningen gav, och de olika metoderna som presenterades, ges nedan.
3.2
DRIVE-operatorn
I artikeln av Birkemark och Titley [2] f¨oresl˚ as en operator vilken fusionerar IR och radardata f¨ore attributextrahering. Operatorn ben¨amns DRIVE och st˚ ar f¨or ”Derived Radar and Infrared Voxel Energy”. F¨oruts¨attningen f¨or experimentet adimensionell infrar¨od bild (h¨ojdvinkel och b¨aring p˚ a axlarna), och en ¨ar en tv˚ radarbild vilken inte anses ha n˚ agon b¨aringinformation utan endast inneh˚ aller data i avst˚ andsled. Operatorn kombinerar amplituden fr˚ an vardera avst˚ andslucka i radarbilden med svaret i varje IR-pixel, enligt ekvation (3.1). Metoden genererar en tredimensionell volym, se figur 3.1, d¨ar varje voxel kan s¨agas beskriva energin p˚ a en best¨amd plats i rymden. En voxel ¨ar den tredimensionella pixel som bygger 19
20
Litteraturstudie
upp en volym.
√ γi ρjk φijk = R √ γi ρjk dv v
∀i, j, k
(3.1)
ρjk
avst˚ and
H¨ojdvinkel
I ekvation (3.1) beskriver γi amplituden fr˚ an avst˚ andslucka i i radarbilden, ρjk intensiteten i pixel (j, k) i IR-bilden och φijk det ber¨aknade v¨ardet i voxel (i, j, k). Voxelv¨ardet a¨r proportionellt mot energin d˚ a ρjk och γi beskrivs i volt. Produkten blir effekt i varje tidssteg och sett o¨ver tiden (om man har en skevens med bilder) beskriver m˚ attet energin. Roten ur samt divisionen med den totala energin i volymen (integralen) beskrivs som en normalisering. Testdata hade samlats in f¨or att
γi φijk
DRIVE-volym
B¨aring
Figur 3.1. Schematisk bild ¨ over generering av DRIVE-volymen.
testa operatorn men inga speciella resultat kunde presenteras. Slutsatsen var att mer data m˚ aste samlas in f¨or att kunna avg¨ora om metoden medf¨or n˚ agon f¨ordel.
3.3
Projicering av bilder till gemensam rymd
Pavel och Sharma [15] och Majumder, Scheding och Whyte [11] har i sina artiklar f¨oreslagit att transformera bilderna till en gemensam rymd. Den f¨orst n¨amnda artikeln fusionerar data fr˚ an en FLIR-kamera och en mmw-radar och d¨arf¨or l¨aggs st¨orst vikt p˚ a denna. F¨ or att kunna utf¨ora transformationen ¨ar det n¨odv¨andigt att 3D-geometrin av radarscenen a¨r k¨and, se figur 3.2. Att hitta 3D-scenen fr˚ an en tv˚ adimensionell bild avs en f¨orenkling av problemet f¨or att detta ska bli ¨ar dock inte entydigt. D¨arf¨or kr¨ l¨osbart, t.ex. att alla objekt antas ligga p˚ a en plan yta. D˚ a avst˚ anden till m˚ alen i scenen a¨r relativt sm˚ a ger f¨orenklingen ingen n¨amnv¨ard f¨ors¨amring av l¨osningen. F¨ or geometrin i figur 3.2 kan radarkoordinaterna relateras till v¨arldskoordinaterna med tv˚ a ekvationer. X Z R2 = X 2 + (H − Y )2 + Z 2 tan(θ) =
(3.2)
3.3 Projicering av bilder till gemensam rymd
21
R H
Y θ
Z
X
Figur 3.2. Geometrier i 3D-rymden.
Ekvationer i (3.2) transformerar (R, θ) till (X, Y, Z) och ˚ atf¨oljs av vytransformen (X, Y, Z) → (x, y) d¨ar (x, y) ¨ar IR-bildens koordinater. Projiceringsekvationerna f¨or vytransformen ges av (3.3). x=f
X Z
y = y0 − f
H −Y Z
(3.3)
d¨ ar y0 ¨ar horisontens placering och f ¨ar kamerans fokall¨angd. F¨ or att kunna uttrycka hela transformationen fr˚ an radarrymden till IR-rymden antas alla objekt ligga i ett plan, allts˚ a Y = 0. Det slutliga ekvationssystemet under denna f¨oruts¨attning blir d˚ a: x=f
X Z
y = y0 − H
r
f 2 + x2 R2 − H 2
(3.4)
Sj¨ alvklart kan projiceringen lika g¨arna ske i den motsatta riktningen eller de b˚ ada bilderna (IR och radar) till en annan l¨amplig gemensam rymd. P˚ a de transformerade bilderna kan en valfri ¨onskad fusionmetod appliceras. I artikeln [15] av Pavel och Sharma anv¨ands en adaptiv fusionsprocess d¨ar ¨aven bruset i sensorn modelleras. Fusionsprocessen ges av f¨oljande steg: 1. Adaptiv estimering av brusniv˚ an i bilderna fr˚ an vardera sensor. 2. Adaptiv estimering av signalniv˚ an i varje sensor, ber¨aknad ¨over sensorns spatiella rymd. 3. Adaptiv estimering av sambandet mellan sensorerna d¨ar korrelation utnyttjas. 4. Ber¨akning av den optimala kombinationen av sensorerna. Resultatet blir en viktad linj¨arkombination d¨ar vikterna beror p˚ a ovanst˚ aende tre faktorer.
22
Litteraturstudie
F¨orfattarna tycker resultatet ser lovande ut men fusionen har endast utf¨orts p˚ a syntetiserade bilder. Senare ska de modifiera metoden f¨or att b¨attre passa riktiga bilder.
3.4
¨ Ovriga artiklar
¨ Ovriga utvalda artiklar belyser inte problemet i sig utan oftast fusion av tv˚ a stycken bilder av samma dimensioner och vyer. Trots skillnaden p˚ a till¨ampning har de studerats noggrant f¨or att kunna ge tips och id´eer vid utvecklingen av egna metoder. De mest intressanta artiklarna belyses i 3.4.1 och en sammanfattning av ytterligare kategorier kommer under 3.4.2.
3.4.1
Skalhierarkier
Artiklarna [9, 16, 21, 24] beskriver fusionsmetoder d¨ar sensorernas utdata delas upp i skalhierarkier. De tv˚ a f¨orstn¨amnda artiklarna sammanfattar en m¨angd fusionstekniker d˚ a wavelettransformering anv¨ands. De tv˚ a sista fusionerar bland annat TV- och IR-bilder med diverse skalpyramider. Waveletfusion Den huvudsakliga id´en med waveletfusion beskrivs i 2.5.4. Bilderna man vill fusionera wavelettransformeras vardera f¨or sig. I waveletdom¨anen appliceras en ¨onskad fusionsmetod och den fusionerade wavelethierarkin inverstransformeras. Nedan f¨oljer en lista ¨over n˚ agra av de metoder som ¨ar sammanfattade i [9] och [24]. • MS, maximum selection: V¨alj den koefficient i varje delband med st¨orst magnitud. • WBA, window-based activity: V¨alj den koefficient d¨ar aktiviteten i en omgivning vanligtvis 3 × 3 eller 5 × 5, ¨ar st¨orst. Aktiviteten kan t.ex. m¨atas med varians eller energi. • WA-WBA, weighted average-WBA: Som WBA ovan men koefficienterna viktas ihop d¨ar vikterna beror p˚ a aktiviteten i hela omgivningen. • WBV, window-based verification: Anv¨ander en bin¨ar beslutskarta och ett majoritetsfilter f¨or att besluta vilken koefficient som a¨r intressant. Om en vald pixel fr˚ an bild A har majoriteten av de omgivande pixlarna fr˚ an bild B, v¨aljes pixeln fr˚ an B ist¨allet. Enligt f¨orfattarna ger WBV ¨overlag det b¨asta resultatet men WA-WBA klarar a, s¨amst ¨aven den de flesta till¨ampningar. MS och WBA ger relativt de andra tv˚ resultat. Dock har inte exakt samma upps¨attning sensorer anv¨ants. De anv¨ander bland annat en radar med h¨ogre uppl¨osning. WBV hade testats och j¨amf¨orts vid fusion av tv˚ a TV-bilder. Den stora skillnaden i sensorerna kan medf¨ora att metoden inte alls fungerar ¨onskv¨art i IR-radar fallet.
3.5 Kommentarer och funderingar
23
Skalpyramidsfusion Toet, van Ruyven och Valeton [21] och Piella [16] anv¨ander skalpyramider i sina fusionsalgoritmer. I den f¨orsta anv¨ands en kontrastpyramid (som laplacepyramiden men d¨ar niv˚ aerna divideras ist¨allet f¨or subtraheras). Den fusionerade bilden inneh˚ aller den maximala absoluta kontrasten (h¨ogsta intensiteten) ur de tv˚ a pyramiderna. Inga speciella resultat eller j¨amf¨orelser med andra artiklar st˚ ar n¨amnda. Piella’s metod ¨ar mer generell och ¨ar applicerbar p˚ a flera olika skalpyramider och a wavelethierarkin. Ett fusionsbeslut fattas utifr˚ an aktiviteter och likheter ¨aven p˚ i de olika delbanden i hierarkin. Matchv¨ardet (likheterna) ber¨aknas med normaliserad korrelation och aktiviteten best¨ams av absolutbeloppet av intensiteterna. Resultaten visar inte s˚ a mycket d˚ a implementeringen var i sin uppstartsfas, men f¨orfattarna tycker ¨and˚ a att de resultat de f˚ att ser hoppfulla ut.
3.4.2
Ytterligare metoder
Andra fusionsmetoder sammanfattas h¨ar i korthet. Fusion med bayesiska teorier enligt 2.5.2 finns beskriven i artiklarna [14] av Mohammad-Djafari samt [17] av Sharma, Pavel och Leen. I artikeln [13] av McCullough finns en variant av fuzzyfusion, se 2.5.3. Ut¨over n¨amnda artiklar finns ett stort antal andra varianter vilka fungerar mer eller mindre bra. Det finns ¨aven metoder som bygger p˚ a helt andra id´eer. T.ex. har Baum och Rak [1] fusionerat data med hj¨alp av histogram. Det finns ocks˚ a ett antal artiklar [22] d˚ a kalmanfiltret anv¨ands. Kalmanfiltret anv¨ands dock mer flitigt vid m˚ alf¨oljning i senare bearbetning av fusionsdata.
3.5
Kommentarer och funderingar
Som tidigare n¨amnts var artiklarna av mycket varierande kvalitet. Oftast presenterades inga ”verkliga” resultat d˚ a metoderna enbart testats p˚ a syntetiserade bilder. Metoderna i sig ¨ar ocks˚ a oftast endast beskrivna i ord och inte med formler. Detta f¨orsv˚ arar sj¨alvklart f¨orm˚ agan att testa metoden d˚ a det inte alltid g˚ ar genomsk˚ ada vad de egentligen gjort. De flesta bayesiska metoder l˚ ater bra men kr¨aver ofta avancerade numeriska algoritmer och mycket datorkraft. Eftersom v˚ art problem dessutom skiljer sig mycket fr˚ an artiklarnas utg˚ angsl¨agen ¨ar de mer inspirationsk¨allor till egna id´eer. DRIVE-operatorn kan leda till intressanta forts¨attningar men metoden k¨anns lite klen, speciellt d˚ a det g¨aller objekt som endast ¨ar synliga i den ena sensorn. De kommer antagligen att drunkna helt i den sammanslagna rymden. Detta ¨ar en stor nackdel eftersom sensorerna ska komplettera varandra och inte endast visa det gemensamma i b˚ ada.
24
Litteraturstudie
Projiceringsmetoden k¨anns ocks˚ a intressant eftersom den ger en mer kompakt representation, dock f˚ ar fusionsteorierna vidareutvecklas d˚ a de endast finns redovisade i kort text. Sj¨alvklart kan m˚ anga andra fusionsmetoder appliceras, se kapitel 4.
Kapitel 4
En 2D-fusionsmetod Med kapitel 3.3 som bakgrund har under examensarbetets g˚ ang en metod utvecklats vilken projicerar vardera sensors data till den andra sensorns rymd. Metoden arbetar endast p˚ a tv˚ adimensionella bilder och genererar ¨aven tv˚ adimensionella bilder som utdata. P˚ a s˚ a s¨att kommer ber¨akningsb¨ordan att bli v¨asentligt mindre ¨an i den senare tredimensionella metoden, se kapitel 5. Nackdelen med den f¨oreslagna metoden i artikel [15] ¨ar att bilderna endast projiceras till en gemensam representation, allts˚ a endast en bild i utdata. Detta f¨oruts¨atter att de b˚ ada bilderna t¨acker upp samma omr˚ ade, s˚ a att ingen f¨orlust i information fr˚ an de tv˚ a ursprungliga bilderna uppkommer. Den nedan framtagna metoden genererar tv˚ a bilder i tv˚ a rymder, IR-rymden samt radarrymden. Detta d˚ a radarbilden endast t¨acker upp en del av det avst˚ and som finns representerat i IR-bilden men med en h¨ogre uppl¨osning. P˚ a s˚ a s¨att kommer de b˚ ada sensorerna att komplettera varandra och visa mer ¨an bara det gemensamma i de b˚ ada bilderna. En annan nackdel med metoden ¨ar att kamerans riktning relativt marken f¨oruts¨atts vara k¨and. D˚ a kamerans riktning varierar flera grader, har andra id´eer f¨or projiceringen tagits fram. Den framtagna metoden l¨oser problemet bland annat genom att ”finna” horisonten i IR-bilden. Horisontens placering best¨ammer y0 i ekvation (3.3). Det enda metoden f¨oruts¨ atter sig veta ¨ar kamerans position relativt marken (h¨ojden). Tyv¨arr fungerar id´en endast p˚ a de fall d¨ar det finns en synlig horisont och d¨ar alla m˚ al ligger i ett plan.
4.1
F¨ oruts¨ attningar
Grunderna f¨or de framtagna metoderna har varit en IR-bild och en radarbild. Bilderna delar den gemensamma dimensionen b¨aring, d¨ar b¨aringutbredningen ¨ar densamma. Eftersom radarbildens b¨aringsuppl¨osning ¨ar s¨amre ¨an IR-bildens, samplas radarbilden upp f¨or att ¨aven f˚ a samma utbredning i antalet pixlar. Om bilder25
26
En 2D-fusionsmetod
na har samma storlek underl¨attas fusionen av bilderna i de senare stegen i metoden. Figur 4.1 visar ett IR-radar bildpar. IR-bilden sp¨anns upp av h¨ojdvinkel och b¨aring i pixlar. Radarbilden har avst˚ and (avst˚ andsluckor) och b¨aring i pixlar p˚ a axlarna. M˚ atten p˚ a axlarna ¨ar densamma i samtliga bilder i avsnittet. IR800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
(a)
300
50
100
150
200
250
300
(b)
Figur 4.1. (a) en IR bild med h¨ ojdvinkel och b¨ aring i pixlar p˚ a axlarna, (b) en radarbild med avst˚ and i avst˚ andsluckor och b¨ aring i pixlar p˚ a axlarna.
kamerans bildvinklar t¨acker upp 10◦ i sidled och 7, 5◦ i h¨ojdled. Uppl¨osningen blir 10◦ /320 ≈ 0, 0312◦ per pixel. Radarbilderna t¨acker motsvarande sidvinkel men med s¨amre uppl¨osning (≈ 0, 25◦ per pixel), vilket kan urskiljas i figur 4.1. I avst˚ andsled har radarn uppl¨osningen 15 meter per pixel och bilden sp¨anner fr˚ an 3000 till 15375 meter (825 pixlar). De 3000 f¨orsta metrarna i radarbilden ¨ar bortplockade pga minnesbrist i testutrustningen samt att de oftast ¨ar distorderade.
4.2
Bildf¨ orb¨ attringar
Innan senare steg i metoden f¨orb¨attras radarbilden. F¨orb¨attringen utf¨ors f¨or att underl¨atta perceptionstestet. Enligt ekvation (2.1) avtar intensiteten med avst˚ andet och b¨or viktas upp utefter detta. Men d˚ a det inte gav ¨onskat resultat, p.g.a. de olika m˚ alens varierande egenskaper samt att viss korrektion av v¨ardena redan utf¨orts i radarn anv¨ands lokal normalisering. Lokal normaliseringen inneb¨ar att v¨ardena i omgivningen normaliseras (alla intensiteter mellan 0 och 1). Normaliseringen skulle dock inte fungera s˚ a bra om den utf¨ors p˚ a en omgivning d¨ar inget m˚ al finns. D¨arf¨or unders¨oks f¨orst omgivningen och normaliseras endast d˚ a ett m˚ al finns representerat. F¨or att avg¨ora om ett m˚ al finns, genoms¨oks omgivningen f¨or att finna lokala maximum. Ett exempel ¨over normaliseringen ses i figur 4.2. IR-bilden f¨orb¨attras ¨aven den innan senare steg i metoden. P˚ a bilden appliceras en kontrastf¨orst¨arkning f¨or att framh¨ava intressanta fenomen. Det visade sig ocks˚ a v¨ al trycka ned st¨orande fenomen s˚ asom dimma.
4.3 Att hitta horisonten
27
900
900
800
800
700
700
600
600
500
500
400
400
300
300
200
200
100
100
50
100
150
200
250
300
(a)
50
100
150
200
250
300
(b)
Figur 4.2. (a) Ursprungliga radarbilden, (b) den f¨ orb¨ attrade radarbilden
4.2.1
Diskussion
Det b¨or f¨ortydligas att f¨orb¨attringarna av radarbilden endast utf¨ors f¨or att f¨orenkla perceptionstestet f¨or att f˚ a starkare svar fr˚ an alla m˚ al i en fusionerad bild. Om bilderna ska presenteras f¨or en m¨ansklig operat¨or ¨ar detta sj¨alvklart ¨onskv¨art. F¨ orb¨attringar skulle annars inneb¨ara en f¨orlust av den information radarn tillhandah˚ aller. Informationsf¨orlusten inneb¨ar att tidigare attribut f¨orknippade med intensiteterna som radarm˚ alarea och styrkans avtagande med avst˚ andet f¨orsvunnit.
4.3
Att hitta horisonten
Projiceringsalgoritmen antar att horisontens plats i h¨ojdled ¨ar k¨and. D¨arf¨or kr¨avs det att denna kan hittas i en IR-bild. Horisonten kan ses som en horisontell linje utstr¨ackt fr˚ an kant till kant. Problemet ¨ar ekvivalent med att kunna detektera linjer i en bild. D˚ a kameran kan vara roterad m˚ aste ¨aven roterade linjer kunna detekteras. Metoden ¨ar uppdelad i tre steg: • En kantdetekteringsalgoritm appliceras p˚ a bilden. Ut f˚ as en bin¨ar bild. En sobel-Y k¨arna har anv¨ants vid detekteringen d˚ a linjerna oftast ¨ar relativt horisontella. • Den bin¨ara bilden faltas med en m¨angd olika linjedetekteringsk¨arnor, som a¨r roterade relativt varandra. Den faltning vilken ger st¨orst svar v¨aljes. • Bilden tr¨osklas f¨or att endast visa de allra starkaste svaren. Tv˚ a tr¨osklar anv¨ands, en h¨og och en l˚ ag. Hysteres appliceras sedan p˚ a de tv˚ a tr¨osklade bilderna f¨or att p˚ a s˚ a s¨att l˚ ata horisonten v¨axa fram.
28
En 2D-fusionsmetod
Utbilden ¨ar en bin¨ar bild d¨ar horisonten betecknas med 1 och allt annat med 0. En oroterad linjedetekteringsk¨arna kan se ut som f¨oljande:
.
−1 . 2 −1
−1 −1 2 2 . −1 −1
.
Figur 4.3 visar ett resultat d˚ a algoritmen applicerats p˚ a en IR-bild. En annan metod 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.3. (a) Den ursprungliga IR-bilden, (b) den bin¨ ara bilden som visar vart horisonten ¨ ar bel¨ agen.
att detektera linjer med ¨ar Houghtransformen, se [5]. Houghtransformen har ocks˚ a applicerats p˚ a problemet, men dock inte med ett ¨onskv¨art resultat.
4.4 4.4.1
Projiceringen av bilderna Radar till IR
Som n¨amnts tidigare ska bilderna projiceras till en gemensam rymd. J¨amf¨ort med teorierna i kapitel 3.3 anv¨ands inte kamerans vinkel i f¨orh˚ allande till marken, utan d¨ar kommer horisontens l¨age till anv¨andning. D˚ a kamerans h¨ojd relativt marken andet till horisonten ber¨aknas. Utifr˚ an horisontens placering kan ¨ar k¨and kan avst˚ ¨ en avst˚ andrad i radarn projiceras till IR-bilden. Aven i den motsatta projektionen kan horisonten anv¨andas f¨or att avg¨ora hur raderna i IR-bilden ska projiceras till radar-rymden. Ur figur 4.4(a) f˚ as avst˚ andet till horisonten, d, enligt f¨oljande: q 2 (h + rjordradie )2 − rjordradie = q = h2 + 2hrjordradie
d=
(4.1)
4.4 Projiceringen av bilderna
29
d
r
h
x1 rjordradie
x2
rjordradie
jordytan
jordytan (a)
(b)
Figur 4.4. (a) Geometrier f¨ or horisonten, (b) geometrier f¨ or ett avst˚ and kortare ¨ an horisonten.
F¨ or att kunna ber¨akna vinkeln relativt horisonten m˚ aste x2 ocks˚ a best¨ammas. H¨ arledningen utg˚ ar fr˚ an figur 4.4 (b), med diverse geometrisamband f˚ as ekvationerna (4.2). r2 = x21 + x22 2 rjordradie = x21 + (h + rjordradie − x2 )2
(4.2)
Bearbetning av ekvationerna i (4.2) ger: 2 − (h + rjordradie − x2 )2 r2 = x22 + rjordradie
= 2(h + rjordradie )x2 − h2 − 2hrjordradie
⇒ x2 =
r2 + h2 + 2hrjordradie 2(h + rjordradie )
(4.3)
d¨ar r betecknar avst˚ andet till en godtycklig punkt p˚ a jordytan. Om geometrin ist¨allet ser ut som i figur 4.4(a), med en vinkelr¨at triangel, d¨ar r = d f˚ as med ekvation (4.1) insatt: x2 =
d2 h + rjordradie
(4.4)
Ekvation (4.3) och (4.4) ger vinklarna: φhor = sin−1
³x ´ 2
³d´ −1 x2 φ = sin r
(4.5) (4.6)
Den framtagna horisontbilden ger vilken rad i IR-bilden horisonten ¨ar bel¨agen p˚ a. Eftersom IR-bildens koordinatsystem utg¨ors av vinklar ¨ar f¨orh˚ allande mellan φhor
30
En 2D-fusionsmetod
och horisontens placering k¨and. En ny vinkel φ kan d¨arf¨or associeras med korrekt rad i IR-bilden genom att transformera vinkelavvikelsen till radavvikelser. IR-bilden sp¨anner ¨over 7, 5◦ och 240 pixlar i h¨ojdled. Ovanst˚ aende samband ger d˚ a: △row = round(
240 (φ − φhor )) 7, 5
(4.7)
△row beskriver p˚ a vilken rad relativt horisonten en given rad i radarbilden ska projiceras.
4.4.2
IR till radar
F¨or den omv¨anda projiceringen fr˚ an IR-vyn till radarvyn utnyttjas samma id´eer som f¨or radar till IR fallet. Enligt ovan ber¨aknas hur en specifik rad i radarbilden f¨orh˚ aller sig till IR-bilden. Avrundning i ekvation (4.7) slopas och radarraden ber¨aknas som ett viktat medelv¨arde av de tv˚ a n¨arliggande IR-raderna, se ekvation (4.8). 240 (φ − φhor ) 7, 5 = ⌊irrad ⌋
△rad =
, irrad = △rad + horisontrad
irlag ˙
, irh¨og = ⌈irrad ⌉
viktlag ˙ = irh¨ og − irrad radarrad = viktlag ˙ irlag ˙ + vikth¨ og irh¨ og
, vikth¨og = irrad − irlag ˙
(4.8)
Vikterna beror p˚ a hur l˚ angt v¨ardet ligger fr˚ an vardera n¨arliggande rad, mer viktas in fr˚ an den n¨armsta n¨arliggande raden och en interpolerad projicering f˚ as. Interpolering anv¨ands d˚ a det oftast ¨ar ett mindre antal rader i IR-bilden vilka projiceras p˚ a ett st¨orre antal rader i radarrymden. Figur 4.5 visar ett exempel d˚ a projiceringen applicerats p˚ a radar- respektive IR-bilden.
4.5
Fusion av bilderna
N¨ ar allt f¨orarbete ¨ar genomf¨ort kan bilderna fusioneras. D˚ a de fyra bilderna, se figur 4.5, ¨ar tv˚ adimensionella bilder, och de som ska fusioneras delar samma rymd, kan ”vanliga” metoder f¨or fusionering appliceras. De fusioneringsmetoder som testats bygger n¨astan alla p˚ a wavelettransformen och ¨ar delvis beskrivna i kapitel 3.4.1, se a¨ven kapitel 2.5.4 f¨or mer information ang˚ aende waveletfusion. En av fusionmetoderna anv¨ander dock fuzzyfunktionen.
4.5.1
Diskussion
Det kan diskuteras vilken sorts fusionmetod som ¨ar aktuell f¨or problemet. M˚ anga faktorer p˚ averkar valet: om alla m˚ al ska hittas eller endast de m˚ al som ¨ar synliga i b˚ ada sensorerna och sensoruppst¨allningen. F¨or att finna alla m˚ al m˚ aste en linj¨arkombination mellan de olika rymderna utf¨oras. Om man d¨aremot endast
4.5 Fusion av bilderna
31
20 40 50 60 80 100
100 120 140
150 160 180 200
200 220
50
100
150
200
250
300
50
100
(a) 800
800
700
700
600
600
500
500
400
400
300
300
200
200
100
100
50
100
150
(c)
150
200
250
300
200
250
300
(b)
200
250
300
50
100
150
(d)
Figur 4.5. (a) Den ursprungliga IR-bilden, (b) radarbilden mappad till IR-rymden, (c) ursprunglig radarbild, (d) IR-bilden mappad till radarrymden.
vill finna det gemensamma i sensorerna skulle en multiplikation fungera b¨attre. Det st¨orsta problemet uppst˚ ar fr˚ an sensoruppst¨allningen. D˚ a sensorerna inte ¨ar ensade (den optiska axeln f¨or IR-sensorn och radarantennens pekriktning (axel) sammanfaller inte) eller den vinkel axlarna ¨ar s¨arskilda med ¨ar os¨aker uppst˚ ar en rad problem. Os¨akerheten medf¨or sv˚ arigheter d˚ a sm˚ a fel i riktningen hos sensorn om¨ojligg¨or projiceringen. Os¨akerheten medf¨or att en linj¨arkombination b¨or v¨aljas d˚ a det kan h¨anda att projiceringen misslyckas och att det d¨arf¨or endast finns data tillg¨angliga fr˚ an en av sensorerna. En annan tanke uppst˚ ar ur de skilda betydelser intensiteterna i de b˚ ada bilderna har. En linj¨arkombination fungerar utm¨arkt om endast starka intensiteter anses intressanta. Men om man fortfarande vill avg¨ora m˚ alens v¨arme och reflektion f¨orst¨ors dessa attribut vid fusionen. I ett s˚ adant fall m˚ aste bilderna ¨overlagras s˚ a att all information fortfarande finns tillg¨anglig. Detta skulle ocks˚ a g¨ora det m¨ojligt att utveckla en smart extraktor som arbetar p˚ a de ¨overlagrade bilderna. Extraktorn
32
En 2D-fusionsmetod
skulle kunna styras f¨or att plocka fram ¨onskade egenskaper ur bilderna som t.ex. varma m˚ al med liten reflektion. I detta fallet ger oss projiceringen en ¨okad f¨orst˚ alse av sambanden mellan de tv˚ a rymderna som kan uttnyttjas vid attributextraheringen.
4.5.2
F¨ oruts¨ attningar
F¨ or att enklare kunna beskriva metoderna namnges de fyra bilderna. IR-bilden ben¨amns ir1 , radar-bilden: ra1 , den radar till IR projicerade bilden ir2 och den sista IR till radar projicerade bilden ra2 . H¨ar ska allts˚ a ir1 och ir2 , samt ra1 och ra2 fusioneras. Wavelettransformeringen W av bilderna sker i tv˚ a steg och ger f¨oljande uppdelning, se ¨aven figur 2.15. LL2 , HL2 etc. definieras enligt avsnitt 2.5.4 W(ini ) ⇒ [ini,LL2 ini,HL2 ini,LH2 ini,HH2 ini,HL1 ini,LH1 ini,HH1 ]
d¨ ar ini ∈ {ir1 , ir2 , ra1 , ra2 }
(4.9)
Om en allm¨an fusionsmetod betecknas F, kan F appliceras p˚ a alla de uppdelade bilderna. De fusionerade bilderna betecknas ir samt ra. Ekvation (4.10) beskriver fusionen av IR-bilderna. Fusion utf¨ors analogt i radarrymden. irLL2 = F(ir1,LL2 , ir2,LL2 ) ... irHH1 = F(ir1,HH1 , ir2,HH1 )
(4.10)
Det slutliga resultatet erh˚ alls genom att inverstransformera den fusionerad waveletuppdelningen enligt: ir = W −1 (irLL2 irHL2 irLH2 irHH2 irHL1 irLH1 irHH1 )
ra = W −1 (raLL2 raHL2 raLH2 raHH2 raHL1 raLH1 raHH1 )
4.5.3
(4.11)
Fusion
En rad olika fusionsmetoder F testas och utv¨arderas i detta avsnitt. Resultaten av de olika fusionsmetoderna skiljer sig mycket fr˚ an varandra. Vad som efterstr¨avas ¨ar att alla objekt ska vara s˚ a ”starka” som m¨ojligt och konturer ska vara v¨al bevarade. Starka intensiteter ¨ar intressanta, d˚ a b˚ ade IR-kameran och radarn genererar h¨oga intensiteter f¨or intressanta fenomen (v¨arme och stor reflektion). Objekt som endast syns i en av sensorerna ska fortfarande finnas representerad i motsvarande bild. Det b¨or ocks˚ a vara l¨att att avg¨ora vilka objekt som h¨or ihop med varandra i vardera rymd. Alla bilder som fusioneras ¨ar normerade med intensiteter mellan 0 och 1. Maximal intensitet, MS Som n¨amndes ovan ¨ar h¨oga intensiteter intressanta egenskaper i bilden. Att v¨alja den maximala intensiteten ur bilderna skulle d¨arf¨or kunna generera informationsrika bilder. Pixelv¨ardet i utbilden s¨atts till den maximala av de tv˚ a motsvarande pixelv¨ardena i inbilderna. V¨arden i radar- och IR-bilderna j¨amf¨ors allts˚ a mot
4.5 Fusion av bilderna
33
varandra och behandlas lika. irWk (i, j) = ir1,Wk (i, j) irWk (i, j) = ir2,Wk (i, j)
om ir1,Wk (i, j) ≥ ir2,Wk (i, j) f.¨ o.
(4.12)
f o¨r alla delband k Figur 4.6 visar d˚ a denna enkla metod applicerats p˚ a bilderna i figur 4.5. 800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.6. (a) Fusion i IR-rymden med MS-metoden, (b) samma fusion i radarrymden.
Maximal energi i en omgivning, MS-WB-E Ist¨allet f¨or att v¨alja den maximala intensiteten, kan man l˚ ata energin i en omgivning kring pixeln avg¨ora vilken av de tv˚ a aktuella pixlarna som ska v¨aljas. Den pixel med h¨ ogst energi i sin omgivning anses mest intressant. En f¨ordel med tillv¨agag˚ angs¨attet relativt MS ¨ar att utbilden blir mindre k¨anslig mot brustoppar i inbilderna. Ett intressant objekt ¨ar ocks˚ a oftast st¨orre ¨an en pixel och energin beskriver detta b¨ attre. Omgivningens storlek har valts till 5 × 5 pixlar. sX sX 2 2 ir1,Wk (i, j), E2,Wk = ir2,W (i, j) E1,Wk = k i,j
irWk (i, j) = ir1,Wk (i, j) irWk (i, j) = ir2,Wk (i, j)
i,j
om E1,Wk ≥ E2,Wk f.¨ o.
(4.13)
f o¨r alla delband k Figur 4.7 visar resultatet av metoden. Maximal varians i en omgivning, MS-WB-V Ett m˚ al skiljer sig oftast fr˚ an sin omgivning. Variationer i en omgivning kring en pixel kan d¨arf¨or vara ett intressant aktivitetsm˚ att. Variationer kan beskrivas med
34
En 2D-fusionsmetod 800
20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.7. (a) Fusion i IR-rymden med MS-WB-E-metoden, (b) samma fusion i radarrymden.
varians. Den pixel med st¨orst omgivande varians anses mest intressant och v¨aljes som utpixel. Nackdelen j¨amf¨ort med energi- och intensitets- metoderna ¨ar att ingen h¨ansyn tas till pixelns intensitet. Omgivningen i vilket variansen ber¨aknas skiljer sig mellan radar- och IR-rymden d˚ a m˚ alens form och storlek varierar. Eftersom samma storlek p˚ a omgivningen anv¨ands ¨over hela bilden kommer m˚ al med en viss storlek att favoriseras. Variansen blir h¨ogst f¨or sm˚ a m˚ al. Om variansen betecknas med σ 2 f˚ as f¨oljande algoritm: irWk (i, j) = ir1,Wk (i, j)
om
irWk (i, j) = ir2,Wk (i, j) f o¨r alla delband k
f.¨ o.
2 2 σir ≥ σir 1,W 2,W k
k
(4.14)
Figur 4.8 visar att variansen inte alls l¨ampar sig f¨or till¨ampningen. Konturer kring objekten f¨orst¨ors och bilderna ser ¨overlag skr¨apiga ut. F¨orklaringen ¨ar att variansen endast blir stor i kanterna p˚ a stora m˚ al. Viktat medelv¨ arde av intensiteter, WA Valet av maximala v¨arden kan anses selektivt d˚ a egenskaper fr˚ an b˚ ada bilderna b¨ or synas i utresultatet. Ist¨allet f¨or att v¨alja den h¨ogsta intensiteten kan de b˚ ada pixlarna viktas ihop. En viktning av de b˚ ada b¨or ocks˚ a bevara konturerna. Utpixeln blir en linj¨arkombination av de tv˚ a inpixlarna, d¨ar linj¨arkombinationen best¨ams av k1 och k2 . Konstanterna kan anpassas till problemet f¨or att framh¨ava ¨onskade egenskaper. D˚ a intressanta v¨arden i b˚ ada inbilderna representeras av h¨oga v¨arden (ett), b¨or metoden fungera tillfredsst¨allande. Tv˚ a intensiteter som anses intressanta ”sl¨acker” d¨arf¨or inte ut varandra. irWk (i, j) = k1 ir1,Wk (i, j) + k2 ir2,Wk (i, j) f o¨r alla delband k
(4.15)
4.5 Fusion av bilderna
35 800
20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.8. (a) Fusion i IR-rymden med MS-WB-V-metoden, (b) samma fusion i radarrymden.
Figur 4.9 visar ett viktat medelv¨arde, med k1 = 0, 7 och k2 = 0, 3. Med dessa konstanter blir IR-kamerans h¨ ogre b¨aringuppl¨osning mer favoriserad. Dessutom framkommer konturerna hos objekten mer ¨an med t.ex. k1 = 0, 5 och k2 = 0, 5. 800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
(a)
200
250
300
50
100
150
200
250
300
(b)
Figur 4.9. (a) Fusion i IR-rymden med WA-metoden, (b) samma fusion i radarrymden.
Viktat medelv¨ arde med energin i en omgivning, WA-WB-E Som beskrivits tidigare (MS-WB-E) kan energin i omgivning vara av intresse. Om man l˚ ater E1 och E2 beskriva omgivningens energier kan en linj¨arkombination enligt ekvation (4.16) appliceras. Vikterna viktar bilderna utefter hur stor energin ¨ar i vardera omgivning kring pixlarna relativt den totala energin i de tv˚ a omgivningarna. Om 20% av energin finns i IR-omgivningen utg¨or IR-intensiteten 20% av det
36
En 2D-fusionsmetod
fusionerade v¨ardet. sX 2 E1,Wk = ir1,W (i, j), k
E2,Wk =
i,j
sX
2 ir2,W (i, j) k
i,j
E1,Wk E2,Wk irWk (i, j) = ir1,Wk (i, j) + ir2,Wk (i, j) E1,Wk + E2,Wk E1,Wk + E2,Wk
(4.16)
f o¨r alla delband k I resultatet i figur 4.10 kan man se att konturer blivit utsmetade relativt WAmetoden. Eftersom n¨arliggande pixlar p˚ averkar varandras vikter kan fusionen beskrivas som en WA d¨ar resultatet l˚ agpassfiltrerats. 800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
150
(a)
200
250
300
(b)
Figur 4.10. (a) Fusion i IR-rymden med WA-WB-E-metoden, (b) samma fusion i radarrymden.
Viktat medelv¨ arde med varianser i en omgivning, WA-WB-V Slutligen testas ¨aven ett viktat medelv¨arde med varianser. Varianserna i omgivningar kring inpixlarna avg¨or vikterna i linj¨arkombinationen enligt: irWk (i, j) =
2 σir 1,W
k
2 2 + σir σir 2,W 1,W k
ir1,Wk (i, j) +
k
2 σir 2,W
k
2 2 + σir σir 2,W 1,W k
ir2,Wk (i, j)
(4.17)
k
f o¨r alla delband k Vikterna har valts med samma tanke som energiviktningen i WA-WB-E. Figur 4.11 visar resultatet av metoden. Resultatet blir b¨attre ¨an d˚ a MS-WB-V appliceras men konturerna undertrycks fortfarande till stor del. Principalkomponentanalys , PCA-WB Trots resultaten av tidigare variansmetoder testas principalkomponentanalys, PCA. Metoden finner den linj¨arkombination av pixlarna s˚ a att variansen i utbilden maxi-
4.5 Fusion av bilderna
37 800
20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.11. (a) Fusion i IR-rymden med WA-WB-V metoden, (b) samma fusion i radarrymden.
meras. PCA-metoden ¨ar en lokal PCA d˚ a variansen ber¨aknas i en omgivning kring pixlarna, typiskt 5 × 5 pixlar stor. Se 2.5.1 f¨or mer teori ang˚ aende PCA och viktade medelv¨arden. PCA inneb¨ar att viktskoefficienterna best¨ams av egenvektorn till det st¨ orsta egenv¨ardet av kovariansmatrisen. Vid lokal PCA ber¨aknas kovariansmatrisen ut f¨or den lokala omgivningen. irWk (i, j) = pca(ir1,Wk (i, j), ir2,Wk (i, j))
(4.18)
f o¨r alla delband k Figur 4.12 visar resultatet av metoden. Som f¨or de tidigare variansmetoderna har m˚ anga av de intressanta egenskaperna f¨orsvunnit i den fusionerade bilden. Det g˚ ar inte alls urskilja b˚ aten i n˚ agon av de tv˚ a vyerna. Slutsatsen blir att variansen inte l¨ampar sig som aktivitetsm˚ att f¨or den aktuella till¨ampningen.
Fuzzyfusion Fuzzymetoden skiljer sig v¨asentligt fr˚ an ovanst˚ aende waveletbaserade metoder, se kapitel 2.5.3. En linj¨arkombination av inbilderna skapas d¨ar vikterna best¨ams av en fuzzyfunktion. Parametrarna som styr utseendet hos fuzzyfunktionen har valts till mean = 1, spread = 1, 5 och power = 4. Intresset f¨or en pixel ber¨aknas som summan av skillnaden mellan centrumpixeln och alla omkringliggande pixlar i en omgivning. Till skillnad fr˚ an tidigare har ingen waveletuppdelning anv¨ants d˚ a det visat sig fungera b¨attre utan en s˚ adan. Det har varit sv˚ art att best¨amma de olika parametrarna specifika f¨or de olika niv˚ aerna. Resultatet ses i figur 4.13. De fusionerade bilderna liknar resultatet f¨or de tidigare presenterade WA-metoderna.
38
En 2D-fusionsmetod 800
20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.12. (a) Fusion i IR-rymden med PCA-WB-metoden, (b) samma fusion i radarrymden. 800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 4.13. (a) Fusion i IR-rymden med fuzzymetoden, (b) samma fusion i radarrymden.
4.6
Metoden i en sammanfattning
Den ovan beskrivna tv˚ adimensionella metoden sammanfattas h¨ar i en mer kompakt form. Fuzzymetoden skiljer sig dock d˚ a ingen waveletuppdelning anv¨ants vid fusionen. 1. Metoden startar med tv˚ a bilder. En infrar¨od bild och en radarbild. 2. Radarbilden normaliseras lokalt om ett m˚ al finns representerat i den lokala omgivningen. Detta g¨ ors f¨or att underl¨atta perceptionstestet. IR-bilden kontrastf¨orst¨arks. 3. Radarbilden projiceras till IR-rymden och IR-bilden till radarrymden. Totalt finns nu fyra stycken bilder. De bilder som delar samma rymd ska fusioneras.
4.7 Resultat
39
4. P˚ a de fyra bilderna appliceras wavelettransformen. Uppdelningen utf¨ors i tv˚ a steg men antalet steg kan utan problem justeras. Tv˚ a steg anses ”lagom” i detta fall d˚ a en vidare uppdelning inte visat sig bidra med s˚ a mycket information. 5. De transformerade bilderna fusioneras med en fusionsmetod F. Det finns m¨angder av varianter p˚ a F och en del finns presenterade ovan. 6. De tv˚ a fusionerade uppdelningarna inverstransformeras f¨or att ge det slutliga fusionerade resultatet. Utdata blir allts˚ a tv˚ a stycken bilder, en i IR-vyn och en i radarvyn.
4.7
Resultat
Resultaten fr˚ an de ovan presenterade fusionsmetoderna skiljer sig fr˚ an varandra. D˚ a ingen referensbild finns att tillg˚ a f¨or hur det borde se ut, sker utv¨arderingen ¨ med perceptionstest. Overlag f˚ as resultat d¨ar det blir v¨aldigt enkelt att f¨orknippa tv˚ a objekt i skilda rymder med varandra. Kunskaperna om ett m˚ al kan d¨armed f¨orb¨attras d˚ a h¨ojdvinkel och b¨aring kan best¨ammas ur IR-rymdens bild och avst˚ andet i radarrymden. Detta f¨oruts¨atter f¨orst˚ as att m˚ alen finns representerade i b˚ ada bilderna. Information om m˚ al endast synliga i en av bilderna kan dock inte ut¨okas. Antingen kan man best¨amma h¨ojdvinkel och b¨aring eller b¨aring och avst˚ and beroende i vilken sensor m˚ alet finns. Tre av metoderna kan direkt f¨ orkastas, n¨amligen de som anv¨ander variansen som aktivitetsm˚ att. MS-WB-V, WA-WB-V samt PCA-WB ger alla ett resultat d¨ar en stor del av informationen ang˚ aende objekten har f¨orsvunnit. Den b¨asta av dessa tre var WA-WB-V. Metoderna f¨orkastas d˚ a det ¨ar viktigt att konturerna bevaras och objekt som endast ¨ar synliga i den ena sensorn fortfarande finns representerade. Eftersom mycket ¨ar f¨orst¨ort i utdata blir det ocks˚ a sv˚ art att avg¨ora vilka objekt som h¨or ihop med varandra. F¨orklaringen till det d˚ aliga resultatet ¨ar att variansm˚ attet b¨ast passar m˚ al av liten storlek. I bilderna ¨ar m˚ alen relativt stora och variansen ger endast bra m˚ att kring kanterna. Variansen medf¨or ocks˚ a att radarn kommer f˚ a en st¨orre viktning d˚ a m˚ alens utbredning i avst˚ andsled ¨ar liten. De ¨ovriga fem metoderna, vilka bygger p˚ a energier, intensiteter och fuzzyfunktioner, fungerar ¨overlag bra. De metoder d¨ar ”maximum selection” anv¨ands kan dock f˚ a konturerna f¨orst¨orda kring vissa omr˚ aden. MS-WB-E klarade sig b¨ast av dessa d˚ a den tar h¨ansyn till pixlarnas omgivningar. Den enligt utv¨arderingen med b¨asta resultatet f˚ as av den relativt simpla metoden ”viktat medelv¨arde av intensiterna”. I det fusionerade resultatet finns b˚ ade konturer och ensamma objekt representerade, se figur 4.9. Ett liknande resultat ges av WA-WB-E och fuzzymetoden. Samtliga dessa metoder viktar radar- och IR-bilden mer lika. Resultatet visar att mer viktning av IR-bilden fungerar v¨al.
40
En 2D-fusionsmetod
En tidigare tanke ¨ar att inte anv¨anda de fusionerade bilderna f¨or fortsatt processering utan endast som komplement f¨or att ge information om vilka objekt i de respektive bilderna som h¨or ihop. I ett s˚ adant fall beh¨over man inte i samma grad bry sig om att bevara konturerna d˚ a dessa alltid finns kvar i ursprungsbilderna.
Kapitel 5
En 3D-fusionsmetod I f¨oljande kapitel beskrivs en metod som utvecklats under examensarbetets g˚ ang d¨ar grundid´en kommer fr˚ an artikeln [2] som beskrivs i kapitel 3.2. Radar- och IR-bilden best˚ ar av totalt tre dimensioner. En volym uppsp¨and av dessa kan representera all given information i ursprungsbilderna. Nackdelen med den ovan n¨amnda artikel andsinformation. D˚ a den aktuella radarn ¨aven ¨ar att radarn antogs endast ge avst˚ ger information i b¨aring kan fusionen av bilderna f¨orb¨attras. Fusionsmetoderna i kapitel 4.5.3 kan appliceras p˚ a den gemensamma dimensionen med skillnaden att ett endimensionellt problem f˚ as. En nackdel med en tredimensionell volym blir s˚ aklart dess storlek vilken avsev¨art aste ¨okar ber¨akningsb¨ordan. Attributextrahering vilket ska ske efter fusionen m˚ ocks˚ a kunna arbeta p˚ a tredimensionella volymer. Senare i kapitlet presenteras ett fall d¨ar best¨amningen av m¨ojliga m˚ al i volymen inte blir entydigt. Till exempel kan ett fall med tv˚ a m˚ al p˚ a samma b¨aring ge upphov till fyra m¨ojliga m˚ al i volymen. Problemet kan l¨osas om avst˚ andsinformation finns tillg¨anglig fr˚ an IR-kameran. Tv˚ a f¨orslag redovisas, bland annat utnyttjas den tidigare id´en ”finna horisonten”. En mer generell variant unders¨oks ocks˚ a d¨ar stereoseende anv¨ands. Tv˚ a TV-kameror ger via stereoseende den djupinformation som kr¨avs och en fusionsmetod f¨or fallet presenteras.
5.1
F¨ oruts¨ attningar
Metoderna utg˚ ar fr˚ an samma f¨ oruts¨attningar som tidigare d˚ a en radarbild och en IR-bild fanns tillg¨angliga. Bilderna delar en gemensam dimension, b¨aring, dock med olika uppl¨osning, se kapitel 4.1. Vinkelutbredningen och antalet pixlar i b¨aring ¨ar densamma. I den stereobaserade metoden kommer ytterligare en kamerabild finnas tillg¨anglig. Bilderna f¨or stereometoden ¨ar tagna med en TV-kamera ist¨allet f¨or en IR-kamera. F¨or att efterlikna IR-kameran med hj¨alp av TV-kameran har ljusa m˚ al 41
42
En 3D-fusionsmetod
anv¨ants. P˚ a s˚ a s¨att kommer intressanta fenomen i TV-bilden likna de varma m˚ alen i IR-kameran. Metoden borde d¨arf¨or fungera likv¨ardigt p˚ a IR-bilder.
5.2
F¨ orb¨ attringar
Inbilderna bearbetas oftast innan sj¨alva fusioneringen. Dock ¨ar det inte helt entydigt hur de ska f¨orb¨attras. Egentligen beror det p˚ a vad som finns representerat i bilden fr˚ an b¨orjan. I m˚ anga fall har m¨atdata varit ¨over b˚ atar ute p˚ a havet och i detta fallet ¨ar bilderna relativt ”rena”. Det har d˚ a fungerat bra att lokalt normalisera bilderna s˚ asom gjordes i kapitel 4.2. M¨atdata genererat i J¨arf¨alla med en mmwradar inneh˚ aller vyer av vanliga naturmilj¨oer och d˚ a dessa inneh˚ aller avsev¨art fler objekt och detaljer fungerar det b¨ast att l˚ ata bilden vara i sin ursprungliga form. En f¨orb¨attring f¨orst¨or i detta fallet tydligheten i bilden d˚ a perceptionstestet ska utf¨oras. Se ¨aven diskussionen i kapitel 4.2.1. Med TV-bilderna fungerar det oftast b¨ast att applicera en kontrastf¨orst¨arkning. Kontrastf¨orst¨arkningen inneb¨ar att vissa frekvensband viktas upp. Speciellt visade det ge ett klart f¨orb¨attrat disparitetsestimat fr˚ an stereoalgoritmen. Det visade sig ocks˚ a att en histogramutj¨amning av bilderna kan vara ¨onskv¨art. Histogramutj¨amningen framh¨aver fler kontraster i bilden, se bland annat gr¨aset. Figur 5.1 visar en kontrastf¨orst¨arkt och histogramutj¨amnad TV-bild.
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
(a)
50
100
150
200
250
300
350
400
450
500
(b)
Figur 5.1. (a) En TV-kamera bild, (b) f¨ orb¨ attrad med kontrastf¨ orst¨ arkning och histogramutj¨ amning.
5.3
Fusion till en 3D-volym
Det finns totalt tre dimensioner representerade i radar- och IR-bilderna. Den gemensamma dimensionen b¨aring ska fusioneras endimensionellt och en 3D-volym
5.3 Fusion till en 3D-volym
43
genereras. Sj¨alvklart finns mycket redundant och konstant information i den fusionerade volymen d˚ a tv˚ a bilder inte fullt kan fylla ut volymen. Som figur 5.2 visar
IR Av st˚ an d
H¨ojdvinkel
3D-volym
B¨aring
Radar
B¨aring
Figur 5.2. Schematisk bild ¨ over fusion till en 3D-volym.
fusioneras vardera rad i IR-bilden med alla rader i radarn en efter en. Den fusionerade raden placeras p˚ a motsvarande plats i volymen. T.ex. en rad med h¨ojdvinkel θ och avst˚ and r placeras p˚ a plats (θ, :, r) i volymen. N¨ ar resultatet f¨or en specifik fusionsmetod ska presenteras anv¨ands tv˚ a vyer. Vyerna kan ses i figur 5.3. Vy 1 har samma dimensioner som IR-bilden och sp¨anns upp av b¨aring och h¨ojdvinkel f¨or ett fast avst˚ and i volymen. Vy 2 sk¨ars ut f¨or en fast b¨aring och sp¨anns upp av h¨ojdvinkel och avst˚ and.
Vy 2
Av st˚ and
Vy 1
H¨ ojdvinkel
Vy 2
H¨ ojdvinkel
Vy 1
B¨aring Figur 5.3. Beskriver de tv˚ a vyerna f¨ or att presentera bilder ur volymen.
5.3.1
Fusion
Hur g˚ ar d˚ a den endimensionella fusionen till? Egentligen skiljer sig inget fr˚ an metoderna presenterade i kapitel 4.5. Enda skillnaden ¨ar att waveletuppdelningen av bilderna nu slopas, ist¨allet appliceras fusionsmetoderna direkt p˚ a de tv˚ a aktuella
44
En 3D-fusionsmetod
raderna. Fusionsmetoderna har i samtliga fall applicerats p˚ a bilderna i figur 5.4. Eftersom samtliga fusionsmetoder beskrivits tidigare f¨oljer endast en uppradning av 800 20 700
40 60
600
80 500
100 120
400
140 300 160 180
200
200 100 220
50
100
150
200
250
300
50
100
(a)
150
200
250
300
(b)
Figur 5.4. (a) IR-bilden, (b) radarbilden.
resultaten utan ytterligare beskrivning. F¨orst redovisas resultaten av fusionen baserad p˚ a ”maximum selection”, MS. Efter det resultatet av de baserade p˚ a ett viktat medelv¨arde, WA, och sist en ”fuzzymetod”. Kapitlet inneh˚ aller en stor m¨angd bilder eftersom det ¨ar sv˚ art att presentera hela volymen p˚ a ett presentabelt s¨att. Maximal intensitet, MS En voxel i volymen f˚ ar v¨ardet av den maximala intensiteten av de tv˚ a motsvarande pixlarna i inraderna. Figur 5.5 visar resultatet av metoden. Figur 5.5(a) visar en bild ur volymen p˚ a ett avst˚ and d¨ar ingen b˚ at befinner sig, dvs radarn har inte f¨orst¨arkt n˚ agon del av bilden. Figur 5.5(b) d¨aremot visar en bild f¨or det avst˚ andet som den h¨ogra b˚ aten befinner sig p˚ a, man kan se hur radarekot f¨orst¨arker b˚ aten. L¨agg ¨aven m¨arke till utsmetning som f˚ as i h¨ojdled, detta eftersom ingen h¨ ojdinformation finns i radarn. Dock ses nackdelen med fusionsmetoden d˚ a samtliga konturer fr˚ an det ursprungliga objektet ¨ar f¨orsvunna. De tv˚ a undre bilderna aten befinner sig ¨ar i vy 2. Figur 5.5(c) ¨ar f¨or samma b¨aring som den v¨anstra b˚ p˚ a. Eftersom ingen avst˚ andsinformation finns i avst˚ andsled i IR-kameran f˚ as ett l˚ angt horisontellt streck l¨angs volymen. Det svaga vertikala strecket vid avst˚ and 415 kommer fr˚ an radarekot f¨or den h¨ogra b˚ aten och borde allts˚ a inte finnas d¨ar men blir oundvikligt d˚ a radarn har en s¨amre b¨aringuppl¨osning a¨n IR-kameran. I figur 5.5(d) ses en utsk¨arning genom den h¨ogra b˚ aten. D¨ar f˚ as ett distinkt kors eftersom b˚ ade radar- och IR-bilden f¨orst¨arkt varandra. Maximal energi i en omgivning, MS-WB-E Ist¨allet f¨or att j¨amf¨ora intensiteterna j¨amf¨ors energin i en omgivning omkring pixlarna. Resultatet skiljer sig inte mycket fr˚ an den liknande metoden MS, se figur 5.6.
5.3 Fusion till en 3D-volym
45
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
200
250
300
(b)
500
600
700
800
100
(c)
200
300
400
500
600
700
800
(d)
Figur 5.5. MS: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
Dock har en del av det falska korset i bild 5.5(c) f¨orsvunnit. Detta eftersom den ensamma b˚ aten ger ett h¨ogre svar i en omgivning omkring b˚ aten ¨an radarsvaret tillh¨orande den andra b˚ aten. Fortfarande f¨orst¨ors alla konturer i bilden d˚ a radarn f¨orst¨arker svaret. Maximal varians i en omgivning, MS-WB-V Variansen i en omgivning kring inradernas pixlar j¨amf¨ors. Den pixel med maximal ¨ varians i sin omgivning v¨aljes. Aven i detta fallet p˚ aminner resultatet mycket om MS och MS-WB-E, se figur 5.7. Fortfarande a¨r konturerna hos b˚ aten f¨orst¨orda. Viktat medelv¨ arde av intensiteter, WA Ett enkelt viktat medelv¨arde av inraderna ber¨aknas. B˚ ada de aktuella pixlarna viktas in med samma vikt, se figur 5.8. Fortfarande syns i vy 2 de distinkta korsen
46
En 3D-fusionsmetod
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
(c)
200
250
300
(b)
500
600
700
800
100
200
300
400
500
600
700
800
(d)
Figur 5.6. MS-WB-E: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
med ett maximum mitt i. I vy 1 framh¨avs konturerna av b˚ aten samtidigt som den blivit f¨orst¨arkt av radarn vid det aktuella avst˚ andet. Viktat medelv¨ arde med energi i en omgivning, WA-WB-E ˚ Aterigen anv¨ands energierna men nu anv¨ands de som vikter i fusionen. Som i alla de tidigare redovisade metoderna syns tydliga kors i vy 2. Man kan ¨aven urskilja konturerna i vy 1 men dock inte lika tydligt som f¨or WA. Figur 5.9 visar resultatet av fusionen. Viktat medelv¨ arde med varianser i en omgivning, WA-WB-V Ett viktat medelv¨arde appliceras d¨ar vikten best¨ams av varianserna i en omgivning kring pixlarna. Resultatet, se figur 5.10, blir v¨aldigt likt WA-WB-E.
5.3 Fusion till en 3D-volym
47
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
200
250
300
(b)
500
600
700
800
100
200
(c)
300
400
500
600
700
800
(d)
Figur 5.7. MS-WB-V: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
Fuzzyfusion Fuzzyid´en vilken skiljer sig en aning fr˚ an ovanst˚ aende metoder ger ¨aven den ett resultat mycket likt de medelv¨ardesbaserade metoderna. Resultatet kan ses i figur 5.11.
5.3.2
H¨ ansyn till horisontens placering
Det finns sv˚ arare fall av m¨atdata d˚ a ingen av ovanst˚ aende metoder kan representera m˚ alen korrekt. Problemet uppkommer d˚ a endast en gemensam dimension finns i ursprungsbilderna. I de tv˚ a andra dimensionerna h¨ojdvinkel samt avst˚ and best¨ams fusion endast av en av de tv˚ a inbilderna. I figur 5.12 ses ett sv˚ art fall och resultatet fr˚ an en WA fusion redovisas. I figur 5.12(a) ligger den fr¨amre stora b˚ aten och en liten b˚ at l¨angre bort p˚ a samma b¨aring. I figur 5.12(c) ser vi att d˚ a radarn f¨orst¨arker det fr¨amre m˚ alet kommer ¨aven den bakre f¨orst¨arkas med samma faktor. Effekten
48
En 3D-fusionsmetod
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
(c)
200
250
300
(b)
500
600
700
800
100
200
300
400
500
600
700
800
(d)
Figur 5.8. WA: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
ses i figur 5.12(d), ist¨allet f¨or 2 kors f˚ as fyra stycken svar. Hur ska man veta vilka tv˚ a svar som ¨ar de korrekta? Problemet kan l¨osas om det ur IR-bilden kan f˚ as avst˚ andsinformation ang˚ aende m˚ alen. I f¨oljande avsnitt redovisas en metod f¨or att delvis l¨osa problemet. Metoden ¨ar dessv¨arre mycket tillr¨attalagt f¨or liknande fall. I n¨asta avsnitt redovisas en mer generell l¨osning p˚ a problemet. I avsnitt 4.3 beskrivs en metod f¨or att finna horisonten. Metoden kan i det aktuella fallet ge oss en viss avst˚ andsinformation. Eftersom b˚ atarna ligger i ett plan m˚ aste en b˚ at h¨ogre upp i bilden ligga l¨angre bort ¨an en l¨angre ned. N¨ar en rad i IR-bilden ska fusioneras med radarn anv¨ands horisonten f¨or att avg¨ora till vart det aktuella radaravst˚ andet h¨arr¨or i IR-bilden. Kring raden ber¨aknas en viktning som avtar linj¨art i h¨ojdled. Det b¨or till¨aggas att avst˚ andsuppl¨osningen som f˚ as inte alls kan m¨ata sig med radarns uppl¨osning. T.ex d˚ a ett avst˚ and kring 9000 meter ska mappas till IR-vyn f˚ as en f¨ors¨amring i uppl¨osningen p˚ a ca 50 ggr. Allts˚ a kommer 50
5.4 Fusion med stereoseende
49
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
200
250
300
(b)
500
600
700
800
(c)
100
200
300
400
500
600
700
800
(d)
Figur 5.9. WA-WB-E: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
avst˚ andsrader i radarn att mappas till samma rad i IR-bilden. F¨or kortare avst˚ and blir uppl¨osningen n˚ agot b¨attre men det blir ¨annu s¨amre f¨or l¨angre avst˚ and. Figur 5.13 visar resultatet d˚ a vikten applicerats p˚ a bilderna i figur 5.12. Tyv¨arr syns inte den verkliga effekten s˚ a tydligt i svartvitt. Att radarns f¨orst¨arkning inte ¨ar lika stor p˚ a alla h¨ojder, ses p˚ a den mer elliptiska formen i vy 1. I figur 5.13(c) kan skillnaden ocks˚ a urskiljas, dock ¨ar det fortfarande inte helt enkelt att avg¨ora vilket kors som h¨or till vilken b˚ at.
5.4
Fusion med stereoseende
I f¨oljande kapitel redovisas en fusionsmetod som utnyttjar tillg¨anglig djupdata fr˚ an TV-bilderna. Metoden anv¨ander sig av stereoseendeteorin beskriven i kapitel 2.3. De tv˚ a TV-bilderna ¨ar tagna med tv˚ a kameror s¨arskilda i sidled. Att estimera en bra djupbild fr˚ an ett stereopar kr¨aver en del f¨orarbete. Innan en stereoal-
50
En 3D-fusionsmetod
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
200
250
300
(b)
500
(c)
600
700
800
100
200
300
400
500
600
700
800
(d)
Figur 5.10. WA-WB-V: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
goritm kan appliceras m˚ aste bilderna registreras. Registreringen inneb¨ar att den ena bilden transformeras s˚ a endast en horisontell f¨orflyttning finns mellan h¨oger och v¨anster bild. De estimerade dispariteterna m˚ aste ocks˚ a transformeras till en djupbild. Egentligen tillh¨or registreringen inte metoden utan ¨ar n˚ agot som m˚ aste utf¨oras d˚ a sensoruppst¨allningen inte varit kalibrerad under m¨atningarna. I vanliga fall kalibreras systemet innan anv¨andning och d˚ a beh¨over bildregistreringen inte genomf¨oras.
5.4.1
Stereoseende
Bildregistrering Innan stereoalgoritmen kan appliceras p˚ a stereoparet m˚ aste bilderna registreras. Det inneb¨ar att finna den affina transformation som transformerar den ena bilden till den andra. Bildregistreringen utf¨ors d˚ a kamerorna ¨ar s¨arskilda i sidled
5.4 Fusion med stereoseende
51
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
100
200
300
400
200
250
300
(b)
500
600
700
800
100
(c)
200
300
400
500
600
700
800
(d)
Figur 5.11. Fuzzy: (a) vy 1: avst˚ andslucka = 56, ingen b˚ at, (b) vy 1: avst˚ andslucka = 415, den h¨ ogra b˚ aten, (c) vy 2: b¨ aring = 175, den v¨ anstra b˚ aten, (d) vy2: b¨ aring = 238, den h¨ ogra b˚ aten.
och endast horisontella f¨orflyttningar b¨or existera i bilderna. En affin transformation innefattar en horisontell och en vertikal translation samt en rotation av bilden. F¨or att underl¨atta ber¨akningarna anv¨ands homogena koordinater. Med dessa koordinater kan rotation och translation beskrivas i en och samma matris. Homogena koordinater inneb¨ar att de ursprungliga koordinaterna (x, y) utvidgas till (xh , yh , h) d¨ar x = xh /h och y = yh /h. F¨or enkelhetskull v¨aljes h = 1. Homogena koordinater leder till m¨ojligheten att beskriva alla geometriska operationer med matrismultiplikationer och anv¨ands bland annat mycket inom datorgrafik. Ekvation (5.1) beskriver relationen mellan den h¨ogra bilden, (xr , yr ), och den v¨anstra bilden, (xl , yl ).
xl = Axr ,
xl r11 yl = r21 1 0
r12 r22 0
tx xr ty y r 1 1
(5.1)
52
En 3D-fusionsmetod 900
20 800 40 700
60 80
600
100 500 120 400
140 160
300
180 200 200 100 220
50
100
150
200
250
300
50
100
(a) 20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
(c)
150
200
250
300
(b)
200
250
300
100
200
300
400
500
600
700
800
900
(d)
Figur 5.12. Sv˚ art fall: (a) IR-bilden, (b) radarbilden, (c) vy 1: avst˚ andslucka = 56, fr¨ amre b˚ aten, (d) vy 2: b¨ aring = 170, fr¨ amre och bakre b˚ at.
Termerna rij i A beskriver rotationen av bilderna och ti beskriver translationen. F¨or att kunna utf¨ora registreringen m˚ aste A best¨ammas. N¨ar h¨oger bild ska transformeras med A slopas translationen ty eftersom dispariteten ber¨aknas p˚ a translationer i y − led. Ett s¨att att best¨amma A ¨ar att v¨alja ut punkter ur de b˚ ada ursprungsbilderna som h¨arr¨or till samma plats. A kan d˚ a estimeras utifr˚ an dessa m¨atpunkter med t.ex minstakvadratmetoden. Om m¨angderna m¨atpunkter betecknas xl,m¨at och xr,m¨at , blir l¨osningen p˚ a minstakvadratproblemet som f¨oljer: arg minA kxl,m¨at − Axr,m¨at k ⇒ AT = (xr,m¨at xr,m¨at T )−1 xr,m¨at xl,m¨at T
(5.2)
N¨ ar den affina transformationen A ¨ar best¨amd ˚ aterst˚ ar transformationen av den h¨ogra bilden. F¨or ¨andam˚ alet anv¨ands bilinj¨ar interpolation. En punkt, (xr2 , yr2 ), i den nya bilden transformeras till ursprungsbilden enligt xr = A−1 1 xr2 . A1 beskriver samma transform som A men d¨ar ty ¨ar satt till noll. Det nya v¨ardet f (xr2 , yr2 ) ber¨aknas med en interpolation utifr˚ an de fyra n¨arliggande punkterna i ursprungsbilden. Figur 5.14 visar de ursprungliga v¨anstra och h¨ogra bilderna samt den bi-
5.4 Fusion med stereoseende
53
20
20
40
40
60
60
80
80
100
100
120
120
140
140
160
160
180
180
200
200
220
220
50
100
150
200
250
300
50
100
150
(a)
200
250
300
(b)
20 40 60 80 100 120 140 160 180 200 220
100
200
300
400
500
600
700
800
900
(c) Figur 5.13. Sv˚ art fall med viktning: (a) vy 1: avst˚ andslucka = 56 (b), vy 1: avst˚ andslucka = 632, (c) vy 2: b¨ aring = 170.
linj¨art interpolerade h¨ogra bilden. Fem stycken punkter har valts ut f¨or hand d˚ a A best¨amts. Punkterna har valts ut noggrant f¨or att minimera inverkan av parallaxeffekten. Parallaxeffekten inneb¨ar att f¨orh˚ allanden mellan ett antal punkter i bilderna inte ¨ar densamma eftersom bilderna ¨ar tagna ur olika vinklar. Skillnaden i vinkel ger en skillnad i avst˚ and till punkterna. Punkterna har valts vid stora avst˚ and relativt basen mellan kamerorna. D¨armed minimeras skillnaden i avst˚ and till punkterna fr˚ an de tv˚ a kamerorna. Sm˚ a variationer kommer fortfarande existera men eftersom en minstakvadratminimering utf¨ors minimeras effekten ytterligare och ett ¨onskv¨art resultat uppn˚ as. Det finns b¨attre och mer komplexa metoder f¨or att utf¨ora bildregistreringen men d˚ a denna relativt enkla metod gav ¨onskat resultat har inga andra unders¨okts.
54
En 3D-fusionsmetod
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500
550
550 100
200
300
400
500
600
700
100
200
300
(a)
400
500
600
700
(b)
50 100 150 200 250 300 350 400 450 500 550 100
200
300
400
500
600
700
(c) Figur 5.14. (a) V¨ anster original, (b) h¨ oger original, (c) h¨ oger transformerad.
Stereoalgoritmen Stereoalgoritmen som anv¨ands p˚ a stereoparet ¨ar en fasbaserad metod. Se avsnitt 2.3.3 f¨or en mer ¨oversiktlig beskrivning. Eftersom en f¨orskjutning av fasen inneb¨ar en f¨orflyttning i position kan fasen avg¨ora den lokala f¨orskjutningen mellan tv˚ a omgivningar. En f¨ordel med de fasbaserad algoritmerna ¨ar att de klarar av subpixelf¨orflyttningar, dvs dispariteter mindre ¨an en pixel. Detta eftersom fasen ¨ar kontinuerlig och d˚ a blir k¨anslig mot f¨ orflyttningar mindre ¨an den spatiella uppl¨osningen i bilden. Algoritmen genererar tv˚ a skalpyramider ¨over h¨oger och v¨anster bild. Skalpyramiden medf¨or att st¨orre dispariteter kan estimeras (f¨ordubbling f¨or varje extra niv˚ a). Dispariteten estimeras p˚ a vardera niv˚ a i pyramiden med tv˚ a ”non-ring”filter vilka ¨ar sn¨allt avtagande. Det ena filtret ¨ar udda och det andra ¨ar j¨amt. ”Non-ring”-filtren har exakt en fascykel i spatialdom¨anen och approximerar ett kvadraturfilter v¨al. Eftersom filtrena inte ”sv¨anger/ringer” i spatialdom¨anen ¨ar de v¨ al lokaliserade. F¨or mer ang˚ aende dessa filter och kvadraturfilter se [23]. Dispariteten estimeras f¨orst p˚ a den h¨ogsta niv˚ an. Estimatet anv¨ands sedan som startv¨arde
5.4 Fusion med stereoseende
55
d˚ a dispariteten p˚ a den underliggande niv˚ an ska estimeras. Disparitetsestimeringen as ¨aven en s¨akerhetsbild vilket s¨ager hur s¨akert ¨ar en iterativ process. Ur algoritmen f˚ ett estimat ¨ar. Med s¨akerhetsbilden utf¨ors en normaliserad medelv¨ardesbildning f¨or att undertrycka de mest os¨akra signalerna. S¨akerhetsbilden utg¨or vikterna i medelv¨ardesbildningen. Figur 5.15 visar en estimerad disparitetsbild samt tillh¨orande s¨akerhetsbild. 50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
(a)
450
500
50
100
150
200
250
300
350
400
450
500
(b)
Figur 5.15. (a) Disparitetsbilden (logaritmerad), (b) s¨ akerhetsbilden.
Disparitet till djup Slutligen m˚ aste den estimerade disparitetsbilden transformeras till en djupbild. ar K ¨ar Djupet ¨ar som k¨ant omv¨ant proportionellt mot dispariteten, Z = K d , d¨ en konstant. Ur radarbilden ¨over samma omr˚ ade, kan avst˚ and till objekt i bilden best¨ammas. Konstanten K estimeras med minstakvadratmetoden. En m¨angd punkter v¨aljes ut d¨ar disparitet och avst˚ and ¨ar k¨ant och K blir d˚ a: Ã ! µ ¶T −1 µ ¶ 1 1 1 K= Zm¨at T (5.3) dm¨at dm¨at dm¨at I ekvation (5.3) betecknar dm¨at en vektor inneh˚ allande de utvalda dispariterna och Zm¨at en vektor inneh˚ allande motsvarande avst˚ and. Figur 5.16 visar disparitetsbilden och motsvarande djupbild. I bilden ¨ar djup med f¨or l˚ ag s¨akerhet satta till noll (svart). I kapitel 2.3.2 presenterades ett enklare transformeringssamband d¨ar K = 2hf , men det visade sig bli ett mer korrekt resultat med ovanst˚ aende metod. Dock kr¨avs det att man vet de exakta avst˚ anden till objekten i bilden. 3D-fusion med stereoseende N¨ar stereoparet ¨ar registrerat och transformerat ˚ aterst˚ ar fusionen av bilderna. Id´en ¨ar att djupbilden ska underl¨atta ihopviktningen med radarbilden. TV-bilden kommer med hj¨alp av djupbilden kunna ”spridas ut” l¨angs med avst˚ anden. Viktningen
56
En 3D-fusionsmetod
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
50
100
150
(a)
200
250
300
350
400
450
500
(b)
Figur 5.16. (a) Disparitetsbilden, (b) motsvarande djupbild.
vilken ska v¨alja ut r¨att delar av IR-bilden best¨ams som en funktion med maximum vid det aktuella avst˚ andet i radarn. Fusionen kan ses som att man g˚ ar fram˚ at ¨over avst˚ andluckorna i radarn, f¨or varje lucka avg¨ors med viktningen vad i IR-bilden som ska v¨aljas dit. Vikterna avtar utifr˚ an avst˚ andet och avtar l˚ angsammare f¨or st¨ orre avst˚ and d¨ar djupmappens uppl¨osning ¨ar s¨amre (vinkelskillnaderna i stereoparet blir mindre). Figur 5.17 visar hur vikten avtar kring ett aktuellt avst˚ and och n¨ ar vikten applicerats p˚ a en TV-bild. Ekvation (5.4) visar hur vikten ber¨aknas d¨ar k ¨ar det aktuella avst˚ andet, r ¨ ar det ber¨aknade djupet fr˚ an stereoalgoritmen och n det totala antalet avst˚ andsluckor. Basen i ekvation (5.4) ger en smal topp kring det aktuella avst˚ andet k. Exponenten p˚ averkar bredden p˚ a funktionen. F¨or stora avst˚ and k blir funktionen bredare. Funktionen har visat sig fungera v¨al som vikt. viktijk =
µ
2 abs(k − rij ) + 1
¶
1 2(1+ k ) n
(5.4)
Vid fusionen av IR- och radarbilden styr viktningen TV-bilden s˚ a att r¨att delar fusioneras med aktuellt avst˚ and i radarn. Fusionsalgoritmen beskrivs i ekvation (5.5) d¨ar F beskriver en fusionsfunktion. volijk = viktijk · F(T Vij , radarkj ),
i ∈ {1, h¨ ojdvinkelmax },
∀i, j, k
j ∈ {1, b¨ aringmax },
k ∈ {1, avstand ˙ max }
(5.5)
Fusionsfunktionen F kan vara n˚ agon av tidigare n¨amnda fusionsmetoder, se t.ex. kapitel 4.5.3. Det b¨or n¨amnas att det i f¨oljande fall inte blir n˚ agon st¨orre skillnad mellan de olika fusionsmetoderna utan vikten utf¨or det mesta av arbetet. Nedan, se figur 5.19, presenteras n˚ agra av fusionsmetoderna F. Bilder ¨ar tagna ur volymen f¨or ett fast avst˚ and och en fast b¨aring. Alla metodernas resultat visas inte d˚ a skillnaderna inte ¨ar s˚ a stora. F¨or mer information ang˚ aende fusionsmetoderna se kapitel 5.3.1. Samtliga fall utg˚ ar fr˚ an v¨ansterbild och radarbild i figur 5.18.
5.4 Fusion med stereoseende
57
1
50 0.9
100 0.8
150 0.7
200
250
0.6
300 0.5
350 0.4
400 0.3
0.2
450
500 0
10
20
30
40
50
60
70
80
90
50
100
100
150
200
(a)
250
300
350
400
450
500
(b)
Figur 5.17. (a) Viktningens avtagande, (b) vikten applicerad p˚ a en TV-bild, aktuellt avst˚ and ca 45 meter.
220 50 200 100
180
150
160
200
140
250
120 100
300
80 350 60 400 40 450 20 500 50
100
150
200
250
(a)
300
350
400
450
500
50
100
150
200
250
300
350
400
450
500
(b)
Figur 5.18. (a) Den v¨ anstra stereoparsbilden, (b) radarbilden.
I figur 5.19 redovisas metoderna WA och WA-WB-E. Inga st¨orre skillnader syns mellan de b˚ ada fallen. D˚ a fusionsmetoden WA-WB-E anv¨ants f˚ as ett lite ”randigare” utseende. Avst˚ andet ¨ar valt d¨ar bilen finns bel¨agen, det ¨ar dess tv˚ a lyktor som syns i vy1 vid cirkel ett i bilden. Vid cirkel tv˚ a i vy1 ses ett lite ”skr¨apigt” omr˚ ade. ”Skr¨apet” kommer fr˚ an djupbilden d¨ar avst˚ anden f¨or lyktstolpen smetats ut vid den normaliserade medelv¨ardesbildningen i stereoalgoritmen. Vy 2 ¨ar utskuren igenom bilen och det ¨ar dess motorhuv och tak som kan urskiljas vid cirkel nummer ett i vyn. Det blir ur volymen relativt enkelt att best¨amma ett m˚ als 3D-position. Det f˚ as inte heller n˚ agon utsmetning av m˚ alen i h¨ojdled och avst˚ andsled utan de ¨ar relativt kompakta kring sin position.
58
En 3D-fusionsmetod
50
¿ 2
100
50
100
150
150
¶³ 1 µ´
¶³ ÁÀ 1 µ´
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
20
40
60
80
100
(a)
120
140
160
180
200
220
(b)
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
20
40
60
80
(c)
100
120
140
160
180
200
220
(d)
Figur 5.19. (a) Vy 1: WA med k1 = 0, 5 och k2 = 0, 5, avst˚ andslucka = 135, vid bilen, (b) Vy2: WA, b¨ aring = 343, genom bilen, (c) vy 1: WA-WB-E med avst˚ andslucka = 135, vid bilen, (d) vy 2: WA-WB-E, b¨ aring = 343, genom bilen.
5.5
Metoderna i en sammanfattning
De tv˚ a ovan beskrivna tredimensionella metoderna sammanfattas nedan. F¨orst beskrivs den icke stereobaserade metoden. 1. Metoden startar med tv˚ a stycken bilder. En IR-bild och en radarbild. 2. Om milj¨on ¨ar enkel, t.ex b˚ atar p˚ a vatten, s˚ a normaliseras radarbilden lokalt. 3. Bilderna fusioneras endimensionellt. Fusionen best¨ams av en funktion F. F¨or vissa specialfall t.ex d˚ a alla m˚ al ligger p˚ a ett plant underlag kan horisontens placering utnyttjas f¨or att f˚ a en viss avst˚ andsinformation ur den infrar¨oda bilden. 4. Det slutliga resultatet blir en tredimensionell volym som sp¨anns upp av h¨ojdvinkel, b¨aring och avst˚ and.
5.6 Resultat
59
Den stereobaserade metoden kan sammanfattas som f¨oljer. 1. Metoden utg˚ ar fr˚ an tv˚ a stycken TV-bilder och en radarbild. 2. De tv˚ a TV-bilderna ¨ar ett stereopar. Dispariteten estimeras fr˚ an dessa och mappas om till en djupbild. 3. N¨ar radarn och en av TV-bilderna ska fusioneras anv¨ands djupbilden f¨or att avg¨ora vilka delar i TV-bilden som h¨arr¨or till det intressanta avst˚ andet. En viktning ber¨aknas som ¨ar avtagande ifr˚ an detta avst˚ andet. TV-bilden och radarbilden fusioneras med F som i den tidigare 3D-metoden men viktas ocks˚ a med viktningen. 4. Det slutliga resultatet blir ˚ aterigen en tredimensionell volym.
5.6
Resultat
F¨ or att utv¨ardera resultaten av ovanst˚ aende metoder har ett perceptionstest utf¨orts. Med ett perceptionstest menas att ett antal personer har tittat p˚ a bilderna och gett sina synpunkter. Alla metoderna klarar av att presentera m˚ al synliga i b˚ ada sensorerna s˚ av¨al som ensamma m˚ al endast synliga i en av de tv˚ a sensorerna. I den f¨orsta metoden, se kapitel 5.3, kan det h¨anda att ett m˚ als konturer och former undertrycks och p˚ averkar resultatet negativt. Detta g¨aller fallen d¨ar en ”maximum selection” fusion anv¨ants. D¨arf¨or utesluts MS, MS-WB-E och MS-WBV. Fusionsmetoderna vilket bygger p˚ a ett viktat medelv¨arde klarar sig dock b¨attre. B¨ast enligt perceptionstestet klarar sig ˚ aterigen den enkla WA metoden. Eftersom det ¨ar klart enklast att urskilja ett m˚ als form men ¨and˚ a enkelt avg¨ora dess position, se figur 5.8. De andra tv˚ a WA-WB-E och WA-WB-V utesluts eftersom konturerna inte syns lika tydligt som i WA. De ger dock ett klart b¨attre resultat ¨an de ¨ tidigare MS-baserade metoderna. Aven fuzzymetoden utesluts d˚ a dess resultat ¨ar j¨amf¨orbart med WA-WB-E och WA-WB-V. Att ta h¨ansyn till horisontens placering verkar kunna ge en f¨ordel speciellt d˚ a utsmetningen i h¨ojdled begr¨ansas, dock ¨ar det negativt att det endast fungerar p˚ a speciella fall. Det f¨oruts¨atts att m˚ alen ligger p˚ a ett plan och att horisonten ¨ar synlig. Nu till den sistn¨amnda stereobaserade metoden. I den metoden finns det egentligen inget att diskutera relativt de olika testade fusionsmetoderna. De ger alla ett liknande resultat och alla fungerar bra, fortfarande syns vissa skillnader men dock inte s˚ a tydligt som i tidigare metoder. Detta beror till stor del p˚ a den del i fusionen som ¨ar gemensam f¨or alla, n¨amligen vikten som beror p˚ a djupet ber¨aknat i stereoalgoritmen. Detta visar att den nya informationen mycket v¨al kan utnyttjas av algoritmen och ger en klar f¨orb¨attring i fusionen. Dessutom f˚ as en mycket mer kompakt beskrivning av m˚ alen i volymen. Den stereobaserade metoden ger
60
En 3D-fusionsmetod
klart b¨ast resultat men med nackdelen att tv˚ a kameror m˚ aste anv¨andas samt mer ber¨akningskraft kr¨avs d˚ a djupet ska estimeras.
Kapitel 6
Resultat I f¨oljande kapitel redovisas resultaten av de olika metoderna. I samtliga fall har de fusionmetoder anv¨anda inom metoderna som genererat b¨ast resultat anv¨ants. Metoderna som redovisas a¨r 2D-metoden, DRIVE-metoden, 3D-metoden utan stereo samt 3D-metoden med stereo. Den f¨orsta 2D-metoden genererar ett resultat som skiljer sig fr˚ an de 3D-baserade metoderna. Det blir d¨arf¨or sv˚ art att g¨ora en r¨attvis j¨amf¨orelse mellan dessa. De fusionerade bilderna 2D-metoden genererar hj¨alper till att avg¨ora vilka m˚ al fr˚ an respektive rymd som h¨arr¨or fr˚ an samma m˚ al. Med informationen f˚ as m¨ojligheten att best¨amma ett m˚ als position i 3D-rymden. Metoden st¨aller vissa krav p˚ a att samtliga m˚ al m˚ aste ligga i ett gemensamt plan och horisonten m˚ aste vara synlig. Detta ¨ar en stor nackdel och metoden ¨ar egentligen inte anv¨andbar mer ¨an mot farkoster ute p˚ a ¨oppet vatten. F¨ordelen relativt de 3D-baserade metoderna ¨ar den mindre representationsm¨angden samt att det kr¨avs mindre ber¨akningar. Nackdelen ¨ar som n¨amnt de begr¨ansningar under vilket metoden fungerar. Metoden kan anv¨andas till att associera m˚ al sett fr˚ an olika sensorer med varandra. Samtliga 3D-metoder klarar av vilka scenarier som helst. De kan alltid leverera ett resultat dock mer eller mindre bra beroende p˚ a f¨oruts¨attningarna. Figur 6.1 och 6.2 visar resultatet av de tre 3D-metoderna applicerat p˚ a samma bilder. DRIVE-metoden i figur 6.1(a) och 6.1(b) visar att det blir om¨ojligt att avg¨ora vilka m˚ al som tillh¨or ett visst avst˚ and. Radarn f¨orst¨arker hela bilden lika mycket f¨or ett visst avst˚ and och det blir d¨arf¨or om¨ojligt att avg¨ora vilket m˚ al som verkligen ¨ar det aktuella. Det enda fallet metoden ger ett entydigt best¨amt m˚ al ¨ar d˚ a endast ett m˚ al finns representerat i ursprungsbilden. P˚ a mer komplicerade milj¨oer blir metoden ¨overfl¨odig d˚ a samma information kan f˚ as ur de tv˚ a ursprungsbilderna, dvs om flera m˚ al existerar kan metoden inte generera information om vilka m˚ al i de b˚ ada vyerna som h¨or ihop med varandra. Det b¨or ocks˚ a till¨aggas att m˚ al som endast ¨ar synliga i den ena sensorn helt undertrycks och inte alls finns represente61
62
Resultat
rade i den producerade volymen. En f¨orb¨attring kan f˚ as med 3D-metoden utan stereo. Radarns b¨aringutbredning utnyttjas och m˚ al kan d¨arf¨or s¨arskiljas b¨attre. I figurerna 6.1(c) och 6.1(d) kan man se att ett band kring aktuell b¨aring viktas upp av radarn. Dock ˚ aterst˚ ar en del problem. Tv˚ a m˚ al med samma b¨aring kommer att viktas upp p˚ a b˚ ada de aktuella avst˚ anden. I volymen finns d˚ a fyra m¨ojliga fall. Effekten kan urskiljas i figur 6.2(b) d¨ar sex kors syns men d˚ a det egentligen bara ¨ar tre aktuella objekt. Det h¨ogra vertikala strecket (avst˚ andsrad ca 210) uppkommer ur radarekot f¨or ett staket, det mittersta strecket (avst˚ andsrad ca 135) h¨arr¨or fr˚ an bilens eko och det v¨anstra strecket fr˚ an ett objekt ej synligt i IR-bilden p˚ a avst˚ andsrad 120 i radarn. Det v¨anstra strecket ¨ar egentligen bel¨aget p˚ a en annan b¨aring ¨an bilen men pga radarekots utbredning i b¨aring syns svaret ¨aven h¨ar. Man kan dock se en klar f¨orb¨attring mot DRIVE-metoden i figur 6.2(a) d¨ar endast staketet ¨ar synligt i bilden. I den sista metoden utnyttjas ¨aven stereoseende. Utifr˚ an TV-bilderna kan en viktning skapas d¨ar relevanta delar av bilden viktas in vid ett aktuellt avst˚ and. I figurerna 6.1(e) och 6.1(f) kan man utan problem s¨arskilja m˚ alen fr˚ an varandra. Resultatet syns ¨annu tydligare i figur 6.2(c) d¨ar tre starka svar f˚ as. Med metoden kan samtliga m˚ als positioner best¨ammas samtidigt som konturerna ¨ar synliga. Dock kan viktningen med djupmappningen ibland f¨orst¨ora konturerna n˚ agot men oftast inte m¨arkbart. Se tabell 6.1 f¨or en sammanfattning av de olika metodernas egenskaper. Tabell 6.2 visar n˚ agra j¨amf¨orelsem˚ att f¨or de olika metoderna. Det f¨orsta m˚ attet beskriver ett m˚ als energi relativt den omgivande energin. Det visar om ett m˚ al blivit tydligare och hur kompakt representationen ¨ar relativt ursprungsbilden. M˚ attet bekr¨aftar diskussionen ovan. DRIVE-metoden f¨orsvagar m˚ alet och det ¨ar inte alls lika framh¨avande som i ursprungsbilden. 3D-metoden utan stereo samt 2D-metoden ger ett m˚ al bevarat med sin ursprungliga styrka. ˚ Aterigen visar sig 3D-metoden med stereo vara b¨ast d¨ar m˚ alet har dubblerats i styrka relativt omgivningen. Det betyder att djupviktningen v¨al har tryckt ned omgivningen. Den sista kolumnen i tabellen beskriver p˚ a vilken avst˚ andsrad ett maximum f˚ as om volymen korreleras med en bilk¨arna. Korrelationen utf¨ors som en matchning utan DC-komponent. Bilen ¨ar bel¨agen p˚ a rad 131 och endast den stereobaserade metoden ger ett s˚ a tydligt svar att korrelationen finner r¨att m˚ al. De andra metoderna misslyckas i avst˚ andsled pga av problemen redovisade ovan.
63
Metod 2D-metod
3D-metod DRIVE
+ + – – + – –
3D-metod utan stereo
+ –
3D-metod med stereo
+ + + – –
Samtliga m˚ als 3D-position kan best¨ammas om omgivningen a¨r ”sn¨all”. Relativt lite ber¨akningar. M˚ alen m˚ aste ligga i ett plan. Horisonten m˚ aste vara synlig. Horisonten anv¨ands inte och m˚ alen kan ligga godtyckligt. Undertrycker m˚ al endast synliga i den ena sensorn. 3D-position kan bara best¨ammas d˚ a endast ett ensamt m˚ al finns. Horisonten anv¨ands inte och m˚ alen kan ligga godtyckligt. Positionsbest¨ammningen f¨or m˚ al p˚ a samma b¨aring blir inte entydig. Horisonten anv¨ands inte och m˚ alen kan ligga godtyckligt. Samtliga m˚ als 3D-position kan best¨ammas. En kompakt representation av m˚ alen. Kr¨aver en extra kamera samt mer ber¨akningar. Brusiga bilder f¨ors¨amrar stereober¨akningens effektivitet. Tabell 6.1. En sammanfattning av metoderna
Metod DRIVE 3D-metod, utan stereo 3D-metod, med stereo 2D-metod
Energim˚ att 0,6184 1,0016 2,0719 1,0256
Korrelation, avst˚ andsrad 209 (131) 181 (131) 131 (131) –
Tabell 6.2. Energim˚ att beskriver ett m˚ als tydlighet. Siffran beskriver hur energin f¨ or¨ andrats mellan m˚ alet och omgivningen relativt orginalbilden. Korrelationen visar p˚ a vilket avst˚ and man f˚ ar ett max vid korrelation med en bilk¨ arna. Bilen ¨ ar bel¨ agen p˚ a avst˚ and 131.
64
Resultat
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
50
100
150
200
(a)
250
300
350
400
450
500
300
350
400
450
500
300
350
400
450
500
(b)
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
300
350
400
450
500
50
100
150
200
(c)
250
(d)
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
500 50
100
150
200
250
(e)
300
350
400
450
500
50
100
150
200
250
(f)
Figur 6.1. Vy 1 inneb¨ ar en skiva utskuren ur volymen p˚ a ett fast avst˚ and. (a) Vy 1: DRIVE, avst˚ andslucka = 56, (b) Vy 1: DRIVE, avst˚ andslucka = 135, (c) Vy 1: 3D utan stereo, avst˚ andslucka = 56, (d) Vy 1: 3D utan stereo, avst˚ andslucka = 135, (e) Vy 1: 3D med stereo, avst˚ andslucka = 56, (f) Vy 1: 3D med stereo, avst˚ andslucka = 135.
65
Staket
Bil
?
Staket
?
50
50
100
100
150
150
200
200
250
250
300
300
350
350
400
400
450
450
500
?
500 20
40
60
80
100
120
140
160
180
200
220
20
40
60
80
(a)
100
120
140
160
180
200
220
(b)
50
100
150
Sten
k
250
300
k
k
200
Staket Bil
350
400
450
500 20
40
60
80
100
120
140
160
180
200
220
(c) Figur 6.2. Vy 2 inneb¨ ar en skiva utskuren ur volymen f¨ or fast sidvinkel. I samtliga fall a aringraden = 340. (a) Vy 2: DRIVE, (b) Vy 2: 3D utan stereo, (c) Vy 2: 3D med ¨r b¨ stereo.
66
Resultat
Kapitel 7
Slutsats Resultaten visar att det finns en m¨angd tillv¨agag˚ angss¨att vid fusion av radar och elektrooptiska bilder p˚ a r˚ adataniv˚ a. Den stereobaserade 3D-metoden presterar klart b¨attre ¨an de andra metoderna och ¨ar ocks˚ a den mest generella. Nackdelen ¨ar dock att mer ber¨akningskraft kr¨avs relativt den 2D-baserade metoden samt att tv˚ a kameror beh¨ovs. 2D-metoden ¨ar den metod som ¨ar mest anpassad till en viss typ av problem. T.ex. kr¨avs en synlig horisont och att alla m˚ alen ligger i samma plan. Metodens beroende av horisonten skulle dock kunna justeras om kamerans riktning kunde best¨ammas mer noggrant. Bland de olika fusionsmetoderna har ett viktat medelv¨arde av intensiteterna visat sig fungera i samtliga fall. S¨amst resultat visar de fusionmetoder baserade p˚ a varians. F¨or en generell l¨osning p˚ a problemet d¨ar positioner l¨att kan best¨ammas och konturer blir bevarade fungerar en stereobaserad metod allra b¨ast. Den extra informationen som kan uppn˚ as med stereoseende f¨orb¨attrar resultatet s˚ a mycket att kostnaden av mer ber¨akningar och fler kameror inte blir s˚ a stor. Vid enklare milj¨oer t.ex. farkoster ute p˚ a havet kan det r¨acka med den f¨orsta 3D-metoden eller 2D-metoden. DRIVE-metoden genererar inte ett o¨nskv¨art resultat i n˚ agot fall.
7.1
Framtida arbete
M˚ anga metoder har testats och utv¨arderats i rapporten. Metoder har presenterats med klart b¨attre resultat ¨an tidigare presenterade artiklar. Det finns dock id´eer p˚ a f¨orb¨attringar och forts¨attningar p˚ a arbetet. Avsnittet listar n˚ agra av dessa id´eer.
7.1.1
Attribut- och objektextrahering
Det skulle varit mycket givande att applicera attribut- och objektextrahering p˚ a de fusionerade volymerna. Man skulle d˚ a kunnat j¨amf¨ora om r˚ adatafusion ger n˚ agon vinst relativt fusioner p˚ a senare niv˚ aer. 67
68
7.1.2
Slutsats
2D-metoden
Som sagts innan inneh˚ aller 2D-metoden m˚ anga begr¨ansningar. Att m˚ alen m˚ aste ligga i ett plan kan man inte komma ifr˚ an. M¨ojligen skulle mappningen mellan rymderna kunna utf¨oras b¨attre om tv˚ a kameror och stereoseende utnyttjades. D¨aremot kan algoritmens beroende av horisontens placering undvikas. F¨orst och fr¨amst om kamerans riktning varit k¨and med st¨orre noggrannhet. Bilderna skulle ocks˚ a kunna projicera bilderna relativt n˚ agot annat k¨ant i bilderna. D¨aremot ¨ar det inte s˚ a sannolikt att det finns en s˚ adan referenspunkt i samtliga bildsekvenser.
7.1.3
¨ Overlagrad fusion
I kapitel 4.2.1 diskuterades ett alternativt s¨att att behandla bilderna. F¨or att uppn˚ a en f¨orlustfri representation ¨overlagras IR-bilden och radarbilden med de tv˚ a projicerade bilderna. En m¨ojlig ¨overlagring kan vara en bild av komplexa tal med t.ex. IR-bilden som realdel och den projicerade radarbilden som imagin¨ardel. I presentation finns den ursprungliga informationen men ut¨okad med kunskapen som uppn˚ atts ur projicerigen. D˚ a tiden inte har r¨ackt till har inte id´en testats men skulle vara en mycket intressant forts¨attning. En extraktor skulle kunna utvecklas som arbetar p˚ a de komplexa bilderna. Extraktor b¨or kunna styras s˚ a ¨onskade egenskaper kan lyftas fram. Samma id´e skulle sj¨alvklart ocks˚ a kunna anv¨andas p˚ a de 3D-baserade metoderna.
Litteraturf¨ orteckning [1] J. E. Baum and S. J. Rak. Simultaneous active/passive-ir vehicle detection. SPIE Laser Radar VI, 1416, 1991. [2] C. M. Birkemark and J. D. Titley. Nonlinear operator for fusion of ir and radar data. In Proceedings of the SPIE Conference on Signal Processing , Sensor Fusion, and Target Recognition VIII, volume 3720, Orlando, Florida, USA, April 1999. [3] S. Blackman and R. Popoli. Design and Analysis of Modern Tracking Systems. Artech House radar library, 1999. [4] P. J. Burt and E. H. Adelson. The laplacian pyramid as a compact image code. IEEE Transations on Communications, COM-31(4), April 1983. [5] P-E Danielsson. Bildanalys 2002, Kompendium. Link¨opings Universitet, 2002. [6] G. Farneb¨ack. The stereo problem. Technical report, Computer vision laboratory, Link¨oping University, Link¨oping, Sweden, February 2001. [7] G. H. Granlund and H. Knutsson. Signal Processing for Computer Vision. Kluwer Academics Publishers, 1995. [8] D. L. Hall. Mathematical Techniques in Multisensor Data Fusion. Artech House, 1992. [9] P. Hill, N. Cangarajah, and D. Bull. Image fusion using complex wavelets. BMVC, pages 487–496, 2002. [10] IEEE IEE. INSPEC, database for physics, electronics and computing, www.ieee.org, December 2003. [11] S. Majumder, S. Scheding, and H. F. Durrant-Whyte. Multisensor data fusion for underwater navigation. Robotics and Autonomous Systems, 35(1):97–108, 2001. [12] S. Mallat. A Wavelet tour of signal processing. Academic Press, 1998. [13] C. L. McCullough. Data level fusion of images from disparate sensors. Eurofusion Conference, October 1999. 69
70
¨ LITTERATURFORTECKNING
[14] A. Mohammad-Djafari. Fusion of X ray and geometrical data in computed tomography for non destructiove testing applications. Fusion, 2002. [15] M. Pavel and R. K. Sharma. Fusion of radar images: Rectification without the flat earth assumption. In Proceedings of the SPIE, volume 2736, pages 108–118, May 1996. [16] G. Piella. Multiresolution image fusion guided by a multimodal segmentation. Proceedings of ACIVS 2002, september 2002. [17] R. K. Sharma, M. Pavel, and T. K. Leen. Multi-stream video fusion using local principal components analysis. Proceedings of SPIE, 3436, 1998. [18] G. W. Stimson. Introduction to Airborne Radar. Scitech publishing, inc., 2nd edition, 1998. [19] CiteSeer NEC s¨okmotor. http://citeseer.nj.nec.com/cs, December 2003. [20] Google s¨okmotor. http://www.google.com, December 2003. [21] A. Toet, J. J. van Ruyven, and J. M. Valeton. Merging thermal and visual images by a contrast pyramid. Optical Engineering, 28(7):789–792, 1989. [22] D. van Huyssteen and M. Farooq. A partially decentralized architecture for fusing active (radar) and passive (infrared) measurment data. In Proceedings of the SPIE Conference on Sensor Fusion: Architecture, Algorithms, and Applications III Recognition VIII, volume 3719, Orlando, Florida, USA, April 1999. [23] C-J Westelius. Focus of attention and gaze control for robot vision. Phd thesis 379, Department of Electrical Engineering, Link¨oping University, Link¨oping, Sweden, 1995. [24] Z. Zhang and R. S. Blum. A categorization of multiscale-decomposition- based image fusion schemes with a performance study for a digital camera application. Proceedings IEEE, 87:1315–1326, August 1999.
På svenska Detta dokument hålls tillgängligt på Internet – eller dess framtida ersättare – under en längre tid från publiceringsdatum under förutsättning att inga extraordinära omständigheter uppstår. Tillgång till dokumentet innebär tillstånd för var och en att läsa, ladda ner, skriva ut enstaka kopior för enskilt bruk och att använda det oförändrat för ickekommersiell forskning och för undervisning. Överföring av upphovsrätten vid en senare tidpunkt kan inte upphäva detta tillstånd. All annan användning av dokumentet kräver upphovsmannens medgivande. För att garantera äktheten, säkerheten och tillgängligheten finns det lösningar av teknisk och administrativ art. Upphovsmannens ideella rätt innefattar rätt att bli nämnd som upphovsman i den omfattning som god sed kräver vid användning av dokumentet på ovan beskrivna sätt samt skydd mot att dokumentet ändras eller presenteras i sådan form eller i sådant sammanhang som är kränkande för upphovsmannens litterära eller konstnärliga anseende eller egenart. För ytterligare information om Linköping University Electronic Press se förlagets hemsida http://www.ep.liu.se/ In English The publishers will keep this document online on the Internet - or its possible replacement - for a considerable time from the date of publication barring exceptional circumstances. The online availability of the document implies a permanent permission for anyone to read, to download, to print out single copies for your own use and to use it unchanged for any non-commercial research and educational purpose. Subsequent transfers of copyright cannot revoke this permission. All other uses of the document are conditional on the consent of the copyright owner. The publisher has taken technical and administrative measures to assure authenticity, security and accessibility. According to intellectual property law the author has the right to be mentioned when his/her work is accessed as described above and to be protected against infringement. For additional information about the Linköping University Electronic Press and its procedures for publication and for assurance of document integrity, please refer to its WWW home page: http://www.ep.liu.se/ © [Johan Schultz]