北理工賈云德《計(jì)算機(jī)視覺(jué)》chapter16物體識(shí)別
《北理工賈云德《計(jì)算機(jī)視覺(jué)》chapter16物體識(shí)別》由會(huì)員分享,可在線閱讀,更多相關(guān)《北理工賈云德《計(jì)算機(jī)視覺(jué)》chapter16物體識(shí)別(25頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-----傾情為你奉上 第十六章 物體識(shí)別 目前,物體識(shí)別的基本方法是建立物體模型,然后使用各種匹配算法從真實(shí)的圖像中識(shí)別出與物體模型最相似的物體。物體識(shí)別的正式定義如下:給定一幅包含一個(gè)或多個(gè)物體的圖像和一組對(duì)應(yīng)物體模型的標(biāo)記,機(jī)器應(yīng)將標(biāo)記正確地分配給圖像中對(duì)應(yīng)的區(qū)域或區(qū)域集合。物體識(shí)別和圖像分割是緊密相關(guān)的,因?yàn)闆](méi)有物體或物體局部識(shí)別,分割就無(wú)法進(jìn)行,而沒(méi)有分割,物體識(shí)別也是不可能的。 16.1識(shí)別系統(tǒng)的基本組成 可以認(rèn)為,物體識(shí)別系統(tǒng)包括四個(gè)主要模塊:即模型庫(kù)、特征檢測(cè)器、假設(shè)生成(hypothesis formation)和假設(shè)驗(yàn)證(hypothes
2、is verification)等模塊。圖16.1給出了系統(tǒng)不同模塊之間的作用和信息流圖。 模型庫(kù)包含有所有的已知模型。模型庫(kù)的信息取決于物體識(shí)別方法,可以是定量、定性或函數(shù)描述,也可以是精確的幾何曲面信息。在大多數(shù)情況下,物體的模型是抽象的特征矢量。特征是物體的一種屬性,比如,尺度、色彩和形狀等,特征在描述和識(shí)別物體過(guò)程中起著十分重要的作用。 圖16.1物體識(shí)別系統(tǒng)組成示意圖 輸入圖象可以是灰度圖象、彩色圖象、深度圖象或它們的組合。特征檢測(cè)器對(duì)輸入圖象的特征進(jìn)行檢測(cè),并對(duì)特征進(jìn)行定位,這樣有助于假設(shè)生成。物體特征的選取取決于待識(shí)別物體的類型和模型庫(kù)數(shù)據(jù)結(jié)構(gòu)。假設(shè)生成模塊使用
3、圖像特征來(lái)給場(chǎng)景中的物體分配一個(gè)似然值,這一步可以大大減小物體識(shí)別的搜索空間。一般來(lái)說(shuō),模型庫(kù)是一種索引圖,它有利于從所有可能的物體集合中去除那些不可能的候選者。假設(shè)驗(yàn)證模塊使用物體模型來(lái)驗(yàn)證假設(shè),并進(jìn)一步給出精確似然值。在所有證據(jù)的基礎(chǔ)上,選用具有最大似然值的物體作為識(shí)別結(jié)果。 假設(shè)生成和假設(shè)驗(yàn)證在不同的識(shí)別方法中,其重要性是不一樣的。一些系統(tǒng)僅僅使用假設(shè)生成,然后選擇具有最高似然值的物體作為識(shí)別結(jié)果。模式分類方法是此種方法的一個(gè)很好的例子。另一方面,許多智能系統(tǒng)很少依靠假設(shè)生成,更多的工作是在驗(yàn)證階段。實(shí)際上,經(jīng)典模式識(shí)別方法之一的模板匹配方法就沒(méi)有假設(shè)生成階段。 為了
4、實(shí)現(xiàn)上述步驟,物體識(shí)別系統(tǒng)必須選擇合適的手段和方法。對(duì)于特定的應(yīng)用,在選擇合適的方法時(shí),必須考慮許多因素和問(wèn)題。在設(shè)計(jì)物體識(shí)別系統(tǒng)時(shí)必須考慮的問(wèn)題有: (1) 模型表示 模型表示涉及到物體具有那些重要屬性或特征以及這些特征如何在模型庫(kù)中表示。對(duì) 于大多數(shù)物體來(lái)說(shuō),幾何特征描述是可以很有效的;但對(duì)于另外一些物體,可能需要更一般的特征或函數(shù)來(lái)表示。物體的表示應(yīng)該包含所有相關(guān)信息,但沒(méi)用任何冗余信息,并且將這些信息以某種方式組織起來(lái),使得物體識(shí)別系統(tǒng)的不同組元能夠容易訪問(wèn)這些信息。 (2) 特征提取 特征提取的算法有很多,根據(jù)應(yīng)用對(duì)象,應(yīng)選擇可靠的特征檢測(cè)方法和特征定位方法。許多特
5、征可以在二維圖像中計(jì)算出來(lái),但它們與物體的三維特征有關(guān)。由于圖像生成過(guò)程的特性,有些特征可以很容易地計(jì)算出來(lái),而其它特征計(jì)算起來(lái)則非常困難。 (3) 特征模式匹配 特征模式匹配是指圖像中的物體特征同模型庫(kù)中的模型相匹配。在許多物體識(shí)別任務(wù)中,待識(shí)別的物體的數(shù)量較多,每一個(gè)物體擁有的特征也有許多。顯然,窮舉匹配方法可以解決識(shí)別問(wèn)題,但識(shí)別效率太低,不是很實(shí)用。因此,在建立匹配方法時(shí),必須考慮特征的有效性和匹配算法的高效率。 (4) 假設(shè)生成 為了有效地提高識(shí)別效率,可以根據(jù)物體特征首先建立可能的物體集合,并給每一可能的物體分配置概率值?!凹僭O(shè)生成”過(guò)程基本上是一種啟
6、發(fā)式過(guò)程,由此可以減小搜索空間。假設(shè)生成過(guò)程特別注重使用應(yīng)用域知識(shí),將某種置信概率值分配給該應(yīng)用域中的不同物體。 (5) 物體驗(yàn)證 如何使用物體模型,從給定圖像中的可能物體集合中選擇最有可能的物體?每一個(gè)可能物體的存在可以用它們的模型來(lái)證明。我們必須測(cè)試每一個(gè)可能的假設(shè)來(lái)驗(yàn)證一個(gè)物體的存在或忽略這個(gè)物體的存在。如果模型是幾何模型,則很容易用攝像機(jī)的位置和其它場(chǎng)景參數(shù)來(lái)驗(yàn)證物體。 按照問(wèn)題的復(fù)雜性,圖16.1的一個(gè)或多個(gè)模塊可能變得不重要,這主要取決于問(wèn)題的復(fù)雜度。舉例來(lái)說(shuō),基于模式識(shí)別的物體識(shí)別系統(tǒng)不使用任何基于特征的匹配或物體驗(yàn)證;它們直接給物體指定概率并選擇具有最大概
7、率的物體。 16.2物體識(shí)別的復(fù)雜度 我們知道,場(chǎng)景圖像與照明、攝像機(jī)參數(shù)、攝像機(jī)位置等因素有關(guān),因此,要從一幅圖象中識(shí)別物體,特別是從包含多個(gè)物體的圖像中識(shí)別特定的物體,必須考慮這些因素。物體識(shí)別的復(fù)雜度依賴于以下幾個(gè)因素: (1) 場(chǎng)景的不變性 場(chǎng)景的復(fù)雜度取決于獲取圖像時(shí)的條件(照明、背景、攝像機(jī)參數(shù)和觀察點(diǎn) )是否同模型建立條件相似。如前幾章所置述,場(chǎng)景的條件顯著地影響同一物體的圖像。在不同的場(chǎng)景條件下,不同特征檢測(cè)器的性能顯著不同。因此必須考慮背景、其它物體以及照明的特性,以決定哪種特征可以得到有效而可靠地檢測(cè)。 (2) 圖像模型空間 在某
8、些應(yīng)用中,三維物體可以近似地認(rèn)為是二維物體,此時(shí)的物體模型可以用二維特征來(lái)表示。如果模型是三維且不能忽略透視效應(yīng),那樣情況就變得很復(fù)雜。在這種情況下,特征是在二維圖像空間中檢測(cè)的,而物體的模型可能是在三維空間中表示的。這樣,同一個(gè)三維空間特征可能在三維圖像中表現(xiàn)為不同的特征。在動(dòng)態(tài)圖像分析中,由于物體運(yùn)動(dòng),這種情況也會(huì)發(fā)生。 (3) 模型庫(kù)中物體的數(shù)目 如果物體的數(shù)目很少,則可以直接使用順序窮舉匹配方法,無(wú)需假設(shè)生成階段。如果物體的數(shù)目很大,則假設(shè)生成階段是很重要的。用于物體識(shí)別的特征選擇計(jì)算量也隨著物體數(shù)量的增加而迅速地增加。 (4) 圖像中物體的數(shù)目和遮擋問(wèn)題 如果圖
9、像中只有一個(gè)物體,它可能是完全可見(jiàn)的。隨著圖像中物體的數(shù)目增加,遮擋概率也隨之增加。在許多圖像分析中,遮擋是一個(gè)嚴(yán)重的問(wèn)題。遮擋導(dǎo)致了原先特征點(diǎn)的消失,新特征點(diǎn)的產(chǎn)生。因此,在假設(shè)驗(yàn)證階段就應(yīng)該考慮遮擋問(wèn)題。一般來(lái)說(shuō),識(shí)別任務(wù)的難度隨著圖像中物體數(shù)目的增加而增大。圖像中遮擋物體的存在也使圖像分割難度增大。 根據(jù)物體識(shí)別任務(wù)所在的空間,常把物體識(shí)別分為二維識(shí)別和三維識(shí)別。 (1) 二維 在許多應(yīng)用中,圖像是從足夠遠(yuǎn)的距離上獲取的,因此可以認(rèn)為圖像是通過(guò)正交投影 生成的。如果物體總是在場(chǎng)景中的一個(gè)穩(wěn)定位置,那么也可以認(rèn)為是二維情況。在這些應(yīng)用中,可以使用二維模型
10、數(shù)據(jù)庫(kù)。二維物體識(shí)別一般有兩種可能的情況: l 物體沒(méi)有被遮擋 ,如遙感和許多工業(yè)應(yīng)用場(chǎng)合。 l 物體被其它物體遮擋或者只有部分可見(jiàn),如識(shí)別堆放物體問(wèn)題。 (2) 三維 從不同的視角獲取同一物體的圖像可能是完全不同的,此時(shí)識(shí)別物體需要三維模型。在物體識(shí)別過(guò)程中,還要考慮投視投影以及獲取圖像的視角的影響。對(duì)于三維情況,有兩種用于物體識(shí)別任務(wù)的信息: i 灰度圖像 灰度圖像沒(méi)有明顯包含物體表面信息,用灰度圖像可以識(shí)別對(duì)應(yīng)于物體三維結(jié)構(gòu)的特征 i 2.5維圖像 在許多應(yīng)用中,以觀察者為中心的坐標(biāo)系中的物體表面可以直接通過(guò)測(cè)距成像傳感器獲取的距離圖像或通過(guò)立體灰度圖像對(duì)計(jì)算出來(lái)的
11、深度圖來(lái)表示,這里的深度圖和距離圖像即為 2.5維圖像。物體的曲面信息可以有效地用于物體識(shí)別任務(wù)。 16. 3圖像矩不變量特征表示 矩不變量特征主要是針對(duì)二維識(shí)別情況提出來(lái)的。人是很容易從圖象中識(shí)別出特定的物體形狀;但對(duì)于機(jī)器視覺(jué)來(lái)說(shuō)卻是一件難事。一方面,圖象分割受到背景與物體之間的反差影響以及光源、遮擋等影響,不容易實(shí)現(xiàn);另一方面,攝象機(jī)從不同的視角和距離獲取的同一場(chǎng)景的圖象是不同的,這樣給形狀的提取和識(shí)別帶來(lái)很大困難。人們對(duì)二維形狀的提取和識(shí)別已經(jīng)做了大量的研究,提出了許許多多的方法。本節(jié)僅僅介紹一種被廣泛使用的矩不變量特征。 矩不變量是指物體圖象經(jīng)過(guò)平移、旋轉(zhuǎn)以及比例變換仍然不變的
12、矩特征量。設(shè)二維物體的圖象用表示。其階矩定義為: (16.1) (16.2) 其中 零階矩,當(dāng)相當(dāng)于物體密度時(shí),則零階矩是密度的總和,即物體的質(zhì)量。一階矩和分別除以零階矩后所得的和是物體質(zhì)量中心的坐標(biāo),或者直接表示的是區(qū)域灰度重心的坐標(biāo)。 中心矩反映區(qū)域中灰度重心分布的度量。例如和分別表示圍繞通過(guò)灰度重心的垂直和水平軸線的慣性矩。若>,則可能是一個(gè)水平方向拉長(zhǎng)的物體。和的幅值可以度量物體對(duì)于垂直和水平軸線的不對(duì)稱性。如果是完全對(duì)稱的形狀,其值應(yīng)為零。 規(guī)范化中心矩記作,定義為 (16.
13、3) 其中 利用二階和三階規(guī)范化中心矩可以導(dǎo)出下面七個(gè)不變矩組: (16.4) (16.5) (16.6) (16.7) (16.8) (16.9) (16.10) Hu M.K.在1962年已
14、證明這個(gè)矩組對(duì)于平移、旋轉(zhuǎn)和比例變化都是不變的。 在實(shí)際中,用上式計(jì)算形狀的矩特征不變量,其數(shù)值分布范圍在之間,顯然,矩不變量特征值越小,對(duì)識(shí)別結(jié)果的貢獻(xiàn)也越小。為此,可以對(duì)上述七個(gè)矩不變量進(jìn)行如下修正: (16.11) 用上述公式得到矩特征不變量值分布范圍大約在之間. 在使用矩不變量時(shí),還要注意以下幾個(gè)問(wèn)題: (1) 二維矩不變量是指二維平移、旋轉(zhuǎn)和比例變換下的不變量,因此,對(duì)于其它類型的變換,如仿射變換、射影變換,上述的矩不變量是不成立的,或只能作為近似的不變量。 (2) 對(duì)于二值區(qū)域圖像,區(qū)域與其邊界是完
15、全等價(jià)的,因此可以使用邊界的數(shù)據(jù)來(lái)計(jì)算矩特征,這樣可以大大提高矩特征的計(jì)算效率。 (3) 矩特征是關(guān)于區(qū)域的全局特征,若物體的一部分被遮擋,則無(wú)法計(jì)算矩不變量,在這種情況下,可以使用物體區(qū)域的其它特征來(lái)完成識(shí)別任務(wù)。 16.4三維物體模型表示 圖像是場(chǎng)景在圖象平面上的一種透視投影表示,因此在“以攝像機(jī)為中心的坐標(biāo)系”,或“以觀察者為中心”的坐標(biāo)系中表示物體是很自然的,當(dāng)然也可以在“以物體為中心”的坐標(biāo)系中表示物體,或在世界坐標(biāo)系中表示物體。不過(guò),選擇合適的坐標(biāo)系會(huì)有利于坐標(biāo)的變換、特征檢測(cè)和后處理等有關(guān)算法的有效實(shí)現(xiàn)。 在工程研究領(lǐng)域,人們常常通過(guò)犧牲某一部分的代價(jià)來(lái)?yè)Q取另一
16、部分的高性能。在機(jī)器視覺(jué)領(lǐng)域,為了提高某一算法的有效性,通常是以增加運(yùn)算量或增加計(jì)算成本(時(shí)間、存貯空間或硬件成本)為代價(jià)的。用于物體識(shí)別的表示也不例外。因此,設(shè)計(jì)者必須認(rèn)真考慮系統(tǒng)設(shè)計(jì)問(wèn)題中的參數(shù),一般選擇最好的表示。目前,人們已經(jīng)開(kāi)發(fā)出許多物體表示方法這些方法大致分為三大類: i 基于表面的物體模型表示方法,如表面片、網(wǎng)機(jī)表示等。 i 基于體積的物體表示方法,如結(jié)構(gòu)立體幾何、體元或體系表示。 i 基于函數(shù)的表示方法,樣條函數(shù)、超二次曲面等到。 下面討論幾種物體識(shí)別的常用表示方法。 16.4.1 多視圖表示 如果要通過(guò)圖像識(shí)別三維物體,則三維物體必須由若干幅圖
17、像來(lái)表示,這些圖像是從空間中任意點(diǎn)或從特定點(diǎn)拍攝的。對(duì)于大多數(shù)物體來(lái)說(shuō),必須獲取表示該物體各個(gè)方向的形態(tài)的大量圖像才能實(shí)現(xiàn)有效的物體識(shí)別任務(wù)。 用圖像表示物體的一種方法是朝向圖(aspect graph)表示,朝向圖包含了一個(gè)物體的所有穩(wěn)定的視圖。以及所有穩(wěn)定視圖之間的關(guān)系。圖16.2給出了一個(gè)簡(jiǎn)單的物體及其朝向圖,朝向圖的每一個(gè)結(jié)點(diǎn)表示一個(gè)穩(wěn)定的視圖,結(jié)點(diǎn)連線表示從一個(gè)穩(wěn)定視圖到另一個(gè)穩(wěn)定視圖的過(guò)程。 圖 16.2 一個(gè)簡(jiǎn)單物體朝向圖 16.4.2 結(jié)構(gòu)立體幾何 結(jié)構(gòu)立體幾何(constructive solid geometry, CGS)方法使用簡(jiǎn)單的立體基元
18、和一組布爾運(yùn)算來(lái)表示物體,立體基元包括長(zhǎng)方體、圓錐、圓柱和球等簡(jiǎn)單的三維形狀,布爾運(yùn)算是指:并、交、差。CGS表示式如下:
19、分有限。這些表示常用于CAD/CAM應(yīng)用中的物體表示。 圖 16.3 物體的CSG表示示意圖 圖16.4 動(dòng)物的參數(shù)化表示 16.4.3 體積表示 三維物體可以用該物體所占三維空間的非重疊子區(qū)域來(lái)表示,即空間占有量。一般非重疊子區(qū)域可以分為標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)兩大類。標(biāo)準(zhǔn)子區(qū)域是指正方體、長(zhǎng)方體等基本體素(voxel),利用這種體素構(gòu)造物體的方法稱為體素表示。圖16.5給出了物體的體素表示。 非標(biāo)準(zhǔn)子區(qū)域是指三維物體本身具有的特定的體積單元,利用這種體元構(gòu)成的三維物體表示稱之為單元分解(cell decomposition)表示方法。單元分解將三維物體分割成更小的單元
20、,單元與單元之間不共享體積,將相鄰單元之間的這種關(guān)系稱為準(zhǔn)不連接(quasi-disjoint)。唯一的運(yùn)算是"粘接",如圖 16.6所示。通常要求分解后的單元不包含有孔,而且能夠進(jìn)行簡(jiǎn)單的連接?,F(xiàn)在的兩種常用的單元分解方法是“八叉樹(shù)”和“K級(jí)樹(shù)”,它們可以通過(guò)遞歸體積分解過(guò)程來(lái)構(gòu)造。單元分解的準(zhǔn)不連接性質(zhì)和占有單元,在一些算法中是非常有用的,質(zhì)量可通過(guò)計(jì)算各個(gè)簡(jiǎn)單單元的質(zhì)量并求和來(lái)獲得。這樣可以表明立體是否連成一起,或是否有孔洞,并且能夠容易地以單元分解和空間占有(Spatial occpancy)的形式表示非一致的對(duì)象(人體胸腔內(nèi)部組織構(gòu)造),此時(shí)在每一個(gè)單元中將保留CT數(shù)值,或物質(zhì)的編碼
21、信息,而不是以比特表示的“實(shí)或空”的信息。 空間占有量表示方法包含了物體的詳細(xì)描述,這是一種低層次的描述。這種類型的表示必須經(jīng)過(guò)處理才能得到物體的特定特征,以使得假設(shè)生成過(guò)程成為可能。 圖16.5物體的體元表示 圖 16.6 單元分解示意圖 16.4.4 掃掠表示:廣義柱面 物體形狀的掃掠表示包含一條作為軸線的三維空間曲線,一個(gè)二維截面圖,和定義截面如何沿空間曲線掃掠的掃掠規(guī)則,如圖16.7所示。其中,二維截面可以沿著脊梁線光滑地變化,柱體軸是用虛線表示的,坐標(biāo)軸是相對(duì)于柱體中心軸畫(huà)出的,每一點(diǎn)處的截面垂直于柱體中心軸 對(duì)于許多工業(yè)零件或其它物體,物體
22、的截面一般沿空間軸光滑變化,在這種情況下,這種表示方法是令人滿意的。但對(duì)于任意形狀的物體,光滑條件通常是不滿足的,因而這種表示也是不合適的。 圖16.7物體的廣義柱面表示。 16.4.5函數(shù)表示 我們?cè)诘谄哒潞偷谑陆榻B了大量的函數(shù)據(jù)表示方法,比如三次曲線,雙三次曲面等。這些曲線與曲面是從計(jì)算幾何發(fā)展起來(lái)的,適應(yīng)于曲線和曲面設(shè)計(jì)。在設(shè)計(jì)過(guò)程中,一般不需要所設(shè)計(jì)的曲面與某一已知物體形狀完全一致,比如,人的手指用圓柱體近似等。但是,在物體識(shí)別領(lǐng)域,為了唯一地識(shí)別物體,必須使用一種準(zhǔn)確的函數(shù)來(lái)描述一個(gè)已知物體,當(dāng)然,在實(shí)現(xiàn)中有很大的難度,比如,常常出現(xiàn)相同或相近的物體形狀會(huì)有完全
23、不同的函數(shù)表示。在計(jì)算機(jī)視覺(jué)領(lǐng)域使用的另一類函數(shù)是廣義圓柱面和超二次曲面[Pentland 1986,Bajcsy 1987],這類函數(shù)可以用于一大類物體建模,并具有簡(jiǎn)潔性。 16.4.6 三角形網(wǎng)面表示 物體三維形狀模型的更一般表示是多邊形網(wǎng)面表示,其中應(yīng)用最為普遍的是三角形網(wǎng)面表示。一個(gè)物體三維形狀數(shù)據(jù)通常有兩種途徑得到:一種是根據(jù)實(shí)際物體的幾何形狀通過(guò)CAD方法建立,這種方法對(duì)于規(guī)則形狀的物體建模十分有效,比如,機(jī)械零件、汽車、飛機(jī)等。對(duì)于形狀十分復(fù)雜的物體,比如動(dòng)物、天然物體,則可以利用測(cè)距成像或立體成像系統(tǒng)來(lái)獲取,圖16.8a就是利用激光三角測(cè)距成像得到的深度圖。從物體的不同方向
24、獲取一系列深度圖并鏈扣起來(lái)[Turk 1994],就形成物體完整的三維形狀數(shù)據(jù),然后再用三角形網(wǎng)面表示出來(lái),如圖16.8b所示。圖16.9是圖16.8b網(wǎng)面模型的多分辨率表示[Johnson 1988]。選擇適當(dāng)?shù)姆直媛时硎炯瓤梢员3衷形矬w的形狀,又可以大大減少冗余數(shù)據(jù)。 圖 16.8 視覺(jué)方法建立小鴨玩具模 (a)深度圖像序列中的一幅2.5維圖像 (b)用鏈扣技術(shù)得到的完整三維形狀模型 圖16.9 三維模型多分辨率表示 16.5 特征檢測(cè)與識(shí)別策略 進(jìn)行物體識(shí)別的第一步是物體特征檢測(cè),然后,基于檢測(cè)出來(lái)的圖像特征對(duì)圖像中可能的物體建立假設(shè)公式,并使用
25、物體模型來(lái)驗(yàn)證假設(shè)。并不是所有的物體識(shí)別方法都需要很強(qiáng)的假設(shè)公式和驗(yàn)證步驟。大部分識(shí)別策略已經(jīng)演化,將假設(shè)和驗(yàn)證這兩步以不同的比例組合起來(lái)。圖16.10所示的是假設(shè)和驗(yàn)證的三種不同可能組合方法。即使在這些組合中,應(yīng)用競(jìng)爭(zhēng)(由本節(jié)前面討論因素來(lái)描述)決定如何實(shí)現(xiàn)其中的一步或兩步。下面我們將討論幾種常用的特征以及用于識(shí)別不同環(huán)境中物體的基本策略。 圖16.10識(shí)別策略需要同時(shí)使用假設(shè)生成步驟和驗(yàn)證步驟或其中的一個(gè)步驟,取決于問(wèn)題的復(fù)雜度 16.5.1 特征檢測(cè) 用于物體識(shí)別的特征有許許多多,但大部分特征是基于圖像中的區(qū)域或邊界。假設(shè)區(qū)域或封閉的邊界對(duì)應(yīng)于一個(gè)實(shí)體,該實(shí)體或者
26、是一個(gè)物體,或者是物體上的一部分。下面介紹三類常用的特征。 (1)全局特征 全局特征通常是圖像區(qū)域的一些特征,如面積、周長(zhǎng)、傅里葉描述子和矩特征等。全局特征可以通過(guò)考慮區(qū)域內(nèi)的所有點(diǎn)來(lái)得到,或只考慮區(qū)域邊界上的所有點(diǎn)來(lái)得到。在每一種情況下,目的都是為了找到描述子,該描述子是通過(guò)考慮所有點(diǎn)位置、強(qiáng)度特性和空間關(guān)系來(lái)得到。這些特征在本書(shū)不同的章節(jié)中都討論過(guò)。 (2)局部特征 局部特征通常位于物體的邊界上或者表示區(qū)域中可分辨的一個(gè)小曲面,比如曲率及其有關(guān)的性質(zhì)就屬于局部特征。曲率可能是邊界曲率,也可能是從曲面上計(jì)算出來(lái)的。曲面可以是強(qiáng)度曲面,或是2.5維空間曲
27、面。高曲率點(diǎn),也叫做角點(diǎn)(Corner),在物體識(shí)別中起著重要的作用。局部特征可能包含一個(gè)小邊界段或是一個(gè)表面片的特定形狀。一些常用的局部特征是曲率、邊界段和角點(diǎn)。在有遮擋或圖像不完整的情況下,使用物體的局部特征比用物體的全局特征更有效。圖16.11所示的是一個(gè)物體的局部特征以及特征的圖表示。 圖 16.11 物體局部特征及其圖表示 (3)關(guān)系特征 關(guān)系特征是基于區(qū)域、封閉輪廓或局部特征等不同實(shí)體的相對(duì)位置建立的。這些特征通常包括特征之間的距離和相對(duì)方位測(cè)量值,它們?cè)诨谑褂脠D像區(qū)域或局部特征來(lái)識(shí)別和描述多個(gè)實(shí)體或物體時(shí)是非常有用的。在多數(shù)情況下,圖像中不同實(shí)體的相對(duì)
28、位置就完全定義了一個(gè)物體。完全相同的特征,但關(guān)系特征稍微不同,則可能表示完全不同的物體。 圖16.12使用多局部和全局特征實(shí)現(xiàn)物體的局部表示 在圖16.12中,我們給出物體和用特征進(jìn)行物體描述的方法。局部特征和全局特征都可以用于描述一個(gè)物體。物體之間的關(guān)系可以用于生成復(fù)合特征。 16.5.2 特征分類 分類的基本思想是基于特征的匹配和識(shí)別。模式識(shí)別方法就屬于此種類型,并在許多領(lǐng)域中得到廣泛的應(yīng)用。神經(jīng)元網(wǎng)絡(luò)方法也屬于此種類型。這里簡(jiǎn)單地討論一些常用的分類方法。假設(shè)N個(gè)特征已經(jīng)從圖像中檢測(cè)出來(lái),并被規(guī)范化,以便可以表示在同一度量空間。接下來(lái)假設(shè)一個(gè)物體的特征可以表示為
29、N維特征空間中的一個(gè)點(diǎn),其中N維特征空間是為特定物體識(shí)別任務(wù)而定義的。 圖16.13 二維空間分類圖 (1)最近鄰分類器 假設(shè)有類物體,。第類物體模型(理想特征值)的第個(gè)特征表示為,,其中為第類物體模型的特征數(shù)。圖16.13所示的是一個(gè)二維特征空間。為了確定一個(gè)物體所屬的類別,我們可通過(guò)計(jì)算該物體特征與模型特征空間中每一類物體特征之間的距離來(lái)測(cè)量該物體與物體模型的相似性,并將該物體分配給最近的一類。此距離可能是歐幾里德距離,或者是特征的任何加權(quán)組合。通常,我們計(jì)算未知物體到類物體之間的距離如下: (16.12)
30、 或 (16.13) 其中,是一個(gè)權(quán)重系數(shù)。因?yàn)樘卣骺臻g中,不同的特征對(duì)物體分類的貢獻(xiàn)是不一樣的,對(duì)于貢獻(xiàn)大的特征,可以分配較大的權(quán)重系數(shù),而對(duì)那些對(duì)噪聲十分敏感的特征,則取較小的權(quán)重系數(shù)。上式的距離計(jì)算也可以采用其它的距離公式,如取絕對(duì)值等。 根據(jù)式(16.12)或(16.13),物體分類決策函數(shù)為: (16.14) 則 這一決策方法稱為最小近鄰法。這一方法的錯(cuò)誤分類率分析見(jiàn)教材[邊,1988
31、] 在實(shí)際中,找出某一特定的物體可能是很困難的,因?yàn)樵S多物體可能同屬于一類,如圖16.14所示,其中,特征空間中的每一簇點(diǎn)表示一類物體。表示物體類別簇點(diǎn)矩心或每一類的最近點(diǎn)都可認(rèn)為待識(shí)別的物體類別。在這種情況下,用于分類物體的距離測(cè)度有兩種: i 將一簇點(diǎn)的矩心作為原型物體的特征點(diǎn),計(jì)算到此點(diǎn)的距離。 i 計(jì)算到每一類最近點(diǎn)的距離。 圖16.14物體在特征空間中表示為點(diǎn)的示意圖 (2)貝葉斯分類器 當(dāng)物體在特征空間中的分布不象上面所示的那么直接時(shí),可用貝葉斯方法來(lái)識(shí)別物體。通常情況下,不同物體的特征值有著非常嚴(yán)重的重疊。由圖16.15中所示的一維特
32、征空間可知,幾個(gè)物體可能具有相同的特征值。因此,對(duì)此特征空間的一次觀測(cè)可能會(huì)得到多個(gè)滿足條件的候選物體類別。在此種情況下,可以用貝葉斯方法來(lái)進(jìn)行決策。 圖16.15條件概率密度函數(shù),表示每一類物體特征值的概率 貝葉斯方法使用了有關(guān)物體特征的概率知識(shí)和物體出現(xiàn)的頻度。假設(shè)已知類物體出現(xiàn)的概率為,即先驗(yàn)知識(shí)是。因此,在缺乏其它知識(shí)的情況下,可以通過(guò)把未知的物體分派給最大的那一類來(lái)使誤差概率最小。 關(guān)于物體的類別決策通常是基于特征觀測(cè)做出的。給定概率值,如圖16.15所示。條件概率告訴我們:基于所提供的概率信息,如果觀測(cè)的特征值是,那么此物體屬于類的概率為?;谶@種知識(shí),
33、我們可以計(jì)算物體的后驗(yàn)概率。后驗(yàn)概率是在給定信息和觀測(cè)值的情況下,未知物體屬于類的概率。用貝葉斯規(guī)則,此概率值為 (16.15) 其中 (16.16) 未知物體應(yīng)分派給有最高后驗(yàn)概率的那一類。從上面的公式可以看出,如圖16.16所示,后驗(yàn)概率取決于物體的先驗(yàn)知識(shí)。如果物體的先驗(yàn)概率改變了,結(jié)果也會(huì)變。 上面討論了用于一個(gè)特征識(shí)別的貝葉斯方法。這種方法很容易推廣到多特征情況。 圖16.16 兩種不同先驗(yàn)概率值對(duì)應(yīng)的后驗(yàn)概率值示意圖 16.5.3 特征匹配
34、 分類方法使用了有效的特征和應(yīng)用域知識(shí)。在許多應(yīng)用中,很難得到有關(guān)特征概率和類別概率的先驗(yàn)知識(shí),或得到的數(shù)據(jù)不足以設(shè)計(jì)分類器。在這種情況下,可以使用模型直接匹配未知物體,并選擇最佳匹配為最終分類結(jié)果。下面討論一些基本的匹配方法。 (1) 特征匹配 假設(shè)每一個(gè)特征類別是由它的特征來(lái)表示的。同上面一樣,假設(shè)第類物體的第個(gè)特征值表示為。對(duì)于一個(gè)未知物體,其特征表示為。該物體和第類的相似性由下式給出: (16.17) 其中,是第個(gè)特征的權(quán)值。權(quán)值的選擇是以特征的相對(duì)重要性為基礎(chǔ)的。第個(gè)特征相似值是,它可以是絕對(duì)差、規(guī)范化差或
35、其它距離測(cè)量值。最常用的方法是用下式并考慮同特征一起使用的權(quán)值規(guī)范化。 (16.18) 如果是最高相似度值,則標(biāo)記物體為類。在此方法中,使用的特征可能是局部的,也可能是全局的。注意此方法沒(méi)有使用特征之間的任何聯(lián)系。 (2) 符號(hào)匹配 一個(gè)物體不僅可以用它的特征來(lái)表示,而且可以用特征之間的聯(lián)系來(lái)表示。特征之間的關(guān)系可以是空間的,或者是其它形式的。在這樣的情況下,物體可能被表示為一個(gè)圖形。如圖16.11所示,圖形的每一節(jié)點(diǎn)都表示一個(gè)物體,弧線連結(jié)節(jié)點(diǎn)表示物體之間的聯(lián)系。因此,物體識(shí)別問(wèn)題可以認(rèn)為是圖形匹配問(wèn)題。
36、 一個(gè)圖形匹配問(wèn)題可以定義如下:有兩個(gè)圖形和,包含個(gè)節(jié)點(diǎn),其中表示圖形數(shù),表示節(jié)點(diǎn)數(shù),節(jié)點(diǎn)和節(jié)點(diǎn)之間的聯(lián)系表示為。在圖形上定義一個(gè)相似性測(cè)量值,該測(cè)量值包含了所有節(jié)點(diǎn)和函數(shù)的相似性。 在機(jī)器視覺(jué)的多數(shù)應(yīng)用中,待識(shí)別的物體可能是部分可見(jiàn)的。因此,一個(gè)識(shí)別系統(tǒng)必須能從物體的部分視圖來(lái)識(shí)別它們。那些使用全局特征和要求所有特征都存在的識(shí)別方法在這些應(yīng)用中是行不通的。從某種意義上,部分視圖識(shí)別問(wèn)題和圖形學(xué)中研究的圖形嵌入問(wèn)題是類似的。但當(dāng)我們開(kāi)始考慮節(jié)點(diǎn)相似性和節(jié)點(diǎn)之間關(guān)系時(shí),物體識(shí)別中的問(wèn)題與圖形學(xué)問(wèn)題就不同了。 我們將在16.6節(jié)中,詳細(xì)討論這種匹配。 16.5.4特征
37、標(biāo)記 如果物體的數(shù)量很大,并且無(wú)法使用特征空間劃分來(lái)求解,那么索引方法就變得很有吸引力了。上面討論的符號(hào)匹配方法是一種序貫方法,需要未知物體和所有物體進(jìn)行比較。顯然,這種方法無(wú)法用于含有大量物體的情況。對(duì)于含有大量物體的情況,應(yīng)該使用假設(shè)生成方法來(lái)減小搜索空間。然后在減小后的特征空間中,每一個(gè)物體模型與圖像進(jìn)行比較來(lái)實(shí)現(xiàn)識(shí)別物體。 特征索引方法使用了物體的特征值來(lái)構(gòu)造模型數(shù)據(jù)庫(kù)。當(dāng)在一幅圖像中檢測(cè)到索引集中的一個(gè)或多個(gè)特征時(shí),則可以用此特征來(lái)減小搜索空間,從而減小用于物體識(shí)別的總的時(shí)間。 索引集中的特征必須用模型庫(kù)知識(shí)來(lái)確定。如果這樣的知識(shí)無(wú)法得到,就應(yīng)該分析每一
38、個(gè)來(lái)自特征集中特征出現(xiàn)的頻率,并在特征頻率的基礎(chǔ)上,生成用于構(gòu)造數(shù)據(jù)庫(kù)的索引集。 在索引數(shù)據(jù)庫(kù)中,除了物體的名字和它們的模型外,有關(guān)物體在特征空間中出現(xiàn)的位置和方向信息都應(yīng)該保存,因?yàn)檫@種信息在驗(yàn)證階段很有幫助。 一旦生成候選物體集,就應(yīng)該進(jìn)入驗(yàn)證階段,以選擇最佳候選物體。 16.6 驗(yàn)證 給定一幅物體的圖像,在圖像中找出某類物體出現(xiàn)的數(shù)量及出現(xiàn)的位置,這是基本的驗(yàn)證問(wèn)題,而不是物體識(shí)別問(wèn)題。顯然,可以用驗(yàn)證算法來(lái)一個(gè)一個(gè)地窮舉來(lái)驗(yàn)證每一個(gè)模型在模型庫(kù)中的存在。但是,這樣的窮舉方法在模型庫(kù)較大時(shí)不是有效的方法。實(shí)際上用于驗(yàn)證的方法有許多,這里只討論一些常用的方法
39、。 16.6.1模板匹配 假定有一個(gè)模板,我們希望檢測(cè)圖像中的模板情況。顯而易見(jiàn),把模板放置在圖像中的某一位置,通過(guò)比較模板中的強(qiáng)度值和圖像中對(duì)應(yīng)值,可以檢測(cè)模板在哪一位置的存在。因?yàn)閺?qiáng)度值很少能夠很好地匹配,我們需要測(cè)量模板強(qiáng)度值同對(duì)應(yīng)圖像值之間的不相似度。下面定義幾種測(cè)量手段: (16.19) (16.20) (16.21) 其中是模板區(qū)域。 誤差平方和方法是最流行的測(cè)量方法。在模板匹配的情況下,這種方法可以間接計(jì)
40、算,計(jì)算成本也可以大幅度降低。幾種測(cè)量定義如下: (16.22) 既然假設(shè)和是定值,那么就是一種誤匹配測(cè)量方法。獲取模板所有的位置和情況的合理策略是移動(dòng)模板,并在圖像中的每一點(diǎn)使用匹配測(cè)量方法。這樣,對(duì)于的模板,我們計(jì)算: (16.23) 其中是對(duì)應(yīng)于模板在圖像中的位移。這種算子稱為和之間的互相關(guān)。 我們的目的是找到是局部最大并且超過(guò)某一閾值的位置。然而,當(dāng)假設(shè)和是常量時(shí),上述計(jì)算將會(huì)引入一個(gè)小問(wèn)題。將這一計(jì)算作用于圖像上時(shí),模板是常數(shù),但會(huì)變化。由于值取決于,因此它無(wú)法在不同位置上指示出正確的匹配。這一問(wèn)
41、題可以通過(guò)歸一化互相關(guān)方法來(lái)求解。匹配測(cè)量值可以使用下式計(jì)算: (16.24) (16.25) 由上式可見(jiàn),在時(shí),在處取最大值。在圖16.17中,我們給出了一幅圖像,一個(gè)模板,及使用上式計(jì)算的結(jié)果。應(yīng)該指出,在模板的位置上,我們得到的是局部最大值。 在二進(jìn)制圖像中,上面的計(jì)算可用大大地簡(jiǎn)化。在光學(xué)計(jì)算中,模板匹配方法是一種非常流行的方法:用卷積的頻域特性來(lái)簡(jiǎn)化算式。 模板匹配的主要局限是模板只能進(jìn)行平行移動(dòng)。在旋轉(zhuǎn)或大小變化的情況下,它是無(wú)效的。在物體只有部分是可視圖的情況下,它也無(wú)法工作。
42、 圖 16.17 模板匹配實(shí)驗(yàn)結(jié)果 16.6.2形態(tài)方法 形態(tài)方法也可以用來(lái)檢測(cè)模板的存在及其位置。對(duì)于二進(jìn)制圖像,使用結(jié)構(gòu)元素作為模板并打開(kāi)圖像,將產(chǎn)生與模板匹配的所有位置。對(duì)于灰度圖像,可以使用灰度圖像形態(tài)學(xué)。這些結(jié)果見(jiàn)圖16.18,(a) 結(jié)構(gòu)元素,(b)一幅圖像,(c) 同構(gòu)開(kāi)放。 圖 16.18 形態(tài)方法匹配示意圖 16.6.3符號(hào) 如上面所討論的,如果物體模型和未知物體表示為圖形,那么就必須使用一些方法來(lái)匹配這種圖形表示。在此,我們將定義這些方法所基于的基本概念。 (1) 圖形同構(gòu)性
43、 給定兩個(gè)圖形 和,在和之間找到一個(gè)的映射(同構(gòu)),那么對(duì)于,,以及對(duì)于連結(jié)任意一對(duì)節(jié)點(diǎn)和的中的每一個(gè)邊緣,有一條連結(jié)和的的邊緣。 圖形的同構(gòu)性只用于物體完全可見(jiàn)的情況下。如果一個(gè)物體是部分可見(jiàn),或一個(gè)2.5維描述與一個(gè)三維描述進(jìn)行匹配,則使用圖形嵌入方法或子圖同構(gòu)性方法。 (2)子圖同構(gòu)性 在一個(gè)圖形和另一個(gè)圖形的子圖之間找出同構(gòu)性。 這些方法在用于匹配時(shí)存在的問(wèn)題是圖形同構(gòu)性問(wèn)題。對(duì)于任何合理的物體描述,匹配所需的時(shí)間大得不能接受。幸運(yùn)的是,我們可以使用比圖形同構(gòu)算法所使用的更多的信息。根據(jù)節(jié)點(diǎn)的性質(zhì),這一信息是可以得到的。目前,人們提出了許多
44、啟發(fā)式方法來(lái)求解圖形匹配問(wèn)題。這些匹配方法考慮了如下問(wèn)題: i 性能和關(guān)系的變化 i 性能和關(guān)系的缺乏 i 模型是一類物體的抽象表示 i 情況可能包含額外信息 16.6.4類比法 兩條曲線之間相似性測(cè)量可以在同一個(gè)參考系坐標(biāo)下通過(guò)比較二者,如圖16.19所示.并直接計(jì)算每一點(diǎn)處二者的差值來(lái)實(shí)現(xiàn)[Jain 1995]。注意,在圖16.19中,差值是沿x軸的每一點(diǎn)測(cè)量的。將總是沿某一軸進(jìn)行測(cè)量的??偟牟钪凳墙^對(duì)誤差值的總和或者是誤差平方和。如果沒(méi)有給定準(zhǔn)確的配準(zhǔn),那就必須使用一些基于相關(guān)方法的變異公式。 為了使用三維模型識(shí)別物體,你可以使用計(jì)算機(jī)圖形學(xué)的渲染方法(render
45、ing)來(lái)在圖像中找出物體的外觀,然后同原始圖像進(jìn)行比較,以驗(yàn)證物體的存在。由于用于渲染物體的參數(shù)通常是未知的,因此常??紤]三維模型上的一些顯著的特征,在圖像中檢測(cè)這些特征,并進(jìn)行匹配,以驗(yàn)證模型在圖像中是否存在。這也導(dǎo)致了研究物體三維表面特性及三維物體投影的理論發(fā)展,以確定用于物體識(shí)別的不變性。不變性通常是圖像中的特征和特性,它們常常對(duì)物體的方位和場(chǎng)景照明非常敏感。這些特征在從它們的二維投影中檢測(cè)三維物體是非常有用的。 圖16.19通過(guò)直接測(cè)量?jī)蓚€(gè)實(shí)體的誤差來(lái)實(shí)現(xiàn)兩個(gè)實(shí)體的匹配示意圖 16.7物體定位 物體識(shí)別通常是指從一幅圖像中確定某一已知物體是否存在以及該物體在圖像中的
46、位置和方向。人們通常將物體在圖像中的位置和方向估計(jì)稱為物體定位估計(jì)(pose estimation)。確定物體在圖像中的位置具有重要的實(shí)用價(jià)值,比如,實(shí)現(xiàn)與場(chǎng)景交互作用,分析場(chǎng)景幾何關(guān)系,描述場(chǎng)景,推理場(chǎng)景等。目前,物體定位算法已經(jīng)用于改進(jìn)物體識(shí)別算法[Grimson 1991],比如,通過(guò)驗(yàn)證策略(testing strategy)精確驗(yàn)證物體識(shí)別假設(shè);也可以用于有效地識(shí)別和跟蹤時(shí)變圖像序列中的物體[wheeler 1996,賈 1996];還可以用于檢測(cè)和推理有關(guān)遮擋問(wèn)題。 一般視覺(jué)定位系統(tǒng)的輸入是距離圖像(3D)序列和高度圖像(ID)序列,而物體的模型一般是三維模型(3D-model)
47、,這樣就出現(xiàn)了兩種最富挑戰(zhàn)性的定位問(wèn)題:3D模型在3D圖像中的定位問(wèn)題,簡(jiǎn)稱3D-3D定位估計(jì);3D模型在2D圖像中的定位問(wèn)題,簡(jiǎn)稱3D-2D定位估計(jì)。下面介紹這兩種定位估計(jì)方法。 16.7.1 三維-三維物體定位 3D-3D定位算法的基本思想是在兩組給定的3D點(diǎn)集中,尋找對(duì)應(yīng)關(guān)系,一組是3D模型上的點(diǎn)集,另一組是3D圖像中的點(diǎn)集。3D-3D定位問(wèn)題可以分為兩個(gè)階段,第一個(gè)階段是粗定位(rough pose estimation),第二個(gè)階段是精細(xì)定位(pose refinement)。由于這兩個(gè)階段定位物體的條件和目標(biāo)不全一樣,因此,所創(chuàng)立的算法也不一樣。粗定位是指在深度圖像中確定物
48、體出現(xiàn)區(qū)域和大致的方向,而精細(xì)定位是指給定一幅3D圖像和一個(gè)物體的粗略位置,然后建立3D模型與3D圖像之間的匹配目標(biāo)函數(shù),最佳匹配對(duì)應(yīng)的3D模型定位參數(shù)就是物體在圖像中的位置和方向。顯然,粗定位需要更多的應(yīng)用領(lǐng)域知識(shí)和啟發(fā)式搜索等算法。目前的部分3D-3D物體定位基本上都假設(shè)物體的粗略位置是已知的,實(shí)際上該位置是由人來(lái)確定的。 3D-3D精細(xì)定位可以簡(jiǎn)單地表述如為:給定模型上的一點(diǎn)和模型的當(dāng)前位置,在3D圖像中找出對(duì)應(yīng)點(diǎn)。求對(duì)應(yīng)點(diǎn)的最直接方法是在三維直角坐標(biāo)空間中求最近距離的點(diǎn)。數(shù)學(xué)上,3D模型中的一點(diǎn)x與3D圖像點(diǎn)y的最近距離定義為 其中,是3D圖像點(diǎn)集,上式中搜索最近點(diǎn)的理論復(fù)雜度
49、為O(||)。 如果圖像上一組點(diǎn)與模型上一組點(diǎn)的距離都達(dá)到最近,則圖像與模型對(duì)正(alignment)。從模型的初始位置一直到對(duì)正位置,實(shí)際上是一個(gè)剛體變換。剛體變換仍然用一個(gè)矢量對(duì)表示,是一個(gè)旋轉(zhuǎn)矩陣,是一個(gè)3D平移矩陣矢量。每一個(gè)對(duì)應(yīng)相對(duì)于定位參數(shù)提供3個(gè)線性約束 (16.27) 通常,3D數(shù)據(jù)點(diǎn)補(bǔ)噪聲污染 其中是一個(gè)隨機(jī)3D變量,假定服從均值為0的正態(tài)分布,則對(duì)于n個(gè)對(duì)應(yīng)點(diǎn), 求解定位參數(shù)變?yōu)閷?duì)最小
50、二乘方誤差求極小化 (16.28) 上式看起來(lái)比較容易求解。顯然旋轉(zhuǎn)矩陣只有3個(gè)自由度,因此必須滿足 其中第一個(gè)約束表示R的各列是正交的,第二個(gè)約束條件保證旋轉(zhuǎn)變換是剛體變換。在實(shí)際中,要考慮這些約束又要使用線性求解的方法有相當(dāng)?shù)睦щy,因此,通常使用四元數(shù)矢量q來(lái)表示旋轉(zhuǎn)變換(見(jiàn)第十二章),,其中是一個(gè)標(biāo)量,這樣,剛體變換可用7個(gè)矢量p來(lái)表示 (16.29) [Sanso 1973]首先將四元數(shù)表示用于攝影測(cè)量領(lǐng)域3D-3D定位問(wèn)題,然后由[
51、Faugeras 1986] 引入計(jì)算機(jī)視覺(jué)領(lǐng)域求解物體定位問(wèn)題。使用四元數(shù)表示求解式(16.28)可以得到解析解,研究這一工作的還有[Horn 1987]、[Haralick 1989]和[Arun 1987]。 (1)M-估計(jì) 如果觀察數(shù)據(jù)的誤差不服從正態(tài)分布,則最小二乘法誤差估計(jì)方法就不適用上述定位參數(shù)的求解,此時(shí),可以使用M-估計(jì)算法[Haralick 1989], M是指最大似然估計(jì)(Maximun likelihood estimation)。M-估計(jì)算法是一種魯估計(jì)算法,其最一般形式為 (16.30) 其中是關(guān)
52、于誤差 的任意函數(shù),的等價(jià)概率分布函數(shù)是 (16.31) 這樣,M-估計(jì)是的最大似然估計(jì)。 如前所述,最小二乘估計(jì)對(duì)局外點(diǎn)十分敏感。最小二乘估計(jì)對(duì)應(yīng)于的M-估計(jì)是 (16.32) 相對(duì)于p求E的偏導(dǎo)數(shù)并置偏導(dǎo)數(shù)等于0: (16.33) 令則有 (16.34) 是一個(gè)權(quán)重系數(shù),當(dāng)使用純最小二乘方估計(jì)時(shí), ,即每一個(gè)誤差值具有相等的置信度,而與誤差值大小無(wú)關(guān)。為了避免局外點(diǎn)對(duì)估計(jì)的
53、影響,可以使用如下閾值化條件 (16.35) 即當(dāng)某點(diǎn)測(cè)量誤差大于閾值時(shí),就忽略該點(diǎn)。關(guān)于,還有其它幾種函數(shù)可供選擇,比如Lorentz's函數(shù)[Press 1991]等 (16.36) (2)精確定位魯棒法 (16.30)式可以重新寫(xiě)為 (16.37) 是一組模型點(diǎn)(相對(duì)于觀察者方向是可見(jiàn)的),是第i個(gè)對(duì)應(yīng)點(diǎn)對(duì)之間的3D距離,定義為 (16.38) (
54、16.39) 上式建立了表示旋轉(zhuǎn)和平移矢量與誤差梯度之間的關(guān)系。這樣,首先在初始位置上計(jì)算誤差函數(shù)E的梯度方向,然后在梯度方向求目標(biāo)函數(shù)極小值對(duì)應(yīng)的位置,再求新位置的誤差函數(shù)值,這樣一直迭代下去。直到前后相鄰兩個(gè)位置對(duì)應(yīng)的誤差函值小于某一個(gè)預(yù)定值為止,圖16.20是使用上述算法的實(shí)驗(yàn)結(jié)果[wheeler 1996] 圖16.20 玩具狗3D定位實(shí)驗(yàn)結(jié)果 (a) 原始高度函數(shù) (b)原始距離圖象 (c)模型初始位置圖(20mm平移,30度旋轉(zhuǎn)) (d)最后位置估計(jì)結(jié)果 16.7.2 二維-二維物體定位 上一節(jié)討論的3D-3D物體定位是在一幅距離圖像中,用3D模型表面
55、點(diǎn)去匹配圖像3D點(diǎn)。本節(jié)討論的3D-2D物體定位是在一幅亮度圖像中,用三維物體模型與二維圖像特征點(diǎn)進(jìn)行匹配,顯然3D-2D物體定位是一個(gè)不適定問(wèn)題,其求解方法與3D-3D完全不同。在3D-3D定位中,物體3D模型是由表面三角片組成,匹配中圖像3D點(diǎn)與3D模型點(diǎn)的最近距離實(shí)際上是圖像3D點(diǎn)與3D模型三角片之間的最近距離。在3D-2D匹配中,由于輸入的是一個(gè)亮度圖像,只包含了物體某一個(gè)朝向(aspect)的亮度分布,而我們可用的匹配特征則是物體在此朝向時(shí)表面處的邊緣特征。因此,用于3D-2D定位的物體模型必須包含物體邊緣特征,這樣,3D模型匹配與亮度圖像的匹配就變?yōu)?D模型的邊緣與亮度圖像中的邊緣
56、之間的匹配。 由上述的討論可知,3D-3D定位只涉及到物體固有的幾何特征——3D幾何形狀,并且匹配空間和數(shù)據(jù)空間都是3D空間,而3D-2D定位不僅涉及到受許多其它因素影響的亮度函數(shù),而且匹配空間、數(shù)據(jù)空間維數(shù)不相同,因此,3D-2D定位要比3D-3D難得多。 16.8 神經(jīng)元網(wǎng)絡(luò) 神經(jīng)元網(wǎng)絡(luò)方法已經(jīng)用于物體識(shí)別任務(wù)。神經(jīng)元網(wǎng)絡(luò)可以實(shí)現(xiàn)物體的分類方法。其吸引力就在于使用類別的非線性邊界來(lái)劃分類別特征空間的能力。這些非線性邊界可以通過(guò)網(wǎng)絡(luò)的訓(xùn)練來(lái)得到。在訓(xùn)練階段,需要示意許多待識(shí)別物體的許多情況。如果訓(xùn)練集在識(shí)別階段得到仔細(xì)選擇,以便將以后碰到的所有的情況都表示出來(lái),然后,網(wǎng)絡(luò)在特征
57、空間對(duì)分類邊界進(jìn)行學(xué)習(xí)。在識(shí)別階段,網(wǎng)絡(luò)同其它分類器就完全一樣了。 神經(jīng)網(wǎng)絡(luò)最有吸引力的特點(diǎn)是使用非線性邊界的能力和學(xué)習(xí)的能力。最大的局限是無(wú)法引入關(guān)于應(yīng)用領(lǐng)域的已知事實(shí)以及調(diào)試操作時(shí)的困難。 思考題 16.1 列出物體識(shí)別系統(tǒng)的主要組成模塊,并討論它們?cè)谧R(shí)別任務(wù)中的作用。 16.2 什么是朝向圖?請(qǐng)闡述使用朝向圖識(shí)別物體識(shí)別的過(guò)程。 16.3 什么是特征空間?怎樣使用特征空間識(shí)別物體? 16.4 神經(jīng)網(wǎng)絡(luò)最吸引人的特點(diǎn)之一是它們的學(xué)習(xí)能力。它們學(xué)習(xí)的能力在物體識(shí)別中是如何使用的?哪種模型可用神經(jīng)網(wǎng)絡(luò)?你如何介紹你關(guān)于神經(jīng)網(wǎng)絡(luò)中的物體知識(shí)? 16.5 討論模板匹配。在哪種類型
58、的應(yīng)用中你可用用模板匹配?模板匹配的主要局限是什么? 16.6 用三角面畫(huà)一個(gè)4面體的面圖。 16.7 模板g和圖像f,如下圖所示,用歸一化的相關(guān)方法匹配,求: (1) 相關(guān)數(shù) (2) (3) 歸一化相關(guān)數(shù)M[i,j] 計(jì)算機(jī)練習(xí)題 16.1 利用一個(gè)物體識(shí)別系統(tǒng)從其部分視圖中識(shí)別物體。圖像中的物體是來(lái)自于一個(gè)大約10個(gè)物體的組,其中物體??梢栽谵k公室場(chǎng)景中找到。只選擇差不多是二維的物體(硬幣、鑰匙、墊子、商業(yè)卡片等)??紤]把攝像機(jī)放在桌子上8英尺高的地方。用多個(gè)隨意的圖像,其中這些物體以不同方式出現(xiàn),來(lái)測(cè)試你的系統(tǒng)。 16.2 繼續(xù)上面的例子,如今考慮三維的物體(如鼠標(biāo),訂書(shū)機(jī)等)重新設(shè)計(jì)和重新使用原型物體識(shí)別系統(tǒng)。本系統(tǒng)應(yīng)能從其部分視圖中識(shí)別三維物體。 16.3假設(shè)在你的模型庫(kù)中有大量的物體。重新設(shè)計(jì)你的系統(tǒng)以有效地完成大量物體的識(shí)別任務(wù)。 專心---專注---專業(yè)
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。