一種基于情感視覺單詞的圖像分類算法
一種基于情感視覺單詞的圖像分類算法#
呂微微,宋澤海,馮松鶴*
(北京交通大學計算機與信息技術(shù)學院,北京 100044)
5
10
15
20
25
摘要:提出了一種基于 bag of emotional words 模型的圖像情感分類算法。該算法基于視
覺心理學的研究成果,采用顯著區(qū)域加權(quán)的方式建立圖像的情感視覺單詞表示, 實現(xiàn)圖像情
感語義的分類。首先,提取圖像集的彩色描述子 CSIFT 特征,隨后搭建情感視覺單詞(檢測
顯著區(qū)域、加權(quán)、Emotional words 向量的建立),最后將該情感視覺單詞出現(xiàn)的加權(quán)頻率
作為圖像的情感表示,采用多類別分類器 SVM 完成情感分類任務(wù)。仿真實驗結(jié)果表明,該算
法比以往的圖像情感分類方法分類效果明顯提高,為今后繼續(xù)研究圖像的情感分類奠定了基
礎(chǔ)。
關(guān)鍵詞:圖像情感分類;bag of emotional words;顯著區(qū)域;加權(quán);CSIFT
中圖分類號:TP391
A novel emotional words based images classification
algorithm
Lv Weiwei, Song Zehai, Feng Songhe
(Institute of Computer & Information Technology, Beijing Jiaotong University, Beijing 100044)
Abstract: We propose a novel emotional words based images classification algorithm. Based on
the research on visual psychology, the proposed model applies the salient regions weighted
method to create emotional semantic words and achieve the classification of image emotional
semantics. The color descriptor CSIFT is first extracted, after which we create emotional visual
words through salient regions detection, weight choosing and vector creation of the emotional
words. Finally, the weighted frequency of those emotional visual words is used to present the
emotion of the image, and we use multi-classifier SVM to do the classification. The simulation
results show that the model is more effective than the previous methods, laying a new foundation
for future research on image emotional classification.
Keywords: image emotional classification; bag of emotional words; salient regions; Weight;
CSIFT
30
0 引言
隨著互聯(lián)網(wǎng)圖像的海量增長及計算機技術(shù)的飛速發(fā)展,圖像的有效組織和檢索手段逐漸
引起人們的重視。目前基于內(nèi)容的圖像檢索系統(tǒng)主要關(guān)注于圖像低層視覺特征的處理,對人
的愛好、情感等因素考慮較少,忽略了情感的影響和作用。然而,在實際應(yīng)用中很多圖像不
35
僅攜帶大量的表象信息,還蘊含著豐富的情感信息。如何有效的表達和描述人觀察圖像后所
引起的情感感覺并加以量化,從而實現(xiàn)基于情感語義的圖像分類,是一個嶄新且具有挑戰(zhàn)性
的前沿課題。Yoshida
[1]
并將它們組成的矢量作為圖像顏色特征,用線性映射(linear mapping)策略完成圖像的情感識
別;清華大學的 Li Shuo
[2]
應(yīng)用 David Lowe
[3]
提出的尺度不變特征變換(Scale—Invariant
40
Feature Transform, SIFT) SIFT 描述子作為圖像的特征,完成圖像的情感識別;Wang 等人[4]
分別提取圖像的亮度、顏色溫度、飽和度和對比度作為物理特性,然后采用回歸支持向量機
學習情感類別;Chen 等人[5]基于 HSV 顏色空間的 non-uniform 量化直方圖利用 Bayesian 分
基金項目:國家自然科學基金項目(61100142)
作者簡介:呂微微,(1985-),女,碩士研究生,多媒體信息處理。 E-mail: china_lvwei@
通信聯(lián)系人:宋澤海,(1956-),男,高級技工,多媒體信息處理。E-mail: zhsong@
-1-等學者將圖像分為多個子塊,計算每個圖像子塊的平均顏色強度,
類器算法識別情感類別。這些算法雖然在一定程度上能夠彌合底層視覺特征和高層語義之間
的語義鴻溝,但是分類效果卻并不理想。原因在于圖像的情感語義是通過人的感知獲得的,
45
50
55
60
65
因此忽略視覺和心理學效應(yīng),單純地通過統(tǒng)計的方式獲取情感語義顯然是不合適的。在物體
視覺傳達的各種因素中,人們往往首先注意到物體的顏色,然后是是形狀、紋理或其他特性。
這使人們普遍認識到,顏色具有召喚情感的力量,色彩可以說是最具有情感號召力的特征,
并且根據(jù)視覺心理學的研究成果,人在觀察圖像時往往會被其中個別顯著物體所吸引,人們
對圖像的理解往往也基于這些顯著物體??梢妶D像中顯著物體對人的情感的影響要遠遠大于
其它區(qū)域,其更能反映一幅圖像的情感?;谏鲜霭l(fā)現(xiàn),本論文提出一種基于情感視覺單詞
的分類算法(bag of emotional words, BOEW)如圖 1 所示,首先采用密度采樣提取圖像集
的 CSIFT(Colored scale invariant feature transform)[6]特征,該特征是一種基于彩色圖像的 SIFT
方法,先計算彩色不變量再用 SIFT 方法計算特征點,克服了 SIFT 特征忽略顏色信息的缺
點。其次,檢測圖像的顯著區(qū)域,確定不同區(qū)域?qū)D像反映情感的“貢獻”率(權(quán)值)。然后
用 K-Means[8]聚類產(chǎn)生情感視覺單詞詞典,并使用一種全新的自頂向下的加權(quán)方式,對情感
視覺單詞進行加權(quán),完成圖像的矢量表示,最后采用多分類 SVM 完成圖像的情感分類。該
算法結(jié)合視覺心理學的研究成果,更符合人們對圖像情感的認識過程。
圖1 基于情感單詞的圖像情感分類算法流程圖
Fig.1 Image emotional classification algorithm flow based emotional words
1 情感視覺單詞生成
圖像中含有大量的信息,不同的顏色、形狀和紋理等特征會使人產(chǎn)生不同的心理反應(yīng),
如高興、激動、傷心等。因此選擇與情感緊密相關(guān)的特征來描述圖像是提高分類準確率的前
提,本論文采用包含顏色和形狀信息的 CSIFT 作為描述圖像的特征。
1.1 CSIFT 彩色描述子
顏色不變量 Kubelka—Munk 理論[7]描述了物體的光譜輻射特性,其模型表達為:
E(ë, x) = e(ë, x)[1? ñ f (x)]2 R∝(ë, x)
+ e(ë, x)ñ f (x)
(1)
式中 ë 表示波長, x 為二維矢量,表示觀測位置, e(ë , x) 表示光譜強度, ñ f ( x) 表示 x
-2-
70
的 Fresnel 反射系數(shù), R∝ (ë, x) 表示材料反射率, E(ë, x) 為觀測處的反射譜。
多數(shù)情況下,e(ë, x) 在各波長上保持不變而與位置有關(guān),將 e(ë, x) 寫成 i(x) 的形式,則
(1)式變?yōu)椋?
E (ë, x) = i(ë , x) R∝ (ë, x)
對 ë 分別求一階、二階導數(shù),然后相除得:
(2)
75
H =
Eë
Eëë
? E / ?ë ? R∝ (ë , x) / ?ë
=
H 為顏色不變量,表征物體的反射特性,它同視點、表面朝向、光強大小、方向、反
射系數(shù)均無關(guān)。在符合人眼視覺系統(tǒng)和 CIE-1964-XYZ 標準的條件下,通過 RGB 到 XYZ 和
XYZ 到高斯顏色模型的兩次線性變換,可得到 RGB 的高斯顏色模型 (E, Eë , Eëë ) :
? E ? ?0.06 0.63 0.27 ? ? R ?
ë
? Eëë ? ?0.34 ?0.60 ?0.17? ? B ?
(4)
80
85
90
所以彩色圖像的顏色不變量 H 表示函數(shù)可由(3)式和(4)式導出。
CSIFT 算法和傳統(tǒng)的 SIFT 算法接下來的基本步驟都相同,包括:尺度空間極值檢測、
關(guān)鍵點篩選、關(guān)鍵點定向和特征點描述。其區(qū)別在于:尺度空間檢測過程中,CSIFT 算法用
圖像的顏色不變量 H ( x, y) 代替 SIFT 算法中的 I ( x, y) 圖像函數(shù),因此并沒有改變 SIFT 描述
原子的結(jié)構(gòu)方式,而是用各自區(qū)域內(nèi)顏色模型分量的均值來形成特征向量,建立了對顏色變
化和幾何變化都具有魯棒性的描述符,彌補了 SIFT 算法丟失色彩信息的缺陷。
為了合理地表示圖像情感,本論文采用稠密化采樣,對圖像進行均勻分塊,圖像塊大小
為 8×8 像素,間隔為 4 像素。相較于稀疏采樣,使用稠密采樣更能充分顯示圖像所要表達的
情感信息,提高情感分類的正確率。
1.2 K-Means 聚類
K-Means 算法是典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為
兩個對象的距離越近,其相似度就越大,該算法認為簇是由距離靠近的對象組成的,因此把
得到緊湊且獨立的簇作為最終目標。
利用 K-Means 算法將訓練集提取的 CSIFT 特征 X = {x1, x2 ,? ? ?, xn}進行聚類,根據(jù) CSIFT
描述子集中元素的個數(shù),選取聚類中心數(shù)目,其中聚類中心為:
95
Cr =
1 nr
n
聚類的目標函數(shù)是:
c nr
i )
r =1 j =1
式中,i = 1, 2, ? ? ?nr ,nr 為屬于第 r 類的樣本個數(shù),X i( r ) 表示樣本 X i 屬于 r 類;r = 1, 2, ? ? ?, c ,
c = 600 為聚類中心數(shù), n 為樣本數(shù),最終得到一個有 600 個聚類中心(情感視覺單詞詞典)。
-3-= 2 2 2 2 (3)
?E / ?ë ?R∝ (ë, x) / ?ë
? E ? = ?0.30 0.04 ?0.35? × ?G ?
? ? ? ? ? ?
? ? ? ? ? ?
∑=i 1 X i( r )
value = min ∑ ∑ | X (j i |2
? C
100
1.3 加權(quán)情感視覺向量的生成
1.3.1
顯著區(qū)域的提取
人對圖像的感知和理解是主觀的。圖像情感語義研究的目的是希望計算機能夠描述和表
達人觀察圖像所引起的情感反應(yīng),使用帶有主觀感情色彩的語義表述圖像。目前的算法大部
分側(cè)重于考慮圖像的全局信息,忽略了圖像的目標和背景所攜帶的信息量不同。對于一幅圖
105
110
像來說,不是所有的區(qū)域都可以使人們產(chǎn)生感覺,人的感受可能更多地取決于圖像的某些區(qū)
域,圖像中最能引起用戶興趣,最能表現(xiàn)圖像內(nèi)容的區(qū)域即顯著性區(qū)域或感興趣區(qū)域
(Regions of Interest 簡稱 ROI),如能提取出這些區(qū)域并基于顯著區(qū)域?qū)D像描述,則既利用
了圖像的局部重要特征,又消除了次要信息的干擾,將會大大提高圖像處理和分析的效率和
準確度。論文采用 Itti[10]模型,根據(jù)人類視網(wǎng)膜成像理論,采用高斯金字塔對圖像的各個特
征采用多尺度、多通道濾波器進行非均勻采樣。首先對輸入圖像 I ( x, y) 用高斯金字塔
G( x, y,ó ) 進行非均勻采樣,定義如下:
R( x, y,ó ) = I ( x, y) ? G( x, y,ó )
G( x, y,ó ) =
1
2ðó
2
exp(?
x 2 + y 2
2ó 2
)
其中,ó 是尺度因子,即高斯金字塔 G( x, y.ó ) 的帶寬。其次對金字塔的亮度、 紅色、
115
ï ï o
斯差分 DOG 計算圖像 I ( x, y) 的特征顯著度,公式如下:
DOG(x, y) =
1 x2 + y2 1 x2 + y2
2 2 2 2
)
其中,ó c 是中心 c 的尺度因子,ó s 是周邊 s 的尺度因子。然后將各尺度層上的特征變
換為同一尺度多個級別的特征。計算中央周邊差,歸一化得到三個特征的關(guān)注圖。最終融合
120
125
所有特征的關(guān)注圖生成顯著圖。
如圖 2 所示,為了用情感視覺單詞和顯著區(qū)域獲得圖像的表示,論文提出了自頂向下的
顯著區(qū)域加權(quán)算法,通過檢測情感視覺單詞的顯著度,對相應(yīng)的情感單詞進行加權(quán)累加。圖
中的藍色直方圖表示圖像情感單詞加權(quán)累加結(jié)果,紅色部分表示未加權(quán)的圖像直方圖表示。
該算法的情感視覺單詞采用基本的 bag of words 方法獲得,然后通過對圖像的視覺單詞塊所
對應(yīng)的區(qū)域顯著性的檢測,確定情感視覺單詞的權(quán)值,從而局部影響圖像特征的表示。計算
圖像加權(quán)視覺向量的公式為:
其中
Hist(wm ) =
M
k =1
M N
k =1 m =1
m | I k )ó (wk )
m | I k )ó (wk )
(5)
p(wm | I k ) ∝ ∑ n(I i , wm )Q( I k | I , wm )
k
(6)
130
其中 wm 為視覺詞典中的單詞, I k 為圖像的第 k 個視覺單詞塊, M 為圖像 I 的視覺單
詞塊總數(shù),N 為視覺單詞詞典的大小,式 6 中各項的定義可參考 bag of words 模型。ó (wk )
-4-{ }
綠色、藍色、黃色、方向:è = 0 ,45 ,90 ,135o 提取視覺特征。利用中心 c 和周邊 s 的高
exp(?
) ?
exp(?
2ðóc 2óc 2ðóc 2óc
∑ p(w
∑ ∑ p(w
為圖像視覺單詞 wk 的權(quán)值,如果 wk 在顯著區(qū)域內(nèi),則增大ó (wk ) 的值,否則減小。最終得
到圖像的加權(quán)矢量表示。通過這種自頂向下的加權(quán)得到的圖像的矢量表示更符合人們對圖像
情感認知的過程。
135
140
145
150
圖 2 基于 bag of emotional words 模型的加權(quán)
Fig.2 Weight based bag of emotional words
2 多分類 SVM
論文采用多分類器 SVM 分類器,它利用一定的策略對二值分類法進行擴展應(yīng)用,該結(jié)
構(gòu)的思想是,對于 N 類的訓練樣本,需要訓練 N ?1個支持向量機。第 1 個支持向量機 SVMi
以第一類樣本為正樣本,將第 2,3,L , N 類訓練樣本作為負的訓練樣本來訓練,第 i 個支持向
量機 SVMi 以第 i 類樣本為正的訓練樣本,將第 i + 1, i + 2,? ? ?, N 類訓練樣本作為負的訓練樣
本訓練,直到第 N ?1個支持向量機 SVM N ?1 以第 N ?1類樣本作為正樣本,以第 N 類樣本為
負樣本訓練。在決策時,首先將 SVM1 作為二又樹的根節(jié)點,將屬于第一類的測試樣本決策
出來,不屬于第一類的測試樣本通過 SVM2 進行分類,如此直到 SVM N ?1 將第 N ?1類和 N 類
樣本決策出來。
3 實驗及分析
為了驗證論文所述情感分類算法的有效性,并同其它相關(guān)方法進行客觀比較,論文采用
由美國 NIMH 研究院的情緒與注意研究中心提供的國際情緒圖片系統(tǒng)(International Affective
Picture System,IAPS)作為實驗基準集,如圖 2 所示。IAPS 圖像庫是該研究中心歷時數(shù)年編
制而成的一套經(jīng)過量化評定的情緒刺激圖片系統(tǒng),它涉及到的圖像內(nèi)容相當廣泛,包括獲勝、
娛樂旅游、可愛動物、美麗風光、鬼怪、自然災(zāi)害、親情等等。該圖像集中的圖像均為彩色
圖像且平均尺寸大小均為1024 × 768 像素,其中 396 幅圖像子集被 Mikels 等人[11]手工劃分為:
-5-
155
160
165
170
175
amusement(Am),anger(A),awe(Aw),sadness(S),excitement(E),contentment(C),fear(F)和
disgust(D)8 類情感類別。這 8 類情感類別組成的圖像子集目前已經(jīng)成為圖像情感分類領(lǐng)域中
最常用的基準測試集。
圖 3 IAPS 圖像集
Fig.3 IAPS image database
3.1 情感分類性能分析
論文采用了工作中最常用的混淆矩陣來衡量,為分類性能的評價指標,評價圖像情感分
類算法的性能,BOEW 模型的情感分類算法的平均性能為 58.9%,圖 4 的混淆矩陣給出了該
方法在情感語義概念上的分類準確率,其中 X 軸表示圖像預測的圖像情感類別, Y 軸表示
真實的圖像情感類別。主對角線給出了每一類正確分類樣本所占的比例,非主對角線上的數(shù)
據(jù)則表示未被正確分類的樣本所占的比例。由圖 4 可知,disgust 和 excitement 情感類別取得
了最高的分類正確率,而 angst 類別的情感分類性能最差。分析可知,disgust 和 excitement
均屬于高喚醒度的情感類別,由于圖像喚醒人們的情感強度越高,其所需的視覺單詞越容易
表示。
圖 4 基于 bag of emotional words 模型的圖像情感分類性能混淆矩陣
Fig.4 Image Emotional Classification based bag of emotional words model performance confusion matrix
這一點已經(jīng)被藝術(shù)圖像領(lǐng)域中的相關(guān)研究所論證,如 action 情感只有當圖像中同時出現(xiàn)
冷暖度對比和色調(diào)對比時才可以激起;相反地,只要圖像出現(xiàn)了亮度對比時一般就可以喚起
人們的“relax”情感[12]。高喚醒度的情感類別,情感類內(nèi)的圖像差異性較小,因此較易捕獲情
-6-
感視覺單詞
[13]
180
185
190
力的情感視覺單詞以提高低喚醒度情感圖像的分類性能打下基礎(chǔ)。
3.2 相關(guān)方法的比較與分析
為了證明所提算法的有效性,論文實現(xiàn)了以前的一些相關(guān)算法,并通過在 IAPS 數(shù)據(jù)集
上的實驗來進行比較分析。這里涉及到的相關(guān)工作主要有兩個:基于“詞包模型”的情感分類
算法[2]和基于 brain activity 數(shù)據(jù)的情感分類算法[14]。這兩種圖像情感分類算法都是采用 SVM
作為分類器。具體的性能比較結(jié)果如表 1 所示。從表中容易得出,Li Shuo 的基于“詞包模型”
的情感分類算法表現(xiàn)最差,BOEW 算法其正確率明顯高于 Li Shuo 的算法,這說明不考慮圖
像的顏色特征以及人們對圖像情感的認識過程,單純通過統(tǒng)計的方式實現(xiàn)圖像情感分類的方
法是不合適的。基于 brain activity 數(shù)據(jù)的情感分類性能明顯優(yōu)于其他兩種方法的性能。然而
brain activity 數(shù)據(jù)需要通過特定的儀器才能采集到,它是以探測到的生理學、心理學信號,
借助情感模型的映射關(guān)系,判斷人們當前的情感體驗狀態(tài),而本算法所使用的數(shù)據(jù)是計算機
從圖像上獲取的視覺特征,是由客觀對象的物理特征分析,借助情感特征模型的映射關(guān)系,
預測該對象可能引起的人類情感體驗,因此本算法雖然在性能上較 brain activity 算法[14]略有
遜色,但是 BOEW 算法適應(yīng)性更廣。
195
表 1
實驗結(jié)果對比
Tab. 1 Comparison of experiment result
algorithm
Zhang[14]
Li Shuo[2]
We
model
Brain activity
Bag of words
BOEW
Number
2
8
8
Correct
76%
55.4%
58.9%
綜上所述,論文對在基于 bag of emotional words 加權(quán)模型的圖像情感分類算法中所涉及
的幾個子問題進行了實驗比較與分析,有力的驗證了 BOEW 算法在圖像情感分類任務(wù)中所
200
205
210
215
起到的重要作用,并為今后在圖像情感分類領(lǐng)域中的研究工作提出了有價值的指導與啟發(fā)。
4 總結(jié)
圖像情感分類的研究涉及心理學、美學等諸多領(lǐng)域,符合計算機以人為本、個性化發(fā)展
方向,是一個嶄新且具有很大挑戰(zhàn)性的研究方向。目前,基于情感語義的圖像分類還處于探
索和起步階段。本文主要研究如何設(shè)計一種模擬人類感知圖像情感過程的映射函數(shù),以視覺
心理學的相關(guān)研究為理論基礎(chǔ),通過 bag of emotional words 模型,生成符合人類情感感知規(guī)
則的情感視覺加權(quán)向量,并以此完成圖像的情感分類任務(wù)。相較于以往的只是用圖像形狀特
征[2]或簡單利用機器學習的方法[4,5],本算法成功加入了圖像顏色信息,即彩色描述子 CSIFT
特征,并且對圖像的顯著區(qū)域情感單詞進行了自頂向下的加權(quán)處理。該模型更符合人類對圖
像的認知過程,實驗結(jié)果表明其分類準確率明顯提高,為圖像情感分類開辟了一個新的思路。
單一的特征描述,通常只捕獲單方面的情感視覺信息,因此可以在以后的工作中通過多
特征融合,進一步提高圖像情感分類的精準度。
[參考文獻] (References)
[1] Yoshida K, Kato T, Yanaru T. Image Retrieval System Using Impression Words[J].IEEE International
Conference System, Man and Cybernetics,1998:2780-2784
[2] Li Shuo, Zhang Jin Yu, Tan Chun Hua. Discovering Latent Semantic Factors for Emotional Picture
Categorization[J].17th IEEE International Conference on Image Processing,2010:1065-1068
-7-從而獲取圖像的情感主題。這一發(fā)現(xiàn)將為后續(xù)的工作中致力于尋找更有判別
[3] Lowe D. Distinctive image features from scale-invariant keypoints[J].the 7th International Journal on
220
225
230
235
240
Computer Vision,2004:91-110
[4] Wang W N, Yu Y L, Jiang S M. Image retrieval by emotional semantics: a study of emotional space and
feature extraction[A].IEEE International Conference on SMC'06[C].Taipei:IEEE,2006:3534-3539
SMC'06,2006:3534-3539
[5] Chen C H, Weng M F, Jeng S K, Chuang Y Y. Emotion based music visualization using photos[A].Int. Conf.
on Multimedia Modeling.Kyoto[C].Kyoto.Japan:IEEE.2008,49(03):358-368
[6] Geusebroek J M,Boogaard R,Smeulders A W M,et a1.Color invariance[J].IEEE Transactions on Pattern
Analysis and Machine Intelligence,2001,23(12):1338-1350
[7] Fei-fei Li, Perona P. A Bayesian hierarchical model for learning natural scene categories[A].IEEE Int. Conf. on
CVPR'05[C].Los Alamitos: IEEE Computer Society ,2005.524-531
[8] Cawie R, Savvidou, E. Emotion Recognition in Human-Computer Interaction[J].IEEE signal processing
Magazine,2001,18(1):32-80
[9] Van de Sande K E A, Gevers T, Snoek, C G M. Evaluating Color Descriptors for Object and Scene
Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9): 1582 - 1596
[10] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Trans
on Pattern Analysis and Machine Intelligence,1998, 20(11): 1254-1259
[11] Mikels J A, Fredrickson B L, Larkin G R, Lindberg C M, Maglio S J, Reuter-Lorenz P A.
mikels2005negativenorms.txt. Psychonomic Society Web Archive [2005-1-25]. http://psychonomic.org/archive/
[12] Colombo C, Bimbo A, Pala P. Semantics in visual information retrieval[J]. IEEE Trans. on Multimedia,1999,
6(3):38-53
[13] Liu shuoyan Xu de Songhe Feng. Emotion Categorization using affective-pLSA[J].Optical
Engineering,2010,49(12):5-8
[14] Zhang Q, Lee M. Emotion recognition in natural scene images based on brain activity and gist[J]. IEEE Int.
Joint Conf. on Computational Intelligence[C].Hong Kong,2008.3050-3057
-8-