視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)

上傳人：sha****en 文檔編號(hào)：23640262 上傳時(shí)間：2021-06-10 格式：PPT 頁數(shù)：126 大?。?8.91MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁 / 共126頁

第2頁 / 共126頁

第3頁 / 共126頁

下載文檔到電腦，查找使用更方便

14.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)》由會(huì)員分享，可在線閱讀，更多相關(guān)《視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)（126頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、第十四章：深度學(xué) 習(xí) 2015.9于深圳視頻監(jiān) 控與視頻分析目錄o 概述o 動(dòng) 機(jī)o 深度學(xué) 習(xí) 簡(jiǎn) 介o 深度學(xué) 習(xí) 的訓(xùn) 練過程o 深度學(xué) 習(xí) 的具體模型及方法o 深度學(xué) 習(xí) 的性能比較o 深度學(xué) 習(xí) 的應(yīng) 用o 展望o 參考文獻(xiàn)o 相關(guān) 程序軟件及鏈接概述o 深度學(xué) 習(xí) ：一種基于無監(jiān) 督特征學(xué) 習(xí) 和特征層次結(jié) 構(gòu) 的學(xué) 習(xí) 方法o 可能的的名稱：n 深度學(xué) 習(xí)n 特征學(xué) 習(xí)n 無監(jiān) 督特征學(xué) 習(xí) 動(dòng) 機(jī) 良好

2、的特征表達(dá) ，對(duì) 最終算法的準(zhǔn) 確性起了非常關(guān) 鍵的作用；識(shí) 別系統(tǒng) 主要的計(jì) 算和測(cè) 試工作耗時(shí) 主要集中在特征提取部分；特征的樣式目前一般都是人工設(shè) 計(jì) 的，靠人工提取特征。Low-level sensing Pre-processing Feature extract. Feature selection Inference: prediction, recognition傳統(tǒng) 的模式識(shí) 別方法：動(dòng) 機(jī) 為什么要自動(dòng) 學(xué) 習(xí) 特

3、征o 實(shí) 驗(yàn) ： LP- Multiple Kernel Learningn Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV 09o 采用 39 個(gè) 不同的特征n PHOG, SIFT, V1S+,Region Cov. Etc. o 在普通特征上 MKL表現(xiàn)有限結(jié) 論：特征更重要動(dòng) 機(jī) 為什么要自動(dòng) 學(xué) 習(xí) 特征o 機(jī) 器學(xué) 習(xí) 中，獲得好的特征是識(shí) 別成功的關(guān) 鍵o 目前存在大量

4、人工設(shè) 計(jì) 的特征，不同研究對(duì) 象特征不同，特征具有多樣性，如： SIFT, HOG, LBP等o 手工選取特征費(fèi) 時(shí) 費(fèi) 力，需要啟發(fā) 式專業(yè) 知識(shí) ，很大程度上靠經(jīng) 驗(yàn) 和運(yùn) 氣o 是否能自動(dòng) 地學(xué) 習(xí) 特征？中層特征中層信號(hào) ：動(dòng) 機(jī) 為什么要自動(dòng) 學(xué) 習(xí) 特征“Tokens” from Vision by D.Marr:連續(xù) 平行連接拐角物體部件 : 他們對(duì) 于人工而言是十分困難的，那么如何學(xué) 習(xí) 呢

5、？動(dòng) 機(jī) 為什么要自動(dòng) 學(xué) 習(xí) 特征o 一般而言，特征越多，給出信息就越多，識(shí) 別準(zhǔn) 確性會(huì) 得到提升； o 但特征多，計(jì) 算復(fù) 雜度增加，探索的空間大，可以用來訓(xùn) 練的數(shù) 據(jù)在每個(gè) 特征上就會(huì) 稀疏。o 結(jié) 論：不一定特征越多越好！需要有多少個(gè) 特征，需要學(xué) 習(xí) 確定。動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 人腦視覺機(jī) 理 1981年的諾貝爾醫(yī) 學(xué) 獎(jiǎng) 獲得者 David Hube

6、l和TorstenWiesel發(fā) 現(xiàn) 了視覺系統(tǒng) 的信息處理機(jī) 制發(fā) 現(xiàn) 了一種被稱為 “ 方向選擇性細(xì) 胞的神經(jīng) 元細(xì) 胞，當(dāng)瞳孔發(fā) 現(xiàn) 了眼前的物體的邊緣，而且這個(gè) 邊緣指向某個(gè)方向時(shí) ，這種神經(jīng) 元細(xì) 胞就會(huì) 活躍動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 人腦視覺機(jī) 理人的視覺系統(tǒng) 的信息處理是分級(jí) 的高層的特征是低層特征的組合，從低層到高層的特征表示越來越抽象，越來

7、越能表現(xiàn) 語義或者意圖抽象層面越高，存在的可能猜測(cè) 就越少，就越利于分類動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 視覺的層次性屬性學(xué) 習(xí) ，類別作為屬性的一種組合映射 Lampert et al. CVPR 09類別標(biāo) 簽屬性圖像特征動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 特征表示的粒度具有結(jié) 構(gòu) 性（或者語義）的高層特征對(duì) 于分類更有意義動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 初

8、級(jí) （淺層）特征表示高層特征或圖像，往往是由一些基本結(jié) 構(gòu) （淺層特征）組成的動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 結(jié) 構(gòu) 性特征表示動(dòng) 機(jī) 為什么采用層次網(wǎng) 絡(luò) 結(jié) 構(gòu)o 淺層學(xué) 習(xí) 的局限人工神經(jīng) 網(wǎng) 絡(luò) （ BP算法）雖被稱作多層感知機(jī) ，但實(shí) 際是種只含有一層隱層節(jié) 點(diǎn) 的淺層模型 SVM、 Boosting、最大熵方法（如 LR， Logistic Regression）帶有一層隱層

9、節(jié) 點(diǎn) （如 SVM、 Boosting），或沒有隱層節(jié) 點(diǎn) （如 LR）的淺層模型局限性：有限樣本和計(jì) 算單元情況下對(duì) 復(fù) 雜函數(shù) 的表示能力有限，針對(duì) 復(fù) 雜分類問題其泛化能力受限。深度學(xué) 習(xí)o 2006年，加拿大多倫多大學(xué) 教授、機(jī) 器學(xué) 習(xí) 領(lǐng) 域的泰斗 Geoffrey Hinton在科學(xué) 上發(fā) 表論文提出深度學(xué) 習(xí) 主要觀點(diǎn) ：1）多隱層的人工神經(jīng) 網(wǎng) 絡(luò) 具有優(yōu) 異的特征學(xué) 習(xí) 能力，學(xué) 習(xí)

10、得到的特征對(duì) 數(shù) 據(jù) 有更本質(zhì) 的刻畫，從而有利于可視化或分類；2）深度神經(jīng) 網(wǎng) 絡(luò) 在訓(xùn) 練上的難度，可以通過 “ 逐層初始化 ” （ layer-wise pre-training）來有效克服，逐層初始化可通過無監(jiān) 督學(xué) 習(xí) 實(shí) 現(xiàn) 的。深度學(xué) 習(xí)o 本質(zhì) ：通過構(gòu) 建多隱層的模型和海量訓(xùn) 練數(shù) 據(jù) （可為無標(biāo) 簽數(shù) 據(jù) ），來學(xué) 習(xí) 更有用的特征，從而最終提升分類或預(yù) 測(cè) 的準(zhǔn) 確性。 “ 深

11、度模型 ” 是手段， “ 特征學(xué) 習(xí) ” 是目的。o 與淺層學(xué) 習(xí) 區(qū) 別：1）強(qiáng) 調(diào) 了模型結(jié) 構(gòu) 的深度，通常有 5-10多層的隱層節(jié) 點(diǎn) ；2）明確突出了特征學(xué) 習(xí) 的重要性，通過逐層特征變換，將樣本在原空間的特征表示變換到一個(gè) 新特征空間，從而使分類或預(yù) 測(cè) 更加容易。與人工規(guī)則構(gòu) 造特征的方法相比，利用大數(shù) 據(jù) 來學(xué) 習(xí) 特征，更能夠刻畫數(shù) 據(jù) 的豐富內(nèi) 在信息。

12、深度學(xué) 習(xí)o 好處：可通過學(xué) 習(xí) 一種深層非線性網(wǎng) 絡(luò) 結(jié) 構(gòu) ，實(shí)現(xiàn) 復(fù) 雜函數(shù) 逼近，表征輸入數(shù) 據(jù) 分布式表示。深度學(xué) 習(xí) vs. 神經(jīng) 網(wǎng) 絡(luò)神經(jīng) 網(wǎng) 絡(luò) ：深度學(xué) 習(xí) ：深度學(xué) 習(xí) vs. 神經(jīng) 網(wǎng) 絡(luò)相同點(diǎn) ：二者均采用分層結(jié) 構(gòu) ，系統(tǒng) 包括輸入層、隱層（多層）、輸出層組成的多層網(wǎng) 絡(luò) ，只有相鄰層節(jié) 點(diǎn) 之間有連接，同一層以及跨層節(jié) 點(diǎn) 之間相互無連接，每一層可以看作是

13、一個(gè) logistic 回歸模型。不同點(diǎn) ：神經(jīng) 網(wǎng) 絡(luò) ：采用 BP算法調(diào) 整參數(shù) ，即采用迭代算法來訓(xùn) 練整個(gè) 網(wǎng) 絡(luò) 。隨機(jī) 設(shè) 定初值，計(jì) 算當(dāng) 前網(wǎng) 絡(luò) 的輸出，然后根據(jù) 當(dāng) 前輸出和樣本真實(shí) 標(biāo) 簽之間的差去改變前面各層的參數(shù) ，直到收斂；深度學(xué) 習(xí) ：采用逐層訓(xùn) 練機(jī) 制。采用該機(jī) 制的原因在于如果采用 BP機(jī) 制，對(duì) 于一個(gè) deep network（ 7層以上），殘差傳播到最前面

14、的層將變得很小，出現(xiàn)所謂的 gradient diffusion（梯度擴(kuò) 散）。深度學(xué) 習(xí) vs. 神經(jīng) 網(wǎng) 絡(luò)o 神經(jīng) 網(wǎng) 絡(luò) 的局限性：1）比較容易過擬合，參數(shù) 比較難調(diào) 整，而且需要不少技巧；2）訓(xùn) 練速度比較慢，在層次比較少（小于等于 3）的情況下效果并不比其它方法更優(yōu) ；深度學(xué) 習(xí) 訓(xùn) 練過程o 不采用 BP算法的原因（ 1）反饋調(diào) 整時(shí) ，梯度越來越稀疏，從頂層越往下，

15、誤差校正信號(hào) 越來越小；（ 2）收斂易至局部最小，由于是采用隨機(jī) 值初始化，當(dāng) 初值是遠(yuǎn) 離最優(yōu) 區(qū) 域時(shí) 易導(dǎo) 致這一情況；（ 3） BP算法需要有標(biāo) 簽數(shù) 據(jù) 來訓(xùn) 練，但大部分數(shù) 據(jù)是無標(biāo) 簽的；深度學(xué) 習(xí) 訓(xùn) 練過程o 第一步：采用自下而上的無監(jiān) 督學(xué) 習(xí)1）逐層構(gòu) 建單層神經(jīng) 元。2）每層采用 wake-sleep算法進(jìn) 行調(diào) 優(yōu) 。每次僅調(diào) 整一層，逐層調(diào) 整。這個(gè) 過程可

16、以看作是一個(gè) feature learning的過程，是和傳統(tǒng) 神經(jīng) 網(wǎng) 絡(luò) 區(qū) 別最大的部分。深度學(xué) 習(xí) 訓(xùn) 練過程o wake-sleep算法 :1） wake階段：認(rèn) 知過程，通過下層的輸入特征（ Input）和向上的認(rèn) 知（Encoder）權(quán) 重產(chǎn) 生每一層的抽象表示（ Code），再通過當(dāng) 前的生成（ Decoder）權(quán) 重產(chǎn) 生一個(gè) 重建信息（ Reconstruction），計(jì) 算輸入特征和重建信息殘差，

17、使用梯度下降修改層間的下行生成（ Decoder）權(quán) 重。也就是 “ 如果現(xiàn) 實(shí) 跟我想象的不一樣，改變我的生成權(quán) 重使得我想象的東西變得與現(xiàn) 實(shí) 一樣 ”。2） sleep階段：生成過程，通過上層概念（ Code）和向下的生成（ Decoder）權(quán)重，生成下層的狀態(tài) ，再利用認(rèn) 知（ Encoder）權(quán) 重產(chǎn) 生一個(gè)抽象景象。利用初始上層概念和新建抽象景象的殘差，利用梯

18、度下降修改層間向上的認(rèn) 知（ Encoder）權(quán) 重。也就是 “ 如果夢(mèng) 中的景象不是我腦中的相應(yīng) 概念，改變我的認(rèn) 知權(quán) 重使得這種景象在我看來就是這個(gè) 概念 ” 。深度學(xué) 習(xí) 訓(xùn) 練過程 EncoderDecoder Input Image Class labele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder: 深度學(xué) 習(xí) 訓(xùn) 練過程o 第二步：自頂向下的監(jiān) 督學(xué) 習(xí) 這一步

19、是在第一步學(xué) 習(xí) 獲得各層參數(shù) 進(jìn) 的基礎(chǔ)上，在最頂的編碼層添加一個(gè) 分類器（例如羅杰斯特回歸、 SVM等），而后通過帶標(biāo) 簽數(shù) 據(jù) 的監(jiān)督學(xué) 習(xí) ，利用梯度下降法去微調(diào) 整個(gè) 網(wǎng) 絡(luò) 參數(shù) 。深度學(xué) 習(xí) 的第一步實(shí) 質(zhì) 上是一個(gè) 網(wǎng) 絡(luò) 參數(shù) 初始化過程。區(qū) 別于傳統(tǒng) 神經(jīng) 網(wǎng) 絡(luò) 初值隨機(jī) 初始化，深度學(xué) 習(xí) 模型是通過無監(jiān) 督學(xué) 習(xí) 輸入數(shù) 據(jù) 的結(jié) 構(gòu)得到的，因而這個(gè) 初值更接

20、近全局最優(yōu) ，從而能夠取得更好的效果。深度學(xué) 習(xí) 的具體模型及方法o 自動(dòng) 編碼器（ AutoEncoder ）o 稀疏自動(dòng) 編碼器 (Sparse AutoEncoder)o 降噪自動(dòng) 編碼器 (Denoising AutoEncoders) 深度學(xué) 習(xí) 的具體模型及方法EncoderDecoder Input (Image/ Features)Output Featurese.g.Feed-back /generative /top-downpath Feed-forward /bottom-

21、up path自動(dòng) 編碼器（ AutoEncoder ）深度學(xué) 習(xí) 的具體模型及方法 (Wx) (WTz) (Binary) Input x(Binary) Features ze.g. 自動(dòng) 編碼器（ AutoEncoder ） Encoder filters WSigmoid function (.)Decoder filters WTSigmoid function (.) 深度學(xué) 習(xí) 的具體模型及方法o 稀疏自動(dòng) 編碼器 (Sparse AutoEncoder)限制每次得到的表達(dá) code盡量稀疏限

22、制每次得到的表達(dá) code盡量稀疏深度學(xué) 習(xí) 的具體模型及方法o 稀疏自動(dòng) 編碼器 (Sparse AutoEncoder) Filters Features Sparse CodingInput Patch 深度學(xué) 習(xí) 的具體模型及方法 (Wx)Dz Input Patch xSparse Features ze.g. Encoder filters WSigmoid function (.)Decoder filters DL1 SparsityTraining 稀疏自動(dòng) 編碼器 (Sparse AutoEnco

23、der) 深度學(xué) 習(xí) 的具體模型及方法o稀疏自動(dòng) 編碼器 (Sparse AutoEncoder)1） Training階段：給定一系列的樣本圖片 x1, x 2, ，我們需要學(xué) 習(xí) 得到一組基 1, 2, ，也就是字典。可使用 K-SVD方法交替迭代調(diào) 整 a k， k，直至收斂，從而可以獲得一組可以良好表示這一系列 x的字典。深度學(xué) 習(xí) 的具體模型及方法o稀疏自動(dòng) 編碼器 (Sparse AutoEncoder)2

24、） Coding階段：給定一個(gè) 新的圖片 x，由上面得到的字典，利用 OMP算法求解一個(gè) LASSO問題得到稀疏向量 a。這個(gè) 稀疏向量就是這個(gè) 輸入向量 x的一個(gè) 稀疏表達(dá) 。深度學(xué) 習(xí) 的具體模型及方法o 稀疏自動(dòng) 編碼器 (Sparse AutoEncoder) 深度學(xué) 習(xí) 的具體模型及方法o 降噪自動(dòng) 編碼器 (Denoising AutoEncoders)o 在自動(dòng) 編碼器的基礎(chǔ) 上，對(duì) 訓(xùn) 練數(shù) 據(jù) 加入噪

25、聲，自動(dòng) 編碼器必須學(xué) 習(xí) 去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此，這就迫使編碼器去學(xué) 習(xí) 輸入信號(hào) 的更加魯棒的表達(dá) ，這也是它的泛化能力比一般編碼器強(qiáng) 的原因。深度學(xué) 習(xí) 的具體模型及方法o Autoencoder (most Deep Learning methods)n RBMs / DBMs Lee / Salakhutdinovn Denoising autoencoders Ranzaton Predict

26、ive sparse decomposition Ranzatoo Decoder-onlyn Sparse coding Yun Deconvolutional Nets Yu o Encoder-only n Neural nets (supervised) Ranzato 深度學(xué) 習(xí) 的具體模型及方法o 限制波爾茲曼機(jī) （ Restricted Boltzmann Machine）o 定義：假設(shè) 有一個(gè) 二部圖，同層節(jié) 點(diǎn) 之間沒有鏈接，一層是可視層，即輸入數(shù) 據(jù) 層（ v)，一層是隱藏層

27、 (h)，如果假設(shè) 所有的節(jié) 點(diǎn) 都是隨機(jī) 二值（ 0， 1值）變量節(jié) 點(diǎn) ，同時(shí) 假設(shè) 全概率分布 p(v,h)滿足 Boltzmann 分布，我們稱這個(gè) 模型是 Restricted BoltzmannMachine (RBM)。深度學(xué) 習(xí) 的具體模型及方法o 限制波爾茲曼機(jī) （ Restricted Boltzmann Machine）o 限制波爾茲曼機(jī) （ RBM）是一種深度學(xué) 習(xí) 模型。深度學(xué) 習(xí) 的具體模型及方法o 限制波爾茲曼機(jī)

28、（ Restricted Boltzmann Machine）定義聯(lián) 合組態(tài) （ jointconfiguration）能量：這樣某個(gè) 組態(tài) 的聯(lián) 合概率分布可以通過 Boltzmann 分布和這個(gè) 組態(tài) 的能量來確定：深度學(xué) 習(xí) 的具體模型及方法o 限制波爾茲曼機(jī) （ Restricted Boltzmann Machine）給定隱層 h的基礎(chǔ) 上，可視層的概率確定：（可視層節(jié) 點(diǎn) 之間是條件獨(dú) 立的）給定可視層 v的基礎(chǔ) 上

29、，隱層的概率確定：深度學(xué) 習(xí) 的具體模型及方法o 限制波爾茲曼機(jī) （ Restricted Boltzmann Machine）待求問題：給定一個(gè) 滿足獨(dú) 立同分布的樣本集： D=v(1), v(2), , v(N)，需要學(xué) 習(xí) 模型參數(shù) =W,a,b。求解：最大似然估計(jì) ：我們需要選擇一個(gè) 參數(shù) ，讓我們當(dāng) 前的觀測(cè) 樣本的概率最大對(duì) 最大對(duì) 數(shù) 似然函數(shù) 求導(dǎo) ，即可得到 L最大時(shí) 對(duì) 應(yīng) 的參數(shù) W

30、：p 若隱藏層層數(shù) 增加，可得到 Deep Boltzmann Machine(DBM) 深度學(xué) 習(xí) 的具體模型及方法o Deep Boltzmann Machine(DBM) 深度學(xué) 習(xí) 的具體模型及方法o 深信度網(wǎng) 絡(luò) （ Deep Belief Networks） Deep Belief Networks是在靠近可視層的部分使用貝葉斯信念網(wǎng) 絡(luò) （即有向圖模型），而在最遠(yuǎn) 離可視層的部分使用Restricted Boltzmann Machine的模型

31、。深度學(xué) 習(xí) 的具體模型及方法o 深信度網(wǎng) 絡(luò) （ Deep Belief Networks）深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM） CRBM是為識(shí) 別二維圖像信息而特殊設(shè) 計(jì) 的一個(gè) 多層感知器。概念示范：輸入圖像通過與 m個(gè) 可訓(xùn) 練的濾波器和可加偏置進(jìn) 行卷積，在 C1層產(chǎn) 生 m個(gè) 特征映射圖，然后特征映射圖中每組的 n個(gè) 像素再進(jìn)行求和，加權(quán)

32、值，加偏置，通過一個(gè) Sigmoid函數(shù) 得到 m個(gè) S2層的特征映射圖。這些映射圖再進(jìn) 過濾波得到 C3層。這個(gè) 層級(jí) 結(jié) 構(gòu) 再和 S2一樣產(chǎn) 生 S4。最終，這些像素值被光柵化，并連接成一個(gè) 向量輸入到傳統(tǒng)的神經(jīng) 網(wǎng) 絡(luò) ，得到輸出。深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM）權(quán) 值共享減少參數(shù) 的方法：每個(gè) 神經(jīng) 元無需對(duì) 全局圖像做感受，

33、只需感受局部區(qū) 域（ Feature Map），在高層會(huì) 將這些感受不同局部的神經(jīng) 元綜合起來獲得全局信息。每個(gè) 神經(jīng) 元參數(shù) 設(shè) 為相同，即權(quán) 值共享，也即每個(gè) 神經(jīng) 元用同一個(gè) 卷積核去卷積圖像。深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM）隱層神經(jīng) 元數(shù) 量的確定 p神經(jīng) 元數(shù) 量與輸入圖像大小、濾波器大小和濾波器的滑動(dòng) 步長(zhǎng) 有關(guān)

34、。例如，輸入圖像是 1000 x1000像素，濾波器大小是 10 x10，假設(shè) 濾波器間沒有重疊，即步長(zhǎng) 為 10，這樣隱層的神經(jīng) 元個(gè) 數(shù) 就是 (1000 x1000 )/ (10 x10)=10000個(gè) 深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM）多濾波器情形不同的顏色表示不同種類的濾波器 p每層隱層神經(jīng) 元的個(gè) 數(shù) 按濾波器種類的數(shù) 量翻倍p每層隱層參數(shù) 個(gè) 數(shù)

35、僅與濾波器大小、濾波器種類的多少有關(guān)例如：隱含層的每個(gè) 神經(jīng) 元都連接10 x10像素圖像區(qū) 域，同時(shí) 有 100種卷積核（濾波器）。則參數(shù) 總個(gè) 數(shù)為：（ 10 x10+1） x100=10100個(gè) 深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM）p卷積過程：用一個(gè) 可訓(xùn) 練的濾波器 fx去卷積一個(gè) 輸入的圖像（第一階段是輸入的圖像，后面的階段就是 Fe

36、ature Map了），然后加一個(gè) 偏置 bx，得到卷積層 Cx。p子采樣過程：每鄰域 n個(gè) 像素通過池化（ pooling）步驟變為一個(gè) 像素，然后通過標(biāo) 量 W x+1加權(quán) ，再增加偏置 bx+1，然后通過一個(gè) sigmoid激活函數(shù) ，產(chǎn) 生一個(gè) 大概縮小 n倍的特征映射圖 Sx+1。深度學(xué) 習(xí) 的具體模型及方法o 卷積波爾茲曼機(jī) （ Convolutional RBM）CNN的關(guān) 鍵技術(shù) ：局部感受野、權(quán) 值

37、共享、時(shí) 間或空間子采樣CNN的優(yōu) 點(diǎn) ： 1、避免了顯式的特征抽取，而隱式地從訓(xùn) 練數(shù) 據(jù) 中進(jìn) 行學(xué) 習(xí) ；2、同一特征映射面上的神經(jīng) 元權(quán) 值相同，從而網(wǎng) 絡(luò) 可以并行學(xué) 習(xí) ，降低了網(wǎng) 絡(luò) 的復(fù) 雜性；3、采用時(shí) 間或者空間的子采樣結(jié) 構(gòu) ，可以獲得某種程度的位移、尺度、形變魯棒性；3、輸入信息和網(wǎng) 絡(luò) 拓撲結(jié) 構(gòu) 能很好的吻合，在語音識(shí) 別和圖像處理方

38、面有著獨(dú) 特優(yōu) 勢(shì) 。深度學(xué) 習(xí) 的具體模型及方法o 基于 CRBM的深度學(xué) 習(xí) 框架深度學(xué) 習(xí) 性能比較o Deep nets VS. Boosting 深度學(xué) 習(xí) 性能比較o Deep nets VS. Probabilistic Models 深度學(xué) 習(xí) 性能比較o 隨機(jī) 文法模型n Set of production rules for objectsn Zhu & Mumford, Stochastic Grammar of Images, F&T 2006自動(dòng) 學(xué) 習(xí)人工指定 S.C. Zhu e

39、t al. 深度學(xué) 習(xí) 性能比較基于文法模型的物體檢測(cè) -R. Girshick, P. Felzenszwalb, D. McAllester, NIPS 2011 -Learn local appearance& shape人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比較o 部件和結(jié) 構(gòu) 模型n Defined connectivity graphn Learn appearance / relative position Felzenszwalb & Huttenlocher CVPR00 Fischler and R. Elschla

40、ger 1973 人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比較基于部件與結(jié) 構(gòu) 的分層模型 -Fidler et al. ECCV10 -Fidler & Leonardis CVPR07人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比較o 遞歸和與圖模型 -Leo Zhu, Yuanhao Chen, Alan Yuille & collaboratorsn Recursive composition, AND/OR graphn Learn # units at layer人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比

41、較自動(dòng) 編碼模型 Hinton et al. ICANN11 反卷積網(wǎng) 絡(luò) 模型 Zeiler et al. ICCV11 -Explicit representation of what/where人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比較o 神經(jīng) 網(wǎng) 絡(luò)n Dedicated pooling / LCNlayersn No separation of what/wheren Modality independent (e.g. speech, images) Le et al., ICML12人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 性能比

42、較o 波爾茲曼機(jī)n Homogenous architecturen No separation of what/wheren Modality independent (e.g. speech, images) Salakhutdinov & Hinton AISTATS09人工指定自動(dòng) 學(xué) 習(xí) 深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在圖像識(shí) 別上的應(yīng) 用空間金字塔（Spatial Pyramids ）深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在圖像識(shí) 別上的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在圖像識(shí) 別上

43、的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在圖像識(shí) 別上的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在圖像識(shí) 別上的應(yīng) 用實(shí) 驗(yàn) 在 Caltech 256數(shù) 據(jù) 集上，利用單特征識(shí) 別， Sparse CRBM性能最優(yōu) 深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在音頻識(shí) 別上的應(yīng) 用 Convolutional DBN for audio Max pooling node Detection nodes Max p oling node Detection nodes 深度學(xué) 習(xí) 的應(yīng) 用o

44、深度學(xué) 習(xí) 在音頻識(shí) 別上的應(yīng) 用 Convolutional DBN for audio 深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在音頻識(shí) 別上的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在音頻識(shí) 別上的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在視頻識(shí) 別上的應(yīng) 用 SPACE-TIME DEEP BELIEF NETWORKS 深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在視頻識(shí) 別上的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí)

45、的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多模態(tài) 學(xué) 習(xí) 中的應(yīng) 用如果模態(tài) 間存在著內(nèi) 在的聯(lián) 系，即存在 shared Representation，那么理論上模型應(yīng) 支持訓(xùn) 練一個(gè) 模態(tài) ，而

46、測(cè) 試另一個(gè) 模態(tài) 時(shí) ，仍能獲得好的分類性能。深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多任務(wù) 學(xué) 習(xí) 中的應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在多任務(wù) 學(xué) 習(xí) 中的應(yīng) 用在深度學(xué) 習(xí) 模型中，對(duì) 于相關(guān) 任務(wù) 的聯(lián) 合學(xué) 習(xí) ，往往會(huì) 取得較好的特征表達(dá) ；多任務(wù) 聯(lián) 合學(xué) 習(xí) ，能夠增強(qiáng) 損失函數(shù) 的作用效能；比如：單獨(dú) 進(jìn) 行人臉檢測(cè) 會(huì) 比較難（光照、遮擋等因素），但是當(dāng) 人臉檢測(cè)

47、與人臉識(shí) 別這兩個(gè) 相關(guān) 的任務(wù) 聯(lián) 合學(xué) 習(xí)時(shí) ，人臉檢測(cè) 的難度反而降低了。深度學(xué) 習(xí) 的應(yīng) 用o 基于深度學(xué) 習(xí) 的遷移學(xué) 習(xí) 應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 基于深度學(xué) 習(xí) 的遷移學(xué) 習(xí) 應(yīng) 用特征共享深度學(xué) 習(xí) 的應(yīng) 用o 基于深度學(xué) 習(xí) 的遷移學(xué) 習(xí) 應(yīng) 用深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在大尺度數(shù) 據(jù) 集上的應(yīng) 用p 大尺度數(shù) 據(jù) 集：樣本總數(shù) 100M, 類別總數(shù) 10K, 特征維度 10K 深度學(xué)

48、習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在大尺度數(shù) 據(jù) 集上的應(yīng) 用模型的并行運(yùn) 算化深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在大尺度數(shù) 據(jù) 集上的應(yīng) 用分布式深度學(xué) 習(xí) 模型深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在大尺度數(shù) 據(jù) 集上的應(yīng) 用分布式深度學(xué) 習(xí) 模型深度學(xué) 習(xí) 的應(yīng) 用o 深度學(xué) 習(xí) 在大尺度數(shù) 據(jù) 集上的應(yīng) 用參數(shù) 個(gè) 數(shù) 達(dá) 到 1.15 billion，若不能并行優(yōu) 化參數(shù) ，任務(wù) 無法完成！深度學(xué) 習(xí) 的應(yīng) 用o

49、深度學(xué) 習(xí) 的 State-of-the-art 展望未來需解決的問題：o 對(duì) 于一個(gè) 特定的框架，多少維的輸入它可以表現(xiàn) 得較優(yōu) ？o 對(duì) 捕捉短時(shí) 或者長(zhǎng) 時(shí) 間的時(shí) 間依賴，哪種架構(gòu) 才是有效的？o 如何對(duì) 于一個(gè) 給定的深度學(xué) 習(xí) 架構(gòu) ，融合多種感知的信息？o 如何分辨和利用學(xué) 習(xí) 獲得的中、高層特征語義知識(shí) ？o 有什么正確的機(jī) 理可以去增強(qiáng) 一個(gè) 給定的深度學(xué) 習(xí) 架構(gòu)

50、，以改進(jìn) 其魯棒性和對(duì) 變形及數(shù) 據(jù) 丟失的不變性？o 模型方面是否有其他更為有效且有理論依據(jù) 的深度模型學(xué)習(xí) 算法？ o 是否存在更有效的可并行訓(xùn) 練算法？參考文獻(xiàn)o Tutorials & Background Material Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), pp.1-127, 2009. LeCun,

51、Chopra, Hadsell, Ranzato, Huang: A Tutorial on Energy-Based Learning, in Bakir, G. and Hofman, T. and Scholkopf, B. and Smola, A. and Taskar, B. (Eds), Predicting Structured Data, MIT Press, 2006o Convolutional Nets LeCun, Bottou, Bengio and Haffner: Gradient-Based Learning Applied to Document Recog

52、nition, Proceedings of the IEEE, 86(11):2278-2324, November 1998 Jarrett, Kavukcuoglu, Ranzato, LeCun: What is the Best Multi-Stage Architecture for Object Recognition?, Proc. International Conference on Computer Vision (ICCV09), IEEE, 2009 Kavukcuoglu, Sermanet, Boureau, Gregor, Mathieu, LeCun: Lea

53、rning Convolutional Feature Hierachies for Visual Recognition, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010 參考文獻(xiàn)o Unsupervised Learning ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning. Le,Karpenko, Ngiam, Ng. In NIPS 2011 Rifai, Vincent, Muller,

54、 Glorot, Bengio, Contracting Auto-Encoders: Explicit invariance during feature extraction, in: Proceedings of the Twenty-eight International Conference on Machine Learning (ICML11), 2011 - Vincent, Larochelle, Lajoie, Bengio, Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations

55、in a Deep Network with a Local Denoising Criterion, Journal of Machine Learning Research, 11:3371-3408, 2010. - Gregor, Szlam, LeCun: Structured Sparse Coding via Lateral Inhibition, Advances in Neural Information Processing Systems (NIPS 2011), 24, 2011 - Kavukcuoglu, Ranzato, LeCun. Fast Inference

56、 in Sparse Coding Algorithms with Applications to Object Recognition. ArXiv 1010.3467 2008 - Hinton, Krizhevsky, Wang, Transforming Auto-encoders, ICANN, 2011o Multi-modal Learning Multimodal deep learning, Ngiam, Khosla, Kim, Nam, Lee, Ng. In Proceedings of the Twenty-Eighth International Conferenc

57、e on Machine Learning, 2011. 參考文獻(xiàn)o Locally Connected Nets Gregor, LeCun “Emergence of complex-like cells in a temporal product network with local receptive fields” Arxiv. 2009 Ranzato, Mnih, Hinton “Generating more realistic images using gated MRFs”NIPS 2010 Le, Ngiam, Chen, Chia, Koh, Ng “Tiled

58、convolutional neural networks” NIPS 2010o Distributed Learning Le, Ranzato, Monga, Devin, Corrado, Chen, Dean, Ng. Building High-Level Features Using Large Scale Unsupervised Learning. International Conference of Machine Learning (ICML 2012), Edinburgh, 2012.o Papers on Scene Parsing Farabet, Coupri

59、e, Najman, LeCun, “Scene Parsing with Multiscale Feature Learning, Purity Trees, and Optimal Covers”, in Proc. of the International Conference on Machine Learning (ICML12), Edinburgh, Scotland, 2012. - Socher, Lin, Ng, Manning, “Parsing Natural Scenes and Natural Language with Recursive Neural Netwo

60、rks”. International Conference of Machine Learning (ICML 2011) 2011. 參考文獻(xiàn)o Papers on Object Recognition - Boureau, Le Roux, Bach, Ponce, LeCun: Ask the locals: multi-way local pooling for image recognition, Proc. ICCV 2011 - Sermanet, LeCun: Traffic Sign Recognition with Multi-Scale Convolutional

61、 Networks, Proceedings of International Joint Conference on Neural Networks (IJCNN11) - Ciresan, Meier, Gambardella, Schmidhuber. Convolutional Neural Network Committees For Handwritten Character Classification. 11th International Conference on Document Analysis and Recognition (ICDAR 2011), Beijing

62、, China. - Ciresan, Meier, Masci, Gambardella, Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence IJCAI-2011.o Papers on Action Recognition Learning hierarchical spatio-temporal features for action

63、 recognition with independent subspace analysis, Le, Zou, Yeung, Ng. CVPR 2011o Papers on Segmentation Turaga, Briggman, Helmstaedter, Denk, Seung Maximin learning of image segmentation. NIPS, 2009. 參考文獻(xiàn)o Papers on Vision for Robotics Hadsell, Sermanet, Scoffier, Erkan, Kavackuoglu, Muller, LeCun

64、: Learning Long-Range Vision for Autonomous Off-Road Driving, Journal of Field Robotics,26(2):120-144, February 2009,o Deep Convex Nets & Deconv-Nets Deng, Yu. “Deep Convex Network: A Scalable Architecture for Speech Pattern Classification.” Interspeech, 2011. - Zeiler, Taylor, Fergus Adaptive Decon

65、volutional Networks for Mid and High Level Feature Learning. ICCV. 2011o Papers on Biological Inspired Vision Serre, Wolf, Bileschi, Riesenhuber, Poggio. Robust Object Recognition with Cortex-like Mechanisms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 29, 3, 411-426, 2007. - Pin

66、to, Doukhan, DiCarlo, Cox A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS Computational Biology. 2009 參考文獻(xiàn)o Papers on Embedded ConvNets for Real-Time Vision Applications Farabet, Martini, Corda, Akselrod, Culurciello, LeCun: NeuFlow: A Runtime Reconfigurable Dataflow Processor for Vision, Workshop on Embedded Computer Vision, CVPR 2011o Papers on Image Denoising Using Neural Nets Burger, Schuler, Harmeling: Image Denoisng: Ca

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)

最新文檔

相關(guān)資源

相關(guān)搜索

秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)

最新文檔

相關(guān)資源

相關(guān)搜索

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)