《深度學(xué)習(xí)匯報》由會員分享,可在線閱讀,更多相關(guān)《深度學(xué)習(xí)匯報(29頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、
深度學(xué)習(xí)(Deep Learning)
Outline
? 2/25
DL訓(xùn)練過程 廳
? #/25
DL訓(xùn)練過程 廳
什么是deep learning? 鋁七
深度學(xué)習(xí):一種基于無監(jiān)督特征 學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。
本質(zhì):通過構(gòu)建多隱層的模型和
海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,
從而最終提升分類或預(yù)測的準(zhǔn)確性。 隠展
含多隱層的多層感知器就是一
輸入層
含等個隱層的深度學(xué)習(xí)模型
種深度學(xué)習(xí)結(jié)構(gòu)。
深度學(xué)習(xí)的基本思想.
對于Deep Learning,需要自動地學(xué)習(xí)特征,假設(shè)有一堆輸入I,輸出是O,
2、設(shè)計一個系統(tǒng)S (有n層),形彖地表示為:I =>S1=>S2=>..…=>Sn => O, 通過調(diào)整系統(tǒng)中參數(shù),使得它的輸岀仍然是輸入I,那么就可以自動地獲取 得到輸入I的一系列層次特征,即SI, ...,Sno
深度學(xué)習(xí)訓(xùn)練過程:
第一步:采用自下而上的無監(jiān)督學(xué)習(xí)
1) 逐層構(gòu)建單層神經(jīng)元。
2) 每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào) 整。
? 4/25
DL訓(xùn)練過程 廳
wake?sleep 算法:
1) wake階段:
認(rèn)知過程,通過外界的特征和向上的權(quán)重(認(rèn)知權(quán)重)產(chǎn)生每一層的抽彖表示 (結(jié)點狀態(tài)),并且使用梯度下降修改層間的下行
3、權(quán)重(生成權(quán)重)。
2) sleep階段:
生成過程,通過上層概念(Code)和向下的生成(Decoder)權(quán)重,生成下層 的狀態(tài),再利用認(rèn)知(Encoder)權(quán)重產(chǎn)生一個抽彖景彖。利用初始上層概念和新 建抽象景彖的殘差,利用梯度下降修改層間向上的認(rèn)知(Encoder)權(quán)重。
5/25
DL訓(xùn)練過程
? 6/25
DL訓(xùn)練過程
? #/25
DL訓(xùn)練過程
第二步:自頂向下的監(jiān)督學(xué)習(xí)
這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個 分類器(例如羅杰斯特回歸、SV
4、M等),而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利 用梯度下降法去微調(diào)整個網(wǎng)絡(luò)參數(shù)。
? #/25
DL訓(xùn)練過程
? #/25
DL訓(xùn)練過程
label
prediction
? #/25
皿模型
深度學(xué)習(xí)的具體模型及方法:
1、 自動編碼器(AutoEncoder )
2、 稀疏自動編碼器(Sparse AutoEncoder)
3、 限制波爾茲曼機(Restricted Boltzmann Machine)
4、 深信度網(wǎng)絡(luò)(Deep Belief Networks)
5、 卷積神經(jīng)
5、網(wǎng)絡(luò)(Convolutional Neural Networks)
? 7/25
自動編碼器
? #/25
? #/25
1、自動編碼器(AutoEncoder )
將input輸入一個encoder^碼器,就會得到一個code,這個code也就是輸入的一個 表示,神加一個decoder?解碼器,這時候decoder?就會輸岀一個信息,那么如果輸岀的 這個信息和一開始的輸入信號mput是很像的(理想情況下就是一樣的),就有理由相 信這個code是靠譜的。所以,通過調(diào)整encoder?和decoder的參數(shù),使得重構(gòu)誤差最小
6、, 就得到了輸入input信號的第一個表示了,也就是編碼codeTo
因為是無標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。
稀疏自動編碼器
2、稀疏自動編碼器(Sparse AutoEncoder)
在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一 層中的節(jié)點中大部分都要為0,只有少數(shù)不為0),就可以得到Sparse AutoEncoder 法。
input
如上圖,其實就是限制每次得到的表達(dá)code盡量稀疏。因為稀疏的 表達(dá)往往比其他的表達(dá)要有效。
? 9/25
RBM
3、限制波爾茲曼機(RBM)
7、
定義:假設(shè)有一個二部圖,同層節(jié)點Z間沒有鏈接,一層是可視層,即輸入數(shù) 據(jù)層(v), —層是隱藏層(h),如果假設(shè)所有的節(jié)點都是隨機二值(0, 1)變量節(jié)點, 同時假設(shè)全概率分布P (v, h)滿足Boltzmann分布,稱這個模型是RBM。
hidden variables
RBM
訓(xùn)練模型:
聯(lián)合組態(tài)(jointconfiguration)的能量可以表示為:
E(v. h; B)=—刀閃可坊心—刀bg —工叼心
ij < j
0 = {W,a,b} model parameters.
而某個組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布(和這個組態(tài)的能量)來確定
8、:
potential functions
厲(v? h)=爲(wèi) exp (- E(v. h;砒)=缶 II
2(0)=刀 exp (-F(v.h; 0)) Parbtion 伽 chon h?V
給定隱層h的基礎(chǔ)上,可視層的概率確定:
P(v|h2 n F仙h)叫=l|h)=】+唧(一工川也7)
(可視層節(jié)點之間是條件獨立的)
11/25
RBM
給定可視層V的基礎(chǔ)上,隱層的概率確定:
p(hiv)=np(/lJ.|v:p(/l>=iiv)=1+唧(_嚴(yán)丹_引)
給定一個滿足獨立同分布的樣本集:D={v(n, VM},我們需要學(xué)習(xí)參數(shù)
0={\A4a,b}o
9、最大似然估計: v
1 JL \
厶⑹=亓工噸丹&⑹)一訓(xùn)叼恰
n=l
對最大對數(shù)似然函數(shù)求導(dǎo),就可以得到L最大時對應(yīng)的參數(shù)WTo
務(wù)譽=EFda』如]一 Ep&M如]-等%?
DBN
4、深信度網(wǎng)絡(luò)(DBN)
DBNs是一個概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對,生成 模型是建立一個觀察數(shù)據(jù)和標(biāo)簽Z間的聯(lián)合分布,對P (Observation |Label) 和P(Label |Observation)都做了評估,而判別模型僅僅而已評估了后者, 也就是P (Label | Observation)。
對于在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用傳統(tǒng)的BP算法的時候,DBNs遇到了以下
10、問題:
(1) 需要為訓(xùn)練提供一個有標(biāo)簽的樣本集;
(2) 學(xué)習(xí)過程較慢;
(3) 不適當(dāng)?shù)膮?shù)選擇會導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。
> 13/25
DBN
DBNs由多個限制玻爾茲曼機(RBM)層組成,一個典型的神經(jīng)網(wǎng)絡(luò)類型如下圖
所示。
Assoaative Memory
14/25
#/25
Hidden Units
Detection Weights 丫 Generative Weights
Hidden Units
Hidden
Visible
RBM Layer
Observation Vector v
(
11、e.g., 32x32 Image)
在最高兩層,權(quán)值被連接到一起,更低層的輸出將會提供一個參考的線 索或者關(guān)聯(lián)給頂層,頂層就會將其聯(lián)系到它的記憶內(nèi)容。
#/25
CNN
Input
Cl S2 C3 S4
5、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)
卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平而組成,而每個平面 由多個獨立神經(jīng)元組成。CNNs是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。
概念示范:輸入圖像通過與 m個可訓(xùn)練的濾波器和可加偏置 進(jìn)行卷積,在C1層產(chǎn)生m個特征 映射圖,然后特征映射圖中每組 的n個像素再進(jìn)行求和
12、,加權(quán)值, 加偏置,通過一個Sigmoid函數(shù) 得到m個S2層的特征映射圖。這 些映射圖再經(jīng)過濾波得到C3層。 這個層級結(jié)構(gòu)再和S2—樣產(chǎn)生 S4。最終,這些像素值被光柵 化,并連接成一個向量輸入到傳 統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸岀。
關(guān)于參數(shù)減少與權(quán)值共享:
Example; 1000x1000 imoge
IM hidden units ■I 10*12 poramdz川
Example lOOOx 1000 ima^e IM hidden units Filter size; 10x10 100M
? Spatial correlation is local
? Better to
13、 put resources elsewhere1
減少參數(shù)的方法:
/每個神經(jīng)元無需對全局圖像做感受,只需感受局部區(qū)域(Feature Map),在高層 會將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。
/每個神經(jīng)元參數(shù)設(shè)為相同,即權(quán)值共享,也即每個神經(jīng)元用同一個卷積核去卷積圖 像。
> 18/25
CNN
隱層神經(jīng)元數(shù)量的確定:
STATIONAftTTy? Statistics is similar of different locations
Example; lOOOxlCXJO image IM hidden units Filter size; 10x1
14、0 100M parameters
神經(jīng)元數(shù)量與輸入圖像大小、 濾波器大小和濾波器的滑動步長 有關(guān)。
例如,輸入圖像是1000x1000 像素,濾波器大小是10X10,假 設(shè)濾波器間沒有重疊,即步長為 10,這樣隱層的神經(jīng)元個數(shù)就是 (1000x1000 )/ (10x10)=10000 個。
總之,卷積網(wǎng)絡(luò)的核心思想是將:局部感受野、權(quán)值共享以及時間或 空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來獲得某種程度的位移、尺度、形變 不變性。
CNN的優(yōu)點:
1、 避免了顯式的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);
2、 同一特征映射而上的神經(jīng)元權(quán)值相同,從而網(wǎng)絡(luò)可以并行學(xué)習(xí),降低了網(wǎng) 絡(luò)的復(fù)雜
15、性;
3、 采用時間或者空間的子采樣結(jié)構(gòu),可以獲得某種程度的位移、尺度、形變 魯棒性;
4、 輸入信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能很好的吻合,在語音識別和圖像處理方面有著 獨特優(yōu)勢。
> 20/25
應(yīng)用
> 21/25
應(yīng)用
深度學(xué)習(xí)的應(yīng)用:
1、深度學(xué)習(xí)在圖像識別上的應(yīng)用
空間金字塔
Layer 3
v Caltech 256 >
Layer 3 activation (coefficients)
W
Layer 1 activation (coefficients)
image
Layer 2 activation (coeffic
16、ients)
#of training images
30
60
Griffin et al. [2]
34.10
-
vanGemert et al., PAMI 2010
27.17
■
ScSPM [Yang et al., CVPR 2009]
34.02
40.14
LLC [Wang etal., CVPR 2010]
41.19
47.68
Sparse CRBM [Sohn et al., ICCV 2011]
42.05
47.94
Filter
visualization
Example imagi
7A
實驗在Caltec
17、h 256數(shù)據(jù)集上, 利用單特征識別,Sparse CRBM 性能最優(yōu)。
> 23/25
應(yīng)用
> #/25
應(yīng)用
> #/25
應(yīng)用
2、深度學(xué)習(xí)在音頻識別上的應(yīng)用
許多專家還發(fā)現(xiàn),不僅圖像存在這個規(guī)律,聲音也存在。他們從未 標(biāo)注的聲音中發(fā)現(xiàn)了20種基本的聲音結(jié)構(gòu),其余的聲音可以由這20種基 本結(jié)構(gòu)合成。
(Lee, Urgman, Pham, Nr, nips 2009)
-^\/VW
18、\/v M/Vw T臉g
? V: ? p ? y ? 1/
處如”卜rVW J
Speaker identification
TIM IT Speaker identiflcation
Accuracy
Prior art (Reynolds, 1995)
99.7%
Convolutional DBN
100.0%
3、 深度學(xué)習(xí)在視頻識別上的應(yīng)用
4、 深度學(xué)習(xí)在自然語言處理上的應(yīng)用
5、 深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用
6、 深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用
7、 基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用
8、 深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用
> 22/25
19、
目前的困難程度
深度學(xué)習(xí)面臨的問題:
1、 理論問題
理論問題主要體現(xiàn)在兩個方面,一個是統(tǒng)計學(xué)方面的,即需 要多少訓(xùn)練樣本才能學(xué)習(xí)到足夠好的深度模型;另一個是計算 方面的,即需要多少的計算資源才能通過訓(xùn)練得到更好的模型, 理想的計算優(yōu)化方法是什么?
2、 建模問題
針對具體應(yīng)用問題,如何設(shè)計一個最合適的深度模型來就解 決問題?是否町以建立一個通用的深度模型或深度模型的建模 語言,作為統(tǒng)一的框架來處理語音、圖像和語言?
另外,對于怎么用深度模型來表示像語義這樣的結(jié)構(gòu)化的信 息還需要更多的研究。
3、 工程問題
對于互聯(lián)網(wǎng)公司而言,如何在工程上利用大規(guī)模的并行計算 平臺
20、來實現(xiàn)海量數(shù)據(jù)訓(xùn)練,這是首要解決的問題。
目前的困難程度
未來需解決的問題:
(1) 對于一個特定的框架,對于多少維的輸入它可以表現(xiàn)得 較優(yōu)(如果是圖像,可能是上百萬維)?
(2) 對捕捉短時或者長時間的時間依賴,哪種架構(gòu)才是有效 的?
(3) 如何對于一個給定的深度學(xué)習(xí)架構(gòu),融合多種感知的信 息?
(4) 有什么正確的機理可以去增強一個給定的深度學(xué)習(xí)架構(gòu), 以改進(jìn)其魯棒性和對扭曲和數(shù)據(jù)丟失的不變性?
模型方面是否有其他更為有效且有理論依據(jù)的深度模型 學(xué)習(xí)算法?
? 24/25
> 25/25
Thank You