深度學(xué)習(xí)介紹

上傳人：san****019 文檔編號：21257825 上傳時間：2021-04-27 格式：PPT 頁數(shù)：43 大小：4.66MB

收藏版權(quán)申訴舉報下載

第1頁 / 共43頁

第2頁 / 共43頁

第3頁 / 共43頁

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《深度學(xué)習(xí)介紹》由會員分享，可在線閱讀，更多相關(guān)《深度學(xué)習(xí)介紹（43頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、深度學(xué)習(xí)簡介主要內(nèi)容神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) 介紹常用方法 Stacked Auto-Encoder Convolutional Neural Network Deep Belief Network 評價與應(yīng) 用展望神經(jīng)網(wǎng)絡(luò) 在機器學(xué)習(xí)與認(rèn)知識別領(lǐng)域中，人工神經(jīng)網(wǎng)絡(luò)是一類模擬生物神經(jīng)網(wǎng)絡(luò)（中樞神經(jīng)網(wǎng)絡(luò)，特別是大腦）的模型，用來預(yù)測（決策問題）或估計基于大量未知數(shù)據(jù)的函數(shù)模型。人工神經(jīng)網(wǎng)絡(luò)一般呈現(xiàn)為相互關(guān)聯(lián)的“神經(jīng)元”相互交換信息的系統(tǒng)。在神經(jīng)元的連接中包含可根據(jù)經(jīng)驗調(diào)整的權(quán)重，使得神經(jīng)網(wǎng)絡(luò)可以自適應(yīng)輸入，并且擁有學(xué)習(xí)能力。作為機器學(xué)習(xí)方法的一種，神經(jīng)網(wǎng)絡(luò)算法可以用來處理一系

2、列傳統(tǒng)方法無法處理或處理難度較大的問題，包括計算機視覺、語音識別方面等。基本結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)的基本單元是神經(jīng)元。通過對所有輸入的加權(quán)求和與非線性映射得到該神經(jīng)元的輸出（激活值）。神經(jīng)網(wǎng)絡(luò)按照拓?fù)浣Y(jié)構(gòu)，屬于一神經(jīng)元為節(jié)點，以及節(jié)點間有向連接為為邊的一種圖，大體分為層狀與網(wǎng)狀兩大類。常用激活函數(shù)：閾值函數(shù) 雙向閾值函數(shù) S型函數(shù) 雙曲正切函數(shù) 高斯函數(shù)xexf 1 1)(神經(jīng)元模型 BP網(wǎng)絡(luò) 前饋網(wǎng)絡(luò)的逐層計算：輸入值從輸入層單元通過連接權(quán)重加權(quán)激活逐層向前傳播經(jīng)過隱層最后到達(dá)輸出層得到輸出。在信號的向前傳遞過程中，網(wǎng)絡(luò)的權(quán)值是固定不變的，每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。反向

3、傳播算法：網(wǎng)絡(luò)的實際輸出與期望輸出之間的差值即為誤差信號。誤差信號由輸出端開始逐層向前傳播,這是誤差信號的反向傳播。在誤差信號反向傳播的過程中,網(wǎng)絡(luò)的權(quán)值由誤差反饋進(jìn)行調(diào)節(jié)，通過權(quán)值的不斷修正使網(wǎng)絡(luò)的實際輸出更加接近期望輸出。前饋網(wǎng)絡(luò)結(jié)構(gòu) 說明代價函數(shù) 在遇到回歸問題時，指定代價函數(shù) 以使目標(biāo) 變量的真實值和預(yù) 測值的距離最小代價函數(shù) 描述了網(wǎng) 絡(luò) 輸出與真實值之間的誤差。通過隨機梯度下降的方法最小化代價函數(shù) 以提高網(wǎng) 絡(luò) 精度可以在代價

4、函數(shù) 中引入其他約束以滿足設(shè) 定要求 BP算法反向傳播與梯度下降 BP算法流程S型函數(shù)導(dǎo)數(shù) 主要問題主要問題易陷入局部極小而得不到全局最優(yōu) 。訓(xùn) 練次數(shù) 多使得學(xué) 習(xí) 效率低，收斂速度慢。對于隱層和隱節(jié) 點的個數(shù) 選擇 ,至今還沒有一個具體的定論，缺乏理論指導(dǎo) 。訓(xùn) 練時，學(xué) 習(xí) 新樣本有遺忘舊樣本的趨勢常用改進(jìn)方法添加動量項采用改進(jìn) 的梯度下降法 MBP/MFBP算法深度學(xué)習(xí) 深度學(xué)

5、習(xí)的基礎(chǔ)架構(gòu)來自于前饋神經(jīng)網(wǎng)絡(luò)與BP算法，構(gòu)造多層節(jié)點通過最小化代價函數(shù)的方法來提高分類精度。對于傳統(tǒng)的ANN網(wǎng)絡(luò)而言，由于多層網(wǎng)絡(luò)訓(xùn)練的困難，實際使用的多數(shù)是只含有一層隱層節(jié)點的淺層模型。然而，不同于淺層的神經(jīng)網(wǎng)絡(luò)算法，深度學(xué)習(xí)更側(cè)重于如何通過增加網(wǎng)絡(luò)的深度，減小每層擬合的參數(shù)來提取出數(shù)據(jù)（尤其是語音與圖像數(shù)據(jù)）的高層特征信息，從而達(dá)到更高的測試性能與分類精度。深度學(xué)習(xí)通過建立類似于人腦的分層模型結(jié)構(gòu)，對輸入數(shù)據(jù)逐級提取從底層到高層的特征，從而能很好地建立從底層信號到高層語義的映射關(guān)系。傳統(tǒng)的機器學(xué)習(xí)方法，在訓(xùn)練數(shù)據(jù)量到達(dá)一定規(guī)模后，算法的學(xué)習(xí)能力就飽和了，而深度學(xué)習(xí)見不到底。深度學(xué)習(xí)

6、Any continuous function from input to output can be implemented in a three-layer net, given sufficient number of hidden units and proper nonlinearities in activation function and weights. 三層網(wǎng)絡(luò)，足夠多的節(jié)點，合適的激活函數(shù)與權(quán)重可以復(fù)現(xiàn)任意函數(shù) deep models can give better approximation to nonlinear functions than shallow mod

7、els. 深層的模型相較于淺層逼近效果更好深度學(xué)習(xí) 深度學(xué)習(xí)的實質(zhì)，是通過構(gòu)建具有很多隱層的機器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)，以更少的參數(shù)與更深的結(jié)構(gòu)來學(xué)習(xí)更有用的特征，從而最終提升分類或預(yù)測的準(zhǔn)確性。所以，“深度模型”是手段，“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí)，深度學(xué)習(xí)的不同在于：）強調(diào)了模型結(jié)構(gòu)的深度，通常有5層、6層、甚至10多層的隱層節(jié)點；）明確突出了特征學(xué)習(xí)的重要性，也就是說，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而分類或預(yù)測更加容易。由于含有很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類

8、，深度學(xué)習(xí)算法逐漸成為分類算法的一個大的分支。然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上難度很大。為此，可以通過“逐層初始化”（layer-wise pre-train）來有效克服預(yù)訓(xùn)練與梯度消失現(xiàn)象由于早層的梯度是由后層的梯度項相乘得到，梯度會逐層衰減。而參數(shù)的隨機初始化意味著未訓(xùn)練前經(jīng)過權(quán)重、偏置的計算后神經(jīng)元早層丟失了大量的有用信息，從而導(dǎo)致后層的網(wǎng)絡(luò)學(xué)習(xí)率超過前層，BP算法收斂緩慢。當(dāng)神經(jīng)網(wǎng)絡(luò)有很多層時，就會面臨不穩(wěn)定的情況。對網(wǎng)絡(luò)的預(yù)訓(xùn)練可以較好地避免這種現(xiàn)象。這是因為：實驗表明，在非凸優(yōu) 化問題上初始點的選擇十分重要無監(jiān) 督學(xué) 習(xí) 增加了

9、一個深層結(jié) 構(gòu) 的魯棒性預(yù) 訓(xùn) 練神經(jīng) 網(wǎng) 絡(luò) 能夠學(xué) 習(xí) 到數(shù) 據(jù) 的不同的高質(zhì) 量特征單純增加一個網(wǎng) 絡(luò) 的深度，如果沒有預(yù) 訓(xùn) 練進(jìn) 行處理，會提高陷于局部極小點的可能性實驗對比當(dāng)數(shù)據(jù)進(jìn)行預(yù)處理后，神經(jīng)網(wǎng)絡(luò)迭代穩(wěn)定，分類誤差保持在一個較低的水平；而當(dāng)數(shù)據(jù)沒有進(jìn)行預(yù)處理，隨著層數(shù)的增加分類誤差迅速增大，代價函數(shù)也保持在一個較高的水平。這是由于預(yù)訓(xùn)練提取了圖像特征，不容易使得圖像限于較高的局部極小點，即更接近于全局的極小點，分類效果要大大優(yōu)于無預(yù)訓(xùn)練的網(wǎng)絡(luò)。自編碼器結(jié)構(gòu) 單層自動編

10、碼器網(wǎng)絡(luò)（AutoEncoder）實質(zhì)上是一個三層的反向傳播神經(jīng)網(wǎng)絡(luò)。它逐層采用無監(jiān)督學(xué)習(xí)的方式，不使用標(biāo)簽調(diào)整權(quán)值，將輸入映射到隱藏層上，再經(jīng)過反變換映射到輸出上，實現(xiàn)輸入輸出的近似等價。自動編碼器的主要思想是利用無監(jiān) 督方式最小化重建誤差學(xué) 習(xí) 到的權(quán) 重在分類中提供了一個網(wǎng) 絡(luò) 初始化的較好的初始點。無監(jiān) 督學(xué) 習(xí) 的主要目的是從無監(jiān) 督的數(shù) 據(jù) 集中提取有用的特征，以減少輸入信息，保留數(shù) 據(jù) 中關(guān) 鍵的有效信息。網(wǎng) 絡(luò) 通

11、過沒有標(biāo) 簽的數(shù) 據(jù) 學(xué) 習(xí) 到潛在的分布信息，有利于它區(qū) 分有標(biāo) 簽的信息。然而，在網(wǎng)絡(luò) 中，權(quán) 重仍然需要進(jìn) 行微調(diào) 。因此，需要在神經(jīng) 網(wǎng) 絡(luò) 的頂部增加一個線性回歸，再對有標(biāo)簽的數(shù) 據(jù) 進(jìn) 行處理。網(wǎng) 絡(luò) 的微調(diào) 會采用梯度下降法，對所有層同時進(jìn) 行調(diào) 整。自編碼器的建立建立AutoEncoder的方法是：對于m個數(shù)據(jù)的輸入，有：Code 編碼:使用非線性激活函數(shù)，將維輸入數(shù)據(jù)映射到維隱含層（隱藏節(jié)點表示特征）其

12、中W是一個的權(quán)重矩陣，b是一個d維的偏移向量Decode 解碼:通過反向映射，對映射后的數(shù)據(jù)進(jìn)行重建SAE網(wǎng)絡(luò)采用相同的權(quán)重，對數(shù)據(jù)進(jìn)行編碼與解碼。每一次訓(xùn)練輸入都會得到映射后的與解碼后的。通過對代價函數(shù)的最優(yōu)化可以得到訓(xùn)練集上的權(quán)重與偏置。( ) , i ih f Wx b W b ( h ) , i iy f W b W b TW Wih iy 16 節(jié)點的稀疏性限制 2 21 1 1( | ) log (1 )log 1s sjj j j jKL 為了模擬人的大腦的識別，增強網(wǎng) 絡(luò) 的魯棒性，避免過擬合的發(fā) 生，我們需要

13、讓少部分中間隱藏神經(jīng) 元的活躍度，也就是輸出值大于 0 ，其他的大部分為 0 （或近似為 0 ），這就是所謂的稀疏性。在人腦中有大量的神經(jīng) 元，但是大多數(shù) 自然圖像通過視覺進(jìn) 入人腦時，只會刺激到少部分神經(jīng) 元，大部分神經(jīng) 元都是出于抑制狀態(tài) 的。而且，大多數(shù) 自然圖像，都可以被表示為少量基本元素（面或者線）的疊加。稀疏性處理能夠更

14、加有助于我們用少量的神經(jīng) 元提取出自然圖像更加本質(zhì) 的特征。從數(shù) 學(xué) 的角度來說，稀疏編碼是一種多維數(shù) 據(jù) 描述方法，數(shù) 據(jù)經(jīng) 稀疏編碼后僅有少數(shù) 分量同時處于明顯激活狀態(tài) 。在實際應(yīng)用中，稀疏編碼有如下幾個優(yōu) 點：編碼方案存儲能力大，具有聯(lián) 想記憶能力，并且計算簡便；使自然信號的結(jié) 構(gòu) 更加清晰；事實上，這一簡單的自編碼神經(jīng) 網(wǎng) 絡(luò) 通

15、常可以學(xué) 習(xí) 出一個跟主元分析（ PCA）結(jié) 果非常相似的輸入數(shù) 據(jù) 的低維表示。 21 ( , ) (W,b) ( | )ssparse jjJ W b J KL 圖像實驗原始圖像隱含層特征 Randomly pick one of the 10 images from mat-file, then randomly sample an 88 image patch from the selected image, and convert the image patch into a 64-dimensional vector to get

16、 a training example 可以看到，AE在圖像處理的特征提取中可以作為邊緣檢測器學(xué)習(xí)到圖像邊緣信息 Stacked AutoEncoder 一個AE模型有1個可視層、1個隱含層1個重建層。通過自下而上的映射，實現(xiàn)編碼與反編碼重建： ( )y f x激活函數(shù) y zW W W Tied Weight有助于等分模型參數(shù), ,y zW b bminimizeCOST FUNCTIONupdate梯度下降 19 Stacked AutoEncoderIf the subsequent classifier is implemented as a neural

17、 network too, parameters throughout the whole network can be adjusted slightly while we are training the classifier. This step is called fine-tuning. For logistic regression, the training is simply back propagation, searching for a minimum in a peripheral region of parameters initialized by the form

18、er step.分類層和訓(xùn) 練層可以一同進(jìn) 行調(diào) 整。這一步叫 fine-tuning。參數(shù)設(shè)置：設(shè)置好激活函數(shù)、學(xué)習(xí)率、迭代步數(shù)、訓(xùn)練層數(shù)等一系列基本參數(shù) 構(gòu)建SAE網(wǎng)絡(luò)：分層建立輸入-輸出-輸入的AE網(wǎng)絡(luò)，并對權(quán)值與偏置初始化 SAE預(yù)訓(xùn)練：對網(wǎng)絡(luò)只傳入訓(xùn)練數(shù)據(jù)，在有限迭代步數(shù)下進(jìn)行無監(jiān)督的學(xué)習(xí)，以期望學(xué)得數(shù)據(jù)特征，得到權(quán)值與偏置的初始值參數(shù)微調(diào)：將SAE網(wǎng)絡(luò)轉(zhuǎn)化成輸入-輸出的NN網(wǎng)絡(luò)并傳入訓(xùn)練標(biāo)簽，即放棄輸出到輸入的反向映射，進(jìn)行反向傳播學(xué)習(xí)，減小訓(xùn)練誤差測試：對測試數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)測試，得到結(jié)果SAE構(gòu)建方法 Example Defined By

19、User空間去冗余壓縮實驗總結(jié) 1. 訓(xùn)練時間與迭代步數(shù)、層數(shù)、節(jié)點數(shù)、數(shù)據(jù)量四者成明顯的線性關(guān)系；而測試時間僅對層數(shù)、節(jié)點數(shù)較敏感，成近似線性 2. 隨著迭代步數(shù)的增加，分類精度迅速提高，然而分類有其上限，過多的迭代步數(shù)無法提高分類精度；不同的數(shù)據(jù)所適用的網(wǎng)絡(luò)層數(shù)不一致，并不是層數(shù)越高，效果越理想；對節(jié)點的實驗表明，神經(jīng)網(wǎng)絡(luò)更適用于數(shù)據(jù)的壓縮，單層過高的節(jié)點數(shù)會降低分類效果；同時，數(shù)據(jù)量也比較明顯地影響著分類精度。 3.對數(shù)據(jù)進(jìn)行降維處理，并與之前的實驗結(jié)果進(jìn)行對比。實驗表明，向SAE網(wǎng)絡(luò)中引入降維的數(shù)據(jù)并不能很好的提高分類效果 4.對比其他分類算法SVM與KNN，實驗表明，SAE網(wǎng)絡(luò)更適

20、合于大量數(shù)據(jù)的學(xué)習(xí)，而SVM與KNN淺層網(wǎng)絡(luò)訓(xùn)練與測試所用時間更短，而且可以在較少的數(shù)據(jù)量下獲得比較良好的分類效果。 CNN基本知識卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種，已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò)，降低了網(wǎng)絡(luò)模型的復(fù)雜度，減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯，可以使圖像直接作為網(wǎng)絡(luò)的輸入，避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器，這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。卷積網(wǎng)絡(luò)的核心思想是將：局部感受野、權(quán)值共享以及降采

21、樣這三種結(jié)構(gòu)思想結(jié)合起來獲得了某種程度的位移、尺度、形變不變性，以達(dá)到圖像降維的特征學(xué)習(xí)與分類。稀疏連接卷積神經(jīng)網(wǎng)絡(luò)采用上下層節(jié)點間局部連接的方式構(gòu)建網(wǎng)絡(luò)，也就是說每個隱含層的節(jié)點只與一部分連續(xù)的輸入點連接，這樣模擬了人大腦皮層中視覺皮層不同位置只對局部區(qū)域有響應(yīng)這一現(xiàn)象。局部連接網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)中是采用卷積的方法來實現(xiàn)。對于自然圖像來說，因為它們具有本身固有的特性，即圖像中某個部分的統(tǒng)計特征和其它部位的相似，因此我們學(xué)習(xí)到的某個部位的特征也同樣適用于其它部位。這就在稀疏網(wǎng)絡(luò)處理圖像在神經(jīng)網(wǎng)絡(luò)中應(yīng)用的理論基礎(chǔ)。權(quán)重共享在卷積神經(jīng)網(wǎng)絡(luò)中，卷積層的每一個卷積濾波器重復(fù)的作用于整個感受野中，對

22、輸入圖像進(jìn)行卷積，卷積結(jié)果構(gòu)成了輸入圖像的特征圖，提取出圖像的局部特征。每一個卷積濾波器共享相同的參數(shù)，包括相同的權(quán)重矩陣和偏置項。圖像特性同一平面層的神經(jīng)元權(quán)值相同，有相同程度的位移、旋轉(zhuǎn)不變性。每個特征提取后都緊跟著一個用來求局部平均與二次提取的亞取樣層。這種特有的兩次特征提取結(jié)構(gòu)使得網(wǎng)絡(luò)對輸入樣本有較高的畸變?nèi)萑棠芰?。也就是說，卷積神經(jīng)網(wǎng)絡(luò)通過局部感受野、共享權(quán)值和亞取樣來保證圖像對位移、縮放、扭曲的魯棒性。池采樣在通過卷積獲得了特征 (features) 之后，下一步我們希望利用這些特征去做分類。理論上講，人們可以用所有提取得到的特征去訓(xùn)練分類器，例如 softmax 分類器，

23、但這樣做面臨計算量的挑戰(zhàn)。例如：對于一個 96X96 像素的圖像，假設(shè)我們已經(jīng)學(xué)習(xí)得到了400個定義在8X8輸入上的特征，每一個特征和圖像卷積都會得到一個 (96 8 + 1) * (96 8 + 1) = 7921 維的卷積特征，由于有 400 個特征，所以每個樣例 (example) 都會得到一個 892 * 400 = 3,168,400 維的卷積特征向量。學(xué)習(xí)一個擁有超過 3 百萬特征輸入的分類器十分不便，并且容易出現(xiàn)過擬合 (over-fitting)。池采樣為了描述大的圖像，一個很自然的想法就是對不同位置的特征進(jìn)行聚合統(tǒng)計，例如，人們可以計算圖像一個區(qū)域上的某個特定特征的平均值

24、 (或最大值)。這些概要統(tǒng)計特征不僅具有低得多的維度 (相比使用所有提取得到的特征)，同時還會改善結(jié)果(不容易過擬合)。這種聚合的操作就叫做池化 (pooling)，有時也稱為平均池化或者最大池化 (取決于計算池化的方法)。 LeNet-5 深度置信網(wǎng)絡(luò) 深度置信網(wǎng)絡(luò)（Deep Belief Net， DBN）是擁有深層架構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，其中包含多個隱含層，而使用DBN的障礙在于如何訓(xùn)練這樣的深層網(wǎng)絡(luò)。通常情況下，由于網(wǎng)絡(luò)權(quán)值的隨機初始化，基于梯度的優(yōu)化容易陷入局部最小值。Hinton等提出了一種新的貪婪逐層非監(jiān)督算法來初始化基于受限玻爾茲曼機（Restricted Boltzmann Ma

25、chine， RBM）的DBN。這個算法提供了網(wǎng)絡(luò)權(quán)值的初始化方法，隨后使用基于梯度的算法如梯度下降法來微調(diào)網(wǎng)絡(luò)權(quán)值。受限玻爾茲曼機 RBM 只有兩層神經(jīng)元，有m個可視節(jié)點和n個隱藏節(jié)點，其中每個可視節(jié)點只和n個隱藏節(jié)點相關(guān)，和其他可視節(jié)點是獨立的，就是這個可視節(jié)點的狀態(tài)只受n個隱藏節(jié)點的影響，對于每個隱藏節(jié)點也是，只受m個可視節(jié)點的影響，這個特點使得RBM的訓(xùn)練變得容易。注意這兩層間的對稱 (雙向) 連接。 RBM網(wǎng)絡(luò)有幾個參數(shù)，一個是可視層與隱藏層之間的權(quán)重矩陣，一個是可視節(jié)點的偏移量b，一個是隱藏節(jié)點的偏移量c，這幾個參數(shù)決定了RBM網(wǎng)絡(luò)將一個m維的樣本編碼成一個什么樣的n維的樣本。

26、受限玻爾茲曼機 RBM介紹 RBM區(qū)別于BM的一點是，前者要求層內(nèi)神經(jīng)元之間沒有連接，而后者允許層內(nèi)連接定義能量函數(shù) 聯(lián)合概率分布性質(zhì)：給定可見層時，隱藏層神經(jīng)元激活條件獨立；反之亦然給定訓(xùn)練樣本訓(xùn)練一個RBM意味著調(diào)整參數(shù)以擬合給定訓(xùn)練樣本。數(shù)學(xué)推導(dǎo)可知，該問題等價于求下述函數(shù)最大值假設(shè) 每個節(jié) 點取值都在集合 0 ,1 中，即 i, j, vi 0 ,1 ,hj 0 ,1 。 DBN 對于給定的x = (x1, x2 xn)，隱藏節(jié)點的第 j 個特征的取值為 1 的概率為P(hj = 1|v) = ( wij vi+ cj) 其中的 v 取值就是 x，hj 的

27、取值就是 yj，也就是說，編碼后的樣本 y 的第 j 個位置的取值為 1 的概率是p(hj = 1|v)。所以，生成 yj 的過程就是： i）先利用公式p(hj = 1|v) = ( wij vi+ cj)，根據(jù) x 的值計算概率p(hj = 1|v)，其中 vi 的取值就是 x i 的值。 ii）然后產(chǎn)生一個 0 到 1 之間的隨機數(shù)，如果它小于p(hj = 1|v)， yj 的取值就是 1，否則就是 0。 DBN 反過來，現(xiàn)在知道了一個編碼后的樣本 y，想要知道原來的樣本 x，即解碼過程，跟上面也是同理，過程如下： i）先利用公式p(vi = 1|h) = ( wji hj+ bi)

28、，根據(jù) y 的值計算概率p(hj = 1|v)，其中 hj 的取值就是 yj 的值。 ii）然后產(chǎn)生一個 0 到 1 之間的隨機數(shù)，如果它小于p(vi = 1|h)，hi 的取值就是 1，否則就是 0。 RBM訓(xùn)練一般地，鏈接權(quán) 重 Wij可初始化為來自正態(tài) 分布 N(0 ,0 .0 1 )的隨機數(shù) ，隱單元的偏置 cj初始化為 0 ；對于第 i個可見單元，偏置 bj初始化為 logpi/(1 -pi) 。 pi表示訓(xùn) 練樣本中第 i個特征處于激活狀態(tài) 所占的比率學(xué) 習(xí) 率 eps

29、ilon至關(guān) 重要，大則收斂快，但是算法可能不穩(wěn) 定。小則慢。為克服這一矛盾引入動量，使本次參數(shù) 值修改的方向不完全由當(dāng)前樣本似然函數(shù) 梯度方向決定，而是上一次參數(shù) 值修改方向與本次梯度方向的結(jié) 合可以避免過早的收斂到局部最優(yōu) 點k為動量項學(xué) 習(xí) 率開始時 k=0 .5 ，重構(gòu) 誤差處于平穩(wěn) 增加狀態(tài) 時， k=0 .9 RBM評估 Baidu : Deep Image 評價

30、理論上無法證明它為何有效，但是在實際問題上它的確有效。沒有形成系統(tǒng)的理論。各個 DL模型為什么好用？原理本質(zhì) 是什么？各個模型都適用于什么場合？針對特定數(shù) 據(jù) ，特定問題，如何組合搭建模型，各個參數(shù) 怎么選？如何根據(jù) 特定模型，特定數(shù) 據(jù) 來訓(xùn) 練模型？優(yōu)點：1.在計算機視覺和語音識別方面確實結(jié)果超過傳統(tǒng)方法一大截；2.具有較好的transfer learning性質(zhì)，一個模型訓(xùn)練好了拿到另一個問題上做一些簡單的refinement就可以用了；3.只要層

31、數(shù)夠一個較好的 Feature Set 是可以被學(xué)出來的缺點：1.訓(xùn)練耗時，模型正確性驗證復(fù)雜且麻煩；2. 某些深度網(wǎng)絡(luò)不僅訓(xùn)練而且線上部署也需要GPU支持；3.模型難以詮釋找出來的Feature對人而言并不直觀應(yīng)用圖像識別文本模型時序相關(guān) 語音識別+機器翻譯 Multimodal Learning CTR prediction 推薦系統(tǒng) 把深度學(xué)習(xí)思想應(yīng)用到其他的模型上展望當(dāng)前深度學(xué)習(xí)領(lǐng)域的學(xué)術(shù)研究可以包含四部分：優(yōu)化，泛化，表達(dá)以及應(yīng)用。除了應(yīng)用之外每個部分又可以分成實踐和理論兩個方面。包括谷歌、百度等都在研究，并產(chǎn)生了很多理論研究與工程應(yīng)用 Google Brain Google cat 深度學(xué)習(xí)引領(lǐng)了機器學(xué)習(xí)的方向，相關(guān)的機器視覺方向，從理論到產(chǎn)品，導(dǎo)致了這個行業(yè)不斷的火熱參考資料 stanford Tutorial http:/ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial http:/openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning http:/ http:/ https:/ https:/

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

點擊下載此資源

秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

深度學(xué)習(xí)介紹

最新文檔

相關(guān)資源

相關(guān)搜索