深度學(xué)習(xí)介紹
《深度學(xué)習(xí)介紹》由會員分享,可在線閱讀,更多相關(guān)《深度學(xué)習(xí)介紹(43頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、深度學(xué)習(xí)簡介 主要內(nèi)容 神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) 介 紹 常 用 方 法 Stacked Auto-Encoder Convolutional Neural Network Deep Belief Network 評 價 與 應(yīng) 用 展望 神經(jīng)網(wǎng)絡(luò) 在機器學(xué)習(xí)與認(rèn)知識別領(lǐng)域中,人工神經(jīng)網(wǎng)絡(luò)是一類模擬生物神經(jīng)網(wǎng)絡(luò)(中樞神經(jīng)網(wǎng)絡(luò),特別是大腦)的模型,用來預(yù)測(決策問題)或估計基于大量未知數(shù)據(jù)的函數(shù)模型。人工神經(jīng)網(wǎng)絡(luò)一般呈現(xiàn)為相互關(guān)聯(lián)的“神經(jīng)元”相互交換信息的系統(tǒng)。在神經(jīng)元的連接中包含可根據(jù)經(jīng)驗調(diào)整的權(quán)重,使得神經(jīng)網(wǎng)絡(luò)可以自適應(yīng)輸入,并且擁有學(xué)習(xí)能力。 作為機器學(xué)習(xí)方法的一種,神經(jīng)網(wǎng)絡(luò)算法可以用來處理一系
2、列傳統(tǒng)方法無法處理或處理難度較大的問題,包括計算機視覺、語音識別方面等。 基本結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)的基本單元是神經(jīng)元。通過對所有輸入的加權(quán)求和與非線性映射得到該神經(jīng)元的輸出(激活值)。 神經(jīng)網(wǎng)絡(luò)按照拓?fù)浣Y(jié)構(gòu),屬于一神經(jīng)元為節(jié)點,以及節(jié)點間有向連接為為邊的一種圖,大體分為層狀與網(wǎng)狀兩大類。 常用激活函數(shù): 閾值函數(shù) 雙向閾值函數(shù) S型函數(shù) 雙曲正切函數(shù) 高斯函數(shù)xexf 1 1)(神經(jīng)元模型 BP網(wǎng)絡(luò) 前饋網(wǎng)絡(luò)的逐層計算: 輸入值從輸入層單元通過連接權(quán)重加權(quán)激活逐層向前傳播經(jīng)過隱層最后到達(dá)輸出層得到輸出。在信號的向前傳遞過程中,網(wǎng)絡(luò)的權(quán)值是固定不變的,每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。 反向
3、傳播算法: 網(wǎng)絡(luò)的實際輸出與期望輸出之間的差值即為誤差信號。誤差信號由輸出端開始逐層向前傳播,這是誤差信號的反向傳播。在誤差信號反向傳播的過程中,網(wǎng)絡(luò)的權(quán)值由誤差反饋進(jìn)行調(diào)節(jié),通過權(quán)值的不斷修正使網(wǎng)絡(luò)的實際輸出更加接近期望輸出。 前饋網(wǎng)絡(luò)結(jié)構(gòu) 說明 代價函數(shù) 在 遇 到 回 歸 問 題 時 , 指 定 代 價 函 數(shù) 以 使 目 標(biāo) 變 量 的 真 實 值 和 預(yù) 測 值 的 距 離 最 小 代 價 函 數(shù) 描 述 了 網(wǎng) 絡(luò) 輸 出 與 真 實 值 之 間 的 誤 差 。 通 過 隨 機 梯 度 下 降 的 方 法 最 小 化 代 價 函 數(shù) 以 提 高 網(wǎng) 絡(luò) 精 度 可 以 在 代 價
4、函 數(shù) 中 引 入 其 他 約 束 以 滿 足 設(shè) 定 要 求 BP算法 反向傳播與梯度下降 BP算法流程S型函數(shù)導(dǎo)數(shù) 主要問題 主要問題 易 陷 入 局 部 極 小 而 得 不 到 全 局 最 優(yōu) 。 訓(xùn) 練 次 數(shù) 多 使 得 學(xué) 習(xí) 效 率 低 , 收 斂 速 度 慢 。 對 于 隱 層 和 隱 節(jié) 點 的 個 數(shù) 選 擇 ,至 今 還 沒 有 一 個 具 體 的 定 論 , 缺 乏 理 論 指 導(dǎo) 。 訓(xùn) 練 時 , 學(xué) 習(xí) 新 樣 本 有 遺 忘 舊 樣 本 的 趨 勢 常用改進(jìn)方法 添 加 動 量 項 采 用 改 進(jìn) 的 梯 度 下 降 法 MBP/MFBP算 法 深度學(xué)習(xí) 深度學(xué)
5、習(xí)的基礎(chǔ)架構(gòu)來自于前饋神經(jīng)網(wǎng)絡(luò)與BP算法,構(gòu)造多層節(jié)點通過最小化代價函數(shù)的方法來提高分類精度。對于傳統(tǒng)的ANN網(wǎng)絡(luò)而言,由于多層網(wǎng)絡(luò)訓(xùn)練的困難,實際使用的多數(shù)是只含有一層隱層節(jié)點的淺層模型。然而,不同于淺層的神經(jīng)網(wǎng)絡(luò)算法,深度學(xué)習(xí)更側(cè)重于如何通過增加網(wǎng)絡(luò)的深度,減小每層擬合的參數(shù)來提取出數(shù)據(jù)(尤其是語音與圖像數(shù)據(jù))的高層特征信息,從而達(dá)到更高的測試性能與分類精度。深度學(xué)習(xí)通過建立類似于人腦的分層模型結(jié)構(gòu),對輸入數(shù)據(jù)逐級提取從底層到高層的特征,從而能很好地建立從底層信號到高層語義的映射關(guān)系。 傳統(tǒng)的機器學(xué)習(xí)方法,在訓(xùn)練數(shù)據(jù)量到達(dá)一定規(guī)模后,算法的學(xué)習(xí)能力就飽和了,而深度學(xué)習(xí)見不到底。 深度學(xué)習(xí)
6、Any continuous function from input to output can be implemented in a three-layer net, given sufficient number of hidden units and proper nonlinearities in activation function and weights. 三層網(wǎng)絡(luò),足夠多的節(jié)點,合適的激活函數(shù)與權(quán)重可以復(fù)現(xiàn)任意函數(shù) deep models can give better approximation to nonlinear functions than shallow mod
7、els. 深層的模型相較于淺層逼近效果更好 深度學(xué)習(xí) 深度學(xué)習(xí)的實質(zhì),是通過構(gòu)建具有很多隱層的機器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),以更少的參數(shù)與更深的結(jié)構(gòu)來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。所以,“深度模型”是手段,“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于: )強調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層、甚至10多層的隱層節(jié)點; )明確突出了特征學(xué)習(xí)的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而分類或預(yù)測更加容易。 由于含有很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類
8、,深度學(xué)習(xí)算法逐漸成為分類算法的一個大的分支。然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上難度很大。為此,可以通過“逐層初始化”(layer-wise pre-train)來有效克服 預(yù)訓(xùn)練與梯度消失現(xiàn)象 由于早層的梯度是由后層的梯度項相乘得到,梯度會逐層衰減。而參數(shù)的隨機初始化意味著未訓(xùn)練前經(jīng)過權(quán)重、偏置的計算后神經(jīng)元早層丟失了大量的有用信息,從而導(dǎo)致后層的網(wǎng)絡(luò)學(xué)習(xí)率超過前層,BP算法收斂緩慢。當(dāng)神經(jīng)網(wǎng)絡(luò)有很多層時,就會面臨不穩(wěn)定的情況。 對網(wǎng)絡(luò)的預(yù)訓(xùn)練可以較好地避免這種現(xiàn)象。這是因為: 實 驗 表 明 , 在 非 凸 優(yōu) 化 問 題 上 初 始 點 的 選 擇 十 分 重 要 無 監(jiān) 督 學(xué) 習(xí) 增 加 了
9、一 個 深 層 結(jié) 構(gòu) 的 魯 棒 性 預(yù) 訓(xùn) 練 神 經(jīng) 網(wǎng) 絡(luò) 能 夠 學(xué) 習(xí) 到 數(shù) 據(jù) 的 不 同 的 高 質(zhì) 量 特 征 單 純 增 加 一 個 網(wǎng) 絡(luò) 的 深 度 , 如 果 沒 有 預(yù) 訓(xùn) 練 進(jìn) 行 處 理 , 會 提 高 陷 于 局 部 極 小 點 的 可 能 性 實驗對比 當(dāng)數(shù)據(jù)進(jìn)行預(yù)處理后,神經(jīng)網(wǎng)絡(luò)迭代穩(wěn)定,分類誤差保持在一個較低的水平;而當(dāng)數(shù)據(jù)沒有進(jìn)行預(yù)處理,隨著層數(shù)的增加分類誤差迅速增大,代價函數(shù)也保持在一個較高的水平。這是由于預(yù)訓(xùn)練提取了圖像特征,不容易使得圖像限于較高的局部極小點,即更接近于全局的極小點,分類效果要大大優(yōu)于無預(yù)訓(xùn)練的網(wǎng)絡(luò)。 自編碼器結(jié)構(gòu) 單層自動編
10、碼器網(wǎng)絡(luò)(AutoEncoder)實質(zhì)上是一個三層的反向傳播神經(jīng)網(wǎng)絡(luò)。它逐層采用無監(jiān)督學(xué)習(xí)的方式,不使用標(biāo)簽調(diào)整權(quán)值,將輸入映射到隱藏層上,再經(jīng)過反變換映射到輸出上,實現(xiàn)輸入輸出的近似等價。 自 動 編 碼 器 的 主 要 思 想 是 利 用 無 監(jiān) 督 方 式 最 小化 重 建 誤 差 學(xué) 習(xí) 到 的 權(quán) 重 在 分 類 中 提 供 了 一 個網(wǎng) 絡(luò) 初 始 化 的 較 好 的 初 始 點 。 無 監(jiān) 督 學(xué) 習(xí) 的 主要 目 的 是 從 無 監(jiān) 督 的 數(shù) 據(jù) 集 中 提 取 有 用 的 特 征 ,以 減 少 輸 入 信 息 , 保 留 數(shù) 據(jù) 中 關(guān) 鍵 的 有 效 信 息 。網(wǎng) 絡(luò) 通
11、 過 沒 有 標(biāo) 簽 的 數(shù) 據(jù) 學(xué) 習(xí) 到 潛 在 的 分 布 信息 , 有 利 于 它 區(qū) 分 有 標(biāo) 簽 的 信 息 。 然 而 , 在 網(wǎng)絡(luò) 中 , 權(quán) 重 仍 然 需 要 進(jìn) 行 微 調(diào) 。 因 此 , 需 要 在神 經(jīng) 網(wǎng) 絡(luò) 的 頂 部 增 加 一 個 線 性 回 歸 , 再 對 有 標(biāo)簽 的 數(shù) 據(jù) 進(jìn) 行 處 理 。 網(wǎng) 絡(luò) 的 微 調(diào) 會 采 用 梯 度 下 降 法 , 對 所 有 層 同 時 進(jìn) 行 調(diào) 整 。 自編碼器的建立建立AutoEncoder的方法是: 對于m個數(shù)據(jù)的輸入,有:Code 編碼:使用非線性激活函數(shù),將維輸入數(shù)據(jù)映射到維隱含層(隱藏節(jié)點表示特征) 其
12、中W是一個的權(quán)重矩陣,b是一個d維的偏移向量Decode 解碼:通過反向映射,對映射后的數(shù)據(jù)進(jìn)行重建SAE網(wǎng)絡(luò)采用相同的權(quán)重 ,對數(shù)據(jù)進(jìn)行編碼與解碼。每一次訓(xùn)練輸入都會得到映射 后的 與解碼后的 。通過對代價函數(shù)的最優(yōu)化可以得到訓(xùn)練集上的權(quán)重與偏置。( ) , i ih f Wx b W b ( h ) , i iy f W b W b TW Wih iy 16 節(jié)點的稀疏性限制 2 21 1 1( | ) log (1 )log 1s sjj j j jKL 為 了 模 擬 人 的 大 腦 的 識 別 , 增 強 網(wǎng) 絡(luò) 的 魯 棒 性 , 避 免 過 擬 合 的發(fā) 生 , 我 們 需 要
13、讓 少 部 分 中 間 隱 藏 神 經(jīng) 元 的 活 躍 度 , 也 就 是 輸出 值 大 于 0 , 其 他 的 大 部 分 為 0 ( 或 近 似 為 0 ) , 這 就 是 所 謂 的 稀疏 性 。 在 人 腦 中 有 大 量 的 神 經(jīng) 元 , 但 是 大 多 數(shù) 自 然 圖 像 通 過 視覺 進(jìn) 入 人 腦 時 , 只 會 刺 激 到 少 部 分 神 經(jīng) 元 , 大 部 分 神 經(jīng) 元 都 是出 于 抑 制 狀 態(tài) 的 。 而 且 , 大 多 數(shù) 自 然 圖 像 , 都 可 以 被 表 示 為 少量 基 本 元 素 ( 面 或 者 線 ) 的 疊 加 。 稀 疏 性 處 理 能 夠 更
14、 加 有 助 于我 們 用 少 量 的 神 經(jīng) 元 提 取 出 自 然 圖 像 更 加 本 質(zhì) 的 特 征 。從 數(shù) 學(xué) 的 角 度 來 說 , 稀 疏 編 碼 是 一 種 多 維 數(shù) 據(jù) 描 述 方 法 , 數(shù) 據(jù)經(jīng) 稀 疏 編 碼 后 僅 有 少 數(shù) 分 量 同 時 處 于 明 顯 激 活 狀 態(tài) 。 在 實 際 應(yīng)用 中 , 稀 疏 編 碼 有 如 下 幾 個 優(yōu) 點 : 編 碼 方 案 存 儲 能 力 大 , 具 有聯(lián) 想 記 憶 能 力 , 并 且 計 算 簡 便 ; 使 自 然 信 號 的 結(jié) 構(gòu) 更 加 清 晰 ;事 實 上 , 這 一 簡 單 的 自 編 碼 神 經(jīng) 網(wǎng) 絡(luò) 通
15、 常 可 以 學(xué) 習(xí) 出 一 個 跟 主元 分 析 ( PCA) 結(jié) 果 非 常 相 似 的 輸 入 數(shù) 據(jù) 的 低 維 表 示 。 21 ( , ) (W,b) ( | )ssparse jjJ W b J KL 圖像實驗原始圖像 隱含層特征 Randomly pick one of the 10 images from mat-file, then randomly sample an 88 image patch from the selected image, and convert the image patch into a 64-dimensional vector to get
16、 a training example 可以看到,AE在圖像處理的特征提取中可以作為邊緣檢測器學(xué)習(xí)到圖像邊緣信息 Stacked AutoEncoder 一個AE模型有1個可視層、1個隱含層1個重建層。 通過自下而上的映射,實現(xiàn)編碼與反編碼重建: ( )y f x激 活 函 數(shù) y zW W W Tied Weight有 助 于 等 分 模 型 參 數(shù), ,y zW b bminimizeCOST FUNCTIONupdate梯 度 下 降 19 Stacked AutoEncoderIf the subsequent classifier is implemented as a neural
17、 network too, parameters throughout the whole network can be adjusted slightly while we are training the classifier. This step is called fine-tuning. For logistic regression, the training is simply back propagation, searching for a minimum in a peripheral region of parameters initialized by the form
18、er step.分 類 層 和 訓(xùn) 練 層 可 以 一 同 進(jìn) 行 調(diào) 整 。 這 一 步 叫 fine-tuning。 參數(shù)設(shè)置:設(shè)置好激活函數(shù)、學(xué)習(xí)率、迭代步數(shù)、訓(xùn)練層數(shù)等一系列基本參數(shù) 構(gòu)建SAE網(wǎng)絡(luò):分層建立輸入-輸出-輸入的AE網(wǎng)絡(luò),并對權(quán)值與偏置初始化 SAE預(yù)訓(xùn)練:對網(wǎng)絡(luò)只傳入訓(xùn)練數(shù)據(jù),在有限迭代步數(shù)下進(jìn)行無監(jiān)督的學(xué)習(xí),以期望學(xué)得數(shù)據(jù)特征,得到權(quán)值與偏置的初始值 參數(shù)微調(diào):將SAE網(wǎng)絡(luò)轉(zhuǎn)化成輸入-輸出的NN網(wǎng)絡(luò)并傳入訓(xùn)練標(biāo)簽,即放棄輸出到輸入的反向映射,進(jìn)行反向傳播學(xué)習(xí),減小訓(xùn)練誤差 測試:對測試數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)測試,得到結(jié)果SAE構(gòu)建方法 Example Defined By
19、User空間去冗余壓縮 實驗總結(jié) 1. 訓(xùn)練時間與迭代步數(shù)、層數(shù)、節(jié)點數(shù)、數(shù)據(jù)量四者成明顯的線性關(guān)系;而測試時間僅對層數(shù)、節(jié)點數(shù)較敏感,成近似線性 2. 隨著迭代步數(shù)的增加,分類精度迅速提高,然而分類有其上限,過多的迭代步數(shù)無法提高分類精度;不同的數(shù)據(jù)所適用的網(wǎng)絡(luò)層數(shù)不一致,并不是層數(shù)越高,效果越理想;對節(jié)點的實驗表明,神經(jīng)網(wǎng)絡(luò)更適用于數(shù)據(jù)的壓縮,單層過高的節(jié)點數(shù)會降低分類效果;同時,數(shù)據(jù)量也比較明顯地影響著分類精度。 3.對數(shù)據(jù)進(jìn)行降維處理,并與之前的實驗結(jié)果進(jìn)行對比。實驗表明,向SAE網(wǎng)絡(luò)中引入降維的數(shù)據(jù)并不能很好的提高分類效果 4.對比其他分類算法SVM與KNN,實驗表明,SAE網(wǎng)絡(luò)更適
20、合于大量數(shù)據(jù)的學(xué)習(xí),而SVM與KNN淺層網(wǎng)絡(luò)訓(xùn)練與測試所用時間更短,而且可以在較少的數(shù)據(jù)量下獲得比較良好的分類效果。 CNN基本知識 卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,可以使圖像直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。 卷積網(wǎng)絡(luò)的核心思想是將:局部感受野、權(quán)值共享以及降采
21、樣這三種結(jié)構(gòu)思想結(jié)合起來獲得了某種程度的位移、尺度、形變不變性,以達(dá)到圖像降維的特征學(xué)習(xí)與分類。 稀疏連接 卷積神經(jīng)網(wǎng)絡(luò)采用上下層節(jié)點間局部連接的方式構(gòu)建網(wǎng)絡(luò),也就是說每個隱含層的節(jié)點只與一部分連續(xù)的輸入點連接,這樣模擬了人大腦皮層中視覺皮層不同位置只對局部區(qū)域有響應(yīng)這一現(xiàn)象。局部連接網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)中是采用卷積的方法來實現(xiàn)。對于自然圖像來說,因為它們具有本身固有的特性,即圖像中某個部分的統(tǒng)計特征和其它部位的相似,因此我們學(xué)習(xí)到的某個部位的特征也同樣適用于其它部位。這就在稀疏網(wǎng)絡(luò)處理圖像在神經(jīng)網(wǎng)絡(luò)中應(yīng)用的理論基礎(chǔ)。 權(quán)重共享 在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層的每一個卷積濾波器重復(fù)的作用于整個感受野中,對
22、輸入圖像進(jìn)行卷積,卷積結(jié)果構(gòu)成了輸入圖像的特征圖,提取出圖像的局部特征。每一個卷積濾波器共享相同的參數(shù),包括相同的權(quán)重矩陣和偏置項。 圖像特性 同一平面層的神經(jīng)元權(quán)值相同,有相同程度的位移、旋轉(zhuǎn)不變性。每個特征提取后都緊跟著一個用來求局部平均與二次提取的亞取樣層。這種特有的兩次特征提取結(jié)構(gòu)使得網(wǎng)絡(luò)對輸入樣本有較高的畸變?nèi)萑棠芰?。也就是說,卷積神經(jīng)網(wǎng)絡(luò)通過局部感受野、共享權(quán)值和亞取樣來保證圖像對位移、縮放、扭曲的魯棒性。 池采樣 在通過卷積獲得了特征 (features) 之后,下一步我們希望利用這些特征去做分類。理論上講,人們可以用所有提取得到的特征去訓(xùn)練分類器,例如 softmax 分類器,
23、但這樣做面臨計算量的挑戰(zhàn)。例如:對于一個 96X96 像素的圖像,假設(shè)我們已經(jīng)學(xué)習(xí)得到了400個定義在8X8輸入上的特征,每一個特征和圖像卷積都會得到一個 (96 8 + 1) * (96 8 + 1) = 7921 維的卷積特征,由于有 400 個特征,所以每個樣例 (example) 都會得到一個 892 * 400 = 3,168,400 維的卷積特征向量。學(xué)習(xí)一個擁有超過 3 百萬特征輸入的分類器十分不便,并且容易出現(xiàn)過擬合 (over-fitting)。 池采樣 為了描述大的圖像,一個很自然的想法就是對不同位置的特征進(jìn)行聚合統(tǒng)計,例如,人們可以計算圖像一個區(qū)域上的某個特定特征的平均值
24、 (或最大值)。這些概要統(tǒng)計特征不僅具有低得多的維度 (相比使用所有提取得到的特征),同時還會改善結(jié)果(不容易過擬合)。這種聚合的操作就叫做池化 (pooling),有時也稱為平均池化或者最大池化 (取決于計算池化的方法)。 LeNet-5 深度置信網(wǎng)絡(luò) 深度置信網(wǎng)絡(luò)(Deep Belief Net, DBN)是擁有深層架構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其中包含多個隱含層,而使用DBN的障礙在于如何訓(xùn)練這樣的深層網(wǎng)絡(luò)。通常情況下,由于網(wǎng)絡(luò)權(quán)值的隨機初始化,基于梯度的優(yōu)化容易陷入局部最小值。Hinton等提出了一種新的貪婪逐層非監(jiān)督算法來初始化基于受限玻爾茲曼機(Restricted Boltzmann Ma
25、chine, RBM)的DBN。這個算法提供了網(wǎng)絡(luò)權(quán)值的初始化方法,隨后使用基于梯度的算法如梯度下降法來微調(diào)網(wǎng)絡(luò)權(quán)值。 受限玻爾茲曼機 RBM 只有兩層神經(jīng)元,有m個可視節(jié)點和n個隱藏節(jié)點,其中每個可視節(jié)點只和n個隱藏節(jié)點相關(guān),和其他可視節(jié)點是獨立的,就是這個可視節(jié)點的狀態(tài)只受n個隱藏節(jié)點的影響,對于每個隱藏節(jié)點也是,只受m個可視節(jié)點的影響,這個特點使得RBM的訓(xùn)練變得容易。注意這兩層間的對稱 (雙向) 連接。 RBM網(wǎng)絡(luò)有幾個參數(shù),一個是可視層與隱藏層之間的權(quán)重矩陣,一個是可視節(jié)點的偏移量b,一個是隱藏節(jié)點的偏移量c,這幾個參數(shù)決定了RBM網(wǎng)絡(luò)將一個m維的樣本編碼成一個什么樣的n維的樣本。
26、受限玻爾茲曼機 RBM介紹 RBM區(qū)別于BM的一點是,前者要求層內(nèi)神經(jīng)元之間沒有連接,而后者允許層內(nèi)連接 定義能量函數(shù) 聯(lián)合概率分布 性質(zhì):給定可見層時,隱藏層神經(jīng)元激活條件獨立;反之亦然 給定訓(xùn)練樣本訓(xùn)練一個RBM意味著調(diào)整參數(shù)以擬合給定訓(xùn)練樣本。數(shù)學(xué)推導(dǎo)可知,該問題等價于求下述函數(shù)最大值 假 設(shè) 每 個 節(jié) 點 取 值 都 在 集 合 0 ,1 中 , 即 i, j, vi 0 ,1 ,hj 0 ,1 。 DBN 對于給定的x = (x1, x2 xn),隱藏節(jié)點的第 j 個特征的取值為 1 的概率為P(hj = 1|v) = ( wij vi+ cj) 其中的 v 取值就是 x,hj 的
27、取值就是 yj,也就是說,編碼后的樣本 y 的第 j 個位置的取值為 1 的概率是p(hj = 1|v)。所以,生成 yj 的過程就是: i) 先利用公式p(hj = 1|v) = ( wij vi+ cj),根據(jù) x 的值計算概率p(hj = 1|v), 其中 vi 的取值就是 x i 的值。 ii) 然后產(chǎn)生一個 0 到 1 之間的隨機數(shù),如果它小于p(hj = 1|v), yj 的取值就是 1,否則就是 0。 DBN 反過來,現(xiàn)在知道了一個編碼后的樣本 y,想要知道原來的樣本 x,即解碼過程,跟上面也是同理,過程如下: i)先利用公式p(vi = 1|h) = ( wji hj+ bi)
28、,根據(jù) y 的值計算概率p(hj = 1|v),其中 hj 的取值就是 yj 的值。 ii)然后產(chǎn)生一個 0 到 1 之間的隨機數(shù),如果它小于p(vi = 1|h),hi 的取值就是 1,否則就是 0。 RBM訓(xùn)練 一 般 地 , 鏈 接 權(quán) 重 Wij可 初 始 化 為 來 自 正 態(tài) 分 布 N(0 ,0 .0 1 )的 隨 機 數(shù) , 隱單 元 的 偏 置 cj初 始 化 為 0 ;對 于 第 i個 可 見 單 元 , 偏 置 bj初 始 化 為 logpi/(1 -pi) 。 pi表 示 訓(xùn) 練 樣 本 中第 i個 特 征 處 于 激 活 狀 態(tài) 所 占 的 比 率 學(xué) 習(xí) 率 eps
29、ilon至 關(guān) 重 要 , 大 則 收 斂 快 , 但 是 算 法 可 能 不 穩(wěn) 定 。 小 則慢 。 為 克 服 這 一 矛 盾 引 入 動 量 , 使 本 次 參 數(shù) 值 修 改 的 方 向 不 完 全 由 當(dāng)前 樣 本 似 然 函 數(shù) 梯 度 方 向 決 定 , 而 是 上 一 次 參 數(shù) 值 修 改 方 向 與 本 次 梯度 方 向 的 結(jié) 合 可 以 避 免 過 早 的 收 斂 到 局 部 最 優(yōu) 點k為 動 量 項 學(xué) 習(xí) 率 開 始 時 k=0 .5 , 重 構(gòu) 誤 差 處 于 平 穩(wěn) 增 加 狀 態(tài) 時 , k=0 .9 RBM評估 Baidu : Deep Image 評價
30、 理論上無法證明它為何有效,但是在實際問題上它的確有效。沒有形成系統(tǒng)的理論。 各 個 DL模 型 為 什 么 好 用 ? 原 理 本 質(zhì) 是 什 么 ? 各 個 模 型 都 適 用 于 什 么 場 合 ? 針 對 特 定 數(shù) 據(jù) , 特 定 問 題 , 如何 組 合 搭 建 模 型 , 各 個 參 數(shù) 怎 么 選 ? 如 何 根 據(jù) 特 定 模 型 , 特 定 數(shù) 據(jù) 來 訓(xùn) 練 模 型 ? 優(yōu)點:1.在計算機視覺和語音識別方面確實結(jié)果超過傳統(tǒng)方法一大截;2.具有較好的transfer learning性質(zhì),一個模型訓(xùn)練好了拿到另一個問題上做一些簡單的refinement就可以用了;3.只要層
31、數(shù)夠 一個較好的 Feature Set 是可以被學(xué)出來的 缺點:1.訓(xùn)練耗時,模型正確性驗證復(fù)雜且麻煩;2. 某些深度網(wǎng)絡(luò)不僅訓(xùn)練而且線上部署也需要GPU支持;3.模型難以詮釋 找出來的Feature對人而言并不直觀 應(yīng)用 圖像識別 文本模型 時序相關(guān) 語音識別+機器翻譯 Multimodal Learning CTR prediction 推薦系統(tǒng) 把深度學(xué)習(xí)思想應(yīng)用到其他的模型上 展望 當(dāng)前深度學(xué)習(xí)領(lǐng)域的學(xué)術(shù)研究可以包含四部分:優(yōu)化,泛化,表達(dá)以及應(yīng)用。除了應(yīng)用之外每個部分又可以分成實踐和理論兩個方面。 包括谷歌、百度等都在研究,并產(chǎn)生了很多理論研究與工程應(yīng)用 Google Brain Google cat 深度學(xué)習(xí)引領(lǐng)了機器學(xué)習(xí)的方向,相關(guān)的機器視覺方向,從理論到產(chǎn)品,導(dǎo)致了這個行業(yè)不斷的火熱 參考資料 stanford Tutorial http:/ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial http:/openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning http:/ http:/ https:/ https:/
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 6.煤礦安全生產(chǎn)科普知識競賽題含答案
- 2.煤礦爆破工技能鑒定試題含答案
- 3.爆破工培訓(xùn)考試試題含答案
- 2.煤礦安全監(jiān)察人員模擬考試題庫試卷含答案
- 3.金屬非金屬礦山安全管理人員(地下礦山)安全生產(chǎn)模擬考試題庫試卷含答案
- 4.煤礦特種作業(yè)人員井下電鉗工模擬考試題庫試卷含答案
- 1 煤礦安全生產(chǎn)及管理知識測試題庫及答案
- 2 各種煤礦安全考試試題含答案
- 1 煤礦安全檢查考試題
- 1 井下放炮員練習(xí)題含答案
- 2煤礦安全監(jiān)測工種技術(shù)比武題庫含解析
- 1 礦山應(yīng)急救援安全知識競賽試題
- 1 礦井泵工考試練習(xí)題含答案
- 2煤礦爆破工考試復(fù)習(xí)題含答案
- 1 各種煤礦安全考試試題含答案