四輪三角履帶機器人設計-四輪履復合移動平臺設計【含20張CAD圖紙+PDF圖】
喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ======================== 喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ========================
畢業(yè)設計(文獻翻譯) 第 10 頁
畢業(yè)設計
文獻翻譯
綜合性應急機器人的運動模式
M.M. Svinina,*, K. Yamadab, K. Uedab
無機仿生控制研究中心,理化學研究所,森山區(qū),名古屋463-0003,日本
機械工程,神戶大學,納達區(qū),神戶657-8501,日本
2001年5月7日,2001年9月17日
本文研究的是穩(wěn)定的步態(tài)運動機器人的出現(xiàn)。一個分類器的系統(tǒng),正在加強實施學習計劃,步態(tài)機器人是用于八條腿感官機器人的電機控制合成。機器人沒有對環(huán)境的先驗知識和自己的內(nèi)部模型。這僅僅是個假設,機器人能夠獲得通過學習如何達到目標區(qū)域的穩(wěn)定步態(tài)。在學習過程中的控制系統(tǒng)是由鋼筋信號自組織。到達目標區(qū)域。德納一個全球性的獎勵,提出議案得到當?shù)氐莫剟?,而退一步失敗的話卻得到當?shù)靥幜P。隨著學習的進展,在分類器系統(tǒng)的操作規(guī)則的數(shù)量穩(wěn)定在一定水平,相應的步態(tài)模式。根據(jù)仿真和實驗測試所提出的自組織系統(tǒng)的可行性。最小的模擬模型不需要構造復雜的計算方案只用于模擬。仿真數(shù)據(jù),被下載到真正的機器人控制系統(tǒng),來發(fā)展最小的機器人模型。總體而言,10個模擬數(shù)據(jù)成功
運行了7個真正的機器人。?Elsevier科學有限公司保留所有權利。
1. 分類器系統(tǒng)
我們的方法是用機器人控制系統(tǒng)進行建模,由一個分類器系統(tǒng)輸出控制命令回應一個感官輸入。在分類器系統(tǒng)中,實際觀測空間和行動傳感器操作規(guī)則確定的狀態(tài)空間映射到確定的行為。
該傳感器狀態(tài)空間的發(fā)展,作為學習進步,其結(jié)構是自組織(圖2)。分類器系統(tǒng)的結(jié)構類似于威爾遜提出的最基本的一個系統(tǒng)結(jié)構[28]。本質(zhì)上的區(qū)別在于建立它的連續(xù)狀態(tài)與動作空間。
1.1運動規(guī)則
讓ns作為傳感器的數(shù)量和x={ x1,…,xn }T作為機器人的感官輸入。應該系統(tǒng)是一套操作準則,R. 準則r∈R定義如下:r;=, V={ v1,…, vns }T是狀態(tài)向量與記憶的準則,W={w1,…, wns}T是權重向量,u是準則的效用,a是準則r相應的操作活動。實用u實在學習過程中的一個實數(shù)表示的相對值。它沒有任何直接的物理意義,并只可能與相關準則的力量和內(nèi)部能量相聯(lián)系。該實用程序可能具有生物學意義,因為它是從準則的父繼承和稍后的進化過程中改變的。
在某種意義上,如果V匹配當前的感管輸入X,準則r變得活躍,能激發(fā)其作用。權重向量W是用來比較V和X的。wi∈[0,1]是荷蘭的‘不在意’符號的連續(xù)模擬。當wi接近于零是,第i個傳感器測量就不那么重要了。其中W=0是所謂的無限期準則。在目前的狀態(tài)X下無論任何地方的機器人都可以被激活。所有其他的準則都是明確的。他們可以被附近的V激活,使用重量W定義在其附近。準則的特異性:作為衡量明確的準則。其中λ是時間依賴的尺度參數(shù)。當λ接近1時,準則規(guī)定的行為會有更多的反應。另一方面,隨著λ越接近0,行為便變得更加積極主動(即會有更多不受限制地在探索環(huán)境的方式)。
其實,在我們的實現(xiàn),這是不夠的,僅僅保留一個模糊期準則。R中的所有其他準則都是明確的。開始R是由最初實用u0模糊準則分配的。隨著學習的進步,R,nr的總數(shù)通過復制和廢止而變化。
1.2運動選擇
在R中與對方進行權利競爭會引發(fā)他們的運動。對于所有rj∈R的準則,目前感官狀態(tài)X和準則的狀態(tài)向量Vj之間的加權距離定義為:其中,dk是隨時間變化的縮放參數(shù),它被定義為在學習過程中觀察到的第k個傳感器的最高和最低值之間的最大區(qū)別。
接下來,我們定義匹配率:其中,Tm是一個常數(shù)。注意的是即使沒有明確的準則匹配的感官輸入X,模糊的準則也總是起作用。事實上,不管是否遇到狀態(tài)X,W=0和m=1總是匹配。這使得模糊準則可能的候補得以被選擇。這在學習過程的開始特別重要,模糊準則往往認為是新準則的執(zhí)行和新準則生成的重要因素。
也要注意,當模糊準則被執(zhí)行,與此活動相關的準則按照[amin,amax]均勻分布隨機生成。
成功的準則是按照概率加權的方法給出了的玻爾茲曼分布:參數(shù)T的溫度含義是保持設置的狀態(tài)空間開發(fā)和探索之間的平衡。
1.3信貸分配
公用事業(yè)的準則是每次更新后,優(yōu)勝者將執(zhí)行其活動。實用調(diào)整機制包括以下幾個部分。
直接收益分配。直接收益分配P是只在特定狀態(tài)下給予優(yōu)勝者的準則。其中有兩種類型:回報(P>0)和懲罰(P<0)?;貓笫茄刂?guī)則的順序傳播,從而引發(fā)他們的活動折扣率γ(即當前和以前的優(yōu)勝者):其中N是優(yōu)勝者鏈的深度,0<γ<1。這相當于分享利潤盈利的策略在隨著時間逐漸貼進一步向后倒退。在這里,rw(1)是rw的父類,而rw(2)又是rw(1)的父類,以此類推。
桶橋策略。當前的優(yōu)勝者rw交其用途的一部分,Δu,恢復到以前的優(yōu)勝者,rw:要注意的是準則rw(1)增加了其效用。然而,我們沒有減少的規(guī)則rw實用性,這是我們的戰(zhàn)略和傳統(tǒng)之間的主要區(qū)別。如果觸發(fā)的動作只由數(shù)量有限的準則(R的子集)和他們遞交ΔU到另一個準則決定,那么每個準則的效用有望逐步收斂到這些規(guī)則之間的最高效用。因此,行動準則,以這種方式進行合作,可以存活一段時間,這期間的回報是很少的。這可以根據(jù)自組織的準則尋找一個最終的獎賞。
征稅。每當一個明確的準則rw觸發(fā)其活動,其效用被更新為:準則rw激活率cf比照支付的成本,以防止死鎖或循環(huán)的行為。在某種意義上說,準則是征稅的執(zhí)行權。需要注意的是模糊準則是免稅的,因為它的主要功能是生成新的規(guī)則。
蒸發(fā)。當機器人到達目標狀態(tài)時,所有的規(guī)則都減少他們實用蒸發(fā)率η<1:從某種意義上講,它所對應的是‘通貨膨脹’。其效用低于閾值以下的規(guī)則將被刪除。
1.4復制
在選擇優(yōu)勝者規(guī)則rw的時候,我們執(zhí)行與此規(guī)則相關的行動aw。接下來的事情就是我們應該關心行動之后的執(zhí)行以及效用的調(diào)整,這個過程就是復制過程。在我們的系統(tǒng)中,除了rw觸發(fā)的行動導致倒退或者崩潰這種情況,優(yōu)勝者規(guī)則rw總是生成一個新規(guī)則rc(孩子規(guī)則)。復制過程的詳細信息形式化如下。
如果優(yōu)勝者是模糊規(guī)則,復制的規(guī)則參數(shù)就設置為:vic=xi,wic=1,i=1,…,ns。
我們稱之為‘經(jīng)驗記憶’。效用的新規(guī)則,其作用的代碼是通過父類實現(xiàn)的:ac=aw,uc=uw。
另一方面,如果優(yōu)勝者是一個明確規(guī)則,我們試圖‘推廣經(jīng)驗’,那么新產(chǎn)生的規(guī)則是廣義的。
要注意的是,即使其匹配率mw<1,具有較高的實用uw的規(guī)則rw也可以在競爭中取勝。在我們的系統(tǒng)中,優(yōu)勝者再次提供的一個通用的規(guī)則rc的匹配率mw,是在某一確定的閾值θr,i.e,mw<θr范圍內(nèi)。下面的表達式是與θr有關的實用規(guī)則uw的表達式:θr=exp(-Truw)。其中Tr是個常量。言下之意是,具有較高匹配率但實用性低的規(guī)則,我們允許其通過復制障礙,反之亦然。
Vc和Wc為廣義新規(guī)則載體的設置如下:vic=xi,wic=1-|xi-vic|\di,i=1,…,ns.
為新的廣義規(guī)則的代碼實用性和靈活性設置為:ac=aw,uc=λcuw。
要注意的是,上述形成的新的廣義規(guī)則可以和一個更加寬廣的狀態(tài)空間相匹配,其中包括其父類的狀態(tài)。
2. 模擬實驗與測試結(jié)果
首先,學習步驟的可行性需要用模擬實驗來檢驗。如果機器人到達目標區(qū)域,或者產(chǎn)生的行動步驟超過500,程序就會更新一次。參數(shù)設置如下:全局獎勵P=5,本地獎勵P=5,對應行為的懲罰P=-5%, u0=10, umin=9.5, cf=0.015, γ=0.8, к=0.1, η=0.98, T=3, Tm=100, Tr=0.5。
10次模擬實驗連續(xù)進行,每一次的動作都會進化。模擬的不同僅在于初始生成的隨機數(shù)量。圖10中顯示了機器人第6次和第9次的運動軌跡。兩次都到達了目標區(qū)域。注意即使在成功案例中,機器人也沒有使用最短路徑。實際上,前進方向的數(shù)據(jù)并沒有放進傳感器的學習步驟里。因此,選擇不同的前進方向,并沒有對應的懲罰或者獎勵操作。另外一點,盡管機器人并不是直線到達目標區(qū)域,但腿部的運動模式一直很穩(wěn)定。
圖11中展示了學習過程的動態(tài)曲線。記錄了到達目標區(qū)域,所經(jīng)歷的懲罰,獎勵以及必須步驟的數(shù)目。圖表中,機器人得到的全局獎勵由向下的箭頭標示。很顯然,隨著學習過程的進展,懲罰的次數(shù)逐漸減少。
圖11. 學習記錄
圖12展示了規(guī)則的總數(shù),固定規(guī)則的數(shù)量,以及生成規(guī)則的數(shù)量。分別以點連線,細線,粗線表示。
圖12. 規(guī)則的生成
學習的動態(tài)過程展示了規(guī)則的總數(shù),和到達目標區(qū)域的必須步驟的數(shù)量之間,有相應的關系。也就是說,總數(shù)減少之后,必須步驟也隨即減少。并且,懲罰的數(shù)量和新生成規(guī)則的數(shù)量之間,也有相應的聯(lián)系。這就間接說明,不定規(guī)則的探索能力,逐漸可以歸納為有效固定規(guī)則的開發(fā)功能。實際上,僅有少量的固定規(guī)則才能產(chǎn)生“有用”的行為來引發(fā)機器人的動作,并且增強這些動作的實用性。同時,“不相關”規(guī)則的實用性逐漸降低,并且最終消失。因此,一段時間過后,剩余的規(guī)則就能發(fā)揮主導作用。
到達目標的必須步驟在第35節(jié)之后,開始變得穩(wěn)定。這是因為機器人掌握了一定的行為規(guī)則。圖13中展示了機器人第90次的腿部動作記錄。
圖13. 腿部動作
模擬環(huán)境下,控制裝置生成新行為的能力不斷進化,現(xiàn)在也能夠在試驗中得到驗證。模擬數(shù)據(jù)(第90次以后的規(guī)則)被下載到機器人OCT1-b的控制系統(tǒng)中,會執(zhí)行一次實驗動作。在這次實驗動作中,機器人被相同的分類系統(tǒng)所控制。
整體來說,控制真實機器人的10次模擬數(shù)據(jù)中,有7次是成功的。為了說明實驗結(jié)果,我們選擇了一次成功的數(shù)據(jù)和一次不成功的實驗行為數(shù)據(jù)。機器人在第6次和第9次模擬實驗中的行為見圖14。在模擬試驗中進化出的直線前進的動作與不完美的模擬數(shù)據(jù)相比,并不健壯。這給了我們引出了另一個問題,就是修正模型中的噪點,并且在存在干擾因素的環(huán)境下,進化機器人的控制系統(tǒng)。
圖14. 真實機器人行為
圖15展示了實驗階段里機器人的步伐(腿部動作的角度)。所有的測試中,即使是失敗案例,機器人都在嘗試跟隨模擬實驗里的運動模式。某種意義上來說,動作步驟所組成的行為模式,可以看作是機器人控制系統(tǒng)中基因的組成“材料”。
圖15. 腿部動作記錄
3 總結(jié)
出現(xiàn)在運動機器人的穩(wěn)定步態(tài)研究在這個文件。一個分類器系統(tǒng),實施實例基于強化學習計劃,用于感官八條腿的移動機器人的電機控制。機器人沒有先驗知識的環(huán)境,其自己的內(nèi)部模型,和目標坐標。這只是假設機器人可以通過學習獲得穩(wěn)定的步態(tài)如何達到目標區(qū)。在學習過程中的加固信號控制系統(tǒng)是自組織。達到光源德納一個全球性的獎勵。向前議案獲得當?shù)氐莫剟?,同時加強和下降沿下得到當?shù)氐膽土P??刂菩袆?。如學習進步,在數(shù)量上的行動規(guī)則分類器系統(tǒng)穩(wěn)定到一定程度。因此,運動模式全球行為(穩(wěn)定步態(tài))出現(xiàn),作為規(guī)則分類器系統(tǒng)的自我學習期間舉辦的過程。提出系統(tǒng)的可行性進行測試下仿真和實驗。虛擬船模型建造和使用不斷變化的機器人控制器在模擬環(huán)境下。驗證模型。
本文所提出的結(jié)果我們初步運動模式的新興合成研究運動機器人。因此,有足夠的空間?在未來應解決的關鍵點?例如,最小的模型似乎工作以及簡單導航任務,但其性能尚未測試更復雜的行為。接下來,分類器系統(tǒng),我們作為一個學習.引擎有許多參數(shù)調(diào)整到最佳值。此外,我們并沒有使用正規(guī)系統(tǒng)的程序,以評估性能因為這是一個不平凡的問題。在這方面,工作[31]的結(jié)果可能會提供一些??有價值的見解。
談到的框架,進一步發(fā)展最小的仿真模型,我們認為計算簡單最小的機型應該是成反比,控制對象的復雜性成正比??紤]隨著時間的簡單性和復雜性變化依靠數(shù)量上的學習經(jīng)驗,正常模式也可以被視為在一個可進化的方式。?“進化的組件將允許關閉控制循環(huán)和減少學習控制器之間的差距。正在使用該模型。從這個角度來看,它會有趣的建立和利用之間的二元(行動狀態(tài)的映射)模型和控制器(狀態(tài)到動作映射)在開發(fā)協(xié)同進化場景。這里的關鍵問題是在之間的關系真實的評價和自我評價。在為了得到一些如何真正評價的頻率基本的了解下,發(fā)展個人計算時間,我們計劃探測相對簡單的一維或二維的問題控制任務。
收藏
編號:102935150
類型:共享資源
大?。?span id="mzebxcnn0" class="font-tahoma">18.49MB
格式:ZIP
上傳時間:2022-06-07
50
積分
- 關 鍵 詞:
-
含20張CAD圖紙+PDF圖
三角
履帶
機器人
設計
四輪履
復合
移動
平臺
20
CAD
圖紙
PDF
- 資源描述:
-
喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ======================== 喜歡就充值下載吧。。資源目錄里展示的文件全都有,,請放心下載,,有疑問咨詢QQ:414951605或者1304139763 ========================
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。