多機器人路徑規(guī)劃分析論文

時間:2022-02-09 11:47:00

導語:多機器人路徑規(guī)劃分析論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

多機器人路徑規(guī)劃分析論文

1多機器人路徑規(guī)劃方法

單個機器人的路徑規(guī)劃是找出從起始點至終點的一條最短無碰路徑。多個機器人的路徑規(guī)劃側重考慮整個系統(tǒng)的最優(yōu)路徑,如系統(tǒng)的總耗時間最少路徑或是系統(tǒng)總路徑最短等。從目前國內(nèi)外的研究來看,在規(guī)劃多機器人路徑時,更多考慮的是多機器人之間的協(xié)調(diào)和合作式的路徑規(guī)劃。

目前國內(nèi)外多機器人路徑規(guī)劃研究方法分為傳統(tǒng)方法、智能優(yōu)化方法和其他方法三大類。其中傳統(tǒng)方法主要有基于圖論的方法(如可視圖法、自由空間法、柵格法、Voronoi圖法以及人工勢場方法等);智能優(yōu)化方法主要有遺傳算法、蟻群算法、免疫算法、神經(jīng)網(wǎng)絡、強化學習等;其他方法主要有動態(tài)規(guī)劃、最優(yōu)控制算法、模糊控制等。它們中的大部分都是從單個機器人路徑規(guī)劃方法擴展而來的。

1)傳統(tǒng)方法多機器人路徑規(guī)劃傳統(tǒng)方法的特點主要體現(xiàn)在基于圖論的基礎上。方法一般都是先將環(huán)境構建成一個圖,然后再從圖中尋找最優(yōu)的路徑。其優(yōu)點是比較簡單,比較容易實現(xiàn);缺點是得到的路徑有可能不是最優(yōu)路徑,而是次優(yōu)路徑。薄喜柱等人[4]提出的一種新路徑規(guī)劃方法的基本思想就是基于柵格類的環(huán)境表示和障礙地圖的。而人工勢場方法的基本思想是將移動機器人在環(huán)境中的運動視為一種虛擬人工受力場中的運動。障礙物對移動機器人產(chǎn)生斥力,目標點產(chǎn)生引力,引力和斥力周圍由一定的算法產(chǎn)生相應的勢,機器人在勢場中受到抽象力作用,抽象力使得機器人繞過障礙物。其優(yōu)點是適合未知環(huán)境下的規(guī)劃,不會出現(xiàn)維數(shù)爆炸問題;但是人工勢場法也容易陷入局部最小,并且存在丟失解的部分有用信息的可能。顧國昌等人[5]提出了引用總體勢減小的動態(tài)調(diào)度技術的多機器人路徑規(guī)劃,較好地解決了這個問題。

2)智能優(yōu)化方法多機器人路徑規(guī)劃的智能優(yōu)化方(算)法是隨著近年來智能計算發(fā)展而產(chǎn)生的一些新方法。其相對于傳統(tǒng)方法更加智能化,且日益成為國內(nèi)外研究的重點。

遺傳算法是近年來計算智能研究的熱點,作為一種基于群體進化的概率優(yōu)化方法,適用于處理傳統(tǒng)搜索算法難以解決的復雜和非線性問題,如多機器的路徑規(guī)劃問題。在路徑規(guī)劃中,其基本思想是先用鏈接圖法把環(huán)境地圖構建成一個路徑節(jié)點鏈接網(wǎng),將路徑個體表達為路徑中一系列中途節(jié)點,并轉(zhuǎn)換為二進制串;然后進行遺傳操作(如選擇、交叉、復制、變異),經(jīng)過N次進化,輸出當前的最優(yōu)個體即機器人的最優(yōu)路徑。遺傳算法的缺點是運算速度不快,進化眾多的規(guī)劃要占據(jù)很大的存儲空間和運算時間;優(yōu)點是有效避免了局部極小值問題,且計算量較小。

孫樹棟等人[6,7]在這方面較早地展開了研究,提出的基于集中協(xié)調(diào)思想的一種混合遺傳算法來規(guī)劃多機器人路徑方法較好地解決了避障問題。但不足的是該方法必須建立環(huán)境地圖,在環(huán)境未知情況下的規(guī)劃沒有得到很好的解決;且規(guī)劃只能保證找到一個比較滿意的解,在求解全局最優(yōu)解時仍有局限。

文獻[8]中提出的一種基于定長十進編碼方法有效降低了遺傳算法的編碼難度,克服了已有的變長編碼機制及定長二進制編碼機制需特殊遺傳操作算子和特殊解碼的缺陷,使得算法更加簡單有效。

智能計算的另一種常見的方法——蟻群算法屬于隨機搜索的仿生算法。其基本思想是模擬螞蟻群體的覓食運動過程來實現(xiàn)尋優(yōu),通過螞蟻群體中各個體之間的相互作用,分布、并行地解決組合優(yōu)化問題。該算法同樣比較適合解決多機器人的路徑規(guī)劃問題。

朱慶保[9]提出了在全局未知環(huán)境下多機器人運動螞蟻導航算法。該方法將全局目標點映射到機器人視野域邊界附近作為局部導航子目標,再由兩組螞蟻相互協(xié)作完成機器人視野域內(nèi)局部最優(yōu)路徑的搜索,然后在此基礎上進行與其他機器人的碰撞預測與避碰規(guī)劃。因此,機器人的前進路徑不斷被動態(tài)修改,從而在每條局部優(yōu)化路徑引導下,使機器人沿一條全局優(yōu)化的路徑到達目標點。但其不足是在動態(tài)不確定的環(huán)境中路徑規(guī)劃時間開銷劇增,而且機器人缺乏必要的學習,以至于整個機器人系統(tǒng)路徑難以是最優(yōu)路徑。

強化學習[10,11](又稱再激勵學習)是一種重要的機器學習方法。它是一種智能體從環(huán)境狀態(tài)到行為映射的學習,使得行為從環(huán)境中獲得積累獎賞值最大。其原理如圖1所示。

強化學習算法一般包含了兩個步驟:a)從當前學習循環(huán)的值函數(shù)確定新的行為策略;b)在新的行為策略指導下,通過所獲得的瞬時獎懲值對該策略進行評估。學習循環(huán)過程如下所示,直到值函數(shù)和策略收斂:

v0→π1→v1→π2→…→v*→π*→v*

目前比較常見的強化學習方法有:MonteCarlo方法、動態(tài)規(guī)劃方法、TD(時間差分)方法。其中TD算法包含Sarsa算法、Q學習算法以及Dyna-Q算法等。其Q值函數(shù)迭代公式分別為

TD(0)策略:V(si)←V(si)+α[γi+1+γV(si+1)-V(si)]

Sarsa算法:Q(st,at)←Q(st,at)+α[γt+1+γQ(st+1,at.+1)-Q(st,at)]Qs′學習算法:Qπ(s,a)=∑Pαss′[Rass′+γVπ(s′)]

近年來,基于強化學習的路徑規(guī)劃日益成為國內(nèi)外學者研究的熱點。M.J.Mataric[12]首次把強化學習引入到多機器人環(huán)境中。而基于強化學習的多機器人路徑規(guī)劃的優(yōu)點主要體現(xiàn)在:無須建立精確的環(huán)境模型,簡化了智能體的編程;無須構建環(huán)境地圖;強化學習可以把路徑規(guī)劃、避碰、避障、協(xié)作等問題統(tǒng)一解決。

張芳等人[13]提出了基于再激勵協(xié)調(diào)避障路徑規(guī)劃方法,把再勵函數(shù)設計為基于行為分解的無模型非均勻結構,新的再勵函數(shù)結構使得學習速度得以提高且有較好的魯棒性。同時,證明了在路徑規(guī)劃中,機器人的趨向目標和避障行為密切相關,對反映各基本行為的再勵函數(shù)取加權和來表示總的再勵函數(shù)要優(yōu)于取直接和的表示方式,也反映了再勵函數(shù)設計得合理與否及其確切程度將影響再勵學習的收斂速度。王醒策等人[14]在動態(tài)編隊的強化學習算法方面展開了研究。宋一然[15]則提出了分段再勵函數(shù)的強化學習方法進行路徑規(guī)劃。其缺點是學習次數(shù)較多、效率不高,當機器人數(shù)目增加時,它有可能面臨維數(shù)災難的困難。所以,基于強化學習的路徑規(guī)劃在多機器人環(huán)境下的學習將變得比較困難,需要對傳統(tǒng)的強化學習加以優(yōu)化,如基于人工神經(jīng)網(wǎng)絡的強化學習[16]等。

3)其他方法除了以上國內(nèi)外幾種比較常見且研究較多的方法外,還有唐振民等人[17]提出的基于動態(tài)規(guī)劃思想的多機器人路徑規(guī)劃,把運籌學中的動態(tài)規(guī)劃思想與Dijkstra算法引入到多機器人的路徑規(guī)劃中,用動態(tài)規(guī)劃的基本思想來解決圖論中的費用流問題和路徑規(guī)劃中的層級動態(tài)聯(lián)盟問題。其選擇距離鄰近法作為聯(lián)盟參考依據(jù)。一個機器人的鄰居是指在地理位置上分布在這個機器人周圍的其他機器人;與該機器人最近鄰的機器人為第一層鄰居,第一層鄰居的鄰居為該機器人的第二層鄰居,依此類推。那么層級越高(即越近)的鄰居,它滿足協(xié)作要求的可能性越大。動態(tài)規(guī)劃算法實質(zhì)上是一種以空間換時間的技術,它在實現(xiàn)的過程中,必須存儲產(chǎn)生過程中的各種狀態(tài),其空間復雜度要大于其他算法,故動態(tài)規(guī)劃方法比較適合多機器人的全局路徑規(guī)劃。

孫茂相等人[18]提出了最優(yōu)控制與智能決策相結合的多移動機器人路徑規(guī)劃方法。其首先構造一個以各機器人最優(yōu)運動狀態(tài)數(shù)據(jù)庫為核心的實時專家系統(tǒng),在離線狀態(tài)下完成;然后各機器人在此專家系統(tǒng)的支持下,以最優(yōu)規(guī)劃策略為基礎,采用速度遷移算法,自主決定其控制。該方法擁有較好的穩(wěn)定性與復雜度。焦立男等人[19]提出的基于局部傳感和通信的多機器人運動規(guī)劃框架較好地解決了多機器人路徑規(guī)劃在局部在線規(guī)劃的系統(tǒng)框架問題。沈捷等人[20]提出了保持隊形的多移動機器人路徑規(guī)劃。以基于行為的導航算法為基礎,把機器人隊列的運動過程劃分為正常運動、避障和恢復隊形三個階段。在避障階段,引入虛擬機器人使隊形保持部分完整;當隊形被嚴重打亂時,規(guī)劃機器人的局部目標位姿使隊列快速恢復隊形。其算法重點為避障機器人進入避障狀態(tài),暫時脫離隊列,并以虛擬機器人代替避障機器人。

2多機器人避碰和避障

避障和避碰是多機器人路徑規(guī)劃研究中需要考慮的重點問題之一。避障和避碰主要討論的內(nèi)容有防止碰撞;沖突消解、避免擁塞;如何避免死鎖。在路徑規(guī)劃中常見的多機器人避障方法[21]有主從控制法、動態(tài)優(yōu)先法(建立在機器人之間的通信協(xié)商上)、交通規(guī)則法、速率調(diào)整法,以及障礙物膨脹法、基于人工勢場的方法等。

目前國內(nèi)外對于多機器人避障展開的研究還不是很多,比較典型的有徐潼等人[22]以Th.Fraichard的思想為基礎,擴充并完善了路徑/速度分解方案來協(xié)調(diào)多機器人,設立集中管理agent進行整體規(guī)劃,為每個機器人規(guī)劃路徑;并根據(jù)優(yōu)先級規(guī)則對運動特征進行分布式規(guī)劃以避免機器人間的沖突。周明等人[23]提出分布式智能避撞規(guī)劃系統(tǒng),將原來比較復雜的大系統(tǒng)轉(zhuǎn)換為相對簡單的子系統(tǒng)問題,由各智能機器人依據(jù)任務要求和環(huán)境變化,獨立調(diào)整自身運動狀態(tài),完成任務的分布式智能決策體系結構。任炏等人[24]提出了基于過程獎賞和優(yōu)先掃除的強化學習多機器人系統(tǒng)的沖突消解方法。該算法能夠顯著減少沖突,避免死鎖,提高了系統(tǒng)整體性能。歐錦軍等人[25]提出了通過調(diào)整機器人的運動速度實現(xiàn)多機器人避碰,將避碰問題轉(zhuǎn)換為高維線性空間的優(yōu)化問題,并進一步將其轉(zhuǎn)換為線性方程的求解。該方法的缺點是系統(tǒng)的復雜度較高、計算量太大。

人工勢場方法的特點是計算簡潔、實時性強、便于數(shù)學描述,且適合于多自由度機器人環(huán)境,但容易產(chǎn)生抖動和陷入局部極小。為了克服其缺點,景興建等人[26]提出了人工協(xié)調(diào)場的方法,在傳統(tǒng)排斥力場中增加一個協(xié)調(diào)力,并將吸引力、排斥力和協(xié)調(diào)力與局部環(huán)境下機器人的運動狀態(tài)和運動要求結合起來,有效地保證機器人的安全性,提高機器人在復雜動態(tài)環(huán)境下行為決策的準確性和魯棒性。

3多機器人協(xié)作和協(xié)調(diào)機制

多機器人間的運動協(xié)調(diào)[27~31]是多機器人路徑規(guī)劃的關鍵,也是多機器人與單機器人路徑規(guī)劃相區(qū)別的根本所在。多機器人系統(tǒng)在復雜動態(tài)實時環(huán)境下,由于受到時間、資源及任務要求的約束,需要在有限時間、資源的情況下進行資源分配、任務調(diào)配、沖突解決等協(xié)調(diào)合作問題,而機器人間的協(xié)調(diào)與協(xié)作,能夠大大地提高整個系統(tǒng)的效率和魯棒性,成為系統(tǒng)完成控制或解決任務的關鍵。

目前已有的協(xié)調(diào)方式分為集中式、分布式和混合式三種。在集中式協(xié)調(diào)中,集中規(guī)劃器詳細地規(guī)劃出每個機器人的動作,通常的做法是將多個機器人看做一個多自由度的機器人進行規(guī)劃;而分布式協(xié)調(diào)規(guī)劃中,機器人之間進行合作,將一個任務分成多個子任務,根據(jù)各自的特點完成不同的子任務,從而共同完成總任務;混合式協(xié)調(diào)是集中式和分布式混合在一起的形式。

摘要:在查閱大量文獻的基礎上對多機器人路徑規(guī)劃的主要研究內(nèi)容和研究現(xiàn)狀進行了分析和總結,討論了多機器人路徑規(guī)劃方法的評判標準,并闡述了研究遇到的瓶頸問題,展望了多機器人路徑規(guī)劃方法的發(fā)展趨勢。

關鍵詞:多機器人;路徑規(guī)劃;強化學習;評判準則

Abstract:Thispaperanalyzedandconcludedthemainmethodandcurrentresearchofthepathplanningresearchformultirobot.Thendiscussedthecriterionofpathplanningresearchformultirobotbasedlargeofliterature.Meanwhile,itexpoundedthebottleneckofthepathplanningresearchformultirobot,forecastedthefuturedevelopmentofmultirobotpathplanning.

Keywords:multirobot;pathplanning;reinforcementlearning;evaluatingcriteria

近年來,分布式人工智能(DAI)成為人工智能研究的一個重要分支。DAI研究大致可以分為DPS(distributedproblemsolving)和MAS(multiagentsystem)兩個方面。一些從事機器人學的研究人員受多智能體系統(tǒng)研究的啟發(fā),將智能體概念應用于多機器人系統(tǒng)的研究中,將單個機器人視做一個能獨立執(zhí)行特定任務的智能體,并把這種多機器人系統(tǒng)稱為多智能體機器人系統(tǒng)(MARS)。因此,本文中多機器人系統(tǒng)等同于多智能體機器人系統(tǒng)。目前,多機器人系統(tǒng)已經(jīng)成為學術界研究的熱點,而路徑規(guī)劃研究又是其核心部分。

機器人路徑規(guī)劃問題可以建模為一個帶約束的優(yōu)化問題,其包括地理環(huán)境信息建模、路徑規(guī)劃、定位和避障等任務,它是移動機器人導航與控制的基礎。單個移動機器人路徑規(guī)劃研究一直是機器人研究的重點,且已經(jīng)有許多成果[1~3],例如在靜態(tài)環(huán)境中常見的有連接圖法、可視圖法、切線圖法、Voronoi圖法、自由空間法、柵格法、拓撲法、鏈接圖法、DempsterShafer證據(jù)理論建圖等;動態(tài)環(huán)境中常見的有粒子群算法、免疫算法、遺傳算法、神經(jīng)網(wǎng)絡、蟻群算法、模擬退火算法、人工勢場法等。然而,多機器人路徑規(guī)劃研究比單個機器人路徑規(guī)劃要復雜得多,必須考慮多機器人系統(tǒng)中機器人之間的避碰機制、機器人之間的相互協(xié)作機制、通信機制等問題。

1多機器人路徑規(guī)劃方法

單個機器人的路徑規(guī)劃是找出從起始點至終點的一條最短無碰路徑。多個機器人的路徑規(guī)劃側重考慮整個系統(tǒng)的最優(yōu)路徑,如系統(tǒng)的總耗時間最少路徑或是系統(tǒng)總路徑最短等。從目前國內(nèi)外的研究來看,在規(guī)劃多機器人路徑時,更多考慮的是多機器人之間的協(xié)調(diào)和合作式的路徑規(guī)劃。

目前國內(nèi)外多機器人路徑規(guī)劃研究方法分為傳統(tǒng)方法、智能優(yōu)化方法和其他方法三大類。其中傳統(tǒng)方法主要有基于圖論的方法(如可視圖法、自由空間法、柵格法、Voronoi圖法以及人工勢場方法等);智能優(yōu)化方法主要有遺傳算法、蟻群算法、免疫算法、神經(jīng)網(wǎng)絡、強化學習等;其他方法主要有動態(tài)規(guī)劃、最優(yōu)控制算法、模糊控制等。它們中的大部分都是從單個機器人路徑規(guī)劃方法擴展而來的。

1)傳統(tǒng)方法多機器人路徑規(guī)劃傳統(tǒng)方法的特點主要體現(xiàn)在基于圖論的基礎上。方法一般都是先將環(huán)境構建成一個圖,然后再從圖中尋找最優(yōu)的路徑。其優(yōu)點是比較簡單,比較容易實現(xiàn);缺點是得到的路徑有可能不是最優(yōu)路徑,而是次優(yōu)路徑。薄喜柱等人[4]提出的一種新路徑規(guī)劃方法的基本思想就是基于柵格類的環(huán)境表示和障礙地圖的。而人工勢場方法的基本思想是將移動機器人在環(huán)境中的運動視為一種虛擬人工受力場中的運動。障礙物對移動機器人產(chǎn)生斥力,目標點產(chǎn)生引力,引力和斥力周圍由一定的算法產(chǎn)生相應的勢,機器人在勢場中受到抽象力作用,抽象力使得機器人繞過障礙物。其優(yōu)點是適合未知環(huán)境下的規(guī)劃,不會出現(xiàn)維數(shù)爆炸問題;但是人工勢場法也容易陷入局部最小,并且存在丟失解的部分有用信息的可能。顧國昌等人[5]提出了引用總體勢減小的動態(tài)調(diào)度技術的多機器人路徑規(guī)劃,較好地解決了這個問題。

2)智能優(yōu)化方法多機器人路徑規(guī)劃的智能優(yōu)化方(算)法是隨著近年來智能計算發(fā)展而產(chǎn)生的一些新方法。其相對于傳統(tǒng)方法更加智能化,且日益成為國內(nèi)外研究的重點。

遺傳算法是近年來計算智能研究的熱點,作為一種基于群體進化的概率優(yōu)化方法,適用于處理傳統(tǒng)搜索算法難以解決的復雜和非線性問題,如多機器的路徑規(guī)劃問題。在路徑規(guī)劃中,其基本思想是先用鏈接圖法把環(huán)境地圖構建成一個路徑節(jié)點鏈接網(wǎng),將路徑個體表達為路徑中一系列中途節(jié)點,并轉(zhuǎn)換為二進制串;然后進行遺傳操作(如選擇、交叉、復制、變異),經(jīng)過N次進化,輸出當前的最優(yōu)個體即機器人的最優(yōu)路徑。遺傳算法的缺點是運算速度不快,進化眾多的規(guī)劃要占據(jù)很大的存儲空間和運算時間;優(yōu)點是有效避免了局部極小值問題,且計算量較小。

孫樹棟等人[6,7]在這方面較早地展開了研究,提出的基于集中協(xié)調(diào)思想的一種混合遺傳算法來規(guī)劃多機器人路徑方法較好地解決了避障問題。但不足的是該方法必須建立環(huán)境地圖,在環(huán)境未知情況下的規(guī)劃沒有得到很好的解決;且規(guī)劃只能保證找到一個比較滿意的解,在求解全局最優(yōu)解時仍有局限。

文獻[8]中提出的一種基于定長十進編碼方法有效降低了遺傳算法的編碼難度,克服了已有的變長編碼機制及定長二進制編碼機制需特殊遺傳操作算子和特殊解碼的缺陷,使得算法更加簡單有效。

智能計算的另一種常見的方法——蟻群算法屬于隨機搜索的仿生算法。其基本思想是模擬螞蟻群體的覓食運動過程來實現(xiàn)尋優(yōu),通過螞蟻群體中各個體之間的相互作用,分布、并行地解決組合優(yōu)化問題。該算法同樣比較適合解決多機器人的路徑規(guī)劃問題。

朱慶保[9]提出了在全局未知環(huán)境下多機器人運動螞蟻導航算法。該方法將全局目標點映射到機器人視野域邊界附近作為局部導航子目標,再由兩組螞蟻相互協(xié)作完成機器人視野域內(nèi)局部最優(yōu)路徑的搜索,然后在此基礎上進行與其他機器人的碰撞預測與避碰規(guī)劃。因此,機器人的前進路徑不斷被動態(tài)修改,從而在每條局部優(yōu)化路徑引導下,使機器人沿一條全局優(yōu)化的路徑到達目標點。但其不足是在動態(tài)不確定的環(huán)境中路徑規(guī)劃時間開銷劇增,而且機器人缺乏必要的學習,以至于整個機器人系統(tǒng)路徑難以是最優(yōu)路徑。

強化學習[10,11](又稱再激勵學習)是一種重要的機器學習方法。它是一種智能體從環(huán)境狀態(tài)到行為映射的學習,使得行為從環(huán)境中獲得積累獎賞值最大。其原理如圖1所示。

強化學習算法一般包含了兩個步驟:a)從當前學習循環(huán)的值函數(shù)確定新的行為策略;b)在新的行為策略指導下,通過所獲得的瞬時獎懲值對該策略進行評估。學習循環(huán)過程如下所示,直到值函數(shù)和策略收斂:

v0→π1→v1→π2→…→v*→π*→v*

目前比較常見的強化學習方法有:MonteCarlo方法、動態(tài)規(guī)劃方法、TD(時間差分)方法。其中TD算法包含Sarsa算法、Q學習算法以及Dyna-Q算法等。其Q值函數(shù)迭代公式分別為

TD(0)策略:V(si)←V(si)+α[γi+1+γV(si+1)-V(si)]

Sarsa算法:Q(st,at)←Q(st,at)+α[γt+1+γQ(st+1,at.+1)-Q(st,at)]Qs′學習算法:Qπ(s,a)=∑Pαss′[Rass′+γVπ(s′)]

近年來,基于強化學習的路徑規(guī)劃日益成為國內(nèi)外學者研究的熱點。M.J.Mataric[12]首次把強化學習引入到多機器人環(huán)境中。而基于強化學習的多機器人路徑規(guī)劃的優(yōu)點主要體現(xiàn)在:無須建立精確的環(huán)境模型,簡化了智能體的編程;無須構建環(huán)境地圖;強化學習可以把路徑規(guī)劃、避碰、避障、協(xié)作等問題統(tǒng)一解決。

張芳等人[13]提出了基于再激勵協(xié)調(diào)避障路徑規(guī)劃方法,把再勵函數(shù)設計為基于行為分解的無模型非均勻結構,新的再勵函數(shù)結構使得學習速度得以提高且有較好的魯棒性。同時,證明了在路徑規(guī)劃中,機器人的趨向目標和避障行為密切相關,對反映各基本行為的再勵函數(shù)取加權和來表示總的再勵函數(shù)要優(yōu)于取直接和的表示方式,也反映了再勵函數(shù)設計得合理與否及其確切程度將影響再勵學習的收斂速度。王醒策等人[14]在動態(tài)編隊的強化學習算法方面展開了研究。宋一然[15]則提出了分段再勵函數(shù)的強化學習方法進行路徑規(guī)劃。其缺點是學習次數(shù)較多、效率不高,當機器人數(shù)目增加時,它有可能面臨維數(shù)災難的困難。所以,基于強化學習的路徑規(guī)劃在多機器人環(huán)境下的學習將變得比較困難,需要對傳統(tǒng)的強化學習加以優(yōu)化,如基于人工神經(jīng)網(wǎng)絡的強化學習[16]等。

3)其他方法除了以上國內(nèi)外幾種比較常見且研究較多的方法外,還有唐振民等人[17]提出的基于動態(tài)規(guī)劃思想的多機器人路徑規(guī)劃,把運籌學中的動態(tài)規(guī)劃思想與Dijkstra算法引入到多機器人的路徑規(guī)劃中,用動態(tài)規(guī)劃的基本思想來解決圖論中的費用流問題和路徑規(guī)劃中的層級動態(tài)聯(lián)盟問題。其選擇距離鄰近法作為聯(lián)盟參考依據(jù)。一個機器人的鄰居是指在地理位置上分布在這個機器人周圍的其他機器人;與該機器人最近鄰的機器人為第一層鄰居,第一層鄰居的鄰居為該機器人的第二層鄰居,依此類推。那么層級越高(即越近)的鄰居,它滿足協(xié)作要求的可能性越大。動態(tài)規(guī)劃算法實質(zhì)上是一種以空間換時間的技術,它在實現(xiàn)的過程中,必須存儲產(chǎn)生過程中的各種狀態(tài),其空間復雜度要大于其他算法,故動態(tài)規(guī)劃方法比較適合多機器人的全局路徑規(guī)劃。

孫茂相等人[18]提出了最優(yōu)控制與智能決策相結合的多移動機器人路徑規(guī)劃方法。其首先構造一個以各機器人最優(yōu)運動狀態(tài)數(shù)據(jù)庫為核心的實時專家系統(tǒng),在離線狀態(tài)下完成;然后各機器人在此專家系統(tǒng)的支持下,以最優(yōu)規(guī)劃策略為基礎,采用速度遷移算法,自主決定其控制。該方法擁有較好的穩(wěn)定性與復雜度。焦立男等人[19]提出的基于局部傳感和通信的多機器人運動規(guī)劃框架較好地解決了多機器人路徑規(guī)劃在局部在線規(guī)劃的系統(tǒng)框架問題。沈捷等人[20]提出了保持隊形的多移動機器人路徑規(guī)劃。以基于行為的導航算法為基礎,把機器人隊列的運動過程劃分為正常運動、避障和恢復隊形三個階段。在避障階段,引入虛擬機器人使隊形保持部分完整;當隊形被嚴重打亂時,規(guī)劃機器人的局部目標位姿使隊列快速恢復隊形。其算法重點為避障機器人進入避障狀態(tài),暫時脫離隊列,并以虛擬機器人代替避障機器人。

2多機器人避碰和避障

避障和避碰是多機器人路徑規(guī)劃研究中需要考慮的重點問題之一。避障和避碰主要討論的內(nèi)容有防止碰撞;沖突消解、避免擁塞;如何避免死鎖。在路徑規(guī)劃中常見的多機器人避障方法[21]有主從控制法、動態(tài)優(yōu)先法(建立在機器人之間的通信協(xié)商上)、交通規(guī)則法、速率調(diào)整法,以及障礙物膨脹法、基于人工勢場的方法等。

目前國內(nèi)外對于多機器人避障展開的研究還不是很多,比較典型的有徐潼等人[22]以Th.Fraichard的思想為基礎,擴充并完善了路徑/速度分解方案來協(xié)調(diào)多機器人,設立集中管理agent進行整體規(guī)劃,為每個機器人規(guī)劃路徑;并根據(jù)優(yōu)先級規(guī)則對運動特征進行分布式規(guī)劃以避免機器人間的沖突。周明等人[23]提出分布式智能避撞規(guī)劃系統(tǒng),將原來比較復雜的大系統(tǒng)轉(zhuǎn)換為相對簡單的子系統(tǒng)問題,由各智能機器人依據(jù)任務要求和環(huán)境變化,獨立調(diào)整自身運動狀態(tài),完成任務的分布式智能決策體系結構。任炏等人[24]提出了基于過程獎賞和優(yōu)先掃除的強化學習多機器人系統(tǒng)的沖突消解方法。該算法能夠顯著減少沖突,避免死鎖,提高了系統(tǒng)整體性能。歐錦軍等人[25]提出了通過調(diào)整機器人的運動速度實現(xiàn)多機器人避碰,將避碰問題轉(zhuǎn)換為高維線性空間的優(yōu)化問題,并進一步將其轉(zhuǎn)換為線性方程的求解。該方法的缺點是系統(tǒng)的復雜度較高、計算量太大。

人工勢場方法的特點是計算簡潔、實時性強、便于數(shù)學描述,且適合于多自由度機器人環(huán)境,但容易產(chǎn)生抖動和陷入局部極小。為了克服其缺點,景興建等人[26]提出了人工協(xié)調(diào)場的方法,在傳統(tǒng)排斥力場中增加一個協(xié)調(diào)力,并將吸引力、排斥力和協(xié)調(diào)力與局部環(huán)境下機器人的運動狀態(tài)和運動要求結合起來,有效地保證機器人的安全性,提高機器人在復雜動態(tài)環(huán)境下行為決策的準確性和魯棒性。

3多機器人協(xié)作和協(xié)調(diào)機制

多機器人間的運動協(xié)調(diào)[27~31]是多機器人路徑規(guī)劃的關鍵,也是多機器人與單機器人路徑規(guī)劃相區(qū)別的根本所在。多機器人系統(tǒng)在復雜動態(tài)實時環(huán)境下,由于受到時間、資源及任務要求的約束,需要在有限時間、資源的情況下進行資源分配、任務調(diào)配、沖突解決等協(xié)調(diào)合作問題,而機器人間的協(xié)調(diào)與協(xié)作,能夠大大地提高整個系統(tǒng)的效率和魯棒性,成為系統(tǒng)完成控制或解決任務的關鍵。

目前已有的協(xié)調(diào)方式分為集中式、分布式和混合式三種。在集中式協(xié)調(diào)中,集中規(guī)劃器詳細地規(guī)劃出每個機器人的動作,通常的做法是將多個機器人看做一個多自由度的機器人進行規(guī)劃;而分布式協(xié)調(diào)規(guī)劃中,機器人之間進行合作,將一個任務分成多個子任務,根據(jù)各自的特點完成不同的子任務,從而共同完成總任務;混合式協(xié)調(diào)是集中式和分布式混合在一起的形式。

多機器人間典型的協(xié)調(diào)方法[32]有合同網(wǎng)協(xié)議[33]、黑板模型、結果共享的協(xié)同方法、市場機制。近年來強化學習在多機器人協(xié)作方面也得到很好的應用,陳雪江[32]在基于強化學習的多機器人協(xié)作方面展開了研究,提出了多智能體協(xié)作的兩層強化學習方法來求解在多智能體完全協(xié)作、有通信情況下的協(xié)作問題。其主要通過在單個智能體中構筑兩層強化學習單元來實現(xiàn):第一層強化學習單元負責學習智能體的聯(lián)合任務協(xié)作策略;第二層強化學習單元負責學習在本智能體看來是最有效的行動策略。陳偉等人[34]提出基于多目標決策理論的多機器人協(xié)調(diào)方法;通過對環(huán)境的拓撲建模,從基于行為的機器人學角度出發(fā),對任務進行分解并設計目標行為,以多目標行為決策理論作為決策支持,從而達到多機器人運動協(xié)調(diào)的目的。

4多機器人路徑規(guī)劃方(算)法的判優(yōu)準則

通常評價機器人路徑規(guī)劃方(算)法的標準文獻[35]有正確性、時間/空間復雜度、并行性、可靠性、擴展性、魯棒性和學習。而多機器人的路徑規(guī)劃除了以上一些衡量標準之外,還需要考慮整個系統(tǒng)的最優(yōu)化以及機器人間的協(xié)調(diào)性。

1)正確性是分析算法的最基本的原則之一。一般來說算法的正確性是指:在給定有效的輸入數(shù)據(jù)后,算法經(jīng)過有窮時間的計算能給出正確的答案。但在多機器人路徑規(guī)劃算法中,正確性主要指:路徑規(guī)劃算法要生成多個機器人協(xié)調(diào)運動的無碰安全路徑;這條路徑是優(yōu)化的。

2)安全性一般指多機器人所生成的各路徑中節(jié)點與障礙物有一定的距離。但在實際的應用背景下,有人認為安全性可以從兩個方面來理解:a)狹義地講,它就是機器人在行走過程中所做的功。在一定的條件下,它與路徑長度準則是一致的。b)廣義地講,它是各種優(yōu)化條件加權綜合而得到的結果。

3)復雜度一個算法的復雜性高低體現(xiàn)在該算法所需要的計算機資源的多少上面。所需要的資源越多,該算法的復雜性越高;反之,所需要的資源越少,該算法的復雜性就越低。算法的復雜性包括時間復雜度和空間復雜度。

在多機器人的路徑規(guī)劃算法中,算法的復雜度分析顯得尤為重要。一般地,單機器人路徑規(guī)劃算法的時空復雜度已經(jīng)頗高,它們的數(shù)量級至少是O(n2);多機器人的路徑規(guī)劃算法不僅是m-O(n2)(即m個機器人路徑規(guī)劃簡單地疊加),它們之間還存在著對運動空間競爭的沖突,面對不斷變化的沖突的協(xié)調(diào)需要花費大量的時間和空間。通常多機器人的路徑規(guī)劃算法與機器人的個數(shù)呈指數(shù)關系O(km×n2)(k為常數(shù))。這對多機器人路徑規(guī)劃算法的時間/空間復雜度控制是一個很嚴峻的考驗。

4)并行性算法的并行性從算法設計、編寫程序、編譯和運行等多個不同的層次來體現(xiàn)。路徑規(guī)劃過程需要大量的計算,當處理的環(huán)境比較復雜,機器人工作的環(huán)境過于緊湊,尤其是機器人數(shù)量很多時,算法的時間/空間復雜度勢必會成為算法效率的關鍵。因此,在算法設計和運行上的并行性是通常考慮的方法。對多個機器人的路徑規(guī)劃盡量采用分布式多進程的規(guī)劃機制,以實現(xiàn)每個機器人路徑規(guī)劃的并行性。

5)可靠性把多個機器人及其工作環(huán)境看成是一個系統(tǒng),多機器人處于它們各自的起始點時,稱該系統(tǒng)處于初始狀態(tài);當它們處于各自的目標點時,稱該系統(tǒng)處于目標狀態(tài)。多機器人的路徑規(guī)劃就是在該系統(tǒng)的這兩個狀態(tài)間建立一串合理的狀態(tài)變遷。這一狀態(tài)變遷過程可能會歷經(jīng)許多狀態(tài),如果在狀態(tài)變遷過程中,路徑規(guī)劃算法控制不好各狀態(tài)間的轉(zhuǎn)移關系,就會導致系統(tǒng)紊亂,出現(xiàn)機器人間的碰撞、找不到路徑等惡性后果,使任務失敗。所以這就對算法的可靠性和完備性提出了挑戰(zhàn)。為了很好地克服這一困難,需要對系統(tǒng)的各種可能狀態(tài)建模,分析它們相互間的關系,建立有限狀態(tài)自動機模型或Petri網(wǎng)模型,并以此為指導,按照軟件工程的思想,構造恰當?shù)乃惴ㄝ斎雭韺λ惴ǖ目煽啃赃M行檢驗。

6)可擴展性在多機器人的路徑規(guī)劃算法中,可擴展性主要是指一種路徑規(guī)劃算法在邏輯上,或者說在實現(xiàn)上能否容易地從2D空間擴展到3D空間,從低自由度擴展到高自由度,從較少的機器人數(shù)到更多的機器人數(shù)。可擴展性在各種路徑規(guī)劃算法之間沒有一種量的比較標準,只能從實際的具體情況出發(fā)、從對環(huán)境描述的適宜程度出發(fā)、從算法解決這一問題的復雜度出發(fā)、從算法本身的自適應出發(fā)等來考慮。

7)魯棒性和學習魯棒性對于多機器人系統(tǒng)非常重要。因為許多應用,如路徑規(guī)劃要求連續(xù)的作業(yè)、系統(tǒng)中的單個機器人出現(xiàn)故障或被破壞,要求機器人利用剩余的資源仍然能夠完成任務。學習是在線適應特定的任務。雖然通用的系統(tǒng)非常有用,但將它用于特定應用上時,通常需要調(diào)整一些參數(shù)。具有在線調(diào)整相關參數(shù)的能力是非常吸引人的,這在將體系結構轉(zhuǎn)移到其他應用時可以節(jié)省許多工作。尤其是多機器人系統(tǒng)中機器人的自身學習和相互間的學習能夠大大提高整個系統(tǒng)的效率和系統(tǒng)的穩(wěn)定性。

8)最優(yōu)化對動態(tài)環(huán)境有優(yōu)化反應。由于有些應用領域涉及的是動態(tài)的環(huán)境條件,具有根據(jù)條件優(yōu)化系統(tǒng)的反應能力成為能否成功的關鍵。

5結束語

綜上所述,國內(nèi)外研究者在多機器人路徑規(guī)劃取得了一些成果,但是在協(xié)作、學習、通信機制等方面仍面臨很大的困難和不足。如何進一步提高機器人間的協(xié)調(diào)性,增強機器人自身以及相互間的學習以提高多機器人系統(tǒng)的效率和魯棒性都有待深入研究。近年來無線通信技術得到長足發(fā)展,但在目前的技術條件下,在多機器人系統(tǒng)中實現(xiàn)所有機器人之間的點對點實時通信還有較大困難,這也是大多數(shù)多機器人系統(tǒng)仍然采用集中通信方式的主要原因。因此,如何降低多機器人系統(tǒng)對通信速度的依賴程度也是一個非常重要的問題。

總之,多機器人路徑規(guī)劃設計和實現(xiàn)是一項極其復雜的系統(tǒng)工程,展望其能在結合計算智能方法,如差分進化、遺傳算法、粒子群算法、免疫算法、模糊邏輯算法、BP網(wǎng)絡、人工勢場的改進、模擬退火和環(huán)境建模方法等方面取得新的突破。

參考文獻:

[1]WEISSG.Multiagentsystems:amodernapproachtodistributedmodernapproachtoartificialintelligence[M].Cambridge,Massachusetts:MITPress,1999:121-161.

[2]蔡自興,徐光祐.人工智能及其應用:研究生用書[M].3版.北京:清華大學出版社,2004:124-198.

[3]譚民,王碩,曹志強.多機器人系統(tǒng)[M].北京:清華大學出版社,2005:6-81.

[4]薄喜柱,洪炳熔.動態(tài)環(huán)境下多移動機器人路徑規(guī)劃的一種新方法[J].機器人,2001,23(5):407-410.

[5]顧國昌,李亞波.基于總體勢減小的動態(tài)調(diào)度技術解決多機器人的路徑規(guī)劃[J].機器人,2001,23(2):171-174.

[6]孫樹棟,林茂.基于遺傳算法的多移動機器人協(xié)調(diào)路徑規(guī)劃[J].自動化學報,2000,26(5):672-676.

[7]周明,孫樹棟,彭炎午.基于遺傳算法的多機器人系統(tǒng)集中協(xié)調(diào)式路徑規(guī)劃[J].航空學報,2000,21(2):146-149.

[8]CAIZixing,PENGZhihong.Cooperativecoevolutionaryadaptivegeneticalgorithminpathplanningofcooperativemultimobilerobotsystems[J].JournalofIntelligentandRoboticSystems:TheoryandApplications,2002,33(1):61-71.

[9]朱慶保.全局未知環(huán)境下多機器人運動螞蟻導航算法[J].軟件學報,2006,17(9):1890-1898.

[10]SANDHOLMTW,CRITESRH.Multiagentreinforcementlearningintheiteratedprisoner’sdilemma[J].BioSystems,1996,37(1):147-166.

[11]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):

86-100.

[12]MATARICMJ.Interactionandintelligentbehavior[D].Massachusetls:DepartmentofElectricalEngineeringandComputerScience,MIT,1994.

[13]張芳,顏國正,林良明.基于再勵學習的多移動機器人協(xié)調(diào)避障路徑規(guī)劃方法[J].計算機工程與應用,2003,39(3):80-83.

[14]王醒策,張汝波,顧國昌.多機器人動態(tài)編隊的強化學習算法研究[J].計算機研究與發(fā)展,2003,40(10):1444-1450.

[15]宋一然.基于強化學習的多機器人路徑規(guī)劃方法[J].莆田學院學報,2006,13(2):38-41.

[16]韓學東,洪炳熔.基于人工神經(jīng)網(wǎng)絡的多機器人協(xié)作學習研究[J].計算機工程與設計,2002,23(6):1-3.

[17]唐振民,趙春霞,楊靜宇,等.基于動態(tài)規(guī)劃思想的多機器人路徑規(guī)劃[J].南京理工大學學報,2003,27(5):610-615.

[18]孫茂相,周明,王艷紅,等.多移動機器人實時最優(yōu)運動規(guī)劃[J].控制與決策,1998,

13(2):125-130.

[19]焦立男,唐振民.基于局部傳感和通訊的多機器人運動規(guī)劃框架[J].計算機工程與應用,2007,43(17):89-93.

[20]沈捷,費樹岷,鄭波.多移動機器人保持隊形路徑規(guī)劃[J].東南大學學報,2005,35(3):391-395.

[21]MANSORMA,MORRISAS.Pathplanninginunknownenvironmentwithobstaclesusingvirtualwindow[J].JournalofIntelligentandRoboticSystems,1999,24(3):235-251.

[22]徐潼,唐振民.多機器人系統(tǒng)中的動態(tài)避碰規(guī)劃[J].計算機工程,2003,29(17):

79-81,104.

[23]周明,孫茂相,尹朝萬,等.多移動機器人分布式智能避撞規(guī)劃系統(tǒng)[J].機器人,1999,21(2):139-143.

[24]任炏,陳宗海.基于強化學習算法的多機器人系統(tǒng)的沖突消解的方法[J].控制與決策,2006,21(4):430-434,439.

[25]歐錦軍,朱楓.一種多移動機器人避碰規(guī)劃方法[J].機器人,2000,22(6):474-481.

[26]景興建,王越超,談大龍.基于人工協(xié)調(diào)場的多移動機器人實時協(xié)調(diào)避碰規(guī)劃[J].控制理論與應用,2004,21(5):757-764.

[27]PANAITL,LUKES.Cooperativemultiagentlearning:thestateoftheart[J].AutonomousAgentsandMultiAgentSystems,2005,11(3):387-434.

[28]TZAFESTASCS,PROKOPIOUPA,TZAFESTASSG.Pathplanningandcontrolofacooperativethreerobotsystemmanipulatinglargeobjects[J].JournalofIntelligentandRoboticSystems,1998,22(2):99-116.

[29]薛宏濤,葉媛媛,沈林成,等.多智能體系統(tǒng)體系結構及協(xié)調(diào)機制研究綜述[J].機器人,2001,23(1):85-90.

[30]周風余,李貽斌,宋銳,等.基于混合式多智能體系統(tǒng)的協(xié)作多機器人系統(tǒng)研究[J].山東大學學報:工學版,2005,35(1):82-87.

[31]夏冰,張佐,張毅,等.基于多智能體系統(tǒng)的動態(tài)路徑選擇算法研究[J].公路交通科技,2003,20(1):93-96.

[32]陳雪江.基于強化學習的多機器人協(xié)作機制研究[D].杭州:浙江工業(yè)大學,2004.

[33]SMITHR.Thecontractnetprotocol:highlevelcommunicationandcontrolinadistributedproblemsolver[J].IEEETransonComputer,1980,C-29(12):1104-1113.

[34]陳偉,張銘鈞,孟憲松.基于多目標決策理論的多機器人協(xié)調(diào)方法[J].哈爾濱工程大學學報,2003,24(3):308-312.

[35]李亞波.多機器人的路徑規(guī)劃與協(xié)調(diào)[D].哈爾濱:哈爾濱工程大學,2000.

摘要:在查閱大量文獻的基礎上對多機器人路徑規(guī)劃的主要研究內(nèi)容和研究現(xiàn)狀進行了分析和總結,討論了多機器人路徑規(guī)劃方法的評判標準,并闡述了研究遇到的瓶頸問題,展望了多機器人路徑規(guī)劃方法的發(fā)展趨勢。

關鍵詞:多機器人;路徑規(guī)劃;強化學習;評判準則