本發(fā)明涉及機器人,具體為一種人形機器人擬人奔跑動作的控制方法。
背景技術(shù):
1、人形機器人奔跑動作的設(shè)計和控制一直是機器人控制領(lǐng)域的重要課題。相比于步行,奔跑具有更復(fù)雜的動力學特征,包括非對稱的接觸模式、短暫的飛行相、快速重心轉(zhuǎn)換等。傳統(tǒng)方法多采用有限狀態(tài)機與簡單步態(tài)生成器結(jié)合,無法充分再現(xiàn)人類奔跑中的節(jié)能、對稱和平穩(wěn)等特性,限制了機器人在復(fù)雜環(huán)境下的機動性與魯棒性。
2、近年來,模仿學習(imitation?learning)和強化學習(reinforcement?learning,rl)的興起,為機器人自然運動控制帶來了新機遇。然而,如何構(gòu)造精確的參考軌跡、有效地表達接觸模式、設(shè)計穩(wěn)定的學習結(jié)構(gòu),仍是擬人奔跑控制研究中的關(guān)鍵難點。
3、因此,如何從人類動作中提取高質(zhì)量、可泛化的奔跑參考軌跡,并在此基礎(chǔ)上設(shè)計一套穩(wěn)定有效的控制策略,使人形機器人能夠?qū)崿F(xiàn)具有自然對稱性和節(jié)能特性的奔跑動作是當前亟需解決的技術(shù)問題,具體如下:
4、1、奔跑中的復(fù)雜接觸狀態(tài)如何建模與表達。
5、2、奔跑軌跡存在非對稱性,如何進行時空對稱化處理。
6、3、強化學習中如何融合模仿目標與機器狀態(tài)約束,確保訓練穩(wěn)定性。
7、4、控制策略如何實現(xiàn)對接觸模式的隱式學習與泛化。
技術(shù)實現(xiàn)思路
1、本發(fā)明提出了一種人形機器人擬人奔跑動作的控制方法,旨在控制機器人在模仿人類奔跑動作的同時進行抗擾能力較強、動力學合理性較高且在多個維度上接近最優(yōu)解的擬人奔跑動作。
2、為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:
3、一種人形機器人擬人奔跑動作的控制方法,其特征在于:包括如下步驟:
4、s1、人類專家奔跑動作分析
5、s2、擬人奔跑參考軌跡生成
6、s21、機器人擬人奔跑動作建模和關(guān)鍵幀設(shè)計,
7、s22、關(guān)鍵幀序列對稱化處理、關(guān)鍵幀序列位置速度力矩軌跡插值以及關(guān)鍵幀序列姿態(tài)軌跡插值,
8、s23、得到擬人奔跑參考軌跡,
9、s24、對指令擴展生成擬人奔跑軌跡庫;
10、s3、基于參考軌跡庫的強化模仿學習
11、s31、強化模仿學習框架設(shè)計,包括非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計、基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計以及近端策略優(yōu)化的強化學習優(yōu)化方法,
12、s32、得到機器人擬人奔跑策略網(wǎng)絡(luò);
13、s4、擬人奔跑控制策略實機部署
14、s41、策略網(wǎng)絡(luò)輸入輸出接入真機程序,接收傳感信息、生成控制指令,
15、s42、pvt-pd關(guān)節(jié)電機控制;
16、s5、實現(xiàn)機器人擬人奔跑動作控制。
17、作為本發(fā)明的優(yōu)選技術(shù)方案:步驟s21具體如下:
18、將人類專家奔跑動作視頻逐幀標注腳掌與地面的接觸狀態(tài),并定義基本接觸類型,
19、每一幀構(gòu)成左右腳接觸組合:
20、ct=(left,right)
21、共16種狀態(tài),提取周期性模板序列:
22、{lfc-rff,ltc-rff,lff-rff,lff-rhc,lff-rfc,lff-rtc,lff-rff,lhc-rff}
23、為每一幀i賦予時間戳ti與狀態(tài)ki=(pi,qi,ci)。
24、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列對稱化處理具體如下:
25、設(shè)原始關(guān)鍵幀序列為
26、{k1,k2,...,kn}
27、鏡像變換定義為:
28、
29、對所有鏡像關(guān)鍵幀與原始關(guān)鍵幀做接觸狀態(tài)匹配,對原始關(guān)鍵幀和鏡像關(guān)鍵幀中相同接觸狀態(tài)的關(guān)鍵幀數(shù)據(jù)做等權(quán)平均,得到對稱化處理后的關(guān)鍵幀序列:
30、
31、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列位置速度力矩軌跡插值具體如下:
32、對得到的關(guān)鍵幀序列通過時間插值的方法構(gòu)建連續(xù)的參考軌跡tref(t),每一個關(guān)鍵幀包含了浮動基的位置pi∈r3、姿態(tài)四元數(shù)qi∈s3以及關(guān)節(jié)角信息,為了生成時序連續(xù)、光滑的參考軌跡,對不同類型的變量采用不同的插值方法,
33、關(guān)鍵幀中的位置信息包括浮動基的位置和關(guān)節(jié)位置,這些信息之間各個維度數(shù)據(jù)無相關(guān)性,因此使用三次樣條對每個維度進行插值。
34、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列姿態(tài)軌跡插值具體如下:
35、由于姿態(tài)采用單位四元數(shù)qi∈s3表示,插值時必須保持在單位球面上,因此使用球面線性插值進行處理,具體如下:
36、在兩個相鄰的四元數(shù)qi和qi+1之間,slerp插值公式如下:
37、
38、其中:
39、θ=cos-1(qi·qi+1)表示兩四元數(shù)之間的夾角;
40、α∈[0,1]是歸一化時間比例;
41、插值結(jié)果q(t)始終保持在s3單位四元數(shù)空間上,確保旋轉(zhuǎn)平滑連續(xù)。
42、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s23中,通過對所有關(guān)鍵幀的平移、旋轉(zhuǎn)部分分別插值,定義連續(xù)的參考軌跡:
43、
44、對步驟s23中得到的不同指令下的參考軌跡進行擴展,得到參考奔跑軌跡庫
45、
46、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計具體如下:
47、采用非對稱actor-critic網(wǎng)絡(luò)結(jié)構(gòu),其中:
48、策略網(wǎng)絡(luò)πθ(a∨s)輸出每步動作
49、價值網(wǎng)絡(luò)評估狀態(tài)的回報
50、輸入狀態(tài):
51、
52、其中,為接觸模式的one-hot編碼,
53、目標為最大化期望回報:
54、
55、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計具體如下:
56、分層reward函數(shù)設(shè)計
57、reward設(shè)計為四層嵌套結(jié)構(gòu):
58、安全性reward?rsafe:
59、rsafe=w1·exp(-||τt||2)+w2·1not?falling
60、正則化reward?rregular:
61、
62、指令跟隨reward?rcmd:
63、
64、模仿reward?rmimic:
65、
66、最終組合reward:
67、rtotal=rsafe+σ(rsafe)·(rregular+σ(rregular)·(rcmd+σ(rcmd)·rmimic))
68、其中,為sigmoid函數(shù)。
69、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,近端策略優(yōu)化的強化學習優(yōu)化方法具體如下:
70、采用proximal?policy?optimization算法進行策略優(yōu)化:
71、策略目標函數(shù):
72、
73、其中:
74、
75、為廣義優(yōu)勢估計
76、訓練后導出模型πθ,部署至真實機器人控制器中,即可實現(xiàn)仿人奔跑。
77、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s41中,pvt-pd關(guān)節(jié)電機控制具體如下:
78、底層電機控制采用pd控制,輸出為純力矩控制,力矩指令直接發(fā)送給電機執(zhí)行,
79、
80、其中kp為比例反饋系數(shù),qmea為測量關(guān)節(jié)位置,qdes為期望關(guān)節(jié)位置,kd為微分反饋系數(shù),為測量關(guān)節(jié)速度。
81、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
82、1、引入接觸模式與鏡像處理實現(xiàn)高度對稱的擬人奔跑;
83、2、關(guān)鍵幀生成機制與插值方法保障軌跡的時空連續(xù)性;
84、3、reward層次結(jié)構(gòu)提高訓練穩(wěn)定性與多目標平衡;
85、4、ppo+ac強化模仿學習較傳統(tǒng)基于模型的控制大幅提高機器人抗干擾能力,使機器人克服模型準確性不足的問題,適用于真機部署;
86、5、支持輸入任意速度指令實現(xiàn)在線奔跑控制。