99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

一種人形機器人擬人奔跑動作的控制方法與流程

文檔序號:42592022發(fā)布日期:2025-07-29 17:44閱讀:15來源:國知局

本發(fā)明涉及機器人,具體為一種人形機器人擬人奔跑動作的控制方法。


背景技術(shù):

1、人形機器人奔跑動作的設(shè)計和控制一直是機器人控制領(lǐng)域的重要課題。相比于步行,奔跑具有更復(fù)雜的動力學特征,包括非對稱的接觸模式、短暫的飛行相、快速重心轉(zhuǎn)換等。傳統(tǒng)方法多采用有限狀態(tài)機與簡單步態(tài)生成器結(jié)合,無法充分再現(xiàn)人類奔跑中的節(jié)能、對稱和平穩(wěn)等特性,限制了機器人在復(fù)雜環(huán)境下的機動性與魯棒性。

2、近年來,模仿學習(imitation?learning)和強化學習(reinforcement?learning,rl)的興起,為機器人自然運動控制帶來了新機遇。然而,如何構(gòu)造精確的參考軌跡、有效地表達接觸模式、設(shè)計穩(wěn)定的學習結(jié)構(gòu),仍是擬人奔跑控制研究中的關(guān)鍵難點。

3、因此,如何從人類動作中提取高質(zhì)量、可泛化的奔跑參考軌跡,并在此基礎(chǔ)上設(shè)計一套穩(wěn)定有效的控制策略,使人形機器人能夠?qū)崿F(xiàn)具有自然對稱性和節(jié)能特性的奔跑動作是當前亟需解決的技術(shù)問題,具體如下:

4、1、奔跑中的復(fù)雜接觸狀態(tài)如何建模與表達。

5、2、奔跑軌跡存在非對稱性,如何進行時空對稱化處理。

6、3、強化學習中如何融合模仿目標與機器狀態(tài)約束,確保訓練穩(wěn)定性。

7、4、控制策略如何實現(xiàn)對接觸模式的隱式學習與泛化。


技術(shù)實現(xiàn)思路

1、本發(fā)明提出了一種人形機器人擬人奔跑動作的控制方法,旨在控制機器人在模仿人類奔跑動作的同時進行抗擾能力較強、動力學合理性較高且在多個維度上接近最優(yōu)解的擬人奔跑動作。

2、為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:

3、一種人形機器人擬人奔跑動作的控制方法,其特征在于:包括如下步驟:

4、s1、人類專家奔跑動作分析

5、s2、擬人奔跑參考軌跡生成

6、s21、機器人擬人奔跑動作建模和關(guān)鍵幀設(shè)計,

7、s22、關(guān)鍵幀序列對稱化處理、關(guān)鍵幀序列位置速度力矩軌跡插值以及關(guān)鍵幀序列姿態(tài)軌跡插值,

8、s23、得到擬人奔跑參考軌跡,

9、s24、對指令擴展生成擬人奔跑軌跡庫;

10、s3、基于參考軌跡庫的強化模仿學習

11、s31、強化模仿學習框架設(shè)計,包括非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計、基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計以及近端策略優(yōu)化的強化學習優(yōu)化方法,

12、s32、得到機器人擬人奔跑策略網(wǎng)絡(luò);

13、s4、擬人奔跑控制策略實機部署

14、s41、策略網(wǎng)絡(luò)輸入輸出接入真機程序,接收傳感信息、生成控制指令,

15、s42、pvt-pd關(guān)節(jié)電機控制;

16、s5、實現(xiàn)機器人擬人奔跑動作控制。

17、作為本發(fā)明的優(yōu)選技術(shù)方案:步驟s21具體如下:

18、將人類專家奔跑動作視頻逐幀標注腳掌與地面的接觸狀態(tài),并定義基本接觸類型,

19、每一幀構(gòu)成左右腳接觸組合:

20、ct=(left,right)

21、共16種狀態(tài),提取周期性模板序列:

22、{lfc-rff,ltc-rff,lff-rff,lff-rhc,lff-rfc,lff-rtc,lff-rff,lhc-rff}

23、為每一幀i賦予時間戳ti與狀態(tài)ki=(pi,qi,ci)。

24、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列對稱化處理具體如下:

25、設(shè)原始關(guān)鍵幀序列為

26、{k1,k2,...,kn}

27、鏡像變換定義為:

28、

29、對所有鏡像關(guān)鍵幀與原始關(guān)鍵幀做接觸狀態(tài)匹配,對原始關(guān)鍵幀和鏡像關(guān)鍵幀中相同接觸狀態(tài)的關(guān)鍵幀數(shù)據(jù)做等權(quán)平均,得到對稱化處理后的關(guān)鍵幀序列:

30、

31、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列位置速度力矩軌跡插值具體如下:

32、對得到的關(guān)鍵幀序列通過時間插值的方法構(gòu)建連續(xù)的參考軌跡tref(t),每一個關(guān)鍵幀包含了浮動基的位置pi∈r3、姿態(tài)四元數(shù)qi∈s3以及關(guān)節(jié)角信息,為了生成時序連續(xù)、光滑的參考軌跡,對不同類型的變量采用不同的插值方法,

33、關(guān)鍵幀中的位置信息包括浮動基的位置和關(guān)節(jié)位置,這些信息之間各個維度數(shù)據(jù)無相關(guān)性,因此使用三次樣條對每個維度進行插值。

34、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s22中,關(guān)鍵幀序列姿態(tài)軌跡插值具體如下:

35、由于姿態(tài)采用單位四元數(shù)qi∈s3表示,插值時必須保持在單位球面上,因此使用球面線性插值進行處理,具體如下:

36、在兩個相鄰的四元數(shù)qi和qi+1之間,slerp插值公式如下:

37、

38、其中:

39、θ=cos-1(qi·qi+1)表示兩四元數(shù)之間的夾角;

40、α∈[0,1]是歸一化時間比例;

41、插值結(jié)果q(t)始終保持在s3單位四元數(shù)空間上,確保旋轉(zhuǎn)平滑連續(xù)。

42、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s23中,通過對所有關(guān)鍵幀的平移、旋轉(zhuǎn)部分分別插值,定義連續(xù)的參考軌跡:

43、

44、對步驟s23中得到的不同指令下的參考軌跡進行擴展,得到參考奔跑軌跡庫

45、

46、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計具體如下:

47、采用非對稱actor-critic網(wǎng)絡(luò)結(jié)構(gòu),其中:

48、策略網(wǎng)絡(luò)πθ(a∨s)輸出每步動作

49、價值網(wǎng)絡(luò)評估狀態(tài)的回報

50、輸入狀態(tài):

51、

52、其中,為接觸模式的one-hot編碼,

53、目標為最大化期望回報:

54、

55、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計具體如下:

56、分層reward函數(shù)設(shè)計

57、reward設(shè)計為四層嵌套結(jié)構(gòu):

58、安全性reward?rsafe:

59、rsafe=w1·exp(-||τt||2)+w2·1not?falling

60、正則化reward?rregular:

61、

62、指令跟隨reward?rcmd:

63、

64、模仿reward?rmimic:

65、

66、最終組合reward:

67、rtotal=rsafe+σ(rsafe)·(rregular+σ(rregular)·(rcmd+σ(rcmd)·rmimic))

68、其中,為sigmoid函數(shù)。

69、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s31中,近端策略優(yōu)化的強化學習優(yōu)化方法具體如下:

70、采用proximal?policy?optimization算法進行策略優(yōu)化:

71、策略目標函數(shù):

72、

73、其中:

74、

75、為廣義優(yōu)勢估計

76、訓練后導出模型πθ,部署至真實機器人控制器中,即可實現(xiàn)仿人奔跑。

77、作為本發(fā)明的優(yōu)選技術(shù)方案:在步驟s41中,pvt-pd關(guān)節(jié)電機控制具體如下:

78、底層電機控制采用pd控制,輸出為純力矩控制,力矩指令直接發(fā)送給電機執(zhí)行,

79、

80、其中kp為比例反饋系數(shù),qmea為測量關(guān)節(jié)位置,qdes為期望關(guān)節(jié)位置,kd為微分反饋系數(shù),為測量關(guān)節(jié)速度。

81、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

82、1、引入接觸模式與鏡像處理實現(xiàn)高度對稱的擬人奔跑;

83、2、關(guān)鍵幀生成機制與插值方法保障軌跡的時空連續(xù)性;

84、3、reward層次結(jié)構(gòu)提高訓練穩(wěn)定性與多目標平衡;

85、4、ppo+ac強化模仿學習較傳統(tǒng)基于模型的控制大幅提高機器人抗干擾能力,使機器人克服模型準確性不足的問題,適用于真機部署;

86、5、支持輸入任意速度指令實現(xiàn)在線奔跑控制。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1