一種人形機器人擬人奔跑動作的控制方法與流程

文檔序號：42592022發(fā)布日期：2025-07-29 17:44閱讀：15來源：國知局

本發(fā)明涉及機器人，具體為一種人形機器人擬人奔跑動作的控制方法。

背景技術(shù)：

1、人形機器人奔跑動作的設(shè)計和控制一直是機器人控制領(lǐng)域的重要課題。相比于步行，奔跑具有更復(fù)雜的動力學特征，包括非對稱的接觸模式、短暫的飛行相、快速重心轉(zhuǎn)換等。傳統(tǒng)方法多采用有限狀態(tài)機與簡單步態(tài)生成器結(jié)合，無法充分再現(xiàn)人類奔跑中的節(jié)能、對稱和平穩(wěn)等特性，限制了機器人在復(fù)雜環(huán)境下的機動性與魯棒性。

2、近年來，模仿學習(imitation?learning)和強化學習(reinforcement?learning,rl)的興起，為機器人自然運動控制帶來了新機遇。然而，如何構(gòu)造精確的參考軌跡、有效地表達接觸模式、設(shè)計穩(wěn)定的學習結(jié)構(gòu)，仍是擬人奔跑控制研究中的關(guān)鍵難點。

3、因此，如何從人類動作中提取高質(zhì)量、可泛化的奔跑參考軌跡，并在此基礎(chǔ)上設(shè)計一套穩(wěn)定有效的控制策略，使人形機器人能夠?qū)崿F(xiàn)具有自然對稱性和節(jié)能特性的奔跑動作是當前亟需解決的技術(shù)問題，具體如下：

4、1、奔跑中的復(fù)雜接觸狀態(tài)如何建模與表達。

5、2、奔跑軌跡存在非對稱性，如何進行時空對稱化處理。

6、3、強化學習中如何融合模仿目標與機器狀態(tài)約束，確保訓練穩(wěn)定性。

7、4、控制策略如何實現(xiàn)對接觸模式的隱式學習與泛化。

技術(shù)實現(xiàn)思路

1、本發(fā)明提出了一種人形機器人擬人奔跑動作的控制方法，旨在控制機器人在模仿人類奔跑動作的同時進行抗擾能力較強、動力學合理性較高且在多個維度上接近最優(yōu)解的擬人奔跑動作。

2、為實現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案是：

3、一種人形機器人擬人奔跑動作的控制方法，其特征在于：包括如下步驟：

4、s1、人類專家奔跑動作分析

5、s2、擬人奔跑參考軌跡生成

6、s21、機器人擬人奔跑動作建模和關(guān)鍵幀設(shè)計，

7、s22、關(guān)鍵幀序列對稱化處理、關(guān)鍵幀序列位置速度力矩軌跡插值以及關(guān)鍵幀序列姿態(tài)軌跡插值，

8、s23、得到擬人奔跑參考軌跡，

9、s24、對指令擴展生成擬人奔跑軌跡庫；

10、s3、基于參考軌跡庫的強化模仿學習

11、s31、強化模仿學習框架設(shè)計，包括非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計、基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計以及近端策略優(yōu)化的強化學習優(yōu)化方法，

12、s32、得到機器人擬人奔跑策略網(wǎng)絡(luò)；

13、s4、擬人奔跑控制策略實機部署

14、s41、策略網(wǎng)絡(luò)輸入輸出接入真機程序，接收傳感信息、生成控制指令，

15、s42、pvt-pd關(guān)節(jié)電機控制；

16、s5、實現(xiàn)機器人擬人奔跑動作控制。

17、作為本發(fā)明的優(yōu)選技術(shù)方案：步驟s21具體如下：

18、將人類專家奔跑動作視頻逐幀標注腳掌與地面的接觸狀態(tài)，并定義基本接觸類型，

19、每一幀構(gòu)成左右腳接觸組合：

20、ct＝(left，right)

21、共16種狀態(tài)，提取周期性模板序列：

22、{lfc-rff，ltc-rff，lff-rff，lff-rhc，lff-rfc，lff-rtc，lff-rff，lhc-rff}

23、為每一幀i賦予時間戳ti與狀態(tài)ki＝(pi，qi，ci)。

24、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s22中，關(guān)鍵幀序列對稱化處理具體如下：

25、設(shè)原始關(guān)鍵幀序列為

26、{k1，k2，...，kn}

27、鏡像變換定義為：

28、

29、對所有鏡像關(guān)鍵幀與原始關(guān)鍵幀做接觸狀態(tài)匹配，對原始關(guān)鍵幀和鏡像關(guān)鍵幀中相同接觸狀態(tài)的關(guān)鍵幀數(shù)據(jù)做等權(quán)平均，得到對稱化處理后的關(guān)鍵幀序列：

30、

31、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s22中，關(guān)鍵幀序列位置速度力矩軌跡插值具體如下：

32、對得到的關(guān)鍵幀序列通過時間插值的方法構(gòu)建連續(xù)的參考軌跡tref(t)，每一個關(guān)鍵幀包含了浮動基的位置pi∈r3、姿態(tài)四元數(shù)qi∈s3以及關(guān)節(jié)角信息，為了生成時序連續(xù)、光滑的參考軌跡，對不同類型的變量采用不同的插值方法，

33、關(guān)鍵幀中的位置信息包括浮動基的位置和關(guān)節(jié)位置，這些信息之間各個維度數(shù)據(jù)無相關(guān)性，因此使用三次樣條對每個維度進行插值。

34、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s22中，關(guān)鍵幀序列姿態(tài)軌跡插值具體如下：

35、由于姿態(tài)采用單位四元數(shù)qi∈s3表示，插值時必須保持在單位球面上，因此使用球面線性插值進行處理，具體如下：

36、在兩個相鄰的四元數(shù)qi和qi+1之間，slerp插值公式如下：

37、

38、其中：

39、θ＝cos-1(qi·qi+1)表示兩四元數(shù)之間的夾角；

40、α∈[0，1]是歸一化時間比例；

41、插值結(jié)果q(t)始終保持在s3單位四元數(shù)空間上，確保旋轉(zhuǎn)平滑連續(xù)。

42、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s23中，通過對所有關(guān)鍵幀的平移、旋轉(zhuǎn)部分分別插值，定義連續(xù)的參考軌跡：

43、

44、對步驟s23中得到的不同指令下的參考軌跡進行擴展，得到參考奔跑軌跡庫

45、

46、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s31中，非對稱ac網(wǎng)絡(luò)機構(gòu)設(shè)計具體如下：

47、采用非對稱actor-critic網(wǎng)絡(luò)結(jié)構(gòu)，其中：

48、策略網(wǎng)絡(luò)πθ(a∨s)輸出每步動作

49、價值網(wǎng)絡(luò)評估狀態(tài)的回報

50、輸入狀態(tài)：

51、

52、其中，為接觸模式的one-hot編碼，

53、目標為最大化期望回報：

54、

55、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s31中，基于分層遞進的強化模仿學習獎勵函數(shù)設(shè)計具體如下：

56、分層reward函數(shù)設(shè)計

57、reward設(shè)計為四層嵌套結(jié)構(gòu)：

58、安全性reward?rsafe：

59、rsafe＝w1·exp(-||τt||2)+w2·1not?falling

60、正則化reward?rregular：

61、

62、指令跟隨reward?rcmd：

63、

64、模仿reward?rmimic：

65、

66、最終組合reward：

67、rtotal＝rsafe+σ(rsafe)·(rregular+σ(rregular)·(rcmd+σ(rcmd)·rmimic))

68、其中，為sigmoid函數(shù)。

69、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s31中，近端策略優(yōu)化的強化學習優(yōu)化方法具體如下：

70、采用proximal?policy?optimization算法進行策略優(yōu)化：

71、策略目標函數(shù)：

72、

73、其中：

74、

75、為廣義優(yōu)勢估計

76、訓練后導出模型πθ，部署至真實機器人控制器中，即可實現(xiàn)仿人奔跑。

77、作為本發(fā)明的優(yōu)選技術(shù)方案：在步驟s41中，pvt-pd關(guān)節(jié)電機控制具體如下：

78、底層電機控制采用pd控制，輸出為純力矩控制，力矩指令直接發(fā)送給電機執(zhí)行，

79、

80、其中kp為比例反饋系數(shù)，qmea為測量關(guān)節(jié)位置，qdes為期望關(guān)節(jié)位置，kd為微分反饋系數(shù)，為測量關(guān)節(jié)速度。

81、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

82、1、引入接觸模式與鏡像處理實現(xiàn)高度對稱的擬人奔跑；

83、2、關(guān)鍵幀生成機制與插值方法保障軌跡的時空連續(xù)性；

84、3、reward層次結(jié)構(gòu)提高訓練穩(wěn)定性與多目標平衡；

85、4、ppo+ac強化模仿學習較傳統(tǒng)基于模型的控制大幅提高機器人抗干擾能力，使機器人克服模型準確性不足的問題，適用于真機部署；

86、5、支持輸入任意速度指令實現(xiàn)在線奔跑控制。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姜哲源,董子揚
技術(shù)所有人：松延動力（北京）科技有限公司
我是此專利的發(fā)明人

上一篇：一種具有定向骨水泥加強的中空CBT螺釘系統(tǒng)
下一篇：一種用于雙作用執(zhí)行機構(gòu)的安全模塊的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、平老師：1.功能涂層設(shè)計與應(yīng)用 2.柔性電子器件設(shè)計與應(yīng)用 3.結(jié)構(gòu)動態(tài)參數(shù)測試與裝置研發(fā) 4.智能機電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評定
3、王老師：機械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

一種人形機器人擬人奔跑動作的控制方法與流程