本申請涉及計算機,特別是涉及一種用于智能眼鏡的語音信息處理方法、裝置及智能眼鏡。
背景技術:
1、當前的智能眼鏡在多人實時對話的多語言翻譯場景下存在明顯的技術瓶頸。首先,這些設備在進行語音識別時,通常難以準確區(qū)分不同說話者的身份。當多名用戶同時或交替發(fā)言時,智能眼鏡所依賴的語音識別系統(tǒng)無法有效地識別每個發(fā)言者是誰,從而導致語音內容的歸屬混淆,影響后續(xù)的個性化處理和翻譯結果的準確性。其次,盡管智能眼鏡所依賴的語音識別系統(tǒng)具備語音識別和翻譯功能,但當對話涉及多種語言時,智能眼鏡所依賴的語音識別系統(tǒng)無法實時識別并分別翻譯多個說話者所使用的不同語言,限制了其在復雜、多語言交互場景中的實用性。因此,當前智能眼鏡面臨著無法實現(xiàn)說話者身份識別及多語言同步翻譯的雙重挑戰(zhàn)。
技術實現(xiàn)思路
1、基于上述問題,本申請?zhí)峁┝艘环N用于智能眼鏡的語音信息處理方法、裝置及智能眼鏡,目的是實現(xiàn)準確的說話者身份識別和多語言同步翻譯,以提升智能眼鏡在多人實時對話中的實用性。
2、本申請實施例公開了如下技術方案:
3、一種用于智能眼鏡的語音信息處理方法,其特征在于,所述方法包括:
4、接收智能眼鏡采集的標注有記錄時間段的環(huán)境音頻;所述環(huán)境音頻包括至少一個發(fā)言用戶的發(fā)言;
5、利用預先構建的多模態(tài)轉換模型,對所述環(huán)境音頻進行多模態(tài)解析翻譯處理,得到多個輸出項;每個輸出項包括語言詞元和該語言詞元對應的音色向量;所述語言詞元標注有時間標記,時間標記與所述記錄時間段相對應;
6、針對每個輸出項,基于包含的音色向量在音色庫中進行檢索,確認該輸出項對應的發(fā)言用戶;
7、針對同一發(fā)言用戶對應的所有輸出項中的語言詞元,基于各個輸出項對應的時間標記進行時序拼接,得到該發(fā)言用戶的目標數(shù)據(jù);所述目標數(shù)據(jù)標注有發(fā)言時間,所述發(fā)言時間與所述目標數(shù)據(jù)中首個語言詞元的時間標記對應,以指示所述目標數(shù)據(jù)的起始時間;
8、將各個發(fā)言用戶對應的目標數(shù)據(jù)通過所述智能眼鏡進行輸出和顯示。
9、一種用于智能眼鏡的語音信息處理裝置,所述裝置包括:
10、接收單元,用于接收智能眼鏡采集的標注有記錄時間段的環(huán)境音頻;所述環(huán)境音頻包括至少一個發(fā)言用戶的發(fā)言;
11、輸出項獲取單元,用于利用預先構建的多模態(tài)轉換模型,對所述環(huán)境音頻進行多模態(tài)解析翻譯處理,得到多個輸出項;每個輸出項包括語言詞元和該語言詞元對應的音色向量;所述語言詞元標注有時間標記,時間標記與所述記錄時間段相對應;
12、第二發(fā)言用戶確認單元,用于針對每個輸出項,基于包含的音色向量在音色庫中進行檢索,確認該輸出項對應的發(fā)言用戶;
13、轉換內容生成單元,用于針對同一發(fā)言用戶對應的所有輸出項中的語言詞元,基于各個輸出項對應的時間標記進行時序拼接,得到該發(fā)言用戶的目標數(shù)據(jù);所述目標數(shù)據(jù)標注有發(fā)言時間,所述發(fā)言時間與所述目標數(shù)據(jù)中首個語言詞元的時間標記對應,以指示所述目標數(shù)據(jù)的起始時間;
14、輸出顯示單元,用于將各個發(fā)言用戶對應的目標數(shù)據(jù)通過所述智能眼鏡進行輸出和顯示。
15、一種智能眼鏡,所述智能眼鏡包括用于識別用戶語音和用戶手動配置信息的信息處理系統(tǒng),所述信息處理系統(tǒng)包括:顯示模塊、傳輸模塊、傳感器和控制模塊;所述顯示模塊包括智能顯示鏡片;所述傳感器包括麥克風和揚聲器模塊;?所述控制模塊包括所述智能眼鏡的計算單元和用戶交互控制單元
16、所述傳輸模塊,用于發(fā)送環(huán)境音頻、注冊語音和用戶檔案,并接收轉換音頻和轉換文本;
17、所述智能顯示鏡片,用于呈現(xiàn)轉換文本和交互信息;
18、所述麥克風,用于采集環(huán)境音頻和用戶語音輸入;
19、所述揚聲器模塊,用于播放轉換音頻及提示音;
20、所述計算單元,用于處理所述傳感器采集的數(shù)據(jù);
21、所述用戶交互控制單元,用于接收用戶輸入指令和用戶檔案。
22、相較于現(xiàn)有技術,本申請具有以下有益效果:
23、本申請實施例首先接收智能眼鏡采集的標注有記錄時間段的環(huán)境音頻。然后,利用預先構建的多模態(tài)轉換模型對環(huán)境音頻進行多模態(tài)解析翻譯處理,得到多個輸出項,每個輸出項包括語言詞元和音色向量。這些輸出項的時間標記與記錄時間段中的具體時間點相對應,確保了詞元在環(huán)境音頻中的具體時間位置。針對每個輸出項,基于其音色向量在音色庫中檢索確認對應的發(fā)言用戶。接著,針對同一發(fā)言用戶的所有輸出項,基于各個輸出項對應的時間標記進行時序拼接,生成該發(fā)言用戶的目標數(shù)據(jù)。最后,將各個發(fā)言用戶的目標數(shù)據(jù)通過智能眼鏡進行輸出和顯示。
24、本申請通過利用多模態(tài)轉換模型,將采集的環(huán)境音頻轉換為帶有時間標記的語言詞元及音色向量,實現(xiàn)了對多說話者語音內容的精準識別和翻譯。通過基于音色向量在音色庫中的檢索,能夠準確確認每個輸出項對應的具體發(fā)言用戶,有效解決了傳統(tǒng)設備中說話者身份混淆的問題。同時,基于時間標記將同一用戶的語言詞元內容進行時序拼接,生成連續(xù)且同步的轉換結果,保證了翻譯內容的連貫性和時序準確性。
1.一種用于智能眼鏡的語音信息處理方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述多模態(tài)轉換模型有多個,每個多模態(tài)轉換模型對應并專用于處理單一且特定的輸出語種;
3.根據(jù)權利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述音色庫包括多個用戶聲紋記錄條目;每條所述用戶聲紋記錄條目包括用戶標識id、用戶聲紋特征和用戶檔案。
5.根據(jù)權利要求4所述的方法,其特征在于,所述針對每個輸出項,基于包含的音色向量在音色庫中進行檢索,確認該輸出項對應的發(fā)言用戶,包括:
6.根據(jù)權利要求5所述的方法,其特征在于,若所述多個相似度中不存在大于相似度閾值的相似度,所述方法還包括:
7.根據(jù)權利要求4所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權利要求1所述的方法,其特征在于,所述多模態(tài)轉換模型包括多模態(tài)編碼單元和多模態(tài)解碼單元;所述多模態(tài)解碼單元包括具有多模態(tài)跨語言理解功能的多個解碼單元;所述多個解碼單元由多個不同的基礎解碼單元共同逐步進行語音合成訓練、語言翻譯訓練和跨語種轉換訓練得到;所述多模態(tài)編碼單元通過基礎編碼單元逐步進行文本音頻對齊訓練、音色對齊訓練和語種對齊訓練得到;
9.一種用于智能眼鏡的語音信息處理裝置,其特征在于,所述裝置包括:
10.一種智能眼鏡,其特征在于,所述智能眼鏡包括用于識別用戶語音和用戶手動配置信息的信息處理系統(tǒng),所述信息處理系統(tǒng)包括:顯示模塊、傳輸模塊、傳感器和控制模塊;所述顯示模塊包括智能顯示鏡片;所述傳感器包括麥克風和揚聲器模塊;?所述控制模塊包括所述智能眼鏡的計算單元和用戶交互控制單元