本發(fā)明涉及自然語言處理,尤其涉及一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法。
背景技術(shù):
1、在信息技術(shù)快速發(fā)展的背景下,企業(yè)與組織在日常運(yùn)營(yíng)中需要接收和處理大量結(jié)構(gòu)化或非結(jié)構(gòu)化的函件文本,如業(yè)務(wù)往來郵件、項(xiàng)目報(bào)告、審批記錄、投訴建議等。這些函件內(nèi)容來源廣泛、格式多樣,其語義層次復(fù)雜、結(jié)構(gòu)松散,往往包含多段、跨句甚至跨段落的信息關(guān)聯(lián),且隨業(yè)務(wù)需求快速變化。
2、傳統(tǒng)的文本分析方法多依賴統(tǒng)計(jì)學(xué)習(xí)或基于規(guī)則的自然語言處理技術(shù),通常采用關(guān)鍵詞匹配、主題模型或淺層情感分析等方式。這些方法在處理單一句子或標(biāo)準(zhǔn)格式文本時(shí)尚可適用,但在面對(duì)復(fù)雜語篇結(jié)構(gòu)、上下文依賴強(qiáng)、語言風(fēng)格不規(guī)范、表達(dá)方式靈活的實(shí)際函件時(shí),往往難以準(zhǔn)確捕捉深層語義關(guān)系,尤其缺乏對(duì)上下文、時(shí)序、語境之間隱含關(guān)聯(lián)的建模能力,導(dǎo)致信息提取碎片化、響應(yīng)不連貫、擴(kuò)展能力差。
3、近年來,如bert、gpt等預(yù)訓(xùn)練大語言模型在自然語言處理任務(wù)中取得顯著進(jìn)展,具備強(qiáng)大的上下文理解能力和生成能力。但如何將其高效應(yīng)用于結(jié)構(gòu)松散、篇幅較長(zhǎng)的函件文本中,仍面臨以下關(guān)鍵挑戰(zhàn):
4、1)文本結(jié)構(gòu)不清、信息密度不均,直接輸入大模型會(huì)造成“冗余+缺失”并存。
5、2)上下文之間存在語義橋接關(guān)系,但缺乏結(jié)構(gòu)化表達(dá)。
6、3)難以實(shí)現(xiàn)基于查詢的一次性檢索與集中響應(yīng)。
7、因此,提出一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)狀況,提出了本申請(qǐng)。本申請(qǐng)的實(shí)施例提供了一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,具有高效捕捉復(fù)雜語義關(guān)聯(lián)、提升上下文理解連貫性、實(shí)現(xiàn)動(dòng)態(tài)信息聚合的優(yōu)點(diǎn)。
2、根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,包括:獲取多格式函件數(shù)據(jù)并轉(zhuǎn)換為帶時(shí)間戳的文本序列;對(duì)所述文本序列進(jìn)行語義分析和結(jié)構(gòu)處理,生成包含時(shí)序與上下文的文本塊集合;對(duì)所述文本塊進(jìn)行多任務(wù)訓(xùn)練與主題融合,生成綜合語義向量;基于所述綜合語義向量構(gòu)建動(dòng)態(tài)橋接圖,所述橋接圖通過語義與時(shí)序關(guān)聯(lián)性激活關(guān)聯(lián)文本塊;響應(yīng)用戶查詢,將激活的文本塊內(nèi)容拼接為上下文prompt并輸入大語言模型,獲取一次性生成的回答;接收新函件數(shù)據(jù),根據(jù)所述新函件數(shù)據(jù)更新所述橋接圖。
3、與現(xiàn)有技術(shù)相比,采用根據(jù)本申請(qǐng)實(shí)施例的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,可以通過動(dòng)態(tài)橋接圖關(guān)聯(lián)語義與時(shí)序信息,并基于上下文prompt實(shí)現(xiàn)大語言模型的精準(zhǔn)響應(yīng),具有高效捕捉復(fù)雜語義關(guān)聯(lián)、提升上下文理解連貫性、實(shí)現(xiàn)動(dòng)態(tài)信息聚合的優(yōu)點(diǎn)。
1.一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述獲取多格式函件數(shù)據(jù)并轉(zhuǎn)換為帶時(shí)間戳的文本序列包括:
3.根據(jù)權(quán)利要求1所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述對(duì)所述文本序列進(jìn)行語義分析和結(jié)構(gòu)處理,生成包含時(shí)序與上下文的文本塊集合包括:
4.根據(jù)權(quán)利要求3所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述對(duì)所述候選句合并或拆分前還包括:
5.根據(jù)權(quán)利要求4所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述語義增強(qiáng)處理包括:
6.根據(jù)權(quán)利要求5所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述合并或拆分包括:
7.根據(jù)權(quán)利要求6所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述多任務(wù)訓(xùn)練與主題融合包括:
8.根據(jù)權(quán)利要求1所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述構(gòu)建動(dòng)態(tài)橋接圖包括:
9.根據(jù)權(quán)利要求1所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述響應(yīng)用戶查詢,將激活的文本塊內(nèi)容拼接為上下文prompt輸入大語言模型,獲取一次性生成的回答包括:
10.根據(jù)權(quán)利要求1所述的一種多層動(dòng)態(tài)聚合的大語言模型驅(qū)動(dòng)的函件文本分析方法,其特征在于,所述更新所述橋接圖包括: