99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

基于大模型實現(xiàn)研報路演PPT智能生成處理的系統(tǒng)、方法、裝置、處理器及可讀存儲介質(zhì)與流程

文檔序號:42046381發(fā)布日期:2025-06-04 18:07閱讀:9來源:國知局

本發(fā)明涉及自然語言處理和計算機視覺交叉領(lǐng)域領(lǐng)域,尤其涉及文檔智能領(lǐng)域,具體是指一種基于大模型實現(xiàn)研報路演ppt智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)。


背景技術(shù):

1、文檔智能是一種通過計算機實現(xiàn)自動閱讀、理解和分析商業(yè)文檔的技術(shù),位于自然語言處理和計算機視覺交叉領(lǐng)域的前沿。金融文檔智能化能夠快速獲取、整合并呈現(xiàn)金融數(shù)據(jù),顯著提升企業(yè)決策效率和質(zhì)量,減少人為錯誤,降低成本與風(fēng)險,增強企業(yè)內(nèi)部運營的安全性和穩(wěn)定性。例如,德勤利用智能文檔系統(tǒng)將金融合同中的核心數(shù)據(jù)自動填入表格,使員工能夠快速、準(zhǔn)確地審閱大量合同和報告文檔。國內(nèi)的工銀瑞信則通過同類系統(tǒng)大幅減少業(yè)務(wù)人員的工作量,將債券信息提取時間從每份十分鐘縮短至不到一分鐘。

2、文檔智能技術(shù)涵蓋版面分析、場景文本識別、表格檢測與識別、文檔理解等多個方面,能夠?qū)D文并茂的富格式文檔內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),大幅提升處理效率并便利后續(xù)的數(shù)據(jù)分析和挖掘工作。

3、chatgpt誕生以來,ai大模型在多個領(lǐng)域展現(xiàn)出了巨大的潛力,尤其在金融行業(yè)。ai大模型主要分為通用大模型和垂直大模型。通用大模型是一種跨領(lǐng)域的人工智能模型,具備高度的特征提取和規(guī)律發(fā)現(xiàn)能力。這些模型在大規(guī)模無標(biāo)注數(shù)據(jù)上進行訓(xùn)練,能夠在不進行微調(diào)或僅進行少量微調(diào)的情況下,完成多種場景下的任務(wù),相當(dāng)于接受了“通識教育”。另一方面,垂直大模型則專注于特定行業(yè)的深度學(xué)習(xí),通過學(xué)習(xí)大量行業(yè)相關(guān)數(shù)據(jù)和專業(yè)知識,為特定行業(yè)提供更準(zhǔn)確、更專業(yè)的解決方案和預(yù)測結(jié)果,相當(dāng)于成為某些領(lǐng)域的“行業(yè)專家”。

4、提示工程(prompt?engineering)作為一種新興學(xué)科,正發(fā)揮著至關(guān)重要的作用。提示工程通過設(shè)計和優(yōu)化提示詞,引導(dǎo)大語言模型(llm)行為朝向特定結(jié)果,而無需更新模型的權(quán)重或參數(shù)。這一過程能夠提升llm在復(fù)雜任務(wù)場景中的表現(xiàn),提升其問答和算術(shù)推理能力,使其在智能投顧、智能投研、風(fēng)險預(yù)警等任務(wù)中表現(xiàn)更為卓越。此外,提示工程還可以提高模型的安全性,確保在處理敏感金融數(shù)據(jù)時的準(zhǔn)確性與可靠性。

5、在金融行業(yè),數(shù)據(jù)的有效管理和利用是至關(guān)重要的,特別是在處理大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù)時。ai大模型,如llama3、qwen2和glm等,均是在公開的數(shù)據(jù)集上進行訓(xùn)練,但并未專門針對金融領(lǐng)域的特定數(shù)據(jù)進行優(yōu)化。因此,直接應(yīng)用這些模型可能無法滿足行業(yè)內(nèi)的特殊需求。為了解決這一問題,檢索增強生成(retrieval-augmented?generation,rag)技術(shù)應(yīng)運而生。rag技術(shù)通過從數(shù)據(jù)存儲中檢索相關(guān)文檔,并將其與ai大模型結(jié)合使用,以生成更加精準(zhǔn)的答案。在rag過程中,文本嵌入模型發(fā)揮了重要作用,將文檔轉(zhuǎn)換為嵌入向量(embeddings),并將這些嵌入向量存儲在向量數(shù)據(jù)庫中。文本嵌入模型捕捉金融文本的深層語義特征,使得文本之間的比較、搜索和分析變得可能。向量數(shù)據(jù)庫是一種專門用于存儲嵌入向量的數(shù)據(jù)庫。在向量數(shù)據(jù)庫中,可以存儲單詞、句子或整篇文檔的嵌入向量。利用這些嵌入向量,用戶可以通過自然語言查詢相關(guān)信息,并高效地檢索所需數(shù)據(jù)。這些數(shù)據(jù)庫優(yōu)化了向量的存儲和相似性搜索操作。存儲不僅要保證數(shù)據(jù)的可檢索性,還需考慮查詢效率和存儲成本。

6、python-pptx是一個基于python的開源庫,致力于簡化ppt的生成和修改過程。通過python-pptx,可以通過編寫python腳本,自動化生成和編輯ppt文件,從而大幅提高工作效率。該庫提供了豐富的接口,支持創(chuàng)建和修改幻燈片、文本框、圖表、圖片等多種ppt元素,并允許用戶對這些元素進行靈活的布局和格式設(shè)置。python-pptx的應(yīng)用場景非常廣泛。對于金融數(shù)據(jù)分析和研究人員,利用python-pptx制作ppt提供了一種高效、靈活的解決方案,極大地提升了信息呈現(xiàn)的自動化水平和用戶體驗。

7、在證券公司研究所的日常運作中,研報路演是一項重要的活動,旨在將最新的研究成果和投資建議精準(zhǔn)傳遞給投資者、基金經(jīng)理、企業(yè)高管以及其他重要利益相關(guān)者。這一過程不僅需要研究團隊投入大量時間和精力進行市場調(diào)研、數(shù)據(jù)分析和模型構(gòu)建,還要求他們將這些復(fù)雜的信息轉(zhuǎn)化為易于理解且具有吸引力的ppt演示文檔。

8、隨著科技的迅猛發(fā)展,基于大模型的技術(shù)在各行業(yè)中的應(yīng)用日益廣泛,并逐漸成為提升生產(chǎn)力和效率的重要工具。在證券研究領(lǐng)域,利用大模型可以極大地優(yōu)化研報轉(zhuǎn)ppt的過程。大模型具有強大的自然語言處理和圖像處理能力,能夠自動提取研報中的關(guān)鍵信息,并智能生成結(jié)構(gòu)清晰、內(nèi)容豐富的ppt演示文檔。這不僅可以節(jié)省研究團隊的時間和精力,使他們能夠?qū)W⒂诟邞?zhàn)略性的分析工作,還能顯著提高研報路演的質(zhì)量和效果。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)的缺點,提供了一種滿足效率高、質(zhì)量好、適用范圍較為廣泛的基于大模型實現(xiàn)研報路演ppt智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)。

2、為了實現(xiàn)上述目的,本發(fā)明的基于大模型實現(xiàn)研報路演ppt智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)如下:

3、該基于大模型實現(xiàn)研報路演ppt智能生成處理的系統(tǒng),其主要特點是,所述的系統(tǒng)包括ppt微服務(wù)模塊、文檔智能模塊、ppt內(nèi)容生成模塊和ppt渲染模塊,所述的文檔智能模塊的輸入端與ppt微服務(wù)模塊相連,所述的ppt內(nèi)容生成模塊的輸入端與ppt微服務(wù)模塊和文檔智能模塊相連,所述的ppt渲染模塊的輸入端與ppt內(nèi)容生成模塊相連;所述的ppt微服務(wù)模塊用于實現(xiàn)微服務(wù)的自動化部署、擴展和管理;所述的文檔智能模塊用于識別提取文本和圖像,轉(zhuǎn)換格式,經(jīng)過版面分析模型處理,生成文檔元素的坐標(biāo)信息,進行l(wèi)ayout重構(gòu);所述的ppt內(nèi)容生成模塊用于生成包含封面頁、目錄頁和正文頁的ppt內(nèi)容;所述的ppt渲染模塊用于根據(jù)模型進行模版推薦,并進行渲染工作。

4、較佳地,所述的ppt微服務(wù)模塊包括采用容器化部署,通過異步協(xié)程技術(shù)實現(xiàn)并發(fā)處理服務(wù);通過websocket持續(xù)向前端推送已經(jīng)生成的頁面,實時更新ppt生成的進度;通過用戶鑒權(quán)功能獲取當(dāng)前或歷史生成的ppt文件。

5、較佳地,所述的文檔智能模塊從掃描的文檔圖像中識別和提取文本、圖像和表格,將坐標(biāo)對齊,進行場景文本識別,針對不同類型的文檔元素執(zhí)行不同方式的內(nèi)容識別,進行表格識別與重構(gòu),識別圖例和章節(jié),對表格合并,將坐標(biāo)信息進行l(wèi)ayout重構(gòu)。

6、較佳地,所述的文檔智能模塊ppt內(nèi)容生成模塊包括封面頁單元、目錄頁單元和正文頁單元,所述的封面頁單元和目錄頁單元的輸入端與文檔智能模塊相連接,所述的正文頁單元的輸入端與文檔智能模塊和目錄頁單元相連接;

7、所述的封面頁單元用于通過prompt工程指導(dǎo)大模型提取關(guān)鍵信息,形成一個ppt頁面元素字典,所述的目錄頁單元用于通過prompt工程指導(dǎo)大模型生成目錄列表,所述的正文頁單元對圖表向量進行編碼,構(gòu)建結(jié)構(gòu)樹,并進行ppt配圖操作。

8、較佳地,所述的目錄頁單元若在文檔智能過程中識別到目錄元素,則通過大模型進行潤色和組織,去除亂碼和噪音,生成高質(zhì)量的目錄列表;若在文檔智能過程中沒有識別到目錄元素,則將文章內(nèi)容分批送給大模型進行概括總結(jié),形成多條核心觀點及其事實依據(jù),迭代生成高度抽象的目錄結(jié)構(gòu)。

9、較佳地,所述的正文頁單元對圖表向量進行編碼,構(gòu)建結(jié)構(gòu)樹,并進行ppt配圖操作,具體包括以下步驟:

10、(1-1)借助多模態(tài)模型將研報中的圖例與表格進行向量編碼,形成圖表的向量數(shù)據(jù)庫;

11、(1-2)如果存在目錄,則繼續(xù)步驟(1-3);如果不存在目錄,則繼續(xù)步驟(1-4);

12、(1-3)構(gòu)建文檔的結(jié)構(gòu)樹,依次將每個目錄對應(yīng)的章節(jié)內(nèi)容,通過prompt提示工程包裝,總結(jié)成多個主題及其事實依據(jù)的ppt頁面,繼續(xù)步驟(1-5);

13、(1-4)將研報所有文本元素進行文本向量化操作,保存成向量數(shù)據(jù)庫,依次遍歷目錄列表,對每一個目錄文本進行向量編碼,從研報文本段落的向量數(shù)據(jù)庫中召回最相似的段落內(nèi)容,經(jīng)順序重構(gòu)后生成ppt正文內(nèi)容,繼續(xù)步驟(1-5);

14、(1-5)對每個生成的ppt頁面內(nèi)容進行文本向量化編碼,通過圖表的向量數(shù)據(jù)庫進行召回,獲得最相似的圖表進行ppt配圖操作。

15、較佳地,所述的ppt渲染模塊包括模板推薦單元和引擎渲染單元,所述的模板推薦單元的輸入端與正文頁單元相連接,所述的引擎渲染單元的輸入端與模板推薦單元相連接,所述的模板推薦單元用于根據(jù)頁面內(nèi)容字典與頁面布局信息的映射數(shù)據(jù)集,訓(xùn)練樹模型實現(xiàn)ppt模板推薦;所述的引擎渲染單元用于通過遍歷每一頁ppt的字典,根據(jù)模板推薦的ppt模板進行渲染。

16、較佳地,所述的模板推薦單元根據(jù)頁面內(nèi)容字典與頁面布局信息的映射數(shù)據(jù)集,訓(xùn)練樹模型實現(xiàn)ppt模板推薦,具體包括以下步驟:

17、(2-1)收集歷史ppt文件,通過轉(zhuǎn)換腳本將這些文件拆分為單頁的ppt頁面;

18、(2-2)將ppt頁面轉(zhuǎn)換為頁面內(nèi)容字典與頁面布局信息的映射,形成映射數(shù)據(jù)集;

19、(2-3)基于映射數(shù)據(jù)集,訓(xùn)練一個樹模型,完成ppt頁面元素到ppt模板的推薦工作。

20、該利用上述系統(tǒng)實現(xiàn)基于大模型進行研報路演ppt智能生成處理的方法,其主要特點是,所述的方法包括以下步驟:

21、(1)識別提取文本和圖像,轉(zhuǎn)換格式,經(jīng)過版面分析模型處理,生成文檔元素的坐標(biāo)信息,進行l(wèi)ayout重構(gòu);

22、(2)生成包含封面頁、目錄頁和正文頁的ppt內(nèi)容;

23、(3)根據(jù)模型進行模版推薦,并進行渲染工作。

24、較佳地,所述的步驟(1)具體包括以下步驟:

25、文檔智能模塊從掃描的文檔圖像中識別和提取文本、圖像和表格,將坐標(biāo)對齊,進行場景文本識別,針對不同類型的文檔元素執(zhí)行不同方式的內(nèi)容識別,進行表格識別與重構(gòu),識別圖例和章節(jié),對表格合并,將坐標(biāo)信息進行l(wèi)ayout重構(gòu)。

26、較佳地,所述的步驟(2)具體包括以下步驟:

27、(2.1)通過prompt工程指導(dǎo)大模型提取關(guān)鍵信息,形成一個ppt頁面元素字典,生成封面頁;

28、(2.2)通過prompt工程指導(dǎo)大模型生成目錄列表,生成目錄頁;

29、(2.3)對圖表向量進行編碼,構(gòu)建結(jié)構(gòu)樹,并進行ppt配圖操作,生成正文頁。

30、較佳地,所述的步驟(2.2)還包括以下步驟:

31、若在文檔智能處理過程中識別到目錄元素,則通過大模型進行潤色和組織,去除亂碼和噪音,生成高質(zhì)量的目錄列表;

32、若在文檔智能處理過程中沒有識別到目錄元素,則將文章內(nèi)容分批送給大模型進行概括總結(jié),形成多條核心觀點及其事實依據(jù),迭代生成高度抽象的目錄結(jié)構(gòu)。

33、較佳地,所述的步驟(2.3)具體包括以下步驟:

34、(2.3.1)借助多模態(tài)模型將研報中的圖例與表格進行向量編碼,形成圖表的向量數(shù)據(jù)庫;

35、(2.3.2)如果存在目錄,則繼續(xù)步驟(2.3.3);如果不存在目錄,則繼續(xù)步驟(2.3.4);

36、(2.3.3)構(gòu)建文檔的結(jié)構(gòu)樹,依次將每個目錄對應(yīng)的章節(jié)內(nèi)容,通過prompt提示工程包裝,總結(jié)成多個主題及其事實依據(jù)的ppt頁面,繼續(xù)步驟(2.3.5);

37、(2.3.4)將研報所有文本元素進行文本向量化操作,保存成向量數(shù)據(jù)庫,依次遍歷目錄列表,對每一個目錄文本進行向量編碼,從研報文本段落的向量數(shù)據(jù)庫中召回最相似的段落內(nèi)容,經(jīng)順序重構(gòu)后生成ppt正文內(nèi)容,繼續(xù)步驟(2.3.5);

38、(2.3.5)對每個生成的ppt頁面內(nèi)容進行文本向量化編碼,通過圖表的向量數(shù)據(jù)庫進行召回,獲得最相似的圖表進行ppt配圖操作。

39、較佳地,所述的步驟(3)具體包括以下步驟:

40、(3.1)根據(jù)頁面內(nèi)容字典與頁面布局信息的映射數(shù)據(jù)集,訓(xùn)練樹模型實現(xiàn)ppt模板推薦;

41、(3.2)通過遍歷每一頁ppt的字典,根據(jù)模板推薦的ppt模板進行渲染。

42、較佳地,所述的步驟(3.1)具體包括以下步驟:

43、(3.1.1)收集歷史ppt文件,通過轉(zhuǎn)換腳本將這些文件拆分為單頁的ppt頁面;

44、(3.1.2)將ppt頁面轉(zhuǎn)換為頁面內(nèi)容字典與頁面布局信息的映射,形成映射數(shù)據(jù)集;

45、(3.1.3)基于映射數(shù)據(jù)集,訓(xùn)練一個樹模型,完成ppt頁面元素到ppt模板的推薦工作。

46、該用于實現(xiàn)基于大模型進行研報路演ppt智能生成處理的裝置,其主要特點是,所述的裝置包括:

47、處理器,被配置成執(zhí)行計算機可執(zhí)行指令;

48、存儲器,存儲一個或多個計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的實現(xiàn)基于大模型進行研報路演ppt智能生成處理的方法的各個步驟。

49、該用于實現(xiàn)基于大模型進行研報路演ppt智能生成處理的處理器,其主要特點是,所述的處理器被配置成執(zhí)行計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的實現(xiàn)基于大模型進行研報路演ppt智能生成處理的方法的各個步驟。

50、該計算機可讀存儲介質(zhì),其主要特點是,其上存儲有計算機程序,所述的計算機程序可被處理器執(zhí)行以實現(xiàn)上述的實現(xiàn)基于大模型進行研報路演ppt智能生成處理的方法的各個步驟。

51、采用了本發(fā)明的基于大模型實現(xiàn)研報路演ppt智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì),具有以下幾方面的優(yōu)點:1、自動化內(nèi)容生成,大模型能夠理解和處理研報中的復(fù)雜數(shù)據(jù)和文本信息,自動生成圖表、摘要和關(guān)鍵結(jié)論,確保ppt內(nèi)容的準(zhǔn)確性和完整性。2、視覺效果優(yōu)化:通過智能設(shè)計和排版,大模型可以生成視覺效果優(yōu)秀的ppt頁面,使信息傳遞更加直觀、生動,提高觀眾的理解和記憶。3、個性化定制:大模型可以根據(jù)不同的研究員需求和偏好,自動調(diào)整ppt內(nèi)容和風(fēng)格,提供個性化的展示方案,增強路演的針對性和吸引力。通過這一技術(shù)的應(yīng)用,研究所團隊能夠更加高效地將深度研究成果轉(zhuǎn)化為具有傳播力和影響力的路演報告。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1