本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于政務(wù)數(shù)據(jù)的企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練方法和系統(tǒng)。
背景技術(shù):
1、小微企業(yè)作為國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的基石,其健康穩(wěn)定的發(fā)展對(duì)于整體經(jīng)濟(jì)環(huán)境的繁榮至關(guān)重要。然而由于小微企業(yè)在財(cái)務(wù)管理上的透明度相對(duì)較低,以及經(jīng)營(yíng)過(guò)程中的穩(wěn)健性不足,如何準(zhǔn)確評(píng)估其信用風(fēng)險(xiǎn)等級(jí)成為了當(dāng)前備受矚目的焦點(diǎn)。當(dāng)前針對(duì)小微企業(yè)的信用風(fēng)險(xiǎn)評(píng)級(jí),多數(shù)機(jī)構(gòu)采用的是基于數(shù)理統(tǒng)計(jì)的判別分析法。盡管這種方法在理論上具有一定的科學(xué)性,但在實(shí)際操作中卻暴露出了一些問(wèn)題。特別是當(dāng)數(shù)據(jù)集中存在異常值或數(shù)據(jù)偏離正態(tài)分布時(shí),該方法可能會(huì)產(chǎn)生誤導(dǎo)性的分類結(jié)果,從而影響評(píng)級(jí)的準(zhǔn)確性。同時(shí),由于小微企業(yè)的數(shù)量眾多且分布廣泛,其數(shù)據(jù)樣本往往呈現(xiàn)出高度的非均衡性。這種失衡導(dǎo)致模型在訓(xùn)練過(guò)程中過(guò)度關(guān)注多數(shù)類樣本,而忽視了少數(shù)類尤其是高風(fēng)險(xiǎn)類樣本的重要特征,使得用最終訓(xùn)練完成的模型在評(píng)估風(fēng)險(xiǎn)時(shí)與真實(shí)情況出現(xiàn)偏差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對(duì)現(xiàn)有技術(shù)中的不足,提供了一種基于政務(wù)數(shù)據(jù)的企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練方法,包括如下步驟:
2、s1,采集樣本企業(yè)基礎(chǔ)數(shù)據(jù),建立初始信用評(píng)價(jià)指標(biāo)集,所述信用評(píng)價(jià)指標(biāo)集包括但不限于企業(yè)基本指標(biāo)數(shù)據(jù)、經(jīng)營(yíng)狀況指標(biāo)數(shù)據(jù)、納稅狀況指標(biāo)數(shù)據(jù)、財(cái)務(wù)狀況指標(biāo)數(shù)據(jù)、創(chuàng)新能力指標(biāo)數(shù)據(jù)以及信用狀況指標(biāo)數(shù)據(jù);
3、s2,根據(jù)所述初始信用評(píng)價(jià)指標(biāo)集中的特征缺失值、特征數(shù)據(jù)類型分布和正負(fù)樣本比對(duì)所述初始信用評(píng)價(jià)指標(biāo)集進(jìn)行篩選調(diào)整,并對(duì)違約特征進(jìn)行標(biāo)注后形成測(cè)試樣本,將測(cè)試樣本數(shù)據(jù)按比例劃分為第一訓(xùn)練集、測(cè)試集和驗(yàn)證集后形成風(fēng)險(xiǎn)評(píng)估測(cè)試集合;
4、s3,針對(duì)所述風(fēng)險(xiǎn)評(píng)估測(cè)試集合中的第一訓(xùn)練集采用kmeanssmote算法在保留原違約樣本數(shù)據(jù)特征前提下擴(kuò)充違約樣本數(shù)量并進(jìn)行均衡化處理后,獲得第二訓(xùn)練集;
5、s4,使用focalloss修正bpnn算法的交叉熵?fù)p失函數(shù)構(gòu)建企業(yè)風(fēng)險(xiǎn)評(píng)估模型并使用第二訓(xùn)練集進(jìn)行訓(xùn)練,利用驗(yàn)證集調(diào)整企業(yè)風(fēng)險(xiǎn)評(píng)估模型超參數(shù),通過(guò)測(cè)試集得到最終的企業(yè)風(fēng)險(xiǎn)評(píng)估模型。
6、優(yōu)選的,所述企業(yè)基本指標(biāo)數(shù)據(jù)包括但不限于企業(yè)行業(yè)門類、企業(yè)成立年限、近2年法定代表人變更次數(shù)、近2年股東變更次數(shù)、股東數(shù)量、法人股東持股占比、注冊(cè)資本、員工人數(shù);所述經(jīng)營(yíng)狀況指標(biāo)數(shù)據(jù)包括但不限于近12個(gè)月銷售收入、近12個(gè)月應(yīng)稅銷售收入為0或缺失的月份數(shù)、近12個(gè)月連續(xù)應(yīng)稅銷售收入為0或缺失的月份數(shù)最大值;所述納稅狀況指標(biāo)數(shù)據(jù)包括但不限于近3個(gè)月應(yīng)納稅額環(huán)比、近12個(gè)月實(shí)繳納稅額同比、近12個(gè)月實(shí)繳納稅額、近3個(gè)月實(shí)繳納稅額環(huán)比、近12個(gè)月增值稅納稅額為0月份數(shù)、近6個(gè)月增值稅實(shí)繳納稅額同比、納稅信用等級(jí)和納稅人狀態(tài);所述財(cái)務(wù)狀況指標(biāo)數(shù)據(jù)包括但不限于償債能力信息、盈利能力信息、和成長(zhǎng)能力信息;所述創(chuàng)新能力指標(biāo)數(shù)據(jù)包括但不限于企業(yè)資質(zhì)信息、所獲知識(shí)產(chǎn)權(quán)數(shù)量信息;所述信用狀況指標(biāo)數(shù)據(jù)包括但不限于當(dāng)前是否被列入經(jīng)營(yíng)異常名錄、當(dāng)前是否被列入嚴(yán)重違法失信名錄、最長(zhǎng)滯納時(shí)長(zhǎng)、近12個(gè)月罰款次數(shù)、近24個(gè)月滯納金計(jì)稅依據(jù)、近12個(gè)月違法違章記錄條數(shù)和近3年企業(yè)是否命中失信被執(zhí)行人。
7、優(yōu)選的,所述步驟s2包括:剔除單個(gè)缺失率大于50%以上的變量特征;對(duì)變量特征進(jìn)行離散化分組處理,分組后對(duì)于第i組,計(jì)算證據(jù)權(quán)重woe:
8、,
9、是該組中響應(yīng)客戶在該組中的比例,是該組中未響應(yīng)客戶在該組中的比例,是該組中響應(yīng)客戶數(shù)據(jù)量,是該組中未響應(yīng)客戶數(shù)據(jù)量,是該組中響應(yīng)客戶總數(shù)據(jù)量,是該組中未響應(yīng)客戶總數(shù)據(jù)量,響應(yīng)客戶指正樣本,未響應(yīng)客戶指負(fù)樣本;
10、計(jì)算變量特征各分組的信息價(jià)值量iv:
11、;
12、根據(jù)變量在各分組上的iv值,得到整個(gè)變量的iv值為:
13、;
14、剔除信息價(jià)值低于設(shè)定值的無(wú)預(yù)測(cè)能力的變量。
15、優(yōu)選的,所述步驟s3包括:將第一訓(xùn)練集分為多數(shù)類樣本數(shù)據(jù)集dmax?和少數(shù)類樣本數(shù)據(jù)集dmin,從少數(shù)類樣本數(shù)據(jù)集dmin中隨機(jī)選擇少數(shù)類樣本,通過(guò)歐幾里得距離計(jì)算它到其他少數(shù)類樣本數(shù)據(jù)集中所有樣本的距離,以獲得其k?個(gè)最近鄰樣本;
16、根據(jù)樣本的不平衡比例設(shè)置采樣率,以確定采樣乘數(shù)?n,對(duì)于少數(shù)類樣本a,從其k個(gè)最近鄰樣本中隨機(jī)選擇多個(gè)樣本,并假設(shè)所選鄰居樣本為b;對(duì)于每個(gè)隨機(jī)選擇的鄰居樣本b,根據(jù)以下公式用原始樣本a構(gòu)造一個(gè)新樣本:,補(bǔ)充至該少數(shù)類樣本數(shù)據(jù)集中;
17、對(duì)多數(shù)類數(shù)據(jù)集dmax中的每個(gè)多數(shù)類樣本xmax求其最近的少數(shù)類樣本xmin,對(duì)少數(shù)類樣本數(shù)據(jù)集dmin中的每個(gè)少數(shù)類樣本xmin求其最近的多數(shù)類樣本xmax,比較其最近距離d(xmin,xmax);
18、判斷風(fēng)險(xiǎn)評(píng)估測(cè)試集合中是否存在一樣本y,使得d(xmin?y)<d(xmin,xmax)或d(xmax?y)<d(xmin,xmax);若不存在這樣的樣本?y,那么樣本xmin和xmax被稱為托梅克鏈接tomek?links對(duì);
19、將tomek?links對(duì)中的多數(shù)類刪除后得到第二訓(xùn)練集。
20、優(yōu)選的,所述企業(yè)風(fēng)險(xiǎn)評(píng)估模型包含輸入層、隱藏層和輸出層三層神經(jīng)網(wǎng)絡(luò),其中神經(jīng)網(wǎng)絡(luò)層數(shù)設(shè)置為10,輸出層神經(jīng)元個(gè)數(shù)為輸入指標(biāo)的個(gè)數(shù)m,輸出層神經(jīng)元個(gè)數(shù)為分類個(gè)數(shù)n,隱藏層神經(jīng)元個(gè)數(shù)為s:;其中a的取值范圍為[1,10],隱藏層使用的激活函數(shù)為relu,輸出層的激活函數(shù)為softmax,dropout設(shè)置范圍為[0,2],所有訓(xùn)練數(shù)據(jù)的訓(xùn)練次數(shù)epoch取值范圍100,訓(xùn)練數(shù)據(jù)劃分的batchsize為50;
21、所述企業(yè)風(fēng)險(xiǎn)評(píng)估模型的預(yù)設(shè)的網(wǎng)絡(luò)損失函數(shù)使用的focalloss,其計(jì)算方式如下:
22、;
23、其中γ是超參數(shù),用于調(diào)整誤判的違約樣本損失所占目標(biāo)損失的權(quán)重,為真實(shí)的結(jié)果,為模型預(yù)測(cè)的結(jié)果。
24、優(yōu)選的,所述步驟s4包括:使用第二訓(xùn)練集在focalloss修正的bp神經(jīng)網(wǎng)絡(luò)上訓(xùn)練得到企業(yè)風(fēng)險(xiǎn)評(píng)估模型,將測(cè)試集代入模型,得到測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果;根據(jù)真實(shí)情況和預(yù)測(cè)結(jié)果對(duì)模型進(jìn)行評(píng)價(jià),模型評(píng)價(jià)的指標(biāo)采用準(zhǔn)確度accuracy、第一錯(cuò)誤率和第二錯(cuò)誤率,設(shè)tp為非違約樣本正確判定為非違約的個(gè)數(shù),fn為非違約樣本誤判為違約樣本的個(gè)數(shù),tn為違約樣本正確判定為違約樣本的個(gè)數(shù),fp為違約樣本判定為非違約樣本的個(gè)數(shù),各個(gè)指標(biāo)計(jì)算公式如下:
25、。
26、優(yōu)選的,還包括:根據(jù)企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練的結(jié)果,制定評(píng)分卡規(guī)則形成軟件開(kāi)發(fā)工具包部署到電子政務(wù)云系統(tǒng),對(duì)接主題數(shù)據(jù)庫(kù)數(shù)據(jù)源;所述電子政務(wù)云系統(tǒng)被配置為將企業(yè)的名稱和社會(huì)統(tǒng)一信用代碼作為業(yè)務(wù)系統(tǒng)請(qǐng)求參數(shù),解析接收到的請(qǐng)求指令并根據(jù)實(shí)際情況調(diào)用sdk中接口,返回被調(diào)用企業(yè)的風(fēng)險(xiǎn)評(píng)估結(jié)果。
27、本發(fā)明還公開(kāi)了一種基于政務(wù)數(shù)據(jù)的企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練系統(tǒng),包括指標(biāo)建立模塊、樣本生成模塊、樣本處理模塊和模型訓(xùn)練模塊,其中指標(biāo)建立模塊,用于采集樣本企業(yè)基礎(chǔ)數(shù)據(jù),建立初始信用評(píng)價(jià)指標(biāo)集,所述信用評(píng)價(jià)指標(biāo)集包括但不限于企業(yè)基本指標(biāo)數(shù)據(jù)、經(jīng)營(yíng)狀況指標(biāo)數(shù)據(jù)、納稅狀況指標(biāo)數(shù)據(jù)、財(cái)務(wù)狀況指標(biāo)數(shù)據(jù)、創(chuàng)新能力指標(biāo)數(shù)據(jù)以及信用狀況指標(biāo)數(shù)據(jù);樣本生成模塊,用于根據(jù)所述初始信用評(píng)價(jià)指標(biāo)集中的特征缺失值、特征數(shù)據(jù)類型分布和正負(fù)樣本比對(duì)所述初始信用評(píng)價(jià)指標(biāo)集進(jìn)行篩選調(diào)整,并對(duì)違約特征進(jìn)行標(biāo)注后形成測(cè)試樣本,將測(cè)試樣本數(shù)據(jù)按比例劃分為第一訓(xùn)練集、測(cè)試集和驗(yàn)證集后形成風(fēng)險(xiǎn)評(píng)估測(cè)試集合;樣本處理模塊,用于針對(duì)所述風(fēng)險(xiǎn)評(píng)估測(cè)試集合中的第一訓(xùn)練集采用kmeanssmote算法在保留原違約樣本數(shù)據(jù)特征前提下擴(kuò)充違約樣本數(shù)量并進(jìn)行均衡化處理后,獲得第二訓(xùn)練集;模型訓(xùn)練模塊,用于使用focalloss修正bpnn算法的交叉熵?fù)p失函數(shù)構(gòu)建企業(yè)風(fēng)險(xiǎn)評(píng)估模型并使用第二訓(xùn)練集進(jìn)行訓(xùn)練,利用驗(yàn)證集調(diào)整企業(yè)風(fēng)險(xiǎn)評(píng)估模型超參數(shù),通過(guò)測(cè)試集得到最終的企業(yè)風(fēng)險(xiǎn)評(píng)估模型。
28、本發(fā)明還公開(kāi)了一種基于政務(wù)數(shù)據(jù)的企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練裝置,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如前述任一所述方法的步驟。
29、本發(fā)明還公開(kāi)了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述任一所述方法的步驟。
30、本發(fā)明公開(kāi)的一種基于政務(wù)數(shù)據(jù)的企業(yè)風(fēng)險(xiǎn)評(píng)估模型訓(xùn)練方法和系統(tǒng),在根據(jù)采集樣本數(shù)據(jù)建立初始信用評(píng)價(jià)指標(biāo)后,對(duì)指標(biāo)中的各數(shù)據(jù)特征進(jìn)行篩選調(diào)整,并對(duì)違約特征進(jìn)行標(biāo)注后形成測(cè)試樣本,生成包含訓(xùn)練集、測(cè)試集和驗(yàn)證集的測(cè)試樣本集合,并使用kmeanssmote算法在保留原違約樣本數(shù)據(jù)特征前提下擴(kuò)充測(cè)試樣本中的違約樣本數(shù)量同時(shí)對(duì)樣本數(shù)據(jù)進(jìn)行均衡化處理后,最后使用focalloss修正bpnn算法的交叉熵?fù)p失函數(shù)構(gòu)建企業(yè)風(fēng)險(xiǎn)評(píng)估模型并對(duì)其進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試,得到最終的企業(yè)風(fēng)險(xiǎn)評(píng)估模型,緩解因訓(xùn)練過(guò)程中的樣本數(shù)據(jù)異?;驑颖静黄胶馑鶎?dǎo)致的模型關(guān)注失衡,提高企業(yè)風(fēng)險(xiǎn)評(píng)估模型評(píng)估效果。
31、本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。