本發(fā)明涉及大數(shù)據(jù)分析與土壤污染治理,更具體地,本發(fā)明涉及一種基于大數(shù)據(jù)分析的土壤污染分析與治理方法。
背景技術(shù):
1、隨著工業(yè)化和城市化的快速發(fā)展,土壤污染問題日益突出,成為全球性環(huán)境問題。傳統(tǒng)的土壤污染分析方法主要依賴于實驗室檢測和現(xiàn)場采樣分析,這些方法不僅耗時費力,而且難以全面反映土壤污染的復(fù)雜性和動態(tài)變化。近年來,大數(shù)據(jù)技術(shù)在環(huán)境科學(xué)領(lǐng)域逐漸得到應(yīng)用,通過收集和分析大量的土壤數(shù)據(jù),可以更高效地識別污染源、評估污染程度并制定治理方案。然而,現(xiàn)有技術(shù)在處理土壤污染大數(shù)據(jù)時,往往面臨數(shù)據(jù)維度高、噪聲多、關(guān)聯(lián)性復(fù)雜等問題,導(dǎo)致分析結(jié)果的準(zhǔn)確性和可靠性受限。
2、在實現(xiàn)本發(fā)明實施例過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題或缺陷:現(xiàn)有土壤污染分析方法無法充分利用大數(shù)據(jù)的多維度信息,難以有效處理數(shù)據(jù)中的噪聲和復(fù)雜關(guān)聯(lián),導(dǎo)致污染等級劃分不準(zhǔn)確,進而影響治理方案的科學(xué)性和有效性。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于大數(shù)據(jù)分析的土壤污染分析與治理方法,包括:
2、土壤數(shù)據(jù)采集與預(yù)處理;
3、根據(jù)預(yù)處理后的土壤數(shù)據(jù)構(gòu)建土壤污染多維度數(shù)據(jù)模型;
4、通過數(shù)據(jù)編碼器獲得所述多維度數(shù)據(jù)模型的特征低維表示;
5、基于所述特征低維表示重構(gòu)多維度數(shù)據(jù)模型的關(guān)聯(lián)矩陣,并基于重構(gòu)后的關(guān)聯(lián)矩陣和所述多維度數(shù)據(jù)模型的原始關(guān)聯(lián)矩陣計算局部相似性損失;
6、利用基于聚類且具有高魯棒性的分析方法,輸入所述特征低維表示來對土壤樣本進行分類,產(chǎn)生污染等級標(biāo)簽;
7、在數(shù)據(jù)編碼器后設(shè)置一個全連接層,并將所述特征低維表示輸入所述全連接層,以獲得中間分析結(jié)果;
8、基于所述污染等級標(biāo)簽和中間分析結(jié)果計算全局分類損失;
9、基于所述局部相似性損失和全局分類損失進行聯(lián)合優(yōu)化;
10、基于所述聯(lián)合優(yōu)化的結(jié)果預(yù)測土壤污染等級,以獲得治理方案。
11、進一步地,所述土壤數(shù)據(jù)采集與預(yù)處理具體包括:對于每一個土壤樣本,將該樣本的地理位置、污染類型和污染源信息合成一組數(shù)據(jù),然后對該組數(shù)據(jù)進行預(yù)處理;
12、將預(yù)處理后的這一組數(shù)據(jù)的所有特征送進訓(xùn)練好的特征向量模型,以獲得每個特征的特征向量并對得到的所有特征的特征向量取平均,作為該土壤樣本的綜合特征向量;
13、對不同土壤樣本的共同污染源、共同地理位置和共同污染類型進行預(yù)處理,以獲得具有相同表達的共同污染源、共同地理位置和共同污染類型。
14、進一步地,所述對該組數(shù)據(jù)進行預(yù)處理具體包括:對地理位置坐標(biāo)進行標(biāo)準(zhǔn)化、去除污染類型中的模糊表述、去掉重復(fù)的污染源信息、以特定分隔符分割數(shù)據(jù)、去掉無關(guān)特征和長度小于一定閾值的特征;
15、所述對不同土壤樣本的共同污染源、共同地理位置和共同污染類型進行預(yù)處理具體包括:對于共同污染源,進行標(biāo)準(zhǔn)化處理、統(tǒng)一名稱書寫順序和歸一化污染源標(biāo)識;對于共同地理位置,進行坐標(biāo)標(biāo)準(zhǔn)化、去除多余空格、以特定分隔符分割數(shù)據(jù)、去掉無關(guān)特征和長度小于一定閾值的特征;對于共同污染類型,進行標(biāo)準(zhǔn)化處理、去除模糊表述、以特定分隔符分割數(shù)據(jù)、去掉無關(guān)特征和長度小于一定閾值的特征。
16、進一步地,根據(jù)預(yù)處理后的土壤數(shù)據(jù)構(gòu)建土壤污染多維度數(shù)據(jù)模型具體包括:將每一個土壤樣本分別作為所述多維度數(shù)據(jù)模型的一個節(jié)點;
17、將每一個土壤樣本的綜合特征向量作為所述多維度數(shù)據(jù)模型中該樣本的節(jié)點特征;
18、計算兩個土壤樣本的共同污染源、共同地理位置和共同污染類型之間的相似度并設(shè)定對應(yīng)的相似度閾值,在兩個土壤樣本的共同污染源、共同地理位置和共同污染類型這三類屬性中,若有一種屬性的相似度超過對應(yīng)的相似度閾值,就在這兩個土壤樣本節(jié)點之間建立一條該屬性的邊。
19、進一步地,對于共同污染源和共同污染類型,使用特征重疊度來計算相似度,對于共同地理位置,采用歐氏距離的倒數(shù)作為相似度的度量標(biāo)準(zhǔn)。
20、進一步地,通過數(shù)據(jù)編碼器獲得所述多維度數(shù)據(jù)模型的特征低維表示時,使用兩層長短期記憶網(wǎng)絡(luò)(lstm)作為數(shù)據(jù)編碼器,每一層長短期記憶網(wǎng)絡(luò)的輸入為上一層的特征低維表示,輸出為本層的特征低維表示,且其第一層的輸入為土壤樣本的綜合特征向量。
21、進一步地,基于重構(gòu)后的關(guān)聯(lián)矩陣和所述多維度數(shù)據(jù)模型的原始關(guān)聯(lián)矩陣計算局部相似性損失具體為:將局部相似性損失的目標(biāo)函數(shù)設(shè)計為最小化重構(gòu)后的關(guān)聯(lián)矩陣和原始關(guān)聯(lián)矩陣的均方誤差損失:
22、
23、式中,為重構(gòu)后的關(guān)聯(lián)矩陣;為重構(gòu)后的關(guān)聯(lián)矩陣中的元素,表示預(yù)測節(jié)點i和節(jié)點j之間存在關(guān)聯(lián)的概率,取值范圍為[0,1];a是多維度數(shù)據(jù)模型的原始關(guān)聯(lián)矩陣;為多維度數(shù)據(jù)模型的原始關(guān)聯(lián)矩陣中的元素,取值為0或1;n是多維度數(shù)據(jù)模型上的節(jié)點數(shù)量。
24、進一步地,基于所述污染等級標(biāo)簽和中間分析結(jié)果計算全局分類損失具體為:
25、將所述污染等級標(biāo)簽和中間分析結(jié)果的交叉熵損失函數(shù)定義為全局分類損失:
26、
27、式中,c是中間分析結(jié)果;表示節(jié)點i屬于類別c的概率,取值范圍為[0,1];y是污染等級標(biāo)簽,表示節(jié)點i的真實類別標(biāo)簽,取值為0或1;n是多維度數(shù)據(jù)模型上的節(jié)點數(shù)量;c是污染等級的類別總數(shù)。
28、進一步地,基于所述局部相似性損失和全局分類損失進行聯(lián)合優(yōu)化具體為:
29、使用全局分類損失和局部相似性損失的加權(quán)和來達到它們之間的平衡,即,
30、式中,是加權(quán)損失;是一個根據(jù)經(jīng)驗設(shè)置的超參數(shù);
31、在得到所述加權(quán)損失后,使用隨機梯度下降算法,基于所述加權(quán)損失對數(shù)據(jù)編碼器和全連接層的參數(shù)進行多輪訓(xùn)練,通過訓(xùn)練對數(shù)據(jù)編碼器和全連接層的參數(shù)進行聯(lián)合優(yōu)化。
32、進一步地,基于所述聯(lián)合優(yōu)化的結(jié)果預(yù)測土壤污染等級,以獲得治理方案具體為:取最后一輪訓(xùn)練產(chǎn)生的污染等級標(biāo)簽作為最終治理方案的依據(jù)。
33、根據(jù)本發(fā)明的上述實施例至少具有以下有益效果:首先,通過構(gòu)建土壤污染多維度數(shù)據(jù)模型并利用數(shù)據(jù)編碼器進行特征低維表示,可以有效降低數(shù)據(jù)維度,減少噪聲干擾,同時保留土壤污染數(shù)據(jù)的關(guān)鍵特征信息,從而提高土壤污染分析的準(zhǔn)確性和效率。其次,基于局部相似性損失和全局分類損失的聯(lián)合優(yōu)化方法,可以更好地平衡土壤樣本之間的局部關(guān)聯(lián)性和全局分類準(zhǔn)確性,使得土壤污染等級的預(yù)測更加精準(zhǔn),進而為制定科學(xué)合理的土壤污染治理方案提供可靠依據(jù)。
1.一種基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求?1?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,所述土壤數(shù)據(jù)采集與預(yù)處理具體包括:對于每一個土壤樣本,將該樣本的地理位置、污染類型和污染源信息合成一組數(shù)據(jù),然后對該組數(shù)據(jù)進行預(yù)處理;
3.根據(jù)權(quán)利要求?2?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,所述對該組數(shù)據(jù)進行預(yù)處理具體包括:對地理位置坐標(biāo)進行標(biāo)準(zhǔn)化、去除污染類型中的模糊表述、去掉重復(fù)的污染源信息、以特定分隔符分割數(shù)據(jù)、去掉無關(guān)特征和長度小于一定閾值的特征;
4.根據(jù)權(quán)利要求?3?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,根據(jù)預(yù)處理后的土壤數(shù)據(jù)構(gòu)建土壤污染多維度數(shù)據(jù)模型具體包括:將每一個土壤樣本分別作為所述多維度數(shù)據(jù)模型的一個節(jié)點;
5.根據(jù)權(quán)利要求?4?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,對于共同污染源和共同污染類型,使用特征重疊度來計算相似度,對于共同地理位置,采用歐氏距離的倒數(shù)作為相似度的度量標(biāo)準(zhǔn)。
6.根據(jù)權(quán)利要求?1?-?5?中任一項所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,通過數(shù)據(jù)編碼器獲得所述多維度數(shù)據(jù)模型的特征低維表示時,使用兩層長短期記憶網(wǎng)絡(luò)(lstm)作為數(shù)據(jù)編碼器,每一層長短期記憶網(wǎng)絡(luò)的輸入為上一層的特征低維表示,輸出為本層的特征低維表示,且其第一層的輸入為土壤樣本的綜合特征向量。
7.根據(jù)權(quán)利要求?6?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,基于重構(gòu)后的關(guān)聯(lián)矩陣和所述多維度數(shù)據(jù)模型的原始關(guān)聯(lián)矩陣計算局部相似性損失具體為:將局部相似性損失的目標(biāo)函數(shù)設(shè)計為最小化重構(gòu)后的關(guān)聯(lián)矩陣和原始關(guān)聯(lián)矩陣的均方誤差損失:
8.根據(jù)權(quán)利要求?7?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,基于所述污染等級標(biāo)簽和中間分析結(jié)果計算全局分類損失具體為:
9.根據(jù)權(quán)利要求?8?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,基于所述局部相似性損失和全局分類損失進行聯(lián)合優(yōu)化具體為:
10.根據(jù)權(quán)利要求?9?所述的基于大數(shù)據(jù)分析的土壤污染分析與治理方法,其特征在于,基于所述聯(lián)合優(yōu)化的結(jié)果預(yù)測土壤污染等級,以獲得治理方案具體為:取最后一輪訓(xùn)練產(chǎn)生的污染等級標(biāo)簽作為最終治理方案的依據(jù)。