日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

神經(jīng)網(wǎng)絡(luò)文本分類實(shí)用13篇

引論:我們?yōu)槟砹?3篇神經(jīng)網(wǎng)絡(luò)文本分類范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

神經(jīng)網(wǎng)絡(luò)文本分類

篇1

The Researching of Web Text Classification Based on RBF Neural Network

XU Chun-yu

(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)

Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.

Key words: web text classification; RBF network; gauss Function; gradient descent algorithm

近年來,web已經(jīng)成為擁有數(shù)十億個(gè)異構(gòu)的、半結(jié)構(gòu)化的、動(dòng)態(tài)的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現(xiàn)的,如何從這些海量的web信息資源中尋找并獲取有價(jià)值的信息和知識(shí)模式,已經(jīng)成為信息處理的一個(gè)關(guān)鍵問題,web文本分類有助于人們完成這個(gè)目標(biāo)[1]。

1 web文本分類

文本分類就是先根據(jù)已有的樣例文本找出能描述并區(qū)分文本類別的分類器,然后利用該分類器對(duì)新的未分類的文本進(jìn)行分類。根據(jù)機(jī)器學(xué)習(xí)的觀點(diǎn),文本自動(dòng)分類問題可以歸結(jié)為一個(gè)機(jī)器學(xué)習(xí)任務(wù):假定全體文本空間為D,預(yù)定義的文本類別集合為C{c1,c2,…,c3}。待學(xué)習(xí)分類法稱為目標(biāo)分類器,記作y,一般來說,y是從文本集到類別集的一個(gè)映射,即y:DC,通常情況下該映射存在,但沒有解析表達(dá)式。文本分類中機(jī)器學(xué)習(xí)的目的就是找到映射y的一個(gè)近似表達(dá)式或估計(jì):y:DC,使對(duì)于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類器[3]。

隨著web上海量文本信息的增加,文本分類技術(shù)的處理對(duì)象從普通的文檔擴(kuò)展到了web文本,即形成了web文本分類技術(shù),顯然,文本分類技術(shù)是web文本分類技術(shù)的基礎(chǔ)。

2 RBF神經(jīng)網(wǎng)絡(luò)

徑向基函數(shù)(Radial Basis Function,簡稱RBF)神經(jīng)元網(wǎng)絡(luò)是在借鑒生物局部調(diào)節(jié)和交疊接受區(qū)域知識(shí)的基礎(chǔ)上提出的一種采用局部接受域來執(zhí)行函數(shù)影射的人工神經(jīng)元網(wǎng)絡(luò)。在人的大腦皮層區(qū)域中,局部調(diào)節(jié)及交疊的感受是人腦反映的特點(diǎn)。RBF網(wǎng)絡(luò)同BP網(wǎng)絡(luò)類似,也是一種三層前饋式神經(jīng)網(wǎng)絡(luò),輸入層節(jié)點(diǎn)傳遞輸入信號(hào)到隱含層,隱含層節(jié)點(diǎn)由像高斯函數(shù)那樣的輻射狀作用函數(shù)構(gòu)成,而輸出層節(jié)點(diǎn)通常是簡單的線性函數(shù)。網(wǎng)絡(luò)模型如圖1所示。

從RBF的網(wǎng)絡(luò)模型圖可以看出,RBF網(wǎng)絡(luò)由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:

(1)

其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個(gè)非線性變換單元的中心向量,Ct(q)表示第t個(gè)中心的第q個(gè)分量,σi為第i個(gè)非線性變換單元的寬度,||?||表示的是范數(shù),通常情況下取2范數(shù),g(?)表示的是非線性函數(shù)關(guān)系,一般取Gauss函數(shù),Gauss函數(shù)的函數(shù)關(guān)系如公式(2)所示:

(2)

第二部分:線性合并層,它的作用是將變換層的輸出線性加權(quán)合并,公式如(3)所示,其中l(wèi)為隱含層神經(jīng)元的個(gè)數(shù),m為輸出層神經(jīng)元的個(gè)數(shù)。

(3)

RBF網(wǎng)絡(luò)通過徑向基函數(shù)能夠更確切的描述人類神經(jīng)元的活動(dòng)特性。在中心附近的區(qū)域內(nèi)網(wǎng)絡(luò)的輸出最大,網(wǎng)絡(luò)的輸出隨著中心距離的增大,逐漸減小,而這個(gè)過程的快慢則是由σ參數(shù)來決定的,σ越大則函數(shù)輸出曲線越平緩,對(duì)輸入的變化就越不敏感,因此,可以通過調(diào)節(jié)σ來進(jìn)一步模擬人類的神經(jīng)元。RBF網(wǎng)絡(luò)最常用的算法是梯度下降法,常用的訓(xùn)練就是選定某種性能指標(biāo),然后采用梯度下降的方法來校正網(wǎng)絡(luò)參數(shù),使該網(wǎng)絡(luò)性能指標(biāo)取得最優(yōu)值,因此RBF網(wǎng)絡(luò)的學(xué)習(xí)實(shí)質(zhì)上就是一個(gè)最優(yōu)化問題。具體的訓(xùn)練算法為:對(duì)于一般的RBF網(wǎng)絡(luò)結(jié)構(gòu),取性能指標(biāo)如公式(4)所示。

(4)

其中,i為網(wǎng)絡(luò)的輸出,具體關(guān)系式如下面的(5)式、(6)式和(7)式所示:

(5)

(6)

(7)

由上面的三個(gè)公式可以看出, J是關(guān)于Cj,wjt和σj的函數(shù)。網(wǎng)絡(luò)的訓(xùn)練過程就是調(diào)整以上三組參數(shù),使J趨于最小。求取J對(duì)各網(wǎng)絡(luò)參數(shù)wts,ct(q),σt的偏導(dǎo)數(shù),其中1≤t≤P(P是隱含層單元的個(gè)數(shù)),1≤s≤M(M是輸出層單元的個(gè)數(shù)),1≤q≤N(N是輸出層單元的個(gè)數(shù)),得到參數(shù)的校正方法。具體的校正方法為:權(quán)值wts的校正方向如公式(8)所示:

(8)

中心ct(q)的校正方向如公式(9)所示:

(9)

寬度σt的校正方向如公式(10)所示:

(10)

由此,可以得到RBF網(wǎng)絡(luò)的梯度下降法校正公式如(11)所示:

(11)

其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個(gè)數(shù),N為輸入層單元個(gè)數(shù),M為輸出層單元個(gè)數(shù),λ為步長,通常λ=0.05左右。

隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當(dāng)前的網(wǎng)絡(luò)隱含層單元中心Cj及寬度σj(1≤j≤P)參數(shù)下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個(gè)數(shù)。

Y=HTW (12)

其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據(jù)RLS算法有權(quán)值的修正遞推公式如公式(13)所示:

(13)

這樣,按照上面的公式對(duì)網(wǎng)絡(luò)參數(shù)不斷地進(jìn)行循環(huán)校正,最終網(wǎng)絡(luò)性能將達(dá)到所要求的性能指標(biāo)[5]。

3 實(shí)驗(yàn)

實(shí)驗(yàn)過程中,首先設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),確定RBF網(wǎng)絡(luò)輸出層神經(jīng)元個(gè)數(shù),根據(jù)類別的個(gè)數(shù)來確定輸出層神經(jīng)元的個(gè)數(shù),實(shí)驗(yàn)數(shù)據(jù)分別屬于10個(gè)類別,因此網(wǎng)絡(luò)輸出層神經(jīng)元個(gè)數(shù)為10。輸入層神經(jīng)元的個(gè)數(shù)為文檔在進(jìn)行特征提取之后向量的維數(shù),實(shí)驗(yàn)中,經(jīng)過降維以后的每篇文檔特征向量的維數(shù)為30,所以將網(wǎng)絡(luò)的輸入層神經(jīng)元的個(gè)數(shù)選取為30。由于輸入樣本空間是確定的,可以預(yù)先給定一個(gè)隱含層節(jié)點(diǎn)數(shù),只要與輸入樣本的實(shí)際類別數(shù)相差不是很大時(shí),就可以使用梯度下降法來不斷修正網(wǎng)絡(luò)的中心值,使網(wǎng)絡(luò)的特性逼近于實(shí)際系統(tǒng),這種方法比較簡單,也是一種比較常用的方法,因此,實(shí)驗(yàn)中隱含層神經(jīng)元的個(gè)數(shù)取值為9。

RBF網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)完成之后就可以對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練了,實(shí)驗(yàn)數(shù)據(jù)來自中國期刊網(wǎng)上下載的600篇文檔,涵蓋了政治、經(jīng)濟(jì)、教育、娛樂等10個(gè)類別,每個(gè)類別包含60篇文檔,選取其中的500篇文檔作為樣本訓(xùn)練集,每個(gè)類別選擇50篇,另外100篇文檔作為網(wǎng)絡(luò)的測試集。首先需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行文本特征提取、降維等過程。其次采用的是Matlab軟件進(jìn)行編程以實(shí)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練完成以后,輸入測試集中的數(shù)據(jù),測試網(wǎng)絡(luò)能否正確地將相關(guān)的文檔區(qū)分到各個(gè)類別中。表1是RBF網(wǎng)絡(luò)的分類結(jié)果。

4 結(jié)論

從上面的訓(xùn)練結(jié)果分析,RBF網(wǎng)絡(luò)能夠?qū)⒋蟛糠值奈谋菊_地劃分到所屬類別,對(duì)于體育、娛樂、外語方面的文檔能夠取得較高的識(shí)別率,對(duì)于政治、經(jīng)濟(jì)、軍事等方面的文檔的識(shí)別率較低,主要原因是這些類別的文檔中互相包含著相關(guān)的特征信息,這種類型的文檔在進(jìn)行文本分類的時(shí)候,需要在文本特征提取的時(shí)候進(jìn)行相應(yīng)的處理,以使得在輸入神經(jīng)網(wǎng)絡(luò)的時(shí)候能夠得到正確的分類結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,RBF網(wǎng)絡(luò)完全可以應(yīng)用到文本分類中來,并且能夠取得較好的分類效果。

參考文獻(xiàn):

[1] 蒲筱哥.Web自動(dòng)文本分類技術(shù)研究綜述[J].情報(bào)科學(xué),2009:233.

[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.

[3] 王曉慶. 基于RBF網(wǎng)絡(luò)的文本自動(dòng)分類的研究[D].南昌:江西師范大學(xué),2003:9.

[4] Abhijit S, Rober B. 神經(jīng)網(wǎng)絡(luò)模式識(shí)別及其實(shí)現(xiàn)[M].徐勇,荊濤,譯.北京:電子工業(yè)出版社,1999:30-32,57-114.

[5] 柯慧燕. Web文本分類研究及應(yīng)用[D].武漢:武漢理工大學(xué),2006:14-15,16-17.

篇2

申明:本網(wǎng)站內(nèi)容僅用于學(xué)術(shù)交流,如有侵犯您的權(quán)益,請(qǐng)及時(shí)告知我們,本站將立即刪除有關(guān)內(nèi)容。 摘 要:本文提出了一種新的基于改進(jìn)的AD址INE神經(jīng)網(wǎng)絡(luò)DTMF信號(hào)檢測算

篇3

隨著設(shè)備復(fù)雜化程度的提高,對(duì)故障診斷的快速性和準(zhǔn)確性提出了更高的要求。將神經(jīng)網(wǎng)絡(luò)應(yīng)用于故障診斷中已成為一個(gè)非常活躍的研究領(lǐng)域。利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類能力,進(jìn)行故障模式的分類與學(xué)習(xí),診斷出故障。

Huang在前人研究的基礎(chǔ)上提出了一種稱為極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)的學(xué)習(xí)方法,在保留計(jì)算精度的同時(shí)可以大幅度的縮減訓(xùn)練的時(shí)間。將ELM運(yùn)用到設(shè)備故障診斷中,極大提高了診斷的快速性和準(zhǔn)確性。

一、極限學(xué)習(xí)機(jī)研究現(xiàn)狀

ELM自2004年提出就一直受到學(xué)者的極大興趣。我們從ELM的理論和應(yīng)用兩方面進(jìn)行闡述。

1.1 ELM的理論

對(duì)于傳統(tǒng)ELM算法,網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)類型以及隱層神經(jīng)元的選擇對(duì)其泛化性能都有重要的影響。為了提高計(jì)算效率,使得ELM適用于更多應(yīng)用領(lǐng)域,研究者提出了許多ELM擴(kuò)展算法。

1.2 ELM的應(yīng)用

研究人員已嘗試?yán)肊LM方法解決現(xiàn)實(shí)中各種模式分類問題。隨著ELM自身理論的進(jìn)一步發(fā)展和完善,在人臉識(shí)別、文本分類、醫(yī)療診斷等領(lǐng)域中應(yīng)用廣泛。

二、故障診斷技術(shù)研究現(xiàn)狀

故障診斷技術(shù)是由于建立監(jiān)控系統(tǒng)的需要而發(fā)展起來的。其發(fā)展至今經(jīng)歷了3個(gè)階段。新的診斷技術(shù)帶來了領(lǐng)域內(nèi)算法的革新,設(shè)備精密程度的提高也對(duì)診斷實(shí)時(shí)性提出了更高的要求。如何保證故障的快速準(zhǔn)確診斷成了診斷技術(shù)發(fā)展重要內(nèi)容。

基于神經(jīng)網(wǎng)絡(luò)的故障診斷運(yùn)用廣泛,然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法存在許多問題。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,極限學(xué)習(xí)機(jī)方法通過隨機(jī)選取輸入權(quán)值及隱層單元的偏置值,可以產(chǎn)生唯一的最優(yōu)解,并具有參數(shù)易于選擇以及泛化能力好等特點(diǎn),在眾多領(lǐng)域有著廣泛應(yīng)用。

三、基于極限學(xué)習(xí)機(jī)的故障診斷方法研究

3.1基于ELM的故障診斷流程

(1)數(shù)據(jù)預(yù)處理。按照選取的特征向量和故障類型對(duì)故障樣本進(jìn)行預(yù)處理,并將處理后的樣本按比例分為訓(xùn)練樣本集和測試樣本集。

(2)ELM的學(xué)習(xí)算法主要有以下3個(gè)步驟:確定隱含層神經(jīng)元個(gè)數(shù);隨機(jī)設(shè)定輸入層與隱含層間的連接權(quán)值和隱含層神經(jīng)元的偏置;選擇隱含層神經(jīng)元激活函數(shù),進(jìn)而計(jì)算隱含層輸出矩陣計(jì)算輸出層權(quán)值。

(3)用訓(xùn)練好的ELM模型對(duì)測試樣本集進(jìn)行分類,并輸出分類結(jié)果。

3.2基于改進(jìn)ELM的故障診斷

篇4

學(xué)號(hào):XX

姓名:XX

2020年10月25號(hào)

基于深度神經(jīng)網(wǎng)絡(luò)的標(biāo)題分類研究

XX

摘要:新聞是人們對(duì)時(shí)事、最新行業(yè)相關(guān)消息了解的重要途徑,本文將新聞標(biāo)題作為新聞分類的切入點(diǎn),由于新聞標(biāo)題屬于文本中的短文本類別,所以本文主要通過利用深度學(xué)習(xí)相關(guān)方法對(duì)新聞標(biāo)題短文本進(jìn)行分類,針對(duì)前期分類出現(xiàn)過的問題,結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)并引入的SVM 模型,解決新聞分類以及短文本分類過程中的常見困難問題。

關(guān)鍵詞:深度學(xué)習(xí);SVM;標(biāo)題分類

1 引言

隨著大數(shù)據(jù)時(shí)代的來臨,我們?nèi)粘5男畔⒁?guī)模呈現(xiàn)出爆炸式增長的趨勢。數(shù)據(jù)挖掘和人工智能逐漸成為時(shí)代的主題??s小信息規(guī)模的方法有很多種,而分類就是其中一種極其有效的方式,所以它當(dāng)前仍是吸引國內(nèi)外學(xué)者研究的重點(diǎn)問題和熱點(diǎn)問題。文本分類是在自然語言處理領(lǐng)域廣泛研究的問題,在工業(yè)領(lǐng)域內(nèi),現(xiàn)在已經(jīng)有著較為成熟的應(yīng)用,無論是樸素貝葉斯還是決策樹又或是最大熵以及神經(jīng)網(wǎng)絡(luò)都在工業(yè)領(lǐng)域有著相關(guān)應(yīng)用。而文本分類技術(shù)在新聞分類領(lǐng)域的應(yīng)用仍然有限,當(dāng)前的文本分類系統(tǒng)大多基于統(tǒng)計(jì)學(xué)原理再結(jié)合相關(guān)機(jī)器學(xué)習(xí)方法訓(xùn)練相關(guān)數(shù)據(jù)集,從而得到所需的分類器并使用其達(dá)成對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類的目的。在2017 年自然語言處理及中文計(jì)算會(huì)(NLPCC)也曾對(duì)新聞分類相關(guān)問題設(shè)立相關(guān)課題,這也間接表現(xiàn)出了其可能為文本分類領(lǐng)域的發(fā)展研究做出較大的貢獻(xiàn)。

由于中文新聞文本分類起步較晚,再加以復(fù)雜精深的漢語語法的影響,使得之前關(guān)于中文新聞文本分類的研究相比于英文顯得稍微落后,但現(xiàn)在伴隨各種中文新聞?wù)Z料庫的出現(xiàn)和完善,中文新聞文本分類漸漸走上正軌。以往對(duì)新聞進(jìn)行分類時(shí)通常是解析新聞的正文,由于部分新聞的篇幅較長,往往導(dǎo)致了新聞分類時(shí)的效率低下。而通過中文新聞標(biāo)題對(duì)中文新聞文本進(jìn)行分類,相比與傳統(tǒng)的新聞分類來說在分類效率上可以得到很大的優(yōu)化。除此之外,新聞標(biāo)題往往是對(duì)新聞主題的高度概括,以有限的字?jǐn)?shù)對(duì)全文內(nèi)容進(jìn)行凝煉,所以這屬于一個(gè)短文本分類領(lǐng)域的相關(guān)問題。通過對(duì)中文新聞標(biāo)題分類的研究,對(duì)短文本分類領(lǐng)域的部分問題有著借鑒意義。

2 算法原理與系統(tǒng)設(shè)計(jì)

2.1 算法原理

支持向量機(jī)(Support Vector Machine ,SVM)的主要思想是:建立一個(gè)最優(yōu)決策超平面,使得該平面兩側(cè)距離該平面最近的兩類樣本之間的距離最大化,從而對(duì)分類問題提供良好的泛化能力。對(duì)于一個(gè)多維的樣本集,系統(tǒng)隨機(jī)產(chǎn)生一個(gè)超平面并不斷移動(dòng),對(duì)樣本進(jìn)行分類,直到訓(xùn)練樣本中屬于不同類別的樣本點(diǎn)正好位于該超平面的兩側(cè),滿足該條件的超平面可能有很多個(gè),SVM正式在保證分類精度的同時(shí),尋找到這樣一個(gè)超平面,使得超平面兩側(cè)的空白區(qū)域最大化,從而實(shí)現(xiàn)對(duì)線性可分樣本的最優(yōu)分類。支持向量機(jī)中的支持向量(Support Vector)是指訓(xùn)練樣本集中的某些訓(xùn)練點(diǎn),這些點(diǎn)最靠近分類決策面,是最難分類的數(shù)據(jù)點(diǎn)。SVM中最優(yōu)分類標(biāo)準(zhǔn)就是這些點(diǎn)距離分類超平面的距離達(dá)到最大值;“機(jī)”(Machine)是機(jī)器學(xué)習(xí)領(lǐng)域?qū)σ恍┧惴ǖ慕y(tǒng)稱,常把算法看做一個(gè)機(jī)器,或者學(xué)習(xí)函數(shù)。SVM是一種有監(jiān)督的學(xué)習(xí)方法,主要針對(duì)小樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)、分類和預(yù)測,類似的根據(jù)樣本進(jìn)行學(xué)習(xí)的方法還有決策樹歸納算法等。

2.2 詳細(xì)設(shè)計(jì)

簡單的Python機(jī)器學(xué)習(xí)實(shí)現(xiàn)新聞標(biāo)題自動(dòng)分類,爬蟲獲取的新浪新聞的分類,先對(duì)新聞進(jìn)行分詞,手動(dòng)分類一些分詞后的標(biāo)題,然后以它為輸入做SVM模型訓(xùn)練,然后用訓(xùn)練好的SVM模型對(duì)其他標(biāo)題做預(yù)測。

3 系統(tǒng)實(shí)現(xiàn)

#news_classify.py

import xlrd

import xlwt

import jieba

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.svm import SVC

def read_data(file, sheet_index=0):

"""讀取文件內(nèi)容"""

workbook = xlrd.open_workbook(file)

sheet = workbook.sheet_by_index(sheet_index)

data = []

for i in range(0, sheet.nrows):

data.append([x for x in sheet.row_values(i) if x.strip()])

return data

def get_classified_sample():

"""返回手動(dòng)分類的新聞"""

data = read_data('test.xls')

return {

'經(jīng)濟(jì)': data[1] + data[14] + data[20],

'社會(huì)': data[2] + data[3] + data[4] + data[9] + data[17] + data[18],

'政法': data[5] + data[6] + data[7] + data[8] + data[11] + data[13] + data[15] + data[16] + data[19],

'軍事': data[10],

'娛樂': data[12],

}

def classify():

"""進(jìn)行分類"""

# 一共分成5類,并且類別的標(biāo)識(shí)定為0,1,2,3,4

category_ids = range(0, 5)

category = {}

category[0] = '經(jīng)濟(jì)'

category[1] = '社會(huì)'

category[2] = '政法'

category[3] = '軍事'

category[4] = '娛樂'

corpus = []# 語料庫

classified_sample = get_classified_sample()

for k, v in classified_sample.items():

line = ' '.join(classified_sample[k])

corpus.append(line)

data = read_data('test.xls')

# 把未分類的文章追加到語料庫末尾行

# 21開始是因?yàn)槲沂謩?dòng)分類了前20條

for lst in data[21:]:

line = ' '.join(lst)

corpus.append(line)

# 計(jì)算tf-idf

vectorizer = CountVectorizer()

csr_mat = vectorizer.fit_transform(corpus)

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(csr_mat)

y = np.array(category_ids)

# 用前5行已標(biāo)分類的數(shù)據(jù)做模型訓(xùn)練

model = SVC()

model.fit(tfidf[0:5], y)

# 對(duì)5行以后未標(biāo)注分類的數(shù)據(jù)做分類預(yù)測

predicted = model.predict(tfidf[5:])

# 結(jié)果

# print(len(predicted))

for i in range(len(predicted) - 1):

print(corpus[i + 5], '============》', category[predicted[i]])

if __name__ == '__main__':

classify()

4 實(shí)驗(yàn)或測試結(jié)果

程序運(yùn)行后出現(xiàn)如下界面(一部分):

中巴經(jīng)濟(jì)走廊“圍堵”印度?新華社: 印度想太多了============》娛樂

央行報(bào)告:上海已經(jīng)基本確立國內(nèi)金融中心地位============》社會(huì)

國網(wǎng)北京電力: 北京地區(qū)煤改電今年累計(jì)破100 萬戶============》娛樂

湖南沅江原市長肖勝利犯三罪判5 年: 為升遷送13 萬============》娛樂

顏寧為何從清華跳槽去普林斯頓?她終于說出原因============》娛樂

國家文物局公布346 萬件全國館藏文物信息供監(jiān)督============》娛樂

里皮首次對(duì)續(xù)約中國男足表態(tài):我說了我愿意( 圖) ============》經(jīng)濟(jì)

5 結(jié)論

本項(xiàng)目實(shí)現(xiàn)的是以標(biāo)題分類為核心的Python程序的一個(gè)簡單嘗試,本項(xiàng)目采用爬蟲獲取的新浪新聞的分類,利用機(jī)器學(xué)習(xí),深度學(xué)習(xí)的方法完成了標(biāo)題分類任務(wù),但模型還有待改進(jìn)。

參考文獻(xiàn)

篇5

Research on vegetables Disease Diagnosis Model Based on Fuzzy Neural Network

WEI Qing-feng,LUO Chang-shou,CAO Cheng-zhong,GUO Qiang

(Institute of Agriculture Science and Technology Information, Beijing Academy of Agriculture and Forestry Sciences, Beijing, 100097)

Abstract: To explore the effective method for the diagnosis of vegetables diseases, through reasonable division of symptoms, using input vector construction method which contained characteristics of symptoms and membership grade, a vegetables disease diagnosis of fuzzy neural network model was constructed. The experimental results showed that the input vector construction method had effectively expressed the disease diagnosis rule, the model had strong fault tolerant ability, and the average diagnostic accuracy was 85.5%.

Key words: fuzzy neural network; vegetable; disease; diagnosis

收稿日期:2013-01-30

基金項(xiàng)目:國家現(xiàn)代農(nóng)業(yè)科技城綜合信息“三農(nóng)”服務(wù)平臺(tái)建設(shè)項(xiàng)目(PT01);北京市自然科學(xué)基金項(xiàng)目(9093019);北京農(nóng)業(yè)科學(xué)院信息所

創(chuàng)新基金項(xiàng)目(SJJ201203)

作者簡介:魏清鳳(1983-),女,湖北武漢人,助理研究員,碩士,主要從事農(nóng)業(yè)信息技術(shù)的研究工作,(電話)13439026360(電子信箱)

;通訊作者,羅長壽,副研究員,(電話)010-51503387(電子信箱)。

病害是影響蔬菜優(yōu)質(zhì)生產(chǎn)的重要制約因素之一。我國農(nóng)村基層還相對(duì)缺乏有經(jīng)驗(yàn)的病害診斷專家,對(duì)蔬菜病害不能正確判斷,不但延誤了防治最佳時(shí)機(jī),還嚴(yán)重降低了蔬菜品質(zhì)。

當(dāng)前農(nóng)業(yè)病害診斷技術(shù)方法主要有圖像分析診斷[1-4]、專家系統(tǒng)診斷[5-7]以及人工神經(jīng)網(wǎng)絡(luò)診斷[8]等。基于圖像分析的病害診斷方法其圖像的獲取受環(huán)境光照的影響較大,且需要專業(yè)人員在室內(nèi)進(jìn)行數(shù)據(jù)分析和識(shí)別,時(shí)效性差,無法實(shí)時(shí)滿足具體生產(chǎn)實(shí)踐的要求?;趯<蚁到y(tǒng)的診斷方法,采用 IF-THEN產(chǎn)生式推理,存在診斷知識(shí)獲取有瓶頸、推理規(guī)則更新難、容錯(cuò)能力差、串行搜索運(yùn)行效率低等不足。近年基于人工神經(jīng)網(wǎng)絡(luò)的方法無需建立推理規(guī)則,具有自學(xué)習(xí)及并行處理能力,較引人注目,但存在對(duì)病害癥狀的典型性、非典型性模糊特點(diǎn)無法區(qū)分度量,樣本診斷規(guī)律學(xué)習(xí)不充分等問題。模糊神經(jīng)網(wǎng)絡(luò)可以將不確定的癥狀信息通過模糊隸屬集來表示,能解決診斷系統(tǒng)中的不確定性知識(shí)表示、并行推理等問題,對(duì)具有模糊性復(fù)雜性的蔬菜病害診斷非常適用。此文利用模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,在對(duì)病害特征模糊量化方法研究的基礎(chǔ)上,建立能夠?qū)嶋H應(yīng)用的蔬菜病害模糊神經(jīng)網(wǎng)絡(luò)診斷模型,為蔬菜病蟲害防治提供依據(jù)。

1 蔬菜病害診斷知識(shí)整理

一般研究中,將植株的發(fā)病部位劃分為根、莖、葉、花、果5個(gè)部分[9]。由于部分蔬菜病害(如猝倒病)在苗期即表現(xiàn)出典型癥狀,因此,為提高診斷的全面性和準(zhǔn)確性,將蔬菜植株發(fā)病表現(xiàn)最終劃分為根、莖蔓、葉、花、果、苗6個(gè)部分。表示如下:

S={Si | i=1,2,3,4,5,6}

式中,Si表示根、莖蔓、葉、花、果、苗6個(gè)部分中的1個(gè)。

以“北京農(nóng)業(yè)數(shù)字資源中心”中蔬菜病害數(shù)據(jù)庫的知識(shí)為基礎(chǔ),結(jié)合文獻(xiàn)資料、植保專家咨詢及案例分析,對(duì)病害特征知識(shí)根據(jù)根、莖蔓、葉、花、果、苗6個(gè)部分進(jìn)行分別提取,建立二維知識(shí)表。

2 病害癥狀重要性劃分及隸屬函數(shù)

不同癥狀對(duì)病害診斷的貢獻(xiàn)程度不同,一些特征明顯的癥狀表現(xiàn)往往是確定某種病害的重要依據(jù)。通常用模糊的自然語言來描述癥狀對(duì)于病害識(shí)別的重要程度,這里將其劃分為典型癥狀、主要癥狀、一般癥狀3個(gè)層次(表1)。

將癥狀重要性隸屬函數(shù)定義為模糊語言值,根據(jù)專家經(jīng)驗(yàn)法,確定不同層次的隸屬度如下:

L(Si)=1.0 Si∈a0.7 Si∈b0.4 Si∈c i={1,2,3,4,5,6}

L為Si的隸屬度,a、b、c為癥狀類型。

3 基于術(shù)語統(tǒng)一描述的病害癥狀向量構(gòu)建

一般方法中,直接利用診斷資料的原始文本,以癥狀表現(xiàn)部位為單元賦權(quán)值(或隸屬度)作為樣本分量構(gòu)建輸入向量[10],不僅存在向量攜帶信息量少、向量模長短不一、診斷規(guī)律體現(xiàn)不明顯等問題,還容易產(chǎn)生相同的樣本向量對(duì)應(yīng)不同病害種類的錯(cuò)誤情況,不能較好地對(duì)病害原因進(jìn)行區(qū)分,這也勢必影響到診斷的準(zhǔn)確性。對(duì)此,本方法將原始資料的自然語言樣本映射到共同語義空間中,統(tǒng)一利用病狀病癥的相關(guān)術(shù)語對(duì)癥狀資料的原始文本進(jìn)行描述,并根據(jù)術(shù)語的定義值以及癥狀重要性隸屬度來確定語義樣本的樣本值,從而構(gòu)建輸入向量,能有效豐富向量信息承載量,充分表達(dá)診斷規(guī)律,具體如下。

3.1 自然語言癥狀的術(shù)語映射

本環(huán)節(jié)即是對(duì)原始自然語言病害癥狀資料在共同語義空間中利用相關(guān)術(shù)語進(jìn)行統(tǒng)一描述。根據(jù)植物學(xué)知識(shí),感病植株的外觀病態(tài)表現(xiàn)可分為病狀和病征兩大類。共同語義空間的病害癥狀術(shù)語如表2所示。

根據(jù)病害癥狀表,癥狀的自然語言描述轉(zhuǎn)化為術(shù)語描述。如辣椒枯萎病莖蔓部自然語言癥狀={水浸狀腐爛,后全株枯萎,病部白色霉?fàn)钗飣,經(jīng)語義空間映射后,S2={濕腐,枯死,霉?fàn)钗飣,其樣本定義值D(S2)為{0,0,2,2,0,1}。

3.2 輸入向量的構(gòu)建

綜合樣本定義值和癥狀重要性隸屬度,形成具有癥狀特征和癥狀重要性信息的向量。為了降低輸入向量維度,對(duì)矩陣中同列均為0值的列進(jìn)行簡約,形成最終輸入向量矩陣。輸入向量表示為:

Xi={D(S1)×L(S1),D(S2)×L(S2),……,D(Si)×L(Si)}

其中,D(Si)為Si癥狀的樣本定義值,L(Si)為Si癥狀的重要性隸屬度。

4 蔬菜病害診斷模型建立

蔬菜病害診斷神經(jīng)網(wǎng)絡(luò)模型采用模糊BP神經(jīng)網(wǎng)絡(luò)構(gòu)建(圖1)。模糊系統(tǒng)和神經(jīng)網(wǎng)絡(luò)按串聯(lián)方式連接,用模糊系統(tǒng)對(duì)原始知識(shí)進(jìn)行前處理,用神經(jīng)網(wǎng)絡(luò)進(jìn)行病害診斷。

第一層為輸入層,其每一個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量,它將樣本定義值傳遞到模糊層。

第二層為模糊層,基于癥狀樣本定義值和癥狀隸屬度構(gòu)建輸入向量。

第三層為隱含層,實(shí)現(xiàn)輸入變量模糊值到輸出變量模糊值映射。隱含層節(jié)點(diǎn)數(shù)確定方法如下:

l=■+a 0

式中,l為隱含層神經(jīng)元個(gè)數(shù),n為輸入層神經(jīng)元個(gè)數(shù),m為輸出層神經(jīng)元個(gè)數(shù),a為取值0~10之間的常數(shù)。

第四層為輸出層,輸出向量采用“n中取1”的二進(jìn)制編碼法。其中n為編碼長度,即病害總數(shù)。每組編碼中僅有1位為1,其余n-1位為0,表示某一種病害。診斷過程中,最大向元值對(duì)應(yīng)著可疑病害。該最大值若接近0, 則表示發(fā)生相對(duì)應(yīng)病害的可能性很小;若接近1,則表明發(fā)生相對(duì)應(yīng)病害的可能性極大。

5 診斷測試分析

以番茄白絹病、番茄猝倒病、番茄根霉果腐病、番茄青枯病等19種病害為例,經(jīng)上文方法構(gòu)建20維輸入向量(部分輸入如表3),19維輸出向量(部分輸出向量如表4)。設(shè)隱層單元15個(gè),目標(biāo)誤差0.000 1,循環(huán)1 000次,采用Levenberg-Marquardt 算法進(jìn)行訓(xùn)練,并開發(fā)系統(tǒng)界面,對(duì)訓(xùn)練好的模型從診斷容錯(cuò)性和診斷準(zhǔn)確性兩個(gè)角度進(jìn)行分析。

5.1 模型診斷容錯(cuò)性測試

在實(shí)際應(yīng)用過程中,用戶提供的病害癥狀無法與樣本完全一致,病害典型癥狀被選的可能性最大,但部分主要癥狀和一般癥狀存在A-誤選(提供癥狀與樣本癥狀不一致)、B-多選(提供癥狀多于樣本癥狀)、C-少選(提供癥狀少于樣本癥狀)、A+B-多選及誤選、A+C-少選及誤選的情況,據(jù)此選取用戶5組具有代表性測試數(shù)據(jù)(表5),以番茄潰瘍病為例來檢驗(yàn)?zāi)P偷娜蒎e(cuò)性,輸出結(jié)果如表6。

樣本輸出向量中第17位為向元最大值,則表明該輸出結(jié)果為番茄潰瘍病。在5組具有代表性的用戶測試數(shù)據(jù)中,輸出向量的向元最大值始終在第17位,說明診斷模型具有較強(qiáng)的容錯(cuò)能力。同時(shí),當(dāng)用戶“誤選”、“多選”,以及“多選+誤選”時(shí),輸出向量第17位向元值分別為0.999 9、0.987 6、0.921 6,接近樣本模擬值1;當(dāng)用戶“少選”以及“少選+誤選”時(shí),輸出向量第17位向元值分別為0.778 6、0.594 6,較之其他組測試數(shù)據(jù),較遠(yuǎn)離樣本模擬值1,說明用戶提供的病害癥狀信息越多,進(jìn)行正確診斷的可能性越大。

5.2 模型診斷準(zhǔn)確性測試

將本研究與一般方法中直接利用癥狀權(quán)值作為輸入向量的一般神經(jīng)網(wǎng)絡(luò)診斷模型進(jìn)行準(zhǔn)確性比較。測試數(shù)據(jù)包括兩類,即實(shí)驗(yàn)室根據(jù)田間數(shù)據(jù)資料生成的數(shù)據(jù),以及涉農(nóng)用戶根據(jù)實(shí)際生產(chǎn)情況進(jìn)行癥狀選擇操作生成的數(shù)據(jù)。經(jīng)植保專家驗(yàn)證,獲得測試結(jié)果平均值見表7。

統(tǒng)計(jì)結(jié)果顯示,室內(nèi)室外測試中,基于模糊神經(jīng)網(wǎng)絡(luò)的診斷方法較一般神經(jīng)網(wǎng)絡(luò)在正確率方面均有所提高,說明本研究的思路方案是有效的。其中,實(shí)驗(yàn)室所利用的田間數(shù)據(jù)資料測試結(jié)果好于農(nóng)戶實(shí)際應(yīng)用。其原因在于,實(shí)驗(yàn)室所使用的田間數(shù)據(jù)資料較接近文獻(xiàn)資料中的診斷知識(shí),且基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害模型具有較好的容錯(cuò)性,因此診斷正確率較高。外部基層農(nóng)戶則完全按照自己在生產(chǎn)中見到的癥狀表現(xiàn)進(jìn)行選擇操作而形成測試數(shù)據(jù),更為真實(shí)地反映了模型的實(shí)際應(yīng)用情況。由于實(shí)際生產(chǎn)中存在多個(gè)病害夾雜同時(shí)表現(xiàn)的復(fù)雜情況,這一定程度上影響了診斷正確率,因此也說明在該方面努力能進(jìn)一步提高模型的實(shí)用性。

6 小結(jié)

利用基于術(shù)語統(tǒng)一描述的病害癥狀量化方法,能構(gòu)建既能描述癥狀特征又能反映癥狀重要性的輸入向量,更能有效地體現(xiàn)病害診斷規(guī)律。經(jīng)過誤選、多選、少選、多選+誤選、少選+誤選的5組測試中,診斷結(jié)果仍然能指向正確的病害,模型容錯(cuò)推理能力較強(qiáng)。將模糊數(shù)學(xué)方法引入神經(jīng)網(wǎng)絡(luò)中,結(jié)合基于術(shù)語統(tǒng)一描述的病害癥狀量化方法,建立基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害診斷模型,較之一般基于神經(jīng)網(wǎng)絡(luò)的病害模型,診斷準(zhǔn)確性得到了有效提高。

由于農(nóng)業(yè)生產(chǎn)中病害作用的復(fù)雜性,今后將在多個(gè)病害同時(shí)作用的診斷方面進(jìn)一步努力探索,以提高模型的生產(chǎn)實(shí)用性。同時(shí),隨著移動(dòng)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及移動(dòng)設(shè)備終端的日益普及,將進(jìn)行蔬菜病害診斷系統(tǒng)的研究,以期為蔬菜病蟲害防治咨詢提供更加便捷、靈活、有效的服務(wù)。

參考文獻(xiàn):

[1] LAI J C, MING B, LI S K, et al. An image-based diagnostic expert system for corn diseases[J]. Agricultural Sciences in China,2010(8):1221-1229.

[2] 李 旺,唐少先.基于圖像處理的農(nóng)作物病害識(shí)別研究現(xiàn)狀[J].湖南農(nóng)機(jī)(學(xué)術(shù)版),2012,39(1):176-178.

[3] 劉連忠,張 武,朱 誠. 基于改進(jìn)顏色特征的小麥病害圖像識(shí)別技術(shù)研究[J]. 安徽農(nóng)業(yè)科學(xué),2010,40(26):12877-12879.

[4] 鄒修國. 基于計(jì)算機(jī)視覺的農(nóng)作物病蟲害識(shí)別研究現(xiàn)狀[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(6):238-242.

[5] MANSINGH G, REICHGELT H, BRYSON K O. CPEST: An expert system for the management of pests and diseases in the Jamaican coffee industry[J]. Expert Systems with Applications,2007,32(1):184-192.

[6] 林 瀟,李紹穩(wěn),張友華,等.基于本體的水稻病害診斷專家系統(tǒng)研究[J].數(shù)字技術(shù)與應(yīng)用,2010(11):109-111.

[7] GHOSH I, SAMANTA R K. Teapest:An expert system for insect pest management in tea[J].Applied Engineering in Agriculture,2003,19(5):619-625.

篇6

MSTN基因的研究進(jìn)展及其應(yīng)用

制備條件對(duì)Ru/ZrO_2·xH_2O催化酯加氫制備醇活性的影響

微波萃取法制備桔梗總皂苷

基于DSP的紅外成像電力在線檢測系統(tǒng)的研究

LBG與SOFM應(yīng)用于矢量量化的比較研究

超寬帶高功率脈沖輻射源氣體開關(guān)的研究

高壓直流牽引供電網(wǎng)的初步研究

智能醫(yī)用超聲波霧化器的設(shè)計(jì)

基于Wincc的炭黑裝置監(jiān)控系統(tǒng)

定點(diǎn)CORDIC算法的誤差控制

基于各向異性擴(kuò)散的多細(xì)節(jié)圖像消噪方案

基于S7-300和ACS800的橋式起重機(jī)控制系統(tǒng)改造

LiH薄膜制備技術(shù)進(jìn)展

拉普拉斯方程有限差分法的MATLAB實(shí)現(xiàn)

關(guān)于不定方程組y~2-10x~2=9,z~2-17x~2=16

關(guān)于不定方程x~2+49~n=y~3的唯一整數(shù)解

基于非單調(diào)線搜索的無記憶擬牛頓法的全局收斂性

不動(dòng)點(diǎn)、壓縮映射原理的進(jìn)一步研究

弱橫向擾動(dòng)下的熱塵埃等離子體中的塵埃聲孤波

時(shí)間域上拋物型方程正反演解的穩(wěn)定性分析

Frattini子群的一些推廣

不動(dòng)點(diǎn)定理在微分方程中的應(yīng)用

超空間F_1(X)的可縮性

熱傳導(dǎo)方程反問題的數(shù)值解法

一類時(shí)滯廣義系統(tǒng)的魯棒控制

距離矢量路由算法的改進(jìn)方案

基于JSP的電子郵件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

基于web的自適應(yīng)學(xué)習(xí)系統(tǒng)的研究與設(shè)計(jì)

一種改進(jìn)的基于分布式Caching的自適應(yīng)搜索機(jī)制

Linux下嵌入式動(dòng)態(tài)Web技術(shù)設(shè)計(jì)實(shí)現(xiàn)

基于窗函數(shù)的FIR濾波器的設(shè)計(jì)

力學(xué)試題庫管理系統(tǒng)的開發(fā)

單片機(jī)C51與匯編語言混合調(diào)用的實(shí)現(xiàn)

基于P2P覆蓋樹網(wǎng)絡(luò)的流媒體傳輸技術(shù)

數(shù)字校園信息顯示系統(tǒng)建設(shè)方案研究溫度對(duì)長鏈α-烯烴溶液聚合法合成原油減阻劑的影響

β-環(huán)糊精與常用的兩種光譜探針包絡(luò)作用對(duì)比研究

微波技術(shù)在竹漿漂白中的應(yīng)用

基于蟻群尋路的圖像分割算法

公交車自動(dòng)報(bào)站系統(tǒng)的設(shè)計(jì)

基于遺傳BP神經(jīng)網(wǎng)絡(luò)的非平穩(wěn)時(shí)間序列預(yù)

基于BP算法的神經(jīng)網(wǎng)絡(luò)內(nèi)??刂破?/p>

基于51單片機(jī)的可變調(diào)音樂演奏系統(tǒng)

基于神經(jīng)網(wǎng)絡(luò)對(duì)光纖智能結(jié)構(gòu)的損傷評(píng)估

基于改進(jìn)互信息的特征提取的文本分類系統(tǒng)

CTIA型讀出電路的噪聲抑制

離心流化床的基本原理及發(fā)展趨勢

電驅(qū)微差6R關(guān)節(jié)型開鏈機(jī)械手工作空間運(yùn)動(dòng)學(xué)逆解

焦磷酸鹽鍍銅工藝研究

篇7

1.1 流程分析 

本文需求并不要求更智能化的識(shí)別方式,而是通過語義分析法,通過對(duì)特殊關(guān)鍵詞和關(guān)鍵詞組合的方式進(jìn)行識(shí)別得到文本分類結(jié)果。本文的研究內(nèi)容主要用于識(shí)別和分析500字符之內(nèi)的自然文本。這部分自然文本主要應(yīng)用在對(duì)網(wǎng)絡(luò)頁面文本進(jìn)行分析,同時(shí)用于對(duì)捕捉到的超文本標(biāo)識(shí)代碼進(jìn)行內(nèi)容文本和代碼段的識(shí)別,業(yè)務(wù)流程圖如圖1所示。 

1.2 模塊分析 

傳統(tǒng)語義分析算法來自人工輸入的特定文本之間的判斷,一般語義分析算法只能識(shí)別80~120個(gè)關(guān)鍵詞[5]。但此種規(guī)模的識(shí)別字典完全不能適應(yīng)本文要求對(duì)自然文本的識(shí)別,所以本文采用三層識(shí)別方法見圖2。 

P1.1:根據(jù)固定關(guān)鍵詞,識(shí)別超文本標(biāo)識(shí)語言中的標(biāo)識(shí)段數(shù)據(jù),并將其剔除。 

P1.2:根據(jù)自學(xué)習(xí)關(guān)鍵詞,識(shí)別自然文本中的關(guān)鍵詞,根據(jù)詞頻和關(guān)聯(lián)度進(jìn)行價(jià)值估計(jì)。 

P1.3:根據(jù)自學(xué)習(xí)關(guān)鍵詞,識(shí)別自然文本的含義,評(píng)估不同文本段之間的相似度,對(duì)文本段進(jìn)行歸納整理。 

而本軟件的自學(xué)習(xí)部分(P2)不從傳統(tǒng)的人工智能算法中得到關(guān)鍵詞字典,而是采用語義分析中常用的聯(lián)系算法進(jìn)行關(guān)鍵詞管理[6]。自學(xué)習(xí)部分放在云端服務(wù)器上,自學(xué)習(xí)結(jié)果采用軟件更新的方式發(fā)送到客戶端。自學(xué)習(xí)產(chǎn)生的流量來自服務(wù)器與互聯(lián)網(wǎng)之間的聯(lián)系,并不占用GPRS通道。 

軟件的移動(dòng)端部分(P3)通過相對(duì)固定的關(guān)鍵詞字典集合,根據(jù)實(shí)際分析得到的數(shù)據(jù)匹配結(jié)果進(jìn)行遠(yuǎn)端比較,但大部分?jǐn)?shù)據(jù)需要提交到P1模塊進(jìn)行局端比較。在移動(dòng)端形成比較字符串后,可以較大程度地實(shí)現(xiàn)GPRS鏈路的數(shù)據(jù)最小化。 

1.3 數(shù)據(jù)流分析 

P1模塊輸入數(shù)據(jù)D1.1為P1.1的關(guān)鍵詞字典數(shù)據(jù),該數(shù)據(jù)以數(shù)據(jù)庫表的形式保存在數(shù)據(jù)庫中,形成表dataPinSOL。該數(shù)據(jù)主要用于輔助識(shí)別字段中的無信息量字符串,如超文本標(biāo)識(shí)語言中的標(biāo)識(shí)字符串等。 

P1模塊輸入數(shù)據(jù)D1.2為P1.2的關(guān)鍵詞字典數(shù)據(jù),該字典數(shù)據(jù)來自自然文本中經(jīng)常出現(xiàn)的字符串,以及用戶易搜索的字符串。這部分字符串來自對(duì)海量信息的比較,海量信息來自互聯(lián)網(wǎng)遍歷捕捉文本和搜索引擎的采集文本。 

P1模塊輸入數(shù)據(jù)D1.3為P1.3的關(guān)鍵詞字典數(shù)據(jù),該字典數(shù)據(jù)來自對(duì)D1.2數(shù)據(jù)進(jìn)行進(jìn)一步挖掘得到的與D1.2數(shù)據(jù)經(jīng)常合并出現(xiàn)的字典數(shù)據(jù)。這部分字典數(shù)據(jù)同樣來自語義分析的分析法。 

因?yàn)楸疚乃惴ú徊捎脽o限遞歸法[7],而是采用了三層計(jì)算的架構(gòu),而將語義分析段代碼用于多層不限制遞歸。所以P1模塊的數(shù)據(jù)流相對(duì)簡單。P1模塊的輸出數(shù)據(jù)流為DL1,定義為比較結(jié)果字符串。該字符串作為搜索引擎對(duì)語義識(shí)別的結(jié)果字符串,不具備人腦識(shí)別的功能,但可以在計(jì)算機(jī)論文中給自然語言提供鏡像,可以讓較為模糊的自然語言在計(jì)算機(jī)中得到識(shí)別和模糊對(duì)比。 

P2有兩個(gè)輸入量,P2.1來自合作搜索引擎的搜索字符串?dāng)?shù)據(jù),該數(shù)據(jù)運(yùn)行在光纖數(shù)據(jù)干線上,數(shù)據(jù)量較大,不會(huì)在GPRS鏈路中出現(xiàn)。此部分合作搜索引擎的數(shù)據(jù)采集內(nèi)容主要包括搜索字符串,搜索時(shí)間,發(fā)生IP,發(fā)生IP地域,捆綁賬號(hào)等。P2.2來自網(wǎng)絡(luò)隨機(jī)遍歷采集的各種超文本,這些超文本數(shù)據(jù)采用單字段采集和多關(guān)鍵詞分析的方式進(jìn)行挖掘,所以數(shù)據(jù)結(jié)構(gòu)較為簡單。 

2 算法設(shè)計(jì) 

因?yàn)槠拗疲疚膬H討論和展示部分核心代碼和算法的設(shè)計(jì),較復(fù)雜的算法過程不再給出偽碼。P1.1是超文本對(duì)比算法,超文本對(duì)比算法使用了最經(jīng)典的語義分析算法。而P1.2和P1.3采用的算法是在經(jīng)典的語義分析算法的基礎(chǔ)上做的擴(kuò)增[8],這部分?jǐn)U增可以讓語義分析算法更加適用于自然語言下的文本分類。 

本文算法的最主要成果是使用最小的CPU和RAM資源,對(duì)自然語言文本進(jìn)行比較,從而獲得更高效的適應(yīng)當(dāng)前互聯(lián)網(wǎng)云服務(wù)市場的軟件[9]。 

2.1 超文本對(duì)比函數(shù)算法(P1.1局部) 

讀字典數(shù)據(jù)表,做對(duì)比循環(huán)函數(shù)。 

對(duì)比循環(huán)函數(shù)偽碼如下: 

OPEN TABLE DICT 

DO WHILE DICT NOT EOF 

GET DIG_DICT RECORDSET FORM DICT 

OPEN TEXTFILE 

GET L_DIG_DICT LENTH DIG_DICT 

FOR I 0 TO LENTH TEXTFILE 

GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT

GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE 

NEXT I 

LOOP 

RETURN SUMSHOW 

2.2 數(shù)據(jù)邏輯網(wǎng)絡(luò)的實(shí)現(xiàn)(P1.2局部) 

數(shù)據(jù)邏輯網(wǎng)絡(luò)主要是在數(shù)據(jù)庫中使用數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)的邏輯網(wǎng)絡(luò),每個(gè)數(shù)據(jù)都有若干個(gè)上級(jí)數(shù)據(jù)和若干個(gè)下級(jí)數(shù)據(jù)[10]。每個(gè)單個(gè)數(shù)據(jù)一般不超過15個(gè)漢字(32字符)。上級(jí)數(shù)據(jù)和下級(jí)數(shù)據(jù)使用專用字段存儲(chǔ),每個(gè)字段使用二維數(shù)組的方式進(jìn)行管理。二維數(shù)組包括目標(biāo)字符串(32字符),響應(yīng)頻率,最后響應(yīng)時(shí)間3項(xiàng)。 

為了充分調(diào)動(dòng)數(shù)據(jù)邏輯網(wǎng)絡(luò),采用了全新的遍歷算法,對(duì)每個(gè)記錄下的兩個(gè)二維數(shù)組字段進(jìn)行分別遍歷,以對(duì)文章內(nèi)容進(jìn)行逐一比較和計(jì)算。在比較中同時(shí)記錄其他詞語的詞頻,進(jìn)一步對(duì)兩個(gè)二維數(shù)組字段進(jìn)行維護(hù)和更新。因?yàn)槠拗疲辉诒疚哪P拖逻M(jìn)行設(shè)計(jì)分析。 

2.3 文本相似度評(píng)估算法(P1.3局部) 

本文采用的文本相似度評(píng)估算法分為兩段: 

第一段對(duì)輸入文本進(jìn)行比較評(píng)估,對(duì)字典中每個(gè)關(guān)鍵詞進(jìn)行詞頻分析,同時(shí)對(duì)關(guān)鍵詞出現(xiàn)的位置進(jìn)行[t]檢驗(yàn)和[χ2]檢驗(yàn),將結(jié)果使用Minmax處理為(0,1)值域。將每個(gè)處理結(jié)果進(jìn)行匯總制表。與此同時(shí),將輸入文本與每個(gè)關(guān)鍵詞的關(guān)聯(lián)詞進(jìn)行詞頻分析,同時(shí)對(duì)關(guān)鍵詞的關(guān)聯(lián)詞位置進(jìn)行[t]檢驗(yàn)和[χ2]檢驗(yàn),將結(jié)果同樣使用Minmax處理為(0,1)值域。Minmax結(jié)果設(shè)計(jì)為小數(shù)點(diǎn)后12位小數(shù)。將每個(gè)處理結(jié)果進(jìn)行匯總制表。 

第二段將第一段中形成的兩個(gè)數(shù)據(jù)表與系統(tǒng)中存儲(chǔ)的數(shù)據(jù)表進(jìn)行[t]檢驗(yàn)和[χ2]檢驗(yàn),獲取檢驗(yàn)結(jié)果的[P]值。當(dāng)[P<]0.05時(shí),認(rèn)為兩篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法經(jīng)過檢驗(yàn),完全相同的兩篇自然語言文章輸入系統(tǒng)后,兩篇文章的[P]值接近于0,表示本文算法擁有較高的識(shí)別性。 

3 結(jié) 語 

本文就基于語義分析在計(jì)算機(jī)技術(shù)文本分類中的應(yīng)用進(jìn)行了軟件工程分析和設(shè)計(jì),在面向?qū)ο蟮脑O(shè)計(jì)模型中,本文實(shí)現(xiàn)了不使用任何神經(jīng)網(wǎng)絡(luò)遞歸算法就可以得到高效率的軟件系統(tǒng)。這個(gè)算法系統(tǒng)可以在移動(dòng)互聯(lián)網(wǎng)設(shè)備中得到較廣泛的應(yīng)用。 

篇8

篇9

中圖分類號(hào):TP319

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011013403

0 引言

中國是世界上最大的煙草生產(chǎn)國和消費(fèi)國[1]。煙草銷售是煙草行業(yè)管理中最為關(guān)鍵的部分,準(zhǔn)確的煙草銷售預(yù)測能為煙草生產(chǎn)、運(yùn)輸、配送提供指導(dǎo),而要進(jìn)行準(zhǔn)確的煙草銷售預(yù)測必須找到合適的預(yù)測方法。因此,如何設(shè)計(jì)高精度的煙草銷售預(yù)測方法是煙草行業(yè)管理的重要課題。

傳統(tǒng)煙草銷售量預(yù)測方法的研究主要集中在對(duì)煙草零售經(jīng)營者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經(jīng)理及員工的意見)等為主的人工預(yù)測方法[2]。這種人工預(yù)測方法業(yè)務(wù)流程較多,浪費(fèi)大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場需求。從機(jī)器學(xué)習(xí)的角度上看,煙草銷售量的預(yù)測屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻(xiàn)[4]在對(duì)煙草銷售量數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,提出了一種線性預(yù)測模型,但由于煙草銷售量受季節(jié)、人口、市場、節(jié)假日等一系列因素的共同影響,并不適合采用線性回歸方法進(jìn)行預(yù)測。在非線性回歸方法中,較為常用的有神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)。文獻(xiàn)[5]基于BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量進(jìn)行建模并預(yù)測,而神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,不僅泛化能力較差,而且存在局部極小點(diǎn)問題[6],因此神經(jīng)網(wǎng)絡(luò)雖然對(duì)原始數(shù)據(jù)的擬合能力較強(qiáng),但對(duì)未來數(shù)據(jù)的推廣能力較差,而對(duì)未來數(shù)據(jù)的推廣能力往往更能反映學(xué)習(xí)機(jī)器的實(shí)用價(jià)值。支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,泛化能力強(qiáng)且預(yù)測精度高。因此,本文采用支持向量機(jī)方法對(duì)煙草銷售量進(jìn)行建模預(yù)測。

1 支持向量回歸機(jī)

2 預(yù)測方法

2.1 數(shù)據(jù)預(yù)處理

本文收集到了云煙品牌一個(gè)品類2006年1月~2011年10月共6年的銷售數(shù)據(jù),銷售數(shù)據(jù)信息中包括銷售量、銷售日期(年月日)、倉庫編號(hào)、發(fā)票信息、審核人信息等,其中對(duì)銷售量預(yù)測影響最大的是銷售日期及對(duì)應(yīng)的銷售量。由于中國的香煙銷售對(duì)陰歷呈現(xiàn)出更強(qiáng)的規(guī)律性,因此將銷售統(tǒng)計(jì)數(shù)據(jù)轉(zhuǎn)換為以陰歷月為標(biāo)準(zhǔn)。

2.2 數(shù)據(jù)歸一化處理

由表1可以看出,各列數(shù)據(jù)屬性不同,數(shù)值范圍相差較大。為避免數(shù)值范圍較大的屬性控制數(shù)值范圍較小的屬性,使數(shù)據(jù)具有統(tǒng)一性和可比性,將屬性值都?xì)w一化[10]為[0,1]之間。歸一化所用公式為:

2.3 模型定階

由于煙草銷售量預(yù)測屬于經(jīng)濟(jì)預(yù)測,因此它不僅與當(dāng)前日期有關(guān),更與之前的銷售信息有關(guān)。為確定當(dāng)前銷售量與前多少個(gè)月的銷售信息關(guān)系最大,需要通過拓階[11]的方法來確定。

設(shè)煙草銷售量數(shù)據(jù)的一個(gè)樣本為{yi,yeari,monthi},yi為第i個(gè)樣本中的煙草銷售量,yeari為當(dāng)前年份,monthi為當(dāng)前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準(zhǔn)確地得到自變量和因變量的函數(shù)依賴關(guān)系。當(dāng)階數(shù)為n時(shí),表示將前n個(gè)樣本中的信息添加到當(dāng)前樣本中的自變量中。即用前n個(gè)月的銷售信息和當(dāng)前年月來預(yù)測當(dāng)前銷售量。此時(shí),自變量總數(shù)為(3×n+2),其中n為階數(shù)。通過SVM由低階到高階逐步進(jìn)行拓階,模型每拓一階,自變量相應(yīng)地增加 3個(gè)。對(duì)于每一次的拓階,以MSE最小為標(biāo)準(zhǔn)決定是否接受拓階。設(shè)SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進(jìn)行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優(yōu)階數(shù)n。通過對(duì)煙草數(shù)據(jù)的拓階,得到拓階結(jié)果如圖2所示。

2.4 回歸模型的參數(shù)選擇

當(dāng)訓(xùn)練模型確定后,通過支持向量回歸機(jī)進(jìn)行預(yù)測。由于徑向基核函數(shù)的準(zhǔn)確率較高,并且大多數(shù)SVM默認(rèn)的核函數(shù)也是徑向基核函數(shù)[12],本文亦采用徑向基核函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

以云煙數(shù)據(jù)集為例,選擇2006年1月-2010年12月的銷售量數(shù)據(jù)為訓(xùn)練樣本,以2011年1-10月的銷售量數(shù)據(jù)為測試樣本。在本文算法實(shí)現(xiàn)過程中,實(shí)驗(yàn)環(huán)境配置如表2所示。

4 結(jié)語

通過預(yù)測煙草銷售量可以提前了解煙草的銷售動(dòng)態(tài),為煙草物流、倉儲(chǔ)等部門提供決策依據(jù)。本文基于支持向量機(jī)建立煙草銷售預(yù)測的多維時(shí)間序列模型。實(shí)驗(yàn)證明,根據(jù)本文方法建立的模型所預(yù)測的結(jié)果與實(shí)際結(jié)果基本一致,能夠比較準(zhǔn)確地反映煙草銷售量的變化趨勢。對(duì)比實(shí)驗(yàn)也證明,與其它幾種方法相比,本文方法預(yù)測誤差最小。綜上,本文所述方法是合理有效的,可以應(yīng)用到實(shí)際煙草銷售量預(yù)測中。

參考文獻(xiàn):

[1] 蔣德B.我國煙草業(yè)國際化戰(zhàn)略研究[J].北方經(jīng)濟(jì),2012(14):9495.

[2] 利普?科特勒,洪瑞云,梁紹明,等.市場營銷管理 [M].亞洲版?2版.北京:中國人民大學(xué)出版社,2001.

[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計(jì)算機(jī)應(yīng)用,2012,32(9):25042507.

[4] 張素平.基于乘法模型的內(nèi)蒙古烏蘭察布市卷煙總銷量預(yù)測研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2012(21):3335.

[5] 仲東亭,張h.BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量預(yù)測方法的改進(jìn)研究[J].工業(yè)技術(shù)經(jīng)濟(jì),2007,26(9):115118.

[6] 劉蘇蘇,孫立民.支持向量機(jī)與RBF神經(jīng)網(wǎng)絡(luò)回歸性能比較研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(12):42024205.

[7] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘的新方法――支持向量機(jī)[M].北京:科學(xué)出版社,2004

[8] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報(bào),2008,43(3):297303.

[9] 單黎黎,張宏軍,張睿,等.基于主導(dǎo)因子法的裝備維修保障人員調(diào)度值預(yù)測[J].計(jì)算機(jī)應(yīng)用,2012,32(8):23642368.

[10] 彭麗芳,孟志青,姜華,等.基于時(shí)間序列的支持向量機(jī)在股票預(yù)測中的應(yīng)用[J].計(jì)算技術(shù)與自動(dòng)化,2006,25(3):8891.

[11] 向昌盛,周子英.基于支持向量機(jī)的害蟲多維時(shí)間序列預(yù)測[J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):36943697.

[12] 譚征,孫紅霞,王立宏,等.中文評(píng)教文本分類模型的研究[J].煙臺(tái)大學(xué)學(xué)報(bào):自然科學(xué)與工程版,2012,25(2):122126.

[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.

[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.

篇10

自動(dòng)找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時(shí)發(fā)出帶有具體地點(diǎn)方位信息的警報(bào)。

自動(dòng)判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險(xiǎn),幫助工作人員引導(dǎo)和管理人流。

醫(yī)療

對(duì)醫(yī)學(xué)影像進(jìn)行自動(dòng)分析的技術(shù)。這些技術(shù)可以自動(dòng)找到醫(yī)學(xué)影像中的重點(diǎn)部位,并進(jìn)行對(duì)比比分析。

通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)

為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對(duì)問題的意義進(jìn)行分析(比如客戶是詢問價(jià)格呢還是咨詢產(chǎn)品的功能呢),進(jìn)行準(zhǔn)確得體并且個(gè)性化的回應(yīng)。

自動(dòng)駕駛

現(xiàn)在的自動(dòng)駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對(duì)行駛環(huán)境進(jìn)行實(shí)時(shí)感知。智能駕駛系統(tǒng)可以對(duì)多種感知信號(hào)進(jìn)行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實(shí)時(shí)規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運(yùn)行。

工業(yè)制造

幫助工廠自動(dòng)檢測出形態(tài)各異的缺陷

3. 概念什么是人工智能?

人工智能是通過機(jī)器來模擬人類認(rèn)知能力的技術(shù)。

人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會(huì)一一介紹。

二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征

花瓣數(shù)量、顏色

人工設(shè)計(jì)特征

先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值

深度學(xué)習(xí)特征

這里先不提及,文章后面會(huì)說

2. 感知器

老師給了一道題:

要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?

怎么辦呢?我可是學(xué)渣啊,靠蒙!

隨便找三個(gè)數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,

每朵花的兩個(gè)特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時(shí) y[實(shí)際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實(shí)際] – y[預(yù)測] = 0.

重復(fù)以上兩步,得出所有的『實(shí)際值和預(yù)測值的差距的綜合,記為 Loss1

可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜??!繼續(xù)懵!像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的?。┫陆档姆较蚶^續(xù)猜數(shù)字,具體過程大概是這樣子的:

上述所屬的實(shí)際值和預(yù)測值的差距 實(shí)際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點(diǎn)間直線距離公式,余弦相似度公式等等可以計(jì)算預(yù)測結(jié)果和實(shí)際結(jié)果之間的差距。

劃重點(diǎn):損失函數(shù)就是現(xiàn)實(shí)和理想的差距(很殘酷)

3. 支持向量機(jī)

*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)

直觀的說,縫隙(上圖的分類間隔)越大越好

4. 多分類

如果有多種花怎么辦?

一趟植物課上,老師請(qǐng)來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個(gè)專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。

老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。

小明:這老師是不是傻,一朵花是啥都不知道,還要請(qǐng)三個(gè)專家

老師:你給我滾出去

實(shí)際計(jì)算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對(duì)應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個(gè)表格就懂了:

5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實(shí)際值的差別判斷”是否猜對(duì)了”,是因?yàn)樯锢蠋煾嬖V了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。

那該怎么辦呢?

機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。

這里我們換個(gè)場景:

假如你是某直播老板,要找一堆小主播,這時(shí)候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?

這時(shí)候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:

這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。

用某種計(jì)算方式(比如平均值)找到這個(gè)聚類的中心。點(diǎn)離聚類中心越近,代表越相似。

求出每個(gè)聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離

如果一個(gè)點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。

這時(shí)因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時(shí)候你需要以 步驟3 的方法重新計(jì)算聚類的中心

重復(fù)步驟 4 (算點(diǎn)中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個(gè)過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。

至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:

計(jì)算機(jī)在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個(gè)到平臺(tái)看看誰更能干。效果更好的,以后就以那個(gè)聚類的樣本特征擴(kuò)充更多能干的主播。

小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干

老師:你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個(gè)直觀的了解:

三、這是什么物品(圖像識(shí)別)1. 特征提取人類感官特征

花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機(jī)和小鳥)

感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征

人工設(shè)計(jì)特征

深度學(xué)習(xí)特征

通過卷積提取圖像特征

劃重點(diǎn):卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。

1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2維卷積 1*2+3*0+2*4+4*2=28…

通過卷積就可以得到圖像的特征信息,比如邊緣

垂直邊緣檢測

水平邊緣檢測

方向梯度直方圖

2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?

區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計(jì)特征的步驟,交由卷積操作去自動(dòng)提取,分類器的訓(xùn)練也同時(shí)融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端對(duì)端的學(xué)習(xí)

劃重點(diǎn):端對(duì)端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價(jià)。

3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會(huì)提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:

過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時(shí)候,如果試題是考生背過的,那么考生就能答對(duì);如果沒背過那么考生就不會(huì)回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。

與之對(duì)應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對(duì)30%。那么就可以說這種人~~欠揍~~欠擬合。

有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵(lì)志的一個(gè)公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個(gè)碗頂部放下一個(gè)小球,在底部徘徊的速度會(huì)越來越慢)

非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因?yàn)樘荻龋ㄐ甭剩榱?。在局部最低停止而不是全局最低停止,學(xué)習(xí)到的模型就不夠準(zhǔn)確了。

看圖感受一下

你說的底不是底,你說的頂是什么頂

解決的辦法

均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。

4. 應(yīng)用人臉識(shí)別

自動(dòng)駕駛把汽車頂部拍攝到的圖片切分層一個(gè)個(gè)小方塊,每個(gè)小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識(shí)別各種交通標(biāo)識(shí)等等。再配合雷達(dá)等判斷物體距離。

四、這是什么歌(語音識(shí)別)1. 特征提取人類感官特征音量、音調(diào)、音色

通過采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號(hào))

人工設(shè)計(jì)特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對(duì)低頻聲音比較敏感而對(duì)高頻聲音不敏感)。

關(guān)系為:

在每一個(gè)頻率區(qū)間對(duì)頻譜求均值,它代表了每個(gè)頻率范圍內(nèi)聲音能量的大小。一共有26個(gè)頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)

深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進(jìn)行特征提取

2. 應(yīng)用音樂風(fēng)格分類

輸入:音頻文件特征:聲音特征輸出:音樂種類

語音轉(zhuǎn)文字

輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個(gè)英文字母)

再把聲學(xué)模型送入另外的學(xué)習(xí)器

輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點(diǎn),如何讓計(jì)算機(jī)輸出通順的語句)

聽歌識(shí)曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個(gè)特征向量。對(duì)數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計(jì)算相似度(兩個(gè)向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來算)

五、視頻里的人在做什么(視頻理解,動(dòng)作識(shí)別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因?yàn)槿艘曈X的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時(shí),光信號(hào)傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識(shí)別視頻里面有什么物體,可以用上文說過的圖像識(shí)別和分類方法去實(shí)時(shí)分析單幀圖像,比如:

但是視頻相對(duì)于圖像有一個(gè)更重要的屬性:動(dòng)作(行為)。

怎么從一個(gè)連續(xù)的視頻分析動(dòng)作呢?

舉個(gè)例子,像上圖那只二哈,腿部的像素點(diǎn)相對(duì)于黃色的方框(框和狗相對(duì)靜止)在左右”移動(dòng)”,這里的”移動(dòng)”我們引入一個(gè)概念——光流(一個(gè)像素點(diǎn)從一個(gè)位置移動(dòng)到另一個(gè)位置),通過像素點(diǎn)移動(dòng)形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機(jī)器就可以擬合得出一個(gè) Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。

2. 光流假設(shè),1)相鄰兩幀中物體運(yùn)動(dòng)很小2)相鄰兩幀中物體顏色基本不變

至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個(gè)像素點(diǎn)的,這里不展開說明。

第 t 時(shí)刻的點(diǎn)指向第 t+1 時(shí)刻該點(diǎn)的位置,就是該點(diǎn)的光流,是一個(gè)二維的向量。

整個(gè)畫面的光流就是這樣:

整個(gè)視頻的光流(軌跡)是這樣的

不同的虛線代表圖像上某個(gè)點(diǎn)移動(dòng)的軌跡

假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。

進(jìn)一步優(yōu)化,可以把光流簡化為8個(gè)方向上的,把視頻某一幀的所有光流累加到這八個(gè)方向上得出某一幀的光流直方圖,進(jìn)一步得出 8 維的特征向量。

六、一段文字在表達(dá)什么(自然語言處理)1. 特征提取

這里有4個(gè)句子,首先進(jìn)行分詞:

去掉停用詞(副詞、介詞、標(biāo)點(diǎn)符合等等,一般在文本處理上都有一個(gè)停用詞表)

編碼詞表

句子向量化

這樣就得到一個(gè)句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。

2. 進(jìn)階詞向量化厲害-牛逼、計(jì)算機(jī)-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個(gè)完全不一樣的詞語,但其實(shí)他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢?需要從多個(gè)維度去進(jìn)一步給詞語更豐富的內(nèi)涵,比如:

舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個(gè)維度擴(kuò)展之后,就得到“男人”這個(gè)詞的特征向量(1,0, 0.5,0,1)

逆向文檔頻率一個(gè)詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個(gè)次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。

假設(shè)句子中有 N 個(gè)詞, 某個(gè)詞出現(xiàn)次數(shù)為 T,一共有 X 個(gè)句子,該詞語在 W 個(gè)句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

3. 應(yīng)用

七、讓計(jì)算機(jī)畫畫(生成對(duì)抗網(wǎng)絡(luò))從前有個(gè)人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:

第一次他畫成這樣子了:

鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…

經(jīng)過了10萬次”畫畫-鑒別”的過程,這個(gè)臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價(jià)買入了這副畫。

這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對(duì)抗網(wǎng)絡(luò)(GAN)的核心。

通過生成器,把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實(shí)畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會(huì)了畫『真畫了。

計(jì)算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫面的呢?我們通過一個(gè)簡化的例子來看看。

直線上一些均勻分布的點(diǎn),經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫面,經(jīng)過某個(gè)f(x) 變換后就會(huì)變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。

下圖為計(jì)算機(jī)生成手寫數(shù)字的過程

劃重點(diǎn):函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)

八AlphaGo是怎么下棋的?(強(qiáng)化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強(qiáng)化學(xué)習(xí):多次任務(wù)是否達(dá)成最終目標(biāo)

每一次任務(wù)都準(zhǔn)確,不就是能達(dá)成最終目標(biāo)嗎?我們來看一個(gè)例子:

一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機(jī),其中一個(gè)銷售員查爾斯弄到了一個(gè)可以獲利的大單,但是之后公司因?yàn)楣?yīng)緊缺無法交付這些收音機(jī)。

應(yīng)該責(zé)怪誰呢?

從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。

但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達(dá)成)?!缎闹巧鐣?huì)》第7.7章

2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個(gè)空的位置就是一個(gè)分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。

但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達(dá)10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。

要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。

我們?cè)耘嘁活w小盆栽的時(shí)候,如果不對(duì)枝葉進(jìn)行修剪,那么養(yǎng)分就會(huì)浪費(fèi)在沒長好的枝條上。需要及時(shí)對(duì)枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。

同樣的道理,有限的計(jì)算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費(fèi)大量的時(shí)間也難以找到最優(yōu)的方案。

是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價(jià)值評(píng)估器(哪個(gè)棋盤的贏的概率更大),把沒有價(jià)值的棋局先去掉不再往下遍歷,這就同時(shí)減少了搜索的廣度和深度。

其中,落子預(yù)測器有個(gè)名稱,叫做政策網(wǎng)絡(luò)(policy network)價(jià)值評(píng)估器有個(gè)名稱,叫做價(jià)值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機(jī)下棋)到最終的棋局,最終勝則回報(bào)為正,反之回報(bào)為負(fù)。之后該算法會(huì)反向沿著該對(duì)弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對(duì)應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時(shí)選擇勝者方案的概率就會(huì)增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。

通過 政策網(wǎng)絡(luò) + 價(jià)值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實(shí)現(xiàn)最優(yōu)落子方案的選擇,同時(shí)兩個(gè)機(jī)器人互相對(duì)弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。

3. 定義接下來說一下枯燥的定義

什么是強(qiáng)化學(xué)習(xí)?

當(dāng)我們關(guān)注的不是某個(gè)判斷是否準(zhǔn)確,而是行動(dòng)過程能否帶來最大的收益時(shí)使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。

強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個(gè)策略(poliey)去指導(dǎo)行動(dòng)。比如在圍棋博弈中,這個(gè)策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個(gè)策略會(huì)告訴我們?cè)谑裁磿r(shí)候買入、什么時(shí)候賣出。

一個(gè)強(qiáng)化學(xué)習(xí)模型一般包含如下幾個(gè)部分:

一組可以動(dòng)態(tài)變化的狀態(tài)(sute)

對(duì)于圍棋棋盤上黑白子的分布位置對(duì)于股票交易來說,就是股票的價(jià)格

一組可以選取的動(dòng)作(metion)

對(duì)于圍棋來說,就是可以落子的位置;對(duì)于股票交易來說,就是每個(gè)時(shí)間點(diǎn),買入或者賣出的股票以及數(shù)量。

一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。

篇11

搜索引擎技術(shù)自誕生之日起就成為互聯(lián)網(wǎng)中最吸引人的技術(shù)之一,各種商業(yè)化的搜索引擎已經(jīng)成了人們使用互聯(lián)網(wǎng)時(shí)不可缺少的工具。傳統(tǒng)搜索引擎的工作原理是服務(wù)提供商利用網(wǎng)絡(luò)爬蟲(Web crawler,也被稱作網(wǎng)絡(luò)蜘蛛(Web spider)或網(wǎng)絡(luò)機(jī)器人(robot),通過一些種子站點(diǎn)按照深度優(yōu)先或者廣度優(yōu)先的搜索策略對(duì)可以爬行到的資源進(jìn)行掃描、下載,并將下載的信息以快照或全文方式存儲(chǔ)在數(shù)據(jù)庫中,建立相關(guān)索引,當(dāng)用戶在搜索引擎的用戶界面中輸入搜索關(guān)鍵字后,搜索引擎訪問數(shù)據(jù)庫,返回?cái)?shù)據(jù)庫中與搜索關(guān)鍵字匹配的紀(jì)錄。隨著互聯(lián)網(wǎng)中網(wǎng)頁資源的快速增長,傳統(tǒng)的搜索引擎在某些方面的缺陷也越來越明顯:①搜索結(jié)果不夠全面。傳統(tǒng)搜索引擎希望鏡像整個(gè)Web世界,搜索引擎追求的是盡量多的處理及存儲(chǔ)網(wǎng)絡(luò)爬蟲爬回的網(wǎng)頁,但不同的搜索引擎由于受到服務(wù)器位置、網(wǎng)絡(luò)帶寬、爬行算法、服務(wù)器容量等因素的影響,服務(wù)器中存儲(chǔ)的資源是有限的,任何一個(gè)搜索引擎不可能存儲(chǔ)并索引網(wǎng)絡(luò)上所有的網(wǎng)頁信息。即使是全球最大的搜索引擎Google,其索引的頁面數(shù)量也僅占Web總量的40%左右。②搜索周期增加,影響信息的實(shí)效性。隨著Web資源的快速增長,傳統(tǒng)搜索引擎網(wǎng)絡(luò)爬蟲的爬行周期不斷增加,數(shù)據(jù)庫更新時(shí)間越來越長。每一個(gè)網(wǎng)頁都有自己的生命周期,網(wǎng)頁的更新速度可能會(huì)快于搜索引擎數(shù)據(jù)庫的更新速度,當(dāng)搜索引擎把數(shù)據(jù)庫中已經(jīng)過期的信息反饋給用戶時(shí),用戶可能根本無法打開相關(guān)鏈接或者打開的是過期的網(wǎng)頁。③搜索結(jié)果的針對(duì)性不強(qiáng)。用戶輸入一個(gè)關(guān)鍵字后返回很多結(jié)果,但存在大量重復(fù),很多結(jié)果并不是用戶需要的。通過對(duì)歐洲和美國9個(gè)主要的搜索引擎日志的統(tǒng)計(jì)分析,認(rèn)為用戶對(duì)于搜索結(jié)果的查看呈減少趨勢。普通用戶僅僅會(huì)察看搜索引擎返回的前若干條數(shù)據(jù),對(duì)于其他搜索結(jié)果,很多用戶沒有耐性全部看完。不同專業(yè)背景的人,對(duì)于同一個(gè)關(guān)鍵詞的理解可能大相徑庭,同樣的“蘋果”一詞,有人可能理解成為食品,有人可能理解成為蘋果公司或者其IT產(chǎn)品。

鑒于傳統(tǒng)搜索引擎的這些缺陷,一些學(xué)者提出了垂直式搜索引擎的概念,即該搜索引擎不以爬行所有的Web頁面為目標(biāo),僅僅在互聯(lián)網(wǎng)中快速爬行某一部分Web頁面并存儲(chǔ),這樣的搜索引擎既可以節(jié)約網(wǎng)絡(luò)帶寬資源,又可以縮短搜索引擎數(shù)據(jù)庫的更新周期,使搜索引擎得到實(shí)時(shí)性更好的網(wǎng)頁。De Bra等最先提出的主題爬行(topic crawling)搜索引擎通過限定爬行主題,提高了搜索精度,成為垂直式搜索引擎的代表。主題爬行技術(shù)的核心是爬行策略與算法,本文從主題爬行技術(shù)的基本原理出發(fā),對(duì)其策略進(jìn)行分類,沿著爬行策略及算法的改進(jìn),分析了主題爬行策略與算法的研究熱點(diǎn),為主題爬行技術(shù)的進(jìn)一步研究提供參考。

1 主題爬行原理

主題爬行是在傳統(tǒng)網(wǎng)絡(luò)爬行技術(shù)基礎(chǔ)上,加入文本分類、聚類以及Web挖掘等相關(guān)技術(shù)用于捕獲特定主題的Web信息。主題爬行技術(shù)的應(yīng)用可以提高搜索精度,降低搜索引擎對(duì)網(wǎng)絡(luò)資源的占用,縮短搜索引擎數(shù)據(jù)庫的更新周期?;谥黝}爬行技術(shù)的搜索引擎與傳統(tǒng)搜索引擎最大的區(qū)別在于:該搜索引擎的網(wǎng)絡(luò)爬蟲是面向主題的。傳統(tǒng)搜索引擎的網(wǎng)絡(luò)爬蟲在爬行過程中采用的是“通吃”策略,不分類別、不分內(nèi)容全部爬行并下載;基于主題的網(wǎng)絡(luò)爬蟲在爬行前或者爬行過程中根據(jù)已經(jīng)爬行的結(jié)果有選擇性的進(jìn)行預(yù)測下一步爬行并下載。

主題爬行過程通常由三部分構(gòu)成:①分類器(clas―sifter),主要對(duì)已抓取網(wǎng)頁的元素進(jìn)行計(jì)算,判斷其主題相關(guān)度,確定是否對(duì)該網(wǎng)頁中所包含的超級(jí)鏈接進(jìn)一步抓??;②提取器(distilIer),該模塊存儲(chǔ)待下載隊(duì)列,并確定待下載隊(duì)列的優(yōu)先級(jí);③爬行器(crawler),該模塊在分類器和提取器的指導(dǎo)下,執(zhí)行網(wǎng)頁抓取工作。主題爬蟲的爬行過程為爬行器根據(jù)不同的爬行策略執(zhí)行爬行操作,抓取網(wǎng)頁送人分類器中,分類器對(duì)已經(jīng)抓取的網(wǎng)頁進(jìn)行處理,根據(jù)設(shè)定主題及其域值判斷該網(wǎng)頁的主題相關(guān)性,結(jié)合其他參數(shù),確定是否對(duì)該網(wǎng)頁包含的超級(jí)鏈接進(jìn)一步爬行。如果爬行,則送入提取器中的隊(duì)列,由提取器根據(jù)隊(duì)列規(guī)則確定其爬行優(yōu)先極。Chakrabarti等人 1999年正式提出了個(gè)性化主題搜索引擎的概念,該搜索引擎不以傳統(tǒng)的關(guān)鍵詞作為搜索內(nèi)容,而是在某一限定范圍內(nèi),通過計(jì)算Web頁面內(nèi)容與主題的相關(guān)性,決定主題爬蟲是否值得進(jìn)一步搜索。其中,主題是由一些范例文檔來確定的,該主題爬蟲實(shí)時(shí)查找與文檔詞典有相關(guān)性的網(wǎng)頁,保證了搜索頁面的時(shí)效性與針對(duì)性。

2 主題爬行基本爬行策略與算法

主題爬行技術(shù)的核心是爬行的策略與算法,由于主題爬蟲與傳統(tǒng)網(wǎng)絡(luò)爬蟲在爬行目標(biāo)上有很大差別,因此,除了采用傳統(tǒng)網(wǎng)絡(luò)爬蟲的爬行策略之外,主題爬蟲在爬行過程中還要采用有效爬行策略與算法盡快爬到并抓取與主題相關(guān)的網(wǎng)頁。Sotiris Batsakis等人將主題爬行策略分成三類:經(jīng)典主題爬行策略、改進(jìn)的主題爬行策略、基于語義的主題爬行策略。經(jīng)典爬行策略主要指主題爬行的“魚群搜索策略”(fish search),改進(jìn)的主題爬行策略主要指“鯊魚搜索策略”(sharksearch)、“最優(yōu)最先(best first)搜索策略”等。

魚群搜索策略是以“魚群搜索算法”(fish algo―rithm)為基礎(chǔ)的主題爬行策略,魚群搜索算法是一種基于群體動(dòng)物行為的智能優(yōu)化算法,該算法模仿魚群在覓食和繁殖時(shí)的表現(xiàn),動(dòng)態(tài)調(diào)整種群的個(gè)數(shù)。在魚群搜索策略中,每個(gè)網(wǎng)頁相當(dāng)于一條魚,如果遇到滿足給定條件的相關(guān)網(wǎng)頁,則該魚繁殖小魚,并對(duì)該網(wǎng)頁發(fā)出的鏈接進(jìn)一步探索;否則食物減少,如果一條魚的食物減為零,則該魚將停止尋食并放棄對(duì)該鏈接的爬行。魚群搜索策略中某一超級(jí)鏈接是否放人提取器中待下載,取決于該鏈接的父鏈接與主題的相關(guān)性。關(guān)于待下載鏈接與主題的相關(guān)性,De Bra L”提出了通過比較已下載網(wǎng)頁內(nèi)容與主題關(guān)鍵字是否匹配,引入二元分類方法(1代表相關(guān),O代表不相關(guān))來計(jì)量相關(guān)性。

改進(jìn)的主題爬行策略是基于魚群搜索策略基礎(chǔ)的改進(jìn),Hersoviei M”。提出采用向量空間模型(vectorspace model)來計(jì)量相關(guān)性,向量空間模型不以整數(shù)0、1來計(jì)量相關(guān)性,而是通過多個(gè)參數(shù)比較,采用O一1之間的實(shí)數(shù)來計(jì)量。該方法除了用已下載網(wǎng)頁內(nèi)容和主題關(guān)鍵詞是否簡單匹配來判斷相關(guān)性,還通過計(jì)算

錨文本(anchor)等其他參數(shù)與主題的相關(guān)性來計(jì)量。這種改進(jìn)的搜索策略比魚群搜索策略在爬行的準(zhǔn)確率(precision rate)和召回率(recall rate)上有很大的進(jìn)步,該搜索策略被稱之為“鯊魚搜索策略”(shark search)。在“鯊魚搜索策略”中,已下載網(wǎng)頁中頁面內(nèi)容、錨文本內(nèi)容、鏈接內(nèi)容(URL)及父頁(指向包含鏈接頁面的Web頁)的相關(guān)性等都作為主要參數(shù)用來計(jì)量待下載網(wǎng)頁與主題的相關(guān)性,通過計(jì)算確定待下載網(wǎng)頁是否進(jìn)人提取器隊(duì)列中。關(guān)于參數(shù)向量的選擇,Cho J等提出了重要度向量,該重要度向量由幾個(gè)部分構(gòu)成:①已下載頁面逆文獻(xiàn)頻率法(inverse document frequency,IDF)的關(guān)鍵詞相關(guān)度;②已下載Web頁的重要鏈接指向個(gè)數(shù)(backlink count);③已下載頁面指向鏈接的重要度值(pagerank);⑧URL位置矩陣(10cation metrics)等四個(gè)參數(shù)作為衡量相關(guān)性的向量。

隨著研究的不斷深入,“鯊魚搜索策略”也不斷完善,該方法中向量空間模型的參數(shù)越多,相關(guān)性計(jì)量越準(zhǔn)確,但參數(shù)增加使計(jì)算量也隨之增加,因此,過多的參數(shù)對(duì)爬行速度有一定影響。但Zhumin Chen等”。對(duì)各種主題爬蟲的運(yùn)行時(shí)間進(jìn)行了實(shí)驗(yàn)分析比較,該學(xué)者認(rèn)為,相對(duì)于網(wǎng)絡(luò)中的下載等待時(shí)間來說,相關(guān)性計(jì)算的時(shí)間很少,有時(shí)甚至不到下載時(shí)間的十分之一,因此頁面相關(guān)性的計(jì)算對(duì)爬行速度的影響是可以忽略的。在“鯊魚搜索策略”的基礎(chǔ)上,Menczer F等提出了“最優(yōu)最先”(best first)搜索策略,這一策略通過計(jì)算向量空間的相關(guān)性,把相關(guān)性“最好”的頁面放入最優(yōu)先下載的隊(duì)列,另外,“最優(yōu)最先”搜索策略采用了術(shù)語頻度(TF)值計(jì)算文本相似度,減少了部分計(jì)算量。根據(jù)文獻(xiàn),由于只選擇與主題相關(guān)性很大的鏈接,而忽略某些當(dāng)前相關(guān)性不高但下級(jí)鏈接中包含很高相關(guān)性鏈接的網(wǎng)頁,最優(yōu)最先算法具有很大的貪婪性,該算法只能找到局部范圍內(nèi)的最優(yōu)解,難以得到全局范圍內(nèi)的最優(yōu)解。因此,該搜索策略只適用于小范圍內(nèi)的主題爬行,對(duì)于大范圍的主題爬行,容易過早地陷入Web空間中局部最優(yōu)子空間的陷阱。

作為一種有效表現(xiàn)概念層次結(jié)構(gòu)和語義的模型,本體論(ontology)被廣泛地應(yīng)用到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域。美國斯坦福大學(xué)的知識(shí)系統(tǒng)實(shí)驗(yàn)室學(xué)者TomGruber提出了本體是概念化的顯式表示,Studer在Gruber的基礎(chǔ)上擴(kuò)展了本體的概念,提出本體是共享概念模型的明確形式化規(guī)范說明。本體具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持,可以解決信息源之間結(jié)構(gòu)和語義的異構(gòu),W3C在2004年提出了Web本體語言(Web ontology language,OWL)的標(biāo)準(zhǔn)。基于本體的網(wǎng)絡(luò)爬蟲認(rèn)為概念上使用相似術(shù)語的頁面應(yīng)具有一定的相關(guān)性。M.Ehrig等學(xué)者將本體應(yīng)用于主題爬蟲的分離器中,首先通過定義術(shù)語的相關(guān)性,建立本體術(shù)語集合,通過對(duì)已下載網(wǎng)頁處理并對(duì)本體庫的比較分析,計(jì)算其相關(guān)性,確定是否將待下載鏈接放入分離器,提高了主題爬行的準(zhǔn)確度與召回率。Jason J.Jung提出基于語義主題爬行的開放式?jīng)Q策支持系統(tǒng),該開放系統(tǒng)主要包括基于上下文語義的主題爬蟲通過域內(nèi)鏈接進(jìn)行區(qū)域內(nèi)知識(shí)發(fā)現(xiàn)及知識(shí)的處理,為開放式?jīng)Q策支持系統(tǒng)迅速提供知識(shí)?;谡Z義的主題爬行技術(shù)中,本體庫的構(gòu)建及完善是一項(xiàng)復(fù)雜的工作,因此應(yīng)用范圍有限。

3 爬行策略與爬行算法的改進(jìn)

雖然魚群搜索策略、鯊魚搜索策略、最優(yōu)最先搜索策略是主題爬蟲常用的搜索策略,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)的多樣性及復(fù)雜性,很多學(xué)者在主題爬行算法中嘗試采用其他的搜索算法實(shí)現(xiàn)較高準(zhǔn)確率與召回率。相繼提出了采用模糊算法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集理論等方法指導(dǎo)主題爬蟲的爬行過程。

作為最優(yōu)最先搜索策略的改進(jìn),李學(xué)勇等采用模擬退火算法作為爬行的啟發(fā)式搜索算法,與爬行中的“隧道技術(shù)”結(jié)合改進(jìn)主題爬蟲。模擬退火算法從某一較高初溫出發(fā),伴隨溫度參數(shù)的不斷下降,結(jié)合概率突跳特性在解空間中隨機(jī)尋找目標(biāo)函數(shù)的全局最優(yōu)解。該算法在選擇優(yōu)化解方面具有非貪婪性,在爬蟲搜索過程中,每次除了選擇評(píng)價(jià)值最優(yōu)的鏈接,還以一定概率有限度地接收評(píng)價(jià)值次優(yōu)的鏈接,確保有一定價(jià)值的鏈接有機(jī)會(huì)被選中?!八淼兰夹g(shù)”使爬蟲有機(jī)會(huì)穿過相關(guān)性低的區(qū)域進(jìn)入相關(guān)性高的區(qū)域,當(dāng)頁面內(nèi)容的相關(guān)度低于設(shè)定的閾值時(shí),通過擴(kuò)大主題范圍,使更多的相關(guān)鏈接加入到鏈接優(yōu)先級(jí)隊(duì)列,提高相關(guān)網(wǎng)頁的召回率。模擬退火算法是一種隨機(jī)算法,雖然可以比較快地找到問題的近似最優(yōu)解,但不一定能找到全局的最優(yōu)解。因此,將模擬退火算法應(yīng)用于最優(yōu)最先搜索策略并不能完全保證主題爬行的魯棒性。

遺傳算法(genetic algorithm)是模擬生物進(jìn)化論與遺傳學(xué)結(jié)合的計(jì)算模型,在最優(yōu)解搜索領(lǐng)域具有一定優(yōu)勢,自從密西根大學(xué)的Holland教授提出該算法后,由于其魯棒性、自組織性強(qiáng)等優(yōu)點(diǎn),在很多方面有廣泛的應(yīng)用。Jialun Qin等學(xué)者采用遺傳算法實(shí)現(xiàn)主題爬蟲在特定域內(nèi)的爬行,通過初始化、內(nèi)容分析選擇、鏈接分析雜交、變異等幾個(gè)步驟實(shí)現(xiàn)主題爬蟲在特定域內(nèi)的爬行。根據(jù)文獻(xiàn),該算法的應(yīng)用在某些Web頁的主題爬行中具有較好的準(zhǔn)確率與召回率。遺傳算法應(yīng)用于主題爬行技術(shù)中存在編碼方式的確定、適應(yīng)性函數(shù)的確定等問題,由于網(wǎng)站結(jié)構(gòu)、網(wǎng)頁類型的不同需要采取不同的標(biāo)準(zhǔn)。遺傳算法也存在局部最優(yōu)陷阱問題,單純使用遺傳算法進(jìn)行主題爬行時(shí)也會(huì)存在無法穿越隧道的問題。

隱馬爾柯夫模型(HMM)作為一種統(tǒng)計(jì)分析模型,在信號(hào)識(shí)別等領(lǐng)域有廣泛的應(yīng)用,隱馬爾柯夫鏈在相關(guān)性評(píng)估應(yīng)用中具有一定優(yōu)勢。Hongyu Liu等提出基于隱馬爾柯夫模型的算法來評(píng)估待下載頁面與主題之間的相關(guān)性。該系統(tǒng)包括三個(gè)步驟:①進(jìn)行數(shù)據(jù)收集;②依據(jù)相關(guān)性模式建模;③根據(jù)模型對(duì)待下載頁面評(píng)估并進(jìn)行主題爬行。該算法的應(yīng)用可以提高主題爬蟲在分離器中的處理精度,但由于計(jì)算量的增加,會(huì)降低處理效率。

人工神經(jīng)網(wǎng)絡(luò)近來日益受到人們的關(guān)注,因?yàn)樗赜械姆蔷€性、自適應(yīng)性、自學(xué)習(xí)性為解決復(fù)雜問題提供了一種相對(duì)比較有效的簡單方法。Hai-Tao Zhengr提出采用基于本體的人工神經(jīng)網(wǎng)絡(luò)(ANN)實(shí)現(xiàn)自學(xué)習(xí)爬行,系統(tǒng)框架分為三個(gè)步驟:①進(jìn)行數(shù)據(jù)準(zhǔn)備;②通過現(xiàn)有的數(shù)據(jù)集對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)l練;③將訓(xùn)練過的主題爬蟲應(yīng)用于實(shí)際爬行,取得較高的準(zhǔn)確率與召回率。人工神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練時(shí)間長、學(xué)習(xí)算法的通用性低等缺點(diǎn),所以,將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于主題爬行中,也存在樣本學(xué)習(xí)時(shí)間長,學(xué)習(xí)算法不具有通用性等缺點(diǎn)。因此,人工神經(jīng)網(wǎng)絡(luò)僅僅適用于小范圍的主題爬行。

除以上算法的改進(jìn),很多學(xué)者還嘗試采用其他計(jì)

算方法改善主題爬蟲的搜索性能,Suman Saha等。應(yīng)用粗集理論對(duì)未下載的Web頁面進(jìn)行預(yù)測,判斷其與主題相關(guān)性,該方法提高了爬行頁面的準(zhǔn)確率,降低了噪聲。Huaxiang Zhang等提出利用Q學(xué)習(xí)及在線半監(jiān)督學(xué)習(xí)理論在待訪問的URL列表中選擇與主題最相關(guān)的URL,相關(guān)值的計(jì)算基于模糊理論及Q值理論。

雖然很多學(xué)者嘗試通過不同的軟計(jì)算方法改進(jìn)主題爬蟲,但由于互聯(lián)網(wǎng)中網(wǎng)站結(jié)構(gòu)與網(wǎng)站內(nèi)容多樣復(fù)雜,這些算法往往應(yīng)用于某些網(wǎng)站時(shí)具有較高的準(zhǔn)確率與召回率,但是應(yīng)用于另一些網(wǎng)站時(shí)準(zhǔn)確率與召回率會(huì)下降。主題爬蟲的準(zhǔn)確率與召回率除了受網(wǎng)站結(jié)構(gòu)、主題爬蟲的爬行策略與算法等因素的影響,還受爬行入口位置、Web服務(wù)器性能等其他相關(guān)因素影響。

4 主題爬行策略與算法的研究熱點(diǎn)

篇12

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別,因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜,人工識(shí)別效率較低,而且信息識(shí)別質(zhì)量不穩(wěn)定,信息識(shí)別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計(jì)算機(jī)技術(shù)獲取語料,對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時(shí),主要采取如下流程:(1)從眾多信息來源中獲取語料,對(duì)語料文檔進(jìn)行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關(guān)聯(lián)性。(4)監(jiān)督機(jī)器學(xué)習(xí)、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲??;(2)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高,耗時(shí)較長,需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時(shí),需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢,不僅獲取文本信息耗時(shí)較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標(biāo)語料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計(jì)算機(jī)程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要?jiǎng)h除和清洗相關(guān)信息,從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習(xí)慣,詞語為最小語言單位,可獨(dú)立使用。基于此種背景,分析文本時(shí)需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績說明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類工具處理,完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí),其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí),需要科學(xué)選擇分詞方法,采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí),選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí),需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識(shí)別新詞[7]。語義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語法特征,詞語切分后標(biāo)記詞語詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語種類識(shí)別,避免詞語歧義,對(duì)語法結(jié)構(gòu)進(jìn)行有效識(shí)別,從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語義分析。詞性標(biāo)注時(shí),中英文操作方法不同,詞性劃分英文單詞要求比較嚴(yán)謹(jǐn),利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識(shí)別依據(jù)主要為語法、語義等。簡言之,英文詞性識(shí)別標(biāo)記注重形式,漢語詞性標(biāo)記以語義為主。在處理文本信息時(shí),需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達(dá)有限,然而對(duì)于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語言習(xí)慣分析停用詞,不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào),還需要處理連詞、俚語。除此之外,應(yīng)根據(jù)具體研究內(nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí),特定標(biāo)點(diǎn)符號(hào)、語氣詞等會(huì)影響文本表達(dá)的情感信息,對(duì)于此類信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點(diǎn),使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高,預(yù)處理實(shí)施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點(diǎn),是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺符號(hào)顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過視覺獲取文本信息,實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴(yán)格語序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語集合,采用向量化方法表達(dá)文本,在此過程中只計(jì)算各個(gè)詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨(dú)熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個(gè)文檔:(1)文檔一:“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對(duì)于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對(duì)單詞詞語賦予權(quán)重。TF-IDF是計(jì)算文檔定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個(gè)文件中詞語i頻率描述為tfi,j,第j個(gè)文檔內(nèi)詞語數(shù)量描述為aj,第i個(gè)文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨(dú)熱表示法,TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時(shí)語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí),詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,促使其有效捕獲詞語中包含的上下文信息,對(duì)詞語進(jìn)行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進(jìn)行文本分析屬于無監(jiān)督機(jī)器學(xué)習(xí)法,通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時(shí),將生成文檔的過程分為兩步,首先假定各文檔具有對(duì)應(yīng)主題,從這些主題中抽取一個(gè)主題,然后假定文檔具有對(duì)應(yīng)詞匯,對(duì)比之前抽取的主題,從詞語中選取一個(gè)與主題對(duì)應(yīng)的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢是,與手動(dòng)編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類文本時(shí)較易受到主觀性影響。此外,使用此種模型時(shí),無需人工分類進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí),受到研究者主觀因素影響,選擇主題個(gè)數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時(shí)較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認(rèn)為,迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí),常見的問題是,隨機(jī)排序句子中詞語將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過隨機(jī)排序處理的文本在分析計(jì)算時(shí),顯示相同迷霧指數(shù)。不僅如此,在進(jìn)行商業(yè)文本測量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí),難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?;诖朔N背景,在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí),需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時(shí),通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時(shí)還需要融合大量金融學(xué)專業(yè)知識(shí),從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻(xiàn)等分析媒體報(bào)道情緒,針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語氣語調(diào)分析,以及進(jìn)行電話會(huì)議等進(jìn)行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時(shí),通常是以英文詞典、詞庫等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評(píng)估股市崩盤風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類方法時(shí),重點(diǎn)環(huán)節(jié)在于對(duì)分類效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場行為與文本特征等相關(guān)性。分析披露文本信息時(shí),主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營、管理層長效經(jīng)營信息等進(jìn)行研究。在進(jìn)行此類研究時(shí),重點(diǎn)是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時(shí),有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認(rèn)為,財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長久的利潤。此外,有研究者提出,財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí),公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場發(fā)展趨勢進(jìn)行分析時(shí),披露文本語氣語調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長效經(jīng)營能力進(jìn)行預(yù)測,同時(shí)可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話會(huì)議語氣中,此種語氣分散情況與經(jīng)營決策具有相關(guān)性,同時(shí)語氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí),主要關(guān)注媒體情緒,分析媒體報(bào)道著眼點(diǎn),針對(duì)經(jīng)濟(jì)政策進(jìn)行分析,了解其不確定性,此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí),主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關(guān)注度。

篇13

0 引言

目前,煤礦巷道支護(hù)設(shè)計(jì)很大程度上依賴于工程技術(shù)人員的工程判斷力和實(shí)踐經(jīng)驗(yàn),具有很大的盲目性,導(dǎo)致有些巷道支護(hù)效果不佳,部分巷道出現(xiàn)前掘后修、前修后壞的狀況。有些巷道支護(hù)設(shè)計(jì)參數(shù)偏于保守,制約著礦井安全高效水平的提高。科學(xué)地尋找支護(hù)參數(shù)設(shè)計(jì)在安全和經(jīng)濟(jì)兩方面的最佳結(jié)合點(diǎn),是開展巷道圍巖穩(wěn)定性分類研究的主要目的。據(jù)統(tǒng)計(jì),相當(dāng)一部分巷道失穩(wěn)的原因是由于基本的支護(hù)方案不合理造成的,究其原因是不準(zhǔn)確的巷道圍巖分類。因此,準(zhǔn)確地把握巷道圍巖穩(wěn)定性分類是巷道支護(hù)設(shè)計(jì)的基礎(chǔ),開發(fā)出便于現(xiàn)場工程技術(shù)人員能夠直接使用的可視化圍巖分類系統(tǒng)亟待解決。本文以模糊聚類理論基礎(chǔ),建立回采巷道圍巖穩(wěn)定性分類Fuzzy模型,利用matlab語言編寫模型程序,實(shí)現(xiàn)了回采巷道圍巖穩(wěn)定性分類可視化系統(tǒng)。

1 回采巷道圍巖分類Fuzzy模型

影響回采巷道圍巖穩(wěn)定性的因素很多,依照指標(biāo)選取的重要性原則、獨(dú)立性原則、明確性原則、易獲取原則[1],選取巷道埋深、巷道底板巖層強(qiáng)度、巷道頂板8m范圍內(nèi)綜合強(qiáng)度、巷道幫部巖(煤)層強(qiáng)度、直接頂厚度與采高比值N、直接頂初垮步距、巷煤柱寬度7個(gè)指標(biāo),以神東布爾臺(tái)礦區(qū)為工程背景,收集回采巷道樣本。其中頂板巖層的綜合強(qiáng)度,采用頂板8m范圍內(nèi)各個(gè)巖層的單軸抗壓強(qiáng)度的綜合平均值。大量的實(shí)踐經(jīng)驗(yàn)表明,距離巷道頂部表面的巖層越近對(duì)巷道穩(wěn)定性的影響越大[2]。如圖1所示,頂板巖層的強(qiáng)度采用如下公式(1)計(jì)算。

(1)

式中:

A――巷道頂板上部三角形區(qū)域面積;

a――巷道寬度;Ai為第i分層區(qū)域面積;

――第i分層的單軸抗壓強(qiáng)度。

1.1 數(shù)據(jù)無量綱化及單位化處理

樣本分類的7個(gè)指標(biāo)的量綱不盡相同,在數(shù)據(jù)使用必須對(duì)原始數(shù)據(jù)進(jìn)行無量綱化處理,按照統(tǒng)計(jì)學(xué)原理,本文采用公式(2)進(jìn)行無綱量化處理(Z-score)。

(2)

(3)

(4)

式中:

――第i個(gè)樣本的的第j個(gè)指標(biāo);

――第j指標(biāo)的平均值,計(jì)算公式(3);――第j指標(biāo)的標(biāo)準(zhǔn)差,計(jì)算公式(4)。

為消除各指標(biāo)絕對(duì)值大小對(duì)聚類分析的影響,要對(duì)去量綱化的樣本數(shù)據(jù)進(jìn)行單位化[2],如公式(4)所示,把原始數(shù)據(jù)壓縮在0~1之間。

(5)

式中:

{xij}min――第j個(gè)指標(biāo)實(shí)測中最小值;

{xij}max――第j個(gè)指標(biāo)實(shí)測中最大值。

1.2 回采巷道分類指標(biāo)加權(quán)處理

數(shù)據(jù)無量綱化及單位化處理沒有改變各指標(biāo)對(duì)分類結(jié)果的影響,事實(shí)上,各個(gè)分類指標(biāo)對(duì)巷道圍巖穩(wěn)定性的影響程度是不同的,有主次之分。如果把這些影響程度不同的指標(biāo)平等的對(duì)待,無疑是要影響分類結(jié)果的準(zhǔn)確性[3]。因此,在進(jìn)行模糊聚類分析時(shí),為區(qū)分這些指標(biāo)對(duì)圍巖穩(wěn)定性的影響程度,需要對(duì)每一個(gè)指標(biāo)進(jìn)行加權(quán)處理。加權(quán)的具體實(shí)施方法,就是在各指標(biāo)經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)上乘以相應(yīng)的權(quán)值。確定權(quán)值的途徑很多,這是里采用多元回歸分析法確定本分類中7個(gè)指標(biāo)的權(quán)值,并用層次分析法加以檢驗(yàn)[4],最終得到各指標(biāo)分類權(quán)值如表1所示。

1.3 數(shù)據(jù)標(biāo)定及聚類

標(biāo)定就是計(jì)算出被分類對(duì)象間相似程度的統(tǒng)計(jì)量(i,j=1,2,……n。n為被分類對(duì)象的個(gè)數(shù)),從而確定論域上的模糊關(guān)系矩陣。常用的方法有:歐氏距離法、數(shù)量積法、相關(guān)系數(shù)法、夾角余弦法等[5]。本文采用歐氏距離法來進(jìn)行標(biāo)定。如公式(6)所示。

(6)

式中:

――表示第條回采樣本巷道的第k個(gè)標(biāo)準(zhǔn)化處理后的指標(biāo) ;

――表示第條回采樣本巷道的第k個(gè)標(biāo)準(zhǔn)化處理后的指標(biāo)。

聚類就是在已經(jīng)建立的模糊相似矩陣的基礎(chǔ)上[6],以不同的閾值進(jìn)行截取,從而得到不同的分類。這里采用基于模糊等價(jià)關(guān)系的聚類法。具體作法是,將加權(quán)模糊相似矩陣進(jìn)行改造,使之具有傳遞性,轉(zhuǎn)化為加權(quán)模糊等價(jià)關(guān)系矩陣,給出不同的閾值進(jìn)行聚類[7]。最終把寸草塔二礦回采巷道圍巖穩(wěn)定性分為分為5類:非常穩(wěn)定;穩(wěn)定;較穩(wěn)定;不穩(wěn)定,極不穩(wěn)定。上述對(duì)圍巖穩(wěn)定性的評(píng)語用拉丁字母表示為:I,II,III,IV,V;各指標(biāo)聚類中心值如表2所示。

1.4 構(gòu)造單項(xiàng)指標(biāo)的隸屬函數(shù)

回采巷道圍巖穩(wěn)定性狀態(tài)共分為5類,分類指標(biāo)數(shù)為7,Xi (i=1,2,…,7)表示第i分類指標(biāo)取巷道聚類中心值的集合,論域Xi上模糊子集完全由它的隸屬函數(shù)所確定,其中為某類別巷道第i指標(biāo)的聚類中心值,隸屬函數(shù)中的應(yīng)當(dāng)滿足[8]:

(1) 當(dāng)時(shí),,其中為第j級(jí)巷道第i分類指標(biāo)的的聚類中值。顯然,第j級(jí)標(biāo)準(zhǔn)巷道應(yīng)100%屬于第j級(jí);

(2) 當(dāng)遠(yuǎn)離時(shí),隸屬函數(shù)值應(yīng)變小。隸屬函數(shù)種類很多,如正態(tài)型、戒上型、戒下型和降半型等。根據(jù)巷道各分類指標(biāo)的分布特征,本文采用如公式(7)的正態(tài)型分布函數(shù)。

(7)

式中:

――取各級(jí)聚類中心值的第i指標(biāo)的標(biāo)準(zhǔn)差。

1.5 巷道模糊綜合評(píng)判及頂?shù)装逡平款A(yù)測

利用上述單項(xiàng)指標(biāo)隸屬函數(shù),計(jì)算回采巷道的隸屬函數(shù)值,得到初始模糊關(guān)系矩陣R。因?yàn)楦鞣诸愔笜?biāo)的權(quán)值矩陣是單位化的,為方便分類結(jié)果的使用,初始模糊關(guān)系矩陣R必須單位化。單位化后的模糊關(guān)系矩陣為運(yùn)用模糊單位化后的模糊關(guān)系矩陣,與各分類指標(biāo)所占權(quán)值矩陣A進(jìn)行矩陣相乘運(yùn)算,權(quán)值矩陣由表3中得出,即:

A=(0.122 0.1 0.21 0.03 0.11 0.113 0.3)

運(yùn)算見下公式(8)。

(8)

得到隸屬度矩陣,求得最大隸屬度及最大隸屬度所在的列向量位置,進(jìn)而判別巷道穩(wěn)定性類別。

通過該隸屬矩陣可以進(jìn)一步預(yù)測巷道頂?shù)装逡平浚壳邦A(yù)測巷道頂?shù)装逡平可袩o精確的公式,通過巷道圍巖穩(wěn)定性隸屬度矩陣預(yù)測巷道頂?shù)装逡平浚ㄈ绫?)不失為一種簡單有而又相對(duì)準(zhǔn)確的方法,如公式(9)。

U=u1×b1+ u2×b2+……+ u5×b5 (9)

上式中:

b1,b2,……b5――巷道圍巖穩(wěn)定性隸屬矩陣中各類巷道的隸屬度;

u1,u2,……u5――各類巷道圍巖移近量的平均值。

2 可視化系統(tǒng)開發(fā)

Matlab是一款優(yōu)秀的面向?qū)ο蟮臄?shù)值計(jì)算軟件[11],在GUI編程過程中需要使用變量來實(shí)現(xiàn)函數(shù)之間的數(shù)值傳遞,借用Eidt Text(編輯文本)及Listbox(下拉類表)的Tag(標(biāo)簽)來定義、使用函數(shù)變量;本系統(tǒng)主要有四大功能模塊組成:1)求聚類中心;2)頂板綜合強(qiáng)度計(jì)算;3)數(shù)據(jù)裝載及運(yùn)算;4)顯示模型運(yùn)算結(jié)果;系統(tǒng)運(yùn)行調(diào)試結(jié)果如圖2所示。

3 系統(tǒng)應(yīng)用

3.1 應(yīng)用工程背景

根據(jù)某礦43301工作面為工程背景,工作面北部北部為43煤輔運(yùn)、膠運(yùn)和回風(fēng)三大巷,西側(cè)為43301工作面已準(zhǔn)備完畢,東側(cè)為43303工作面已回采完畢,南側(cè)為43煤風(fēng)氧化帶邊界,43302-1與43302-2工作面南北間隔5條排矸巷相距128m;上部18-28m有42201、42202、42224工作面采空塌陷區(qū)。

3.1.1、煤層頂板、底板特征

43302工作面老頂為細(xì)砂巖,厚度約為13.7-18.8m,平均15.35m,白色,泥質(zhì)膠結(jié),水平層理。

直接頂為泥巖,厚度約為0-1.5m,平均1.15m,灰黑色,粉砂質(zhì),質(zhì)軟,易冒落,底部含有植物葉碎片化石。

直接底為泥巖,厚度約為0.10-0.70m,平均0.35m,深灰色,含巖屑及植物化石,遇水泥化嚴(yán)重。

3.1.2、地質(zhì)構(gòu)造及水文地質(zhì)特征

工作面地表廣覆第四系松散沉積物,地形起伏變化比較大,43302-1回采區(qū)上部18-22m有42煤42201、42202綜采工作面采空塌陷區(qū)。43302-2回采區(qū)上部22-28m有42煤42201、42103、42224綜采工作面采空塌陷區(qū)。工作面內(nèi)地層總的趨勢是以極緩的坡度向北西傾斜的單斜構(gòu)造,傾角1-3°,斷層不發(fā)育,后生裂隙發(fā)育。

工作面地表廣覆第四系松散沉積物,地形起伏變化比較大,43302-1工作面回采區(qū)上部18-22m有42煤42201和42202工作面采空塌陷區(qū),43302-2工作面回采區(qū)上部22-28m有42煤42201、42103、42224綜采工作面采空塌陷區(qū),采空區(qū)內(nèi)有大量積水,施工探放水孔11個(gè),累計(jì)疏放積水17800m3,采空區(qū)內(nèi)局部低洼地帶可能仍有少量積水,因此必須加大雨季工作面采空塌陷區(qū)溝谷地帶洪水的管理工作,以確保礦井安全生產(chǎn)。

工作面地表溝壑發(fā)育,上覆松散層厚度變化較大,雨季大氣降水一方面通過松散層及基巖裂隙直接下滲補(bǔ)給井下,用類比法預(yù)測切眼地段初次垮落時(shí)的涌水量為30m3/h,工作面正常回采涌水量20m3/h,工作面最大涌水量50m3/h。

3.2 巷道圍巖穩(wěn)定性分類

根據(jù)以上地質(zhì)因素和采礦技術(shù)因素,量化各分類指標(biāo),如見表4所示,運(yùn)用建立的模糊聚類模型進(jìn)行巷道圍巖穩(wěn)定性分類。

代入公式7,得到初始隸屬函數(shù)矩陣R。由于權(quán)值矩陣是單位化的,所以要對(duì)初始隸屬函數(shù)矩陣R單位化,得到單位化的隸屬函數(shù)矩陣。

把代入公式8,得到隸屬度矩陣。從中可以看出該巷道圍巖穩(wěn)定性的隸屬度,I類巷道圍巖隸屬度為0.0973,II類巷道圍巖隸屬度為0.1679,III類巷道圍巖隸屬度為0.2145,IV類巷道圍巖隸屬度0.3059,V類巷道圍巖隸屬度為0.2144,最大隸屬度為0.3059,從而判定該巷道從屬于IV類巷道,屬于不穩(wěn)定較難支護(hù)圍巖。

3.3 預(yù)測巷道頂?shù)装逡平?/p>

依照表3,建立巷道頂?shù)装逡平繂挝恍邢蛄縐=(30,75,250,500,1200),把行向量U與列向量B代入公式9,預(yù)測該巷道頂?shù)滓平縐為496.3mm。接近IV圍巖頂?shù)装迤骄平?00mm,處于400-600mm之間,很大程度上證明了該模型的可靠性。

4 結(jié)論

利用影響回采巷道圍巖穩(wěn)定性的7個(gè)指標(biāo)因素,采用模糊聚類理論,建立圍巖穩(wěn)定性分類模型,實(shí)現(xiàn)分類的綜合評(píng)判及巷道頂?shù)装逡平款A(yù)測,為巷道支護(hù)設(shè)計(jì)提供依據(jù);考慮到頂板巖層節(jié)理的影響,以巷道寬度、各巖層強(qiáng)度及厚度、8米內(nèi)巖層數(shù)為基本參數(shù),求得頂板綜合強(qiáng)度,采動(dòng)系數(shù)以直接頂厚度與采高比值N量化。采用matlab語言編寫,完成系統(tǒng)四大功能模塊,實(shí)現(xiàn)系統(tǒng)的可視化,方便現(xiàn)場工程技術(shù)人員使用。

參考文獻(xiàn)

[1] 鄧???基于人工神經(jīng)網(wǎng)絡(luò)的巷道圍巖分類與支護(hù)參數(shù)優(yōu)化研究[D],安徽理工大學(xué),2009,6.

王存文.基于BP人工神經(jīng)網(wǎng)絡(luò)的煤巷圍巖穩(wěn)定性分類研究[D],山東科技大學(xué),2005,5.

[2] 李迎富.潘三深井動(dòng)壓回采巷道圍巖穩(wěn)定性分類及其支護(hù)設(shè)計(jì)[D].安徽理工大學(xué),2006,3-5.

[3] Hurt K. New Development in rock bolting[J].Colliery Guardian,2006,27(7):53-54.

[4] 賀超峰.基于BP神經(jīng)網(wǎng)絡(luò)的回采巷道圍巖分類[J].礦業(yè)工程研究,2012,27(3):6-9.

[5] 刑???,蔡坫,劉玉堂.煤礦支護(hù)手冊(cè)[M]. 北京:煤炭工業(yè)出版社,1998:483-487.

[6] bination of The Boundary Element and Finite Element Methods[J] .Prog in Boundary Element Meth,2004,46(1):3-7.

[7] 王廣德.復(fù)雜條件下圍巖分類研究[J].中國煤炭,2010,23(08):27-29.

[8] 黃其芳.人工神經(jīng)網(wǎng)絡(luò)對(duì)隧道圍巖進(jìn)行分類的應(yīng)用研究[J].西部探礦工程,2007,38(5):18-22.