引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘技術(shù)分析論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
篇1
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
篇2
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過(guò)程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過(guò)對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來(lái)的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過(guò)分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過(guò)程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹(shù)技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹(shù)算法基本理論
2.1 決策樹(shù)方法介紹
決策樹(shù)[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無(wú)序的,無(wú)規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹(shù)歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。建模過(guò)程中,即樹(shù)的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問(wèn)題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來(lái)形成分類器和預(yù)測(cè)模型。如圖1所示,為決策樹(shù)的示意圖。
決策樹(shù)一種類似流程圖的樹(shù)形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹(shù)上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹(shù)。決策樹(shù)最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹(shù)進(jìn)行修剪,此過(guò)程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹(shù)的過(guò)匹配,進(jìn)而保證生成決策樹(shù)的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒(méi)有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹(shù)算法,它是最早的決策樹(shù)算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來(lái)的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹(shù)算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。
C4.5通過(guò)兩個(gè)步驟來(lái)建立決策樹(shù):第一階段樹(shù)的生成,第二階段樹(shù)的剪枝。C4.5算法采用信息增益率來(lái)記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹(shù)。C4.5算法構(gòu)造決策樹(shù)的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹(shù)
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點(diǎn)樹(shù)root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹(shù)root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測(cè)試屬性列表Attributes中的屬性;
8)IF測(cè)試屬性是連續(xù)的Then;
9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測(cè)試屬性的信息增益比率;
20)添加子樹(shù)Generate Tree C4.5;
21)對(duì)已建立的決策樹(shù)計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問(wèn)題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹(shù)技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來(lái)源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過(guò)對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問(wèn)題擬定分析過(guò)程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問(wèn)題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過(guò)程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過(guò)程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來(lái)建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹(shù)技術(shù)進(jìn)行分類建模來(lái)解決相應(yīng)的問(wèn)題。
5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來(lái)確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語(yǔ)言來(lái)實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過(guò)得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開(kāi)展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
篇3
一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義
數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡(jiǎn)稱為DM),簡(jiǎn)單來(lái)說(shuō),就是一種把隱藏在大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中所需要的有用信息提取出來(lái)的新技術(shù),這是一個(gè)對(duì)數(shù)據(jù)庫(kù)進(jìn)行研究的非常有價(jià)值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫(kù)中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進(jìn)行決策時(shí)提供重要的支持。
客戶關(guān)系管理(Customer Relationship Management可以簡(jiǎn)稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說(shuō)法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進(jìn)行分類,并依據(jù)分類情況來(lái)對(duì)企業(yè)的資源進(jìn)行有效的組織,進(jìn)而企業(yè)的業(yè)務(wù)流程實(shí)施以及經(jīng)營(yíng)活動(dòng)都要以客戶為核心來(lái)進(jìn)行,以此來(lái)提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤(rùn);二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個(gè)在企業(yè)的營(yíng)銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進(jìn)行管理的過(guò)程,或者說(shuō)技術(shù)。
二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,市場(chǎng)競(jìng)爭(zhēng)力也在逐步的增大,商家想要獲得最好的利益,就必須對(duì)市場(chǎng)的變化迅速的做出反應(yīng),能夠引起市場(chǎng)變化的重要因素就是客戶需求的變化,也就是說(shuō),企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進(jìn)行管理。在企業(yè)管理客戶信息的過(guò)程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過(guò)程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹(shù)法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個(gè)公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。
數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個(gè)方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對(duì)現(xiàn)有的客戶信息和市場(chǎng)環(huán)境進(jìn)行統(tǒng)計(jì)總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場(chǎng)目標(biāo)。因?yàn)閿?shù)據(jù)挖掘技術(shù)具有統(tǒng)計(jì)、聚類和關(guān)聯(lián)的作用,比如說(shuō),數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)了這樣一個(gè)信息“某客戶在購(gòu)買A商品之后,過(guò)了一段時(shí)間又購(gòu)買了B商品,最后還購(gòu)買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會(huì)通過(guò)次序關(guān)聯(lián),把這個(gè)信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶。現(xiàn)在社會(huì)競(jìng)爭(zhēng)相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對(duì)每個(gè)企業(yè)來(lái)說(shuō)就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對(duì)數(shù)據(jù)庫(kù)中的流失客戶信息進(jìn)行分析,并且對(duì)流失客戶的特征進(jìn)行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對(duì)整個(gè)數(shù)據(jù)庫(kù)中的消費(fèi)客戶信息進(jìn)行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來(lái)減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來(lái)進(jìn)行挽留。(3)可以提升客戶價(jià)值。目前提升現(xiàn)有客戶的價(jià)值的方式有兩個(gè):一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價(jià)值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購(gòu)買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購(gòu)買趨勢(shì)的客戶。
三、加強(qiáng)客戶關(guān)系管理中數(shù)據(jù)挖掘的意義
應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,可以有效的提高企業(yè)的核心競(jìng)爭(zhēng)力,現(xiàn)代社會(huì)的激烈競(jìng)爭(zhēng),也就是對(duì)客戶的競(jìng)爭(zhēng),數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)的客戶關(guān)系進(jìn)行詳細(xì)的分析,并為企業(yè)提供有價(jià)值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進(jìn)而有力的提高了企業(yè)的核心競(jìng)爭(zhēng)力;可以有力的增強(qiáng)企業(yè)的執(zhí)行力,利用信息技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,降低成本,并簡(jiǎn)化執(zhí)行任務(wù),有效的實(shí)現(xiàn)了資源共享,大力的提高了企業(yè)的自動(dòng)化水平,企業(yè)職工的執(zhí)行能力也進(jìn)一步得到了提高,也就是增強(qiáng)了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)今的市場(chǎng)環(huán)境進(jìn)行分析,可以預(yù)測(cè)到每個(gè)業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個(gè)業(yè)務(wù)與發(fā)生過(guò)的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來(lái)的發(fā)展戰(zhàn)略,并且可以制定與市場(chǎng)環(huán)境相適應(yīng)的營(yíng)銷策略。
綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進(jìn)行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場(chǎng)需求,可以為企業(yè)制定完全適應(yīng)于市場(chǎng)的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠(chéng)客戶,并利用企業(yè)有限的資源,對(duì)這些客戶提供最好的服務(wù),促進(jìn)企業(yè)的不斷發(fā)展。
參考文獻(xiàn):
篇4
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)指的是在信息技術(shù)發(fā)展背景下,對(duì)信息數(shù)據(jù)展開(kāi)處理的技術(shù)。與過(guò)去的信息處理技術(shù)相比,數(shù)據(jù)挖掘技術(shù)功能更加強(qiáng)大,可以應(yīng)用在各個(gè)領(lǐng)域,無(wú)論是數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)換還是數(shù)據(jù)分析,都能夠完成相互之間的聯(lián)系,并對(duì)數(shù)據(jù)進(jìn)行最終評(píng)估。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在軟件工程中,能夠提高企業(yè)處理信息數(shù)據(jù)的效率,避免操作失誤,保護(hù)企業(yè)數(shù)據(jù)準(zhǔn)確[1]。
2數(shù)據(jù)挖掘技術(shù)在軟件工程中的重要性分析
2.1高效整合多樣化信息數(shù)據(jù)
由于數(shù)據(jù)挖掘技術(shù)的功能比較多,其中包含了傳統(tǒng)處理技術(shù)的功能,實(shí)現(xiàn)多樣化信息的收集與分類,并將數(shù)據(jù)按照類別存儲(chǔ)與整理。數(shù)據(jù)挖掘技術(shù)可以在多樣化數(shù)據(jù)中實(shí)現(xiàn)數(shù)據(jù)的系統(tǒng)化管理,為人們進(jìn)行數(shù)據(jù)查閱工作帶來(lái)方便。在軟件工程中應(yīng)用該技術(shù),方便信息數(shù)據(jù)的高效整合,幫助企業(yè)全方位了解信息與數(shù)據(jù)[2]。
2.2保證信息數(shù)據(jù)的準(zhǔn)確率
數(shù)據(jù)挖掘技術(shù)擁有強(qiáng)大數(shù)據(jù)運(yùn)算功能,以往的數(shù)據(jù)信息系統(tǒng)運(yùn)算數(shù)據(jù)時(shí)需要耗費(fèi)大量時(shí)間與成本。如果信息數(shù)據(jù)體系龐大,系統(tǒng)運(yùn)算時(shí)會(huì)面臨癱瘓問(wèn)題。在軟件工程中,一旦系統(tǒng)發(fā)生癱瘓,系統(tǒng)將無(wú)法正常使用,數(shù)據(jù)也會(huì)受到破壞。應(yīng)用數(shù)據(jù)挖掘技術(shù)之后可以有效解決以上問(wèn)題,實(shí)現(xiàn)系統(tǒng)的優(yōu)化,使系統(tǒng)可以在最短時(shí)間內(nèi)處理數(shù)據(jù),防止信息數(shù)據(jù)發(fā)生丟失現(xiàn)象,提高數(shù)據(jù)處理的時(shí)效性。面對(duì)大量的信息數(shù)據(jù),有的數(shù)據(jù)得不到利用,但長(zhǎng)期處于系統(tǒng)中會(huì)影響系統(tǒng)運(yùn)行效率,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以將無(wú)價(jià)值的數(shù)據(jù)剔除,留下有用的信息數(shù)據(jù),保證系統(tǒng)的運(yùn)行效率和數(shù)據(jù)質(zhì)量。
2.3縮短信息數(shù)據(jù)處理時(shí)間
在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分類處理雜亂無(wú)章的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)換與調(diào)用。對(duì)數(shù)據(jù)進(jìn)行深入挖掘處理時(shí)也可以應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)的分類,并對(duì)模糊數(shù)據(jù)及時(shí)清理,提高系統(tǒng)內(nèi)現(xiàn)存數(shù)據(jù)的實(shí)用價(jià)值。人們獲取到的信息數(shù)據(jù)需要進(jìn)行反復(fù)核對(duì),以此保證數(shù)據(jù)真實(shí)性,通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用減少時(shí)間浪費(fèi),提高數(shù)據(jù)核對(duì)效率。
3數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用分析
3.1系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)挖掘技術(shù)應(yīng)用流程主要分為三個(gè)階段:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評(píng)估與知識(shí)表示。在數(shù)據(jù)預(yù)處理階段中,高效得到原始數(shù)據(jù)的根本原因在于確定任務(wù)處理對(duì)象,得到符合軟件工程需求的數(shù)據(jù)。通過(guò)數(shù)據(jù)清洗彌補(bǔ)原始數(shù)據(jù)存在的缺陷,確保數(shù)據(jù)的完整性。數(shù)據(jù)抽取需要從數(shù)據(jù)庫(kù)中選擇與軟件工程任務(wù)相符合的信息。數(shù)據(jù)轉(zhuǎn)換需要將數(shù)據(jù)格式加以轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的適用性。在數(shù)據(jù)挖掘中需要制定一定的挖掘任務(wù),通過(guò)對(duì)數(shù)據(jù)的分類與評(píng)價(jià)總結(jié),合理應(yīng)用運(yùn)算方法進(jìn)行數(shù)據(jù)推敲。在模式評(píng)估與知識(shí)表示中,其實(shí)際用途在于挖掘成功的表達(dá),將興趣度作為衡量標(biāo)準(zhǔn),提高數(shù)據(jù)表達(dá)的識(shí)別能力。
針對(duì)軟件工程中數(shù)據(jù)挖掘技術(shù)的優(yōu)化應(yīng)用,可以從系統(tǒng)結(jié)構(gòu)方面入手,具體如下:(1)檢測(cè)軟件工程中的克隆代碼。以軟件工程為標(biāo)準(zhǔn),將一部分代碼復(fù)制,結(jié)合實(shí)際情況更改一部分代碼,并對(duì)這些代碼進(jìn)行檢測(cè),代碼檢測(cè)與更改可以同時(shí)進(jìn)行,能有效提高檢測(cè)效率,實(shí)現(xiàn)系統(tǒng)的維護(hù)工作。當(dāng)前應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行克隆代碼檢測(cè)的方式一共有四種,具體為比較標(biāo)識(shí)符、對(duì)比文本、檢測(cè)系統(tǒng)程序結(jié)構(gòu)與度量圈。在實(shí)際操作中,要求人們結(jié)合實(shí)際情況選擇相應(yīng)的克隆代碼檢測(cè)方法。(2)數(shù)據(jù)信息挖掘法。這是以橫切關(guān)注點(diǎn)為主的挖掘方法,在軟件工程中應(yīng)用該方法可以改造系統(tǒng),對(duì)數(shù)據(jù)信息達(dá)到良好的處理效果[3]。
3.2軟件管理
為了讓數(shù)據(jù)挖掘技術(shù)更好地應(yīng)用在軟件工程中,需要從軟件管理角度入手,采用以下兩方面舉措。一方面,深入挖掘數(shù)據(jù)的組織關(guān)系,另一方面,挖掘版本控制信息。軟件工程系統(tǒng)比較繁瑣,挖掘組織關(guān)系時(shí)較為困難,人們需要合理調(diào)配各項(xiàng)信息,以此作為挖掘的依據(jù)。如果以軟件工程管理流程作為主題,對(duì)電子郵件與共享文件展開(kāi)組織關(guān)系挖掘,可以有效避免系統(tǒng)流程發(fā)生混亂,保護(hù)軟件管理的秩序。當(dāng)信息數(shù)據(jù)發(fā)生變化時(shí),應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行軟件管理,將版本控制作為重要依據(jù),將數(shù)據(jù)挖掘技術(shù)與版本控制相聯(lián)系,降低系統(tǒng)運(yùn)行成本,并達(dá)到警示的效果,提高軟件工程的管理水平。
3.3軟件開(kāi)發(fā)
在軟件工程初期階段,人們將數(shù)據(jù)挖掘技術(shù)看成數(shù)據(jù)庫(kù),隨著技術(shù)的發(fā)展,軟件工程發(fā)展到現(xiàn)實(shí)應(yīng)用,系統(tǒng)和現(xiàn)實(shí)共同發(fā)展。軟件工程將各項(xiàng)指標(biāo)與要求緊密結(jié)合,研發(fā)出最新產(chǎn)品,以往的軟件工程中軟件開(kāi)發(fā)十分困難,而如今應(yīng)用數(shù)據(jù)挖掘技術(shù),可以將其與數(shù)據(jù)庫(kù)相融合,發(fā)揮數(shù)據(jù)庫(kù)內(nèi)信息的最大價(jià)值,有效推動(dòng)軟件開(kāi)發(fā)的進(jìn)步。不僅如此,軟件工程可以對(duì)信息進(jìn)行更深層次的挖掘,充分發(fā)揮軟件工程的價(jià)值,利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)數(shù)據(jù)的更新,保證軟件開(kāi)發(fā)質(zhì)量,優(yōu)化軟件操作流程。在技術(shù)的支持下,人們可以合理劃分軟件內(nèi)部,方便及時(shí)發(fā)現(xiàn)問(wèn)題,并展開(kāi)積極有效的問(wèn)題處理。利用數(shù)據(jù)挖掘技術(shù)可以進(jìn)行網(wǎng)站設(shè)計(jì),對(duì)網(wǎng)站內(nèi)容進(jìn)行挖掘,特別是對(duì)文本內(nèi)容的挖掘,隨后整合網(wǎng)站信息,通過(guò)自動(dòng)歸類技術(shù)實(shí)現(xiàn)信息的層次性組織。在軟件或網(wǎng)站管理中,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以根據(jù)用戶對(duì)網(wǎng)站的訪問(wèn)記錄,進(jìn)行記錄信息挖掘,從中了解用戶對(duì)該網(wǎng)站內(nèi)容的興趣,進(jìn)而對(duì)用戶提供信息推送服務(wù)和定制服務(wù),以此吸引更多用戶訪問(wèn)該網(wǎng)站。
在軟件開(kāi)發(fā)階段,可以使用DataAnalytics輕量級(jí)業(yè)務(wù)數(shù)據(jù)可視化分析平臺(tái),這是數(shù)據(jù)挖掘技術(shù)的一項(xiàng)成果。該平臺(tái)能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)源的高效整合,可以兼容各種數(shù)據(jù)源類型,支持海量數(shù)據(jù)。可接入Excel/CSV等數(shù)據(jù)文件、企業(yè)各種業(yè)務(wù)系統(tǒng)、第三方互聯(lián)網(wǎng)數(shù)據(jù)、公共數(shù)據(jù)服務(wù)平臺(tái)等來(lái)源,輕松整合所有相關(guān)業(yè)務(wù)數(shù)據(jù),幫助企業(yè)消滅數(shù)據(jù)孤島。企業(yè)利用該平臺(tái)可以完成數(shù)據(jù)的深度交互分析,DataAnalytics基于探索式分析,支持智能推薦圖形與圖表,二者可以協(xié)同過(guò)濾,幫助用戶快速定位,通過(guò)數(shù)據(jù)挖掘找出問(wèn)題,以拖拽式操作方法解決問(wèn)題。
3.4聚類
在數(shù)據(jù)挖掘技術(shù)中聚類指的是對(duì)各個(gè)環(huán)節(jié)數(shù)據(jù)加以分析,結(jié)合軟件工程的具體要求實(shí)現(xiàn)數(shù)據(jù)細(xì)化,以類型細(xì)化作為基礎(chǔ),為原始數(shù)據(jù)類型做出保障。通過(guò)聚類可以讓同種類型數(shù)據(jù)具有相似性特點(diǎn),在存在相似性的同時(shí),也存在一定的差異,突出各自的特點(diǎn)。應(yīng)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)聚類劃分時(shí),面對(duì)的對(duì)象無(wú)法預(yù)測(cè),與其他算法相比,聚類擁有更加廣泛的應(yīng)用范圍,進(jìn)行數(shù)據(jù)分析時(shí)更加獨(dú)特,挖掘信息數(shù)據(jù)時(shí)可以確保檢測(cè)結(jié)果的有效性與真實(shí)性。
4結(jié)論
總而言之,隨著信息技術(shù)的深入發(fā)展,人們已經(jīng)步入信息時(shí)代,數(shù)據(jù)挖掘技術(shù)也成為對(duì)信息數(shù)據(jù)展開(kāi)處理和存儲(chǔ)的有效方式。在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù),有利于提高軟件開(kāi)發(fā)效率,提升軟件管理質(zhì)量,加強(qiáng)數(shù)據(jù)挖掘力度,使數(shù)據(jù)挖掘技術(shù)發(fā)揮巨大效果,人們可以應(yīng)用數(shù)據(jù)挖掘技術(shù)完成數(shù)據(jù)的聚類和網(wǎng)站設(shè)計(jì),為人們的生活帶來(lái)便利。
軟件工程碩士論文參考文獻(xiàn):
[1]張立鑒.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(6):47-48.
篇5
[3] J.M.Kleinberg. Authoritativesources in ahyperlinked environment. Proc.9th ACM-SIAM Symposium on Discrete Algorithms. 1998:668-677.
[4] 李曉明,劉建國(guó).搜索引擎技術(shù)及趨勢(shì).大學(xué)圖書館學(xué)報(bào),2000,(16).
[5] 陳新中,李巖,謝永紅,楊炳儒. Web挖掘研究.計(jì)算機(jī)工程與應(yīng)用,2002_13.
[6] 劉軍.基于Web結(jié)構(gòu)挖掘的HITS算法研究.碩士學(xué)位論文.中南大學(xué),2008.
[7] 劉悅.WWW上鏈接分析算法的若干研究:(博士學(xué)位論文).北京:中國(guó)科學(xué)院,2003.
[8] A. Blum and T. Mitchell. Combining labeled and unlabeled data with Containing. In COLT:Proceedings of the Workshop on Computational Learning Theory.Morgan Kaufmann Publishers. 1998.
[9] Chakrabarti S, Gerg M, Dom B. Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery. Computer Networks. 1999,31(11):1623-1640.
[10] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search Engine. In seventh International World Wide Web Conference. Brisbane. Australia, 1998.
[11] Haveliwala T H. Topic-sensitive PageRank[C]. Proceedings of the Eleventh International Word Wide Web Conference. Hoho Lulu Hawaii,2002.
[12] 江裕明.基于超鏈接的Web結(jié)構(gòu)挖掘算法的研究.碩士學(xué)位論文.西安電子科技大學(xué),2006.1.
[13] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann 2000.
[14] 劉芳芳.Web鏈接分析中HITS算法的研究.碩士學(xué)位論文.大連理工大學(xué),2006.
[15] 李秋銳.基于蜜罐網(wǎng)絡(luò)的郵件捕獲系統(tǒng)分析與部署[J].信息網(wǎng)絡(luò)安全,2012,(01):64-67.
[16] 郎為民, 楊德鵬, 李虎生.智能電網(wǎng)WCSN安全體系架構(gòu)研究[J].信息網(wǎng)絡(luò)安全,2012,(04):19-22.
基金項(xiàng)目:
篇6
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non – Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。與其他數(shù)據(jù)庫(kù)應(yīng)用相比,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,即對(duì)分散的業(yè)務(wù)數(shù)據(jù)進(jìn)行整合、加工和分析的過(guò)程,而不是一種可以購(gòu)買的產(chǎn)品。
數(shù)據(jù)倉(cāng)庫(kù)包括如下幾個(gè)部分,如圖1所示。
(1)原數(shù)據(jù)部分,數(shù)據(jù)提取、清洗、轉(zhuǎn)換和裝載(ETL)部分,以及中心數(shù)據(jù)倉(cāng)庫(kù)部分。經(jīng)過(guò)這些環(huán)節(jié),可以完成將數(shù)據(jù)從源數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中的過(guò)程。
(2)數(shù)據(jù)集市。根據(jù)部門的需要,可以從數(shù)據(jù)倉(cāng)庫(kù)中形成數(shù)據(jù)集市,以滿足部門及數(shù)據(jù)分析的需要。
圖1 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
(3)數(shù)據(jù)訪問(wèn)和分析部分。在數(shù)據(jù)訪問(wèn)和分析的過(guò)程中,可以采用OLAP分析及數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,得出有關(guān)的分析結(jié)果。
2 數(shù)據(jù)分析技術(shù)
數(shù)據(jù)分析技術(shù)是建立在一定數(shù)據(jù)基礎(chǔ)上,進(jìn)行分析的方式和方法,通常包括:OLAP、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、聯(lián)機(jī)挖掘等技術(shù)。需要說(shuō)明的是,數(shù)據(jù)分析技術(shù)并不一定需要建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,但有了數(shù)據(jù)倉(cāng)庫(kù)之后,數(shù)據(jù)分析的效率和能力將大大提高。通過(guò)與數(shù)據(jù)分析技術(shù)的結(jié)合,才能發(fā)現(xiàn)許多前所未有的分析結(jié)果,并為管理者提供科學(xué)的決策依據(jù)。
2.1 OLAP(聯(lián)機(jī)分析處理)
OLAP分析與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系非常緊密。數(shù)據(jù)倉(cāng)庫(kù)的建立,解決了依據(jù)主題進(jìn)行數(shù)據(jù)存儲(chǔ)的問(wèn)題,提高了數(shù)據(jù)的存取速度,而OLAP分析構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)的表現(xiàn)層,將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通過(guò)不同的維和指標(biāo),靈活的展現(xiàn)出來(lái),提高數(shù)據(jù)的展現(xiàn)能力,進(jìn)而提高數(shù)據(jù)的分析能力。
OLAP涉及以下術(shù)語(yǔ):維度(Dimension)、量度(Measure)、級(jí)別(Level)、成員(Member)、多維數(shù)據(jù)集/立方體(Cube)、時(shí)間粒度(Time granularity)、星型結(jié)構(gòu)/維度(Star schema)、雪花型結(jié)構(gòu)/維度(Snowflake schema)。
OLAP對(duì)不同維度進(jìn)行肉眼觀察,并非運(yùn)用更科學(xué)的概率論或其它數(shù)學(xué)工具去測(cè)度;而肉眼觀察帶有主觀的“有色眼鏡”,故缺乏科學(xué)客觀的評(píng)判手段和方法。其次,當(dāng)遇到維度過(guò)多、數(shù)據(jù)量過(guò)大的實(shí)際情況時(shí),OLAP工作效率急劇下降。再次,若自變量和自變量之間存在的線性關(guān)系或交互作用,OLAP無(wú)法分辨“混雜因子”或找出主要影響因素。因此,OLAP無(wú)法完全滿足在分析信息系統(tǒng)中最基本、最重要和最關(guān)鍵的要求:面對(duì)主題(商務(wù)需求)進(jìn)行分析;而在實(shí)際信息處理中,OLAP無(wú)法實(shí)現(xiàn)分析的主題或任務(wù),則需要數(shù)據(jù)分析或數(shù)據(jù)挖掘更強(qiáng)大的分析工具、技術(shù)來(lái)實(shí)現(xiàn)。計(jì)算機(jī)論文
2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘亦稱為數(shù)據(jù)開(kāi)采,它首先由W. J. Frawley、G. Piatesky-Shapiro等人提出。數(shù)據(jù)挖掘是一種數(shù)據(jù)分析工具,它從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取人們感興趣的數(shù)據(jù)模式、數(shù)據(jù)的普遍關(guān)系及其隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式,其目的是幫助管理者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策行為將起到一定的支持作用。
數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘是一個(gè)多步驟的處理過(guò)程,這些步驟有:
(1)數(shù)據(jù)定義階段。主要了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清楚用戶決策分析對(duì)信息的要求。
(2)數(shù)據(jù)提取階段。根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。
(3)數(shù)據(jù)預(yù)處理階段。主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)缺損的數(shù)據(jù)進(jìn)行填補(bǔ)。
(4)數(shù)據(jù)挖掘階段。主要是運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。
(5)知識(shí)評(píng)估階段。將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。
2.3數(shù)據(jù)倉(cāng)庫(kù)、0LAP和數(shù)據(jù)挖掘之間的關(guān)系
在數(shù)據(jù)倉(cāng)庫(kù)化的決策支持系統(tǒng)中,應(yīng)將數(shù)據(jù)倉(cāng)庫(kù)、OLAP、數(shù)據(jù)挖掘進(jìn)行有機(jī)結(jié)合,其所擔(dān)當(dāng)?shù)慕巧謩e為:
(1)數(shù)據(jù)倉(cāng)庫(kù)用于數(shù)據(jù)的存儲(chǔ)和組織,它從事務(wù)處理系統(tǒng)中抽取數(shù)據(jù),并對(duì)其進(jìn)行綜合、集成與轉(zhuǎn)換,提供面向全局的數(shù)據(jù)視圖;OLAP致力于數(shù)據(jù)的分析;數(shù)據(jù)挖掘則專注于知識(shí)的自動(dòng)發(fā)現(xiàn)。
(2)在數(shù)據(jù)倉(cāng)庫(kù)和OLAP、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘之間存在著單向支持的關(guān)系;在數(shù)據(jù)挖掘與OLAP之間,存在雙向聯(lián)系,即數(shù)據(jù)挖掘?yàn)镺LAP提供分析的模式,OLAP對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗(yàn)證,并給予適當(dāng)?shù)囊龑?dǎo)。三者關(guān)系如圖2所示。
圖2 數(shù)據(jù)倉(cāng)庫(kù)、OLAP、數(shù)據(jù)挖掘的關(guān)系
3、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及在人力資源系統(tǒng)的設(shè)計(jì)
人力資源系統(tǒng)的數(shù)據(jù)量大,但相對(duì)分散,統(tǒng)計(jì)功能不足,利用率低。為了更好的發(fā)揮其數(shù)據(jù)的功能,提出人力資源數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)。該系統(tǒng)主要由ETL系統(tǒng)、OLAP系統(tǒng)、客戶端組件系統(tǒng)三部分組成,其整體框架如圖3所示。
圖3 人力資源數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)框架圖
ETL系統(tǒng)負(fù)責(zé)定期的從OLTP系統(tǒng)中將業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),在導(dǎo)入過(guò)程中會(huì)依據(jù)OLAP系統(tǒng)中模式設(shè)計(jì)的要求對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,以符合數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)要求。
OLAP系統(tǒng)由三部分組成:OLAP引擎、OLAP數(shù)據(jù)展示模塊和元數(shù)據(jù)管理模塊。OLAP引擎負(fù)責(zé)讀入數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),并根據(jù)模式定義構(gòu)建多維數(shù)據(jù)集,使數(shù)據(jù)以多維格式展示。OLAP數(shù)據(jù)展示模塊負(fù)責(zé)將多維數(shù)據(jù)集展現(xiàn)為一個(gè)聯(lián)機(jī)分析處理(OLAP)頁(yè)面,用戶可以在頁(yè)面上執(zhí)行典型的聯(lián)機(jī)分析處理導(dǎo)航操作,如上卷、下鉆和旋轉(zhuǎn)等。元數(shù)據(jù)管理模塊負(fù)責(zé)對(duì)模式設(shè)計(jì)文件進(jìn)行管理。
客戶端組件系統(tǒng)負(fù)責(zé)訪問(wèn)用戶的登錄驗(yàn)證,并根據(jù)訪問(wèn)用戶的訪問(wèn)權(quán)限提供對(duì)應(yīng)的數(shù)據(jù)展現(xiàn)。
4、結(jié)束語(yǔ)
本文闡述了數(shù)據(jù)倉(cāng)庫(kù)、OLAP、數(shù)據(jù)挖掘的概念,并對(duì)OLAP和數(shù)據(jù)挖掘技術(shù)進(jìn)行了探討。并在此基礎(chǔ)上,提出了人力資源數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)方案。數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)成為現(xiàn)代信息領(lǐng)域的必不可少的基礎(chǔ)設(shè)施之一,我們應(yīng)該使用好數(shù)據(jù)倉(cāng)庫(kù),使之成為迎接挑戰(zhàn)的有力武器。
參考文獻(xiàn)
[1] W. H. Inmon 數(shù)據(jù)倉(cāng)庫(kù)[M] 機(jī)械工業(yè)出版社 2003
[2] 王珊等 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與聯(lián)機(jī)分析處理[M] 科學(xué)出版社 1998
篇7
在高校教育領(lǐng)域,就當(dāng)前階段數(shù)據(jù)挖掘還是一種較新的技術(shù)。如何在高校的學(xué)生成績(jī)管理中合理的利用數(shù)據(jù)挖掘技術(shù),對(duì)存放了大量學(xué)生的信息的數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行挖掘處理,從而提取出可以對(duì)教師的教和學(xué)生的學(xué)都起到積極促進(jìn)作用的關(guān)鍵性規(guī)律,獲得更加良好的教學(xué)效果是我們目前高校的教育工作者面臨的一大急需解決的有價(jià)值的問(wèn)題。隨著數(shù)據(jù)挖掘技術(shù)的成熟,它的應(yīng)用領(lǐng)域也在不斷的擴(kuò)展,被關(guān)注程度也不斷提高,很多高校已經(jīng)投入大量的人力物力在這項(xiàng)研究工作上,并逐漸的將其研究成果應(yīng)用于日常的教學(xué)及管理工作中。比如,將其應(yīng)用在學(xué)生信息的管理、學(xué)生的各門課的成績(jī)分析和考試系統(tǒng)、教育教學(xué)的評(píng)估工作等,這些應(yīng)用都將對(duì)提高高校的教學(xué)和管理水平等各方面都起到十分顯著的的指導(dǎo)作用[1]。
1 當(dāng)前很多高校學(xué)生的成績(jī)管理面臨的問(wèn)題
目前大部分高校教務(wù)管理系統(tǒng)是采用聯(lián)機(jī)的事務(wù)處理系統(tǒng)對(duì)學(xué)生成績(jī)進(jìn)行管理,成績(jī)數(shù)據(jù)只能簡(jiǎn)單地存儲(chǔ)于數(shù)據(jù)庫(kù)中,而對(duì)數(shù)據(jù)的處理也停留在單純的數(shù)據(jù)查詢和插入修改等功能上,僅有的對(duì)成績(jī)的分析可能也只是求總和、平均值、均方差和合格率等之類的統(tǒng)計(jì)。教務(wù)管理系統(tǒng)中的數(shù)據(jù)單純的保存了相關(guān)數(shù)據(jù)信息而沒(méi)有能夠挖掘出這些數(shù)據(jù)背后所隱藏的可能有用信息――例如學(xué)生每門課程取得的成績(jī)的可能原因、每門課程的諸多知識(shí)點(diǎn)之間以及課程和課程之間的聯(lián)系。龐大的數(shù)據(jù)庫(kù)里數(shù)據(jù)和數(shù)據(jù)之間存在著很多的關(guān)聯(lián),我們?nèi)绾纬浞掷眠@些數(shù)據(jù)關(guān)聯(lián),為高校教育教學(xué)決策者提供一定的決策依據(jù),從而科學(xué)的指導(dǎo)教學(xué),提高高校的教學(xué)及管理水平,進(jìn)一步提高辦學(xué)效益和水平,是目前高校需要去面對(duì)和解決的問(wèn)題。
2 利用數(shù)據(jù)挖掘技術(shù)管理學(xué)生成績(jī)
數(shù)據(jù)挖掘技術(shù)就是從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的應(yīng)用數(shù)據(jù)中來(lái)提取隱藏在其中的潛在并且十分有用的信息過(guò)程[2]。利用數(shù)據(jù)挖掘?qū)Υ鎯?chǔ)在高校成績(jī)數(shù)據(jù)庫(kù)中的學(xué)生成績(jī)數(shù)據(jù)信息進(jìn)行全面的深層次的分析和挖掘,達(dá)到全面地分析成績(jī)數(shù)據(jù)的優(yōu)劣及產(chǎn)生原因、各種因素之間隱含的內(nèi)在聯(lián)系的目的。挖掘分析這些數(shù)據(jù)所隱藏的有用信息,找到對(duì)指導(dǎo)教師教學(xué)和學(xué)生學(xué)習(xí)有用的知識(shí),幫助高校管理者對(duì)未來(lái)高校的發(fā)展進(jìn)步的決策。由此可見(jiàn),數(shù)據(jù)挖掘技術(shù)一定會(huì)在教師提高教學(xué)質(zhì)量、學(xué)生增加學(xué)習(xí)效率和學(xué)校強(qiáng)化管理水平等方面起到至關(guān)重要的引導(dǎo)作用[3]。
第一,使用計(jì)算機(jī)對(duì)高校學(xué)生成績(jī)進(jìn)行信息管理相對(duì)于傳統(tǒng)管理方法有著十分明顯優(yōu)勢(shì):在現(xiàn)代的互聯(lián)網(wǎng)時(shí)代,信息的管理早已經(jīng)超越傳統(tǒng)概念,使用計(jì)算機(jī)存儲(chǔ)量大且成本低,可以長(zhǎng)久保存,同時(shí)對(duì)信息的檢索更迅速也更方便,結(jié)果的可靠性也是傳統(tǒng)管理方法不可比擬的,這些也正是高校管理正規(guī)化和教育單位的科學(xué)化所必需的。
第二,學(xué)生成績(jī)管理系統(tǒng)對(duì)于任何一個(gè)教育單位來(lái)說(shuō)都是一個(gè)不可或缺的組成部分。它對(duì)于高校的管理者的辦學(xué)思路的抉擇來(lái)說(shuō)是至關(guān)重要的。高校的成績(jī)管理系統(tǒng)不僅應(yīng)該做到為用戶提供方便快捷的查詢手段還用改能夠提供充分的信息量以滿足不同用戶的不同查詢需求。學(xué)生可以通過(guò)這個(gè)系統(tǒng)方便的查找自己到各門課的考試成績(jī)及其他的教學(xué)相關(guān)信息;教師也能夠通過(guò)系統(tǒng)提供的查詢和分析工具非常準(zhǔn)確的掌握學(xué)生的成績(jī)變化,及時(shí)獲取教學(xué)效果反饋信息,改進(jìn)教學(xué)方式方法等;對(duì)高校的管理者來(lái)說(shuō),運(yùn)用了最新的數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)管理系統(tǒng)也可以讓他們更及時(shí)快捷的從海量的數(shù)據(jù)中找到有用的信息,從而為不斷提高高校的辦學(xué)質(zhì)量和管理水平提供保障。
3 學(xué)生成績(jī)管理系統(tǒng)的設(shè)計(jì)
3.1數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘是一個(gè)多階段的復(fù)雜過(guò)程,如圖1所示直接數(shù)據(jù)目標(biāo)數(shù)據(jù)凈化數(shù)據(jù)數(shù)據(jù)源知識(shí)數(shù)據(jù)選擇清理與集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)挖掘模式評(píng)價(jià)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘解釋和評(píng)價(jià)。
主要分為以下六個(gè)主要步驟[4]:
1)確定數(shù)據(jù)源。數(shù)據(jù)源的確立是整個(gè)系統(tǒng)的基礎(chǔ),是挖掘結(jié)果準(zhǔn)確的保證。對(duì)學(xué)生成績(jī)信息進(jìn)行數(shù)據(jù)挖掘時(shí),面向?qū)ο笫歉黝惒煌膶W(xué)生,例如教務(wù)處要挖掘的信息是面向全校學(xué)生的成績(jī),從而掌握全校學(xué)生的學(xué)習(xí)情況,而每個(gè)系所要掌握的學(xué)生的學(xué)習(xí)情況是針對(duì)本系的學(xué)生來(lái)說(shuō)的,所以要挖掘的對(duì)象也只是每個(gè)系學(xué)生的成績(jī)信息。他們面向?qū)ο蠛蛿?shù)據(jù)挖掘的目的都是不同的;
2)選定模型。為所挖掘的問(wèn)題選擇恰當(dāng)?shù)臄?shù)據(jù)挖掘方法,并且針對(duì)該挖掘方法選擇幾種或是一種的算法。選擇何種算法將直接影響挖掘信息的質(zhì)量;
3)采集數(shù)據(jù)。這個(gè)階段在整個(gè)開(kāi)發(fā)過(guò)程中將會(huì)占用開(kāi)發(fā)者大部分的工作量和時(shí)間。因?yàn)殚_(kāi)發(fā)者需要收集在以往的教學(xué)實(shí)踐中的數(shù)據(jù)信息,這些信息中,有些數(shù)據(jù)他們可以以直接的方式獲得,而有些數(shù)據(jù)可能需要對(duì)學(xué)生以問(wèn)卷調(diào)查等形式獲得。
4)數(shù)據(jù)預(yù)處理。開(kāi)發(fā)者在這一步需要將收集到的大量的不同的數(shù)據(jù)預(yù)處理,使其為一個(gè)分析數(shù)據(jù)模型;數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘很重要的一步,數(shù)據(jù)只有經(jīng)過(guò)預(yù)處理才能提高挖掘?qū)ο蟮馁|(zhì)量;
5)數(shù)據(jù)挖掘。算法在這一步得到具體的實(shí)現(xiàn),開(kāi)發(fā)者將對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)信息進(jìn)行挖掘;
6)解釋和評(píng)價(jià)。分析和驗(yàn)證上一步的挖掘結(jié)果,并從中找到有價(jià)值的信息,將其集成到教師的教學(xué)環(huán)節(jié)和學(xué)生的學(xué)習(xí)環(huán)節(jié)中去,使教師和學(xué)生可利用所得信息改進(jìn)教和學(xué)的策略,指導(dǎo)學(xué)生進(jìn)一步更好的學(xué)習(xí)。
3.2數(shù)據(jù)挖掘的方法
在實(shí)際應(yīng)用中需要根據(jù)對(duì)信息的實(shí)際需求選擇恰當(dāng)?shù)耐诰蛩惴āMㄟ^(guò)對(duì)幾種常用的數(shù)據(jù)挖掘方法進(jìn)行比較和分析,本文選擇了以下兩種適合的算法:關(guān)聯(lián)分析方法以及決策樹(shù)分類方法。
1)關(guān)聯(lián)分析
利用關(guān)聯(lián)分析對(duì)數(shù)據(jù)進(jìn)行挖掘的目的就是挖掘出隱含在數(shù)據(jù)之間的關(guān)系。首先給定一組或一個(gè)記錄的集合,然后,通過(guò)分析此記錄集合從而推導(dǎo)出信息之間的相關(guān)性[5]。一個(gè)適用于關(guān)聯(lián)規(guī)則的最有說(shuō)服力的例子就是“90%客戶在購(gòu)買黃油和面包的同時(shí)也會(huì)選擇購(gòu)買牛奶”,即:規(guī)則“購(gòu)買黃油和面包也會(huì)同時(shí)購(gòu)買牛奶”的信息可信度高達(dá)90%。在大型的數(shù)據(jù)庫(kù)系統(tǒng)中,類似的關(guān)聯(lián)規(guī)則會(huì)產(chǎn)生很多,因此需要開(kāi)發(fā)者進(jìn)行篩選。一般來(lái)說(shuō),我們會(huì)采用 “可信度”和“支持度”這兩個(gè)閩值去淘汰一些沒(méi)有太多實(shí)際意義的規(guī)則。
關(guān)聯(lián)規(guī)則算法主要有以下兩個(gè)步驟:第一步要求開(kāi)發(fā)者查找出所有的頻繁項(xiàng)集。頻繁項(xiàng)集就是指其支持度大于或是等于最小支持度的那些項(xiàng)目集。第二步是指由頻繁項(xiàng)集所產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則,即所產(chǎn)生的以上規(guī)則一定要滿足最小置信度和最小支持度[6]。
在實(shí)際教學(xué)中應(yīng)用關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法對(duì)學(xué)生成績(jī)信息進(jìn)行分析和處理,研究課程的開(kāi)設(shè)先后關(guān)系以及各門課程的成績(jī)相關(guān)性,分析的結(jié)果將對(duì)一些課程的教與學(xué)提供很多有用的信息,使高校的教學(xué)工作邁上一個(gè)新的臺(tái)階。
2)決策樹(shù)算法對(duì)學(xué)生成績(jī)的分析
決策樹(shù)算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,用來(lái)形成數(shù)據(jù)挖掘的預(yù)測(cè)模型和分類器,同時(shí)可以對(duì)大量未知數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類、數(shù)據(jù)的預(yù)處理以及數(shù)據(jù)挖掘等。通常包括兩部分:樹(shù)的生成和樹(shù)的剪枝[7]。
使用決策樹(shù)算法來(lái)提取分類規(guī)則時(shí),規(guī)則使用以“if――then”的形式表示。決策樹(shù)算法和其他算法相比具有以下的優(yōu)勢(shì):處理速度較快;從結(jié)果上來(lái)說(shuō),分類準(zhǔn)確率也更相近,算法更容易轉(zhuǎn)換為SQL語(yǔ)句。
4 結(jié)論
利用數(shù)據(jù)挖掘技術(shù)進(jìn)行高校學(xué)生的成績(jī)、心理分析和德育評(píng)估、教學(xué)及管理決策、教學(xué)質(zhì)量評(píng)估等,能夠?yàn)閷W(xué)生、教師以及教學(xué)管理人員等用戶提供相應(yīng)的數(shù)據(jù)信息支持,對(duì)教務(wù)管理和教學(xué)過(guò)程有著極為重要的指導(dǎo)意義,同時(shí)也為高校教與學(xué)、管理與決策的服務(wù)提供了一種新的思路。
參考文獻(xiàn)
[1]劉春陽(yáng),數(shù)據(jù)挖掘技術(shù)在高校成績(jī)管理中的應(yīng)用研究,學(xué)位論文大連交通大學(xué),2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]劉軍.決策樹(shù)分類算法的研究及其在教學(xué)分析中的應(yīng)用[D].河海大學(xué),2006.
[4]鄧景毅.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘綜述[J].電腦學(xué)習(xí),2006(3):2-3.
篇8
目前大部分高校教務(wù)管理系統(tǒng)是采用聯(lián)機(jī)的事務(wù)處理系統(tǒng)對(duì)學(xué)生成績(jī)進(jìn)行管理,成績(jī)數(shù)據(jù)只能簡(jiǎn)單地存儲(chǔ)于數(shù)據(jù)庫(kù)中,而對(duì)數(shù)據(jù)的處理也停留在單純的數(shù)據(jù)查詢和插入修改等功能上,僅有的對(duì)成績(jī)的分析可能也只是求總和、平均值、均方差和合格率等之類的統(tǒng)計(jì)。教務(wù)管理系統(tǒng)中的數(shù)據(jù)單純的保存了相關(guān)數(shù)據(jù)信息而沒(méi)有能夠挖掘出這些數(shù)據(jù)背后所隱藏的可能有用信息——例如學(xué)生每門課程取得的成績(jī)的可能原因、每門課程的諸多知識(shí)點(diǎn)之間以及課程和課程之間的聯(lián)系。龐大的數(shù)據(jù)庫(kù)里數(shù)據(jù)和數(shù)據(jù)之間存在著很多的關(guān)聯(lián),我們?nèi)绾纬浞掷眠@些數(shù)據(jù)關(guān)聯(lián),為高校教育教學(xué)決策者提供一定的決策依據(jù),從而科學(xué)的指導(dǎo)教學(xué),提高高校的教學(xué)及管理水平,進(jìn)一步提高辦學(xué)效益和水平,是目前高校需要去面對(duì)和解決的問(wèn)題。
2 利用數(shù)據(jù)挖掘技術(shù)管理學(xué)生成績(jī)
數(shù)據(jù)挖掘技術(shù)就是從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的應(yīng)用數(shù)據(jù)中來(lái)提取隱藏在其中的潛在并且十分有用的信息過(guò)程[2]。利用數(shù)據(jù)挖掘?qū)Υ鎯?chǔ)在高校成績(jī)數(shù)據(jù)庫(kù)中的學(xué)生成績(jī)數(shù)據(jù)信息進(jìn)行全面的深層次的分析和挖掘,達(dá)到全面地分析成績(jī)數(shù)據(jù)的優(yōu)劣及產(chǎn)生原因、各種因素之間隱含的內(nèi)在聯(lián)系的目的。挖掘分析這些數(shù)據(jù)所隱藏的有用信息,找到對(duì)指導(dǎo)教師教學(xué)和學(xué)生學(xué)習(xí)有用的知識(shí),幫助高校管理者對(duì)未來(lái)高校的發(fā)展進(jìn)步的決策。由此可見(jiàn),數(shù)據(jù)挖掘技術(shù)一定會(huì)在教師提高教學(xué)質(zhì)量、學(xué)生增加學(xué)習(xí)效率和學(xué)校強(qiáng)化管理水平等方面起到至關(guān)重要的引導(dǎo)作用[3]。
第一,使用計(jì)算機(jī)對(duì)高校學(xué)生成績(jī)進(jìn)行信息管理相對(duì)于傳統(tǒng)管理方法有著十分明顯優(yōu)勢(shì):在現(xiàn)代的互聯(lián)網(wǎng)時(shí)代,信息的管理早已經(jīng)超越傳統(tǒng)概念,使用計(jì)算機(jī)存儲(chǔ)量大且成本低,可以長(zhǎng)久保存,同時(shí)對(duì)信息的檢索更迅速也更方便,結(jié)果的可靠性也是傳統(tǒng)管理方法不可比擬的,這些也正是高校管理正規(guī)化和教育單位的科學(xué)化所必需的。
第二,學(xué)生成績(jī)管理系統(tǒng)對(duì)于任何一個(gè)教育單位來(lái)說(shuō)都是一個(gè)不可或缺的組成部分。它對(duì)于高校的管理者的辦學(xué)思路的抉擇來(lái)說(shuō)是至關(guān)重要的。高校的成績(jī)管理系統(tǒng)不僅應(yīng)該做到為用戶提供方便快捷的查詢手段還用改能夠提供充分的信息量以滿足不同用戶的不同查詢需求。學(xué)生可以通過(guò)這個(gè)系統(tǒng)方便的查找自己到各門課的考試成績(jī)及其他的教學(xué)相關(guān)信息;教師也能夠通過(guò)系統(tǒng)提供的查詢和分析工具非常準(zhǔn)確的掌握學(xué)生的成績(jī)變化,及時(shí)獲取教學(xué)效果反饋信息,改進(jìn)教學(xué)方式方法等;對(duì)高校的管理者來(lái)說(shuō),運(yùn)用了最新的數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)管理系統(tǒng)也可以讓他們更及時(shí)快捷的從海量的數(shù)據(jù)中找到有用的信息,從而為不斷提高高校的辦學(xué)質(zhì)量和管理水平提供保障。
3 學(xué)生成績(jī)管理系統(tǒng)的設(shè)計(jì)
3.1數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘是一個(gè)多階段的復(fù)雜過(guò)程,如圖1所示直接數(shù)據(jù)目標(biāo)數(shù)據(jù)凈化數(shù)據(jù)數(shù)據(jù)源知識(shí)數(shù)據(jù)選擇清理與集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)挖掘模式評(píng)價(jià)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘解釋和評(píng)價(jià)。
主要分為以下六個(gè)主要步驟[4]:
1)確定數(shù)據(jù)源。數(shù)據(jù)源的確立是整個(gè)系統(tǒng)的基礎(chǔ),是挖掘結(jié)果準(zhǔn)確的保證。對(duì)學(xué)生成績(jī)信息進(jìn)行數(shù)據(jù)挖掘時(shí),面向?qū)ο笫歉黝惒煌膶W(xué)生,例如教務(wù)處要挖掘的信息是面向全校學(xué)生的成績(jī),從而掌握全校學(xué)生的學(xué)習(xí)情況,而每個(gè)系所要掌握的學(xué)生的學(xué)習(xí)情況是針對(duì)本系的學(xué)生來(lái)說(shuō)的,所以要挖掘的對(duì)象也只是每個(gè)系學(xué)生的成績(jī)信息。他們面向?qū)ο蠛蛿?shù)據(jù)挖掘的目的都是不同的;
2)選定模型。為所挖掘的問(wèn)題選擇恰當(dāng)?shù)臄?shù)據(jù)挖掘方法,并且針對(duì)該挖掘方法選擇幾種或是一種的算法。選擇何種算法將直接影響挖掘信息的質(zhì)量;
3)采集數(shù)據(jù)。這個(gè)階段在整個(gè)開(kāi)發(fā)過(guò)程中將會(huì)占用開(kāi)發(fā)者大部分的工作量和時(shí)間。因?yàn)殚_(kāi)發(fā)者需要收集在以往的教學(xué)實(shí)踐中的數(shù)據(jù)信息,這些信息中,有些數(shù)據(jù)他們可以以直接的方式獲得,而有些數(shù)據(jù)可能需要對(duì)學(xué)生以問(wèn)卷調(diào)查等形式獲得。
4)數(shù)據(jù)預(yù)處理。開(kāi)發(fā)者在這一步需要將收集到的大量的不同的數(shù)據(jù)預(yù)處理,使其為一個(gè)分析數(shù)據(jù)模型;數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘很重要的一步,數(shù)據(jù)只有經(jīng)過(guò)預(yù)處理才能提高挖掘?qū)ο蟮馁|(zhì)量;
5)數(shù)據(jù)挖掘。算法在這一步得到具體的實(shí)現(xiàn),開(kāi)發(fā)者將對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)信息進(jìn)行挖掘;
6)解釋和評(píng)價(jià)。分析和驗(yàn)證上一步的挖掘結(jié)果,并從中找到有價(jià)值的信息,將其集成到教師的教學(xué)環(huán)節(jié)和學(xué)生的學(xué)習(xí)環(huán)節(jié)中去,使教師和學(xué)生可利用所得信息改進(jìn)教和學(xué)的策略,指導(dǎo)學(xué)生進(jìn)一步更好的學(xué)習(xí)。
3.2數(shù)據(jù)挖掘的方法
在實(shí)際應(yīng)用中需要根據(jù)對(duì)信息的實(shí)際需求選擇恰當(dāng)?shù)耐诰蛩惴āMㄟ^(guò)對(duì)幾種常用的數(shù)據(jù)挖掘方法進(jìn)行比較和分析,本文選擇了以下兩種適合的算法:關(guān)聯(lián)分析方法以及決策樹(shù)分類方法。
1)關(guān)聯(lián)分析
利用關(guān)聯(lián)分析對(duì)數(shù)據(jù)進(jìn)行挖掘的目的就是挖掘出隱含在數(shù)據(jù)之間的關(guān)系。首先給定一組或一個(gè)記錄的集合,然后,通過(guò)分析此記錄集合從而推導(dǎo)出信息之間的相關(guān)性[5]。一個(gè)適用于關(guān)聯(lián)規(guī)則的最有說(shuō)服力的例子就是“90%客戶在購(gòu)買黃油和面包的同時(shí)也會(huì)選擇購(gòu)買牛奶”,即:規(guī)則“購(gòu)買黃油和面包也會(huì)同時(shí)購(gòu)買牛奶”的信息可信度高達(dá)90%。在大型的數(shù)據(jù)庫(kù)系統(tǒng)中,類似的關(guān)聯(lián)規(guī)則會(huì)產(chǎn)生很多,因此需要開(kāi)發(fā)者進(jìn)行篩選。一般來(lái)說(shuō),我們會(huì)采用 “可信度”和“支持度”這兩個(gè)閩值去淘汰一些沒(méi)有太多實(shí)際意義的規(guī)則。
關(guān)聯(lián)規(guī)則算法主要 有以下兩個(gè)步驟:第一步要求開(kāi)發(fā)者查找出所有的頻繁項(xiàng)集。頻繁項(xiàng)集就是指其支持度大于或是等于最小支持度的那些項(xiàng)目集。第二步是指由頻繁項(xiàng)集所產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則,即所產(chǎn)生的以上規(guī)則一定要滿足最小置信度和最小支持度[6]。
在實(shí)際教學(xué)中應(yīng)用關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法對(duì)學(xué)生成績(jī)信息進(jìn)行分析和處理,研究課程的開(kāi)設(shè)先后關(guān)系以及各門課程的成績(jī)相關(guān)性,分析的結(jié)果將對(duì)一些課程的教與學(xué)提供很多有用的信息,使高校的教學(xué)工作邁上一個(gè)新的臺(tái)階。
2)決策樹(shù)算法對(duì)學(xué)生成績(jī)的分析
決策樹(shù)算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,用來(lái)形成數(shù)據(jù)挖掘的預(yù)測(cè)模型和分類器,同時(shí)可以對(duì)大量未知數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類、數(shù)據(jù)的預(yù)處理以及數(shù)據(jù)挖掘等。通常包括兩部分:樹(shù)的生成和樹(shù)的剪枝[7]。
使用決策樹(shù)算法來(lái)提取分類規(guī)則時(shí),規(guī)則使用以“if——then”的形式表示。決策樹(shù)算法和其他算法相比具有以下的優(yōu)勢(shì):處理速度較快;從結(jié)果上來(lái)說(shuō),分類準(zhǔn)確率也更相近,算法更容易轉(zhuǎn)換為SQL語(yǔ)句。
4 結(jié)論
利用數(shù)據(jù)挖掘技術(shù)進(jìn)行高校學(xué)生的成績(jī)、心理分析和德育評(píng)估、教學(xué)及管理決策、教學(xué)質(zhì)量評(píng)估等,能夠?yàn)閷W(xué)生、教師以及教學(xué)管理人員等用戶提供相應(yīng)的數(shù)據(jù)信息支持,對(duì)教務(wù)管理和教學(xué)過(guò)程有著極為重要的指導(dǎo)意義,同時(shí)也為高校教與學(xué)、管理與決策的服務(wù)提供了一種新的思路。
參考文獻(xiàn)
[1]劉春陽(yáng),數(shù)據(jù)挖掘技術(shù)在高校成績(jī)管理中的應(yīng)用研究,學(xué)位論文大連交通大學(xué),2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]劉軍.決策樹(shù)分類算法的研究及其在教學(xué)分析中的應(yīng)用[D].河海大學(xué),2006.
[4]鄧景毅.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘綜述[J].電腦學(xué)習(xí),2006(3):2-3.
篇9
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場(chǎng)營(yíng)銷等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過(guò)程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫(kù)當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來(lái)對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過(guò)程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問(wèn)題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來(lái)解決這些難題,在故障診斷的過(guò)程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來(lái)看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹(shù)方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說(shuō)根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測(cè),并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過(guò)程也就是該模式匹配和獲取的過(guò)程。
2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來(lái)說(shuō),首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無(wú)章的信息樣本庫(kù)中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通常可以借助概率統(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來(lái)的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來(lái)源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫(kù)中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫(kù)的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時(shí)間段、報(bào)告類型、設(shè)備型號(hào)以及單位等進(jìn)行查詢,實(shí)現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫(kù)中所保存的一些整定阻抗值,可以通過(guò)邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過(guò)程的簡(jiǎn)述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。
四、結(jié)語(yǔ)
隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測(cè)系統(tǒng),對(duì)設(shè)備運(yùn)行過(guò)程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。
參考文獻(xiàn):
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動(dòng)化設(shè)備,2011,9
篇10
CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過(guò)富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠(chéng)和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過(guò)客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。
二、數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱DM),簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過(guò)關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場(chǎng)購(gòu)買商品時(shí),哪些商品被購(gòu)置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同商品的聯(lián)系,進(jìn)而反映客戶的購(gòu)買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過(guò)分析客戶在購(gòu)買A商品后,必定(或大部分情況下)隨著購(gòu)買B商品,來(lái)發(fā)現(xiàn)客戶潛在的購(gòu)買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過(guò)顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購(gòu)買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫(kù)中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。
三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
1.進(jìn)行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來(lái)提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來(lái),以便在數(shù)據(jù)庫(kù)里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過(guò)數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。
2.進(jìn)行客戶識(shí)別和保留
(1)在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶
這時(shí)可以采用DM中的分類方法。首先是通過(guò)對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來(lái)對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫(kù),給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫(kù)內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購(gòu)習(xí)慣、購(gòu)書資金、計(jì)劃等屬性的描述,顧客被分類為是或否會(huì)成為購(gòu)買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫(kù)中時(shí),就對(duì)該新顧客的購(gòu)買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。
(2)在客戶保留中的應(yīng)用
客戶識(shí)別是獲取新客戶的過(guò)程,而客戶保留則是留住老顧客、防止客戶流失的過(guò)程。對(duì)企業(yè)來(lái)說(shuō),獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過(guò)程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過(guò)廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒(méi)有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購(gòu)買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。
(3)對(duì)客戶忠誠(chéng)度進(jìn)行分析
客戶的忠誠(chéng)意味著客戶不斷地購(gòu)買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過(guò)會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
(4)對(duì)客戶盈利能力分析和預(yù)測(cè)
對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰(shuí)才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來(lái)劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來(lái)分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷。
篇11
一、數(shù)據(jù)挖掘概述
所謂的數(shù)據(jù)挖掘,具體指的就是在海量且模糊隨機(jī)數(shù)據(jù)當(dāng)中提取出隱含其中,同時(shí)具有潛在價(jià)值的信息與知識(shí)過(guò)程。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在教育教學(xué)當(dāng)中,可以對(duì)海量數(shù)據(jù)予以深入挖掘與分析,進(jìn)而獲得數(shù)據(jù)當(dāng)中所隱含的潛在信息內(nèi)容,更好地為高校教育教學(xué)管理人員決策提供有力支持[1]。
二、高校教育教學(xué)管理中的數(shù)據(jù)挖掘技術(shù)應(yīng)用
2.1在教學(xué)質(zhì)量提升方面的應(yīng)用
高等院校為了更好地提高教學(xué)管理的質(zhì)量,教務(wù)管理部門會(huì)在學(xué)期期末測(cè)評(píng)學(xué)員領(lǐng)導(dǎo)與任課教師的教學(xué)思想、態(tài)度以及教學(xué)方法等,并且根據(jù)最終的評(píng)分結(jié)果來(lái)明確教師的教學(xué)質(zhì)量。然而,受評(píng)價(jià)人員對(duì)標(biāo)準(zhǔn)理解以及把握程度的影響,學(xué)生評(píng)價(jià)仍存在隨意性特征。
在這種情況下,導(dǎo)致評(píng)分結(jié)果很難對(duì)教學(xué)效果進(jìn)行真實(shí)地反映,因而也影響了教學(xué)質(zhì)量的評(píng)估。
但是,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在教學(xué)質(zhì)量評(píng)估方面,通過(guò)對(duì)關(guān)聯(lián)規(guī)則算法的合理運(yùn)用,可以將教學(xué)質(zhì)量評(píng)價(jià)當(dāng)中的不同指標(biāo)權(quán)重系數(shù)進(jìn)行設(shè)定,并通過(guò)Apriori的算法來(lái)掃描數(shù)據(jù)集,在數(shù)據(jù)挖掘的作用下,獲取學(xué)歷、年齡以及職稱三者之間存在的聯(lián)系,同樣也可以獲得教學(xué)質(zhì)量和方法的關(guān)系[2]。
為此,高校教務(wù)管理部門就可以將獲得的規(guī)律應(yīng)用在教學(xué)管理實(shí)踐當(dāng)中,合理地設(shè)置督學(xué)小組并制定出聽(tīng)課制度,將教學(xué)課堂教學(xué)的質(zhì)量真實(shí)且客觀地反映出來(lái),實(shí)現(xiàn)高校教學(xué)水平的全面提升。
2.2課程體系結(jié)構(gòu)的有效完善
高等院校教育體系當(dāng)中的專業(yè)建設(shè)作用十分重要,所以,必須要具備高質(zhì)量的課程體系結(jié)構(gòu)設(shè)置。在對(duì)學(xué)生成績(jī)數(shù)據(jù)庫(kù)以及畢業(yè)生去向數(shù)據(jù)庫(kù)等多種數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘以后,可以通過(guò)對(duì)關(guān)聯(lián)分析與序列模式的分析和探究,獲得數(shù)據(jù)與數(shù)據(jù)間存在的相關(guān)性。
其中,課程間的關(guān)系和先后順序亦或是課程和課程體系結(jié)構(gòu)之間的關(guān)系等等。在此基礎(chǔ)上,保證學(xué)習(xí)高級(jí)課程前事先學(xué)習(xí)先行課程。以計(jì)算機(jī)專業(yè)《數(shù)據(jù)結(jié)構(gòu)》為例,在教學(xué)中將《C語(yǔ)言》作為重要的先行課程,以保證學(xué)生在學(xué)習(xí)《數(shù)據(jù)結(jié)構(gòu)》內(nèi)容的時(shí)候可以具備良好語(yǔ)言基礎(chǔ),更深入地理解并靈活地應(yīng)用數(shù)據(jù)結(jié)構(gòu)當(dāng)中的算法。
而在完成《數(shù)據(jù)結(jié)構(gòu)》學(xué)習(xí)以后,應(yīng)根據(jù)學(xué)生就業(yè)走向和市場(chǎng)的實(shí)際需求來(lái)確定是否安排《JAVA語(yǔ)言程序設(shè)計(jì)》課程教學(xué)。這樣一來(lái),學(xué)生的學(xué)習(xí)成績(jī)實(shí)現(xiàn)了有效地提高,更利于學(xué)生未來(lái)就業(yè)。除此之外,對(duì)內(nèi)容重復(fù)的課程進(jìn)行有效地壓縮,將落后的課程內(nèi)容適當(dāng)?shù)貏h除,與專業(yè)特點(diǎn)相結(jié)合。
由此可見(jiàn),將數(shù)據(jù)挖掘技術(shù)應(yīng)用在高校教學(xué)中,對(duì)于專業(yè)建設(shè)以及課程改革決策具有積極的作用。
三、網(wǎng)絡(luò)教學(xué)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用
在網(wǎng)絡(luò)教學(xué)中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以從Web文件以及Web活動(dòng)當(dāng)中選擇出用戶較為感興趣的有價(jià)值模式以及信息,這就是所謂的Web挖掘[3]。因?yàn)榻邮芙逃龑?duì)象在多個(gè)方面都存在差異,具體表現(xiàn)在個(gè)人學(xué)習(xí)目標(biāo)、學(xué)習(xí)能力與知識(shí)基礎(chǔ)的差異等。為此,網(wǎng)絡(luò)教學(xué)也必須要能夠適應(yīng)個(gè)性化的學(xué)習(xí)需求。可以把不同用戶學(xué)習(xí)狀況與軌跡詳細(xì)記錄并存放至數(shù)據(jù)庫(kù)當(dāng)中,通過(guò)對(duì)WEB挖掘技術(shù)的合理運(yùn)用,在序列模式挖掘的作用下合理地分類文檔,以保證學(xué)生信息檢索速度的提高。
另外,也可以根據(jù)學(xué)生訪問(wèn)瀏覽的數(shù)據(jù)挖掘并分析,針對(duì)訪問(wèn)的數(shù)據(jù)展開(kāi)聚類分析,以保證更好地了解學(xué)生感興趣的內(nèi)容,并為其推送相關(guān)內(nèi)容。與此同時(shí),可以在相關(guān)聯(lián)的頁(yè)面當(dāng)中合理地設(shè)置超鏈接,對(duì)網(wǎng)站結(jié)構(gòu)予以有效地改善,確保頁(yè)面間的鏈接與用戶訪問(wèn)的習(xí)慣更吻合。
結(jié)束語(yǔ):
總而言之,在高校教育教學(xué)中合理地運(yùn)用數(shù)據(jù)挖掘技術(shù)可以在大量數(shù)據(jù)信息當(dāng)中處理并提取出更具價(jià)值的信息內(nèi)容,促進(jìn)高等院校教育教學(xué)管理工作的正常開(kāi)展,特別是評(píng)估與決策方面,數(shù)據(jù)挖掘技術(shù)的作用更為明顯。
除此之外,該技術(shù)也可以應(yīng)用在網(wǎng)絡(luò)教學(xué)當(dāng)中,使得網(wǎng)絡(luò)教學(xué)資源配置更加合理,在教育教學(xué)中充分發(fā)揮自身的效用。上文針對(duì)數(shù)據(jù)挖掘技術(shù)在高校教育教學(xué)中的實(shí)際應(yīng)用展開(kāi)了相關(guān)性地研究和分析,主要的目的就是為了更好地幫助高校進(jìn)行決策,為學(xué)生提供更為理想的學(xué)習(xí)環(huán)境,在提高學(xué)生學(xué)習(xí)興趣的基礎(chǔ)上,增強(qiáng)高校教育教學(xué)的質(zhì)量與效率。
參考文獻(xiàn)
篇12
1方法
筆者所統(tǒng)計(jì)的文獻(xiàn)數(shù)據(jù)全部來(lái)源于美國(guó)ISI的SCI網(wǎng)絡(luò)版(SCIofWeb),以與文本挖掘相關(guān)的自由詞textmining,Literaturemining,Knowledgediscoveryintext,Textdatamining和以生物醫(yī)學(xué)相關(guān)的自由詞Biomedicine,Systemsbiology,Medicine,Genomics,Proteomics,Metabolomics,Bioinformatics,Biology,TraditionalChineseMedicine對(duì)上述數(shù)據(jù)庫(kù)進(jìn)行主題詞搜索。然后對(duì)下載的所有文獻(xiàn)進(jìn)行數(shù)據(jù)的篩選和清理后,最終選擇納入文獻(xiàn)797篇。檢索完成時(shí)間為2014年3月20日。
2結(jié)果
2.1年度發(fā)表量我們整理出來(lái)的2004~2013年生物醫(yī)學(xué)領(lǐng)域文本挖掘文獻(xiàn)總共有797篇,每年的發(fā)文數(shù)量從2004年的43篇到2013年的124篇,總體呈現(xiàn)增長(zhǎng)趨勢(shì)。
2.2國(guó)家/地區(qū)經(jīng)統(tǒng)計(jì),在所有797篇文章中總共有53個(gè)國(guó)家參與了文章的發(fā)表,遍及全世界五個(gè)大洲,但各個(gè)大洲的對(duì)該領(lǐng)域的研究極不平衡。雖然歐洲有著最高的發(fā)文總量,但是北美洲的美國(guó)卻以最高發(fā)文量(289篇)位居全球國(guó)家排名的第一位,緊隨其后的是英國(guó)(125)和中國(guó)(82).
2.3高被引論文根據(jù)普賴斯定律[3]可以算出在納入統(tǒng)計(jì)的文獻(xiàn)中被引頻次≥42的為高被引文獻(xiàn)(注:Mp=42.21,Npmax=3177)。797篇文獻(xiàn)中被引頻次≥42的論文共79篇。高被引論文排名前3位的文章為。《SystematicandintegrativeanalysisoflargegenelistsusingDAVIDbioinformaticsresources》(被引3177次),《TheGeneOntologyAnnotation(GOA)Database:sharingknowledgeinUniprotwithGeneOntology》(366次)和《RegulonDB(version6.0):generegulationmodelofEscherichiacoliK-12beyondtranscription,active(experimental)annotatedpromotersandTextpressonavigation》(274次)
2.4核心作者分析在生物醫(yī)學(xué)領(lǐng)域文本挖掘研究的797篇文獻(xiàn)中,共有2565位作者(包含所有合著者),根據(jù)普賴斯定律,核心作者最低發(fā)文數(shù)m的值為:。其中指發(fā)文最多的作者發(fā)表的論文數(shù)。本次研究中為23,故m取整數(shù)為4。作者論文4篇以上為80人,其發(fā)表的論文為468篇,占總論文量58.7%,高于總論文數(shù)的50%,說(shuō)明在生物醫(yī)學(xué)領(lǐng)域的文本挖掘研究已經(jīng)形成了較為穩(wěn)定的研究群體。
3結(jié)論
篇13
網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、軟件工程方法等快速發(fā)展和改進(jìn),醫(yī)院已經(jīng)上線了門診掛號(hào)系統(tǒng)、醫(yī)學(xué)影像管理系統(tǒng)、病歷檔案管理系統(tǒng)、藥房管理系統(tǒng)、病房管理系統(tǒng)等,這些系統(tǒng)保存了海量的病例信息[1]。
目前,醫(yī)院在開(kāi)展診斷、治療過(guò)程中,已經(jīng)開(kāi)始實(shí)施精準(zhǔn)化治療模式,因此利用支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)、遺傳算法、K近鄰算法等數(shù)據(jù)挖掘技術(shù)總結(jié)、分析病例中診斷治療成功的信息顯得尤為重要,已經(jīng)成為醫(yī)院信息化發(fā)展的趨勢(shì)和方向[2]。
二、數(shù)據(jù)挖掘技術(shù)及應(yīng)用分析
數(shù)據(jù)挖掘技術(shù)經(jīng)過(guò)多年的研究和改進(jìn),已經(jīng)提出了許多先進(jìn)的算法,伴隨著多媒體、云計(jì)算、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,數(shù)據(jù)挖技術(shù)已經(jīng)在醫(yī)療衛(wèi)生等多個(gè)領(lǐng)域取得了顯著的應(yīng)用,為人們提供了豐富的數(shù)據(jù)內(nèi)容和有價(jià)值的信息。在醫(yī)療診斷、治療過(guò)程中,醫(yī)院已經(jīng)在主治醫(yī)師自動(dòng)化推薦、醫(yī)學(xué)圖像識(shí)別分析等領(lǐng)域取得了顯著的成效,開(kāi)發(fā)了智能醫(yī)療專家系統(tǒng)、醫(yī)院發(fā)展智能決策庫(kù)系統(tǒng)等,歸納起來(lái),醫(yī)院診療過(guò)程中常用的數(shù)據(jù)挖掘算法主要包括支持向量機(jī)、K近鄰算法、BP神經(jīng)網(wǎng)絡(luò),利用這些算法可以從宏觀、微觀等多維度挖掘醫(yī)院信息數(shù)據(jù)中潛在的有價(jià)值信息,指導(dǎo)醫(yī)院開(kāi)展診療工作和行政管理,具有重要的作用[3]。
2.1支持向量機(jī)
支持向量機(jī)是一種基于分類的大數(shù)據(jù)挖掘技術(shù),該挖掘技術(shù)可以針對(duì)非線性、高維空間的樣本數(shù)據(jù)實(shí)現(xiàn)挖掘分析,能夠利用核函數(shù)等優(yōu)化數(shù)據(jù)挖掘過(guò)程,從海量的醫(yī)院信息數(shù)據(jù)中挖掘高價(jià)值信息,并且能夠?yàn)獒t(yī)療診斷提供病灶定位、圖像識(shí)別等決策知識(shí)。支撐向量機(jī)可以與遺傳算法、模糊數(shù)學(xué)、粒子群等思想集成在一起,實(shí)現(xiàn)算法優(yōu)化,挖掘更多的信息知識(shí)。
2.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種自適應(yīng)和自組織的大數(shù)據(jù)挖掘技術(shù),其可以從海量數(shù)據(jù)中挖掘樣本數(shù)據(jù)特征,把數(shù)據(jù)劃分為多個(gè)類別,以便能夠獲取有價(jià)值的潛在信息。目前,BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)具備數(shù)據(jù)分布式存儲(chǔ)、并行處理和較強(qiáng)的容錯(cuò)能力等特點(diǎn),并且具備非常強(qiáng)大的抗干擾能力。神經(jīng)網(wǎng)絡(luò)主要包括輸入層、學(xué)習(xí)層和輸出層,每一層都可以設(shè)置不同的權(quán)值,并且這些權(quán)值可以自適應(yīng)調(diào)整,提高算法的自適應(yīng)能力和優(yōu)化能力。
2.3 K近鄰算法
K近鄰算法采用線性統(tǒng)計(jì)分類算法,已經(jīng)數(shù)據(jù)挖掘算法中得到了廣泛的普及,是一種非常成熟的算法。K近鄰算法的思路如下:給定一個(gè)樣本數(shù)據(jù),計(jì)算該樣本與K個(gè)樣本相似程度,選擇相似程度最大的一個(gè)類別,將該樣本劃分為這個(gè)類別中[4]。
三、數(shù)據(jù)挖掘在病例分析中的應(yīng)用
數(shù)據(jù)挖掘在病例分析中的應(yīng)用主要包括以下三個(gè)關(guān)鍵內(nèi)容:
3.1基于病例分析結(jié)果為患者推薦醫(yī)師
患者在就診過(guò)程中,為了提高患者參與的積極性、主動(dòng)性和精確性,利用數(shù)據(jù)挖掘構(gòu)建一個(gè)模型,該模型可以錄入患者的病歷信息,然后模型自動(dòng)與數(shù)據(jù)庫(kù)保存的病例進(jìn)行對(duì)比分析,尋找治療措施最優(yōu)的醫(yī)師推薦給患者。
3.2構(gòu)建智能病例信息專家?guī)?/p>
醫(yī)院在開(kāi)展診斷、治療業(yè)務(wù)時(shí),難以避免誤診,誤診的原因很多,比如患者自身體質(zhì)、患者隱瞞病史、醫(yī)師判斷不準(zhǔn)確等,為了提高醫(yī)院診斷、治療的精準(zhǔn)化,可以構(gòu)建智能病例信息專家?guī)欤詣?dòng)化的分析診斷失敗、治療不成功的原因,從而全面提升醫(yī)院救治水平。
3.3構(gòu)建遠(yuǎn)程會(huì)診推薦系統(tǒng)
目前,醫(yī)院通過(guò)互聯(lián)網(wǎng)可以與上級(jí)醫(yī)院、科研結(jié)構(gòu)合作會(huì)診,會(huì)診過(guò)程中,利用數(shù)據(jù)挖掘技術(shù)可以更加清晰地識(shí)別核磁共振、CT等醫(yī)學(xué)圖像中的病灶部位,提高診斷的準(zhǔn)確性,便于設(shè)計(jì)治療方案。
四、結(jié)束語(yǔ)
隨著醫(yī)院信息化水平的提升,醫(yī)院信息化系統(tǒng)運(yùn)行積累的海量數(shù)據(jù)資源是一座非常寶貴的財(cái)富,與BP神經(jīng)網(wǎng)絡(luò)、遺傳算法等先進(jìn)的挖掘技術(shù)相整合,可以從中發(fā)掘潛在的指導(dǎo)救治知識(shí),有利于提高醫(yī)院科研、治療水平,更好的救死扶傷,保護(hù)人們的生命健康。
參 考 文 獻(xiàn)
[1] 陳曉琛. 醫(yī)院病案信息系統(tǒng)的數(shù)據(jù)挖掘在醫(yī)院中的重要意義[J]. 當(dāng)代醫(yī)學(xué), 2014, 31(25):8-9.