引論:我們為您整理了13篇數據挖掘技術探討論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
篇2
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世紀90年代興起的數據倉庫和數據挖掘是數據庫研究、開發和應用中最活躍的兩個領域。隨著其理論及應用技術和產品的不斷成熟與發展,數據倉庫與數據挖掘不僅成為高等院校計算機專業、信息技術與信息管理類專業碩士、博士研究生的專業課程,而且相繼在本科相關專業高年級學生中開設了該課程。
該課程是一門綜合性和實踐性很強的課程,其內容新且廣,對于本科教學有一定的難度。本文針對課程自身特點及高年級學生學習及能力培養需要,結合自身教學實踐,探討以激發學生學習興趣為著眼點、學生分析解決問題能力培養為目的的研討型教學模式。
文中章節1具體介紹課程內容、教學過程中存在的問題及研討型教學模式;在章節2中,以自身的教學實踐為例,給出研討型教學實踐效果及該方法應用的注意事項;最后,是結論部分。
1 本科數據倉庫與數據挖掘課程教學
1.1 課程教學內容
數據倉庫與數據挖掘課程涉及兩方面的教學內容:①數據倉庫技術和基于數據倉庫的聯機分析處理應用技術。具體包括數據倉庫的基本概念、創建技術和方法、數據倉庫的體系結構以及OLAP的基本概念、多維數據庫、OLAP的實現技術。②數據挖掘的基本概念、基本方法和基本技術(包括分類、預測、關聯、聚類等),以及數據挖掘的應用。
1.2 課程在本科教學過程中存在的問題
⑴ 教學內容不統一
由于該課程是一門綜合性很強的課程,涉及到的學科知識很廣,加上在本科教學中開設的時間并不長,也沒有得到大家一致認可的相應教材供使用,使得開設該課程的不同高校的教學內容與教學重點各不相同,即便是同一學校不同教師對于教學內容的把握上也有很大差異。
⑵ 傳統教學方法的不適用性
雖然本課程涉及內容寬泛,而且是在已具備自主學習能力的本科高年級學生中開設的,但是課程的教學方法卻多采用傳統的以教師講授為主、學生為輔的教學模式。
從本科教學過程中存在的問題可見:課程授課對象及課程自身的特點,決定了傳統教學方法的不適用性[1-3]。因此,有必要探討新的教學模式在具體教學實施過程中的應用。
1.3 研討型教學模式
雖然課程涉及到的學科內容廣且深,但是對于已學習高等數學,并熟悉數據庫知識和具備程序設計能力的高年級學生而言,還是能較好地掌握數據倉庫的建模以及經典數據挖掘算法的實現與簡單應用。因此,在課程的教學實踐中,我們把該部分內容作為課堂教學的重點;對于一些較難的和新的挖掘算法與技術,及其應用和最新發展趨勢,則作為學生研討內容。
作為傳統的教師講解教學模式的有益補充和提高,開展研討型的教學模式,可以按照如下四個環節開展:
⑴ 教師出題&學生選題;
⑵ 相關文獻查閱;
⑶ 報告撰寫;
⑷ 課堂匯報與討論。
第一步,由教師出題,學生選題。在學期初,就由教師給出研討的主題供學生選擇。這樣既可以避免學生選題過于盲目,也可以避免最后課堂討論階段的研討內容偏離課程教學主題。
第二步,相關文獻查閱。在接下來的課程教學期間,學生除了保證基本的學習內容的掌握之外,還需要利用課余時間,利用各種手段查閱與選題相關的文獻,為報告的撰寫和匯報階段做充分的準備。
第三步,報告撰寫。經過大量的文獻閱讀后,學生需撰寫文獻閱讀報告,報告的撰寫格式可以參考畢業設計的要求。
第四步,課堂匯報與討論。在課程后期,教師在每次課堂上抽取一定的時間,供學生課堂匯報,然后其他學生與教師一起針對學生的匯報內容展開討論。該環節的開展,既開拓了學生的視野,又可以有效地避免部分學習不認真的學生的應付行為。
從教師出題到最后的學生課堂匯報與討論,每個環節都要求學生的親自參與。這樣,在課時有限的情況下,以研討型的教學模式開展教學,既可以保證教學內容的講授,又能使學生主動參與到課堂教學中來,激發了學生的學習主動性,拓寬了學生的視野。
2 研討型教學實踐效果及注意事項
2.1 教學及其效果
我校在大四計算機專業學生中開設該課程。其中,理論32學時,實驗16學時,共計48學時。教材采用韓家煒先生編著的《數據挖掘:概念與技術》一書[4]。該教材是得到業內廣泛認可的經典教科書,但教材內容偏重理論。為了在有限的課時內,讓學生盡可能掌握基本教學內容,使得研討型教學模式得以開展,我們以李志剛編著的《數據倉庫與數據挖掘的原理與應用》作為相關內容的輔助教材[5]。具體地,按如下方式進行。
2.1.1 教學內容及學時分配
教學內容圍繞數據倉庫與數據挖掘兩條主線展開。涉及的相關內容及學時分配如表1所示。
2.1.3 考核方式
期末總成績=平時成績25%+文獻報告25%+期末卷面成績50%
在最近兩年的研討型教學模式實踐中,我們選出有代表性的學生作品,如表3所示。
2.2 教學注意事項
研討型教學模式適用于“數據倉庫與數據挖掘”課程的教學,但是在相應課程中開展研討型的課程教學模式需注意以下幾點。
⑴ 注意授課對象的選擇。文獻資料的查閱、文獻閱讀報告的撰寫以及課堂匯報是研討型教學模式開展過程中的主要環節,而這些環節要求學生所需具備的能力,不適于在低年級學生中開展。
⑵ 注意教學模式的選用。研討型教學模式不能代替傳統的教師講解的教學模式,而應是兩者的有機結合。
⑶ 注意考核方式的改革。研討型教學模式的開展,除占用一定的課堂教學時間之外,還需要學生花費大量的課外時間用以查閱文獻資料、撰寫報告等。如果采用傳統的以考試為主的考核方式,那么在實踐過程中可能會遇到部分學生的抵制。因此,為了提高研討型教學模式的效果,需要對傳統的以期末筆試成績為主的評價方式進行適當改革,向研討內容及成果傾斜,以提高學生的積極性。
3 結束語
研討型教學模式的開展,可以有效地避免傳統教學方法下以教師講解為主,以學生為輔的填鴨式教學模式,較好地解決數據倉庫與數據挖掘課程在本科教學過程中遇到的問題。
經過近幾年在本科計算機專業畢業班對該課程采用研討型教學模式的實踐表明,該模式的開展不僅有效地激發了學生的學習興趣,開拓了學生的視野,而且能夠很好地為學生的畢業設計環節中有關文獻查詢、論文撰寫及答辯等奠定基礎。從列舉的近兩年的代表性學生研討內容及成果中可以看到,該教學模式在高年級學生中開展是現實可行的,而且也是有效的。
研討型教學模式的開展,需要占用一定的教學時間,如何在有限的課時內保證教學內容,并擠出足夠的時間開展研討是教師必須考慮的問題;與此同時,學生為準備研討內容需要花費大量的課余時間,因此,如何調動學生的積極性也是該模式能否成功應用的關鍵因素之一。上述兩方面的問題,都有待在今后的教過實踐中,進一步深入細化該模式,以更好地達到教學培養目標。
參考文獻:
[1] 徐金寶.對應用型本科生開設數據挖掘課程的嘗試[J].計算機教育,
2007.7:27-29
[2] 胡建軍.淺談數據倉庫與數據挖掘的本科教學[J].廣西科學院學報,
2007.23(3):209-210,214
[3] 韋艷艷,張超群.“數據倉庫與數據挖掘”課程教學實踐與探索[J].高
教論壇,2011.1:94-96,99
[4] 李志剛,馬剛.數據倉庫與數據挖掘的原理及應用[M].高等教育出版
篇3
數據挖掘技術可以從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術把獲取的信息和知識提供給決策支持系統。這種技術已廣泛地用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等[1,2,3] ,隨著信息技術的發展,數據挖掘在網絡教學中的應用研究也逐漸深入[4,5,6] 。網絡教學成為一種新型教學手段,理論上學習者可以在任何時間、任何地點以任何形式、從任何章節開始學習任何內容,實現個性化學習。但在網絡教學實施過程中,教學內容和組織活動卻不能隨著學生的學習狀況發生動態變化,導致了教與學脫離的現象,教學效果達不到預期效果。因此可以利用該技術對收集到的與學生學習相關的歷史數據進行分析,從而可以為教師深入理解學生的實際學習情況,制定相關的教學目標供 其學習提供有力的決策支持,是提升教學效果的有力手段。
一 擬解決的關鍵問題
本文探討 在現有的網絡教學平臺基礎上,以在教學信息數據庫中采集到的學生學習記錄為樣本,應用數據挖掘技術,挖掘有用的規則,探討學生的學習習慣, 學習興趣和學習成績間的關系,從而及時了解學生對每一章節知識的掌握程度并根據每個學生的情況制定下一章節的教學目標,為其提供不同的教學內容,從而使教學更適合學生
個性的發展,實現網絡分層教學,最終實現教學過程的動態調節。
二 數據預處理
由于人為的原因、設備的故障及數據傳輸中的錯誤,導致現實世界的數據含有臟的、不完整的和不一致的數據。數據預處理技術可以檢測數據異常,調整數據并歸約待分析的數據,從而改進數據的質量,提高其后挖掘過程的精度和性能。
本文數據源于《數據結構》網絡教學課程,48節理論課,24節實驗,4.5個學分。學生111人,其中06級信息與計算科學專業班合計64人,07級地理信息系統專業一個班計47人。針對1節提出的問題,本文通過對網絡教學平臺教學信息數據庫中的學生信息表、學生學習進度表、測試信息表等進行數據挖掘,說明其在網絡教學中的應用。各表結構如表1至表3所示(本文中學生信息經過掩飾處理)。
其中內容是指客觀性考題,如單項選擇題等。主觀性考題,如算法設計之類考題可以以教師組織的BBS討論為依據評分,在此以有效討論次數(有實質性的討論內容)計算。
首先去除數據表中的冗余信息,如學生信息表中除學號信息以外的各分項信息,每一章節學習進度表中的節、日期信息,每章測試信息表中的題號、內容、答案等信息;對某些匯總數據項進行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個組并概化為不及格,合格和優秀三個層次;學習時間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個組,單位:小時;學習次數匯總后分為(0,3),(3,6),(6,)等 三個組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個層次[7];同時下一章節的教學目標制定為三個層次,內容呈現分別表示為A類、B類、C類三個層次的內容,提供給學生學習。然后檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理。經過數據預處理工作,得到一張描述學生學習過程信息的數據表格,表4是我們整理出的某一章節的學生學習情況數據。
三 數據挖掘過程
主要是利用關聯分析、序列模式分析、分類分析和聚類分析等分析方法對數據庫中的潛在規則進行挖掘。針對1節中提出的問題,根據國內外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關聯規則挖掘算法進行關聯規則挖掘和用于 分類模型判定樹歸納算法進行數據挖掘。
1 關聯規則挖掘
關聯規則挖掘可以發現大量數據中項集之間有趣的關聯或相關聯系,通過這種挖掘技術對表4進行挖掘,可以發現學生的學習時間、學習次數及網絡課堂討論和學習效果之間的關系,使教師了解學生的網上學習行為和目標掌握程度,幫助教師調整教學計劃,如設計有意義的討論課題提升學生的學習興趣,從而間接增加學生的學習時間和學習次數。
首先給出關聯規則的形式化描述:設 是m個項的集合,D是數據庫事務的集合,每個事務有一個標識符。關聯規則就是形如 的蘊含式,其中 ,并且 。規則的支持度記為 ,是事務D中包含的 事務數與所有事務數之比,置信度記為 ,是指包含的 事務數與包含的 事務數之比。
給定事務數據庫D挖掘關聯規則問題就是產生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關聯規則。
表5是使用FP-Tree算法對學生學習情況表進行挖掘得到的一系列關聯規則(因篇幅限制,本文僅列出部分內容)。
從上表可以看出,學習時間在6小時以上并且成績為優秀的同學占全班的20.51%,學習時間6小時以上的同學中有34.78%的學生成績為優秀。學習時間在2小時以下的并且成績不及格的同學占全班的7.69%,學習時間2小時以下的同學中有75%的學生成績不及格。學習時間在6小時以上,學習次數多于6次且成績為優秀的學生占全班的7.69%,這部分同學中有75%也積極參與BBS討論,而學習時間少于2小時,次數少于3次,基本不參與討論的同學,不及格率為100%,這部分同學占全班的7.69%。比例明顯偏高,需要調整教學的內容和設計討論問題以提高學生的興趣。從表中還可以看出,學習次數多于6次的學生中有92.31%的學生其學習時間一般也會超過6小時,這部分學生占全班的61.54%,通過關聯規則的挖掘,可以掌握學生網上學習行為,從而為教師的教學策略調整提供依據,可以更好地進行學生的培養。
2 分類模型挖掘
著名的心理學家、教育學家布盧姆提出的掌握學習理論認為:“只要在提供恰當的材料和進行教學的同時給每個學生提供適度的幫助和充分的時間,幾乎所有的學生都能完成學習任務或達到規定的學習目標”。
通過構造判定樹可以建立學生分層教學模型,并依據判定樹為學生提供不同層次的教學內容而 實現對學生的網絡分層教學。分類模型判定樹歸納算法主要表述為計算每個屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創建樹的結點,并以該屬性標記,對屬性的每個值創建分支,并據此劃分樣本。由于樣本數據中存在噪聲或孤立點,通過樹剪枝去除不合理的分支,以提高在未知數據上分類的準確性。據此算法構造的判定樹如圖1所示。
判定樹的第一層條件為每一章節的單元測試成績,分別表示為優秀、合格和不及格。不及格的同學下一章節進入C類教學目標學習,優秀的同學則進入A類教學目標學習,合格的同學則根據學習的次數決定下一章節的教學目標。學習次數為0~2次的同學進入B類教學目標學習,3~5次的同學則需要根據學習時間判定,根據判定樹可知,所有同學進入B類教學目標學習,這和我們日常的判斷邏輯相符,因為學習次數較多,學習時間較長,但成績卻是合格的同學很有可能是因為方法不當等原因導致接受知識能力較差,進入A類目標學習顯然是不合理的。當學習次數大于6次時,可以根據學生參與BBS討論的次數決定學生的下一章節的學習目標,討論次數0~2次的同學其學習目標定為B類,3次以上的同學其學習目標則定為A類,這類學生表現出對知識的渴求,興趣較濃,理解知識的能力相對較強。
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
根據判定樹,可以根據學生學習本章節的實際情況對學生學習下一章節內容的效果進行預測,據此對學生進行分類,提供不同的教學內容供其學習,以提高整體教學質量。
參考文獻
[1] 湯小文,蔡慶生. 數據挖掘在電信業中的應用[J].計算機工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚勇等.電子商務網站推薦系統中關聯規則推薦模型的實現[J].計算機工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數據倉庫的聯機分析挖掘系統[J].計算機工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術及其在網絡教學評價中的應用[J].南京工業大學學報(自然科學版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數據挖掘的遠程學習過程評價系統設計與實現[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬浩.基于數據挖掘的遠程學習者網上學習行為研究[J].中國遠程教育,2008,(5):44-47.
[7] 龔志武.關于成人學生網上學習行為影響因素的實證研究[J].中國電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
篇4
一、數據挖掘的概念
1.1數據挖掘的定義
數據挖掘(Datamining 簡稱DM),可以說是數據庫中的知識發現,它是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的,人們事先不知道的,但又是潛在的,有用的信息和知識的過程。它綜合利用了統計學方法,模糊識別技術、人工智能方法,人工神經網絡技術等相關技術,并對各行各業的生產數據,管理數據和經營數據進行處理、組織、分析、綜合和解釋,以期望從這些數據中挖掘并揭示出客觀規律,反映內在聯系和預測發展趨勢的知識,例如醫學研究人員希望從已有的成千上萬份病歷中找出患有某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。
從數據庫中發現知識(KDD)一詞首先出現在1989年舉行的第一屆國際聯合人工智能學術會議上,到目前為止,美國人工智能協會主辦的KDD國際研討會已經召開了多次,規模由原來的專題討論發展到國際學術大會,研究重點也逐漸從發現方法轉向應用系統,注意多種發現策略和技術的集成,以及多種學科之間的相互滲透,數據挖掘與知識發現已成為當前國際上的一個研究熱點。
1.2 數據挖掘的對象
數據挖掘常見的挖掘對象有:關系(Relational)數據庫、事務(Transactional)數據庫、面向對象(Objected-Oriented)數據庫、主動(Active)數據庫、空間(Spatial)數據庫、時態(Temporal)數據庫、文本(Textual)數據庫、多媒體(Multi-Media)數據庫、異質(Heterogeneous)數據庫以及Web數據庫等。
知識發現(KDD)被認為是從數據中發現有用知識的整個過程,數據挖掘只是數據庫中知識發現的一個步驟,但又是最重要的一步,它用專門算法從數據中抽取模式,原始數據可以是結構化的,如關系型數據庫中的數據,也可以是非結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。
二、數據挖掘的意義
數據挖掘與傳統的數據分析(如查詢報表,聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息,發現知識,數據挖掘所得到的信息應具有先未知,有效和應用三個特征。
先前未知的信息是指該信息是預先未曾預料到的,即數據挖掘是要 發現那些不能靠直覺發現的信息知識,甚至是違背直覺的信息或知識,數據挖掘通過預測未來趨勢及行為,做出前攝的,基于知識的決策。
三、數據挖掘的分類:
數據挖掘的任務就是從數據集中發現模式,模式有很多種,按功能分為兩大類:(1)描述性挖掘,主要刻畫數據庫中數據的一般特性;(2)預測性挖掘,主要任務在當前數據上進行推斷,以進行預測,在實際應用中,往往根據模式的實際作用及數據挖掘的任務分為以下幾類:
(1)關聯分析(associationanalysis):關聯分析以發現關聯規則(association rules)為目標,關聯分析的典型例子是購物籃分析,描述顧客的購買行為(哪些商品常在一起購買)。例如“啤酒和尿布的故事”。
(2)分類(classification):首先分析一個訓練樣本數據集,找到一組能夠描述數據集合典型特征的模型(或函數),然后使用這個模型分類識別未知數據的歸屬或類別,即將未知事例映射到某種離散類別之一,分類的方法很多,主要有決策樹法、貝葉斯法、神經網絡法,近鄰學習或基于事例的學習等方法。例如,利用教師的相關數據(如職稱、學歷教齡等)以及學生對教師的教學評估結果構建分類模型(如決策數),可用于預測某一位新教師未來教學評估的結果,相關知識可用于指導學校人事部門的教師引進工作。
(3)聚類分析(clusteringanalysis):聚類分析所分析處理的數據對象事先無確定的類別屬性,聚類分析的基本原則是:各積聚類(clusters)內部數據對象間的相似度最大化,各聚類對象間的相似度最小化,按照選定的度量數據對象之間相似度的計算公式,遵循聚類分析的基本原則,將數據對象劃分成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大,聚類分析主要應用于模式識別,數據分析,圖像處理以及市場研究。
(4)序列分析(sequenceanalysis):序列分析是通過分析序列數據庫尋找一定的規則和有趣的特征,廣泛應用于對時間序列數據的分析,應用領域涉及經濟學、生物醫學、生態學、大氣和海洋等。控制工程及信號處理,例如,web日志中的數據是典型的時間序列數據,它記錄了用戶與站點的交互信息及時間,對于商業網站而言,基于這些數據的挖掘對于其決策具有實用價值。
(5)孤立點分析:數據庫中可能包含這樣一些數據對象,它們與數據的一般行為或模型偏離很大,這些對象就是孤立點,大部分數據挖掘方法將孤立點視為噪聲或異常而丟棄;而在一些應用中(如信用卡欺詐),罕見的事件可能比正常出現的更有趣,在市場分析中,可用于確定極低或極高收入的客戶的消費行為。
四、數據挖掘的處理過程
數據挖掘來源于知識發現(KDD),是數據庫發展和人工智能技術相結合的產物,因而數據挖掘包括KDD的全過程,類似于通常的一個開采過程,整個過程分為三個階段來完成:數據準備階段、數據挖掘階段和結果顯示階段。
數據挖掘環境可示意如下圖:
圖1-1 數據挖掘環境框圖
按工作流程包括以下幾個步驟:
1、問題定義:對應用領域知識進行充分的理解和分析,明確挖掘對象和目標。
2、數據準備:
(1)搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
(2)數據凈化和預處理包括去噪聲,填補丟失的域,刪除無效數據等。
(3)判斷數據挖掘的功能類型,數據挖掘的功能類型分為驗證型和發現型。驗證型是指由用戶首先提出假設;發現型是指用數據挖掘工具從數據中發現用戶未知的事實、趨勢、分類等。
(4)選擇適宜的數據挖掘的算法。根據數據功能的類型和數據的特點選擇相應的算法。常用的算法有人工神經元網絡、決策樹算法、集合論算法和遺傳學算法等。
(5)進行數據轉換。根據數據挖掘的目標、功能及數據挖掘算法,按指定方法組織數據,根據已了解的知識的出限定變量,轉換數據類型并且映射數據到易于找到解的特征空間。
3、數據挖掘。在凈化和轉換過的數據集上進行數據挖掘。
4、結果的分析和同化。輸出挖掘結果對數據挖掘出的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。綜合分析把已得到的知識和已有的知識進行綜合,檢查和處理它們之間的沖突,通過簡明直觀的方法把最終結果報告給用戶,并且評價整個處理流程的性能。
五、結語
數據挖掘是目前國際上數據庫和信息決策領域的前沿研究方向之一,也是當前計算機領域的一大熱點,其研究的重點也逐漸從理論轉移到了系統應用,隨著技術的不斷成熟,未來的應用領域也會更加廣泛。只有更加深入的研究透了數據挖掘相關的理論,才能使其對未來社會的發展起到更積極的作用。
參考文獻:
[1]朱明,數據挖掘[M],中國科學技術大學出版社,2002
[2]喬永生,數據挖掘的探討[J],科技情報開發與經濟,2006.16
[3](加)JiaweiHan, Micheline Kamber 著.范明 孟小峰等譯.數據挖掘-概念與技術.北京:機械工業出版社.2001.15
篇5
企業競爭在當前日趨激烈,作為企業競爭制勝先導和基礎的競爭情報,正愈來愈受到企業和學術理論界的重視,不少的企業正在或將要建立自己的競爭情報系統。
目前我國最流行的競爭情報系統的定義可以歸納為兩種。第一種定義認為競爭情報系統就是計算機系統。王沙騁等指出,企業競爭情報系統是指將反映企業自身、競爭對手和企業外部環境的時間狀態和變化的數據、信息及情報進行收集、存儲、處理及分析,并以適當的方式給企業有關戰略管理人員的計算機應用系統,是基于計算機和網絡環境的、由先進的信息技術支持的企業競爭情報輔助分析計算機系統。我國討論競爭情報涉及計算機網絡的專家多數持這種看法,國外也有很多人持這種看法。
第二種定義把競爭情報系統視為人機系統。這種觀點是我國競爭情報的先驅包昌火先生提出來的:競爭情報系統是以人的智能為主導、信息網絡為手段、增強企業競爭力為目標的人機結合的競爭戰略決策支持和咨詢系統。按包昌火先生的定義,競爭情報系統核心就是人和計算機。
澳門理工學院社會經濟研究所曾忠祿先生分析綜合了以上三大類定義的優缺點,他認為,目前競爭情報系統的定義是存在缺陷的,它們都只包括了競爭情報體系的部分內容,缺乏全面性外,它們還有另外一個缺陷,即忽略了競爭情報系統各構成因素之間的相互聯系和互相依賴關系。缺乏將各部分聯系起來的“關系”,它們就不能成為“系統”。他認為,競爭情報系統是為用戶的需要創造情報產品的體系,它由相互聯系、相互影響的功能、結構(資源)和方法(流程)組成,各構成部分有機地聯系在一起,并隨著外部環境的變化而動態發展。這里的用戶可以是企業,也可以是政府機構,或自己組織內部的某一部門或上級單位;情報產品既可以是文字的,也可以是圖像的、口頭的或其他方式的;創造過程既包括信息收集、分析,也包括撰寫情報報告等。
2. 十年來我國競爭情報系統研究相關熱點及部分成果
隨著市場競爭的深入發展和日趨激烈,企業競爭情報系統的理論與實踐必將愈來愈受到企業界和學術理論界的高度重視。本文選取了最近十年來刊登在《情報科學》、《情報雜志》、《情報學報》、《圖書情報工作》等幾本情報學主要核心期刊上關于競爭情報系統的論文,對其進行歸納總結,找出了我國競爭情報系統研究的主要幾個熱點問題。主要熱點包括一下幾個方面:
2.1 競爭情報與數據挖掘
簡單地講,數據挖掘是一種利用各種分析工具建構數據分析模型,從而在大型的數據庫(或數據倉庫)中提取人們感興趣的知識的過程。這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識一般可以表達為概念、規則、規律、模式等形式。
當前競爭情報系統的情報源越來越多,包括企業內部數據庫、數據倉庫、外部網絡、外部數據庫等等。競爭情報系統需要向用戶提供面向主題的數據挖掘及深層的數據分析,要實現這些功能,就要將競爭情報系統建立在數據挖掘技術基礎上。而數據挖掘對數據要求比較高,因此要在原有競爭情報系統基礎上加強對數據的處理,以滿足數據挖掘的要求。目前國內在此方面的研究多集中在web數據挖掘在競爭情報系統中的應用,將數據挖掘技術應用到競爭情報系統的構建。并提出了不同的基于Web挖掘技術的企業競爭情報系統結構模型。
蒲群瑩在2005年第1期的情報雜志上提出的競爭情報系統模型是建立在大量競爭情報數據基礎上的競爭情報系統,包含四個子系統,即競爭情報收集子系統、數據轉換子系統、分析子系統、服務子系統(如圖1所示)。
圖1 基于數據挖掘的競爭情報系統模型
1. 收集子系統。競爭情報收集子系統主要包括各企業信息源以及各種信息收集工具,主要負責收集來自企業內部和外部的信息。
2. 數據轉換子系統。數據轉換子系統主要功能是為數據挖掘提供符合要求的數據,為下一步數據挖掘提供了良好的環境。
3. 分析子系統。經過轉換的數據,送入競爭情報分析子系統中,該子系統主要包括數據分析以及模式發現工具,數據挖掘是其核心技術。
4. 服務子系統。競爭情報服務子系統是為整個競爭情報系統提供一個信息交流和共享的平臺,它包括對內和對外兩部分。
目前看來,數據挖掘是競爭情報系統處理海量數據唯一可行的技術,迄今為止這項技術并沒有發展成熟,將它應用到企業競爭情報系統中還需要經過很長時間的探索,但是探討將兩者相結合的應用模式是非常必要的。
2.2 競爭情報系統與人際網絡
競爭情報系統的橫向描述為組織網絡、信息網絡、人際網絡三大網絡(如圖2所示)。美國著名的公關專家李文斯頓給人際網絡的定義:建立人際網絡是一個互相交換資訊、意見、想法與相互介紹朋友、熟人、資源共享,也互相感激的關系。
圖2 競爭情報系統橫向描述結構圖
在競爭情報系統中建立人際網絡的必要性主要表現在:通過人際交流,可以充分獲取信息,挖掘正式交流中所不能體現的情感信息,還可以實現隱含知識的轉移和傳遞。人際網絡是重要的非公開情報源,是企業獲取競爭情報非常重要的途徑和工具,而對于它在競爭情報系統中的重要性,競爭情報人員最近才認識到。事實上,人際網絡的重要性體現在競爭情報工作的全過程,貫穿于情報收集、分析和服務這個情報循環(Intelligence Cycle)中,尤其突出地反映在情報收集階段。
隨著我國經濟社會的發展,企業的競爭將越來越激烈,但是這些企業越來越意識到必須采取競合策略才能更好地生存和發展,因此人際網絡與競爭情報成為我國競爭情報系統研究的熱點之一。
2.3 集成競爭情報系統—面向企業信息集成(EII)的CIS
面向EII的集成化CIS以現代信息技術為手段,為部門之間、企業與集成環境內其它供應鏈節點之間、供應鏈集成環境之間提供有效的競爭情報服務與集成化的決策支持。同時,根據戰略目標和競爭環境的變化對企業資源重新組合集成,突破部門、組織、地域、時間和硬件設備的束縛, 實現以企業戰略目標和用戶需求為中心的集成與協同,形成敏捷的市場反應能力。與傳統CIS相比,面向企業信息集成的CIS具有高度的集成性、敏捷性、實時性、持續性、網絡化、虛擬化以及智能化。
面對企業信息集成的發展,搭建集成CIS平臺,提供廣泛深入的信息服務和決策支持已經成為一種新的發展方向。同時,這種集成化的CIS由于融合了先進的網絡信息技術和管理理念,使其為企業部門之間、企業與外部供應鏈節點之間以及不同供應鏈集成體系之間的協作提供了集成化、平臺化和系統化的信息環境,同時還可以根據企業戰略規劃和競爭環境的變遷對內外資源進行全面有效的整合處理和集成配置,使CIS配合企業信息集成發展的需求,進行動態決策調整、分布式信息服務和集成化的決策支持的實現成為可能。、
2.4 基于Internet與Intranet的企業競爭情報系統研究
在網絡環境下,企業競爭情報系統(ECIS)以內聯網(Intranet)為平臺,通過互聯網(Internet)與外部相連,應用信息技術和現代組織創新理論,建立起以競爭環境、競爭對手和競爭策略信息的獲取和分析為主要內容的具有快速反應能力的工作體系。根據網絡環境下企業競爭情報的需求特點,ECIS的基本功能應當包括競爭環境監測、市場變化預警、技術動向跟蹤、競爭對手分析、競爭策略制訂和企業信息安全等六個方面。
根據對國內外企業競爭情報系統運行與服務模式的分析,在網絡環境下比較典型的服務模式主要有:競爭信息掃描、戰略早期預警、競爭知識庫建設、競爭對手分析和競爭策略模擬五種模式。
3. 企業競爭情報系統的發展趨勢
從企業戰略管理的角度來看,把CIS建設成企業的“中央情報局”,使之成為企業領導集團經營戰略和競爭決策的思想庫和參謀部,這將是企業CIS的主要目標和未來發展方向。
3.1 網絡化方向
從企業競爭情報系統的具體運作角度來說,CIS的網絡化趨勢體現在系統運行的信息搜集和信息服務兩個階段中:信息搜集的網絡化方面,企業可以定制適合自己的自動搜索軟件,定期檢索與本企業、本行業相關的網上情報源。這樣既在一定程度上保證了信息搜集的完備性,又大大減少了信息搜集人員的工作量,使其可以專注于其他信息源的搜集處理,如加強對非公開信息的搜集工作力度。在信息服務的網絡化方面,企業決策層應該可以不受時間、地域限制地接受所需的情報服務。未來更理想的服務模式是CIS根據用戶的不同,提供特定的推送服務,為不同的決策人員提供不同的定制服務界面;而企業內的其他員工也可根據自己的需要,定制適合自己需要的Intranet服務。
3.2 智能化方向
隨著信息技術水平的不斷提高,各種新方法、新工具會應用到競爭情報系統中,比如智能化的自動搜集軟件就是競爭情報系統智能化的一種表現。另外,系統的智能化分析功能、學習功能和檢索功能的加入也都是未來競爭情報系統的重要發展方向。
3.3 決策化方向
競爭情報系統的工作重心將從單純的、分散的日常性情報工作轉向目的性很強的競爭對手跟蹤、重大課題深入分析、競爭策略研究等方面,并日益成為企業決策的重要依據。
3.4 集成化方向
企業將在實物資源、財務資源和人力資源三類系統之間實現恰當的集成,這樣將會使其能夠在組織的協同作用方面以及在與競爭能力相關的產品、服務、市場反應、管理決策等方面都獲得顯著改善。
篇6
1.1 科學數據開放共享
在科學研究過程中,有不同的利益相關者參與其中。這些利益相關者類別多樣,性質各異,共同形成科學研究的生態系統。根據各利益相關者的職能,圍繞研究人員,將這一系統進行分類研究,確定出4個利益相關者群體,即資助者、數據管理者、研究機構與出版商作為關鍵參與者,以促進和實現科學研究數據的開放共享。
在這一系統中,每類利益相關者都有各自不同的職能、驅動力及利益點,但總體利益與動機相同,即促進科學的進步。利益相關者的利益與行為動機與各自職能連接在一起,形成了科學研究系統的邊界。該系統本質上受到外部和內部因素的雙重影響:外部因素可能表現為政治、社會、經濟、科學和文化體系等;內部因素包括政治意愿、經濟及學術競爭、技術基礎設施、法律、道德等因素。該系統的價值與動機是外部和內部因素共同作用的結果,其中外部因素控制資源輸入到該系統中,內部因素控制這些資源的可用性和分配。如圖1所示:
在此科學開放系統中,利益相關者群體職能眾多并偶有重疊,總體上各利益相關方對研究數據的開放獲取的意義已達成共識,但各利益相關方對實現開放研究數據的方式的認識并不一致。本研究主要探討在推動科學數據開放共享中,出版商數據政策的現狀、問題,并構建相應模型,提出相應建議。
1.2 出版商在科學數據開放共享系統中的目標
在促進研究數據開放共享方面,各利益相關方發揮不同的作用。出版商通過期刊向作者提供數據共享政策,在數據開放中發揮著重要作用。研究出版商的數據政策,是因為這是在研究過程中將數據政策與研究人員密切關聯起來的點,為研究成果,研究人員有動力、有可能遵守數據政策。同時,研究發現,雖然包括出資者和研究機構都可能有適用于研究人員的政策,但遵守這些政策的研究人員的比例還很低。研究人員沒有遵守數據政策的直接動力;此外研究人員在需要進行數據存檔時,可能也沒有合適的機構知識庫可以選擇。出版商提出的數據政策,是在研究人員完成研究過程后發表研究成果前,研究人員有可能、有動力遵守出版商的數據政策。
1.2.1 科學數據開放共享的價值
科學的思想與科學的證據互相佐證,研究數據和科學實踐之間的聯系是不言自明的,因此,推動開放獲取研究數據,與促進科學嚴謹的目標相一致。更大程度地共享與獲取數據,能加強科學的基礎價值,即允許科學研究有效地自我校正,以便二次分析、檢驗、質疑或改進原有成果[3]。此外,開放獲取政策通過減少重復工作,最大限度地減少研究人員用在搜索信息和數據方面的精力,因而改善了他們的工作條件。
JISC以英國高等教育和研究機構為例,指出研究數據的監護與開放共享具有如下利益[4]: ①研究人員能夠更廣泛地獲得數據,從而促進更多的跨部門的合作,研究人員在行業、政府和非政府組織內有可能獲得大量的教育和培訓機會。數據的開放共享有助于實現數據使用和重用,降低數據的收集和復制成本,分擔數據收集的直接和間接成本(如避免調查疲勞,從而提高響應率等),創造出在數據收集時未曾預想到的新的利用方式,進行數據挖掘等。②在項目申請撥款和評估階段、出版和研究評估階段,更容易發現欺詐和抄襲,更容易進行評估和同行審查。因此將有機會創造更加完整和透明的科學記錄。③通過將研究人員、知識庫、資助者與有價值的資源相鏈接,從而有更多的機會提高研究的可見度。
科學研究系統中的各個利益相關者群體認識到走向開放數據的利益,認同將數據的開放共享置于戰略高度進行考慮。科學表現為知識積累的過程,數據在促進早期工作中起著重要作用。開放獲取研究數據,通過避免重復勞動,促進協作,有助于顯著加快這一科學過程,從整體上使科學成為更加透明的進程,實現推動公眾參與,激勵創新和改革公共服務的宗旨[5]。
1.2.2 基本情況
出版商作為利益相關者,越來越關注數據密集型研究,認同開放獲取研究數據的意義。很多出版商認同布魯塞爾宣言,即“所有的研究者應能自由地獲取原始研究數據。出版商鼓勵公開公布原始研究數據結果,將相關的數據集及子數據集與論文共同提交給期刊,應盡可能讓其他研究人員自由獲取”[6]。很多出版商的數據政策為強制性政策,要求作者將支持出版物的研究數據存儲在經認證的知識庫中,實現開放獲取。研究表明,如果期刊具有強制性數據政策,并且有可獲取數據的聲明,那么在線找到該數據的可能性,幾乎是沒有類似政策的期刊的1 000倍[7]。
盡管目前出版商已開始重視出版物的開放獲取,將開放獲取作為一種出版的商業模式,不過出版商參與研究數據的出版,特別是開放獲取研究數據,目前尚未形成規模。出版商關注研究數據及其開放,重要原因在于數據為出版商的主要產品即出版物增加了價值,數據有助于驗證研究成果,從而增強了所發表研究成果的可信性,而可信度對于研究具有重要意義[2]。此外,資助機構的政策要求公開獲取研究數據,實質上向出版商施加了壓力,出版商需要參與到研究數據開放獲取中,幫助作者和研究機構符合出資人的要求。現在,領先發展的出版商開始與其他利益相關方合作,試圖挖掘研究數據的潛能,形成以數據為基礎的新產品和服務,對研究數據進行同行評議,開展提高數據質量的其他服務。
2 出版商主要數據管理政策
本研究根據STM的年度報告[8],確定出以下出版商為主要分析對象(見表1)。這十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究將開放獲取出版商,科學公共圖書館(PLoS)、生物醫學中心(BioMed Central)的數據開放政策考慮在內。
2.1 出版商數據政策現狀
2.1.1 將開放獲取作為默認情況
出版商將數據的開放獲取作為訂立政策的基礎,如PLOS研究數據開放獲取強制性政策[9],指出除了極少數例外情況,支持PLOS出版物的所有研究數據都必須開放獲取。作者在向PLOS提交稿件時,要同時提交數據可用性聲明,在聲明中表明遵守PLOS的政策規定,在手稿成功提交后,數據作為最終手稿的部分內容。PLOS要求作者將數據存儲于推薦的經認證的數據中心或知識庫。小數據集可與稿件一并上傳。PLOS的編輯和投稿指南,向研究人員提供指導,協助研究人員遵守期刊開放數據政策。在限制數據獲取的情況下,PLOS有權修正說明,聯系作者的機構或資助者,甚至撤銷出版。
2.1.2 新的出版形式的出現
出版界越來越關注開放數據,產生了一種新型出版產品,即數據期刊。數據期刊的出現,與數據可以單獨緊密相關。數據的單獨可以確保數據作為科學記錄的基本組成部分,以可理解的形式向科學界提供。數據期刊是同行評議的開放獲取平臺,用于、分享和傳播各學科的數據。發表的數據論文包含數據集的具體相關信息,如收集、處理方式等。發表的數據論文與認可的知識庫互相關聯,數據論文引用存儲于知識庫或數據中心中的數據集。正如澳大利亞國家數據服務中心(ANDS)在其數據期刊指南中所指出的,“從根本上說,數據期刊尋求促進科學認證和再利用,提高科學方法和結果的透明度,支持良好的數據管理方法,并為數據集提供一個可訪問的、永久的、可解析的路徑”。ANDS指出,數據論文的出版過程包括對數據集的同行評議,最大限度地提高了數據再利用的機會,并為研究人員提供了學術認可的可能性[10]。
2.1.3 同行評審
對研究數據與數據出版物開放獲取的關注,彰顯了研究數據的科學質量及研究數據同行評審的重要意義。在此背景下,一些出版商將同行評議的范圍擴大到包括數據在內的同行評審。M. S. Mayernik等2014年進行了有關“數據同行評審”的研究,提出因為出版物或資源類型有所不同,進行同行評審的方式也必須有所變化。研究者對幾種類型的評審資源進行了區分,包括在傳統科學論文中分析的數據,在傳統科學期刊上的數據文章,以及通過數據期刊的開放獲取知識庫與數據集。M. S. Mayernik等針對數據的同行評審、數據的質量保證過程確定了一些共同因素,包括:可通過數據中心或知識庫獲取數據集;數據集有足夠的信息以備評審;期刊有明確的方針指明審核的要點,指導評審者進行數據審查等[11]。
開放考古學雜志(JOAD[12-13])對所有提交的數據論文采用同行評審程序,評審內容包括論文的內容與存儲的數據。論文的內容指與數據集的建立和重用相關的信息,以及對數據集的描述。存儲的數據指以可持續性模式提交到存儲庫的數據,包括其許可方式。
2.1.4 數據引用
除對數據進行同行評審外,出版商還逐步引入數據引用政策,以促進研究數據的標準化使用。研究數據對研究過程具有重要價值與意義,為擴大高質量研究數據的傳播,形成數據利用的規范方式,FORCE11[14]制定了數據引用的主要原則。FORCE11的引用原則的前提是數據引用需要實現人類和機器均可讀。該數據引用原則可能并不全面,主要目的是鼓勵各學科制定體現自身特點的引用方式。
FORCE11原則包括:說明數據引用的重要性;通過數據引用促進學術信用;數據引用要實現機器可操作性,包括全球永久唯一標識符;數據引用要促進對數據本身的獲取;數據引用應該具有持久性;便于識別,易于獲取,可以驗證;具有互操作、靈活性等特點。
2.1.5 內容發現和鏈接服務
出版商逐漸把發展方向轉移到內容發現和鏈接服務,專注于文本與數據挖掘(TDM)工具,以便能開發內容,進而提供相關服務。出版商越來越關注數據挖掘是研究人員利用大型數據庫的內容、數據和出版物的需求的直接結果。一份文本和數據挖掘專家小組的報告指出,TDM是一種重要技術,可用于從指數級增長的數字數據中,分析和提取新的見解和知識[15]。該報告的結論是,因為研究人員的技能和技術不斷提升,所研究的數據集的復雜性、多樣性及規模不斷擴大,因此TDM有可能會更加重要。但對于利用文本與數據挖掘工具是否應有所限制,目前仍有爭議。
2.2 期刊數據政策問題
2.2.1 數據格式與文件大小的差異
期刊要包括支持文章結果的所有數據,往往是很難實現的。研究的方法不同,產生的數據也大不相同,數據的格式和文件大小差異巨大。定性研究生成的數據,多以文本形式存在,例如實地觀察筆記,或采訪或報道的文字記錄等。定量研究生成的數據,多以電子表格的形式保存。一項研究可能產生多種類型的數據,而論文可能包括附加文本、數值數據集和數字圖像,這些都可能增加論文的大小。因此出版商表現出對集成到每篇論文中的數據集大小的關注。某些出版商開始嘗試出版在線期刊文章,以包括多種數據,例如愛思唯爾的有關未來的文章的探索[16]。然而,并不是每一種期刊都有包括各種數據的能力。這就要求期刊的辦刊方針應清楚說明,作為論文組成部分的數據,在何種程度上可以包括在論文中。
2.2.2 機構知識庫的成本
為解決出版商服務器超載的問題,將期刊文章的重要數據鏈接到一個特定的機構知識庫,可能是一個合理的選擇,但這將相關的長期運營成本轉嫁到了機構中。但資助者目前的基金中并不包括這部分資金,而機構可能也并不愿意在當前的管理費用中增加這種支出。這就使得在機構知識庫中存儲科學數據的可持續性有待探討。
2.2.3 研究人員對數據開放的認識
許多研究人員并不知道相關的知識庫,為此期刊數據政策應說明,數據是否應該在認可的知識庫中存儲,是否要使用永久統一資源定位符(URL),是否要采用某種形式的數據引用。數據的時間也是一個需要關注的問題,研究人員并不關心在出版過程中的什么時候數據可被公開訪問,而是關心在研究過程中何時數據應被公開訪問。研究論文并不是在研究結果全部產生后才會形成,而是在研究過程中逐步產生的。在的同時,是否適合研究數據取決于多種因素,諸如某些形式的數據有敏感性,要保護受試者等因素。
3 構建期刊研究數據策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定過程必然需要將注意力集中于數據共享過程中各利益相關方的意見,而目前的數字基礎設施在不斷變化,出版商、知識庫和系統之間,并沒有強有力的措施鼓勵共享數據。共同點包括:①出版商共享數據的方式差異很大;②在出版過程中,出版商對所接受的數據類型、數據應存儲的地點、應存儲的時間等說明,模糊不清;③研究人員普遍贊成共享數據,但研究人員不知道該如何克服共享障礙;④研究人員認為出版商和期刊有關數據格式和存放地點等清晰的政策,將有益于研究;⑤出版商也認為在數據的關聯與嵌入方面存在障礙。
科學數據共享的許多問題,能夠在出版過程中通過期刊強有力而明確的政策加以解決。因此,本研究的目標是確定能推薦給期刊使用的政策模型。研究收集到的期刊政策信息,對材料進行分析后,歸納出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的觀察,形成基本的期刊研究數據政策的模型框架。由資助者和研究機構作為一方,與出版商的另一方進行合作,發展數據政策。表3為所構建的期刊研究數據策略模型框架。
3.3 實施方式
3.3.1 逐步制定出版物的支持性數據的強制性開放共享政策
出版商應該支持期刊編輯制定研究數據的強制性政策,從而提高研究過程透明度,擴展研究數據的潛力。數據的編輯政策應解決諸如文檔、元數據、數據出版格式、許可、引用等問題。編輯政策要求作者在文章提交過程和同行評議過程中,提交數據的可用性描述。對提交的文章不符合規定的情況,政策應提出對應的措施,如撤銷發表的文章。
3.3.2 與認證知識庫和數據中心協作,簡化數據提交流程
出版商可按照相關標準考查知識庫與數據中心的可信度,與符合數據認證標準的數據中心與知識庫協作。類似的知識庫或數據中心可以是主題明確的學科知識庫,也可以是機構知識庫或綜合知識庫。二者的合作應該會產生積極影響,為研究人員和研究機構提供高品質的產品和服務,服務具有可操作性、技術上無縫的特點,從而實現以開放格式傳播和保存高質量的學術產品和研究數據。對于沒有公認的數據中心或知識庫的學科,出版商對研究人員提供指導和幫助,提供適合存儲與獲取的機構知識庫建議,或提供商業數據服務。在這方面,出版商的角色應該是更多地促使學術團體建立資源庫評估準則,從而幫助研究人員選擇合適的存儲庫。當學術界建立起知識庫的認可標準,出版商就可以通過期刊政策執行這些標準。
3.3.3 數據作為一流學術成果,接受同行評議
出版商的主要職責之一是確保出版物的高質量,而研究數據同行評審制度的建立,有助于提升出版產品的品質。同行評審過程,應詳細說明評審的標準,要評估研究數據的技術與質量問題,技術方面如考量數據集的完整性和一致性,收集數據的標準,使用的軟件等;研究數據的科學質量則由研究團體通過出版前與出版后的同行評審進行評估。同行評審流程中,出版商也應該探索對評審者的激勵方式,包括支付酬金,邀請編寫特稿,加入編輯委員會,甚至聘用一些專家進行內容評審。
3.3.4 發展有關研究數據引用的策略
研究數據通過傳統的出版過程傳播,為實現數據的長期可重用,需建立并使用數據的引用標準。在這方面,出版商應要求出版物及相關的數據可引用,并為數據的引用提供明確指導。在說明數據引用時,出版商可參照一些已有的實踐,如Force11[14]的原則,參與DataCite[17],加入到研究界和編輯討論的過程中。數據引用應包括DOI,以及使用許可信息,如創作共用許可,數據的引用方式最好是機器可操作的,可讓用戶知道可以如何處理研究數據。
3.3.5 建立許可政策鼓勵進行文本數據挖掘
出版商的編輯政策應以清晰的方式,說明研究數據的與獲取方式,如默認或建議開放獲取等。考慮到文本數據挖掘工具可帶來顯著經濟效益,鼓勵出版商調整策略,允許研究人員在研究中使用這種技術。
篇7
摘要:科學研究作為高等學校的主要職能之一,也是評價高校實力的重要指標,日益受到關注。圖書館作為高校的輔助機構,參與了科研工
>> 圖書館的建設在職業教育改革中的作用探討 淺談中小學圖書館建設在素質教育中的作用 學生社團建設在圖書館發展中的作用探討 圖書館在高校建設中的作用 淺談高校圖書館員科研能力提升的重要性 論高校圖書館在大學生科研素養培養中的作用 淺談高校圖書館在教學科研中的作用 h指數視角的“211工程”高校圖書館科研能力測度與分析 高校圖書館文獻資源建設中讀者決策采購的障礙與對策 高校數字圖書館建設中的問題與對策研究 高校區域圖書館建設中存在的問題與對策 淺議高校圖書館科研產出及科研能力 圖書館的期刊管理在高職院校教學與科研中的作用 虛擬化圖書館在高校數字化圖書館建設中的作用 解析高校圖書館知識服務能力的影響因素及提升對策 高校圖書館提升社會大眾信息意識的意義與作用分析 淺談地方文獻建設對高校圖書館建設的作用與影響 圖書館文化建設在體育院校圖書館的價值體現 淺談環境建設在圖書館管理文化中的地位 論環境建設在圖書館管理文化中的地位 常見問題解答 當前所在位置:中國 > 政治 > 圖書館建設在高校科研能力提升中的作用與對策 圖書館建設在高校科研能力提升中的作用與對策 雜志之家、寫作服務和雜志訂閱支持對公帳戶付款!安全又可靠! document.write("作者: 陳雪梅 暨鐸")
申明:本網站內容僅用于學術交流,如有侵犯您的權益,請及時告知我們,本站將立即刪除有關內容。 摘要:科學研究作為高等學校的主要職能之一,也是評價高校實力的重要指標,日益受到關注。圖書館作為高校的輔助機構,參與了科研工作,但未受到重視。本文就圖書資源對科研工作全過程的作用進行了闡述,并提出加強圖書館建設的途徑,使圖書資源工作成為科研不可或缺的幫手。關鍵詞:高校圖書館;科研能力;對策doi: 10.3969/j.issn.2095-5707.2014.02.013The Role and Strategies of Library Construction in Improving Scientific Research Ability in UniversitiesChen Xuemei, Ji Duo(Hunan University of Traditional Chinese Medicine, Changsha Hunan 410007, China)Abstract: Scientific research is one of the main functions of universities, and an important index to evaluate the strength of universities, which has attracted people’s increasing attention. As an auxiliary organization of universities, libraries participated in research work, but the effects were not emphasized. This article described the effects of library resources on the whole process of scientific research, and put forward the ways of strengthening library construction to make the library resources an indispensable assistance for scientific research.Key words: university library; scientific research ability; strategy 科學研究作為高校四大職能之一,是學科國際排名和學校辦學實力的重要影響因子,也是高校服務于社會、推進創新性國家建設的重要動力。圖書館作為高校的教學輔助機構,通常被看成簡單的借還書和期刊整理部門,處于邊緣化、不被重視的尷尬地位,文章就圖書館工作在高校科研工作的作用及對科研能力提升的對策談談個人看法。1 科學研究的特點與環節科學研究是指對一些現象或問題經過調查、驗證、討論及思維,然后進行推論、分析和綜合,來獲得客觀事實的過程,也是一種知識創新,是第一生產力和推動經濟發展與增長的內在因素,可分為基礎研究和應用研究兩大類[1]。因此,它具有客觀性、創新性、系統性等特點。科學研究是對客觀現象和問題進行解決的過程,按其過程可以將它劃分為問題的提出、假說的形成、研究的展開和結論的得出幾個環節,每一個環節都與利用圖書資源分不開。2 圖書資源對科研能力提升的作用科研能力是指發現問題、分析問題、解決問題,基金項目:湖南省中醫藥管理局科研基金重點項目(2012103)第一作者:陳雪梅,助理館員,研究方向:圖書情報整理與分析。E-mail: 或在分析問題時,有所發明、有所創造的能力[2]。該能力的提升與圖書資源有密切關系。圖書館作為收集文獻、傳遞知識的場所,是信息的重要集散地。2.1 圖書資源為問題的提出提供支持科學研究是一個提出問題、解決問題的過程,而問題的提出和解決均離不開信息支持,眾多圖書資源是信息的重要來源,其建設直接關乎科研質量的高低和科研水平的強弱,決定科學研究的成敗。首先,在科研選題上,研究者在根據學科建設的發展走向和社會需求的同時,如何從眾多的現象中提出問題,保證提出的問題符合現實的需要并具有創新性,這就要求我們收集和查閱大量文獻,從不同角度對其進行深入分析和研究,通過演繹、歸納與推理找到尚待解決的關鍵問題,形成假說。2.2 圖書資源為問題的解決提供支持假說的形成只是科學研究的起始,如何論證假說的成立是科研過程的主要環節。由于科學研究是客觀的,是綜合運用現有的研究手段在已知理論指導下,對假說進行論證。所涉及的研究對象(如模型選擇與制作)、研究方法(如儀器操作、試劑的配置)、觀察指標的選定與標準等均需查閱文獻,如擬訂實驗方案時,通常要在綜合現有文獻方法的基礎上,結合研究者現有條件及研究基礎,提出切實可行的方案。2.3 圖書資源為結論的評判提供支持通過研究得出的結論是否嚴謹,創新性如何,是否具有實際應用或理論指導價值,是否有深入研究的價值,同樣均需研究者通過調研綜合評判。3 如何加強圖書館建設3.1 強化信息化建設隨著信息化時代的到來,知識爆炸式增長,獲取知識的傳統方式已不能滿足要求。計算機技術的普及和發展、云技術的出現可以滿足知識更新的需求。以網絡通訊技術和信息儲存技術為載體的數字圖書館迅猛發展,數字圖書資源具有信息存儲數字化、表現形式虛擬化、傳播網絡化、存儲海量化和檢索途徑豐富、復本量無限、性價比高等特點[3],越來越受到讀者,特別是廣大科技工作者的喜愛。高校應適用時代變化,加大資金投入,優化硬件配置,選擇先進的、符合學校要求的技術,如框架描述性RDF技術,將自有館藏圖書目錄數字化,與市場化的數字化資源整合建立虛擬圖書館,在此基礎上通過與電訊企業聯合,以無線通信技術為支撐,建立學校圖書館移動服務平臺,開發掌上圖書館,通過手機、平板電腦等手持移動終端設備登錄,進行館藏搜索和數字閱讀服務。3.2 創新圖書資源服務方式互聯網時代信息資源的海量增長給科研工作者提出了更高要求,如何從眾多信息中獲取有價值的信息,對科研課題立項申請、科研工作的開展有著重要意義。而科研工作者由于崗位性質決定其時間和精力有限,無法有效對選題的先進性和準確性進行把握。圖書館應轉變借還書被動服務理念,全方位主動服務,如標書撰寫時,可充分利用CNKI、Pubmed、CMCC光盤數據庫等檢索查新,對選題的新穎性做出評價。在研究過程中,如何避免抄襲和剽竊也是科研工作者要把握的重點,圖書館也可對上述資源以及研究生畢業論文庫進行服務。在后,為評價研究工作的效能及研究成果的影響力,可以為科研工作者提供論文引文分析。總之,圖書館可以為科研人員提供立題-結題全程服務,提高單位科研能力。煙臺毓璜頂醫院研究證實了該院圖書館學科信息共享建設大大提高了醫院科研產出[4]。3.3 優化圖書資源配置傳統圖書資源和數字資源是新時期圖書資源的兩大組成部分,傳統圖書資源是構成圖書館的實體,實體圖書館是虛擬圖書館的基礎。如何從繁雜的歷史借閱數據中獲取潛在有價值的信息,將有限的經費和場地利用好,購置讀者受歡迎的書籍,對圖書館品牌建設有重要意義。數據挖掘為此提供了技術保證。數據挖掘是近年來隨著數據庫技術和人工智能技術的發展而出現的一種全新的信息技術,它是從大量的、不完全的、隨機的實際應用數據中提取隱含在其中的但不為人們所知、且又有潛在價值的信息和知識,如趨勢、特征以及相關的過程等[5]。通過數據挖掘技術對借還記錄、借出次數等進行分析,了解科研人員興趣、學科關聯等隱藏信息,決定圖書的科學排架、合理擺放以及圖書采購傾向,從而提高圖書借閱效率和資金使用率,同時也可減輕工作人員的勞動量。3.4 提高人員綜合素質新時期下,圖書館職能的變化對高校圖書館工作人員要求越來越高。除愛崗敬業、熱情周到、服務至上的基本素養外,還需具備如下能力:①信息資源收集和整理能力。能通過傳統的文獻處理手段和計算機技術對紙質資料和數字信息進行收集挖掘、分門別類加以整理,進而建立數據庫。②信息分析和科研能力。圖書工作參與了科研工作的全過程,圖書工作者應具有信息分析和圖書科研能力,能為科研人員提供高質量的信息支撐和決策依據,能從繁多的信息資源中去偽存真、理順頭緒,在一定范圍內對相關研究工作進行總結與預判。③信息技術應用技能。資源數據庫建立、信息查詢與、圖書館業務自動化和數字圖書館日常管理等均與信息應用技術密不可分,圖書館工作人員只有掌握了必要的計算機技術、多媒體操作、數據挖掘等技術才能提高優質高水平高效的服務。有為才能有位,盡管目前圖書館工作在高校沒有被足夠重視,但只要圖書工作者積極參與教學研究工作,加強圖書工作科學研究,尤其是探索新形勢下如何拓展圖書工作服務內容,探究其對教學科研的影響途徑,可以預計,圖書館將在高校扮演著越來越重要的角色。參考文獻[1]錢志明,陳敬良.我國科研支出的問題及政策選擇[J].商場現代化,2007(14):359.[2]王縉.文獻信息與科技創新:論文獻信息工作在科技創新中的作用[J].西南民族大學學報(人文社科版),2004, 25(12):520-521.[3]路長蘭.略論圖書館電子圖書資源建設[J].山東廣播電視大學學報,2011(3):63-64,70.[4]崔春玲,王麗麗,劉培波.圖書館學科IC實踐對醫院科研產出的影響[J].中國醫院,2012,16(11):78-80.[5]李愛玲.數據挖掘為圖書管理提供決策支持[J].中國管理信息化,2012,15(9):113-114.(收稿日期:2013-10-30,編輯:李琳)
篇8
1緒論
1.1 選題背景
由于各方面的因素,每年到了畢業的前夕,仍有相當比例的學生不能完成基本的學分績點,從而不能正常地畢業。學校為了使這些學生能夠順利地畢業,采取了“清考”等措施,但這些措施是被動的,帶有較大的負面影響,并且也增加了教學成本。
為了解決這一問題,學校提出了學業預警系統,但目前的學業預警系統僅僅提供了學生的成績,而沒有有效地信息技術支持,需要人工來查找和發現學分績點過低的學生,使得這種預警系統的效率不高,達不到學校的預期目的,仍不能有效地消除“清考”現象。
1.2 本課題研究的主要內容
本文是以學分制下學生培養方案和學生成績數據庫為支撐,依托數據挖掘技術的有關方法和實施工具,自動搜索數據庫,并根據關聯規則對學生的課程學習進行預測,從而更加智能的對學生的學業進行深入的研究,并根據專家系統對每個學生的相關信息進行分析給出相關的建議。
1.3 文章結構
第一章討論選題背景和主要研究工作及全文結構。
第二章是系統需求分析,提出系統要實現的功能。
第三章主要介紹學業預警系統的總體設計思路、系統的框架結構等。
第四章對系統實現過程中用到的系統軟件產品的選擇做了簡要說明。
第五章為結束語,總結論文所開展的工作和下一步工作設想。
2系統需求分析
2.1 系統總體目標
學業預警系統的總體目標:本系統能夠自動錄入學生學業信息,并根據學生已修課程給出相關課程的預測成績,并能自動計算績點與平均分,如發現可疑學生數據(績點或平均分不夠)可以對學生發出預警,并且向院系工作人員及輔導員發送預警信息,督促學生學習,達到使學生能夠順利里畢業的目的。
2.2 系統可行性分析
2.2.1 技術可行性
學業預警系統所用的數據挖掘技術能夠自動錄入及查詢信息,能夠節約人力和物力,并且此技術已相當成熟,有專門的開發平臺作支撐。
2.2.2 經濟可行性
現今,計算機的價格已經十分低廉,性能卻有著長足的進步,它已經被應用于許多領域。所以,系統所需的開發費用并不是很昂貴,然而這套系統的成功投入使用可以節約大量人力,提高信息管理的質量,也方便學校的管理。
2.3 系統需求
2.3.1 功能劃分
錄入信息:錄入本院學生學業信息及專業培養方案。
學業信息查看:學院登錄系統查看學生的相關學業信息及預警信息。
個人預警信息查詢:學生登陸系統查看自己的預警信息。
預測成績查詢:學生登陸系統查看系統對自己的學業做出的預測。
用戶權限管理:系統為學生及院系工作人員設置不同的權限。
成績管理:后臺操作人員對學生的成績進行管理。
2.3.2 功能描述
圖12.4 性能需求
2.4.1 數據精確度
要按照嚴格的數據格式輸入,否則系統不給予響應進行處理。
系統管理員具有數據修改權限,其他用戶在系統開放時間過后無權進入系統。
2.4.2 時間特性
一般操作的響應時間應在1~2秒內,對軟磁盤和打印機的操作也應在可接受的時間內完成。
3 系統設計
3.1 系統設計的原則和目標
適應目前及今后一段時期信息化管理的要求,系統化、結構化、模塊化,保證整個系統的完整性、一致性,可適時更新升級,以滿足需求變化的需要。
(1)符合人們的思維習慣。
(2)便于各種事物的安排處理。
(3)易于擴展。
3.2 系統架構設計
通過需求分析學業預警系統采用B/S結構。本系統在構架上采用分層的體系結構,將軟件分為三個層次,表現層(Presentation)從用戶收集信息,將用戶信息傳送給業務服務層;Web層用來響應瀏覽器客戶發來的請求,并調用業務層組件,將業務層組件返回的結果發送給瀏覽器客戶;數據層(Data)提供接口進行永久數據的存儲。
3.3 數據庫設計
根據學業預警系統需求分析,設計對應的數據表:
(1)學生信息表:存放與學生信息相關的信息數據。
(2)專業培養方案表:存放與專業培養方向相關的信息數據。
(3)學生學業表:存放學生的詳細學業信息數據。
(4)院系信息表:存放有關學生所屬院系的基礎信息數據。
(5)管理員信息表:存放管理員的相關信息數據。
3.4 小結
本章首先提出了系統總體設計時遵循的設計思想即符合人們的思維習慣、便于事務的安排、易于擴展、便于人工干預,并按照上述設計思想,在確定了學業預警系統功能的結構基礎上,對與系統相關的數據庫表做了介紹。共設計了5個數據庫基本表,各表之間通過外鍵連接。
4 系統實現
前面我們闡述了學業預警功能的需求,這里我們選取幾個相關功能對管理功能的實現進行詳細描述。
4.1 開發平臺的搭建
CPU:Intel PentiumD 925
內存:DDR 400 1G
操作系統:Microsoft Windows Server 2003
開發工具: Visual Studio 2010
數據庫:SQL Server 2000
4.2 用戶權限設計
4.2.1 基于角色的訪問控制策略
安全訪問控制策略占據著至關重要的作用。為了保證資源的安全,系統一要確認使用者的身份是否合法:二要判定該使用者是否有權使用或更改某一項信息資源。基于角色的訪問控制策略簡單來說就是在用戶(user)和訪問許可權限(permission)之間引入角色的(role)的概念,把用戶和權限通過角色聯系起來,用戶被賦予某種角色,也就擁有相應的權限。
4.2.2 身份驗證
本系統中用戶身份信息是由以下字段組成:用戶登錄賬號、密碼,這些字段在數據庫中作為一個數據表,用戶每次登錄時,需輸入登錄賬號和密碼,采用表單提交用戶輸入的賬號和密碼,并通過數據庫訪問該數據表,進行身份標識與鑒別,并利用數據驗證控件進行驗證。
4.2.3 授權
授權是指準許或拒絕特定用戶訪問資源的過程。在該體系結構中,授權主要包括兩種方式:“模塊訪問安全性”和“模塊功能操作安全性”,且這種兩種方式都是基于用戶所隸屬的角色來實現的。
5 結束語
本文對學業預警系統的總體規劃、需求分析、系統設計等方面進行了詳細研究。通過研究,加深了對各種開發模式的了解,初步了解了實現三層客戶機/服務器模式的系統開發技術。
參考文獻
[1]陳曉紅.管理信息系統教程[M].北京:清華大學出版社,2003.
[2]任泰明.基于B/S結構的軟件開發技術[M].西安:西安電子科技大學出版社,2006.
篇9
引言
2011年以來,在美國頂尖大學中迅速發展起來并迅速影響世界的MOOC(大規模開放在線課程)模式無疑給“在線學習”這一學習形式樹立了成功應用的典范,該模式證明了只有當大學的課程、課堂教學、學生學習進程、學生體驗、師生互動過程等被完整、系統地在線實現…,特別是當輔導教師的存在以及相關系統指導活動實現時,在線學習才是有效的。這從一個側面說明,在線學習并不是純粹的學生自主學習,還需要充分發揮輔導教師的主導作用。
在線學習模式下,師生活動在時空上相對分離,盡管有同步教學活動發生,但更多時候是異步教學活動,因為異步教學更有助于滿足學習者的個性化學習需要。不同于課堂面授教學,輔導教師難以把握一門在線課程學習者學習開展情況的全貌。但是,通過在線學習平臺對學習過程的記錄,輔導教師了解課程的教學過程是可能的,而且基于學習過程記錄開展在線教學的反思以不斷改進在線教學這一做法也是必要的。一文獻探討
“教學反思”,顧名思義,反思對象就是教學過程,反思的基礎是對教學過程的忠實記錄。波斯納(Poser)將教師的成長發展與其對自己經驗的反思結合起來,提出了一個教師成長的公式:經驗+反思=成長。由此可見反思對教師成長以及專業發展的重要性。
教學反思的方法是多樣的。王映學、趙興奎指出教學反思的途徑主要有錄像反思、日記反思、從學習者角度反思、與同事及專家的交流中反思以及通過向學生征詢意見反思。張大均將教師成長的途徑從觀摩教學、微格教學、教學決策訓練和教學反思幾個方面來說明。俞國良等則將教師的反思訓練列為錄像反思法、對話反思法和教學反思法。從上述方法中可以看到,教學反思的基礎是對教學過程的忠實記錄。在“日記反思法”中,第一步就是對教學中包含問題的教學事件進行詳細、忠實的描述。在“從學習者角度反思”中,第一步就是“簡要記下學習發生的時間、場合、涉及的學習內容和培訓(講授或主持)人員”。在微格教學法中,則通過錄像設備記錄教學全過程。
在信息化網絡時代,教師可以利用現代教育技術手段來實現教學過程的忠實記錄,進行有效的教學反思,從而更好地促進自身的專業發展。各種新的網絡技術工具給我們的生活帶來了新的便利,同時也為教師提供了新的教學反思工具。近年來興起的學習分析技術可以成為教師開展在線教學反思的有力工具。學習分析技術是對學生生成的海量數據進行解釋和分析,以評估學生的學術進展,預測未來的表現,并發現潛在的問題。對教師而言,學習分析技術可用來開展更為深入的教學分析,以便教師在數據分析的基礎上為學生提供更有針對性的教學干預。在線學習中,在線學習平臺詳細記錄了師生行為,猶如課堂教學錄像。借助學習分析技術,分析師生行為記錄數據,可以再現在線學習過程,使教師能夠把握在線教學過程全貌,并了解每個教學環節、重要教學活動以及每個學生的種種細節,使原本模糊的印象數字化、清晰化,輔助教師反思其在教學設計、資源制作、學習引導、學習評價等方面的可取之處與不足之處。
因此,本文選取基于Moodle平臺的在線課程為樣本,應用學習分析技術,具體包括話語分析、社會網絡分析等分析技術,統計分析與可視化、聚類、預測、關系挖掘、文本挖掘等數據挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分詞系統等工具,從一位輔導教師的視角,開展基于學習過程記錄的在線教學反思研究,探索一種全新的教學反思形式。
二 研究樣本
本文選取國家開放大學主辦的網絡教育從業人員培訓班為研究對象。該培訓班依托Moodle平臺開設(網址:http://),有“學生支持服務”、“在線學習輔導”和“在線課程設計”三門課,每門課的培訓時間為6周,學生通過Moodle平臺開展在線學習,輔導教師提供全程的在線輔導。本文具體選擇“在線學習輔導”課程第五期培訓班作為研究樣本。
三 數據分析與培訓反思
1 重溫整個教學過程――師生群體平臺訪問行為分析
通過對平臺模塊訪問、模塊訪問序列以及師生活動時間分布情況的分析,重新回顧教學過程,并對一些突出的數據表現加以解讀,使原本時空分離的師生活動再度整合,還原輔導教師的教學過程與學生學習過程的原貌。
(1)平臺模塊訪問總體情況
表l是該期培訓過程中,師生訪問Moodle平臺各模塊的頻次統計結果。
從統計結果可知,師生最常訪問的模塊是“forum”,占總活動頻次的近50%,說明課堂討論是最主要的學習活動,也是這門基于討論的探究式課程學習的突出特點。其次就是“wiki”、“resource”和“assignment”三類行為。這三類行為的頻次和比例較為平均,是位列“Forum”之后的重要學習活動。在討論的基礎上,課程設計中的“wiki”其實是為了給學生協作式小組學習的機會,是除“forum”外學生之間重要的交互空間。“resource”(瀏覽資源)是學習內容重要的組成部分,在此基礎上參加討論和wiki協作學習,最終的學習成果以“assignment”(小論文、大論文)的形式呈現。這幾個模塊的頻次和比例分配較為合理,較好地還原了教學過程。
(2)平臺模塊訪問序列分析
我們已經了解了不同模塊的訪問頻次,下面我們再來了解一些師生訪問平臺模塊的路徑。
這里采用Microsoft順序分析和聚類分析算法,數據來源則是用戶每天瀏覽課程頁面產生的過程數據。筆者選取5個頻繁訪問模塊包括forum、wiki、assignment,resource和user(course除外,因為在該模塊主要發生登錄行為,并沒有實際的學習行為)的數據來分析模塊訪問序列,得到如圖l所示結果。由圖l可知,從user、resource、assignment、wiki四個模塊跳轉到forum的條件概率均比較高(分別為0.40、0.32、0.26、0.16),可見forum是一個活動中心模塊,也是一個重要的活動中介模塊,諸如resource、assignment、wiki等活動可以從中再次啟動。而在由forum跳轉到其他模塊的情形中,forumresource的轉換組合的發生概率是最高的,達到0.06。在發帖參與討論的過程中,發現問題、深入思考再繼續學習相關資源,這符合學習常規,也形成了討論帶動資源的學習兩者之間的良性互動,從而實現深度學習和反思。另外,resource模塊對其他模塊的支撐作用還表現為assignmentresource,這一條件概率達到0.13,即學生在做作業的過程中要求助于資源模塊,這也是符合學習常規的。
(3)不同時期各模塊訪問特點
接下來結合時間維度,了解不同時期平臺各模塊訪問特點,以了解不同時期師生關注重點的變化。計算出本期培訓不同周此平臺模塊訪問頻次分布情況,并繪制師生在主要學習模塊的活動頻次占比隨時間分布的折線圖,得到如圖2所示結果。
從圖2可以看出,除高頻訪問模塊forum外,在正式學習開始前兩周及第1周,學生的訪問重點user模塊和resource模塊反映出學生在熟悉人和內容。這啟示我們,在網絡課程開始之前,輔導教師可能需要提前兩到三周就介入課程的學習,實時跟蹤學習進程,為他們提供相應的服務來進行預熱,這對于后面課程學習的順利發展和學生積極性的保持都很有幫助。進入第2周,開始主要的學習活動,主要模塊則是wiki以及forum。到第3周,wiki活動達到頂峰一一第3周出現本課程第一次wiki協作式小組學習活動,所以這時達到頂峰是正常的;另外,這些學生從沒有接觸過基于wiki的小組寫作式學習,所以他們有很強的好奇心和強烈的興趣參與。到第4周,assignment活動達到頂峰。這實際上是學生提交的第3周布置的assignment(小論文),這是本課程第一次提交assignment;課程結束后的三周,assignment模塊的活動逐漸增強,伴隨著resource模塊活動的增強,forum活動相對減弱,進入做作業(撰寫大論文)的狀態。
2 聚焦重點教學活動一一師生論壇交互分析
師生在論壇的討論發言是本課程的一項重點教學活動。通過這一活動,相關教學信息得以傳遞,各種其他教學活動得以依次展開,課程知識也在這里不斷呈現,支持服務也在這里相繼給出。
(1)師生交互的數量與內容
該課程討論活動在6個學習單元分散展開,本期培訓班發帖數量累計743個,如表2所示。由表2可知,輔導教師的發帖量基本呈緩慢下降的趨勢。從該趨勢我們可以看到,在第1周“學習指南”和第2周“第一單元:什么是在線輔導?”兩周的教學中,由于是在線教學的開始階段,輔導教師需要更多地引導學生進行討論,投入相對更多的時間。從第3周開始,數據顯示,輔導教師的發帖量開始有所減少,從將近50%的比例下降到40%左右。這是因為,經過前兩周的學習,由于輔導教師的有效引導,學生保持了較高的積極性,效果明顯。從第3周開始,輔導教師有意減少了發帖的量,注意留給學生更多的時間思考并參與討論,這時候學生明顯上升到了討論的主角這一角色,這說明輔導教師對于討論的把握和控制比較成功。
(2)師生交互發帖的內容
作者采用傅騫、魏順平等研發的術語提取算法從所發帖子中提取了約240個術語,如表3所示。這些術語的出現頻次為4909次(其中輔導教師使用976次,約占20%);在481個帖子中出現(其中教師帖為204個),占帖子總數的65%。從另外一個角度說,有1/3左右的帖子沒有出現任何術語。由此可見,論壇的主要功能是開展課程知識討論,次要功能則是激發并維持學生的學習動機,引導、鼓勵學生不斷參加學習。
在前10位術語中,“輔導”出現了3次,“在線(遠程)”出現了4次,這比較好地體現了本課程的特點,即在線學習輔導。而排在前兩位的是“輔導教師”和“電大”,這更能說明這次培訓的內容和對象的特點。無一例外,本次培訓的對象全部來自電大系統,所以他們對本系統是最關注的,另外他們對如何做好“輔導教師”也是最關心的,所以他們選擇了這門課。從這些術語可以看出,本期的討論比較成功,課程的設計也比較合理,能夠滿足學生的需求。
接著,作者對各單元使用的普通詞匯(包括動詞和名詞等實詞,不含虛詞,不含術語)使用頻次進行統計,以體現輔導教師的語言藝術和輔導特色。其中使用頻次排名前十的普通詞匯分別是“同學、加油、學生、謝謝、可以、學習、問題、課程、研究、討論”。“加油”和“謝謝”這兩個詞的大量使用反映了輔導教師為學生提供的情感支持。輔導教師時時刻刻不忘鼓勵、支持任何一位學生的發言和進步,處處對他們的討論表示感謝,無論發言是否精彩,無論對他們的觀點是否贊同,都通過“加油”和“謝謝”表示感謝。
(3)師生交互的動態過程與靜態結構
我們從師生交互發帖時間分布以及師生交互網絡分析來了解師生交互的動態過程與靜態結構。本培訓課程設有6個單元外加大論文指導環節(實際上是7個單元),計劃教學時間是6周,一個單元用時一周。理想情況下,學生應該在規定的學習時間內完成相應單元的活動,但事實并非如此。以每個單元的“話題討論”為例,某個單元的話題往往要持續3周才會真正結束。各單元討論活動隨時間分布情況如表4所示。
表4中帶*號的數字部分是在單元規定學習時間內的發帖數量,但是每個單元在規定學習時間后,在隨后的2至3周還陸續有帖子發出來。于是從第3單元開始,將會有3個單元的活動疊加在一起。出現這種疊加現象,可能較大程度上是由工學矛盾造成的。學生不能及時完成本周的學習活動,所以會往后拖延。其實,從學生的角度是可以理解的,這也要求我們的在線教學要有一定的靈活性。同時,也恰恰是在第3周開始出現第一個assgignment(小論文),學生的負擔開始加重。正是當“新債舊債”交織在一起的時候,出現了連鎖式疊加的現象。當然,這種現象也會無形中增加輔導教師的負擔。
根據輔導教師和學生發帖、回帖的關系,借助UCINET社會網絡分析工具,可繪制師生交互網絡圖,如圖3所示。從圖3可以看出,所有24個成員(包括輔導教師,如圖中編號為68的正方形節點)均在一個網絡中,不存在孤立的成員。
篇10
Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.
Key words: decision tree; classification; library; Clementine; borrowing authority
0 引言
數據挖掘能從大量數據中發現有用的知識,目前己成功應用于各個領域。圖書館系統積累了大量讀者數據,研究如何將數據挖掘有效地用于圖書館[1-4],變數據為知識,從而更好地為讀者服務,是數據挖掘和圖書館工作者的共同責任。
決策樹分類是數據挖掘中的一種重要方法,該方法通過對已有數據的學習,識別影響對象分類的若干因素,構建一個決策樹分類模型,對對象進行分類。文獻[5-6]為決策樹在圖書館讀者借閱數據中的應用實例,其中文獻[5]利用C4.5算法,對306條讀者借閱記錄進行了分類建模,利用學歷、專業和年級三個屬性,構建借閱次數(高/中/低)分級模型,得出的結論為:學歷是第一決定因素,其次是專業和年級,研究生和大四學生借閱量低等。筆者認為文獻[5]挖掘的數據量過小,不具有足夠的說服力,且借閱次數分級采取主觀劃分的方法,缺乏依據。文獻[6]利用ID3算法,對1969條研究生的借閱記錄進行了分類建模,利用讀者是否為新生、是否為工程類學生、性別和距離圖書館的遠近等屬性,構建決策樹模型,得出的結論為:讀者是否為新生為第一決定因素,其次為是否工程類、距離遠近和性別,一年級新生離圖書館近的、高年級工科學生為活躍讀者等。筆者認為文獻[6]的數據只覆蓋研究生讀者,樣本不全,且模型僅從訓練數據構建,沒有測試數據測試,使模型的普適性受到懷疑。另外,文獻[5-6]沒有對具體所用挖掘工具的介紹。
針對上述研究背景,本文使用SPSS Clementine軟件,采用基于C5.0的決策樹分類算法,對國關圖書館的4366條讀者借閱記錄進行建模。建模過程綜合考慮讀者身份、專業、年級、性別、民族和索書號等因素,構建讀者借閱頻度決策樹分類模型,分析影響讀者借閱量的主要因素,給出針對不同讀者群的借閱權限分配和服務建議。作為數據挖掘在圖書館的進一步應用探索,本文一方面可為國際關系學院圖書館開展實際業務工作提供幫助;另一方面可為其他高校圖書館開展挖掘實踐,提供方法和過程指導。
1 需求分析及技術思路
1.1 需求分析
國際關系學院圖書館藏書37萬余冊,服務對象為全校師生員工、家屬、成人教育學員、國際大學預科項目PCP學員(Pre-College Program)等。服務的部門涵蓋法律系、公共管理系(簡稱公管)、國際經濟系(簡稱國經)、國際政治系(簡稱國政)、日語法語系(簡稱日法)、文化與傳播系(簡稱文傳)、信息科技系(簡稱信科)、英語系共八個系。
長期以來,國關圖書館對于讀者權限的設定按本科生、研究生和教工劃分,見表1。這種劃分一是沒有結合讀者的實際借閱需求,可能造成借閱需求量大的讀者權限不足,借閱需求量小的讀者權限過剩;二是劃分不夠細化,沒有考慮到讀者年級、專業、性別、成績等因素對借閱量的影響。依據讀者的現實個性化需求來確定借閱權限,已成為目前高校圖書館借閱權限改革的方向[7],問題在于:影響用戶借閱量的因素有哪些,哪些是主要因素,如何確定這些因素,如何根據這些因素定制差異化權限和服務。本文針對這些問題展開討論。
1.2 技術思路
本文收集國關圖書館的借閱數據,通過對歷史數據的挖掘和分析找出影響讀者借閱需求的若干因素,依靠這些因素進行借閱權限細分。具體地,本文借助于SPSS Clementine工具中的決策樹挖掘方法對數據進行分析,借助于挖掘得到的決策樹識別影響讀者借閱量的主要因素,對借閱量按借閱頻度進行分級,并構建一個判定用戶借閱頻度的決策樹分類模型,然后基于決策樹分類模型,給出針對國關圖書館讀者的借閱權限建議。具體技術思路如圖1所示。
2 具體的實現方案
2.1 數據源
數據源于國關圖書館金盤系統Oracle數據庫,主要涉及原始數據庫三個表:、、。其中流通日志表記錄讀者每次到館的一項事務。筆者利用這三張表進行連接,從流通日志表抽取2009-2010完整一學年的數據,抽取后的數據存儲在Excel表中,命名為 (格式見表2),該表共包含記錄109609條,字段8個。其中操作類型為事務類型,如J:借書/H:還書/S:賠書等;讀者級別為讀者身份,如本科生、研究生、信科教職工等;源單位具體到班級,如:信科0601/國經0702/國政研二等。
2.2 數據預處理
⑴ 數據篩選
取出流通事務記錄表中操作類型為“J”(借書)的全部記錄。
⑵ 分組計數
取出的記錄集按讀者條碼分組,統計每個讀者出現的次數,將此數值記為讀者在一學年中的“借書數”。將此屬性添加到中具有相同讀者條碼的記錄中。未在流通事務記錄表中出現的讀者條碼的借書數記為0。
⑶ 空缺值的處理
一些記錄在“單位”字段上取值為空,用“資料不全”填充空缺值。
⑷ “借書數”區間化
對“借書數”這一數值屬性,在建模前對其區間化,把它劃分為幾個等級來描述讀者的借閱頻度,并讓其作為輸出屬性,為讀者建立分類決策樹。該字段原先的數值分布如圖2所示。在4366個讀者中,一年中讀者借書數最多的為174本,平均約12本,最少的為0本(約占50%,即一般讀者該年沒有借過書)。借過書的讀者按照其累計借書量的增加,人數基本呈遞減模式。
對“借書數”區間化時,先將沒借過書的讀者單分一個區間,即借書數等于0,記為“Null”。其余讀者盡量按照等頻,即相等人數的原則,分為高(high)、低(Low)兩個區間,經過統計分析,發現“17”為較好的分界點,區間劃分規則為:0
為記錄區間化后的借閱頻度,為讀者庫表添加列“借閱頻度”,來儲存每位讀者的年借閱量,處理后的借閱頻度屬性不同區間的樣本數量分布為:
Null:2187;Low:1103;High:1076;總計:4366。
⑸ 其他字段的概化
“讀者級別”字段中,教職人員具體到各系和各行政部門,將該字段統一歸為“教職工”。“源單位”字段中,學生的單位具體到班級,將其概化到年級。將“索書號”字段概化為索書號頭一位。
將預處理后的數據導入到Microsoft Access數據庫中,表名命名為,它共包含國關4366名讀者09-10學年的借書統計數據,見表3。
2.3 模型構建
利用數據挖掘工具SPSS Clementine(版本11.1)中的C5.0建模節點構建決策樹模型。將預處理后的Access數據庫表文件作為數據源節點,先后連接工具中的“選擇節點”、“抽樣節點”和“C5.0節點”,形成如圖3所示的讀者借閱頻度挖掘訓練流程圖。
將得到的分類模型加入到流程取代“借閱頻度類別”建模節點,鏈接相關輸出節點,檢驗訓練樣本的自檢正確率。之后再用原樣本剩下的30%做測試,具體流程如圖7所示。其中測試路徑抽樣節點的配置跟圖6基本相同,除了將單選按鈕“包含”改為“丟棄。
執行圖7流程,得到模型測試結果,其中訓練樣本上的測試正確率為69.1%,測試樣本上的正確率為67.2%。
模型分類結果與測試樣本的對比矩陣見表4。該矩陣記錄了得到的決策樹模型對不同屬性取值的分類結果和所占總樣本的比例等信息。例如表4,對于測試樣本中原來標注為“High”的記錄,決策樹準確地將其中的203條記錄歸類為“High”,占所有標為“High”的樣本數的60.237%,占總樣本數的16.009%。在所有被決策樹歸類為“High”的記錄中,正確歸類的這432條占其中的59.882%。
2.4 模型優化
在創建決策樹過程中,訓練樣本可能存在噪聲和離群點,形成異常分支,異常分枝在訓練模型中表現好,但會對預測帶來不良影響。因此通常需對決策樹剪枝,使樹的復雜度降低,更易理解,預測分類時更快更好。
在SPSS Clementine中,C5.0模型通過“修剪嚴重性”指標控制對決策樹的修剪程度,取值為0到100,該指標值越小剪枝越少;值越大剪枝越多。為保證模型精度,并使構建的決策樹簡單。筆者對“修剪嚴重性”指標進行了不同設置和反復測試,測試結果見表5。
從表5看出,當“修剪嚴重性”在50-85間變化時,測試樣本準確率和訓練樣本自檢率并沒有出現較大變化,而樹的復雜度降低了,深度從3變為2。為了在不增加決策樹深度的情況下保留較完整的決策樹信息,我們將“修剪嚴重性”值設為50,此時樹的深度為2。
最終生成的國關讀者借閱頻度決策樹分類模型如圖8所示。
集合A={法律(大三,研一/研二),公管大三,國經(研一/研二),國政(大二/大三,研一/研二),日法(研一/研二),文傳(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英語(大一/大三/大四,研一/研二),應用化學研一}
集合B={法律(大一/大二/大四),公管(大一/大四),國經(大一/大三/大四),國政(大一/大四),日法(大二/大三/大四),信科大四,英語大二,應用化學研二,家屬,成人教育}
集合C={公管大二,信科研三,應用化學研三,教職工,外教,PCP}
需說明的是,公管系在2009年至2010學年還沒有研究生,故相應信息未出現在決策樹分支集合中。除信科系外,其他系的研究生學制均為兩年,沒有研三。
2.5 模型分析和建議
模型的準確度還不夠高,這可能是由于源數據缺乏更多與“借閱頻度”相關的屬性,可繼續收集一些有關讀者學習成績(如GPA、年級排名)、距離圖書館遠近等信息來為建模服務。
從圖8中看出,所在單位(包括身份、專業和年級)對其借閱量影響較大,其次是“性別”。具體如下。
⑴ 借閱量高的讀者(活躍讀者群):文傳大四女生,集合A(特別是大三的學生)。約占總人數的25%。
⑵ 借閱量低的讀者(一般讀者群):國經大二女生,日法大一女生,集合B;約占總人數的25%。
⑶ 無借閱的讀者(沉默讀者群):國經大二、日法大一、文傳大四的男生,集合C。約占總人數的50%。
按身份分析,大致地,本科生大二、大三的借閱需求較大,大一新生和大四畢業班學生借閱需求較小;研究生文科的借閱需求較大,理科非畢業班的借閱需求大,理科畢業班研三的借閱需求小;教職工借閱需求小。尤其是理科研三學生和教職工在09-10學年的借閱量為0,這可能是由于理科研三寫論文所需要的文獻大多從電子數據庫中獲取,而國關教職工每人每年都有充足的購書經費,使得他們更愿意自己購買圖書的方式獲取資料。
從上述分析結果看出,權限最低的本科生中很多群體借閱量高,而權限最高的教工的借閱量卻為0,這跟表1的權限分配相悖,說明了表1權限分配的不合理性。針對國關圖書館讀者的借閱權限分配,本文提出以下建議。
建議⑴:按決策樹分類模型劃分權限。模型中活躍讀者群,借閱冊數權限設為20;一般讀者群,借閱冊數權限設為10;沉默讀者群,借閱冊數權限設為5。權限劃分的關鍵在于模型的構建和基于模型的讀者分類,具體數值可根據藏書量、讀者人數加以調整。
建議⑵:平均劃分權限。按教育部規定,高校圖書館的生均藏書量應達到80-100冊,按一個圖書館可經常利用文獻量約為館藏總量的20%計[8],理論上的每生借閱權限應在16-20之間。國關人均藏書量約為85冊(37萬冊/4366人),因此理論上每人借閱權限應為20%×85冊=17冊,考慮到國關有約50%的人基本不到圖書館借書,理論上的借閱權限還有較大上調空間。保守計算,可將借閱冊數權限統一設為17,以最大程度體現“平等服務”和最大限度滿足讀者借閱量。
建議⑴重視讀者需求差異,有助于提高文獻利用率和讀者需求滿足率,但未考慮讀者對“平等借閱權”的訴求,然而相對于表1的權限設置更為合理和科學;建議⑵重視讀者借閱權的平等。
除借閱權限,圖書館還可針對不同讀者群提供針對,比如針對活躍讀者群,圖書館可讓其參與到圖書購買、圖書資源評價中,進行新書推薦,提供額外的培訓,以提高文獻資源利用率和最大限度滿足讀者需求。
3 結束語
圖書館的數據挖掘對提升圖書館服務質量,開發增值服務具有重要意義。本文從校圖書館的實際需求分析和數據出發,采用SPSS Clementine中的C5.O決策樹算法,建立借閱頻度決策樹分類模型。建模結果顯示,決策樹模型可按借閱量對讀者有效分類,讀者身份、專業、年級和性別對借閱量有重要影響,本科大三學生借閱需求較大,大四學生借閱需求小。決策樹模型能夠幫助圖書館進行讀者細分、調整借閱權限和提供差異化服務。
進一步的研究可從兩個方面開展,一是收集更多年份、更多屬性的數據,提高模型的準確率;二是以分析讀者的借閱時長為目標,建立讀者借閱時長分類模型,為圖書館針對不同讀者群制定不同借閱期限提供幫助。
參考文獻:
[1] 顧倩.數據挖掘應用于高校圖書館個性化服務的探討[J].圖書館雜志,2013.32(8):63-65
[2] 鄭斐,郭彥宏,郝俊勤,劉娜.數據挖掘技術如何在圖書館建設中體現價值[J].圖書情報工作,2013.S1:263-264,212
[3] 王偉.基于數據挖掘的圖書館用戶行為分析與偏好研究[J].情報科學,2012.30(3):391-394,418
[4] 馮研,王馨.國內圖書館數據挖掘技術實踐應用進展分析[J].圖書館學研究,2011.20:2-4
[5] 吳修琴.決策樹分類技術在圖書館管理中的應用[J].農業圖書情報學刊,2007.19(5):24-26,35
篇11
1 常見數據挖掘方法
1.1 貝葉斯網絡
貝葉斯網絡是通過簡明的圖形方式結合統計理論來定性表示變量間復雜因果或概率關系的一種數據分析方法,包括網絡集和概率集兩部分。該方法具強大的執行高效推理任務的功能,能充分利用先驗知識,而使其在診斷領域的應用價值極大。在解決中醫定量診斷問題上,其體現出的功能主要表現在:揭示眾多癥癥之間以及癥與證間的復雜關系,探究證候的主要癥狀和次要癥狀,定量確定其診斷價值,這有助于確定證候診斷的標準和規范,而且建立的證候診斷模型以概率形式給出診斷結果,能有效輔助專家作出決策。因此,該方法對促進中醫診斷學發展所做的貢獻不可忽視。張氏等[1]對255例肺癌患者證候以癥狀之間的關聯性及關聯強度為基礎,利用貝葉斯網絡概括出了肺癌的證候要素,包括病機要素9個、病位要素5個及病機要素之主要癥狀與次要癥狀。曲氏等[2]對611例抑郁癥患者的中醫證候進行了研究,采用貝葉斯網絡對抑郁癥中醫癥狀進行評定,發現擬定的中醫證型包含了抑郁癥的核心癥狀和周邊癥狀的不同組合方式,體現了抑郁癥臨床多變的證候特點。范氏等[3]對收集到的1512例類風濕關節炎(RA)患者的臨床數據采用基于聚類的貝葉斯網絡模型,提取出了RA的7項主特征及4型的類特征,為中醫辨證分型及RA中醫診斷標準提供了臨床依據。龔氏等[4]對2501例2型糖尿病的臨床數據運用該方法分析,發現空腹血糖異常患者及糖化血紅蛋白異常患者均以陰虛熱盛多見,而餐后2 h血糖異常患者則以陰虛多見。王氏等[5]應用此方法通過分析474例血瘀證臨床診斷數據進行血瘀證定量診斷,發現了血瘀證的7個關鍵癥狀,并與此同時建立“是否血瘀證”的分類器模型,經交叉驗證發現此分類器診斷準確率達96.6%。郭氏等[6]認為,證候的復雜性表現為證候各因素之間的高維高階性,他們運用貝葉斯網絡技術對肺系疾病證候構成因素之間關聯形式進行了研究,發現各因素間的聯結形式是線性相關與非線性相關并存的,它們相互交織,形成復雜的網絡結構,表現出典型的非線性特征。
1.2 人工神經網絡
人工神經網絡是在對人腦神經網絡結構認識理解的基礎上人工構造的新型信息處理系統。目前的神經網絡模型有:用于分類、預測和模式識別的前饋式神經網絡模型,用于聯想記憶和優化計算的反饋式神經網絡模型,以及用于聚類的自組織映射方法。其中前饋式神經網絡模型是目前應用最廣泛的神經網絡之一。對于將其應用于中醫診斷領域,陳氏[7]認為,中醫學辨證施治本質上就是對眾多數據信息進行處理并提取規律的過程,而人工神經網絡恰恰具備較好獲得數據規律的能力。人工神經網絡模型的優勢主要體現于其黑箱結構,這賦予人工神經網絡強大的非線性擬合能力,使其能夠任意精度逼近非線性函數。
但不足的是,在中醫研究中,人工神經網絡不能進行變量篩選,對其得到的結果也只是局部最優而非全局最優。如李氏等[8]對142例脾氣虛弱及肺脾氣虛證HIV/AIDS患者的主要實驗指標、四診信息的主要癥狀和舌象運用Clementine中的特征選擇節點進行篩選,建立脾氣虛弱和肺脾氣虛的人工神經網絡模型,發現該模型能較好地診斷艾滋病患者脾氣虛弱和肺脾氣虛證型,其樣本模型訓練集診斷的正確率和測試集診斷的正確率分別為87.25%和80.00%。傅氏等[9]認為,運用數據驅動模式建立中風人工神經網絡模型,將為進行繁雜多變的中風證候的動態研究、掌握證候的動態演變規律及在不同時點進行療效評價提供一個新的探索方向。許氏等[10]通過對心血管疾病中醫臨床信息數據庫中的臨床信息和證候類別之間的關系進行分析,發現人工神經網絡尤其是OCON網絡對該病常見的中醫證型的識別率最高,其中心氣虛證和心陽虛證分別高達92.4%、82.9%。有研究運用人工神經網絡分析RA、糖尿病腎病(DN),分別建立RA和DN證候的BP網絡模型,并采用三倍交叉驗證的方法,發現這2種模型平均診斷準確率分別為90.72%、92.21%[11-12]。余氏[13]通過文獻資料和臨床資料收集選用人工神經網絡等方法開展2型糖尿病證候診斷標準模型建立及對比研究,所建模型在臨床數據測試樣本的正確辨識率為73%。
1.3 粗糙集理論
粗糙集理論主要用于分析研究不完備數據,這是繼概率論、模糊集、灰色理論之后又一個刻畫不確定、不完備系統的有力數學工具。基于其具有能有效處理各種不確定、不完備信息的強大能力,有研究者認為將其用于分析中醫癥狀-辨證要素間相關性,建立定性定量標準,有很大前景[14]。其最大優點在于不需要問題所需處理數據之外的任何先驗信息,能夠在保留關鍵信息的前提下求得知識的最小表達式。因此,將粗糙集理論引入中醫,運用到中醫診斷上,將可能是實現中醫診斷智能化的又一個發展方向。
陳氏等[15]以450例老年人細菌性肺炎患者在就診過程中的285項指標為研究對象,采用粗糙集方法對已經過初始數據處理的各數據進行挖掘分析,得到7種中老年肺炎的證候診斷標準,為療效評價指標提供了客觀依據。陳氏等[16]從與原發性高血壓相關的古今醫案中收集237例病案,對其癥狀和體征進行數據預處理,運用基于粗糙集理論的KDD決策分析系統Rosetta軟件約簡病證屬性,獲取到了原發性高血壓肝陽上亢證的專家知識,為進一步研究原發性高血壓肝陽上亢證奠定基礎。劉氏[17]運用粗糙集理論對脾胃系疾病的證候診斷進行相關研究,建立了可進行辨證分型的計算機軟件,并通過這一軟件量化標準來判斷患者所屬證候,為治療脾胃系疾病辨證提供可靠依據。謝氏[18]建立了一個基于粗集理論的中醫診斷專家系統模型,以模擬中醫專家診斷的過程。秦氏等[19]把粗糙集應用于中醫類風濕證候診斷,并在類風濕病的各證候診斷上應用。
1.4 關聯分析
在數據挖掘方法中,關聯分析常用來挖掘特征之間或者數據之間的相互依賴關系,對給定的事務數據庫找出滿足最小支持度和最小置信度的關聯規則。與其他數據分析方法不同的是,關聯規則的引入,可以從大量貌似繁雜癥與證的數據中,找到隱形的關聯,極大促進中醫診斷學的發展;并且其所得結果清晰有用,同時支持間接數據挖掘;可處理變長的數據,為尋找診斷數據中的隱性關聯帶來了方便,其計算的消耗量也可以預見[20]。
肖氏等[21]設計了一種基于遺傳算法的正相關關聯規則挖掘算法,發現胃部不適癥狀與處方、證候重要關聯關系。陳氏等[22]通過對400例肝硬變患者進行關聯分析,找出符合最小支持度和最小置信度并形成規則的中醫證候氣滯/氣郁證和血瘀證,這表明肝硬變和氣滯證、血瘀證之間關聯度非常高。鐘氏等[20]采用關聯規則的分析算法,探求胃炎癥狀與“中虛氣滯”辨證之間的關系,得到在中虛氣滯證中,口干欲飲這個癥狀對辨證的影響最大。
1.5 決策樹
決策樹算法是一種逼近離散值函數的方法,常用來形成分類器和預測模型,是建立在信息論基礎之上對數據進行分類的一種方法。岳氏[23]通過選取300例確診為小兒肺炎患者的數據為基礎,成功構建了基于決策樹算法的小兒肺炎指紋辨證分類模型,準確率達84.5%。鐘氏等[20]從中醫胃炎數據中篩選出“中虛氣滯”的病歷,通過決策樹,以“中虛氣滯”為目標屬性,根據病歷中癥狀辨證是否與目標屬性相同設置“yes”和“no”兩值,再通過設置的訓練樣例運用ID3算法構建決策樹,以判斷未知中醫證型的病例是否歸屬“中虛氣滯”。查氏等[24]將397例已確診活動期RA患者隨機分為中藥和西藥治療組,通過對其初診中西醫癥狀及檢查結果采用決策樹進行證病信息和療效的相關關系探索,得出可從證候信息的角度獲得藥物治療的最佳適應證,從而實現個體化治療。徐氏等[25]對406例慢性胃炎病例用bootstrap抽樣擴增,采用基于信息熵的決策樹c4.5算法建立中醫辨證模型,測試集模型分類符合率為81.25%。
1.6 聚類分析
聚類分析的實質就是聚集數據成類,使類間的相似性最小,而盡可能增大類內的相似性。其優點是:作為一種探索性的統計分析方法,聚類分析方法可以在對數據沒有先驗知識的情況下對數據資料進行分類,根據數據的內在相似或相關程度,可使得類別內數據“差異”盡可能小,類別間“差異”盡可能大,對中醫藥領域中的癥狀組合規律、證候規律等方面的研究具有一定的推動作用。但由于中醫證候復雜程度較大,聚類分析在解決這些問題時存在的局限性表現在:①多結果,主觀性大。此分析方法無法根據數據內部特點自主確定分為幾類,需要研究者依據其學科知識和經驗來確定到底聚為幾類、聚到哪一類為最佳;此外,選擇不同的類間距離和變量間距離的定義方法,結果將大有不同,因此,多次嘗試、反復分析對于此類分析方法來說是必須的。②單分配,即變量只能被聚到某一類。在研究癥狀的聚類問題時,中醫的一個癥狀常需要能被聚到不同的類中,但聚類分析只能將一個癥狀歸入某一個類別里面。
李氏等[26]應用系統聚類的方法對276例乙肝后肝硬化的癥狀、體征進行分析研究,得出乙肝后肝硬化基本中醫證候有濕熱內蘊證、肝腎陰虛證、肝郁脾虛證、脾虛濕盛證、脾腎陽虛證、血瘀證、氣(陽)虛證共7類。盧氏等[27]通過制定“中醫證候臨床觀察表”,對106例兒童中間型β地中海貧血患者進行中醫證候調查,采用聚類分析等統計學方法得出廣州地區中間型β地中海貧血患兒中醫證候分布特點為氣血兩虛證>肝腎陰虛證>脾腎陽虛證>陰陽兩虛證,這為進一步規范化辨證論治提供了一定依據。何氏等[28]采用臨床流行病學的方法,對143例冠心病PIC術后患者的癥狀、體征等臨床資料進行了聚類分析,得出冠心病PIC術后患者證候分為氣虛痰濁、腎虛血瘀、肝氣郁結、脾氣虧虛、心氣虧虛、氣陰虧虛共6類。黃氏等[29]應用變量聚類分析的數理統計方法,對慢性疲勞綜合征(CFS)進行了中醫辨證分型,并對收集到的237例CFS患者的癥狀、舌象和脈象等臨床資料進行了變量聚類分析,得出變量聚類分析能幫助CFS在中醫證候中合理分為精髓空虛、陰液虧虛、脾腎陽虛和肝火亢盛共4型,解釋比例為61.68%。
1.7 判別分析
與其他統計學方法不同的是,判別分析的主要目的是建立一個線性組合,使其可用最優化的模型來概括分類之間的差異。該方法常用來根據已知數據的分類情況判斷未知待分析數據的歸屬問題等,在證候的研究方面應用最廣。
胡氏等[30]根據所收集的413例亞健康失眠患者的中醫證型對證候變量進行逐步判別分析,建立判別函數式,得出亞健康失眠中醫證型判別函數與臨床診斷吻合良好,逐一回代法判別總一致率達81.1%。夏氏等[31]對77例慢性再生障礙性貧血(CAA)患者進行辨證分型分組,應用逐步判別分析方法建立CAA中醫證型判別方程,篩選出了與判別方程最相關的6個免疫學和血常規指標。酈氏等[32]以腦梗死中醫證型標準化研究結果為基礎,采用逐步判別分析,建立了腦梗死各證型與觀察指標間的數學判別方程。趙氏等[33]對收集符合RA診斷標準的患者按照辨證對變量進行逐步判別分析,建立了一個具有較好的判別效果的判別模型。薛氏等[34]選用已進行頻數分析的文獻207篇進行肝病證候的判別分析,認為肝郁脾虛證辨證標準難以脫離疾病特點。
1.8 支持向量機
支持向量機是基于統計學習和結構風險最小化原則的學習機器,可以通過核函數將低維輸入空間的數據特征投射到高維數據控件,并求得最優分類的超平面。該算法的關鍵思想是利用核函數把一個復雜的分類任務映射,使之轉化成一個線性可分問題。在許多實際學習問題中,它允許擴大的空間維數非常大,在某些情況下可能無窮大,能較好地解決小樣本、非線性、高維數和局部最小等問題。支持向量機方法較適用于中醫診斷數據的現狀和對中醫臨床經驗的總結。
徐氏等[35]以中醫心系503個樣本為例,利用支持向量機進行中醫心系證候分類研究,結果表明,該方法在證候分類中能達到較高的準確率。王氏等[36]以名醫診治冠心病典型醫案115例建立冠心病名醫診療數據庫,運用支持向量機方法提取到名醫診治冠心病8個主要證候要素并確定其定量診斷,闡釋了證候要素應證組合規律。殷氏等[37]對舌診數據進行主成分提取,分別建立Logistic回歸和支持向量機模型,發現在小樣本情況下支持向量機模型更優,敏感度達92.8%,特異度達92.3%。楊氏等[38]精選1個家系虛寒證的相關基因信息,選擇間接比較實驗方案進行基因芯片實驗,對5例虛寒證和5例正常人差異表達基因的表達值進行建模,使用支持向量機、K近鄰分類法等方法,將家系中其他人樣本帶入,發現其能夠正確判別。在舌象診斷鑒別上,謝氏[39]依據支持向量機理論,以徑向基函數作為核函數構造多分類分類器,將舌象的特征參數作為輸入樣本,對病證進行分類,并以肝病病證分類做了仿真。
1.9 多標記學習方法
與其他分類方法不同的是,多標記學習方法的每個研究對象不再對應于單一的概念標記,而是由單個示例(屬性向量)表示并對應于多個概念標記,即一個樣本和多個類標相關聯。鑒于現實社會涉及到的很多真實對象往往都具多語義、多分類目標性,如疾病的證候、證型,待分類的文檔、網頁,生物信息學中的基因等,因此,多標記學習方法的成熟對促進這些領域的發展也就顯得十分重要。然而該方法存在的一個主要問題是不能充分利用各訓練樣本所含概念標記之間的相關性,從而有效提高學習系統的泛化能力;此外,由于其存在復雜程度較大,運用該方法進行研究尚存在降維方法和特征選擇方法較少的不足。
針對中醫臨床證候兼夾的多標記特點,研究人員首次將多標記學習算法引入到中醫問診的客觀化研究。該研究將多標記學習結合頻次分析,應用于冠心病的問診證候模型建立,有效提高了診斷模型的識別率;在此基礎上,還結合中醫數據特點,提出了多標記學習算法(REAL),并結合信息增益等特征選擇方法,挑選出常見證候的20個最優特征,顯著提高了慢性胃炎的證候的識別率[40-41]。邵氏等[42]運用多標記學習結合混合優化的特征選擇算法(HOML),用于冠心病中醫問診數據分析,建立了中醫冠心病數據模型,并獲得了冠心病問診癥狀的最優特征子集。
1.10 隨機森林
隨機森林是決策樹算法的一種改進,其綜合思想是組合多棵bootstrap樣本建立的決策樹的預測,通過投票給出有效的錯判率估計、分類器強度、相關性和變量的重要性等指標。該方法對每個被分析的數據都給出了重要性的評分,在某種程度上有利于有效的特征變量的挑選,降低數據維度。隨機森林作為一種自然的非線性建模工具,具有很高的預測準確率,能很好地容忍異常值和噪聲,不易出現過擬合,降低分類錯誤率;也不會出現在bootstrap樣本中的OOB數據,還能為樣本提供一個數據內部估計,可用來高效估計組合分類器中的泛化誤差,有助于理解分類精度以及如何提高精度。
洪氏等[43]通過引入隨機森林方法,對《慢性疲勞(CF)中醫臨床癥狀分級量化表》中的95個癥狀進行數據編碼,選取CF常見證候要素的主要癥狀并衡量癥狀對各證候要素的貢獻程度,得到了CF脾虛證、心虛證、肝郁證以及氣虛證4個證候要素的癥狀集,將各癥狀集作為模型輸入,各模型預測準確率分別為96.13%、94.75%、95.89%、94.26%。鄒氏等[44]借用特定脾虛證臨床數據集證明基于特征提取的分類集成模型比其他集成方法具更低的錯誤率,認為特征提取在降低錯誤率上作出了明顯的貢獻,但其結果是否適用于其他小樣本數據尚未證實。王氏等[45]通過文獻調研,推測使用隨機森林提取亞健康關鍵癥狀或指標可幫助亞健康狀態的判斷。
2 討論
中醫臨床診斷數據存在的一個顯著特點是證候夾兼、數據多而繁雜、各數據之間的關系藏而不現。因此,借助現代化的信息技術手段,綜合運用數理統計分析方法以進一步挖掘四診以及證候之間的隱性關聯具有重要意義。然而,在數理統計方法研究發展正處于高峰期的信息化時代,如何根據待分析的數據庫的特點選擇正確恰當的方法是當前數據挖掘首先要考慮的問題。
一個樣本量較大的數據庫,當需要進行一定的數據分類時,可能有必要對上述方法進行探索。聚類分析可滿足對數據進行一定的癥狀的組合、證候規律的挖掘;若是在已知數據的分類情況下需要對待分析數據進行分類,判別分析恰有這方面的優勢;決策樹則在實現數據分類挖掘過程中的可視化方面凸顯其優勢;隨機森林可在決策樹的基礎上進一步提高有效特征變量的提取率,同時還能避免數據預處理過程中的過擬合現象。當然,在臨床數據分析過程中也經常出現數據樣本量較小、維度較高等現象,支持向量機方法在中醫領域的引進則為這些數據的分析帶來新的契機。除了對數據進行分類挖掘外,數據之間的關聯討論也是數據分析必不可少的,尤其在中醫診斷中探討各癥、證之間的關聯領域的應用;在隱性關聯分析的眾多分析方法中,多標記學習法有效解決了證候夾兼的現象;粗糙集理論有利于建立定量定向標準;人工神經網絡在識別證型上主要體現其強大的非線性擬合能力;此外,在探究癥與證關系上,貝葉斯網絡還是診斷領域的常用之法,該方法還可幫助我們進一步探討癥狀集中的主次癥。
總之,集各種數據挖掘方法之長于一體來對某一數據庫進行挖掘分析將為中醫界數據挖掘技術的成熟帶來不可預料的進展。目前,大部分數據挖掘方法都只是被單一采用,即使有同時運用多種挖掘方法進行數據分析,也只是對某一數據系統運用多種方法相互比較,所獲得的結果效用度較小。多重方法相互交融、相互補充、綜合運用于某一數據分析系統中的研究在在中醫領域尚不很成熟,或許可以成為數據挖掘在中醫藥研究中的進一步的模式和規則,為數理統計在中醫藥知識的創新和發展中開辟一條新的途徑。
參考文獻:
[1] 張霆,陳波,馬勝林,等.基于貝葉斯網絡的肺癌證候研究[C]//慶祝浙江省中西醫結合學會成立三十周年論文集粹.杭州:浙江省中西醫結合學會,2011:50-52.
[2] 曲森,啟盛,包祖曉.貝葉斯網絡模型在中醫證候研究中的應用[C]//世界中聯第三屆中醫、中西醫結合老年醫學學術大會論文集.北京:世界中醫聯合會,2010:61-63.
[3] 范建平,李常洪,吳美琴,等.貝葉斯網絡在中醫診斷中的應用研究[J].管理科學學報,2008,11(6):143-150.
[4] 龔燕冰,倪青,高思華,等.Ⅱ型糖尿病主要理化指標與中醫證候相關性的貝葉斯網絡分析[J].中華中醫藥雜志,2010,25(1):3l-33.
[5] 王學偉,瞿海斌,王階.一種基于數據挖掘的中醫定量診斷方法[J].北京中醫藥大學學報,2005,28(1):4-7.
[6] 郭蕾,王學偉,王永炎,等.論高維高階與證候的復雜性[J].中華中醫藥雜志,2006,21(2):76-78.
[7] 陳偉青.淺論人工神經網絡在中醫學上的應用[J].河南中醫學院學報, 2004,19(11):12-13.
[8] 李玉森,施學忠,楊永利,等.人工神經網絡在HIV/AIDS患者主要虛證診斷中的應用[J].中華中醫藥雜志,2012,27(5):1269-1271.
[9] 傅勤慧,裴建,惠建榮,等.中風證候動態研究現狀與展望:數據與模型驅動模式的應用[J].中西醫結合學報,2011,9(12):1292-1300.
[10] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經網絡的心血管疾病中醫證候分類識別研究[J].北京中醫藥大學學報,2011,34(8):539-543.
[11] 白云靜,申洪波,孟慶剛.基于共軛梯度下降算法的類風濕性關節炎BP神經網絡癥候模型研究[J].中國中醫藥信息雜志,2010,17(3):96-97.
[12] 白云靜,申洪波,孟慶剛,等.基于人工神經網絡的中醫證候非線性建模研究[J].中國中醫藥信息雜志,2007,14(7):3-4.
[13] 余學慶.基于智能計算的2型糖尿病中醫證候診斷方法研究[D].北京:北京中醫藥大學,2007.
[14] 晏峻峰,朱文鋒.粗糙集理論在中醫證素辨證研究中的應用[J].中國中醫基礎醫學雜志,2006,12(2):90-93.
[15] 陳楚湘,沈建京,陳冰,等.運用粗糙集理論建立中老年肺炎中醫癥候診斷標準[C]//第二中國控制會議論文集.上海:中國自動化學會控制理論專業委員會,2010:40-42.
[16] 陳素玲,付爽,高云,等.基于粗糙集理論的原發性高血壓肝陽上亢證辨證系統的建立[J].山東中醫藥大學學報,2010,34(3):201-203.
[17] 劉泉.粗糙集在脾胃系疾病中醫辨證中的應用研究[D].武漢:湖北中醫學院,2008.
[18] 謝國明.基于粗集理論的中醫診斷模型的建立[J].數理醫藥學雜志, 2005,18(4):302-304.
[19] 秦中廣,毛宗源,鄧兆智.粗糙集在中醫類風濕證候診斷中的應用[J].中國生物醫學工程學報,2001,20(4):357-363.
[20] 鐘穎,胡雪蕾,陸建峰.基于關聯規則和決策樹的中醫胃炎診斷分析[J].中國中醫藥信息雜志,2008,15(8):97-99.
[21] 肖光磊,陸建峰,李文林,等.正相關關聯規則及其在中醫藥中的應用[J].計算機工程與應用,2010,46(6):227-233.
[22] 陳明,楊慧芳,余蕾.基于關聯規則的肝硬變辨證數據挖掘研究[J].河南中醫雜志,2009,29(3):258-260.
[23] 岳路.決策樹算法在小兒肺炎中醫臨床診斷中的研究與應用[D].濟南:山東大學,2011.
[24] 查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風濕性關節炎證病信息與療效的相關關系[J].中國中西醫結合雜志,2006,26(10):871-986.
[25] 徐蕾,賀佳,孟虹,等.基于信息熵的決策樹在慢性胃炎中醫辨證中的應用[J].中國衛生統計,2004,21(6):329-331.
[26] 李毅,劉艷,寇小妮,等.乙肝后肝硬化癥狀學聚類研究[J].中醫藥導報,2012,18(2):14-16.
[27] 盧焯明,錢新華.以聚類分析法研究兒童中間型β地中海貧血的中醫證候分布規律[J].中華中醫藥雜志,2012,27(3):607-611.
[28] 何慶勇,王階.基于聚類分析的冠心病介入術后中醫證候分類及診斷[J].中醫雜志,2008,49(10):918-921.
[29] 黃小波,李宗信,陳文強,等.慢性疲勞綜合征的中醫證候聚類分析[J].中華中醫藥雜志,2006,21(10):592-594.
[30] 胡萬華,陳克龍,趙娜,等.亞健康失眠患者中醫證型的判別分析[J].中醫雜志,2012,53(2):142-144.
[31] 夏樂敏,王運律.慢性再生障礙性貧血中醫證型判別方程的建立與使用[J].中華中醫藥學刊,2012,30(2):409-411.
[32] 酈永平,溫淑云.腦梗死證型量化分級的判別方程研究[J].中國中醫急癥,2012,21(1):81-82.
[33] 趙寶利,黃可兒,趙敏.類風濕關節炎中醫辨證分型的判別分析[J].中華中醫藥雜志,2012,27(1):240-242.
[34] 薛飛飛,汪南.基于判別分析的肝病肝郁脾虛證證候特點的文獻研究[J].中華中醫藥雜志,2011,26(6):1260-1263.
[35] 徐,王億勤,鄧峰.基于SVM的中醫心系證候分類研究[J].世界科學技術―中醫藥現代化,2010,12(5):713.
[36] 王階,吳榮,周雪忠.基于支持向量機的名老中醫治療冠心病證候要素研究[J].北京中醫藥大學學報,2008,31(8):540.
[37] 殷彬,方思行.脾虛證診斷的數學模型[J].暨南大學學報:自然科學版,2006,26(3):363-367.
[38] 楊麗萍,黃睿,張洛欣,等.用特征功能模塊法挖掘一個虛寒證家系的基因表達譜[J].中華中醫藥雜志,2010,25(5):683-685.
[39] 謝錚桂.基于多分類支持向量機的中醫舌診診斷的研究[J].計算機與數字工程,2008,36(11):60.
[40] Liu GP, Li GZ, Wang YQ. Modelling of inquiry diagnosis for coronary heart disease in TCM by using multi-label learning[J]. BMC Complementary and Alternative Medicine,2010,10:37.
[41] Liu GP, Yan JJ, Wang YQ, et al. Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence- Based Complementary and Alternative Medicine,2012,6:3-5.
[42] 邵歡,李國正,劉國萍,等.多標記中醫問診數據的癥狀選擇[J].中國科學:信息科學,2011,41(11):1372-1387.
[43] 洪燕珠,周昌樂,張志楓,等.基于隨機森林法的慢性疲勞證候要素特征癥狀的選擇[J].中醫雜志,2010,51(7):634-638.
篇12
1 分部門、分災種的危機管理決策支持系統
我國防震減災系統應用和輔助決策系統的發展是與計算機技術,主要是GIS技術的發展相輔相成的。在20世紀80年代初,我國通過世行貸款開始了有關城市地理信息系統的開發研究。“九五”期間,結合950 項目(大中城市防震減災示范研究與應用),地震系統有關單位在烏魯木齊、天津、大連、合肥、自貢、泰安、福州、廈門等地建立了各自地區的“基于GIS的防震減災信息與輔助決策系統”,利用GIS等工具軟件,姚保華(2002)將區域地震環境、震害預測成果和應急輔助決策模塊等進行集成。云南地震局王景來(1999)將GIS應用到地震災害的評估提出將地震災害評估智能化或半智能化的設想,在此基礎上建立了玉溪地震減災信息系統。上海地震局宋俊高、火恩杰等(2000)將GIS應用到城市防震減災應急研究,以上海市寶山區為試點,建立了上海市防震減災應急決策信息系統。王曉青等(2004)利用現代通訊技術、GIS技術和信息處理技術,構建了基于GIS的地震現場災害損失評估系統,實現破壞性地震發生后地震現場災害損失的快速、動態評估,現場震情和災情信息的顯示以及各種信息的遠程交換。
火災是各種災害中發生最頻繁且具有很強破壞性的一種。謝喚亮(1997)給出了基于GIS的決策支持系統的框架,并在南京市消防指揮中心初步實現。許云,任愛珠(2003)對虛擬現實技術(VR)在基于GIS的城市消防指揮系統中的應用進行了研究。朱霽平(2004)建立城市火災應急決策支持系統,一旦發生火災,信息可以迅速傳遞到指揮中心,并快速模擬災害現場情況、預測災害發展趨勢,綜合各種要素,生成救援方案,有效調度和科學利用消防減災資源。
國內防洪減災決策支持系統的研究起源于20世紀80年代末期,特別是國家在“八五”期間安排的“八五”重點科技攻關項目――長江、黃河、淮河防洪減災DSS研究,出現了很多比較成功的成果,胡四一等(1996)在分析總結長江中下游防洪經驗和防洪決策流程的基礎上,研究防洪決策支持系統建立的開發模式、程序、方法、技術和應用模式,研制和開發了系統中總控管理――人機界面系統、數據庫、知識庫、系統接口和通訊軟件、洪水演進和調度仿真模型、防洪決策風險分析模型等,初步建立了可運行的原型系統,并通過聯機試驗運行、檢驗系統設計、推進分洪決策支持系統的實際應用。到20世紀90年代初,又有翁文斌等開發的安陽市防洪DSS,浙江省洪澇臺風災害預報及省級防洪調度決策系統、黃河防洪調度決策支持系統和長江防洪決策支持系統等投入運行。這些系統都以關系數據庫為核心,系統具有一定的可擴展性、可移植性。余達征等(1999)針對防洪減災DSS的不足和防洪減災決策的特點,將專家系統中的知識處理思想引入防洪減災DSS中以解決其不足之處。設計出智能型的城市防洪減災DSS。
2 城市危機管理決策支持系統
2.1 城市危機管理決策支持系統理論研究
韓燕暉將城市公共危機防范與救助系統分為指揮決策系統這一上位系統與預警系統、預案系統、信息系統、保障系統、動員系統、善后系統等六個下位系統。劉寧認為突發事件應急決策支持系統是用戶通過人機交互與系統主推理機連接,并借助規則、案例、模糊知識推理部分共同完成不同庫間的調用和內部推理求解。朱曉峰等根據政府決策支持系統的信息復雜程度和時效程度將其分為四大類:日常決策支持系統、宏觀決策支持系統、重大活動決策支持系統和危機決策支持系統。惠志斌構造了由危機信息管理預警、危機信息管理知識、危機管理指揮、危機管理反應、危機管理恢復等子系統構成的綜合性危機信息管理系統。谷巖,馮華綜介運用數據倉庫、聯機分析處理(OLAP)、數據挖掘、信息智能推拉等多種信息處理技術,以多種形式靈活地生成各種應急方案。徐志勝等以地理信息系統(G1S)為平臺,集成決策支持系統(DSS),研究開發了“基于G1S的城市公共安全應急決策支持系統”。唐裙裙認為應該采用五級架構,底層是硬件支持層;其次是基礎信息層;基于其上的是決策支撐平臺層;再上層是決策應用平臺層;最上層是用戶界面,需要針對不同類型的用戶進行設計。張茜公共危機管理決策支持系統的主要功能包括機理分析、預警預報、資源優化、綜合評價和決策建議。柳宗偉,景廣軍提出利用信息技術促進我國城市危機管理機制創新的思路,即建立以統一機構(城市危機管理中心)為核心的調度統一、聯動協調、信息共享的城市綜合危機管理機制,研制實用的城市危機管理決策支持系統以支持該模式的高效運作。
2.2 城市危機管理決策支持系統技術支撐
在智能決策支持系統的算法研究方面,研究的焦點集中在GIS路徑優化、案例檢索算法以及數據挖掘等方面:黃詩峰等對災民撤退網絡流模型及其GIS模擬技術進行了深入研究;羅忠良對案例推理系統中案例檢索算法的改進進行了探討;馮興杰等對有關數據挖掘及其關聯規則算法進行了詳細地討論;陶靈皎,孫繼銀等對決策樹的算法進行詳細探討并針對自己的研究對象作了適當優化;王秀坤等設計了改進的EM算法并實現了在防洪決策中的應用。
2.3 城市危機管理決策支持系統工程實踐
2003年“非典”事件后,我國目前許多城市已經開始設置專門的應急管理機構,將應急管理作為政府的一項日常的工作來抓,使城市應急管理逐漸走上正規化和制度化的軌道。已建成的城市應急管理機構有北京市突發公共事件應急委員會、上海市突發公共事件應急管理委員會、深圳市處置緊急事務委員會、廣州110社會聯動中心、武漢市110聯動服務中心、南寧市社會應急聯動中心等。城市危機管理信息系統一般由以下四個子系統,即應急指揮系統、應急業務處理系統、信息與資源共享系統、決策支持系統組成。管理決策支持系統作為城市危機管理信息系統的一個子系統,目前大多城市尚未進行專門建設。但在某些城市危機管理信息系統中包含了初步的輔助決策功能,下面分別對具有代表性的北京、天津、深圳、臺灣的城市危機管理信息系統中所包含的輔助決策功能進行介紹。
北京市危機管理信息系統主要由以下子系統組成:①網絡通信子系統,比如有政府網、應急呼報警網;②信息數據庫子系統,城市地理環境數據庫、城市社會經濟數據庫、災害歷史數據庫;③應急評估數學模型子系統,危機事件潛勢預測模型、社會災變心理分析模型等;④對策預案子系統,綜合應急管理總體預案,單災種專業應急預案,預案實施決策流程;⑤專業救援子系統,比如醫療急救網、消防網自然災害現象救援保障,還有公共設施搶修隊,治安和反恐防爆隊。這里應急評估數學模型子系統和對策預案子系統就包含了初步的輔助決策功能。其應急指揮系統中心設計聯動國家減災中心、水利、氣象、地震、消防社區、單位重點區域,城市生命線系統管理部門,它有一些監測設備,比如現場空中監測,還有現場救援指揮車,對突發公共事件進行災害的動態顯示。還有應急對策的顯示系統,根據專家的意見和對策,進行會商結果,最后形成一個綜合的減災策指令。
天津市負責突發公共事件應急管理的主要部門是防災應急指揮中心,配置有線、無線通信系統、指揮輔助決策系統、指揮辦公自動化系統、遠程圖像傳輸系統、綜合視訊系統、應急供電、供水系統、樓宇保安監控系統等,運用現代通信網絡和高技術手段,實現各類應急信息的收集、處理、整合,為市領導處置重大災害和突發事件實施應急指揮提供了基本平臺和手段。指揮中心在樓設置了專家會商室和相關單位、搶險專業組、應急救援隊工作室,可集中各險種專家和專業組、隊共同會商,為領導提供輔助決策。
深圳市應急指揮系統的輔助決策概況:深圳政府特別重視對預案信息系統的設計和開發。深圳有關部門制定和修改了各項應急預案,明確各類突發事件分級分類定量標準,提高預案的可操作性,并建成預案數據庫,納人應急指揮技術平臺的“預案生成系統”。深圳市發生重特大突發性事件時,市領導不但可以在應急指揮中心通過視頻、音頻系統進行現場指揮,還通過地理信息系統和電子地圖了解事件發生地點的具置及周邊情況。同時,系統還將根據現場和數據庫中的各種數據,自動生成多個應急預案以供領導決策選擇。
臺灣的災害管理決策支持系統研究結合了地理信息系統(GlS)、遙感(RS)、全球定位系統(GPS)以及日益成熟的網絡技術,建立一套整體性的防災救災決策支持系統。該系統使用災害生命周期法來進行決策支持系統整體架構的規劃,將災害從發生前至發生后的整個過程視為一個完整的災害管理循環周期,并進一步分析各階段所需的決策支持需求,運用模組化的概念規劃其中的各項子系統。完整的災害防救決策支持系統資料庫由地理資料庫、氣象水文觀測資料庫、歷史性災害資料庫、趨勢分析與境況模擬成果資料庫、詮釋資料庫等五大資料庫組成。臺灣是多發地震的地區,以該系統的地震知識管理為例,通過“案例式推理”的研究方法,搜集臺灣歷年來都市層級的地震防災救災相關研究(不含地質研究、地震工程)案例一百余例,并利用英國Wales大學所開發的CBR軟件caspian(1999),建置“地震防災救災文獻案例式查詢系統”,探討其應用于都市防災救災的可行性,初步獲得了良好的成果。
參考文獻
[1]姚保華,陶夏新.分布式防震減災系統的可行性[M].南京:東南大學出版社,2002.10.
[2]王曉青,丁香.基于GIS的地震現場災害損失評估系統[J].自然災害學報,2004, 13(1):118-125.
[3]許云,任愛珠,潘國帥.基于GIS和VR的消防指揮系統研究[J].土木工程學報,2003,36(5):92-96.
[4]朱霽平.基于GIS的城市火災應急空間決策支持系統和仿真模型[D].中國科學技術大學博士學位論文,2004.
[5]谷巖,馮華.智能化城市防災救災應急處理支持系統的研究[J].計算機工程與設計,2005,(6): 1503-1505.
篇13
Yang Lufan
【Abstract】The network curriculum develops has begun to take shape, at present urgently awaits the duty which is solved is the establishment effective, the comprehensive network curriculum analyzes the indicator system, the guarantee network curriculum quality of teaching. The domestic and foreign experts often focus the attention in the network teaching platform and the environment aspect, actually neglected has carried on the analysis by the learner from the side to the network curriculum, the gain network curriculum recessive attribute. Therefore, this article mainly carries on the analysis based on the learner angle to the network curriculum, forms a preliminary network curriculum to analyze the target frame, analyzes the indicator system for the establishment perfect network curriculum to propose the new angle of view.
【Key words】The network curriculum analyzes; Learner; Target frame
1 介紹
眾所周知,網絡課程已成為終身學習的重要手段。為確保網絡課程的教學質量,真正意義上促進學習者學習,我們亟待建立有效的、全面的網絡課程分析指標體系。因此,不僅要把是否具備最為完善的網絡教學平臺和環境作為衡量網絡課程的一方面,也要透過學習者從側面對網絡課程進行深入分析。
目前從網絡課程教學平臺和環境方面對網絡課程進行分析,已有較成熟的理論研究。本文主要從網絡課程分析的另一個角度即學習者,對學習者在網上學習相關的數據進行定義建模,形成初步的網絡課程分析指標框架,為建立一個有效的、全面的網絡課程分析指標體系提出新視角,為網絡教育工作者分析、改善已有的課程提供參考依據。
2 基本概念
2.1 網絡課程:網絡課程是在課程論、學習論、教學論指導下通過網絡實施的以異步學習為主的課程,是為實現某學科領域的課程目標而設計的網絡學習環境中教學內容和教學活動的總和。
2.2 網絡課程分析:網絡課程分析,本文主要是指基于學習者角度的網絡課程分析。即對學習者在網上學習相關的數據進行統計、挖掘和分析,從側面得到網絡課程的隱性屬性。網絡課程有三類用戶,即學習者、教師、管理員,網絡課程的直接受益者是學生,從學習者角度進行分析較能體現網絡課程的一些隱性特征。
3 網絡課程分析指標框架的確定及解析
網絡課程分析是對學習者在網上學習相關的數據進行統計、挖掘和分析,從側面得到網絡課程的隱性特征。學習者網上學習相關的數據即學生的個性特征、網絡資源的使用情況等,通過對學習相關數據進行定義建模,結合網絡課程教學平臺進行數據采集如登錄次數、登錄時間、自測正誤率、發帖數量、帖子訪問量、回帖數量、學習資源點擊次數、作業完成情況等,以數據庫的方式存儲到數據庫管理系統中,參考Web數據挖掘相關算法,從而獲取網絡課程的一些內在隱性特征如專業性、響應度、參與度、難易度、趣味性等,為今后更好地、全面地分析網絡課程提供參考依據。
3.1 學習者網上學習相關數據定義建模:利用文獻研究方法綜合分析了國內外近十年來學習者網上學習相關的數據元素,較多文獻是從學習者個性特征、自主學習以及交互學習三方面進行描述。因此,從學習者個性特征、自主學習和交互學習三個方面對網上學習相關數據進行定義建模,詳見表1。
學習動機動機來源:外在動力、內在動力、成就動力;具體動機:教育目標、經濟學期望、社會學期望、學習方式的開放性
3.2 構造網絡課程分析指標樹:通過與相關專家學者的反復討論,并參考若干網絡課程分析的相關資料,筆者認為用“三性三度”能較好地體現網絡課程的隱性屬性,“三性三度”即:目標性、趣味性、交互性、難易度、參與度、響應度。因此,“三性三度”形成了網絡課程分析的6個一級指標。參考網上學習相關數據模型表,借鑒Web挖掘相關技術對其進行數據挖掘,形成了網絡課程分析的11個二級指標,便構造出了一個網絡課程分析指標樹。(見圖1)
3.3 網絡課程分析指標解析:網絡課程分析由6個一級指標和11個二級指標構成,下面對各項指標進行進一步的解析:
專業性:通過統計、挖掘和分析學習者的身份信息、學習條件、學習動機以及信息素養能力等,獲取本課程是否具有專業性,面向的學生是專業的還是普遍大眾。
趣味性:單位時間內各個欄目與媒體資源的在線人數統計分析,網頁、網頁、流媒體、BBS信息、教學信息、圖書等資源的點擊率統計分析,可以挖掘出本課程最具趣味性資源與欄目。
交互性:統計交互工具,如在線聊天、視頻會議、音頻會議、BBS、Email等的使用次數和時間間隔平均值,可以挖掘出本課程是否具有交互性。
難易度:統計各問題與知識點的發帖數量與回帖數量,計算平均值,并與平均值比較,數量超過平均值的多少可以反應出課程的難易程度。
參與度:統計參加網上直播課堂學習、提交作業、網上自測、網上考試的次數,調研報告、PPT等個人作品和研究成果的展示數量,對其進行分析,可以挖掘出本課程的參與度。
響應度:統計教師對問題的答復率與回應時間間隔,挖掘、分析出本課程的響應度如何。
3.4 網絡課程分析指標框架表:經過對網絡課程分析各個指標的確定及解析,形成了一個初步的清晰的網絡課程分析指標框架表。(見表2)
4 結論
網絡課程分析指標框架目前還只是一個雛形,需要相關專家學者對其進行不斷地論證與改進。本文對其進行研究主要有兩個方面的原因:第一是希望能為全面分析、評定網絡課程提出一個新視角;第二是希望能引起廣大教育技術工作者和網絡教育工作者的注意,對如何有效全面的分析網絡課程進行激烈地探討,以期形成一個標準的、全面的網絡課程分析指標體系。
參考文獻
[1] 李朝葵,陶衛國.層次分析法在網絡信息資源導航系統評價中的應用[J].四川圖書館學報,2004,(3):75-78
[2] 張偉遠.網上學習環境評價模型、指標體系及測評量表的設計與開發[J].中國電化教育,2004,(7).