引論:我們為您整理了13篇數據挖掘課程范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
篇1
院大數據;數據挖掘;教學方式;考核方式
大數據時代的到來,給人們的生產和生活帶來極大的變革,由此也引起了社會各界的廣泛關注。目前,大數據已經與我們的日常生活息息相關,對各行業的發展也產生了至關重要的作用。數據挖掘技術是信息化的產物,也是現代企業生產和發展過程中需要用到的重要技術之一,因此對數據挖掘技術人才的需求越來越多,《數據挖掘》學科由此得到了快速的發展。本文將對《數據挖掘》課程的教學展開論述,希望能引起同行的共鳴。
1大數據介紹
1.1大數據含義大數據是網絡技術發展到一定階段出現的新興名詞,是指數量巨大、結構復雜、類型眾多的數據構成的集合,大數據是以云計算的共享平臺為基礎,通過數據的交叉復用,形成新的智力資源和知識服務能力。大數據處理需要分布式計算機構架才能完成,僅依靠單臺的計算機無法實現大數據處理,因此大數據處理就是借助云計算的分布式處理、分布式數據庫、虛擬存儲技術對大量數據進行整合處理的過程。
1.2大數據特征大數據具有數量大(Volume)、類型多(Variety)、價值高(Value)和速度快(Velocity)的特點,簡稱為“4V”。大數據處理的數據規模不斷擴大,已經由GB、TB級擴展到EB或ZB級,這是普通計算機硬盤容量所無法達到的;大數據對象包括結構化數據、半結構化數據以及非結構化數據,存儲對象由傳統的文本內容擴展到了音頻數據、視頻數據、搜索引擎中關鍵詞等,其數據的類型繁多復雜;數據之間的關聯性不斷加強,已經對社會經濟、系統、信息學、網絡學以及心理學等多個領域產生了深遠影響;大數據的產生形式以數據流為主,能瞬時產生,具有很強的動態性和時效性。
2數據挖掘曳課程教學探討
2.1教學內容《數據挖掘》是一門綜合性的學科,學科內涉及的主要內容有數據庫技術、統計學、信息檢索、計算機技術以及可視化技術等,需要不同的學科交叉學習,因此,該課程具有很高的理論性和實踐性。在教學過程中,不僅要注重基礎理論知識的培養,還要加強對學生創新能力以及問題解決能力的培養。課程的知識結構可按照表1所示組建。數據挖掘前需要進行預處理,然后才能存入數據倉庫,再利用相關的挖掘工具和算法,按照挖掘流程進行數據挖掘,最后將挖掘結果以可視化的形式展示出來。在整個教學過程中,教學重點是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關聯分析法、聚類法等10種方法。學生不僅要了解各類算法的相關概念,還要能利用算法對實例進行分析。
2.2《數據挖掘》課程教學探索
2.2.1培養數據意識《數據挖掘》是以數據為驅動的理論分析和應用課程,具有抽象性和具體性,抽象性是指數據挖掘過程中的理論、技術和方法具有很強的抽象性,學生在有限的時間內無法理解和消化;具體性是指研究內容比較客觀,具有一定的解釋性和理解性。針對以上特點,教師在組織教學時,應先培養學生的學習興趣,使學生產生一定的數據意識。具體安排時,可先安排2-4個學時講解數據及其主要應用,讓學生對大數據的產生、影響和應用等內容做初步了解,使學生對該課程的學習目的和實際意義產生客觀認識。
2.2.2深化基礎,加強理論體系大數據特征對數據分析技術提出了更高的要求,現有的數據分析技術難以滿足實際需求,這就說明了數據挖掘技術的應用和發展將面臨更嚴峻的考驗。數據挖掘技術涉及的知識內容較多,在大學課程體系中難以全部開設,給學生的學習帶來很大阻礙。為解決以上問題,開封大學采取措施:將《數據挖掘》課程授課對象設定為高年級學生,經過兩年或三年基礎課程的學習,學生已經具備了一定的理論基礎,在學習《數據挖掘》課程中,就可節約大量時間學習課程的核心內容。
2.2.3教學方式多樣化理論來源于實踐,也可以指導實踐;實踐是檢驗理論的唯一途徑。《數據挖掘》具有很強的抽象性,學生無法在有限的學習時間內對眾多概念產生足夠清晰的認識,只能借助實踐教學使學生明白課程內容的原理及其實用價值。在講解基本概念、原理或者算法時,可采取案例教學法、任務驅動教學法、項目教學法等,將理論與實踐相結合,提高學生的學習興趣和操作能力。因此教師應在教學過程中注意教學方法的選擇和使用,充分體現出學生的主體地位和教師的主導作用,通過一系列理實一體化教學方式,提高教學效果。
2.3改革教學考核方式《數據挖掘》是一門融合多種學科的實踐課程,因此,課程的評價方式也應做出一定的改進。在考核時,應包括理論基礎和實踐部分考核,除考查學生對基本概念、挖掘流程等內容的掌握情況外,還應對學生的實踐操作技能進行考核,采用多種方式對學生的學習進行評價,提高考核的有效性和公平性。
3結語
隨著信息化技術的不斷發展,現代企業生產運行對信息化管理系統的依賴性越來越高,現代社會已經進入了大數據時代,在這種時代背景下,數據挖掘技術得到了社會各界的廣泛重視,企業對該專業的人才需求也越來越多,這就為《數據挖掘》課程的發展提供了有利條件。高校及任課教師應認清形勢,積極調整教學理念,通過優化課程內容,改進教學方式和考核方式,提高課程的教學效果,以培養高專業素養和高操作技能的復合型人才。
參考文獻
[1]范祺,朱昌杰,肖建于,沈龍鳳,李敏.以項目驅動的數據挖掘課程教學改革的研究[J].科技信息,2012(11):9-10.
篇2
一、前言
近年來,數據獲取和數據存儲技術快速發展,各種數據庫、數據倉庫中存儲的數據量飛速增長。人們關注的焦點要從噪聲、模糊的隨機數據中提取重要的信息、知識,數據挖掘的出現,提供了一種有效解決“數據豐富而知識貧乏”問題的方法。
數據挖掘作為統計專業的核心課程,是學生必須掌握的職業能力課程。根據高職生的知識結構體系和培養目標,我們采用案例驅動教學方法,以學生為主體,案例為主線,教師為主導,對案例進行分析,學習案例所涉及的相關知識點,從而會利用相關軟件工具對數據進行分析,挖掘數據間的知識。
二、數據挖掘中案例驅動教學的實施
(一)合理高職高專統計專業數據挖掘課程教學目標
數據挖掘是集數據庫技術、統計學習、機器學習、模式識別、可視化等學科的一個新興交叉學科,又包含了聚類分析、關聯規則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實踐性及綜合性較強的課程。其知識內容豐富,內容深淺不一,各種方法變化快,新方法層出不窮,這對師生都提出了嚴峻的挑戰。
高職高專將培養高等技術應用型專門人才為根本任務,以適應社會行業發展需求為基本目標,結合本院統計專業學生的專業技能特點,我們將本門課程的教學目標定位為:掌握數據挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數據信息中利用有效的軟件工具CLEMENTINE進行知識“挖掘”;要根據實際情況制定合理完整的數據模型并進行評估,這些評估要具有可視性,才能有效地解決問題,而使數據挖掘更具有合理性。
(二)如何驅動教學來設計數據挖掘案例
1.介紹案例驅動教學法。案例驅動法是在“哈佛大學”的情境案例教學課起源,是一種探索性和協作性學習的教學模式。整個授課過程圍繞著同一個目標和幾項任務“教授”,學生通過對課程的學習、資料的查找和知識的整合,通過充分思考和與實踐相結合,提高自身能力。這種案例驅動的教學法可以讓學生提高學習興趣,發展學生自身的能力。同時能讓教師更好地發揮促進學生學習、引導學生成功的功能。
案例驅動法是把教學內容和目標通過一個任務來體現,把教材內容重新整合,老師的授課和學生的接受都圍繞這個任務完成。
案例驅動法可以充分發揮學生的主體地位,從而改變傳統的關于師生關系的觀念,讓學生從被動學習到主動學習,真正愛上學習,提高自己的創新、自學和實踐能力,同時要求老師在授課中給予學生正確的引導、促進、組織和控制,這樣可以增強同學間的協作精神和學生的獨立意識。通過學生的自主學習和探索,可以改變原來枯燥的學習方式。對于數據挖掘這門課程,內容深奧,既要求學習一定的理論知識,又要求掌握數據挖掘的使用方法,因此我們引入使用案例驅動的教學方法。
2.數據挖掘案例教學的實施規劃。利用CLEMENTINE軟件工具進行數據挖掘,將數據挖掘看成一個以數據為中心的循序漸進的螺旋式數據探索過程,該過程分為業務理解、數據理解、數據準備、建立模型、方案評估和方案實施六大部分。因此,在教學過程中,我們圍繞數據挖掘的六大部分,在每一部分,講解基本的數據挖掘技術原理;對于數據挖掘算法,只要求掌握相關算法使用的方法和使用的場合,并會使用專業的數據挖掘工具CLEMENTINE,此應用的前提條件要求對學生進行數據挖掘;將教學的亮點和重點放在案例分析和實際應用上,要對學生進行動手能力的訓練。
在教學的過程中,最重要的是案例的選取。通過參考教學大綱和教學目標,對教學案例進行精心設計,可以提高學生的分析能力,提高學生發現問題和解決問題的能力,才能更好地將教案落實,并形成具體的項目。根據數據挖掘課程的特點和具體內容,我們通過某些小案例引入一些相關知識,并且采用學生能夠接受的一個大案例讓學生使用成績數據模型組織整個教學過程。
我們的課程內容按數據挖掘過程分為六大部分,按照每一部分的教學目標我們設計了多個不同的小案例如下。
(1)藥物研究數據和學生參加社會活動數據案例:通過這兩個數據模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項卡的多種節點讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數據,掌握讀入數據的數據類型,掌握APPEND節點、MERGE節點合并數據的方法。
(2)移動客戶數據案例:通過利用移動數據讓學生掌握TYPE節點進行變量說明的方法,會使用該節點進行有限變量值和無效值的調整,會使用DATA AUDIT節點對數據質量進行評估和調整;掌握數據中對離群點、極端值和缺失值的調整,對數據進行質量管理;會使用AGGREATE對數據進行分類匯總;利用FILLER節點對變量值重新計算,會用RECLASSIFY節點實現變量值進行調整;會對數據進行篩選、樣本子集劃分等處理;了解數據分析特征,把握數據間相關性強弱的基本手段;利用壓縮樣本量、簡約變量值或變量降維等方法對樣本量龐大的數據進行精簡。
(3)決策樹模型案例:了解C5.0決策樹算法,會建立決策樹模型,學會歸納和提煉現有數據包含的規律,建立分類預測模型,會分析結論,用于對未來新數據的預測。
(4)人工神經網絡模型案例:了解人工神經網絡算法,掌握人工神經網絡建立的步驟,建立B-P反向神經網絡模型,預測分析結果。
(5)貝葉斯模型案例:了解貝葉斯網絡算法,掌握貝葉斯網絡結構的組成和構建,會用TAN貝葉斯和馬爾科夫毯網絡解決從龐大數據中尋找輸入變量之間的相關性,輸入變量的組合取值對輸出變量的影響,用網絡結構直觀展示它們的關系。
在設計小案例的同時,我們還選擇學生既熟悉又感興趣的綜合項目案例選題:學生成績數據、圖書管理數據、電信服務數據等,讓學生帶著問題進一步學習課程,在學習中尋找方法解決項目中遇到的問題。當課程結束后,各項目組呈交項目數據模型和報告,且項目組長要向所有同學按數據挖掘的六大部分講解分析報告。
3.案例驅動教學的成效。圍繞案例進行教學的“數據挖掘”課程除了采用案例驅動教學法,還要增加學生的實際訓練能力,都取得了明顯的效果,從以下五個方面體現:①學生要主動提出問題,同時積極主動地參與課堂教學,才能提高學生分析和處理問題的能力;②增強學生的自主學習能力,要求學生通過小組討論的形式和實際訓練讓學生以積極主動的態度處理和解決一些技術問題,從而提高自學能力;③學生間要注意培養團隊合作能力的,也要具有競爭意識;④課程學習結束后,普遍反映對利用CLEMENTIME軟件工具進行數據挖掘的自信心提高,能夠進一步提高對專業的認知,獨立解決一些數據統計分析的問題。
三、結束語
數據挖掘是統計專業的專業課程,其內容繁多、深奧,把基于案例驅動的教學模式引入《數據挖掘》課程,學生在學習過程中,實現了整個數據挖掘的流程,在基于項目的技術應用中深入理解了數據挖掘的理論知識。學生要將所學的理論知識和實踐相結合,從而有效提高自己的操作技能和知識水平,培養了自己應用數據挖掘技術解決實際問題的應用能力和創新實踐能力。
從教學效果來看,通過將理論教學和實踐相結合,案例教學法整合了各種學習工具和教學資源,這樣才能充分發揮學生的主觀能動性,培養和提高學生的主觀能動性,同時增強學生分析和處理問題的能力,今后,我們將繼續完善數據挖掘的教學案例,研究和總結教學經驗,使整個教學環節更加完善合理。
參考文獻:
[1]劉云霞.統計學專業本科生開設“數據挖掘”課程的探討[J].吉林工程技術師范學院學報,2010,(26).
[2]覃義,楊丹江,劉憶寧.《數據挖掘》本科教學的體會與創新[J].科技信息,2012,(10).
[3]李國榮.培養統計專業學生動手能力和創新能力的探索[J].統計教育,2007,(9).
[4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項目驅動的實踐教學改革[J].中國大學教學,2011,(2).
篇3
Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.
Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation
0 引言
近年來,傳統科學研究(如天文物理學、生物醫學等)、電子商務、網絡搜索引擎(如GOOGLE和百度等)和物聯網等產生的數據已經以PB或ZB(10的21次方)來計算。以分布式數據倉庫、流計算的實時數據倉庫技術為代表的最新數據存儲技術,讓全世界的數據存儲量越來越大,由人、機、物三元素高度融合構成的信息化的社會引發了數據規模的爆炸式增長和數據處理模式的高度復雜化,大數據(Big Data)時代已經到來[1]。因此,數據具有越來越強的可視性、可操作性和可用性,能夠越來越細致、精準、全面和及時地反映人的思維、行為和情感,以及事物的特性和發展規律,要想讓這些大數據以更加有效的方式為提升人類各方面的生產力和生活質量服務,離不開以非平凡的方法發現蘊藏在大量數據集中的有用知識為根本目的數據挖掘技術的支撐。
市場上對于有大數據背景知識又懂數據挖掘技術的專業人才的需求也將越來越大,作為一名高校計算機專業教師,根據自己三年來研究生數據挖掘課程的授課經歷,結合當前大數據的時代背景,對數據挖掘課程教學進行了新的思考和探索。
1 明確大數據背景下學習數據挖掘知識的重要性
1.1 大數據的定義
“大數據”是最近幾年才出現的新名詞,尚無統一的概念,維基百科上的解釋是:大數據是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基于云計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。
1.2 大數據的特征
大數據的特征可以總結為四方面,即4V。
⑴ 數據量浩大(Volume)――數據集合的規模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數。例如:1立方毫米電子顯微鏡重建出的大腦突觸網絡的圖像數據就超過1PB。
⑵ 模態繁多、異構(Variety)――大數據面向的是一切計算機可以存儲的數據格式,類型包括結構化數據、半結構化數據和非結構化數據,包括互聯網上的各種網頁、圖片、音頻、視頻、文檔、報表,以及搜索引擎中輸入的關鍵詞、社交網絡中的留言、喜好和各種傳感器自動收集的監控結果等等。
⑶ 生成快速(Velocity)――大數據往往以數據流的形式動態、快速地產生,具有很強的時效性,同時,數據自身的狀態與價值也往往隨時空變化而發生演變,數據的涌現特征明顯。
⑷ 價值巨大(Value)――數據顯性或隱性的網絡化存在使得數據之間的復雜關聯無所不在,將對信息科學、社會科學、網絡科學、系統科學、心理學、經濟學等諸多領域的研究和應用起到革命性的作用,價值巨大[2]。
Gartner、IBM和牛津大學2012年聯合的關于大數據的研究報告指出:交易數據、記錄數據、事件和電子郵件是四大主要數據;數據挖掘,數據可視化,預測,建模與數據優化是五大數據能力[3]。大數據的潛在價值只有通過數據挖掘才能顯現,因此,國外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國內的騰訊、百度、新浪、淘寶等知名企業已經開始著眼大數據,從不同角度進行數據挖掘,以便改善自身服務,創造更大的商業價值。所以,作為高校教師,首先要讓學生了解大數據的基本特點,明確數據挖掘知識和技術對當今社會的重要意義。
2 利用概念圖,構建數據挖掘課程的知識體系結構
在大學里,設置一門課程,不能只關注這門課程所含的內容,更要考慮教育培養學生基本專業能力、可持續發展能力等本質性的問題。
數據挖掘是一門結合數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等多門學科知識的交叉學科[4]。而且,該課程既包括各種理論知識,又離不開相關的實踐技術,整個教學過程是培養和提高學生的創新能力和綜合解決問題能力的重要途徑。因此,針對計算機專業的學生,教學的首要任務是構建起整個課程的核心知識結構(如圖1所示),同時,簡單介紹相關的統計學、機器學習等計算機專業學生不太了解的非專業知識。
課程核心知識結構是教學的主線,是學生必須要掌握的。首先,讓學生明確數據挖掘前要先經過預處理,再存入數據倉庫;其次,針對具體情況利用相關的挖掘工具和挖掘算法進行挖掘;最后,挖掘結果以可視化的形式有效地展示給用戶。教學的重點是挖掘算法和挖掘工具。對于挖掘算法,以數據挖掘國際會議ICDM(the IEEE International Conference on Data Mining)的專家評選出的十大經典算法(見表1)為主[5],結合相關實例給學生介紹各種算法的基本思想和相關概念,重點介紹使用較多的分類、聚類、關聯、序列和機器學習這幾種算法,先為學生打下良好的理論基礎。
3 以實例為切入點,注重理論結合實踐
數據挖掘課程主要針對我校研究生開設,考慮到學生就業和當前市場需求,以及課程本身實踐性強的特點,在教學過程中要注重理論結合實踐,注意培養學生解決實際問題的能力。因此,在給學生介紹目前常用的數據挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎上,結合市場應用需求,以實例為切入點,分別分析數據挖掘在互聯網日志分析、電子郵件分析、互聯網廣告挖掘、電子商務、移動互聯網等各大領域中的實際應用情況和成功案例(表2)。同時,還可以從內容挖掘、結構挖掘和用戶訪問模式挖掘這三個方面簡單介紹WEB挖掘的基本知識[6]。這樣,課程本身就脫離了枯燥的理論,讓學生對數據挖掘有了感性認識,激發學習興趣。
⑵ 過濾垃圾郵件。\&互聯網廣告\&⑴ 通過大數據挖掘,精準定位各類客戶的廣告形式;
⑵ 準確評估廣告效果。\&電子商務\&用數據提升整體營銷;通過日志挖掘做客戶分析;用序列算法分析商品上架時間;用聚類算法對商品分類、提升會員管理。\&移動互聯網\&⑴ 鎖定用戶的數據價值,通過地理位置信息挖掘出有價值的東西;
⑵ 文本挖掘。\&]
在教學過程中,貫穿以“能力培養為目標”的實踐教學理念,提供有效的網絡資源,讓學生自己動手動腦,分析成功案例,完成教師給定的虛擬挖掘任務,強化學生參與意識,教師在以學生為主體的教學過程中當好指導者和激勵者,從而充分調動學生的主觀能動性,掌握不同應用領域大數據的挖掘問題的基本解決方法,培養學生的創新能力。例如,給學生一個文本挖掘的分類題目,讓他們熟悉從原始數據的清洗、預處理、降維、建立模型、測試、得到結論等一系列環節。
4 改革教學評價,實施分類化評價
數據挖掘課程是一門融合了多個學科的實踐性很強的課程,對應的考核方式應該與其他專業課程有所區別,應該更重視學生學習過程中的表現和能力的提升。
理論知識的考核注重學生對數據挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數量比例,采用統一考核方式和評判標準。對于實踐技能的考核,主要強調的是學生對不同類型數據進行挖掘時應掌握的相關軟件使用技能的考查,考核時除了要體現學生對實驗原理的掌握外,更重要的是要反映出學生在實驗方法的掌握、設計、操作過程中的實際能力,我們取消了以往把一次性考試結果作為總成績的方法,而把學生平時課堂實驗成績作為總成績的主要部分,考核成績占課程總成績一定比例。
教師教學質量的評價與學生考核成績相對應,可采用單獨評價和統一評價兩種方式。單獨評價是指將社會實踐作為一個獨立的質量評價過程對教師教學質量進行考核;統一評價是指將教師實踐教學與理論教學綜合起來統一考核,以一定比例計入教師總體評價。
無論是對學生,還是對教師,這種分類化的教學評價方式,不僅有利于學生實際能力的培養,而且對教師的教學水平也是一種促進,有利于課程教學質量的不斷提高。
5 結束語
大數據時代,誰能發掘出數據背后的巨大商業和社會價值,誰就能在激烈的市場競爭中處于優勢。數據挖掘作為計算機應用專業的研究生核心課程之一,也是學生今后就業必需的專業技能之一。以往的教學過程理論性強,枯燥乏味,考核形式單一,學生學習熱情普遍不高,不利于學生專業能力的培養。本文結合當前大數據的時代背景,在構架課程核心知識體系的前提下,結合實際應用領域和案例,分析數據挖掘常見算法和常用工具,強調學生的參與和主觀能動性的發揮,而采用分類化的教學評價又能比較客觀、公正地評價學生對課程知識和專業實踐技能的掌握情況以及教師的教學效果。課程開設三年來的教學實踐證明,學生綜合運用計算機專業知識的能力得到提高,理論與實踐結合的創新能力得到鍛煉,教師在教學過程中不斷完善了自身的知識結構,提高了教學水平,實現了教學相長,得到了學生的好評。
參考文獻:
[1] Anand Rajaraman, Jeffrey David Ullman.大數據:互聯網大規模數據挖掘與分布式處理[M].人民郵電出版社,2012.
[2] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012.8:8-15
[3] Jiawei Han,Micheline Kamber,Jian Pei等.數據挖掘概念與技術(第3版)[M].機械工業出版社,2012.
篇4
一、引言
大數據時代最為寶貴的資源是數據,如何有效地分析利用海量數據將是數據挖掘需要解決的全新問題。數據挖掘的相關算法已非常成熟,并且在各個領域已取得了廣泛應用。但是大數據環境下的數據挖掘理論與算法需要針對結構化數據、非結構化數據、多媒體數據具有更加強大的運算和處理能力。因此,數據挖掘技術及應用等相關課程應與時俱進地適應大數據的要求,對數據挖掘相關課程的教學內容進行變革。
二、大數據環境特征
Gartner認為大數據是海量的、高增長率和多樣化的信息資產,需要新的處理模式才能實現對其發現和優化。維基百科認為大數據所涉及的資料量規模巨大,以至于目前無法通過主流軟件工具,在一定合理的時間內對其獲取、管理、處理并整理成為能起到決策支持作用的數據資源。大數據是包括交易和交互數據集在內的所有數據集,其規?;驈碗s程度超出了常用技術,麥肯錫認為大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合,因此需要通過數據挖掘實現對大量的結構化和非結構化數據集合進行分析,以便提供有用的數據洞察。大數據一般具有四個主要特征:①數據體量巨大(Volume),隨著時間的推移,衡量數據體量的單位從G,T,P到E。②數據種類繁多(Variety),互聯網、物聯網、傳感網的發展,使數據類型變得更加復雜,不僅包括傳統的關系數據類型,也包括以網頁、視頻、音頻、E-mail等形式存在的未加工的、半結構化的和非結構化的數據。③流動速度快(Velocity),面對快速動態變化的流式數據,獲取、存儲及挖掘有效信息的速度都難以用傳統的系統進行處理。④價值密度低(Value),數據量呈指數增長加大了獲取有用信息的難度,如何快速高效發現隱藏在海量數據中的潛在有價值模式更加困難。
三、數據挖掘系統
數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事先不知道,但又潛在有價值的信息和知識的過程。數據挖掘系統最初僅支持一個或少數幾個數據挖掘算法,發展為與數據庫和數據倉庫之間存在有效接口而支持數據庫和數據倉庫,又能進一步挖掘Internet/Extranet的分布式和高度異質的數據,而研究開發分布式、移動式的數據挖掘系統成為第四代數據挖掘系統的重要課題之一,使得數據挖掘系統與其他系統聯合提供決策支持的功能。根據數據挖掘系統與數據庫或數據倉庫的耦合程度,可以將數據挖掘系統分為不耦合、松散耦合、半緊耦合和緊密耦合四種結構。面對大數據環境,半緊密耦合和緊密耦合是在性能和效率方面比較理想的。半緊密耦合是指除了將數據挖掘系統連接到一個數據庫或數據倉庫系統之外,一些基本的數據挖掘原語還可以在數據庫或數據倉庫系統中實現,這種設計將提高數據挖掘系統的性能。緊密耦合系統是指將數據挖掘系統平滑地集成到數據庫或數據倉庫系統中,數據挖掘子系統被視為信息系統的一個部分。根據數據挖掘的研究體系(如圖1所示),給出數據挖掘相關課程的主要講授內容,包括:預測(Forecast),關聯規則(Association Rules),聚類分析(Clustering Analysis),粗糙集(Rough Sets),進化計算(Evolutionary Computation,EC),灰色系統(Grey System),模糊邏輯(Fuzzy Logic),人工智能與機器學習(Artificial Intelligence,Machine Learning),決策樹(Decision Tree),統計分析(Statistical Analysis),知識獲取、知識表示、知識推理和知識搜索(Knowledge Acquisition,Representation,Reasoning and Search),決策與控制(Decision and Control),可視化技術(Visual Technology),并行計算(Parallel Computing)和海量存儲(Mass Storage)等。
四、大數據環境下的數據挖掘
大數據的“4V“特征表明對海量的數據分析將更加復雜、更追求速度、更注重實效。大數據環境下的數據挖掘應實現海量數據建模,通過數理模型對海量數據進行整理與分析,發掘在海量數據之中隱藏的分析與決策所需的規律性知識。將數據挖掘作為大數據環境下重要的研究方法或發現新知識的技術工具,而不是把數據本身當成研究目標,與傳統數據挖掘方法有密切聯系又有本質區別。因此在大數據環境下的數據挖掘相關課程教學中應注意以下變化:①數據預處理:除利用數據倉庫加載傳統數據,針對大數據分析所涉及到的非結構化數據,應保證輸入數據的完整性和相關的ETL(Extraction-Transformation-Loading,數據提取、轉換和加載)流程的正確性。②數據存儲機制:通過多維立方體實現結構化的多維數據組織與管理,多數是建立在關系數據模型和關系數據庫基礎之上。而需將非結構化數據考慮進大數據分析時,應采用分布式文件系統,以流的形式訪問文件系統中的數據,提供訪問擁有超大數據集的高傳輸率的應用程序(如Hadoop和其他開源的分布式系統基礎架構)。③數據挖掘算法處理能力:面對數據規模的增大,需解決數據挖掘算法的效率問題,提高算法的有效性和可伸縮性。④數據挖掘算法處理效率:數據規模的不斷增大導致分析處理的時間相應加長,而大數據條件下對信息處理的時效性要求越來越高,應建立簡單有效的人工智能算法和新的問題求解方法。
五、小結
大數據時代的到來對數據挖掘的研究和教學都提出了新的挑戰。應從數據預處理、數據存儲機制、數據挖掘算法處理能力和效率等多個方面進行創新,以適應大數據環境下知識管理與智能決策的需要。
參考文獻:
[1]陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2011.
[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,(25):142-146.
篇5
文章編號:1672-5913(2007)14-0027-03
1引言
數據挖掘是一門綜合性的交叉學科,它融合了概率統計學、數據庫技術、數據倉庫、人工智能、機器學習、信息檢索、數據結構、高性能計算、數據可視化以及面向對象技術等,在保險業、電信業、交通業、零售業、銀行業正在被越來越廣泛深入地使用,同時在生物學、天文學、地理學等領域也逐漸顯現出技術優勢,特別是在客戶關系管理系統、個性化網站設計、電子商務系統、搜索引擎等方面數據挖掘技術顯示出了獨特的魅力。數據挖掘技術正在以一種全新的概念改變著計算機應用的方式。
從最近計算機技術的發展以及學生就業方面來看,對本校的應用性本科生開設“數據挖掘技術”課程迫在眉睫。但數據挖掘給人的感覺就是“高深莫測”,當前數據挖掘領域主要是博士生、碩士生研究的領域,數據挖掘課程也只在一些重點大學的研究生或高年級的本科生中開設,應用型本科院校以及一些高職高專幾乎都沒有開設此類課程。這限定了數據挖掘作為一門既有理論又有實踐價值學科的應用和推廣,筆者認為很可惜。從計算機專業的學生的畢業設計以及就業角度分析,相當多的同學以后會從事電子商務類軟件的開發,而這類應用目前都漸漸基于Web作為應用平臺,面對的是海量的數據信息,因此讓學生掌握數據挖掘的思想和方法對提高計算機素養很有必要。即使將來從事控制、通信、游戲、圖像處理等軟件開發,數據挖掘的思想和方法也很容易找到用武之地。
2數據挖掘課程開設的可行性分析
從計算機技術發展以及學生就業反饋的信息,筆者覺得數據挖掘的思想、方法以及算法對應用型本科生是很重要的,并且讓學生掌握好這門課程也是完全可能的。我校從1998年以來一直在高年級本科生中開設了“人工智能”課程,但從教學效果上來看,很不理想。“數據挖掘技術”這門課程在不少地方很像“人工智能”,“數據挖掘技術”課程中的一些思想就是從“人工智能”中發展過來的,但是“數據挖掘技術”課程與“人工智能”課程有一個本質的區別,就是數據挖掘從誕生的一開始就是面向大量的、實際的數據庫信息,因此,具有極強的應用性,如果將“數據挖掘技術”課程看做是“數據庫技術”課程的自然延伸,同時充分利用數據結構、人工智能、面向對象技術與方法、Web技術、概率統計等課程的基礎,就能夠將“數據挖掘技術”課程開設好。于是兩年前,筆者在應用型本科生中做了嘗試,就是取消原來的“人工智能”課程,取而代之的是“數據挖掘技術”課程,從兩年的教學實踐以及教學效果上看,行之有效。并且在教學中發現,雖然數據挖掘技術要用到人工智能的一些思想和方法,但沒有“人工智能”課程作為前導課程,沒有任何影響,因為,數據挖掘中的一些人工智能思想在“數據挖掘技術”課程的教學中是自成體系的,并且是以比“人工智能”中的方法更加簡單、更加直接、更加面向應用的方式。開設“數據挖掘技術”課程必須以下列的課程作為基礎(前導課程),當然這些課程都是一些常規課程。
1) 必須深入學習一門程序設計語言,通過這門語言的學習可以掌握程序設計的基礎知識,并且掌握面向對象思想開發的精髓,能夠進行可視化程序設計。學習程序設計絕不是記住程序設計語言的語法就行了,而要努力做到將應用中的思想變為程序。這一點是計算機專業學生的基本素養。這一環節沒有做好,其余的計算機專業的專業課程,如數據結構、操作系統、數據庫原理、編譯原理、軟件工程等就無法學習,即使學了,也不能真正掌握。筆者從計算機發展和應用角度,推薦學習C/C++和Java,要求對C++的模板以及STL或Java的數據結構類(在Java的util包中)能夠較好掌握。
2) 掌握“數據結構”課程,特別是“數據結構”課程中的樹的特點和應用。在“數據結構”課程中,樹主要以二叉樹為主,對于一般的樹,在當前的“數據結構”課程的教學中都是將一般的樹轉化為二叉樹來進行處理的,但是在數據挖掘中這樣不太方便。數據挖掘中的很多算法都涉及到樹的應用,并且大多都是不太規則的樹,在數據挖掘中,采用樹的思想與Java中的數據結構類或C++中的STL相結合的方法,能夠得到很好的效果。
3) 掌握“數據庫技術”課程中數據庫操作的特點和應用。數據挖掘的對象主要是數據庫中的數據,但作為數據挖掘對象的數據庫的數據信息量往往很大,因此,為了提高挖掘的效率,需要建立數據倉庫,或者需要在算法上加工,盡量減少掃描數據庫的次數。
4) 掌握“Web技術”。這是因為Internet已經廣泛應用并且深入人心,未來的軟件相當多的都是基于Web平臺之上,因此,對于Web挖掘不僅重要,而且具有直接的應用價值。當前Internet上的軟件如一些知名網站、搜索引擎以及一些電子商務系統,采用了數據挖掘技術,得到了很多有價值的信息或提高了個性化能力,大大增強了企業的競爭力。因此,掌握“Web技術”課程對Web挖掘很有裨益。
5) 熟悉“概率統計”課程中的思維方式,對各種分布以及條件概率能夠熟練掌握,在數據挖掘中的分類、關聯規則等領域很多挖掘方法都靈活運用了概率統計中的思想和方法。
從“數據挖掘技術”課程的教學實踐中明顯看出,主要需要以上幾門課程,并且教學結束后發現,學生不僅能夠掌握數據挖掘的思想、方法以及算法,通過對一些主要的挖掘算法的實現,對“數據庫技術”、“程序設計語言”、“數據結構”、“Web技術”以及“概率統計”掌握得更加深刻,將“數據挖掘技術”作為“數據庫技術”的自然延伸,是“程序設計語言”、“數據結構”、“Web技術”以及“概率統計”的綜合運用得到良好效果。
3 “數據挖掘技術”課程的設置
一門課程的設置,不僅要根據當前計算機技術的發展,同時也要根據當前學生的就業需求,充分考慮到應用型本科學生的特點。兩年前,經過多方面的考慮以及參考了各種國內國外數據挖掘的教材以及論文后決定,“數據挖掘技術”課程教學學時定為32課時,講課22學時,上機實驗10學時。在這個總的學時定下來之后,就是對“數據挖掘技術”課程的內容設計,這是最重要的環節。精選出的內容不僅要反映數據挖掘的特點以及最新發展,還要結合應用型本科生的特點,要具有很強的針對性,重點要突出,要能夠“學以致用”。最后“數據挖掘技術”課程的教學內容如下:
1) 數據挖掘綜述2學時。本講側重于從兩、三個具體應用領域進行分析得出采用數據挖掘技術的重要性與必要性,可以選取客戶關系管理、體育競技、信息安全和商業欺詐等作為案例,然后給出完整的數據挖掘定義和數據挖掘技術的分類,以及數據挖掘需要的一些前導課程的知識要點。
2) 數據挖掘過程及當前數據挖掘的軟件工具2學時。數據挖掘的過程是數據抽取與集成、數據清洗與預處理、數據的選擇與整理、數據挖掘以及結論評估。本講重點講解挖掘的過程,強調數據預處理對挖掘的重要意義,對于缺省的值、殘缺的值等的處理方法。讓學生對數據挖掘的整體過程有清楚的理解。然后介紹一下當前流行的商品化數據挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學的DBMiner。
3) 關聯規則挖掘與序列模式挖掘6學時。在介紹關聯規則原理的基礎上,主要介紹著名算法Apriori及其改進、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個算法需要2學時,對每個算法要進行徹底分析,不僅能夠理解算法的原理、思想以及過程,還要分析算法提出人為什么會提出這種算法,在日常生活中的含義是什么,算法的優點和缺點是什么,以及如何用Java或C++來編程實現該算法。最后,對多層次關聯以及數量關聯規則挖掘做個簡單介紹即可。
4) 分類技術4學時。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡單介紹一下BP神經網絡的分類。對于C4.5要求能夠從原理上把握整個算法,能夠進行連續值的離散化處理,理解C4.5比ID3的優勢所在;對于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網絡的工作原理。特別的,對于FP_TREE以及C4.5算法的實現,需要用到不規則樹,提出用C++或Java解決這種不規則樹的方法。
5) 聚類技術4學時。在介紹聚類的重要性和分類的基礎上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對于當前重要的聚類STING和CLIQUE做個簡單介紹。最后,比較聚類和分類的不同之處。
6) Web挖掘與個性化推薦技術4學時。對于Web挖掘從內容挖掘、訪問行為挖掘和結構挖掘三個方面進行講解,重點講解個性化技術。對基于最小關聯規則集的個性化推薦以及基于協作篩的個性化推薦作深入剖析,并指出在當今網站設計中的重要意義。
7) 上機實驗設計。精選五個上機實驗。第一個實驗是關聯規則的Apriori算法或FP_Tree算法的實現,兩個任選一個,如果選擇Apriori的話,需要采取一些效率改進措施;第二個實驗是序列模式挖掘中的AprioriSome算法;第三個實驗是分類技術中的ID3或C4.5算法,這兩個算法的主體相同,任做一個即可;第四個實驗是聚類中的PAM或DBSCAN算法,兩個任選一個;第五個實驗是利用協作篩進行個性化網站的智能推薦。以上五個實驗每個實驗2學時,建議編程語言采用Java或C++,最后挖掘結果具有可理解性。
當然,以上的課程內容設計會隨著數據挖掘技術的發展,不斷進行微調,以適應不斷變化的計算機技術發展與社會需求。
4 “數據挖掘技術”教學實踐總結
兩年前,雖然已對“數據挖掘技術”課程作了充分準備,但在剛開設這門課程的時候,很擔心這門“高深莫測”的課程的教學效果。但經過兩年的教學實踐發現,這門課程的教學效果比預想的還要好。通過對該門課程的學習,學生不僅基本掌握了數據挖掘的基本原理和算法,同時對以前的一些主干課程如數據結構的理解和運用有了非常深刻的認識。更為重要的是,本課程的五個實驗都是數據挖掘領域中最經典、最重要的算法,通過對這些算法的編程實現,不僅理解了數據挖掘關鍵算法的精髓,同時,這些數據挖掘算法實現的程序經過不斷改進、加工,性能不斷提高,由于都是源代碼,可以將這些算法應用到一些實用的軟件系統如客戶關系管理系統、個性化網站中去,收到良好效果。此外,在網上的一些數據挖掘論壇中,經常看到一些初學數據挖掘的研究生或技術人員很想看一看數據挖掘經典算法的具體程序實現,我們也將這兩年不斷改進的程序源代碼作為免費資源贈送給了不少同行,也為數據挖掘的推廣應用貢獻了微薄之力。
5結束語
“數據挖掘技術”課程的教學嘗試目前主要針對的是本校應用型計算機專業本科生,雖然收到了良好的效果,但“數據挖掘技術”絕不僅僅是計算機專業學生才需要掌握的課程,對于我校通信系、電力系、自動化系等工科專業,經濟系、管理系甚至一些文科類的學生也很有價值,因此,怎樣在非計算機專業的應用型本科生中開設好這門新興課程,甚至在高職高專學生中也開設好這門課程,則是需要作進一步的探索和嘗試。
參考文獻:
[1] 毛國君. 數據挖掘原理與算法[M]. 北京:清華大學出版社,2005.
[2] 陳文偉. 數據挖掘技術[M]. 北京工業大學出版社,2002.
[3] 余力. 電子商務個性化[M]. 北京:清華大學出版社,2007.
A Test to Applied College Students on Teaching Data Mining
XU Jin-bao
(Dept. of Computer Engineering, Nanjing Institute of Technology,
Nanjing 211100,China)
篇6
隨著數據挖掘、商務智能技術的快速發展與廣泛應用,亟需對信息管理專業的本科生加強對相關知識的介紹,此時進行課程改革,調整、增加授課學時和實踐環節有重要意義。數據挖掘是一門與多學科交叉的新興計算機專業課程,其課程內容豐富、應用范圍廣、實踐工具類型繁多。在有限授課時間內,如何選擇適合于信息管理專業的本科生的課程內容、案例與軟件工具,選用何種有針對性的教學方法,是進行數據挖掘課程設計需要解決的主要問題。
一、國內外數據挖掘類課程建設研究分析
近年來,數據挖掘與商務智能技術發展迅速,充分借鑒國外相關研究,尤其是ACM SIGKDD課程委員會對數據挖據課程建設建議,對進行數據挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協會)于1998年成立了SIGKDD(知識發現興趣小組),致力于知識發現與數據挖掘的相關研究,ACM SIGKDD課程委員會連續多年多次更新其主要課程――數據挖據課程的建議,其中委員會將數據挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數據挖掘的基本方法,高級主題既有數據挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數據挖掘類課程并同時進行相關研究。波士頓大學開設了“數據管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統,提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數據挖掘的相關課程,我國大多數高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數據挖掘的應用領域廣泛,因此可以根據開課學院和專業選擇合適的實例。
二、根據信息管理專業本科生培養要求確定課程目標
數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統計學算法、優化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業設計提供了一種思路。信息管理專業是計算機與管理相結合的專業,旨在培養具備信息系統開發能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發。
三、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。學生可以根據個人興趣和職業取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養要求[1,2]。模塊化教學本質上是以知識點與實踐的細化為出發點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。
1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。
2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節,由于這些章節知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法――決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。
四、授課與考核方法設計
對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通??梢赃x擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環節的教學方法[3]。根據信管專業培養方案的培養目標、以及對學生調研的情況,實踐環節比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法??梢葬槍W生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。
五、結論
本文通過國內外數據挖掘課程內容、分類、教學方法的分析,針對信管專業本科生的培養要求,研究了數據挖掘課程建設的主要內容,并針對知識點的不同模塊,實行不同的授課方式,使學生更加明確重點、難點和擴展內容,提高了學生的聽課效率,對教學內容的模塊化分類、以及相應的授課方式的研究成果仍可繼續發揮作用,并進行更深入的研究和實踐。
參考文獻:
[1]韋艷艷,張超群.模塊化教學與學習遷移[J].當代教育論壇,2018,(5).
[2]鄭浩,陶虎,王曉輝.高校模塊化教學模式及其效果評價方法[J].科技信息,2012,(25).
篇7
關鍵詞:數據挖掘;理論創新;多元教學;多梯度實驗
0 引 言
在當前大數據時代背景下,如何從海量數據中挖掘并提煉出對人們真正有用的知識,是大數據研究的難點問題,同時也是目前數據挖掘面臨的關鍵和核心問題[1]。數據挖掘作為當前計算機專業的一個前沿課程,是一個綜合性的交叉課程,也是重要的學術研究方向,其內容涉及多方面基礎理論學科和應用性強的技術領域,是提高計算機專業學生應用實踐能力和理論創新能力的載體課程,在整個計算機專業的學習中具有極為重要的地位。
1 教學現狀
數據挖掘作為一門同時具備應用性和學術性的課程,早期屬于計算機專業研究生培養的專業課程,但隨著數據挖掘在各個領域的廣泛應用,現已成為計算機專業本科培養的專業選修課之一。目前,數據挖掘課程在教學內容、教學方法和實驗教學模式上存在諸多不足之處。
(1)教W內容陳舊。目前的教學內容一般根據某本數據挖掘教科書進行講解,由于數據挖掘技術的快速發展,一本教科書往往很難全面概括數據挖掘的內容、方法和技術。
(2)基礎理論算法與實驗教學脫節。當前的教學路線往往是使本科學生從了解和掌握數據挖掘的基本任務開始,然后講授數據挖掘的各種基本算法,最后上機實驗。這一教學方式側重于以應用為主,主要目標在于培養計算機工程的應用人才。然而,由于基礎理論算法與實驗教學分開講解,使得學生缺乏對使用數據挖掘解決實際問題的能力。
(3)理論創新意識的缺乏。在當前的本科教學中側重工程實踐能力的培養,忽略理論創新的培養。在數據挖掘課程中,理論創新是指學生對所學的數據挖掘算法有自己的見解,能有意識地思考目前數據挖掘面臨的問題并提出新的數據挖掘算法。
(4)實驗教學僵化。當前的實驗教學往往是固定的幾個算法驗證性實驗,對于不同學習能力的人而言,實驗教學往往很難達到理想的效果。
目前,對日新月異的科技發展、以科技創新和技術升級為核心特征的激烈國際競爭,我國自主創新能力較為薄弱的問題已經越來越成為信息化發展的瓶頸[2],這也給數據挖掘教學帶來巨大挑戰,即教師如何在教學過程中提高學生的理論創新能力?
2 教學方法的改革
2.1 教學內容的前沿性與統一性
作為一門新興的前沿課程,該門課程內容、方法和技術仍處于發展和探索階段。通過固定的教材去系統地傳授數據挖掘的內容顯然是不太合理的。因此,與傳統學科不同,數據挖掘教學內容需要進行更新,并根據學生的接受能力進行甄別篩選。同時,要求任課教師在不斷發展的新技術與相對穩定的教材中尋找一條貫穿整個教學內容的主線,在講課的過程中,結合數據挖掘研究進展,配合自己的研究成果,把最新的技術融入到課堂中。此外,由于數據挖掘是多學科的交叉課程,內容涉及統計學、算法、數據庫、機器學習、模式識別、可視化等,而本科生的知識體系薄弱,在短時間難以透徹理解各部分內容。因此,教學過程中教師應合理設計教學大綱和方案,有機地學內容,讓學生對數據挖掘有一個整體的了解。建立不同數據挖掘任務之間的相互關聯,同時以項目講解的方式將數據挖掘涉及的數據預處理、聚類分析、分類預測、噪聲檢測、關聯規則挖掘等有機結合在一起。
2.2 理論創新的多元教學
針對現有本科生教學中理論創新意識的缺乏,嘗試進行多元化教學模式,主要從以下4個方面展開。
(1)區分教學內容的難易度,將教學內容分為基礎內容與進階內容。在講授中注重基礎內容的原理性,并有意識地讓學生接觸一些前沿性的理論拓展知識。比如在講解分類算法時,首先專注幾個經典的分類算法,如K―最鄰近、決策樹、樸素貝葉斯和支持向量機等。同時,在此基礎上,給學生講述目前分類的一些前沿方法,如集成學習、深度學習和遷移學習等。
(2)以問題為驅動教學。在講解聚類算法時,可以通過“物以類聚,人以群分”的思想展開,具體介紹K―MEANS和DBSCAN兩個具有代表性的聚類算法,讓學生思考數據挖掘不同算法提出的原因、基本思想和優劣性,初步引導學生的自我思考、自我學習的創新思維能力。同時,針對數據具有的高維性,讓學生進一步思考“高維詛咒”問題及在此問題上展開的子空間聚類的研究。
(3)建立“教研統一”研究式教學方法,利用教師現有科研促進和服務于教學,探索形成“科研嵌入”理論教學內容。將教師在自己的研究與教學內容進行有機結合,豐富教學內容,拓寬學生視野,提高學生實踐能力和創新能力,實現科研成果融入教學。這樣既提高了學生學習知識的興趣性,又培養了潛在的科學素養。此外,在整個教學環節中布置兩個任務,一是讓學生進行數據挖掘的文獻調研(主要涉及數據挖掘的歷史、現狀、面臨的挑戰及當前的行業應用),二是在課程結束后進行主題研究報告,每個學生選擇自己感興趣的一個主題進行,研究報告的目的是讓學生深入理解所學內容,為后續的科研工作打下基礎。
(4)教學模式由傳統“填鴨式”向“互動式”教學轉變。通過研討方式引導學生去思考,激發學生的求知欲,充分調動其學習的積極性和主觀能動性。通過具體實例,讓學生知道算法的應用場合,提高學習興趣和效率。
2.3 多梯度實驗教學
實驗教學是使學生在實踐環節將數據挖掘課程中學習的理論算法應用于實踐,幫助學生理解和掌握知識,提高動手能力。傳統的上機實驗往往是側重幾個經典算法的實現,如KMEANS、KNN、ID3決策樹和LOF算法等。然而,數據挖掘是一門工程應用性較強的學科,這種算法驗證實驗很難讓學生體會到數據挖掘的實際應用,因此,從基礎能力培養、工程應用及創新研究3個方面設計多梯度實驗。
首先,按照由淺入深的原則設計2個經典算法實現,如KMEANS和 ID3決策樹。這個實驗為算法型實驗,主要是幫助學生通過實驗更好地了解所學算法,學生也可以自己選擇聚類分析和分類預測的任意兩個算法進行實現。
其次,設計一個簡單綜合型實驗,比如垃圾郵件的分類系統,要求學生完成從數據收集、數據預處理到整個系統的實現。主要考查學生綜合運用數據挖掘知識,解決實際問題的能力,注重工程能力的培養。
最后是創新算法的實驗設計,比如子空間聚類算法的實現。這個實驗注重部分學生創新能力的培養,尤其是致力于以后從事科學研究的學生。學生可以根據自己的愛好,選擇算法型實驗和綜合型實驗,也可以選擇算法型實驗和創新算法設計實驗。多梯度實驗的目的主要是希望針對不同學生的學習興趣及將來的發展方向,給出合適的實驗教學。實驗的整體難度由易到難,層層深入,有利于學生實踐能力和創新能力的培養。
3 結 語
當前,數據挖掘正處在快速發展的過程中,各個領域的大量應用使得對數據挖掘這門課程的工程應用能力要求越來越高,需要學生具有更好的創新能力,因此,數據挖掘課程的教學也同樣需要調整教學內容和教學手段來緊跟其發展的步伐?;诖?,我們提出在課程內容的前沿性、教學模式的多元性及實驗教學的多梯度性上進行改革,從而達到在培養學生工程實踐能力的同時,提高其創新思維能力。
基金項目:電子科技大學“互聯網+”課程建設教改專項。
第一作者簡介:邵俊明,男,教授,研究方向為數據挖掘、機器學習及在交叉學科的應用研究, 。
篇8
1程序設計課程與數據挖掘技術概述
程序設計課程是培養學生軟件開發能力的一門課程。目前國內的理工類學?;蛳嚓P專業普遍都為學生開設了程序設計課程。一直以來,如何了解多數學生在學習程序設計中所遇到的困難,如何幫助學生克服學習中的障礙,都要靠教師多年的教學經驗來解決。這種傳統的教學方法顯然不能滿足知識更新迅速的計算機教學過程。因此需要研究如何從學生提交的程序作業中利用數據庫技術及時發現問題和解決問題。數據挖掘(Data Mining)技術是近年來新興的數據管理與分析技術,主要用于發現數據中隱藏的線索,輔助人們進行科學分析和決策。數據挖掘普遍需要三個階段:數據準備、挖掘操作和結果表達。下面以C語言為例介紹在程序設計課程教學中,對學生程序作業進行數據挖掘的一種應用方案。
2程序設計課程的數據挖掘過程
2.1 數據準備
根據程序設計課程的教學特點,我們按錯誤的嚴重程度將所有學生提交的程序作業的評閱結果歸納為以下5類,即題目錯誤、編譯時語法錯誤、編譯時語法警告、編譯后運行結果不完全正確、編譯后運行結果完全正確。為了對學生程序作業中的問題進一步分析原因,我們對以下8類數據進行分析,即功能模塊函數序列、邏輯結構序列、語句類型序列、表達式序列、運算符序列、標識符序列、數值常量序列以及簡化的字符常量序列。
要將文件形式的源程序分解為以上8項數據,就需要按語法規則完成以下步驟:
(1) 過濾程序中的注釋信息和空白字符,產生預處理元素序列;
(2) 根據#include和#define等標記替換用戶指定的包含文件和宏定義等預處理元素;
(3) 對照語法元素表,進一步將程序分解為關鍵字、標識符、常量、運算符、定界符等語法元素序列;
(4) 將數值常量以空格為連接符連接為一個數值常量序列;
(5) 將字符及字符串常量保留%d等格式字符和\n等轉義字符后刪去多余字符,以空格為連接符連接為一個簡化的字符常量序列;
(6) 將所有運算符以空格為連接符連接為一個運算符序列;
(7) 將用戶變量名和函數名統一編碼后與程序中的關鍵字構成標識符序列;
(8) 將運算符與標識符及常量以空格為連接符連接為一個表達式序列;
(9) 將程序中的語句分類為表達式語句、函數調用語句、空語句、復合語句、if語句、else語句、switch語句、case語句、while語句、do語句、for語句、break語句、continue語句、return語句和goto語句,并組織成語句類型序列;
(10) 對語句按分號和大括號等定界符劃分為模塊函數序列;
(11) 將模塊內語句按順序、選擇、循環的分類構成邏輯結構序列。
2.2 挖掘操作的過程
由于篇幅所限,下面僅以程序設計教學中的典型題目“溫度轉換”的數值常量序列和運算符序列為考察數據具體描述挖掘過程。
(1)數據清理
首先將數據準備階段的各類數據與評閱結果組成一個數據記錄集(如表1所示)。由于分析的目的是找出教學中造成學生程序錯誤的主要因素,而題目錯誤僅僅是因為學生操作馬虎,與掌握程序設計的能力并不相關,因此把評閱結果全部正確的和題目錯誤的記錄過濾掉,只保留評閱結果為語法錯誤、語法警告和運行錯誤的記錄(如表2所示)。
(2)構造1項侯選集,發現頻繁1項集
將所有數據作為1項集中的元素,構造1項侯選集,并計算不同元素的數量,如表3所示。保留其中數量較多的元素,濾掉其它元素,得到頻繁1項集,如表4所示。
(3)構造2項侯選集,發現頻繁2項集
將所有頻繁1項集元素兩兩組合,構成侯選2項集,并計算組合后的數量,如表5所示。保留其中數量比較多的元素,濾掉其它元素,得到頻繁2項集{=/*(-),編譯警告}。
2.3 結果表達和解釋
保留下來的2項集的兩個元素分別代表了錯誤類型和造成該類型錯誤的主要語法元素序列,即現有數據表明(輸入函數中)未使用取地址運算符是造成編譯警告的主要原因。
3數據挖掘應用效果
在現實的教學過程中,我們對2005級8個班275名學生的5385個程序進行了統計和分析,發現題目錯誤的比例約占1.49%,編譯錯誤的比例約占3.38%,編譯時警告的比例約占1.21%,運行錯誤的比例約占8.10%,運行正確的比例約占85.82%。其中造成編譯錯誤的主要原因是注釋信息或各級括號定界符未配對;造成編譯警告的主要原因是格式輸入函數調用時缺少地址運算符或用戶變量定義后未使用;造成運行錯誤的主要原因是除法運算符兩側運算量為整型常量。下面的圖表反映了在程序設計課程的教學中沒有使用數據挖掘技術和使用了數據挖掘技術的教學效果對比。
圖1為未采用本方法指導教學的10次學生程序作業評閱結果統計圖,其中靠上的折線表示每次學生作業的平均分數,靠下的折線表示每次學生作業的嚴重語法錯誤發生率??梢园l現,學生每次作業的平均成績基本呈水平小波動隨機形狀,表明學生成績在學習過程中沒有明顯變化,同樣嚴重語法錯誤發生率也沒有明顯變化。圖2為一直采用本方法指導教學的10次學生程序作業評閱結果統計圖,可以發現學生的成績隨著系統的使用時間增加而穩定的上升。在第三次作業以后基本保持在90分以上的水平,同時嚴重語法錯誤的比例也快速的下降,在第二次作業以后就控制在5%以下。以上對比說明本方法比較準確地發現了學生程序中的語法錯誤和算法錯誤的主要因素,使學生得到及時地反饋并在以后的程序設計中避免相似的錯誤,從而明顯的改善了教學效果。
參考文獻:
[1] 李建中,王珊 . 數據庫系統原理[M] . 北京:電子工業出版社,2004.
[2] Richard J. Roiger,Michael W.Geatz . 數據挖掘教程[M] .北京:清華大學出版社,2003.
篇9
Data Mining Based Course Competence Development of C Programming Language for Vocational College
GUO Xiao-chen1,2
(Chenzhou Vocational Technical College,Chenzhou 423000,China)
Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.
Key words: data mining; concept description;class comparision; C Programming Language
1 引言
C語言程序設計課程是計算機應用和電子信息工程專業的必修程序設計課,是知識性、技能性和實踐性很強的課程。主要培養學生利用計算機來處理實際問題的能力和培養學生程序設計的思維能力,使學生能夠掌握C語言的基本語法和算法,能利用C語言進行基本的程序設計。
C語言程序設計主要由數據描述、程序控制兩大模塊組成,包括基礎數據類型、流程控制、函數和復雜數據類型等四個單元的內容。筆者從事多年的C語言程序設計教學工作,如何利用有效數據分析工具,將所積累的豐富的數據轉換為有價值的知識,了解和分析學生的知識掌握及能力培養情況,并采用相應的教學改革。
2 數據挖掘技術的概念和內涵
數據挖掘(DataMining)是對大量的、不完全的、有噪聲的、模糊的、隨機的實際數據,進行抽取、轉換、分析和模型化處理,從而提取能輔助決策的關鍵性數據,并能結合應用領域的特點,推導出有用的知識的過程;簡而言之,數據挖掘就是深層次的數據信息分析方法。通常采用概念/類描述、關聯分析、分類和預測、聚類分析及演變分析等方法來完成數據挖掘。數據挖掘的過程是一個線性的過程,依據不同信息平臺的數據類型,采用面向環境的管理方式,實現面向環境要求的數據挖掘。數據挖掘的過程一般由數據準備、數據挖掘、結果的解釋與評估四個階段組成。
3 數據挖掘技術在《C語言程序設計》課程能力培養分析中的應用
3.1 數據倉庫的建立
挖掘所需要的數據來源于某高職院校近3年來計算機應用和電子信息工程兩專業近860名學生的C語言程序設計這門課程的期末考試成績、實驗成績及實習成績,給定屬性學號(ID)、姓名(name)、性別(gender)、專業(major)、科類(section)、成績(result)。成績部分包括考試成績(test_result簡稱為t_r)、實驗成績(experimental_result簡稱為e_r) 、實習成績(practice_result簡稱為p_r)及總分數(total_score簡稱為t_s),其中總分數=考試成績×70%+實習成績×20%+實驗成績×10%。通過對考試試卷的分析統計,基礎數據類型(Foundation Data Type簡稱為FDT)、流程控制(Process Control簡稱為PC)、函數(Function簡稱為F)和復雜數據類型(Complicated Data Type簡稱為CDT)四個單元的分數比重分別為20%,30%,20%,30%,綜合考慮各單元的內容,匯總統計出各單元的滿分分值為14,21,14,21。
該數據挖掘任務可以用DMQL表示如下:
Define cub discretmath〔ID,name,gender,section,major,result〕。
total_score=sum (result);
define dimension result(test_result,Programes_result,practice_ result);
define dimension test_result(FDT,PC,F, CDT)。
數據倉庫的結構如表1:
3.2 數據的預處理
由于現實中的數據多半是不完整的、有噪聲的、不一致的,某些學生的成績會因教師個人感情或其它因素而分數偏高或偏低,從而導致現有分數含有一定偏差的噪聲數據,對此可以通過數據的預處理技術改進數據的質量,提高其后的挖掘過程的精度和性能。本文利用數據清理中的聚類中K_平均算法找出孤立點,并利用分箱技術將噪聲去掉。表2為經過數據預處理的二維視圖。
以上數據倉庫中的數據,就是經過預處理后,得到的是集成的、概念分層的、不含有噪聲的數據,該數據可以用來進行準確的數據挖掘工作。
3.3概念/類描述
3.3.1數據概化
數據庫中的數據和對象通常包含原始概念層的細節信息,在多數情況下,感興趣的一般是在不同抽象層上得到的數據的量化信息或統計信息。因此,首先采用解析特征化進行屬性相關分析,來幫助識別不相關或弱相關屬性,將它們排除在概念描述過程之外。概化過程如下:
1)收集目標類數據,它由計算機專業的集合組成,對比類數據取電子信息工程專業的集合;
2)用保守的屬性概化閾值進行面向屬性的歸納,通過屬性刪除和屬性概化進行預相關分析。
ID:由于ID存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;gender:由于gender只有兩個不同值,該屬性保留,并且不對其進行概化;major:假定已定義了一個概念分層,允許將屬性major概化到值{計算機應用,電子信息工程};section:假定已定義了一個概念分層,允許將屬性科類概化到值{理科,文科,對口};total_score:該屬性存在大量不同值,因此應當概化它。假定存在total的概念分層,將分數數值區間{100_85,84一70,69_60,59_0}按等級(grade){A,B,C,D}分組,這樣該屬性可以被概化。
表3通過對表2的數據進行概化得到的關系
3.3.2類比較的實現
通過概化處理,數據倉庫中的屬性基本已經得到了單個類的描述。但我們希望挖掘一個描述是它能將一個類與其它可比較的類相區分,因此采用挖掘類比較來實現?,F給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。
1)專業類別分析
首先確定目標類與對比類為屬性major中計算機應用和電子信息工程兩個不同專業的學生;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表4所示。
從表4可以看出,與電子信息工程專業相比,計算機應用專業的學生趨向平均分、實習成績及實驗成績這三部分分數較高,體現出學生在知識應用能力和計算機編程能力上較強,但對知識掌握出現兩極分化嚴重,針對這部分基礎知識掌握不牢固的學生,教師在執教時就應考慮加強基礎知識的鞏固。相對而言電子信息工程專業的學生對基礎知識的掌握基本較好,但對該課程的靈活應用有所欠缺,這就使得在教學過程中應適當注重培養學生的應用能力,加強對他們編程、實驗及實習的輔導。
2)性別類別分析
首先確定目標類與對比類為屬性gender中的男和女;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表5所示。
表4 主類(計算機應用)與目標類(電子信息工程)關系 表5 主類(男)與目標類(女)關系
從表5可以看出,與女生相比,男生從總體上對該門課程的學習效果較差,不及格率較高,且優秀率低,基礎知識掌握不牢固,體現出不少男生學習態度不端正,目的不明確,缺乏學習的積極性。而女生這門課的成績比男生好,優秀率高,及格率高,對基礎知識掌握牢固,但在知識的應用能力方面欠佳不能很好地靈活運用;由此可見,教師在教學過程中須考慮學生的性別差異,因材施教。
3)科類類別分析
首先確定目標類與對比類為屬性section中文科類、理科類和對口類;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表6所示:
從表6可以看出,與理科類、文科類相比,通過對口高招進來的學生不管對理論知識的掌握還是在實踐技能上都比較突出,且目的性非常強。而文科類與理科類相比, 文科類對基礎知識的學習優于理科類,但在知識的應用能力上較差,理科類則恰恰相反??梢姡處熢诮虒W過程中除了考慮普遍學生存在的問題外,還需要注意學生的差異,對于對口類學生而言應多準備一些相對大的項目,讓其能“吃飽”,而對于理科類和文科類學生一方面要加強理論基礎知識的學習指導,另一方面要適當注意培養其應用能力,加強對編程及實踐方面的輔導。
4 結論
利用多年的C語言程序設計課程的成績的數據,通過數據挖掘技術探索和發現兩個專業學生對這門課程的知識掌握及能力培養的情況,可以有針對性地進行教學內容和教學方式的改革,使得學生更好地掌握C語言程序設計這門課的知識,培養各方面的能力,為以后的課程學習、專業發展打下堅實的基礎。
參考文獻:
[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.
[2] 朱明.數據挖掘[M].合肥:中國科技大學出版社,2O02.
[3] 張錦祥.高級程序設計語言課程教學改革與實踐[J].浙江教育學院學報,2007(4)71-76.
篇10
Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course
HUANG Jian
(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)
Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.
Key words: Task-driven; Inquiry; Curriculum reform
數據挖掘是一門包括了數據庫系統、專家系統、機器學習、統計學、模式識別、信息檢索、人工智能等學科的綜合性的學科,其目標是發現隱藏在大型數據集中的知識模式。此課程一般是在研究生教育階段開設[1],但隨著社會對應用型人才的需求越來越大,這就要求我們的學生畢業后不僅要有扎實的理論基礎,更要有較強的創新能力和實踐能力。
我校針對信息與計算科學及統計學兩個專業開設了數據挖掘課程。該專業學生擁有較強的數學理論基礎,并掌握了數學建模、統計學、數據庫等相關學科。數據挖掘作為一門綜合性課程,是融合學生各科知識,提高該專業學生應用實踐能力,培養學生團隊協作能力的很好的載體課程。
1 數據挖掘課程教學特點
數據挖掘技術是一個多學科交叉的綜合研究領域。不過也正因為它涉及的范圍很廣泛,發展的時間也不是很長,因此要真正理解數據挖掘的本質并不是一件容易的事情。我校針對信息與計算科學和統計學兩個理學專業開設此課程,并將此課程歸類為實踐類課程。經過筆者多年對傳統教學方法的研究和改革,發現了在數據挖掘教學中存在的問題:
1) 理論教學困難:數據挖掘課程內容涉及領域廣泛,如統計學、數據庫、機器學習、模式識別等內容,并且所涉及的算法繁多。由于本科生的知識體系不健全,理論基礎相對薄弱,造成了學習難度過大。此外,由于學時限制,無法在課堂中詳細地講述算法理論,導致了學生積極性不高,很難達到教學目標。
2) 實踐環節無法讓學生體會數據挖掘本質:數據挖掘是從數據獲取、數據整理、預處理、數據挖掘分析、結果分析等一系列流程的綜合。但由于課時關系,我們課程中的實踐環節往往是針對某個特定的算法,讓學生利用已經預處理好的數據進行算法的應用。數據挖掘成本很高,但是這個成本往往并不是金錢,而是時間,而數據整理和預處理的時間往往占到全部工作量的80%。不經過完整的數據挖掘流程訓練,學生就無法體會數據挖掘的本質。
3) 軟件應用缺乏:針對海量數據分析是必須要應用到計算機技術處理。當今針對數據挖掘應用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數據庫系統配套的OLAP功能等。在課堂中,不可能對任何一款軟件都詳細的進行講解。這就使得學生很難進行算法的應用實踐。
2 任務驅動探究式教學模式
針對目前教學存在的這些問題,廣西大學梁斌梅提出了目標驅動的專業課教學法,利用導入課吸引學生、利用教學目標引導學生[2]。韓秋明等人編著的《數據挖掘技術應用實例》中采用了大量的行業數據,為數據挖掘教學模式的改革提供大量的應用實例[3]。結合本校的學生特點,參考國內的一些研究成果,該文提出了基于任務驅動探究式教學模式。課程整體主線由任務驅動,學生進行探究式自主學習。
任務驅動是基于構建主義教學理論基礎上的教學方法,以學生為主體,以老師為主導的一整套教學新模式。而探究式教學是與直接接受式教學相對的,在任務驅動的同時,激發學生的好奇心,并驅使學生投入到知識獲取的自主學習活動中。任務驅動探究式教學模式是將兩者有機的結合起來,使學生能夠明確學習目標、提高學習興趣、提升學習動力,發揮學生的自主學習能力、創造能力,培養學生分析問題、解決問題的能力。通過自主學習,自行的完成階段性的教學任務,以達到相應的教學目標。任務驅動探究式教學模式,適合操作性和應用性強的課程。任務驅動探究式教學模式的核心思想是在教學方面強調任務驅動,在學習方面則強調探究式學習。因此必須合理地設計課程教學方案,在“教”和“學”兩個方面進行設計。老師必須在任務設計、實施進程管理、信息反饋等各方面做好銜接,保證學生能夠時刻跟上任務進度,并保持足夠的興趣度。
3 基于案例驅動探究式教學模式的數據挖掘課程改革
任務驅動探究式教學模式是以學生為主體,教師主導的新型教學模式。教師的作用在于教學組織和任務布置的安排調度。利用任務引導學生學習相關知識,提高學生的學習主動性。因此,如何根據課程需要合理地進行課程任務設計,安排任務進度都是課程改革成功的關鍵。
3.1 課程內容重新整合
數據挖掘是一個由數據收集、數據預處理、數據分析挖掘、結論分析等各個步驟組成的整體過程。在現有的數據挖掘書中,針對數據收集、數據預處理部分往往比較簡化,大部分篇幅都在講述數據挖掘算法,如分類算法、關聯算法、聚類算法。如果在課程內容設計時,僅僅對算法做重點講述而忽略前期步驟,將會造成學生內容知識的脫節,無法體會數據挖掘整個流程,從而不能真正地理解數據挖掘思想本質。因此,本課程教學目標應該是重點培養學生分析問題、解決問題和團隊協作能力,樹立數據挖掘思維體系,了解數據挖掘基本算法,能夠應用數據挖掘軟件解決實際問題并得到結果。
根據這個教學目標對課程內容進行適當調整。首先,增加緒論內容并設置導入課。在導入課中增加生活中學生感興趣的數據挖掘故事,經典案例以及各行業中的應用,從而提高學生學習的興趣。其次,適當增加數據獲取、數據預處理以及數據挖掘軟件的介紹,使得學生能夠明確數據怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數據挖掘算法,所介紹的算法應該是常見、易懂并且能夠很容易使用軟件實現的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對比較難的算法,可以僅做介紹,讓學生在今后遇到此類問題能夠自主的進行學習。通過內容的調整,一方面使得學生不會因為數據挖掘算法繁多且復雜而懼怕,保證學生的學習興趣,從而很好的引導其自主學習,提高教學效果。另一方面,數據挖掘算法在不斷的改進,不可能在課程中覆蓋所有。通過基本算法和工具的結合,能夠很好地幫助學生從算法理論轉變成算法實現,從而真正的進行數據挖掘工作。即使出現了新的算法,也能夠舉一反三,進行軟件實現。
3.2 組織方式的改變
任務驅動探究式教學模式必須以課程任務為依托。改變以往以純理論的教學方式,加入實踐和課堂討論環節,將理論知識講解和課程任務有機地結合到一起??紤]到數據挖掘連貫性以及工程龐大性,可以考慮以項目化的方式進行。將學生6個人左右分為一組,自主的在老師所提供的數據共享平臺中尋找感興趣的問題進行分析研究。將整個項目分解成為數據搜集、數據預處理、探索性分析、數據挖掘、結果分析等一系列的小任務,安排階段性的任務目標,層序漸進,逐步的建立學生完成項目的信心并最終完成整個項目。
學生是項目的負責人,在接受一個短期任務后,就要自主的開始進行任務的執行。老師僅僅在課堂中進行了基本知識的講解,學生要完成任務就必須學習更多的課外知識。項目的研究內容是自己選擇的,而且完成階段性的任務并不是那么的遙不可及,所以學生有足夠的興趣和信心去完成。通過查閱資料、學習知識、任務分配、安排和組織實施等,完成教學任務的同時也鍛煉了他們團隊合作意識、溝通能力、自主學習能力。這些能力的培養才能使他們在知識不斷更新的當今,緊密地跟緊前沿技術并更好的去解決實際問題。
3.3 任務進度控制和評價
課程的課堂教學時間是有限的,老師不可能在課堂中既完成理論教學,又給足時間讓學生進行課程任務,所以項目的實施必須是在課后進行。學生要在課外進行大量的參考資料閱讀、相互討論及數據分析的工作。那么老師作為主導者,必須及時地了解學生階段性任務的完成情況,對當前學生遇到的困難及時給出建議和意見,甚至在學生遇到真正的難題給予技術上的支持。所以本課程在理論課教學的同時,也開展了定期的討論課,讓學生定期匯報階段性任務的完成情況,及時進行任務進度的控制。整個項目的實施流程和任務分解如圖1。根據流程安排,理論引導學生任務的進行。通過學生任務的完成情況,老師在完成基本理論教學的同時,有針對性的對學生所遇到的問題進行講解,最終目標是引導學生完成整個教學項目。一方面,學生自主學習能力提高,有足夠的興趣和能力去完成每個階段的任務,并且會更加認真的在理論課中尋找自己想得到的知識。另一方面,由于學生自主尋找的項目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學內容不再一成不變,而是隨時的更新。
圖1 任務進度安排流程圖
良好的進度控制需要一個完善的評價體系做輔助。只有做好每個階段性的評價,引入一定的競爭機制,才能提高學生積極性和自信心。首先,必須做到極端性任務的目標和時間明確化。要完成什么,在什么時候完成,都必須事先和學生約定。對沒有按時完成任務的組,必須做出相應的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務,有針對性地提出建議和意見,以便學生能夠及時調整。其次,評價標準既要唯一又要區別對待。唯一標準指的是一樣的進度,一樣的任務,一樣的要求。但是數據挖掘項目會根據研究領域不同、使用算法不同、數據質量不同而造成難度差異,一味的同等標準要求會造成選擇難度較高項目的學生積極性下降。所以老師必須客觀的分析每個項目難度,并區別對待。對于由客觀難度造成任務進程落后的組,應當在解決問題后給予獎勵。并且,在最終論文評定時,適當的加入一定的難度分,以鼓勵學生培養自我挑戰的精神。通過教師評價、組長評價、組間評價等評價方式,客觀的合理的對整個項目實施作出最終的評價結果。
4 結束語
通過案例驅動探究式教學模式的改革,數據挖掘課程在教學效果上得到了實質性的提高。人才培養上卓有成效,老師也在教學過程中受益良多。通過教學模式的改革,使得原本枯燥、難懂的理論教學變得生動。學生的求知欲望得到了激發,課程的學習目標更加的明確,教學質量也有很大的提高。同時我們發現,學生的自主學習能力、匯報能力、論文撰寫能力都有了明顯的提高,并且有很多教學項目被用于畢業論文的研究。數據挖掘課程也因此被選為寧波市級的智慧產業核心引導課程。
參考文獻:
篇11
知識發現(Knowledge Discovery in Databases,KDD)一詞最早出現在1989年8月美國底特律召開的第11屆國際聯合人工智能學術會議上[1]。1996年,知識發現被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發現是從數據集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數據庫的角度進行研究以強調知識發現的效率,從機器學習的角度進行研究以強調知識發現的有效性,從統計分析的角度進行研究以強調知識發現的正確性,從微觀經濟學的角度進行研究以強調知識發現的最大效用。KDD過程是多個步驟交互螺旋式上升的學習和總結過程[3],基本流程包括:
(1)限定學習領域,儲備預先知識、確定學習目標;
(2)聚焦目標數據集,選擇一個數據集或在多數據集的子集上聚焦;
(3)數據預處理,數據降噪或數據清洗;
(4)數據轉換;
(5)確定數據挖掘功能法則;
(6)獲得知識信息、運用知識成果并重新選定學習目標。
在創新的過程中,單單依靠顯性知識已經不足以支撐整個思維求異和技術創新的全流程。隨著數據量的爆炸式增長,傳統數據庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統分析手段的落后,大量數據來不及整理、分析或利用就已“時過境遷”成為無效信息,而且被長期積壓在數據庫中浪費存儲資源。為了及時消解數據產生和數據理解之間的矛盾,還必須定期對數據進行深度挖掘,使得大量被隱藏的、有價值的信息得到有效利用。
(二)數據挖掘的理論探索
數據挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發現過程的一個重要步驟。數據挖掘融合了機器學習、模式識別、數據庫技術、統計學理論、人工智能及信息管理系統等多門學科的最新成果。應用數據挖掘技術從大型數據庫中發現隱藏在其中的規律和有用信息,為管理層決策提供事實型數據和研究模式。
根據KDD的目標任務,數據挖掘任務可分為:分類或預測模型發現、數據總結與聚類發現、關聯規則發現、序列模式發現、相似模式發現、混沌模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。而所要挖掘的對象則可以分為:關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機器、統計、神經網絡(Neural Network)、遺傳算法(Genetic Algorithm)、數據庫、近似推理和不確定性推理、基于證據理論和元模式、現代數學分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小結
綜上,知識發現用于從大量數據中抽取規律信息,發現非預期或潛在的價值量,而數據挖掘作為知識發現的重要一環是與實踐應用緊密相連的,兩者不僅僅是對數據的簡單檢索調用,而是從數據集合中自動提取出隱含在數據中的關系和模式,進而對未來可能發生的行為進行預測,為決策者提供有力支持。
二、高校成績管理與學科建設
成績是學生在校學習期間對所學知識理解掌握情況和教師教學質量評價的原始記錄,對學校的教學管理和教學改革措施評價具有重要的參考價值[5]。成績管理是高校教學管理中的最為基礎性的一個環節,是根據教學目的和教學任務,
通過學生的實際量化考核分數來進行統計、查閱和分析的綜合性數據處理過程。該過程的科學與否,直接關系到教務管理的實際質量和教學工作的可持續發展,特別是在網絡化和信息化的新形勢下,該項工作被素質教育賦予更加深遠的現實意義。本文所指學科成績不僅限于學生的筆試成績,還包括了學生參加各種校內外實習和培訓,以及其他形式素質教育的量化數據。
(一)高校成績管理所面臨的新形勢
從宏觀上講,隨著國家高等教育普及工作的不斷推進,以及教育戰線“以人為本”理念的逐步深入,高校教務在成績管理這一環節上所面臨的任務顯得比以往任何時刻都更加繁重。
首先,院校擴建和學生擴招為學科成績管理模塊在數據容量上增加了壓力。近幾年,隨著一些高校教學資源的整合和擴充,許多高校設立了新校區、設置了新專業,反映在學生成績管理上則是成績數據的時空容量同時增長。每多出一個學生,從學籍材料到各年度學科數據再到圖形化成績資料都會相應增加,教師教務管理系統所要處理的信息量也會相應增加,這首先在量上增加了數據壓力。
篇12
一、數據倉庫技術在客戶忠誠度分析中的應用
1.數據倉庫(DataWarehouse,簡稱DW)是一種面向數據應用的數據管理技術,它以關系數據庫管理系統(RDBMS)為基礎。按照業界公認的數據倉庫創始人W.H.Inmon的觀點,數據倉庫可定義為:“一個面向主題的、集成的隨時間變化的非易失的數據集合,用于支持管理層的決策過程”。可以發現數據倉庫具有這樣的一些重要特性:面向主題性、數據集成性、數據的時變性、數據的非易失性、數據的集合性和支持決策作用。
數據倉庫技術是企業智能管理的重要基礎和手段,已經成為企業級信息管理和決策支持系統建設過程中必要的技術支持。數據倉庫是進行客戶忠誠度分析的基礎。
2.數據倉庫的實施步驟。數據倉庫的設計與傳統的OLTP系統設計有較大區別,不但需要設計一個數據庫和一個用戶接口,還必須設計數據裝載策略、數據存取工具和不間斷的維護方案。數據倉庫的實施步驟:
(1)啟動項目,確定建立分析客戶忠誠度的數據倉庫,制定項目計劃。建立技術環境,選擇實現數據倉庫所需要的軟硬件資源。
(2)確定數據倉庫主題。針對客戶信息以及客戶購買信息等相關的數據倉庫,與企業前臺部門的業務人員多進行溝通,詳細了解業務需求、報表等需求。
(3)對客戶購買信息進行詳細定義,對事實表和維表的關系詳細定義。由于客戶購買信息數據倉庫數據量隨時間積累增大,而且隨著電子商務的進一步深入,數據量更是激增,所以必須對數據結構進行精心設計,以免隨著倉庫中數據量快速增長,造成系統分析和查詢性能的急劇下降。
(4)數據倉庫的物理庫設計。考慮數據的存儲方式,使得系統有較好的性能。完成索引的建立以及數據更新網絡的設計。
(5)源數據抽取、清洗、整理及裝載設計。客戶購買信息數據倉庫的數據來自企業的前臺作業系統以及前臺業務部門。這些數據必須根據數據倉庫的設計,以統一定義的格式從各個系統抽取出來,經過清理、轉換、綜合,再經過數據裝載和整理程序進入數據倉庫。
(6)開發支持用戶決策的數據分析工具。建立客戶購買信息數據倉庫的最終目的是為了實現前臺部門以及企業高層的決策支持,所以需要各種工具對數據倉庫進行訪問分析,如優化查詢工具、統計分析工具、數據挖掘工具等,通過分析工具實現決策支持需要。
(7)維護方案的設計。保證客戶信息數據倉庫的正常運行,對其進行管理維護,保證系統保持優良的性能。
二、據挖掘技術在客戶忠誠度分析中的應用
1.數據挖掘(Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本,一個普遍被采用的定義是“數據挖掘,又稱為數據庫知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程?!?/p>
2.數據挖掘在客戶忠誠度分析中常用方法
(1)決策樹(Decision Tree)決策算法。決策樹是一個類似于流程圖的樹結構,其中每個內部節點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點代表或類分布。決策樹算法包括樹的構造和樹的剪枝,有兩種常用的剪枝方法:先剪枝和后剪枝。
(2)神經網絡(Neural Network)。神經網絡是一組連接的輸入/輸出單元,其中每個連接都與一個權相連,在學習階段,通過調整神經網絡的權,使得能夠預測輸入樣本的正確類標號來學習。
(3)遺傳算法(Genetic Algorithms)。遺傳算法根據適者生存的原則,形成由當前群體中最適合的規則組成新的群體,以及這些規則的后代。
3.數據挖掘在客戶忠誠度分析中的應用
(1)運用數據挖掘技術,對客戶進行細分,提供個性化的服務。因為不同的客戶為企業提供的價值不同,企業需要重點服務的是那些能為企業提供高價值的大客戶;又因為企業的資源有限,如何針對不同客戶進行有限資源的優化應用也是每個企業必須考慮的重要問題,所以有必要對客戶進行細分,進行有針對性的運營,提供個性化的服務。
(2)運用數據挖掘技術預測客戶需求??蛻舻男枨蟛皇且怀刹蛔兊?、單一的,而是快速改變著的、多樣化的。運用數據挖掘技術及時預側客戶的需求,也就是“想客戶之所想”,及時調整產品的結構和內容,搶先贏得商機,為客戶提供其真正需要的產品,吸引客戶,獲取高額利潤。
(3)進行客戶流失分析。不要等到客戶離開了企業再去尋找解決辦法,時間就是金錢??蛻暨x擇了離開企業,肯定是有原因的,應該注意客戶流失的時間、分析流失的原因,及時采取措施,最大限度地留住客戶。
(4)挖掘出影響客戶忠誠度的重要因素,重點改善。影響客戶忠誠度的因素可能會有很多,但是要做的是用數據挖掘工具找出那些最主要的因素,對這些因素認真分析,采取有效的措施以提高客戶忠誠度。
三、結束語
數據挖掘作為一種信息技術正越來越受到企業的關注,都在想辦法用數據挖掘來解決企業海量數據的問題。企業能夠充分有效地利用數據挖掘這種新技術來為企業提供重要的決策信息,提高客戶忠誠度的,使企業在激烈的市場競爭中立于不敗之地。
篇13
隨著世界經濟的信息化和全球化趨勢增強,電子商務正逐步走向全面應用,并滲透到社會經濟的各個層面。越來越多的公司紛紛建立網站,從事商務活動,無論是新興網絡企業,還是傳統企業E化,網站都已經成為企業經營必不可少的網絡營銷工具,并且在增強企業競爭優勢、擴大企業影響、增加銷售收入等方面發揮著越來越大的作用。
1 E忠誠時代的來臨
隨著電子商務的發展,客戶的重要性被提升到一個前所未有的高度,它已經成為電子商務成功的關鍵。在某種程度上,客戶關系加商務模式,已經被譽為電子商務成功的秘密。
電子商務環境下的客戶忠誠,又稱為E忠誠。2000年,美國Bain&Comapany公司的電子商務主管Fredrick F.Reichheld與Phill Sehefter在研究了多家杰出網絡公司和上千名網絡顧客的消費行為后,指出在虛擬的網絡世界中同樣存在顧客忠誠,并稱為“E忠誠”;他們同時認為,E忠誠是電子商務企業在網上取得成功的“秘密武器”。2001年,國際著名的咨詢公司KPMG Consulting在與牛津大學零售管理學院(OX―IRM)的合作研究項目中把E忠誠定義為:E忠誠指網絡顧客對網上企業或其品牌的忠誠。2003年3月,Moonkyu Lee博士通過實證研究,將E忠誠定義為:網絡顧客基于以往的購物體驗和對未來的預期,愿意再次光顧當前選擇的電子商務網站的意向性。彭香霞與賀勤將“顧客重復選擇該網站購買某一特定產品或某些產品的心理和行為傾向”理解為E忠誠,并認為同時滿足“情感E忠誠”和“行為E忠誠”兩個維度,才能稱作E忠誠。無論眾多學者如何定義E忠誠,但E忠誠的時代確確實實來臨了。
2 企業網站客戶忠誠管理現狀
忠誠的客戶是企業贏利的源泉,是企業最大的無形資產,在競爭激烈的網絡市場中,如何牢牢地鎖住客戶,提高客戶忠誠度便成為了如今企業網站關注的要點。為了能夠有效開展客戶忠誠管理,提升網站客戶忠誠度,眾多企業網站在維系客戶關系方面可謂是“八仙過海,各顯神通”。然而對于絕大多數企業網站而言。雖然能在短時間內很快地聚集大量的訪問量,但對于客戶關系的長期保持,提升企業網站客戶忠誠度,其效果并不顯著。主要原因在于,網站客戶忠誠的形成與培養,比傳統環境下難度更大,決定因素更多。 就難度而言,①企業對客戶信息管理水平較低;②不完善的機制使客戶對企業缺乏信任;③針對客戶需求的差異,企業缺乏建立個性化服務的意識;④顧客滿意難以達到;⑤低廉的搜尋成本容易改變購物選擇;⑥交易的安全性難以保證;⑦“口碑”負效應不可忽視。這些問題的存在,決定了要在虛擬環境中維系與客戶之間的關系、培養與提升客戶忠誠度,是一件十分艱難的事情。
就決定因素而言,電子商務環境下企業網站客戶忠誠既受客戶主觀因素的影響,也受外在客觀因素的影響,這兩者共同構成企業網站客戶忠誠的趨動模型,如圖l所示:
從圖1可以看出,決定企業網站客戶忠誠的外在客觀因素主要有轉移成本、客戶價值、營銷策略、產品質量、客戶服務等;決定企業網站客戶忠誠的內在主觀因素主要有客戶滿意度、客戶愉悅度和客戶信任度,并且客戶感到滿意、擁有愉悅和產生信任對忠誠具有遞進作用。同時,客觀因素影響著主觀因素,兩者存在著正相關關系。
隨著電子商務的深入發展,企業網站客戶忠誠度變得岌岌可危:客戶的選擇范圍驟然擴大,流失趨勢增加;轉換成本降低,客戶更容易改變購買決策;客戶需求個性化,經驗成熟化,使客戶的期望值大大提高,對企業提出了服務敏捷、產品優質、定位準確等高標準要求。
3 Web數據挖掘是提升網站客戶忠誠度的關鍵技術
電子商務的發展,要求企業借助于信息技術和網絡技術,以客戶利益為出發點,以不斷滿足客戶需求和為客戶創造價值為目標,與客戶建立長期穩定的關系,不斷提高客戶的忠誠度。而對用戶需求、興趣、愛好、身份的了解和獲取是提升網站客戶忠誠度具備針對性的前提。20世紀80年代末興起的數據挖掘(DataMining)技術,特別是Web數據挖掘技術,為解決此問題開辟了一條道路。
Web數據挖掘就是從Web文檔和Web活動中發現、抽取感興趣的潛在的有用模式和隱藏的信息。它以從Web上挖掘有用信息為目標,以數據挖掘、文檔挖掘、多媒體挖掘為基礎,并綜合運用計算機網絡、數據庫與數據倉庫、人工智能、信息檢索、可視化、自然語言理解等技術,將傳統的數據挖掘與Web結合起來。Web數據挖掘的基本處理過程如圖2所示:
在日益激烈的電子商務市場競爭中,任何與消費者行為有關的信息對經營者來說都是非常寶貴的。Web服務器數據、客戶登記信息、服務器數據和業務往來數據是Web挖掘中的數據來源,都直接與客戶的商務行為模式相關,而不論是客戶認知忠誠、情感忠誠還是意向忠誠,最終都體現為客戶行為忠誠,也就是說,這些數據所表征出來的行為特征可以借助于一定的技術用來分析客戶的行為。通過Web數據挖掘,根據客戶的訪問興趣、訪問頻度、訪問時間等數據,能發現企業網站客戶共性和個性的知識、必然和偶然的知識、獨立和聯系的知識等,所有這些經過分析,能對客戶的消費行為如心理、能力、動機、需求潛能作出統計和正確的分析,得到客戶的商務行為模式。根據挖掘的結果提出針對性的商務計劃,促進企業網站更好地為客戶服務,使客戶忠誠度的提升成為可能。
4 基于Web數據挖掘的網站客戶忠誠度提升模型
Web數據挖掘是輔助提升企業網站客戶忠誠度的綜合分析工具和關鍵技術,運行在企業網站的客戶數據庫和數據倉庫之上,應包括以下功能模塊:①過濾器:用來從Web數據庫中抽取相關數據,進行二義性分析,消除不一致性;②挖掘綜合器:是一個挖掘驅動引擎,根據挖掘要求和挖掘方法的知識庫到Web數據挖掘算法庫中選擇合適的挖掘方法,并且使用該方法去執行挖掘任務;③方法選擇專家系統及知識庫:它是Web數據挖掘的“大腦”,是一個規則集合,能夠根據不同的挖掘要求來選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應用的深入,該知識庫可以不斷融入新的規則,以增加專家系統的智能性;~Web數據挖掘算法庫:是一個數據挖掘分析方法的綜合性算法庫;⑤人機交互界面:提供一個和分析人員交互的友好界面。如果本次的挖掘結果不能滿足分析人員的需要
或者還有進一步的猜想,就可以再次從這里輸入挖掘需求;⑥方法驅動模塊:它利用挖掘出來的有益信息,進行相應統計與分析的工作。據此分析,可以構建一種基于Web數據挖掘的網站客戶忠誠度提升模型,如圖3所示:
5 基于Web數據挖掘的網站客戶忠誠度提升模型的運行
5.1模型運行的基本流程
基本流程:①明確Web數據挖掘的目標,確定提升網站客戶忠誠度的應用主題,并對挖掘目標建立恰當的模型,通常必須指定一系列未知的關聯變量,如果可能的話,建立一關聯格式作為初始的假設;②圍繞提升網站客戶忠誠度這一主題收集數據源,并對數據進行清理、轉換、集成等技術處理,將數據轉換為易于進行數據挖掘的數據存儲形式,裝載進入客戶原始數據庫和數據倉庫,等待進一步處理;③建立規則庫和知識庫,用于存儲已知的客戶行為忠誠度的連接特征和新近數據挖掘形成的規則集,其中規則集是客戶商務模式與忠誠度行為模式的反映,用于指導訓練數據的收集及作為特征選擇的依據;④選取合適的數據挖掘方法,構建數據挖掘模型,進行行為模式識別,從目標數據中提取有價值的知識與數據,然后對結果進行分析和驗證,調整數據挖掘模型,從而保證結果的可靠性和實用性,結果交給決策模塊處理;⑤決策庫將數據挖掘的結果與規則庫中的已知規則進行模式匹配,融合專家知識與領域規則,把最有價值的信息區分開來,并且通過決策支持工具提交給決策者,用于支持提升客戶忠誠度的相關策略處理。
5.2模式識別的技術方法
對客戶行為模式進行識別是整個模型正常運行并達到預定目標的核心,針對網站客戶行為模式識別,常見的數據挖掘技術方法主要有:
?關聯規則。它是描述數據庫中數據項之間存在關聯的規則,即根據一個事物中某些項的出現可導出另一項在同一事物中也出現,即隱藏在數據間的關聯或相互關系。使用關聯規則發現方法可以從Web訪問事務集中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構,通過分析數據或記錄間的關系,決定哪些事情將一起發生。
?聚類分析。聚類是把一組個體按照相似性歸成若干類別,即“物以類聚”。在Web挖掘中存在兩種類型的聚類,即用戶聚類和網頁聚類。用戶聚類主要是把具有相似訪問特征的用戶分在一組;網頁聚類,則可以找出具有相關內容的網頁組。聚類分析可以從服務器訪問信息數據中聚集出具有相似特性的用戶組,即把有相似特性的用戶、數據項集合到一起。
?分類分析。分類是將一組組個體分門別類地歸入預先設定好的幾個類中。分類的目的是通過統計方法、機器學習方法(包括決策樹法和規則歸納法)、神經網絡方法等構造一個分類模型,然后把數據庫中的數據映射到給定類別中的某一個特定類,以對同一類別中的用戶提供相似的服務。
?統計分析。統計分析是統計用戶最常訪問的網頁、每頁平均訪問的時間、瀏覽路徑的平均長度等數據,以獲得用戶訪問站點的基本信息。此外還能提供有限的低層次的錯誤分析,比如檢測未授權入口點,找出最常見不變的URL等。
?序列模式。序列模式挖掘技術就是試圖在時間戳有序的事務集中,找到一組數據項之后出現另一數據項的內部事務模式,即挖掘出會話集之間有時間序列關系的模式,從而形成一組按時間排序的會話。通過序列模式研究,能夠預測用戶的訪問模式,了解用戶的興趣及需求所在。
?決策樹算法。其基本原理是遞歸地將數據拆分成子集,以便每一個子集包含目標變量類似的狀態,這些目標是可預測屬性。每一次對樹進行拆分,都要評價所有的輸入屬性對可預測屬性的影響。當這個遞歸過程結束時,決策樹也就創建完了。結構表示分類或決策集合,從而產生規則和發現規律。
?模式分析。通過選擇和觀察把發現的規則、模式和統計值轉換為知識,再經過分析得到有價值的模式,即那些有意義、感興趣的規則、模式,采用可視化技術,以圖形界面的方式提供給使用者。
?路徑分析。路徑分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務器的日志文件中客戶訪問站點的訪問次數分析,從圖中挖掘出頻繁訪問路徑。圖最直接的來源是網站結構圖,其他圖也都是建立在頁面和頁面之間的聯系,或者是一定數量的用戶瀏覽頁面順序基礎之上的。
?異類分析。異類分析也稱為孤立點分析。所謂孤立點是指明顯偏離其他數據,即不滿足一般模式或行為的數據。孤立點分析是數據挖掘的重要內容,它包括孤立點的發現和孤立點的分析,其中孤立點的發現往往可以使人們發現一些真實的但又出乎意料的知識;而孤立點的分析則可能發現比一般數據所包含的信息更有價值的數據。
5.3提升模型的主要應用
提升企業網站客戶忠誠度,關鍵是要從客戶的主觀因素和感覺出發,提升客戶滿意度、客戶愉悅度和客戶信任度。通過對4類網絡數據進行挖掘,可以分析影響客戶忠誠度的因素或客戶忠誠度降低的征兆,進而制定相關策略來提升企業網站客戶忠誠度。
?預防客戶流失。互聯網加劇了企業間的競爭,企業獲得新客戶的成本不斷上升,如何保持現有客戶是所有企業面臨的一個重要問題??蛻艟S持的性質是“留住”那些可能流失的客戶。要留住這些客戶,首先要找出哪些客戶最可能“離我而去”,這就是數據挖掘要解決的問題??赏ㄟ^數據挖掘對客戶數據庫中大量的客戶歷史交易記錄、人口統計信息及其相關資料進行分析和處理,對流失客戶群作針對性研究,分析其特征,研究哪些因素會導致客戶流失,建立流失客戶模型,識別導致客戶流失的模式,然后用這些模式找出當前客戶中類似的客戶,以便企業針對客戶的需求,采取相應的措施防止這些客戶的流失,改善客戶關系,進而達到保持原有客戶的目的。
?開展客戶細分??蛻艏毞挚梢允蛊髽I對不同細分群中的客戶區別對待。企業需要對客戶群進行分析,才能得到對客戶需求更加精確的理解和把握,從而可以有的放矢地進行忠誠度營銷的策劃和服務組合。在不太明確客戶群體分類標準的情況下,可采取挖掘的聚類技術,對客戶群進行劃分。運用聚類分析,從客戶檔案庫中發現不同客戶群,并且用購買模式來刻畫不同客戶群的特征,可以方便地得到商家的主客戶群,以便決策者根據主客戶群的特征做相應的訂貨、銷售、服務等決策。所有的客戶對于企業來說價值都不是一樣的,在客戶細分過程中,應加強重點客戶的發現,發現哪些客戶是真正創造利潤的客戶,哪些客戶是低利潤甚至是無利潤的客戶,然后采取不同的方案對待這些客戶。
?改進網站設計。網頁是企業對外宣傳的重要組成部分,體現企業的整體形象,只有通過它才能開展網上業務,同時與客戶直接進行溝通。因此,需要在網站上營造一種生活和文化氛圍,一種精神世界,這種氛圍應該和企業所提出的企業文化和營銷概念相吻合,給顧客提供一種“賓至如歸”的感受。通過對客戶訪問信息進行挖掘,了解客戶的瀏覽行為,從而知道客戶
的興趣及需求所在,動態調整Web頁面,修改網站結構和外觀,按照大多數訪問者的瀏覽模式對網站進行組織,按其訪問內容來裁剪用戶與Web信息空間的交互,以滿足客戶的需要,吸引更多的客戶。從而在優化網站設計時,能從最終顧客的角度更新改進作業流程,提供給顧客一站購足的服務。
?提供個??蛻舻男枨蟛皇且怀刹蛔兊摹我坏?,而是快速改變著的、多樣化的。隨著生活水平的不斷提高,客戶的要求也越來越高,其個性化需求逐漸成為發展趨勢。企業要想贏得較高的客戶忠誠和盈利能力,就一定要實現以下目標:在正確的時間、以正確的價格、通過正確的渠道將正確的產品(或服務)提供給正確的客戶。這就要求企業網站必須記住客戶的特點,與每位客戶發展溫馨、個性化關系,依據客戶的需要,提供適當的服務與信息?;跀祿诰虻膫€性化服務,通過對客戶訪問日志記錄信息的挖掘,以為每一位客戶建立一套個性化檔案為基礎,可以提供包括個性化定制服務、個性化推薦服務、個性化檢索服務、個性化決策支持服務等內容。
?優化營銷模式。即使是購買同樣的商品,不同顧客的動因也可能不一樣,有的追求質量,有的講究外觀,有的貪圖方便,有的則喜歡其文化內涵。所以企業必須采用一定的方法,了解顧客的購買動因,并集中起來加以分析,然后針對不同客戶的特點,采取不同的營銷策略組合。利用Web數據挖掘工具,了解顧客在網上購買商品或接受服務時的選取習慣、鏈接習慣、商品組合習慣,發現那些隱藏在數據中的模式、關聯、規則和趨勢,找出其中的規律,從而提高交叉網絡營銷、“1對1”營銷、頻率營銷、會員制營銷等營銷模式的效率。
?營造安全環境。信任是客戶忠誠的一個決定性因素。從本質上來說,信任支持了客戶那種認為“可以在交易或者服務中得到積極成果”的信念。在電子商務環境下,一個安全交易的環境是客戶產生信任的首要條件。所以商家不僅要保證產品和服務質量,還要加強對客戶的責任心,投入足夠的人力和物力,加強硬件上的建設,從技術上保證網上交易的安全,并且要保護客戶的個人隱私,不能私自將他們的個人信息透露給其他機構。Web數據挖掘通過訪問路徑分析、關聯規則發現、序列模式分析、分類規則發現、聚類分析等技術,從獲取的資源數據中提取與安全相關的系統特征屬性,并根據系統特征屬性自動生成安全事件的檢測模型,用于對安全事件的自動鑒別,加強安全審計、入侵檢測、病毒預警、安全評估等網絡安全防范的針對性,有利于提供一個安全的網絡交易環境。
5.4模型運行的注意事項
建立在Web數據挖掘技術基礎上的企業網站客戶忠誠度提升模型在運行過程中,還應注意以下一些事項: