日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
數據挖掘導論(完整版)圖書
人氣:38

數據挖掘導論(完整版)

【好評返5元店鋪禮券】信息管理專家、科技作家涂子沛傾情推薦,帶你進入真正的大數據時代!

內容簡介

數據挖掘導論(完整版)》介紹了數據挖掘的理論和方法,旨在為讀者提供將數據挖掘應用于實際問題所必需的知識。《數據挖掘導論(完整版)》涵蓋五個主題:數據、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章:前面一章講述基本概念、代表性算法和評估技術,后面一章較深入地討論不錯概念和算法。目的是使讀者在透徹地理解數據挖掘基礎的同時,還能了解更多重要的不錯主題。此外,書中還提供了大量示例、圖表和習題。

數據挖掘導論(完整版)》適合作為相關專業高年級本科生和研究生數據挖掘課程的教材,同時也可作為數據挖掘研究和應用開發人員的參考書。

編輯推薦

數據挖掘導論(完整版)》介紹了數據挖掘,涵蓋了五個主題:數據、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都有兩章。前一章涵蓋基本概念、代表性算法和評估技術,而后一章討論不錯概念和算法。這樣讀者在透徹地理解數據挖掘的基礎的同時,還能夠了解更多重要的不錯主題。

數據挖掘導論(完整版)》是明尼蘇達大學和密歇根州立大學數據挖掘課程的教材,由于獨具特色,正式出版之前就已經被斯坦福大學、得克薩斯大學奧斯汀分校等眾多名校采用。《數據挖掘導論(完整版)》特色

與許多其他同類圖書不同,《數據挖掘導論(完整版)》將重點放在如何用數據挖掘知識解決各種實際問題。

只要求具備很少的預備知識——不需要數據庫背景,只需要很少的統計學或數學背景知識。

書中包含大量的圖表、綜合示例和豐富的習題,并且使用示例、關鍵算法的簡潔描述和習題,盡可能直接聚焦于數

據挖掘的主要概念。

教輔內容極為豐富,包括課程幻燈片、學生課題建議、數據挖掘資源(如數據挖掘算法和數據集)、聯機指南(使

用實際的數據集和數據分析軟件,《數據挖掘導論(完整版)》介紹的部分數據挖掘技術提供例子講解)。

作者簡介

陳封能(Pang-Ning Tan)現為密歇根州立大學計算機與工程系助理教授,主要教授數據挖掘、數據庫系統等課程。此前,他曾是明尼蘇達大學美國陸軍高性能計算研究中心副研究員(2002-2003)。

斯坦巴赫(Michael Steinbach)明尼蘇達大學計算機與工程系研究員,在讀博士。

庫瑪爾(Vipin Kumar)明尼蘇達大學計算機科學與工程系主任,曾任美國陸軍高性能計算研究中心主任。他擁有馬里蘭大學博士學位,是數據挖掘和高性能計算方面的靠前很好不錯,IEEE會士。

范明,鄭州大學信息工程學院教授,中國計算機學會數據庫專業委員會委員、人工智能與模式識別專業委員會委員,長期從事計算機軟件與理論教學和研究。先后發表論史40余篇。

范宏建 澳大利亞墨爾本大學計算機科學博士。先后在WWW、PAKDD、RSFDGrC、IEEE GrC和Australian AI等靠前學術會議和IEEE Transactions on Knowledge and Data Engineering10余篇。目前是澳大利亞AUSTRAC的不錯分析師。

目錄

第1章 緒論 1

1.1 什么是數據挖掘 2

1.2 數據挖掘要解決的問題 2

1.3 數據挖掘的起源 3

1.4 數據挖掘任務 4

1.5 本書的內容與組織 7

文獻注釋 7

參考文獻 8

習題 10

第2章 數據 13

2.1 數據類型 14

2.1.1 屬性與度量 15

2.1.2 數據集的類型 18

2.2 數據質量 22

2.2.1 測量和數據收集問題 22

2.2.2 關于應用的問題 26

2.3 數據預處理 27

2.3.1 聚集 27

2.3.2 抽樣 28

2.3.3 維歸約 30

.2.3.4 特征子集選擇 31

2.3.5 特征創建 33

2.3.6 離散化和二元化 34

2.3.7 變量變換 38

2.4 相似性和相異性的度量 38

2.4.1 基礎 39

2.4.2 簡單屬性之間的相似度和相異度 40

2.4.3 數據對象之間的相異度 41

2.4.4 數據對象之間的相似度 43

2.4.5 鄰近性度量的例子 43

2.4.6 鄰近度計算問題 48

2.4.7 選取正確的鄰近性度量 50

文獻注釋 50

參考文獻 52

習題 53

第3章 探索數據 59

3.1 鳶尾花數據集 59

3.2 匯總統計 60

3.2.1 頻率和眾數 60

3.2.2 百分位數 61

3.2.3 位置度量:均值和中位數 61

3.2.4 散布度量:極差和方差 62

3.2.5 多元匯總統計 63

3.2.6 匯總數據的其他方法 64

3.3 可視化 64

3.3.1 可視化的動機 64

3.3.2 一般概念 65

3.3.3 技術 67

3.3.4 可視化高維數據 75

3.3.5 注意事項 79

3.4 olap和多維數據分析 79

3.4.1 用多維數組表示鳶尾花數據 80

3.4.2 多維數據:一般情況 81

3.4.3 分析多維數據 82

3.4.4 關于多維數據分析的評述 84

文獻注釋 84

參考文獻 85

習題 86

第4章 分類:基本概念、決策樹與模型評估 89

4.1 預備知識 89

4.2 解決分類問題的一般方法 90

4.3 決策樹歸納 92

4.3.1 決策樹的工作原理 92

4.3.2 如何建立決策樹 93

4.3.3 表示屬性測試條件的方法 95

4.3.4 選擇劃分的度量 96

4.3.5 決策樹歸納算法 101

4.3.6 例子:web 機器人檢測 102

4.3.7 決策樹歸納的特點 103

4.4 模型的過分擬合 106

4.4.1 噪聲導致的過分擬合 107

4.4.2 缺乏代表性樣本導致的過分擬合 109

4.4.3 過分擬合與多重比較過程 109

4.4.4 泛化誤差估計 110

4.4.5 處理決策樹歸納中的過分擬合 113

4.5 評估分類器的性能 114

4.5.1 保持方法 114

4.5.2 隨機二次抽樣 115

4.5.3 交叉驗證 115

4.5.4 自助法 115

4.6 比較分類器的方法 116

4.6.1 估計度的置信區間 116

4.6.2 比較兩個模型的性能 117

4.6.3 比較兩種分類法的性能 118

文獻注釋 118

參考文獻 120

習題 122

第5章 分類:其他技術 127

5.1 基于規則的分類器 127

5.1.1 基于規則的分類器的工作原理 128

5.1.2 規則的排序方案 129

5.1.3 如何建立基于規則的分類器 130

5.1.4 規則提取的直接方法 130

5.1.5 規則提取的間接方法 135

5.1.6 基于規則的分類器的特征 136

5.2 最近鄰分類器 137

5.2.1 算法 138

5.2.2 最近鄰分類器的特征 138

5.3 貝葉斯分類器 139

5.3.1 貝葉斯定理 139

5.3.2 貝葉斯定理在分類中的應用 140

5.3.3 樸素貝葉斯分類器 141

5.3.4 貝葉斯誤差率 145

5.3.5 貝葉斯信念網絡 147

5.4 人工神經網絡 150

5.4.1 感知器 151

5.4.2 多層人工神經網絡 153

5.4.3 人工神經網絡的特點 155

5.5 支持向量機 156

5.5.1 較大邊緣超平面 156

5.5.2 線性支持向量機:可分情況 157

5.5.3 線性支持向量機:不可分情況 162

5.5.4 非線性支持向量機 164

5.5.5 支持向量機的特征 168

5.6 組合方法 168

5.6.1 組合方法的基本原理 168

5.6.2 構建組合分類器的方法 169

5.6.3 偏倚-方差分解 171

5.6.4 裝袋 173

5.6.5 提升 175

5.6.6 隨機森林 178

5.6.7 組合方法的實驗比較 179

5.7 不平衡類問題 180

5.7.1 可選度量 180

5.7.2 接受者操作特征曲線 182

5.7.3 代價敏感學習 184

5.7.4 基于抽樣的方法 186

5.8 多類問題 187

文獻注釋 189

參考文獻 190

習題 193

第6章 關聯分析:基本概念和算法 201

6.1 問題定義 202

6.2 頻繁項集的產生 204

6.2.1 先驗原理 205

6.2.2 apriori算法的頻繁項集產生 206

6.2.3 候選的產生與剪枝 208

6.2.4 支持度計數 210

6.2.5 計算復雜度 213

6.3 規則產生 215

6.3.1 基于置信度的剪枝 215

6.3.2 apriori算法中規則的產生 215

6.3.3 例:美國國會投票記錄 217

6.4 頻繁項集的緊湊表示 217

6.4.1 極大頻繁項集 217

6.4.2 閉頻繁項集 219

6.5 產生頻繁項集的其他方法 221

6.6 fp增長算法 223

6.6.1 fp樹表示法 224

6.6.2 fp增長算法的頻繁項集產生 225

6.7 關聯模式的評估 228

6.7.1 興趣度的客觀度量 228

6.7.2 多個二元變量的度量 235

6.7.3 辛普森悖論 236

6.8 傾斜支持度分布的影響 237

文獻注釋 240

參考文獻 244

習題 250

第7章 關聯分析:高級概念 259

7.1 處理分類屬性 259

7.2 處理連續屬性 261

7.2.1 基于離散化的方法 261

7.2.2 基于統計學的方法 263

7.2.3 非離散化方法 265

7.3 處理概念分層 266

7.4 序列模式 267

7.4.1 問題描述 267

7.4.2 序列模式發現 269

7.4.3 時限約束 271

7.4.4 可選計數方案 274

7.5 子圖模式 275

7.5.1 圖與子圖 276

7.5.2 頻繁子圖挖掘 277

7.5.3 類apriori方法 278

7.5.4 候選產生 279

7.5.5 候選剪枝 282

7.5.6 支持度計數 285

7.6 非頻繁模式 285

7.6.1 負模式 285

7.6.2 負相關模式 286

7.6.3 非頻繁模式、負模式和負相關模式比較 287

7.6.4 挖掘有趣的非頻繁模式的技術 288

7.6.5 基于挖掘負模式的技術 288

7.6.6 基于支持度期望的技術 290

文獻注釋 292

參考文獻 293

習題 295

第8章 聚類分析:基本概念和算法 305

8.1 概述 306

8.1.1 什么是聚類分析 306

8.1.2 不同的聚類類型 307

8.1.3 不同的簇類型 308

8.2 k均值 310

8.2.1 基本k均值算法 310

8.2.2 k均值:附加的問題 315

8.2.3 二分k均值 316

8.2.4 k均值和不同的簇類型 317

8.2.5 優點與缺點 318

8.2.6 k均值作為優化問題 319

8.3 凝聚層次聚類 320

8.3.1 基本凝聚層次聚類算法 321

8.3.2 特殊技術 322

8.3.3 簇鄰近度的lance-williams公式 325

8.3.4 層次聚類的主要問題 326

8.3.5 優點與缺點 327

8.4 dbscan 327

8.4.1 傳統的密度:基于中心的方法 327

8.4.2 dbscan算法 328

8.4.3 優點與缺點 329

8.5 簇評估 330

8.5.1 概述 332

8.5.2 非監督簇評估:使用凝聚度和分離度 332

8.5.3 非監督簇評估:使用鄰近度矩陣 336

8.5.4 層次聚類的非監督評估 338

8.5.5 確定正確的簇個數 339

8.5.6 聚類趨勢 339

8.5.7 簇有效性的監督度量 340

8.5.8 評估簇有效性度量的顯著性 343

文獻注釋 344

參考文獻 345

習題 347

第9章 聚類分析:其他問題與算法 355

9.1 數據、簇和聚類算法的特性 355

9.1.1 例子:比較k均值和dbscan 355

9.1.2 數據特性 356

9.1.3 簇特性 357

9.1.4 聚類算法的一般特性 358

9.2 基于原型的聚類 359

9.2.1 模糊聚類 359

9.2.2 使用混合模型的聚類 362

9.2.3 自組織映射 369

9.3 基于密度的聚類 372

9.3.1 基于網格的聚類 372

9.3.2 子空間聚類 374

9.3.3 denclue:基于密度聚類的一種基于核的方案 377

9.4 基于圖的聚類 379

9.4.1 稀疏化 379

9.4.2 最小生成樹聚類 380

9.4.3 opossum:使用metis的稀疏相似度劃分 381

9.4.4 chameleon:使用動態建模的層次聚類 381

9.4.5 共享最近鄰相似度 385

9.4.6 jarvis-patrick聚類算法 387

9.4.7 snn密度 388

9.4.8 基于snn密度的聚類 389

9.5 可伸縮的聚類算法 390

9.5.1 可伸縮:一般問題和方法 391

9.5.2 birch 392

9.5.3 cure 393

9.6 使用哪種聚類算法 395

文獻注釋 397

參考文獻 398

習題 400

第10章 異常檢測 403

10.1 預備知識 404

10.1.1 異常的成因 404

10.1.2 異常檢測方法 404

10.1.3 類標號的使用 405

10.1.4 問題 405

10.2 統計方法 406

10.2.1 檢測一元正態分布中的離群點 407

10.2.2 多元正態分布的離群點 408

10.2.3 異常檢測的混合模型方法 410

10.2.4 優點與缺點 411

10.3 基于鄰近度的離群點檢測 411

10.4 基于密度的離群點檢測 412

10.4.1 使用相對密度的離群點檢測 413

10.4.2 優點與缺點 414

10.5 基于聚類的技術 414

10.5.1 評估對象屬于簇的程度 415

10.5.2 離群點對初始聚類的影響 416

10.5.3 使用簇的個數 416

10.5.4 優點與缺點 416

文獻注釋 417

參考文獻 418

習題 420

附錄a 線性代數 423

附錄b 維歸約 433

附錄c 概率統計 445

附錄d 回歸 451

附錄e 優化 457

在線預覽

空間數據的重要例子是科學和工程數據集,其數據取自二維或三維網格上規則或不規則分布的點上的測量或模型輸出。例如,地球科學數據集記錄在各種分辨率(如每度)下經緯度球面網格點(網格單元)上測量的溫度和氣壓(見圖2-4d)。另一個例子,在瓦斯氣流模擬中,可以針對模擬中的每個網格點記錄流速和方向。

5.處理非記錄數據大部分數據挖掘算法都是為記錄數據或其變體(如事務數據和數據矩陣)設計的。通過從數據對象中提取特征,并使用這些特征創建對應于每個對象的記錄,針對記錄數據的技術也可以用于非記錄數據。考慮前面介紹的化學結構數據。給定一個常見的子結構集合,每個化合物都可以用一個具有二元屬性的記錄表示,這些二元屬性指出化合物是否包含特定的子結構。這樣的表示實際上是事務數據集,其中事務是化合物,而項是子結構。在某些情況下,容易用記錄形式表示數據,但是這類表示并不能捕獲數據中的所有信息。考慮這樣的時間空間數據,它由空間網格每一點上的時間序列組成。通常,這種數據存放在數據矩陣中,其中每行代表一個位置,而每列代表一個特定的時間點。然而,這種表示并不能明確地表示屬性之間存在的時間聯系以及對象之間存在的空間聯系。但并不是說這種表示不合適,而是說分析時必須考慮這些聯系。例如,在使用數據挖掘技術時,假定屬性之間在統計上是相互獨立的并不是一個好主意。……

網友評論(不代表本站觀點)

來自匿名用**的評論:

經典圖書,值得一讀

2017-02-16 10:07:20
來自漓江漁**的評論:

書是好書,圖靈書都不錯的,就是書角好象被用力砟過,有破損,不影響使用。

2014-12-28 17:39:44

免責聲明

更多出版社