通過做數據分析學習數據分析 《數據挖掘與預測分析(第2版)》提供了從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容?!稊祿诰蚺c預測分析(第2版)》不僅提供了理解軟件底層算法的“白盒”方法,而且提供了能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的應用方法。 第2版的新內容: ● 添加了500多頁的新內容,包括20個新章節,例如,數據建模準備、成本-效益分析、缺失數據填充、聚類優劣度量以及細分模型等。 ● 針對前沿主題的新章節,例如,多元分類模型、BIRCH聚類、集成學習(bagging及boosting)、模型投票與趨向平均等。 ● 每章節后均附有R語言開發園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、表和結果。 ● 書中的附錄為那些對統計基礎生疏的讀者提供了了解基本概念的材料。 ● 超過750個章節練習,使讀者能夠自己測試對所學知識的掌握程度,并著手開展數據挖掘與預測分析工作。 《數據挖掘與預測分析(第2版)》將對數據分析人員、數據庫分析人員以及CIO具有極大的吸引力,通過學習將使他們知道何種類型的分析將會增加其投資回報。
本書提出的方法和技術、深入,幾乎涵蓋了當前應用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的章節中增加了R語言開發園地,幫助讀者利用R語言開展實際設計和開發工作,獲得章節中涉及內容的結果,便于讀者掌握所學內容。
Daniel T. Larose博士,美國中康涅狄格州立大學數學科學教授,數據挖掘項目負責人。出版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜志以及《經濟學人》雜志等數據挖掘與統計分析領域的顧問。Chantal D. Larose是美國康涅狄格大學的在讀博士。其研究領域包括缺失數據填補以及基于模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。
第Ⅰ部分 數據準備
第1章 數據挖掘與預測分析概述 3
1.1 什么是數據挖掘和預測分析 3
1.2 需求:數據挖掘技術人員 4
1.3 數據挖掘離不開人的參與 5
1.4 跨行業數據挖掘標準過程:
CRISP-DM 6
1.5 數據挖掘的謬誤 8
1.6 數據挖掘能夠完成的任務 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關聯 14
R語言開發園地 15
R參考文獻 16
練習 16
第2章 數據預處理 17
2.1 需要預處理數據的原因 17
2.2 數據清理 18
2.3 處理缺失數據 19
2.4 識別錯誤分類 22
2.5 識別離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數據變換 26
2.8 min-max規范化 26
2.9 Z-score標準化 27
2.10 小數定標規范化 28
2.11 變換為正態數據 28
2.12 識別離群值的數值方法 34
2.13 標志變量 35
2.14 將分類變量轉換為數值變量 35
2.15 數值變量分箱 36
2.16 對分類變量重新劃分類別 37
2.17 添加索引字段 37
2.18 刪除無用變量 38
2.19 可能不應該刪除的變量 38
2.20 刪除重復記錄 39
2.21 ID字段簡述 39
R語言開發園地 39
R參考文獻 45
練習 45
第3章 探索性數據分析 49
3.1 假設檢驗與探索性數據分析 49
3.2 了解數據集 49
3.3 探索分類變量 52
3.4 探索數值變量 58
3.5 探索多元關系 62
3.6 選擇感興趣的數據子集作進一步研究 64
3.7 使用EDA發現異常字段 64
3.8 基于預測值分級 65
3.9 派生新變量:標志變量 67
3.10 派生新變量:數值變量 69
3.11 使用EDA探測相關聯的預測
變量 70
3.12 EDA概述 73
R語言開發園地 73
R參考文獻 80
練習 80
第4章 降維方法 83
4.1 數據挖掘中降維的必要性 83
4.2 主成分分析 84
4.3 將主成分分析應用于房屋
數據集 87
4.4 應提取多少個主成分 91
4.4.1 特征值標準 91
4.4.2 解釋變異的比例標準 92
4.4.3 最小共性標準 92
4.4.4 坡度圖標準 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分驗證 97
4.8 因子分析法 98
4.9 因子分析法在成年人數據集中的
應用 99
4.10 因子旋轉 101
4.11 用戶自定義合成 104
4.12 用戶自定義合成的示例 105
R語言開發園地 106
R參考文獻 110
練習 111
第Ⅱ部分 統計分析
第5章 單變量統計分析 117
5.1 數據知識發現中的數據挖掘
任務 117
5.2 用于估計和預測的統計方法 117
5.3 統計推理 118
5.4 我們對評估的確信程度如何 119
5.5 均值的置信區間估計 120
5.6 如何減少誤差范圍 121
5.7 比例的置信區間估計 122
5.8 均值的假設檢驗 123
5.9 拒絕零假設的證據力度的
評估 125
5.10 使用置信區間執行假設檢驗 126
5.11 比例的假設檢驗 127
R語言開發園地 128
R參考文獻 129
練習 129
第6章 多元統計 133
6.1 描述均值差異的兩樣例t-檢驗
方法 133
6.2 判斷總體差異的兩樣例
Z-檢驗 134
6.3 比例均勻性的測試 135
6.4 多元數據擬合情況的
卡方檢驗 137
6.5 方差分析 138
R語言開發園地 141
R參考文獻 143
練習 143
第7章 數據建模準備 145
7.1 有監督學習與無監督學習 145
7.2 統計方法與數據挖掘方法 146
7.3 交叉驗證 146
7.4 過度擬合 147
7.5 偏差-方差權衡 148
7.6 平衡訓練數據集 150
7.7 建立基線性能 151
R語言開發園地 152
R參考文獻 153
練習 153
第8章 簡單線性回歸 155
8.1 簡單線性回歸示例 155
8.2 外推的危險 161
8.3 回歸有用嗎?系數的確定 162
8.4 估計標準誤差 166
8.5 相關系數r 167
8.6 簡單線性回歸的方差分析表 169
8.7 離群點、高杠桿率點與有影響
的觀察點 170
8.8 回歸方程概括 178
8.9 回歸假設驗證 179
8.10 回歸推理 184
8.11 x與y之間關系的t-檢驗 185
8.12 回歸直線斜率的置信區間 187
8.13 相關系數ρ的置信區間 188
8.14 給定均值的置信區間 190
8.15 給定隨機選擇值的預測區間 191
8.16 獲得線性特性的變換 194
8.17 博克斯-考克斯變換 199
R語言開發園地 199
R參考文獻 205
練習 205
第9章 多元回歸與模型構建 213
9.1 多元回歸示例 213
9.2 總體多元回歸方程 218
9.3 多元回歸推理 219
9.3.1 y與xi之間關系的t-檢驗 219
9.3.2 營養等級與含糖量之間關系
的t-檢驗 220
9.3.3 營養等級與纖維含量之間
關系的t-檢驗 220
9.3.4 總體回歸模型顯著性的
F-檢驗 221
9.3.5 營養等級與含糖量和纖維
含量之間關系的F-檢驗 222
9.3.6 特定系數βi的置信區間 223
9.3.7 (在給定x1,x2,…,xm的情況下)y
的均值的置信區間 223
9.3.8 (在給定x1,x2,…,xm的情況下
隨機選擇的y值的預測區間 223
9.4 利用指示變量的包含范疇型預測變量的回歸 224
9.5 調整R2:懲罰包含無用預測變量的模型 230
9.6 序列平方和 231
9.7 多重共線性 233
9.8 變量選擇方法 239
9.8.1 有偏F-檢驗 239
9.8.2 前向選擇過程 240
9.8.3 反向刪除過程 241
9.8.4 逐步選擇過程 241
9.8.5 子集過程 241
9.8.6 “所有可能子集”過程 242
9.9 油耗數據集 242
9.10 變量選擇方法的應用 243
9.10.1 應用于油耗數據集的前向
選擇過程 244
9.10.2 應用于油耗數據集的后向
刪除過程 245
9.10.3 應用于油耗數據集的逐步選擇過程 246
9.10.4 應用于油耗數據集的子集過程 246
9.10.5 Mallows’Cp統計量 247
9.11 將主成分作為預測變量進行
多元回歸 251
R語言開發園地 255
R參考文獻 265
練習 265
第Ⅲ部分 分類
第10章 K-最近鄰算法 273
10.1 分類任務 273
10.2 k-最近鄰算法 274
10.3 距離函數 276
10.4 組合函數 279
10.4.1 簡單權重投票方式 279
10.4.2 加權投票 279
10.5 量化屬性的相關性:軸伸縮 280
10.6 數據庫方面的考慮 281
10.7 將k-最近鄰算法用于評估和
預測 281
10.8 k值的選擇 282
10.9 利用IBM/SPSS建模工具應用
k-最近鄰算法 283
R語言開發園地 284
R參考文獻 286
練習 286
第11章 決策樹 289
11.1 決策樹是什么 289
11.2 使用決策樹的要求 291
11.3 分類與回歸樹 291
11.4 C4.5算法 297
11.5 決策規則 302
11.6 比較C5.0和CART算法應用
到實際的數據 303
R語言開發園地 306
R參考文獻 307
練習 308
第12章 神經元網絡 311
12.1 輸入和輸出編碼 312
12.2 神經元網絡用于評估和預測 313
12.3 神經元網絡的簡單示例 314
12.4 sigmoid激活函數 316
12.5 反向傳播 317
12.6 梯度下降法 317
12.7 反向傳播規則 318
12.8 反向傳播示例 319
12.9 終止條件 320
12.10 學習率 321
12.11 動量項 322
12.12 敏感性分析 323
12.13 神經元網絡建模應用 324
R語言開發園地 326
R參考文獻 328
練習 328
第13章 logistic回歸 331
13.1 logistic回歸簡單示例 331
13.2 較大似然估計 333
13.3 解釋logistic回歸的輸出 334
13.4 推理:這些預測有顯著性嗎 335
13.5 概率比比率與相對風險 337
13.6 對二分logistic回歸預測的
解釋 339
13.7 對應用于多元預測變量的
logistic回歸的解釋 342
13.8 對應用于連續型預測變量的
logistic回歸的解釋 346
13.9 線性假設 351
13.10 零單元問題 353
13.11 多元logistic回歸 355
13.12 引入高階項處理非線性 359
13.13 logistic回歸模型的驗證 366
13.14 WEKA:應用logistic回歸的
實踐分析 370
R語言開發園地 374
R參考文獻 380
練習 380
第14章 樸素貝葉斯與貝葉斯網絡 385
14.1 貝葉斯方法 385
14.2 較大后驗(MAP)分類 387
14.3 后驗概率比 391
14.4 數據平衡 393
14.5 樸素貝葉斯分類 394
14.6 解釋對數后驗概率比 397
14.7 零單元問題 398
14.8 樸素貝葉斯分類中的數值型
預測變量 399
14.9 WEKA:使用樸素貝葉斯開展
分析 402
14.10 貝葉斯信念網絡 406
14.11 衣物購買示例 407
14.12 利用貝葉斯網絡發現概率 409
R語言開發園地 413
R參考文獻 417
練習 417
第15章 模型評估技術 421
15.1 用于描述任務的模型評估
技術 421
15.2 用于評估和預測任務的模型
評估技術 422
15.3 用于分類任務的模型評估
方法 423
15.4 率和總誤差率 425
15.5 靈敏性和特效性 426
15.6 假正類率和假負類率 427
15.7 真正類、真負類、假正類、
假負類的比例 427
15.8 通過誤分類成本調整來反映
現實關注點 429
15.9 決策成本/效益分析 430
15.10 提升圖表和增益圖表 431
15.11 整合模型評估與模型建立 434
15.12 結果融合:應用一系列
模型 435
R語言開發園地 436
R參考文獻 436
練習 437
第16章 基于數據驅動成本的
成本-效益分析 439
16.1 在行調整條件下的決策
不變性 439
16.2 正分類標準 440
16.3 正分類標準的示范 442
16.4 構建成本矩陣 444
16.5 在縮放條件下的決策不變性 445
16.6 直接成本和機會成本 446
16.7 案例研究:基于數據驅動誤
分類成本的成本-效益分析 446
16.8 再平衡作為誤分類成本的
450
R語言開發園地 452
R參考文獻 455
練習 455
第17章 三元和k元分類模型的成本-
效益分析 459
17.1 三元目標的分類評估變量 459
17.2 三元分類評估度量在貸款審批問題中的應用 462
17.3 三元貸款分類問題的數據驅動成本-效益分析 466
17.4 比較使用/不使用數據驅動誤分類成本的CART模型 467
17.5 一般的k元目標的分類評估
度量 470
17.6 k元分類中評估度量和數據驅動誤分類成本的示例 472
R語言開發園地 474
R參考文獻 475
練習 475
第18章 分類模型的圖形化評估 477
18.1 回顧提升圖表和增益圖表 477
18.2 使用誤分類成本的提升圖表
和增益圖表 477
18.3 響應圖表 479
18.4 利潤圖表 479
18.5 投資回報(ROI)圖表 482
R語言開發園地 482
R參考文獻 484
練習 484
第Ⅳ部分 聚類
第19章 層次聚類和k-均值聚類 489
19.1 聚類任務 489
19.2 層次聚類方法 491
19.3 單一鏈聚類 492
19.4 鏈聚類 493
19.5 k-均值聚類 494
19.6 k-均值聚類實操示例 495
19.7 k-均值算法執行中MSB、MSE和偽-F的行為 498
19.8 SAS Enterprise Miner中k-均值算法的應用 499
19.9 使用簇成員關系來預測客戶
流失 501
R語言開發園地 502
R參考文獻 503
練習 504
第20章 Kohonen網絡 505
20.1 自組織映射 505
20.2 Kohonen網絡 507
20.3 Kohonen網絡學習示例 508
20.4 簇有效性 511
20.5 使用Kohonen網絡進行聚類
應用 511
20.6 解釋簇 512
20.7 將簇成員關系作為下游數據
挖掘模型的輸入 517
R語言開發園地 518
R參考文獻 520
練習 520
第21章 BIRCH聚類 521
21.1 BIRCH聚類的理論基礎 521
21.2 簇特征 522
21.3 簇特征樹 523
21.4 階段1:構建CF樹 523
21.5 階段2:聚類子簇 525
21.6 BIRCH聚類示例之階段1:
構建CF樹 525
21.7 BIRCH聚類示例之階段2:
聚類子簇 530
21.8 候選聚類解決方案的評估 530
21.9 案例研究:在銀行貸款數據集
上應用BIRCH聚類 531
21.9.1 案例研究第1課:對于
任意聚類算法避免高度
相關的輸
雙十一買的書,物流多少有點問題,不過可以理解
暴力快遞,很難受
這個商品很好
跟書本身沒有關系,快遞太差了。表現為以下幾點:1.還沒收到貨就顯示物流就顯示訂單已送達,當時一臉懵逼,既沒收到短信也沒有電話,覺得可能是別人拿錯了,中午問了客服,說貨沒有拿錯,明天就給送來,所以是為了顯示送貨速度快,在客戶沒簽收的情況下先確認送達了;2.后面催客服,既然已經送達就給我今天送來,客服說幫忙聯系,下午的時候快遞給我打電話,說上午的時候給我打電話了,我說手機上沒有未接來電啊,快遞員說當時提示沒人接聽,我仔細想了一下,上午我手機就放在辦公桌上,而且11點的時候外賣給我打了電話,所以他是為什么打不通而且可以沒有未接來電很…
好好好好好好好好好好好好好好好好好好................
還沒看,看了再說
還不錯還不錯,還沒看
還可以不錯
基本上數據挖掘的算法都有了,用了R語言來實現
很不錯 好
類目非常全 很不錯的書
很好,正版的。
活動很給力,幫朋友買的
內容不錯,學習一下大數據的實際案例。
幫別人買的書,一般我都挑著優惠一些的來買。
很不錯,就是,就是,有點厚啊,耐心啃吧
幫別人買的書。
不錯啊不錯不錯不錯啊不錯不錯不錯啊不錯不錯
不錯的話。
不錯不錯!
書名有點托大,內容上預測的東西沒那么多篇幅
基本上數據挖掘的算法都有了,用了R語言來實現
好端端的一本書給我摔成這樣!我買的是新書不是破書!