日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
數據挖掘與預測分析(第2版)圖書
人氣:35

數據挖掘與預測分析(第2版)

由數據挖掘專家執筆,提供了從數據準備到探索新數據分析、數據建模及模型評估等整個數據分析過程的內容
  • 所屬分類:圖書 >計算機/網絡>數據庫>數據倉庫與數據挖掘  
  • 作者:[美][Daniel] T. [Larose],[Chantal] D. [Larose] 著 [王念濱] [宋敏] [裴大茗] 譯
  • 產品參數:
  • 叢書名:大數據應用與技術叢書
  • 國際刊號:9787302459873
  • 出版社:清華大學出版社
  • 出版時間:2017-02
  • 印刷時間:2017-02-08
  • 版次:1
  • 開本:16開
  • 頁數:--
  • 紙張:膠版紙
  • 包裝:平裝-膠訂
  • 套裝:

內容簡介

通過做數據分析學習數據分析 《數據挖掘與預測分析(第2版)》提供了從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容?!稊祿诰蚺c預測分析(第2版)》不僅提供了理解軟件底層算法的“白盒”方法,而且提供了能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的應用方法。 第2版的新內容: ● 添加了500多頁的新內容,包括20個新章節,例如,數據建模準備、成本-效益分析、缺失數據填充、聚類優劣度量以及細分模型等。 ● 針對前沿主題的新章節,例如,多元分類模型、BIRCH聚類、集成學習(bagging及boosting)、模型投票與趨向平均等。 ● 每章節后均附有R語言開發園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、表和結果。 ● 書中的附錄為那些對統計基礎生疏的讀者提供了了解基本概念的材料。 ● 超過750個章節練習,使讀者能夠自己測試對所學知識的掌握程度,并著手開展數據挖掘與預測分析工作。 《數據挖掘與預測分析(第2版)》將對數據分析人員、數據庫分析人員以及CIO具有極大的吸引力,通過學習將使他們知道何種類型的分析將會增加其投資回報。

編輯推薦

本書提出的方法和技術、深入,幾乎涵蓋了當前應用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的章節中增加了R語言開發園地,幫助讀者利用R語言開展實際設計和開發工作,獲得章節中涉及內容的結果,便于讀者掌握所學內容。

作者簡介

Daniel T. Larose博士,美國中康涅狄格州立大學數學科學教授,數據挖掘項目負責人。出版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜志以及《經濟學人》雜志等數據挖掘與統計分析領域的顧問。Chantal D. Larose是美國康涅狄格大學的在讀博士。其研究領域包括缺失數據填補以及基于模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。

目錄

第Ⅰ部分 數據準備

第1章 數據挖掘與預測分析概述 3

1.1 什么是數據挖掘和預測分析 3

1.2 需求:數據挖掘技術人員 4

1.3 數據挖掘離不開人的參與 5

1.4 跨行業數據挖掘標準過程:

CRISP-DM 6

1.5 數據挖掘的謬誤 8

1.6 數據挖掘能夠完成的任務 9

1.6.1 描述 9

1.6.2 評估 10

1.6.3 預測 11

1.6.4 分類 11

1.6.5 聚類 13

1.6.6 關聯 14

R語言開發園地 15

R參考文獻 16

練習 16

第2章 數據預處理 17

2.1 需要預處理數據的原因 17

2.2 數據清理 18

2.3 處理缺失數據 19

2.4 識別錯誤分類 22

2.5 識別離群值的圖形方法 22

2.6 中心和散布度量 24

2.7 數據變換 26

2.8 min-max規范化 26

2.9 Z-score標準化 27

2.10 小數定標規范化 28

2.11 變換為正態數據 28

2.12 識別離群值的數值方法 34

2.13 標志變量 35

2.14 將分類變量轉換為數值變量 35

2.15 數值變量分箱 36

2.16 對分類變量重新劃分類別 37

2.17 添加索引字段 37

2.18 刪除無用變量 38

2.19 可能不應該刪除的變量 38

2.20 刪除重復記錄 39

2.21 ID字段簡述 39

R語言開發園地 39

R參考文獻 45

練習 45

第3章 探索性數據分析 49

3.1 假設檢驗與探索性數據分析 49

3.2 了解數據集 49

3.3 探索分類變量 52

3.4 探索數值變量 58

3.5 探索多元關系 62

3.6 選擇感興趣的數據子集作進一步研究 64

3.7 使用EDA發現異常字段 64

3.8 基于預測值分級 65

3.9 派生新變量:標志變量 67

3.10 派生新變量:數值變量 69

3.11 使用EDA探測相關聯的預測

變量 70

3.12 EDA概述 73

R語言開發園地 73

R參考文獻 80

練習 80

第4章 降維方法 83

4.1 數據挖掘中降維的必要性 83

4.2 主成分分析 84

4.3 將主成分分析應用于房屋

數據集 87

4.4 應提取多少個主成分 91

4.4.1 特征值標準 91

4.4.2 解釋變異的比例標準 92

4.4.3 最小共性標準 92

4.4.4 坡度圖標準 92

4.5 主成分描述 94

4.6 共性 96

4.7 主成分驗證 97

4.8 因子分析法 98

4.9 因子分析法在成年人數據集中的

應用 99

4.10 因子旋轉 101

4.11 用戶自定義合成 104

4.12 用戶自定義合成的示例 105

R語言開發園地 106

R參考文獻 110

練習 111

第Ⅱ部分 統計分析

第5章 單變量統計分析 117

5.1 數據知識發現中的數據挖掘

任務 117

5.2 用于估計和預測的統計方法 117

5.3 統計推理 118

5.4 我們對評估的確信程度如何 119

5.5 均值的置信區間估計 120

5.6 如何減少誤差范圍 121

5.7 比例的置信區間估計 122

5.8 均值的假設檢驗 123

5.9 拒絕零假設的證據力度的

評估 125

5.10 使用置信區間執行假設檢驗 126

5.11 比例的假設檢驗 127

R語言開發園地 128

R參考文獻 129

練習 129

第6章 多元統計 133

6.1 描述均值差異的兩樣例t-檢驗

方法 133

6.2 判斷總體差異的兩樣例

Z-檢驗 134

6.3 比例均勻性的測試 135

6.4 多元數據擬合情況的

卡方檢驗 137

6.5 方差分析 138

R語言開發園地 141

R參考文獻 143

練習 143

第7章 數據建模準備 145

7.1 有監督學習與無監督學習 145

7.2 統計方法與數據挖掘方法 146

7.3 交叉驗證 146

7.4 過度擬合 147

7.5 偏差-方差權衡 148

7.6 平衡訓練數據集 150

7.7 建立基線性能 151

R語言開發園地 152

R參考文獻 153

練習 153

第8章 簡單線性回歸 155

8.1 簡單線性回歸示例 155

8.2 外推的危險 161

8.3 回歸有用嗎?系數的確定 162

8.4 估計標準誤差 166

8.5 相關系數r 167

8.6 簡單線性回歸的方差分析表 169

8.7 離群點、高杠桿率點與有影響

的觀察點 170

8.8 回歸方程概括 178

8.9 回歸假設驗證 179

8.10 回歸推理 184

8.11 x與y之間關系的t-檢驗 185

8.12 回歸直線斜率的置信區間 187

8.13 相關系數ρ的置信區間 188

8.14 給定均值的置信區間 190

8.15 給定隨機選擇值的預測區間 191

8.16 獲得線性特性的變換 194

8.17 博克斯-考克斯變換 199

R語言開發園地 199

R參考文獻 205

練習 205

第9章 多元回歸與模型構建 213

9.1 多元回歸示例 213

9.2 總體多元回歸方程 218

9.3 多元回歸推理 219

9.3.1 y與xi之間關系的t-檢驗 219

9.3.2 營養等級與含糖量之間關系

的t-檢驗 220

9.3.3 營養等級與纖維含量之間

關系的t-檢驗 220

9.3.4 總體回歸模型顯著性的

F-檢驗 221

9.3.5 營養等級與含糖量和纖維

含量之間關系的F-檢驗 222

9.3.6 特定系數βi的置信區間 223

9.3.7 (在給定x1,x2,…,xm的情況下)y

的均值的置信區間 223

9.3.8 (在給定x1,x2,…,xm的情況下

隨機選擇的y值的預測區間 223

9.4 利用指示變量的包含范疇型預測變量的回歸 224

9.5 調整R2:懲罰包含無用預測變量的模型 230

9.6 序列平方和 231

9.7 多重共線性 233

9.8 變量選擇方法 239

9.8.1 有偏F-檢驗 239

9.8.2 前向選擇過程 240

9.8.3 反向刪除過程 241

9.8.4 逐步選擇過程 241

9.8.5 子集過程 241

9.8.6 “所有可能子集”過程 242

9.9 油耗數據集 242

9.10 變量選擇方法的應用 243

9.10.1 應用于油耗數據集的前向

選擇過程 244

9.10.2 應用于油耗數據集的后向

刪除過程 245

9.10.3 應用于油耗數據集的逐步選擇過程 246

9.10.4 應用于油耗數據集的子集過程 246

9.10.5 Mallows’Cp統計量 247

9.11 將主成分作為預測變量進行

多元回歸 251

R語言開發園地 255

R參考文獻 265

練習 265

第Ⅲ部分 分類

第10章 K-最近鄰算法 273

10.1 分類任務 273

10.2 k-最近鄰算法 274

10.3 距離函數 276

10.4 組合函數 279

10.4.1 簡單權重投票方式 279

10.4.2 加權投票 279

10.5 量化屬性的相關性:軸伸縮 280

10.6 數據庫方面的考慮 281

10.7 將k-最近鄰算法用于評估和

預測 281

10.8 k值的選擇 282

10.9 利用IBM/SPSS建模工具應用

k-最近鄰算法 283

R語言開發園地 284

R參考文獻 286

練習 286

第11章 決策樹 289

11.1 決策樹是什么 289

11.2 使用決策樹的要求 291

11.3 分類與回歸樹 291

11.4 C4.5算法 297

11.5 決策規則 302

11.6 比較C5.0和CART算法應用

到實際的數據 303

R語言開發園地 306

R參考文獻 307

練習 308

第12章 神經元網絡 311

12.1 輸入和輸出編碼 312

12.2 神經元網絡用于評估和預測 313

12.3 神經元網絡的簡單示例 314

12.4 sigmoid激活函數 316

12.5 反向傳播 317

12.6 梯度下降法 317

12.7 反向傳播規則 318

12.8 反向傳播示例 319

12.9 終止條件 320

12.10 學習率 321

12.11 動量項 322

12.12 敏感性分析 323

12.13 神經元網絡建模應用 324

R語言開發園地 326

R參考文獻 328

練習 328

第13章 logistic回歸 331

13.1 logistic回歸簡單示例 331

13.2 較大似然估計 333

13.3 解釋logistic回歸的輸出 334

13.4 推理:這些預測有顯著性嗎 335

13.5 概率比比率與相對風險 337

13.6 對二分logistic回歸預測的

解釋 339

13.7 對應用于多元預測變量的

logistic回歸的解釋 342

13.8 對應用于連續型預測變量的

logistic回歸的解釋 346

13.9 線性假設 351

13.10 零單元問題 353

13.11 多元logistic回歸 355

13.12 引入高階項處理非線性 359

13.13 logistic回歸模型的驗證 366

13.14 WEKA:應用logistic回歸的

實踐分析 370

R語言開發園地 374

R參考文獻 380

練習 380

第14章 樸素貝葉斯與貝葉斯網絡 385

14.1 貝葉斯方法 385

14.2 較大后驗(MAP)分類 387

14.3 后驗概率比 391

14.4 數據平衡 393

14.5 樸素貝葉斯分類 394

14.6 解釋對數后驗概率比 397

14.7 零單元問題 398

14.8 樸素貝葉斯分類中的數值型

預測變量 399

14.9 WEKA:使用樸素貝葉斯開展

分析 402

14.10 貝葉斯信念網絡 406

14.11 衣物購買示例 407

14.12 利用貝葉斯網絡發現概率 409

R語言開發園地 413

R參考文獻 417

練習 417

第15章 模型評估技術 421

15.1 用于描述任務的模型評估

技術 421

15.2 用于評估和預測任務的模型

評估技術 422

15.3 用于分類任務的模型評估

方法 423

15.4 率和總誤差率 425

15.5 靈敏性和特效性 426

15.6 假正類率和假負類率 427

15.7 真正類、真負類、假正類、

假負類的比例 427

15.8 通過誤分類成本調整來反映

現實關注點 429

15.9 決策成本/效益分析 430

15.10 提升圖表和增益圖表 431

15.11 整合模型評估與模型建立 434

15.12 結果融合:應用一系列

模型 435

R語言開發園地 436

R參考文獻 436

練習 437

第16章 基于數據驅動成本的

成本-效益分析 439

16.1 在行調整條件下的決策

不變性 439

16.2 正分類標準 440

16.3 正分類標準的示范 442

16.4 構建成本矩陣 444

16.5 在縮放條件下的決策不變性 445

16.6 直接成本和機會成本 446

16.7 案例研究:基于數據驅動誤

分類成本的成本-效益分析 446

16.8 再平衡作為誤分類成本的

450

R語言開發園地 452

R參考文獻 455

練習 455

第17章 三元和k元分類模型的成本-

效益分析 459

17.1 三元目標的分類評估變量 459

17.2 三元分類評估度量在貸款審批問題中的應用 462

17.3 三元貸款分類問題的數據驅動成本-效益分析 466

17.4 比較使用/不使用數據驅動誤分類成本的CART模型 467

17.5 一般的k元目標的分類評估

度量 470

17.6 k元分類中評估度量和數據驅動誤分類成本的示例 472

R語言開發園地 474

R參考文獻 475

練習 475

第18章 分類模型的圖形化評估 477

18.1 回顧提升圖表和增益圖表 477

18.2 使用誤分類成本的提升圖表

和增益圖表 477

18.3 響應圖表 479

18.4 利潤圖表 479

18.5 投資回報(ROI)圖表 482

R語言開發園地 482

R參考文獻 484

練習 484

第Ⅳ部分 聚類

第19章 層次聚類和k-均值聚類 489

19.1 聚類任務 489

19.2 層次聚類方法 491

19.3 單一鏈聚類 492

19.4 鏈聚類 493

19.5 k-均值聚類 494

19.6 k-均值聚類實操示例 495

19.7 k-均值算法執行中MSB、MSE和偽-F的行為 498

19.8 SAS Enterprise Miner中k-均值算法的應用 499

19.9 使用簇成員關系來預測客戶

流失 501

R語言開發園地 502

R參考文獻 503

練習 504

第20章 Kohonen網絡 505

20.1 自組織映射 505

20.2 Kohonen網絡 507

20.3 Kohonen網絡學習示例 508

20.4 簇有效性 511

20.5 使用Kohonen網絡進行聚類

應用 511

20.6 解釋簇 512

20.7 將簇成員關系作為下游數據

挖掘模型的輸入 517

R語言開發園地 518

R參考文獻 520

練習 520

第21章 BIRCH聚類 521

21.1 BIRCH聚類的理論基礎 521

21.2 簇特征 522

21.3 簇特征樹 523

21.4 階段1:構建CF樹 523

21.5 階段2:聚類子簇 525

21.6 BIRCH聚類示例之階段1:

構建CF樹 525

21.7 BIRCH聚類示例之階段2:

聚類子簇 530

21.8 候選聚類解決方案的評估 530

21.9 案例研究:在銀行貸款數據集

上應用BIRCH聚類 531

21.9.1 案例研究第1課:對于

任意聚類算法避免高度

相關的輸

網友評論(不代表本站觀點)

來自chenche**的評論:

雙十一買的書,物流多少有點問題,不過可以理解

2017-11-26 22:49:52
來自匿名用**的評論:

暴力快遞,很難受

2017-07-09 21:02:33
來自l***5(**的評論:

這個商品很好

2017-03-16 17:43:26
來自匿名用**的評論:

跟書本身沒有關系,快遞太差了。表現為以下幾點:1.還沒收到貨就顯示物流就顯示訂單已送達,當時一臉懵逼,既沒收到短信也沒有電話,覺得可能是別人拿錯了,中午問了客服,說貨沒有拿錯,明天就給送來,所以是為了顯示送貨速度快,在客戶沒簽收的情況下先確認送達了;2.后面催客服,既然已經送達就給我今天送來,客服說幫忙聯系,下午的時候快遞給我打電話,說上午的時候給我打電話了,我說手機上沒有未接來電啊,快遞員說當時提示沒人接聽,我仔細想了一下,上午我手機就放在辦公桌上,而且11點的時候外賣給我打了電話,所以他是為什么打不通而且可以沒有未接來電很…

2017-06-02 18:12:50
來自匿名用**的評論:

好好好好好好好好好好好好好好好好好好................

2017-06-03 12:01:38
來自匿名用**的評論:

還沒看,看了再說

2017-06-13 09:32:56
來自匿名用**的評論:

還不錯還不錯,還沒看

2017-06-14 09:16:31
來自匿名用**的評論:

還可以不錯

2017-06-17 09:19:57
來自m***k(**的評論:

基本上數據挖掘的算法都有了,用了R語言來實現

2017-07-03 21:23:52
來自匿名用**的評論:

很不錯 好

2017-07-21 14:37:11
來自無昵稱**的評論:

類目非常全 很不錯的書

2017-07-24 12:44:43
來自l***0(**的評論:

很好,正版的。

2017-07-25 06:36:36
來自匿名用**的評論:

活動很給力,幫朋友買的

2017-08-02 10:57:22
來自binstar**的評論:

內容不錯,學習一下大數據的實際案例。

2017-08-04 06:35:44
來自匿名用**的評論:

幫別人買的書,一般我都挑著優惠一些的來買。

2017-08-17 14:30:17
來自身體與**的評論:

很不錯,就是,就是,有點厚啊,耐心啃吧

2017-08-25 20:59:59
來自匿名用**的評論:

幫別人買的書。

2017-09-01 17:20:21
來自無昵稱**的評論:

不錯啊不錯不錯不錯啊不錯不錯不錯啊不錯不錯

2017-10-12 12:14:05
來自無昵稱**的評論:

不錯的話。

2017-10-17 07:06:05
來自無昵稱**的評論:

不錯不錯!

2017-10-31 11:38:27
來自匿名用**的評論:

書名有點托大,內容上預測的東西沒那么多篇幅

2017-09-08 20:27:54
來自匿名用**的評論:

基本上數據挖掘的算法都有了,用了R語言來實現

2017-06-16 23:15:03
來自金融碼**的評論:

數據挖掘與預測分析(第2版) 好端端的一本書給我摔成這樣!我買的是新書不是破書!

2017-08-10 12:11:45

免責聲明

更多出版社