日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
數據分析技術(第2版) 使用SQL和Excel工具圖書
人氣:42

數據分析技術(第2版) 使用SQL和Excel工具

本書包含100多頁的全新內容,覆蓋了數據的不同方面,同時包含了SQL和Excel支持的重要的數據分析技術。為完整地探索數據值,需要將數據轉化為故事和情景、圖表、數據指標和透視圖。

內容簡介

SQL是數據查詢的基本語言,Excel是數據分析和展示的常見工具。兩者結合,可以組成一個強大且易于理解的業務數據分析工具。很多類重要的數據分析并不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的專家。書中介紹了如何使用SQL和Excel來設計并完成復雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋了對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的信息。本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用于理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel后,本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖表中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用于分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的實踐、提高查詢性能的方法等。

編輯推薦

本書的14章可以分為4部分。前3章介紹SQL、Excel和統計學的核心概念。中間7章討論特別適合使用SQL和Excel的數據探索和數據分析技術。在后續的3章中,從統計學和數據挖掘的角度,介紹了關于建模的更正式的思想。后,新增的第14章討論編寫SQL查詢時的性能問題。每一章都通過不同的視角,介紹使用SQL和Excel做數據分析的方方面面,包括:● 使用數據分析的基礎示例● 分析師需要回答的問題● 詳解數據分析技術的工作原理● 實現技術的SQL語法● 以表格或圖表展示結果,以及如何在Excel中創建它們

作者簡介

Gordon S. Linoff從事數據庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫及時個側重于復雜查詢的高性能數據庫,用于支持決策分析。此后,Gordon在1998年合作創建了Data Miners公司,這是一家致力于數據挖掘、分析和大數據的咨詢公司。在他的工作生涯中,數據仍然是永恒的主題——而且通常是存儲于關系型數據庫中的數據。他對SQL的理解和應用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的最多貢獻者,Stack Overflow是行業內經驗豐富的技術問答網站。Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——應用于市場營銷、銷售與客戶關系管理》、Mastering Data Mining和Mining the Web——這些書籍都側重于數據挖掘和數據分析。本書延續廣受好評的第1版,側重于如何實際地獲取和解釋數據結果,更具有實踐性。

目錄

第1章 數據挖掘者眼中的SQL 1

1.1 數據庫、SQL和大數據 2

1.1.1 什么是大數據? 2

1.1.2 關系型數據庫 3

1.1.3 Hadoop和Hive 3

1.1.4 NoSQL和其他類型的數據庫 3

1.1.5 SQL 4

1.2 繪制數據結構 4

1.2.1 什么是數據模型? 5

1.2.2 什么是表? 5

1.2.3 什么是實體-關系圖表? 8

1.2.4 郵政編碼表 9

1.2.5 訂閱數據集 10

1.2.6 訂單數據集 11

1.2.7 關于命名的提示 12

1.3 使用數據流描述數據分析 12

1.3.1 什么是數據流? 13

1.3.2 數據流、SQL和關系代數 16

1.4 SQL查詢 16

1.4.1 做什么,而不是怎么去做 16

1.4.2 SELECT語句 17

1.4.3 一個基礎的SQL查詢 17

1.4.4 一個基本的SQL求和查詢 19

1.4.5 聯接表的意義 20

1.4.6 SQL的其他重要功能 26

1.5 子查詢和公用表表達式 29

1.5.1 用于命名變量的子查詢 29

1.5.2 處理統計信息的子查詢 32

1.5.3 子查詢和IN 33

1.5.4 用于UNION ALL的子查詢 37

1.6 小結 38

第2章 表中有什么?開始數據探索 39

2.1 什么是數據探索? 40

2.2 Excel中的繪圖 40

2.2.1 基礎圖表:柱形圖 41

2.2.2 單元格中的條形圖 45

2.2.3 柱形圖的有用變化形式 47

2.2.4 其他類型的圖表 50

2.3 迷你圖 53

2.4 列中包含的值 55

2.4.1 直方圖 55

2.4.2 計數的直方圖 58

2.4.3 計數的累積直方圖 60

2.4.4 數字值的直方圖(頻率) 60

2.5 探索更多的值——最小值、較大

值和模式 64

2.5.1 最小值和較大值 64

2.5.2 最常見的值(模式) 65

2.6 探索字符串值 66

2.6.1 長度的直方圖 66

2.6.2 起始或結尾包含空白字符

的字符串 66

2.6.3 處理大小寫問題 67

2.6.4 字符串中存儲的字符是

什么? 67

2.7 探索兩個列中的值 69

2.7.1 每個州的平均銷售額

是多少? 70

2.7.2 在一個單獨的訂單中,產品重復

出現的頻率是多少? 70

2.7.3 哪個州的American Express

用戶最多? 73

2.8 由一個列的數據擴展到所有列

的數據匯總 73

2.8.1 針對單列的匯總 74

2.8.2 返回表中所有列的查詢 76

2.8.3 使用SQL生成匯總編碼 76

2.9 小結 78

第3章 不同之處是如何不同? 79

3.1 基本的統計學概念 80

3.1.1 虛擬假設 80

3.1.2 可信度和概率 81

3.1.3 正態分布 82

3.2 平均值的區別有多大? 85

3.2.1 方法 85

3.2.2 子集平均值的標準差 85

3.2.3 三個方法 87

3.3 對表做抽樣 89

3.3.1 隨機抽樣 89

3.3.2 可重復的隨機樣本 90

3.3.3 分層比例抽樣 91

3.3.4 平衡的樣本 92

3.4 計數的可能性 93

3.4.1 有多少男性成員? 96

3.4.2 有多少加利福尼亞人? 98

3.4.3 虛擬假設和可信度 99

3.4.4 有多少客戶仍然是活躍

客戶? 100

3.4.5 比率或數字? 103

3.5 概率和它們的統計 104

3.5.1 概率的標準差 104

3.5.2 概率的置信區間 105

3.5.3 概率的不同 106

3.5.4 保守的下限值 107

3.6 卡方檢驗 107

3.6.1 期望值 108

3.6.2 卡方計算 108

3.6.3 卡方分布 109

3.6.4 SQL中的卡方檢驗 111

3.6.5 州和產品之間的特殊關系 112

3.7 月份和支付類型與不同產品

類型的特殊關系 114

3.7.1 多維卡方 114

3.7.2 使用SQL查詢 115

3.7.3 結果 115

3.8 小結 116

第4章 發生的地點在何處? 119

4.1 緯度和經度 120

4.1.1 緯度和經度的定義 120

4.1.2 度數、分鐘和秒 121

4.1.3 兩個位置之間的距離 122

4.1.4 包含郵政編碼的圖片 128

4.2 人口統計 131

4.2.1 極端情況:最富有的和最貧

窮的人 132

4.2.2 分別在使用訂單和不使用訂

單的情況下比較郵政編碼 137

4.3 地理等級 142

4.3.1 州中最富有的郵政編碼 142

4.3.2 州中擁有最多訂單的郵政

編碼 143

4.3.3 地理數據中有趣的層級

結構 145

4.3.4 計算郡的財富 148

4.3.5 財富值的分布 150

4.3.6 在郡中,哪個郵政編碼是相對

最富有的? 151

4.3.7 擁有較高的相對訂單占有

份額的郡 152

4.4 在Excel中繪制地圖 155

4.4.1 為什么繪制地圖? 155

4.4.2 不能繪圖 156

4.4.3 網絡地圖 156

4.4.4 郵政編碼散點圖之上的州

邊界 157

4.5 小結 159

第5章 關于時間 161

5.1 數據庫中的日期和時間 162

5.2 開始調研日期 166

5.2.1 確認日期中沒有時間 166

5.2.2 根據日期比較計數 167

5.2.3 訂單數和訂單大小 172

5.2.4 星期 175

5.3 兩個日期之間有多長? 178

5.3.1 以天為單位的持續時間 178

5.3.2 以星期為單位的持續時間 180

5.3.3 以月為單位的持續時間 180

5.3.4 有多少個星期一? 181

5.3.5 下一個周年紀念日(或生日

是什么時候? 184

5.4 跨年比較 188

5.4.1 以天為單位比較 188

5.4.2 以星期為單位比較 189

5.4.3 以月為單位比較 190

5.5 以天計算活躍客戶數量 196

5.5.1 某天的活躍客戶數量 196

5.5.2 每天的活躍客戶數量 196

5.5.3 有多少不同類型的客戶? 198

5.5.4 不同任期時段的客戶數量 198

5.5.5 只使用SQL計算活躍客戶 201

5.6 Excel中的簡單圖表動畫 203

5.6.1 從訂單生成日期到運貨

日期 203

5.6.2 訂單延時在每年中的變化 205

5.7 小結 208

第6章 客戶的持續時間有多久?使用

生存分析理解客戶和他們的

價值 209

6.1 生存分析 210

6.1.1 平均壽命 211

6.1.2 醫學研究 212

6.1.3 關于風險率的示例 212

6.2 風險計算 213

6.2.1 數據調研 214

6.2.2 風險率 216

6.2.3 客戶可視化:時間與任期 217

6.2.4 截尾 219

6.3 生存率和保留率 220

6.3.1 生存率的點的估計 220

6.3.2 計算任意任期的生存率 221

6.3.3 在SQL中計算生存率 222

6.3.4 簡單的客戶保留率計算 225

6.3.5 保留率和生存率的區別 226

6.3.6 風險率和生存率的簡單

示例 227

6.4 對比不同的客戶分組 230

6.4.1 市場總結 230

6.4.2 市場分層 231

6.4.3 生存率比例 234

6.4.4 條件生存率 234

6.5 隨時間變化的生存率 236

6.5.1 特定風險率隨時間的變化 236

6.5.2 按照起始年份分類的客戶

生存率 238

6.5.3 之前的生存率什么樣? 239

6.6 由生存率衍生出來的重要

指標 241

6.6.1 估算生存點 241

6.6.2 客戶任期的中間值 242

6.6.3 客戶生命周期的中間值 242

6.6.4 風險率的置信度 243

6.7 使用生存率計算客戶價值 245

6.7.1 估算收入 246

6.7.2 對個體的未來收入的估算 247

6.7.3 當前客戶分組的收入估算 249

6.7.4 所有客戶未來收入的估算 251

6.8 預測 253

6.8.1 對已有客戶的預測 254

6.8.2 對新開始者的預測 258

6.9 小結 259

第7章 影響生存率的因素:客戶

任期 261

7.1 哪些因素是重要的,何時

重要? 262

7.1.1 方法說明 262

7.1.2 使用平均值比較數字因素 264

7.1.3 風險比例 268

7.2 左截斷 271

7.2.1 認識左截斷 271

7.2.2 左截斷的影響 273

7.2.3 如何從理論上解決左截斷

問題 274

7.2.4 估算一個任期的風險率 275

7.2.5 估算所有任期的風險率 276

7.2.6 在SQL中計算 277

7.3 時間窗 278

7.3.1 一個商業問題 278

7.3.2 時間窗=左截斷 右截尾 278

7.4 競爭風險 283

7.4.1 競爭風險的示例 283

7.4.2 競爭風險的“風險率” 284

7.4.3 競爭風險的“生存率” 286

7.4.4 隨著時間的變化,客戶身上

發生了什么? 287

7.5 事件前后 291

7.5.1 三種情況 291

7.5.2 使用生存率預測來理解一次

性事件 293

7.5.3 比較前后風險率 294

7.5.4 基于對列的方法 294

7.5.5 基于對列的方法:隊列 295

7.5.6 事件影響的直接估計 297

7.6 小結 301

第8章 多次購買以及其他重復事件 303

8.1 標識客戶 304

8.1.1 誰是那個客戶? 304

8.1.2 其他客戶信息 313

8.1.3 每一年出現多少新客戶? 316

8.2 RFM分析 325

8.2.1 維度 325

8.2.2 計算RFM單元格 329

8.2.3 RFM的有用程度 330

8.3 隨著時間的變化,哪些家庭的

購買金額在增長? 334

8.3.1 最早值和最晚值的比較 334

8.3.2 及時年和一年的值的

比較 341

8.3.3 擬合線的趨勢 343

8.4 距離下一次事件的時間 344

8.4.1 計算背后的想法 344

8.4.2 使用SQL計算下一次購買

日期 345

8.4.3 從下一次購買日期到時間至

事件的分析 346

8.4.4 時間到事件分析的分層 347

8.5 小結 347

第9章 購物車里有什么?購物車

分析 349

9.1 探索產品 349

9.1.1 產品的散點圖 350

9.1.2 產品組的運輸年份 351

9.1.3 訂單中的重復產品 353

9.1.4 單位數量的直方圖 358

9.1.5 在一個訂單中,哪個產品可能

出現多次購買的情況? 359

9.1.6 改變價格 361

9.2 產品和客戶價值 362

9.2.1 訂單大小的一致性 362

9.2.2 與一次性客戶關聯的產品 365

9.2.3 與好的客戶相關的產品 368

9.2.4 剩余價值 370

9.3 產品的地理分布 372

9.3.1 每一個州中最常見的產品 372

9.3.2 哪些產品廣受歡迎,哪些產品

只在本地受歡迎? 373

9.4 哪些客戶購買了指定產品? 375

9.4.1 哪些客戶擁有受歡迎的

產品? 375

9.4.2 客戶擁有哪個產品? 376

9.4.3 哪些客戶有3個特定的

產品? 381

9.4.4 普遍的嵌套集合的查詢 384

9.5 小結 385

第10章 關聯規則 387

10.1 項集 388

10.1.1 兩個產品的組合 388

10.1.2 更常見的項集 391

10.1.3 家庭,而不是訂單 396

10.2 最簡單的關聯規則 399

10.2.1 關聯和規則 400

10.2.2 零項關聯規則 400

10.2.3 概率的分布情況 401

10.2.4 零項關聯告訴了我們

什么? 402

10.3 單項關聯規則 402

10.3.1 單項關聯規則的價值 402

10.3.2 生成所有的單項規則 404

10.3.3 包含評估信息的單項

規則 405

10.3.4 基于產品組的單項規則 406

10.4 雙項關聯 407

10.4.1 計算雙項關聯 408

10.4.2 使用卡方找到規則 409

10.4.3 異質相關 413

10.5 擴展關聯規則 416

10.5.1 多項關聯 416

10.5.2 一個查詢中的多項關聯 418

10.5.3 使用產品屬性的規則 418

10.5.4 左右兩側項集內容不同

的規則 419

10.5.5 之前和之后:有序關聯

規則 419

10.6 小結 422

第11章 SQL數據挖掘模型 423

11.1 定向數據挖掘介紹 424

11.1.1 定向模型 424

11.1.2 建模中的數據 425

11.1.3 建模應用示例 427

11.1.4 模型評估 429

11.2 相似性模型 429

11.2.1 模型是什么? 430

11.2.2 好的郵政編碼是

哪個? 430

11.2.3 基礎的相似性模型 431

11.2.4 使用Z分數計算相似性

模型 433

11.2.5 鄰近模型示例 434

11.3 受歡迎產品的查找模型 435

11.3.1 受歡迎的產品 435

11.3.2 計算受歡迎的產品組 436

11.3.3 評估查找模型 437

11.3.4 使用調試查找模型做

預測 437

11.3.5 使用二元分類 439

11.4 用于訂單大小的查找模型 440

11.4.1 最基本的模型:無維度

模型 440

11.4.2 添加一個維度 441

11.4.3 添加額外的維度 443

11.4.4 檢查不穩定性 443

11.4.5 使用平均值圖表評估

模型 444

11.5 用于響應率的查找模型 445

11.5.1 將整體概率作為一個

模型 445

11.5.2 探索不同的維度 446

11.5.3 模型的精

網友評論(不代表本站觀點)

來自***(匿**的評論:

好大一本,老師推薦的。有空再看。。

2017-04-27 14:57:56
來自m***1(**的評論:

非常滿意,很喜歡

2017-05-26 19:19:37
來自痛***水**的評論:

這本書是“一瓢之飲”的一篇日志里提到的,合我胃口。因為那篇日志我認識了一個有意思的人,也讀了這本有意思的書。從和隔街的好友深夜交流到構建一臺計算機,作者完成奇妙的轉換。深入淺出、鞭辟入里。完全不需要任何先驗知識,只要是人就能讀懂,就能理解計算機的構成。這本書大段的文字描述了淺顯的知識,隨著基礎知識的不斷增加,有“難度的”知識越來越快地呈現。不過這一切在作者妙筆生花下,顯得格外自然。好書。

2017-06-08 19:18:35
來自匿名用**的評論:

不錯,正版書!很有用!

2017-06-13 15:17:14
來自匿名用**的評論:

不錯的書籍,希望能好好學習一下,感謝當當?。。。?!

2017-06-18 10:07:26
來自匿名用**的評論:

這本書,拿到手就壞了,質量不好,,但我趕著看,如果不是趕,我肯定換。再加上,當當居然不支持投訴,我沒其他書的時候,去投訴,客服居然說不能投訴,你牛逼了,這次以后,我決定再也不來當當了。。你牛逼你最大,祝你早日倒閉,謝謝。

2017-08-22 17:12:17
來自無昵稱**的評論:

能不能不寫字能不能不寫字能不能不寫字

2017-08-22 18:19:45
來自matao_b**的評論:

提高自己辦公技能的參考書。

2017-10-02 09:56:37
來自xinqing**的評論:

數據分析技術(第2版) 使用SQL和Excel工具 質量不錯,文字清晰

2017-10-13 19:23:51
來自機器丶**的評論:

好用的工具書!

2017-10-23 09:40:28
來自無昵稱**的評論:

速度快,很實用

2017-10-24 20:13:27
來自無昵稱**的評論:

不錯不錯!

2017-10-31 11:38:55
來自無昵稱**的評論:

不錯,值得買!

2017-10-31 18:51:42

免責聲明

更多出版社