本書脫胎于哥倫比亞大學"數據科學導論"課程的教學講義,它界定了數據科學的研究范疇,是一本注重人文精神,多角度、多方位、深入介紹數據科學的實用指南,堪稱大數據時代的實戰寶典。本書旨在讓讀者能夠舉一反三地解決重要問題,內容包括:數據科學及工作流程、統計模型與機器學習算法、信息提取與統計變量創建、數據可視化與社交網絡、預測模型與因果分析、數據預處理與工程方法。另外,本書還將帶領讀者展望數據科學未來的發展。
作者介紹
關于封面圖
前
第1章簡介:什么是數據科學
1.1大數據和數據科學的喧囂
1.2沖出迷霧
1.3為什么是現在
1.4數據科學的現狀和歷史
1.5數據科學的知識結構
1.6思維實驗:元定義
1.7什么是數據科學家
1.7.1學術界對數據科學家的定義
1.7.2工業界對數據科學家的定義
第2章統計推斷、探索性數據分析和數據科學工作流程
2.1大數據時代的統計學思考
2.1.1統計推斷
2.1.2總體和樣本
2.1.3大數據的總體和樣本
2.1.4大數據意味著大膽的假設
2.1.5建模
2.2探索性數據分析
2.2.1探索性數據分析的哲學
2.2.2練習:探索性數據分析
2.3數據科學的工作流程
2.4思維實驗:如何模擬混沌
2.5案例學習:RealDirect
2.5.1RealDirect是如何賺錢的
2.5.2練一練:RealDirect公司的數據策略
第3章算法
3.1機器學習算法
3.2三大基本算法
3.2.1線性回歸模型
3.2.2足近鄰模型(k-NN
3.2.3I(均值算法
3.3練習:機器學習算法基
3.4總結
3.5思維實驗:關于統計學家的自動化
第4章垃圾郵件過濾器、樸素貝葉斯與數據清理
4.1思維實驗:從實例中學習
4.1.1線性回歸為何不適用
4.1.2l(近鄰效果如何
4.2樸素貝葉斯模型
4.2.1貝葉斯法則
4.2.2個別單詞的過濾器
4.2.3直通樸素貝葉斯
4.3拉普拉斯平滑法
4.4對比樸素貝葉斯和k近鄰
4.5Bash代碼示例"
4.6網頁抓取:APl和其他工具
4.7Jake的練習題:文章分類問題中的樸素貝葉斯模型
第5章邏輯回歸
5.1思維實驗
5.2分類器
5.2.1運行時間
5.2.2你自己
5.2.3模型的可解釋性
5.2.4可擴展性
……
第6章時間戳數據與金融建模
第7章從數據到結論
第8章構建面向大量用戶的推薦引擎
第9章數據可視化與欺詐偵測
第10章社交網絡與數據新聞學
第11章因果關系研究
第12章流行病學
第13章從競賽中學到的:數據泄漏和模型評價
第14章數據工程:Mapreduce pregel、Hadoop
第15章聽聽學生學們怎么說
第16章下一代數據科學家、自大狂和職業道德
值得一看
質量嗷嗷的好
正版圖書,不錯
很好很喜歡。就是原來以為是很厚一本。
商品不錯
內容很不錯,只是翻譯水平一般
很好,優惠力度大
看目錄感覺不錯,希望翻譯質量能好些
很不錯的書,大愛
好
。???
還可以,挺好的書
很好!
挺好的 我很喜歡
不錯,喜歡
不錯。很喜歡
感覺還不錯
書很好,滿意。
有價值的書,跟上我們這個時代
不錯,挺好。
書籍內容不錯,沒有什么問題的和好評的就用這個通用評價,差評的和不滿意的就單獨指出!
很經典的書,大家可以看看
還沒看,感覺可以
非常好的一本書,作者寫得深入人心。當當正版書
非常好的一本書值得購買學習。推薦一下。
工作中需要的專業書
書挺好的 翻譯的過程中有些稍微的偏差 但大體和原版保持
非常棒的質量,值得認真研讀,努力提高自己的數據分析水平。
我看了前面的兩章,覺得值得一讀,可以看出除了講解一些所謂的機器學習技術外,還非常注重人文精神的培養,把一些以前令人困惑的概念講清楚了,我覺得非常好。