日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服
干凈的數(shù)據(jù)·數(shù)據(jù)清洗入門與實(shí)踐圖書
人氣:42

干凈的數(shù)據(jù)·數(shù)據(jù)清洗入門與實(shí)踐

掌握高效數(shù)據(jù)清洗方法 為數(shù)據(jù)挖掘提供便利 讓用戶更好地體驗(yàn)大數(shù)據(jù)價(jià)值

內(nèi)容簡介

本書主要內(nèi)容包括:數(shù)據(jù)清洗在數(shù)據(jù)科學(xué)領(lǐng)域中的重要作用,文件格式、數(shù)據(jù)類型、字符編碼的基本概念,組織和處理數(shù)據(jù)的電子表格與文本編輯器,各種格式數(shù)據(jù)的轉(zhuǎn)換方法,解析和清洗網(wǎng)頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數(shù)據(jù)的方法,檢測(cè)和清除RDBMS 中的壞數(shù)據(jù)的解決方案,以及使用書中介紹的方法清洗來自Twitter 和Stack Overflow 的數(shù)據(jù)。

編輯推薦

理解數(shù)據(jù)清洗在整個(gè)數(shù)據(jù)科學(xué)過程中的作用

掌握數(shù)據(jù)清洗的基礎(chǔ)知識(shí),包括文件清洗、數(shù)據(jù)類型、字符編碼等

發(fā)掘電子表格和文本編輯器中與數(shù)據(jù)組織和操作相關(guān)的重要功能

學(xué)會(huì)常見數(shù)據(jù)格式的相互轉(zhuǎn)換,如JSON、CSV和一些特殊用途的格式

采用三種策略來解析和清洗HTML文件中的數(shù)據(jù)

揭開PDF文檔的秘密,提取需要的數(shù)據(jù)

借助一系列解決方案來清洗存放在關(guān)系型數(shù)據(jù)庫里的壞數(shù)據(jù)

創(chuàng)建自己的干凈數(shù)據(jù)集,為其打包、添加授權(quán)許可并與他人共享

使用書中的工具以及Twitter和Stack Overflow數(shù)據(jù),完成兩個(gè)真實(shí)的項(xiàng)目

作者簡介

Megan Squire 依隆大學(xué)計(jì)算科學(xué)專業(yè)教授,主要教授數(shù)據(jù)庫系統(tǒng)、Web開發(fā)、數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)課程。有二十年的數(shù)據(jù)收集與清洗經(jīng)驗(yàn)。她還是FLOSSmole研究項(xiàng)目的領(lǐng)導(dǎo)者,致力于收集與分析數(shù)據(jù),以便研究免費(fèi)軟件、自由軟件和開源軟件的開發(fā)。

目錄

第1章 為什么需要清洗數(shù)據(jù) 1

1.1 新視角 1

1.2 數(shù)據(jù)科學(xué)過程 2

1.3 傳達(dá)數(shù)據(jù)清洗工作的內(nèi)容 3

1.4 數(shù)據(jù)清洗環(huán)境 4

1.5 入門示例 5

1.6 小結(jié) 9

第2章 基礎(chǔ)知識(shí)——格式、 類型與編碼 11

2.1 文件格式 11

2.1.1 文本文件與二進(jìn)制文件 11

2.1.2 常見的文本文件格式 14

2.1.3 分隔格式 14

2.2 歸檔與壓縮 20

2.2.1 歸檔文件 20

2.2.2 壓縮文件 21

2.3 數(shù)據(jù)類型、空值與編碼 24

2.3.1 數(shù)據(jù)類型 25

2.3.2 數(shù)據(jù)類型間的相互轉(zhuǎn)換 29

2.3.3 轉(zhuǎn)換策略 30

2.3.4 隱藏在數(shù)據(jù)森林中的空值 37

2.3.5 字符編碼 41

2.4 小結(jié) 46

第3章 數(shù)據(jù)清洗的老黃牛——電子表格和文本編輯器 47

3.1 電子表格中的數(shù)據(jù)清洗 47

3.1.1 Excel的文本分列功能 47

3.1.2 字符串拆分 51

3.1.3 字符串拼接 51

3.2 文本編輯器里的數(shù)據(jù)清洗 54

3.2.1 文本調(diào)整 55

3.2.2 列選模式 56

3.2.3 加強(qiáng)版的查找與替換功能 56

3.2.4 文本排序與去重處理 58

3.2.5 Process Lines Containing 60

3.3 示例項(xiàng)目 60

3.3.1 及時(shí)步:問題陳述 60

3.3.2 第二步:數(shù)據(jù)收集 60

3.3.3 第三步:數(shù)據(jù)清洗 61

3.3.4 第四步:數(shù)據(jù)分析 63

3.4 小結(jié) 63

第4章 講通用語言——數(shù)據(jù)轉(zhuǎn)換 64

4.1 基于工具的快速轉(zhuǎn)換 64

4.1.1 從電子表格到CSV 65

4.1.2 從電子表格到JSON 65

4.1.3 使用phpMyAdmin從SQL

語句中生成CSV或JSON 67

4.2 使用PHP實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換 69

4.2.1 使用PHP實(shí)現(xiàn)SQL到JSON的數(shù)據(jù)轉(zhuǎn)換 69

4.2.2 使用PHP實(shí)現(xiàn)SQL到CSV的數(shù)據(jù)轉(zhuǎn)換 70

4.2.3 使用PHP實(shí)現(xiàn)JSON到CSV的數(shù)據(jù)轉(zhuǎn)換 71

4.2.4 使用PHP實(shí)現(xiàn)CSV到JSON的數(shù)據(jù)轉(zhuǎn)換 71

4.3 使用Python實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換 72

4.3.1 使用Python實(shí)現(xiàn)CSV到JSON的數(shù)據(jù)轉(zhuǎn)換 72

4.3.2 使用csvkit實(shí)現(xiàn)CSV到JSON的數(shù)據(jù)轉(zhuǎn)換 73

4.3.3 使用Python實(shí)現(xiàn)JSON到CSV的數(shù)據(jù)轉(zhuǎn)換 74

4.4 示例項(xiàng)目 74

4.4.1 及時(shí)步:下載GDF格式的Facebook數(shù)據(jù) 75

4.4.2 第二步:在文本編輯器中查看GDF文件 75

4.4.3 第三步:從GDF格式到JSON格式的轉(zhuǎn)換 76

4.4.4 第四步:構(gòu)建D3圖 79

4.4.5 第五步:把數(shù)據(jù)轉(zhuǎn)換成Pajek格式 81

4.4.6 第六步:簡單的社交網(wǎng)絡(luò)分析 83

4.5 小結(jié) 84

第5章 收集并清洗來自網(wǎng)絡(luò)的數(shù)據(jù) 85

5.1 理解HTML頁面結(jié)構(gòu) 85

5.1.1 行分隔模型 86

5.1.2 樹形結(jié)構(gòu)模型 86

5.2 方法一:Python和正則表達(dá)式 87

5.2.1 及時(shí)步:查找并保存實(shí)驗(yàn)用的Web文件 88

5.2.2 第二步:觀察文件內(nèi)容并判定有價(jià)值的數(shù)據(jù) 88

5.2.3 第三步:編寫Python程序把數(shù)據(jù)保存到CSV文件中 89

5.2.4 第四步:查看文件并確認(rèn)清洗結(jié)果 89

5.2.5 使用正則表達(dá)式解析HTML的局限性 90

5.3 方法二:Python和BeautifulSoup 90

5.3.1 及時(shí)步:找到并保存實(shí)驗(yàn)用的文件 90

5.3.2 第二步:安裝BeautifulSoup 91

5.3.3 第三步:編寫抽取數(shù)據(jù)用的Python程序 91

5.3.4 第四步:查看文件并確認(rèn)清洗結(jié)果 92

5.4 方法三:Chrome Scraper 92

5.4.1 及時(shí)步:安裝Chrome擴(kuò)展Scraper 92

5.4.2 第二步:從網(wǎng)站上收集數(shù)據(jù) 92

5.4.3 第三步:清洗數(shù)據(jù) 94

5.5 示例項(xiàng)目:從電子郵件和論壇中抽取數(shù)據(jù) 95

5.5.1 項(xiàng)目背景 95

5.5.2 及時(shí)部分:清洗來自Google Groups電子郵件的數(shù)據(jù) 96

5.5.3 第二部分:清洗來自網(wǎng)絡(luò)論壇的數(shù)據(jù) 99

5.6 小結(jié) 105

第6章 清洗PDF文件中的數(shù)據(jù) 106

6.1 為什么PDF文件很難清洗 106

6.2 簡單方案——復(fù)制 107

6.2.1 我們的實(shí)驗(yàn)文件 107

6.2.2 及時(shí)步:把我們需要的數(shù)據(jù)復(fù)制出來 108

6.2.3 第二步:把復(fù)制出來的數(shù)據(jù)粘貼到文本編輯器中 109

6.2.4 第三步:輕量級(jí)文件 110

6.3 第二種技術(shù)——pdfMiner 111

6.3.1 及時(shí)步:安裝pdfMiner 111

6.3.2 第二步:從PDF文件中提取文本 111

6.4 第三種技術(shù)——Tabula 113

6.4.1 及時(shí)步:下載Tabula 113

6.4.2 第二步:運(yùn)行Tabula 113

6.4.3 第三步:用Tabula提取數(shù)據(jù) 114

6.4.4 第四步:數(shù)據(jù)復(fù)制 114

6.4.5 第五步:進(jìn)一步清洗 114

6.5 所有嘗試都失敗之后——第四種技術(shù) 115

6.6 小結(jié) 117

第7章 RDBMS清洗技術(shù) 118

7.1 準(zhǔn)備 118

7.2 及時(shí)步:下載并檢查Sentiment140 119

7.3 第二步:清洗要導(dǎo)入的數(shù)據(jù) 119

7.4 第三步:把數(shù)據(jù)導(dǎo)入MySQL 120

7.4.1 發(fā)現(xiàn)并清洗異常數(shù)據(jù) 121

7.4.2 創(chuàng)建自己的數(shù)據(jù)表 122

7.5 第四步:清洗&字符 123

7.6 第五步:清洗其他未知字符 124

7.7 第六步:清洗日期 125

7.8 第七步:分離用戶提及、標(biāo)簽和URL 127

7.8.1 創(chuàng)建一些新的數(shù)據(jù)表 128

7.8.2 提取用戶提及 128

7.8.3 提取標(biāo)簽 130

7.8.4 提取URL 131

7.9 第八步:清洗查詢表 132

7.10 第九步:記錄操作步驟 134

7.11 小結(jié) 135

第8章 數(shù)據(jù)分享的實(shí)踐 136

8.1 準(zhǔn)備干凈的數(shù)據(jù)包 136

8.2 為數(shù)據(jù)編寫文檔 139

8.2.1 README文件 139

8.2.2 文件頭 141

8.2.3 數(shù)據(jù)模型和圖表 142

8.2.4 維基或CMS 144

8.3 為數(shù)據(jù)設(shè)置使用條款與許可協(xié)議 144

8.4 數(shù)據(jù) 146

8.4.1 數(shù)據(jù)集清單列表 146

8.4.2 Stack Exchange上的Open Data 147

8.4.3 編程馬拉松 147

8.5 小結(jié) 148

第9章 Stack Overflow項(xiàng)目 149

9.1 及時(shí)步:關(guān)于Stack Overflow的問題 149

9.2 第二步:收集并存儲(chǔ)Stack Overflow數(shù)據(jù) 151

9.2.1 下載Stack Overflow數(shù)據(jù) 151

9.2.2 文件解壓 152

9.2.3 創(chuàng)建MySQL數(shù)據(jù)表并加載數(shù)據(jù) 152

9.2.4 構(gòu)建測(cè)試表 154

9.3 第三步:數(shù)據(jù)清洗 156

9.3.1 創(chuàng)建新的數(shù)據(jù)表 157

9.3.2 提取URL并填寫新數(shù)據(jù)表 158

9.3.3 提取代碼并填寫新表 159

9.4 第四步:數(shù)據(jù)分析 161

9.4.1 哪些代碼分享網(wǎng)站最為流行 161

9.4.2 問題和答案中的代碼分享網(wǎng)站都有哪些 162

9.4.3 提交內(nèi)容會(huì)同時(shí)包含代碼分享URL和程序源代碼嗎 165

9.5 第五步:數(shù)據(jù)可視化 166

9.6 第六步:問題解析 169

9.7 從測(cè)試表轉(zhuǎn)向完整數(shù)據(jù)表 169

9.8 小結(jié) 170

第10章 Twitter項(xiàng)目 171

10.1 及時(shí)步:關(guān)于推文歸檔數(shù)據(jù)的問題 171

10.2 第二步:收集數(shù)據(jù) 172

10.2.1 下載并提取弗格森事件的

數(shù)據(jù)文件 173

10.2.2 創(chuàng)建一個(gè)測(cè)試用的文件 174

10.2.3 處理推文ID 174

10.3 第三步:數(shù)據(jù)清洗 179

10.3.1 創(chuàng)建數(shù)據(jù)表 179

10.3.2 用Python為新表填充數(shù)據(jù) 180

10.4 第四步:簡單的數(shù)據(jù)分析 182

10.5 第五步:數(shù)據(jù)可視化 183

10.6 第六步:問題解析 186

10.7 把處理過程應(yīng)用到全數(shù)據(jù)量(非測(cè)試用)數(shù)據(jù)表 186

10.8 小結(jié) 187

網(wǎng)友評(píng)論(不代表本站觀點(diǎn))

免責(zé)聲明

更多出版社