国产精品福利视频,思思久久96热在精品不卡,精品成人在线观看

內容簡介

本書深入系統地介紹了Python流行框架Scrapy的相關技術及使用技巧。全書共14章，從邏輯上可分為基礎篇和高級篇兩部分，基礎篇重點介紹Scrapy的核心元素，如spider、selector、item、link等；高級篇講解爬蟲的高級話題，如登錄認證、文件下載、執行JavaScript、動態網頁爬取、使用HTTP、分布式爬蟲的編寫等，并配合項目案例講解，包括供練習使用的網站，以及、知乎、豆瓣、360爬蟲案例等。本書案例豐富，注重實踐，代碼注釋詳盡，適合有一定Python語言基礎，想學習編寫復雜網絡爬蟲的讀者使用。

編輯推薦

本書以應用為出發點，詳細深入地介紹了Python流行框架Scrapy的核心技術及網絡爬蟲的開發技巧。本書分為基礎篇和高級篇兩部分，基礎篇重點介紹Scrapy的核心元素，如spider、selector、item、link等；高級篇講解如登錄認證、文件下載、執行JavaScript、動態網頁爬取、使用HTTP、分布式爬蟲的編寫等內容。為方便讀者快速上手，本書還設計了大量項目案列，包括供練習用的網站的爬取以及如、知乎、豆瓣、360等網站的爬取。本書很適合有一定Python語言基礎，想學習編寫復雜網絡爬蟲的讀者使用。此外，書中涉及的關聯知識很豐富，可以幫助讀者拓展知識面，掌握更多實用技能。

作者簡介

劉碩：碩士，曾就職于知名外企，從事一線開發工作10年，目前主要從事Python開發與教學工作，在慕課網開設有多門Python課程，深受學員歡迎。

在線預覽

第1章初識Scrapy本章首先介紹爬蟲的基本概念、工作流程，然后介紹Scrapy的安裝和網絡爬蟲項目的實現流程，使讀者對網絡爬蟲有一個大致的了解，并且建立起網絡爬蟲的編寫思路。本章重點講解以下內容：? 網絡爬蟲及爬蟲的工作流程。? Scrapy的介紹與安裝。? 網絡爬蟲編寫步驟。1.1 網絡爬蟲是什么網絡爬蟲是指在互聯網上自動爬取網站內容信息的程序，也被稱作網絡蜘蛛或網絡機器人。大型的爬蟲程序被廣泛應用于搜索引擎、數據挖掘等領域，個人用戶或企業也可以利用爬蟲收集對自身有價值的數據。舉一個簡單的例子，假設你在本地新開了一家以外賣生意為主的餐館，現在要給菜品定價，此時便可以開發一個爬蟲程序，在美團、餓了么、百度外賣這些外賣網站爬取大量其他餐館的菜品價格作為參考，以指導定價。一個網絡爬蟲程序的基本執行流程可以總結為以下循環： 1.下載頁面一個網頁的內容本質上就是一個HTML文本，爬取一個網頁內容之前，首先要根據網頁的URL下載網頁。2.提取頁面中的數據當一個網頁(HTML)下載完成后，對頁面中的內容進行分析，并提取出我們感興趣的數據，提取到的數據可以以多種形式保存起來，比如將數據以某種格式(CSV、JSON)寫入文件中，或存儲到數據庫(MySQL、MongoDB)中。3.提取頁面中的鏈接通常，我們想要獲取的數據并不只在一個頁面中，而是分布在多個頁面中，這些頁面彼此聯系，一個頁面中可能包含一個或多個到其他頁面的鏈接，提取完當前頁面中的數據后，還要把頁面中的某些鏈接也提取出來，然后對鏈接頁面進行爬取(循環1-3步驟)。設計爬蟲程序時，還要考慮防止重復爬取相同頁面(URL去重)、網頁搜索策略(深度優先或廣度優先等)、爬蟲訪問邊界限定等一系列問題。從頭開發一個爬蟲程序是一項煩瑣的工作，為了避免因制造輪子而消耗大量時間，在實際應用中我們可以選擇使用一些的爬蟲框架，使用框架可以降低開發成本，提高程序質量，讓我們能夠專注于業務邏輯(爬取有價值的數據)。接下來，本書就帶你學習目前非常流行的開源爬蟲框架 Scrapy。1.2 Scrapy簡介及安裝Scrapy是一個使用Python語言(基于Twisted框架)編寫的開源網絡爬蟲框架，目前由Scrapinghub Ltd維護。Scrapy簡單易用、靈活易拓展、開發社區活躍，并且是跨平臺的。在Linux、 MaxOS以及Windows平臺都可以使用。Scrapy應用程序也使用Python進行開發，目前可以支持Python 2.7以及Python 3.4 版本。在任意操作系統下，可以使用pip安裝Scrapy，例如：$ pip install scrapy為確認Scrapy已安裝成功，首先在Python中測試能否導入Scrapy模塊：>>> import scrapy>>> scrapy.version_info(1, 3, 3)然后，在shell中測試能否執行Scrapy這條命令：$ scrapyScrapy 1.3.3 - no active project

Usage: scrapy [options] [args]

Available commands: bench Run quick benchmark test commands fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider Run a self-contained spider (without creating a project) settings Get settings values shell Interactive scraping console startproject Create new project version Print Scrapy version view Open URL in browser, as seen by Scrapy

[ more ] More commands available when run from project directory

Use "scrapy -h" to see more info about a command通過了以上兩項檢測，說明Scrapy安裝成功了。如上所示，我們安裝的是當前近期版本1.3.3。