這是一本技術深度與企業實踐并重的著作,由百度的Hadoop技術工程師撰寫,是百度Hadoop技術實踐經驗的總結。本書使用、實現原理、運維和開發4個方面對Hadoop的核心技術進行了深入的講解:(1)使用:詳細講解了HDFS存儲系統、MapReduce計算框架,以及HDFS的命令系統;(2)原理:結合源代碼,深度分析了MapReduce、HDFS、Streaming、Pipes、Hadoop作業調度系統等重要技術和組件的架構設計、工作機制和實現原理;(3)運維:結合百度的實際生產環境,詳細講解了Hadoop集群的安裝、配置、測試以及管理和運維;(4)開發:詳細講解了HadoopStreaming、Pipes的使用和開發實踐,以及MapReduce的編程實踐和常見問題。與市面上已有的Hadoop相比,本書的不同之處是它直切企業應用和實踐Hadoop技術的痛點,深入講解了企業最需要和最頭疼的技術和問題,內容上非常聚焦。
百度博學Hadoop技術專家和高級算法工程師撰寫,結合百度大數據實踐,直擊企業痛點,多位大數據技術專家聯袂推薦!
從使用、原理、運維和開發4個方面深度講解Hadoop最核心的技術
翟周偉,就職于百度,博學Hadoop技術專家,專注于Hadoop&大數據、數據挖掘、自然語言處理等領域。2009年便開始利用Hadoop構建商業級大數據系統,是國內該領域最早的一批人之一,負責設計過多個基于Hadoop的大數據平臺和分析系統。2011年合著出版《Hadoop開源云計算平臺》。在自然語言處理領域申請過一項發明專利。