日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

大數據量解決方案實用13篇

引論:我們為您整理了13篇大數據量解決方案范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

篇1

從建立大數據存儲、管理和查詢平臺入手,嘉和美康不斷優化應用軟件和解決方案,以幫助醫療單位跨過大數據這道門檻。“大數據在醫療行業的前景和收益是嘉和美康最根本的驅動力,作為醫療行業信息系統的開發者和建設者,嘉和美康必須在產品上、技術上、應用上邁上一個大的臺階。”試想,小到輔助臨床醫生做出更為科學和準確的診斷和用藥決策或幫助醫院根據患者潛在需求開發全新個性化服務及自動服務,大到幫助研究機構實現突破性的醫療方法和藥物革新或支持地區甚至全國醫療行業主管部門優化醫療資源及服務配置,這些美好規劃實現的前提即是大數據好好為醫療行業所用。

“嘉和美康在電子病歷的基礎上,推出了新一代的臨床數據中心系統――基于CDR的臨床信息系統。” 范可方介紹,這個系統是面向臨床的深度應用,基于CDR平臺借助大數據處理技術推出的新一代產品。

攜手英特爾

篇2

能否置身事外?

隨著網絡應用和多媒體應用的興起,互聯網成為大數據的主要來源。隨之而產生的網絡營銷調整圍繞大數據而展開。淘寶是國內公認的對用戶數據利用得較好的公司——淘寶網利用大數據統計分析得到諸如“歐洲杯的球隊勝負如何影響各隊球衣的銷量?花露水的最佳搭配是電蚊拍還是痱子粉?”等問題的有趣結果,并以此為依據來更好地調整營銷戰略。

近日,阿里巴巴集團宣布,將在集團管理層面設立首席數據官崗位(Chief Data Officer),負責全面推進阿里巴巴集團成為“數據分享平臺”的戰略。這直接證明了大數據對于互聯網企業的意義。

別的行業能不能對大數據冷眼旁觀呢?賽迪智庫軟件與信息服務業研究所研究員安暉認為,雖然目前大數據的主要來源是互聯網,但許多以信息流作為核心競爭力,如金融、電信、零售等行業的機構或企業,其數據量也不容低估。例如,美國國家海洋和大氣管理局(NOAA)數據中心存儲的數據超過20PB,沃爾瑪數據中心的存儲能力超過4PB,eBay分析平臺每天處理的數據量高達100PB。并且,由于這些機構和企業所存儲的數據更加有針對性,其數據的價值密度更高,進行大數據處理的意義更強,運用大數據的需求也更為迫切。

安暉以數個典型行業為例來說明大數據能帶來什么好處——電信行業可以從龐大的數據中分析出不同群體的差異化需求,實現套餐制定等精準營銷;制造行業可以通過整合來自研發、工程和制造部門的數據以實行并行工程,顯著縮短產品上市時間并提高質量;交通行業可以通過整合和處理相關數據,實現智能交通(管理)與高效物流調度。

賽迪顧問軟件與信息服務業研究中心研究總監胡小鵬認為,金融行業中證券、信用卡、電子支付等數據規模龐大,具有使用對象多樣化、信息可靠性、實時性、保密性要求高等特點;電信行業中大數據主要體現為電信業務系統產業的計費賬務數據和用戶信息(包括客戶資料、客戶服務數據等),不僅數據量大,而且保存時間長;能源行業大數據主要集中在石油勘探以及電力生產、經營、管理等數據,具有數據量大、分散、類型復雜等特點。其中,在金融行業,利用大數據的挖掘和分析改善用戶體驗、監督欺詐行為、驗證合規性、服務創新等,從而助力金融智能決策,提升競爭力;而對于電力行業,大數據分析有利于電網安全高效運行(安全檢測與控制、災難預警與處理、供電與電力調度決策支持和負荷預測)、電力營銷(用戶用電行為分析)、集團集中管控與精細化管理等。

大數據這場盛宴上,哪個行業也不愿意沒有一席之地。

誰能站出來?

大數據的熱度可以由英特爾、IBM、EMC、惠普等廠商紛紛推出面向大數據的一體化產品和解決方案直接反映出來。

然而,一個不能逃避的現實是,雖然越來越多的行業用戶嘗試應用大數據的解決方案,但是大多數行業用戶對于大數據的認知仍然比較有限。面對林林總總的不同廠商提供的大數據解決方案,用戶分不清這些解決方案的差異在哪里,也就不會真正了解哪種解決方案適合自己。

有用戶反映,大數據解決方案容易給人的錯覺是該解決方案就是把數據分布存儲,再并行處理。即使采用國外廠商的工具,這些工具成熟度不是特別高,導致解決實際問題的時間過長。

英特爾相關專家表示,從總體上看,中國大數據市場發展迅速,特征明顯,相關技術和應用可改進和提升的空間巨大。而且大數據要落地,必須實現包括芯片商、軟件企業等在內的IT基礎設施與服務層平臺的開放。

英特爾在硬件上的領先無需多言。在軟件層面,考慮到Hadoop的開源特性,很多廠商都有機會在Hadoop的基礎上推出產品,但行業解決方案提供商面臨的一個苦惱是,他們不得不進行底層開發。實際上,底層解決方案是有很多共性的。對行業解決方案提供商來說,如果有一個由可靠廠商優化過的平臺再好不過了。利用這個平臺,行業解決方案提供商可以拋開重復的、無意義的勞動,將注意力和精力更加集中在行業特點上,進而開發出滿足行業所需的實打實的行業解決方案。在這種情況下,英特爾適時地推出了英特爾Hadoop發行版,打造一個優秀的、高價值的底層平臺。

對于如何從大數據中發掘價值,英特爾指出,這需要在IT基礎設施與服務層、數據組織與管理層、數據分析與發現層、決策支持與IT服務層全面引入新的技術,特別是在堪稱大數據應用“載體”的IT基礎設施與服務層,采用基于開放架構的平臺將是最佳選擇。

O‘Reilly Strata和Open Source Convention大會委員會主席Edd Dumbill曾指出,使大數據真正變得強大的方式之一就是讓上層程序員可以將精力放在數據而非底層Hadoop設施的抽象特征上。他們編寫更簡短的程序,能夠更清晰地表達出對數據所做的處理。這些將有助于為非程序員創建更好的工具。

延伸到企業層面,“行業解決方案提供商需要穩定性和可用性都足夠好的平臺。在這樣的平臺上,行業解決方案提供商可以從不必要的重復性勞動中解放出來,從而把更多的精力放在提供差異化特色方案和服務上。”英特爾亞太研發有限公司總經理、英特爾軟件與服務事業部中國區總經理何京翔的看法類似。進而,他解讀了英特爾Hadoop發行版的優勢:“英特爾Hadoop發行版的優勢在于:處理接近于實時;能在英特爾平臺上實現最優化的性能,比非英特爾發行版有成倍的增長;通過和電信、智能城市、醫療等行業客戶的合作,英特爾Hadoop還做了更進一步的優化。”

除了提供平臺,英特爾(中國)行業合作與解決方案部中國區總監凌琦強調,英特爾還會把大數據解決方案的研究和服務作為投資部門的重點。英特爾的風險投資部門也對大數據中所涉及的關鍵平臺、關鍵應用、提供商,給予關注。

行業側重點

英特爾硬件平臺的特點讓其可以用“通吃”來形容,行業特色則由軟件來體現。

篇3

大掌控、大智匯、大洞察

在大數據成為流行詞之前,微軟便已著手于大數據的應用與研發,例如微軟Bing的高質量搜索結果,便是通過分析超過100PB的數據得到的。微軟大數據解決方案的目標,是讓所有用戶都能獲得來自任何數據有價值的洞察力。

微軟大中華區副總裁兼市場戰略部副總經理、大中華區首席云戰略官謝恩偉介紹,為了實現這一目標,微軟為大數據解決方案制定了全面的戰略——大掌控、大智匯、大洞察。

大掌控,即“支持所有數據類型的現代化的管理層”。微軟大數據解決方案的數據管理平臺可以無縫地存儲和處理包括結構化、非結構化和實時數據在內的所有類型的數據。微軟推出的HDInsight是一種適合企業使用的、基于HDP的Hadoop服務,它將Windows的簡易性和可管理性帶給Hadoop,提供了結合Hadoop的擴展平臺,并為大數據提供了靈活且可擴展的云。

大智匯,即“搜索并結合廣泛數據,進行先進分析與精煉,從而提高數據價值的富集層”。微軟大數據解決方案,通過將數據和模型與公開的數據服務相結合,實現了突破性的數據發現,例如自動發現與共享防火墻外部的和第三方的數據源等。

大洞察,即“用戶熟悉的工具可為用戶提供具有直觀洞察力的洞悉層”。微軟大數據解決方案可以使客戶通過熟悉的由Hive add-in for Excel生成的Excel界面,從Hadoop功能中獲取有價值的洞察力,也可經由企業熟悉的BI工具,如SQL Server 分析服務、PowerPivot和通過Hive Open Database Connectivity 驅動生成的Power View來分析Hadoop中的非結構化數據。

數據分析結果要“傻瓜化”

“我們要將挖掘與分析的結果直觀呈現,轉換為用戶真正需要的有價值的洞察力。” 微軟全球高級副總裁、大中華區董事長兼首席執行官賀樂賦說。

篇4

移動設備爆炸帶來變革機會

云計算會吸引更多人上網,接入更多設備,從而產生更多海量數據——這個即將出現的循環將帶來巨大的機會。

《數字商業時代》:云計算的出現讓全世界所有信息和通信技術覆蓋的地方,都試圖通過技術來生成一個數字化的投影。這種更徹底的數字化浪潮將為商業和經濟帶來怎樣的影響?

柏安娜:云計算從提出到取得飛速發展是最近五年的事,它在面向消費者和企業的相關服務及應用的數量都在快速增加。云計算模式很有吸引力,它可以在低運營和低擁有成本的基礎上進行大規模的擴展,而且它具有按需提供服務的能力,因為它的基礎設施是共享的。可以看到,中國和美國的云建設都在飛速發展。這就像一個虛擬的循環,隨著越來越多的人上網——目前有23億人上網,他們會購買更多設備。這些設備與數據中心連接,需要建設云基礎設施來支持這些設備。這會推動新服務和解決方案的創新,從而吸引更多人上網。這些推動了云計算的發展,并推動相關服務的發展。在這個令人驚嘆的循環中,隨之帶來的是我們從未想過的新式服務和解決方案。就像你所說的,我們現在真正處于數字創新時代,新服務在線上不停地涌現,因為我們能夠在云中進行新功能的快速部署。

《數字商業時代》:與這種數字化浪潮最為匹配的技術,似乎就是大數據分析技術,現在和未來一段時間內,有哪些因大數據技術而生的商業模式值得人們關注?

柏安娜:一直有很多企業數據,但從來沒有分析和利用這些數據的高效方式。這種情況下,數據就沒有發揮作用。現在圍繞大數據有很多行業創新。一個是計算成本繼續增加,例如橫向擴展存儲等。一個重大成本是這些數據的存儲成本,傳統存儲方式太過昂貴。因此,你看到存儲創新,基于英特爾平臺的橫向擴展存儲。然后是圍繞開源數據分析解決方案的大量創新。Hadoop是個非常好的開源框架,讓你能夠提取所有這些數據,高效地存儲并實時分析。計算存儲平臺和分析解決方案相結合,讓企業和消費者都能看到重大數據。有個很好的例子,中國政府要求電信運營商為消費者提供90天的交易記錄,讓消費者能夠上網了解過去90天的所有消費情況,這是一個重大的大數據問題,涉及的數據量也非常巨大。我們與電信運營商合作,利用Hadoop向他們提供一個穩定、優化的Hadoop平臺以分析和報告這些信息,從而滿足政府的監管要求。我們目前是Hadoop框架的分銷商,我們現在所做的是以前從未做過的事情。

數據就是價值

大數據時代,IT將不再是成本,而成為價值。

《數字商業時代》:有跡象表明在云計算與數據的時代它將開始主導企業業務的發展甚至是變成一個核心業務,簡而言之就是變成企業的盈利中心,你對這一趨勢有何看法?

篇5

尤其是隨著社交網絡、電子商務以及物聯網的發展,結構化數據和非結構化數據并存,無論是數據的類型、來源還是數量等方面,都已十分復雜。而依靠傳統的IT技術,已經很難對這些海量數據進行高效的分析。因此,是否能夠找到一套涵蓋業務、技術和IT基礎架構的全面的大數據解決方案,就成為IT服務商決勝大數據市場的關鍵因素之一。

而這也正是榮之聯公司與Alpine公司合作,共同拓展國內大數據市場的重要原因。“Alpine公司在大數據處理方面有著很多創新的技術和面向各個行業的解決方案,而這些可以幫助我們很好的解決國內行業用戶所面臨的大數據問題。”王東輝說。

其實,對于大數據,榮之聯公司并不陌生。“過去幾年,我們幫助華大基因等企業建設了巨大的數據庫,計算量超過200萬億次,我們的生物云也馬上要,數據量將會更大。而如何在生物行業中結合大數據分析,也是過去一年多我們一直在討論的問題。”榮之聯公司總經理張彤介紹道。

篇6

譯者:盛楊燕

出版:浙江人民出版社

作者簡介:

馬克?馮?里吉門納姆

全球頂尖大數據影響力人物之一,一站式大數據商店Datafloq創始人,荷蘭Data Donderdag大數據論壇聯合發起人,在大數據、區塊鏈、物聯網和顛覆性創新方面擁有豐富的經驗。

據測算,我們現在每兩天產生的數據,相當于人類文明伊始至2003年所a生的數據的總和。而且,隨著幾乎所有的一切事物都被數字化,人們預計可用數據量將每兩年翻一番。大數據能讓企業制定更好的決策,從而提高效率、節約成本、增加收入。但是許多企業還沒有認識到它的好處,即便認識到了,也許還不知道如何利用。

大數據早已開始改變商業乃至社會的運作方式,企業,尤其是中小企業,若要避免被時代甩在后面的命運,就必須跟上構建大數據戰略和關鍵大數據能力的浪潮。

任何數字化的事物皆為數據。越來越多的事物被數字化,并與互聯網產生聯系,這意味著公司正在接收全新領域的數據。物聯網運動表明,任何產品或設備都能與互聯網相連,因此都能提供數據。

當然,數據自身并不具有價值。真正有價值的是在數據基礎上所做的分析,以及數據被轉換成的信息,甚至是知識和智慧。數據的價值在于企業如何利用數據打造一個以信息為中心的企業,并將企業的決策制定立足于數據分析所釋放的基礎知識。

大數據見者有份――你只需拓寬視野去發現在哪里能找到它,以及如何分析和使用它。

常有人說,中小型企業無法加入大數據運動或者不能開發大數據戰略,因為他們擁有的數據太少。然而2012 年,SAP公司的一項研究顯示,接受采訪的中小型企業高管中,76%將大數據看作一個機會。SAP公司負責業務分析、數據庫和技術的執行副總裁史蒂夫? 盧卡斯曾說:“每個公司都應該考慮大數據戰略,無論大小。”即便企業擁有的數據較少,也可以開發大數據路線圖,成為以信息為中心的企業。那么,對于中小型企業,今后的大數據機會是什么,應如何利用自己的“小數據”?

這里所說的“小數據”并不是IBM 定義的小體量、批處理和結構化的數據。相反,小數據可以是任何形式的數據,結構化或非結構化、實時處理或批處理均可。小數據只表示數據量少,即數吉字節或上太字節,而達不到拍字節。

的確,一些中小型企業可能沒有很多數據,但是,即便這樣,它們也有供應商或經銷商。如果這些公司開始合作和分享數據,它們的可用數據量就會成倍增長。我們也看到過這個過程曾發生在大型跨國公司身上,例如,耐克和同行分享它所有供應商的數據,這使得供應鏈中的其他公司可以補充和使用該數據庫,借此做出更聰明的決策。

當中小型企業開始使用數據,并將自己的數據與供應商的數據相結合時,它們就會突然擁有充足的數據,這些數據可以經分析和可視化處理后,用于改進決策。它們也可以將已有的少量數據與公開數據集結合。開放權限的公開數據集現在已越來越多,同時,公共平臺也在不斷增多,這樣,中小型企業就可以從這些平臺上免費下載或花錢購買更多的數據集。將個人數據與公開數據結合起來,一方面能增加分析可用的數據量;另一方面可以獲得全新的結果,比如發現新市場或目標群體。

中小型企業不應該只看到公司已經擁有和收集的數據,而應該樂于接受收集數據的新方式。在這個問題上,創意是關鍵,因為最終只要有傳感器加入進來,任何產品都能轉化為數據。傳感器的成本正日漸降低,在已有產品上安裝傳感器可以傳遞全新的數據集,從而獲得意料之外的見解。

大數據不僅體現在大體量、高速度上,也體現在多樣性上。大數據強大之處就在于能夠將非結構化和結構化的數據集結合,獲得新的見解。非結構化數據有許多來源,包括社交數據、視覺資料、文檔、電子郵件,乃至語音數據。將多個較小的數據集結合與將大型數據集結合相比,它們產生的見解是一樣的。因此,數吉字節產生的見解對中小型企業的作用,與數拍字節或艾字節數據產生的見解對大型跨國公司的作用相當。

Real Business的杰米?特納曾說:“由于資源有限……靈活性和敏捷性對于中小型企業極為重要。”的確,它們必須找到與它們可用資源相配的解決方案。這些企業可以使用由較小的也更為靈活的大數據創業公司創建的基于云端的解決方案,而不必選擇IBM、賽仕或惠普開發的完整大數據解決方案。此外,它們可以使用開源工具自行創建大數據解決方案。盡管后者仍然需要專業人員,但是成本已有下降。開源工具是免費的(當然不提供任何服務),商用硬件也逐漸變得便宜起來。

無疑,大數據適用的不僅僅是大型企業,中小型企業也有很多機會,能從它們已有的數據或新數據集中獲得有價值的見解。實際上,中小型企業確實需要多一點創新來解決大數據難題。它們必須跳出思維定式,發現企業內部和外部的數據機會。不過說到底,如果大型企業想充分利用大數據,這一點同樣適用。

篇7

大數據處理之所以困難,是因為它有別于傳統關系型數據。數據量大(Volume)、速度生成快(Velocity)、數據類型多(Variety)、價值密度低(Value)是大數據的4大特點,即“4V”。尤為值得一提的是,大數據雖然量大,但與關系型數據相比,其同等數據量的經濟價值要小得多,如果還像傳統數據那樣投入就得不償失。

“大數據并不適合用傳統數據處理技術進行存儲和分析,因而我們需要一種新的技術,而Hadoop正是這樣一種數據處理技術。”Hadoop China發起人、中科院計算所查禮博士表示。據悉,Hadoop是一種開源軟件架構,能夠自由部署在x86平臺上,其獨特的分布式和可擴展性都非常適合大數據的處理。這幾年Hadoop市場發展迅猛,且出現很多開源版本,如Cloudera公司的Distribution Including Apache Hadoop是其中頗有影響力的一個。

篇8

在大數據產品方面,曙光已經成竹在胸。針對結構化、非結構化和半結構化數據,曙光都能提供匹配的存儲解決方案。比如,針對非結構化和半結構化數據,曙光的ParaStor就是一個非常好的存儲平臺。再比如,曙光利用自己的文件系統對Hadoop平臺進行了優化,可以更好地發揮Hadoop的優勢。惠潤海表示:“當前,雖然大數據帶來的直接收入并不如預期,但是大數據市場的前景十分廣闊。”

不趕一體機的時髦

在大數據市場上,一體機越來越流行,曙光卻一直按兵不動。“我們一定要透過現象看本質。一體機的核心還是軟件。”惠潤海表示,“將相關硬件拼湊在一起,再加上Hadoop就能構成一個簡單的一體機,但是這樣的產品會有競爭力嗎?我們只要推出一個新產品,就希望這個產品具有一定的競爭力,能夠在市場上取得較高的占有率,而不是搞噱頭。”

在大數據業務方面,曙光的核心競爭力主要體現在它有一支強大的技術服務團隊,可以為用戶提供代碼級開發的服務能力。由于自身的復雜性以及存在Bug,Hadoop通常不能直接使用,這就需要大數據解決方案廠商在Hadoop平臺上進行相關調整和優化。“由于數據種類繁多,數據量又大,如何快速將大數據導入到大數據挖掘系統中是一個難題。如果廠商沒有過硬的技術服務團隊,不能根據數據的情況對解決方案進行調整和優化,那么大數據應用落地就將成為一句空話。大數據應用之所以難普及,一個重要的原因就是具有代碼級開發能力的專業技術人才太少了。”惠潤海表示。

在推廣大數據解決方案時,曙光并沒有與某一個應用軟件廠商簽定產品捆綁協議。不過,曙光還是針對一些主流的應用軟件進行了方案的優化。舉例來說,在結構化數據處理方面,曙光主要針對Oracle數據庫進行了方案優化。曙光利用基礎的硬件,結合自己的大數據挖掘系統,可以將Oracle數據庫的查詢速度至少提升50倍,而成本只有傳統的“小型機+高端存儲”解決方案的十分之一。

存儲服務器已獲認可

篇9

雖然隨著互聯網、移動互聯的普及,最早起源于決策支持系統的商業智能已成為科技企業爭相布局的領域――提供商業智能解決方案的著名IT廠商包括微軟、IBM、Oracle、SAP、Informatica、Microstrategy、SAS、Royalsoft等。但是,并非所有的商業智能都能夠賺到錢。

“商業智能包括很多的內容:數據可視化、報告、操作平臺等,然而QlikTech關注其最為重要的一點,我們稱為分析發現(discovery)。”Terry Smagh解釋道。據悉,QlikTech公司已經推出商業智能軟件QlikView 11.2版本,以及Business Discovery(商業探索平臺),“作為一個內嵌式的存儲平臺,對于大數據的分析、分類、標簽等都在Discovery平臺上進行。”

作為QlikTech公司的大客戶,海爾公司行銷網絡覆蓋全中國,而且銷售的產品種類繁多,包括高端的企業級產品、低端的消費品。“海爾公司產生的數據量不僅大,而且分布廣泛,例如他們的零售店、公司本部的數據庫等。”Terry Smagh說,“但是,海爾最想知道的是怎樣可以分析哪一家分銷店做得好、哪一款產品賣得好,更細致的就是在什么時間段這款產品賣得好,這樣它才能高效地組織規劃和生產。這時,我們就把海爾的各方數據放到Discovery平臺上,分析不同的區域哪一款產品賣得好,是什么樣的人在買這款產品,以及買這類產品的人同時也買了哪些關聯的產品。”

篇10

對于企業和CIO來說,如何利用大數據技術來管理并挖掘其數據的商業價值,使企業更迅速的占領市場先機,給客戶帶來更好的體驗,是企業用戶更加強勁的發展動力。

EMC高級存儲事業部總裁Amitahb Srivastava表示,從技術的角度來看,IT部門將繼續看到智能的轉移,更多的數據中心智能會轉移到軟件控制平面中,而軟件控制平面則利用基于Web的技術,訪問作為一個整體的計算、網絡和存儲資源(例如軟件定義的數據中心)。隨著數據中心尋求更容易的技術消費方式,云計算模式的原則也將增多,除了效率和敏捷性等,還將包括簡單性。廠商對此做出的反應是,提供基礎架構解決方案,這類解決方案打包整合同類最佳技術,并有可能使物理地點不再重要,而通過中央控制點管理多種多樣的基礎架構。

由于越來越多的機構尋求以更有效的方式保留和利用非結構化數據,所以對象存儲系統將迅速增加。要在企業中使用對象,具備擴展對象存儲系統的能力將很重要。類似地,對于用對象建立應用的開發人員而言,支持基于云的開放接口也將是非常關鍵的。

投資飆升

企業在大數據領域的投資也在激增。湯森路透的數據顯示,2011年,風險投資人給大數據相關的初創公司投資24.7億美元,與2010年的15.3億美元和2009年的11億美元相比,有顯著增長。

2013年,大數據初創公司界將會看到,僅向市場提供單點式工具而不是集成式解決方案的公司結果會很不妙。盡管這類公司能為某些客戶提供價值,但是隨著市場的成熟,最好的廠商將變得更大、更強,而其余的廠商恐怕只能為自己的產品舉行一場大數據“庭院拍賣會”了。

大數據幾乎在所有人的心目中都占有一席之地。社交和移動技術相結合產生的影響、不斷需要增強競爭優勢以及無處不在的分析軟件和服務,都將改變廠商和最終用戶消費信息的方式。基礎技術已經有了。Hadoop數據生態系統的出現已經使經濟實惠的存儲和PB級數據處理變成了現實。富有創新精神的企業正在利用這些技術開發一類全新的、實時的、以數據為主導的應用。隨著這一趨勢的繼續,我們將看到一群新的創新公司,對于10年前我們無法想象怎樣解決的問題,他們會開發出解決方案。

安全更加重要

從廣義來講,大數據產業鏈貫穿了數據整個生命周期,從產生、采集到存儲,這和整個鏈條是有點相似的,從狹義來看,大數據的產業鏈主要涵蓋數據的管理分析、呈現和應用的環節。大數據更加容易成為網絡攻擊的顯著目標,從近兩年所發生的一些互聯網公司的用戶帳號的信息失竊情況來看,大數據當中數據量比較大,它的信息量也比較大,所以黑客更加樂意去攻擊,因為相對來說成本是比較低的。

大數據當中加大了隱私泄漏的風險,企業在數據存儲和部署的時候,有些時候容易交叉存儲,把敏感信息一不小心部署到公開的或者不應該部署到服務器上,更容易加大隱私的泄漏。

大數據數據量比較大,對于現在的存儲和目前安全防范措施可能提出新的挑戰。同時,大數據分析技術也容易被黑客利用攻擊當中去。

大數據可能成為可持續攻擊的載體,APT是這兩年提的比較多的詞,它有一個顯著特點:病毒代碼非常強大,有些攻擊目標病毒很難隱藏其間,對于龐大的大數據來講,這樣的惡意軟件隱藏在數據詞當中很難被發現。所以說有可能大數據成為高級的可持續APT的攻擊載體,這一點可能是需要大家非常注意的。

一位著名的法國哲學家說過:“萬變不離其宗。”這句話也可以用來反映2013年信息安全技術趨勢的很多方面。現在,一種新的網絡安全模式已經就緒。要提供真正的深度防御,采用智能驅動的信息安全模式比以往任何時候都更有必要。這種新模式將涉及多個方面,包括使用大數據分析方式,為來自眾多數據源的大量數據提供背景信息,以及時產生可作為行動依據的信息。

篇11

由于數據體量的激增、結構類型的復雜、但數據的低密度價值以及處理速度的提升等新特性的出現,促使人們對大數據進行研究與實踐。現階段,大數據已逐漸滲透到各個行業和業務職能領域。在安防領域中,視頻監控以其直觀、準確、及時和信息內容豐富而廣泛應用于許多場合,在安防系統中的重要性日益突出,海量的視頻數據需要得到有效的處理,迫切需要與大數據技術相融合。大數據可以有效促進視頻監控業務的發展,推動視頻監控業務的展開,兩者之間的融合勢在必行。

2 大數據

在信息技術中,“大數據”是指一些使用目前現有數據庫管理工具或傳統數據處理應用很難處理的大型而復雜的數據集。其挑戰包括采集、管理、存儲、搜索、共享、分析和可視化。大數據技術描述了新一代的技術和架構,使用高速獲取、發現和/或分析方法提取的各種各樣數據量非常大的數據價值。

3 視頻監控數據

在視頻監控領域,大數據的特點可用4個V來概括:Volume、Variety、Velocity、Value。

3.1 數據體量巨大(Volume)

高清化帶來單個監控點數據量以指數級增長,例如單個1080PIPC30天就會產生2T數據;IP化大聯網后,各平臺實現互聯,平安城市網內攝像頭數量達數萬數十萬級別,其數據量之巨大可想而知。

3.2 數據類型繁多(Variety)

視頻監控領域的視頻編碼格式包括:H.264、MPEG-4、MJPEG等多樣化的編碼方式。同時隨著各類物聯網技術融入到視頻監控業務,匯聚了包括各種傳感器、IT、CT系統產生的多樣的數據。

3.3 處理速度快(Velocity)

視頻數據隨時間快速增長,并以持續順序到達。隨著數據量的增加,哪怕對TB級別的數據進行視頻內容的數據分析和檢索,采用串行計算模式都可能需要花費數小時的計算,已遠遠不能勝任時效性的需求。

3.4 價值密度低(Value),效率要求高

在視頻監控業務中,價值密度的高低與數據總量的大小成反比。一小時的視頻監控內容,可能有用的數據僅僅只有一兩秒。

4 視頻監控大數據分析架構

結合視頻監控業務特點,引入Hadoop的架構,以頂層設計的視角來構建面向大數據的視頻監控架構。面向大數據視頻監控邏輯架構包括:

4.1 數據源層

包括實時數據和非實時數據。實時數據指IP攝像頭和傳感器產生的實時流媒體數據。非實時數據是指從DVR、編碼器、第三方系統導入的媒體數據。

4.2 大數據存儲層

采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)實現數據低成本、高可靠的管理。把采集的流視頻保存在HDFS集群內,并通過HBase建立訪問的索引。把傳統NVR和專用存儲進行重構,納入到整體的分布式文件系統中。

4.3 大數據計算層

實現智能分析和數據挖掘。通過MapReduce把對視頻的分析進行分解,充分利用閑置資源,把計算任務分配給多臺服務器進行并行計算分析;另一方面,根據智能分析產生的視頻元數據,通過Hive挖掘視頻元數據的價值信息。

4.4 業務及管理層

實現設備和業務管理。基于Zookeeper組成的服務器集群,可以保證業務系統的無故障運營,基于Ganglia實現對攝像頭等設備的監管。

基于大數據的視頻架構,本質上是把視頻數據作為最有價值的資產,以數據作為核心來構建技術架構,重點解決海量的視頻數據分散和集中式存儲并存、多級分布等問題,極大提升非結構化視頻數據讀寫的效率,為視頻監控的快速檢索、智能分析提供端到端的解決方案。

5 視頻監控數據挖掘技術

視頻數據挖掘的目的是建立底層視頻數據到高層語義信息之間的映射關系,由于這種映射關系比較復雜,一般采用多層次的信息提取及映射技術來最終實現數據挖掘過程:從底層視頻數據中首先提取底層圖像特征信息,然后利用目標檢測、目標跟蹤、特征比對等手段從圖像特征中提取元語義信息,最后將元語義信息融合為高層的語義級描述信息。主要采用的視頻數據挖掘技術有:視頻濃縮與檢索技術、視頻圖像信息數據庫等技術。

視頻濃縮與檢索技術主要是利用圖像處理、模式識別、海量數據分類存儲以及搜索等技術,對海量的存儲錄像等原始信息進行分析和挖掘,對于目標特征、目標行為、目標間關聯關系這3大類信息內容,形成各種分類的特征信息庫、元數據和索引等,并提供統一接口供外部應用進行搜索,以期實現快速關聯和定位。

視頻圖像信息庫建設和海量數據的處理、分析、檢索,是提高效率的有力手段。通過視頻智能分析技術,把海量的視頻數據進行濃縮,提取特征摘要,減少存儲空間。同時,視頻圖像信息庫針對結構化、半結構化和非結構化數據,通過數據的多個副本分布式保存方式,有效節約存儲空間,使系統架構更加穩定和可擴展,并提供安全的負載均衡和容錯機制。

6 結束語

隨著IT新興技術的興起,視頻監控進入網絡化時代,大數據技術在視頻監控領域的廣闊發展路徑已經顯現。如何從海量視頻數據中提取有用信息,把大數據技術和視頻監控業務相互融合,打造大數據時代的視頻監控解決方案,無疑是監控系統各個行業用戶都迫切需要解決的問題。

參考文獻

[1]陳明.大數據概論[M].北京:科學出版社,2015.

[2]嚴權鋒.移動視頻監控系統中的關鍵技術研究[J].無線電通信技術,2008,34(4):33-35.

作者簡介

周英鳳(1980-),女。碩士學位。現為井岡山大學電子與信息工程學院講師。研究方向為嵌入式圖像處理等。

篇12

工業化和計算機技術的發展,使制造系統每天產生的數據量不斷增加,整個制造業產生的數據量遠高于其他行業[1]。面對日益復雜的制造業生產系統,通過保存其運行過程中的中間數據,并對數據進行研究,能夠解決當前的系統建模手段無法解決的問題。傳統的數據分析方案一般先將數據保存到關系型數據庫中,然后借助聯機分析、處理等手段為決策提供支持[2]。

當面對制造業的海量數據時,可能會有如下缺陷[3]:

(1)數據來自不同地區的工作站、傳感器等,而且數據格式不統一,既有結構化數據,也有非結構化數據,不利于處理;

(2)聯機分析處理過程中會有大量的數據移動操作,當數據量達到PB級時,大量數據移動造成的開銷變得難以接受。

因此,有必要研究并實現一個能夠合并存儲異構數據、并且可以完成基于大數據的CIMS數據分析處理的平臺。本文將Hadoop大數據技術引入到CIMS海量工業數據的監測和分析中。

二、研究現狀

范劍青[4]闡述了大數據獨有的特點,說明大數據提供的海量數據給統計、處理以及統計估算和檢驗帶來的問題。Jiang 等人[5]對電子商務網站的大量商品數據進行分析處理,提出了基于Hadoop的協同過濾算法。

Duke能源公司模擬大數據解決方案,使維護專家遠程觀看設備和記錄異常指數,甚至可以及時采取糾正操作,但還不能真正實現大數據分析和處理平臺。通用電氣(GE)于2013年推出其大數據分析平臺,用以將云平臺中的工業機器產生的海量數據轉化為實時信息,此平臺可以認為是第一個能夠真正管理工業海量數據的平臺,但是難以處理來自多個數據源的數據。美國國家儀器公司和IBM聯手推出InfoSphereStreams大數據解決方案,能夠以很高的數據吞吐率分析來自多個數據源的信息,但其處理帶有一定的數據延時,實時性不佳。

為解決海量數據處理時的實時性問題,本文擬采用開源的Storm流處理技術,并借助類SQL和Piglatin等過程化語言擴展,以實時監控整個大數據平臺。

三、大數據技術在CIMS監測與分析平臺中的設計

工業應用數據在數據量上遠超普通應用,其海量數據存儲的要求超過了傳統的關系型數據庫的存儲能力。另外,工業應用數據也由傳統的結構化數據擴展到結構化、半結構化以及非結構化數據并存,對這些數據格式以及數據類型都存在不同的工業數據進行采集、分析和處理的方式有別于傳統方式,因此需要對監測和分析平臺進行設計,從軟件結構、通信方式以及數據存儲方式等各個方面進行分析。

3.1 CIMS海量數據監測與分析平臺的設計

在將大數據技術應用于CIMS海量數據的監測與分析時,海量的工業數據不再存放在傳統的關系型數據庫,而是存放到HDFS分布式文件系統上。因此,軟件結構設計要與Hadoop的HDFS文件系統相對應。

3.1.1 軟件結構

本文設計的CIMS海量工業數據監測和分析平臺(以下簡稱“平臺”)采用Master-slave主從架構,Hadoop集群的NameNode節點作為監測和分析平臺的管理節點,完成數據采集、數據分析等各功能的功能模塊是工作節點。管理節點管理整個集群的相關信息,并維護包括節點的主機名、IP地址等機器狀態。工作節點可以根據工業應用的需求進行靈活的配置,也可以動態增加或減少。

平臺主要分為如下部分[6]:客戶端、消息中間件、數據查詢模塊、數據分析模塊、數據采集模塊以及Hadoop集群。客戶端接收用戶請求,向平臺發出任務請求;數據采集模塊、數據查詢模塊以及數據分析模塊是平臺的功能組件,分別提供工業大數據分析流程中的對應功能[7]:數據采集模塊對外提供數據的訪問接口,其功能是從不同的數據源獲取數據,并將這些數據存儲到Hadoop的HDFS文件系統上。

數據查詢模塊從HDFS文件系統中查詢數據的存儲索引,并返回給數據分析模塊;數據分析模塊中實現不同的數據分析配置方法,并交由MapReduce框架分布式地實現數據分析任務。

3.1.2 系統功能模塊

平臺中監測和分析的數據一般都是離散數據,所以選擇消息中間件作為通信管理模塊,消息中間件實現平臺中各個模塊間的通信。

以功能節點上線為例,由于管理節點存儲了所有節點的狀態信息,所以為保證整個集群信息的一致性,功能節點上線時需要先向管理節點注冊其信息,管理節點會向消息中間件訂閱“注冊”這一主題,消息中間件接收到訂閱請求后會創建相應的隊列,并持續監聽此隊列的消息情況。消息隊列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺中的操作請求都會發送給任務管理模塊,由其解析后,再發送給相應的功能模塊執行。

數據采集模塊從基于HDFS文件系統的Hbase數據庫中獲取來自客戶端的數據,由于工業數據的采集并發量可能比較大,因此要在采集端部署大量數據庫;除此之外,ETL工具負責將異構數據源的數據抽取處理進行數據清洗。Hadoop上的數據分析模塊能夠完成多維分析,由于MapReduce的具備很強的并行處理能力,因此分析維度的增加并不會使數據分析的開銷顯著增加,這無疑是傳統的數據分析平臺所無可比擬的。

3.1.3 數據存儲方式

傳統的關系型數據庫不能很好的支持結構化和半結構化的數據,HDFS分布式文件系統克服了這一缺陷,將非結構化數據和結構化數據都以文件形式存放,實現了廉價而又可靠數據存儲。

工業數據可能來自多個不同的數據源,平臺借助中間件屏蔽了它們之間的異構性,然后將這些原本異構的數據存儲到HDFS文件系統中。這種異構數據存儲方式不需要昂貴的存儲設備,廉價的服務器即可組成可靠的存儲集群;另外,存儲集群節點同時還是Hadoop集群的工作節點,提高了數據存儲節點的利用率[8]。

四、大數據技術在CIMS監測與分析平臺的性能優化

軟件工程思想中,不能只設計軟件的結構,同時要對軟件進行不斷優化。平臺集中了多個數據來源的數據,因此平臺間的數據傳遞吞吐量比較大;另外,平臺各個組件間的網絡依賴關系比較復雜,合理分配網絡資源對提升平臺性能有重要的影響。

系統動力學研究復雜系統的結構、功能以及動態行為模式,可以利用系統動力學的相關原理和方法,對本文設計的平臺進行模擬仿真研究。

在進行實際的大數據平臺仿真分析時,為搭建Hadoop集群本文配置4臺服務器,其中一臺作為NameNode,其他服務器作為DataNode。具體的配置信息如表1所示:

系統動力學分析軟件系統的基本思路是把與系統相關的網絡變量轉換為因果圖及流圖,因果圖表征了變量間的相互影響關系,流圖說明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關系。因果圖反應了平臺中的反饋回路的正負極性,表示出系統元素間基本的相互影響關系。

基于以上分析,對本文設計的平臺進行系統動力學分析如下:由于平臺是一個非線性時變系統,影響其性能的因素不僅包括管理節點、消息中間件、Hadoop集群等,還包含網絡帶寬、服務器配置等客觀因素。根據系統建模目的,可以知道系統邊界應該包括如下因素:用戶請求數目、數據采集模塊采集到的輸入數據、消息中間件隊列中的消息數量、消息中間件路由消息的延遲、Hadoop集群的性能等。

平臺的系統邊界確定后,接下來需要分析系統邊界內的元素間的影響關系,以及它們之間是否有因果關系。經分析可知,用戶請求的增加會導致消息中間件隊列中的消息增加,而消息中間件路由消息的延遲降低會降低系統中消息傳遞的整體時延。

消息中間件的工作性能和系統各個模塊的工作時延組成正反饋回路,說明消息中間件和系統模塊是正相關的,所以平臺整體性能的提升依賴于消息中間件和系統模塊的合理資源配置。

消息中間件的各種配置參數,比如響應速度、吞吐量等參數對提升平臺的分析性能影響很大,在優化消息中間件的各種參數后,比較本文設計的基于大數據的數據分析平臺和傳統的工業數據平臺的性能,在同時對PB級別的工業數據進行分析時,當CPU數目相同時,響應速度的結果如表2所示:

對于不同的數據級別,兩種大數據平臺的處理效果如表3所示:

由結果可知,在處理相同的數據量時,在響應速度的性能上,本文設計的工業數據分析平臺要優于傳統的數據分析平臺。

當處理不同的數據量時,隨著數據量的增加,傳統的大數據處理平臺的處理時間也呈現顯著增加,而本文設計的大數據處理平臺處理時間是線性的,明顯優于傳統大數據處理平臺。

五、總結與展望

本文首先介紹了Hadoop大數據技術,分析了其HDFS文件系統和MapReduce計算框架;

接下來對基于大數據技術的CIMS海量工業數據監測和分析平臺進行設計,從軟件結構、通信方式以及數據存儲方式等各個方面進行了分析。最后利用系統動力學的原理,對影響平臺性能的因素進行了研究。

與Duke能源公司模擬的大數據解決方案相比,本文設計的平臺已經能夠采集、分析并處理海量數據,真正意義上在工業領域引入了大數據技術;而且此平臺還能夠處理來自多個數據源的數據,比通用電氣的大數據分析平臺具備一定的優勢。

參 考 文 獻

[1] 韓燕波,趙卓峰.面向大規模感知數據的實時數據流處理方法及關鍵技術[J].計算機集成制造系統.2013,19(3):641-653.

[2] 鄧華鋒,劉云生,肖迎元. 分布式數據流處理系統的動態負載平衡技術[J]. 計算機科學. 2007(07)

[3] 胡茂勝.基于數據中心模式的分布式異構空間數據無縫集成技術研究[D].武漢:中國地質大學,2012.

[4] 楊林青,李湛,牟雁超等.面向大規模數據集的并行化Top-k Skyline查詢算法[J].計算機科學與探索.2014, 12(26).

[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.

篇13

BI是過程不是產品

地處中西部并不發達的山西省,山西移動卻成為國內第一家構建BI系統的電信運營商。談起當時系統建設的出發點,王峰認為,這還是基于公司對數據、數據分析和數據挖掘的重要性有著充分的認識。山西移動在信息化建設的過程中,并不看重經驗,看重的是數據的價值,這也成就了公司在決策層面的領先。

對于當初系統建設的難點,王峰認為,一個純硬件平臺或軟件系統的搭建,不是很困難;困難的是,系統建設完成之后要有效地推動業務。與業務運營支撐系統和客服系統建設完成就必須使用的產品特性不同,經營分析系統更像推動業務轉化的一個過程,而不是一個建設好就必須使用的產品。正因為如此,經營分析系統并不處于必要的業務流程之內,業務人員可以用也可以不用。這就使系統的推廣并不是一件簡單的事情。

在經營分析系統部署初期,移動通信市場正處于一個爆炸式發展的時期,市場蛋糕以幾何級數增大,這使得經營分析系統的作用并不是那么明顯。為此,山西移動甚至整個移動集團內部在2002年到2004年有很多關于經營分析系統的培訓,目的就是推動系統在業務中的使用。

而現在的電信領域,已經不是十年前那個迅速膨大的市場蛋糕了,各種移動通信標準的競爭、運營商和終端生產商的聯合使得競爭不斷加劇。以前,即使沒有決策和營銷,市場也會發展起來,系統可以查驗數據就可以了。而近些年來的制度改革特別是去年3G牌照的發放,使得產品和營銷策略的制定越來越需要精細化。在如此激烈的競爭環境下,BI系統支撐業務發展、進行營銷、引導決策的重要作用就凸現了出來。王峰舉了一個例子:以前移動運營商可以捆綁銷售來電顯示服務,現在是不被允許的。這時就需要系統根據大量數據通過復雜的運算發現不同的用戶需要來電顯示服務的概率有多大,然后再對目標用戶進行服務推送。精確化的用戶和服務匹配,比廣撒網式的廣告營銷效果要好得多,有效地節約了成本。

大數據分析要更精細化

對大數據時代的到來,用戶數量眾多的電信運營商感覺尤為深刻。山西移動每天流入經營分析系統的數據量大約為300GB,龐大的數據量帶來了巨大的潛在價值和決策能力。

對于大數據時代的數據分析,王峰認為,山西移動的片區精細化管理就已經體現了大數據分析的特性。面對北京媒體,王峰以北京為例來說明片區管理的大數據特性。片區管理是地理緯度上的客戶分塊,例如北京包括東城區、西城區、海淀區等。而每個區又可以向下細分,比如西城區可以細化到金融街區,最后細化到移動基站的一個扇面區域。如果一個用戶在昌平入網,卻經常在金融街區通話,就要把用戶定位成一個金融街用戶。每一個細化的片區由一個片區經理管轄,金融街的片區經理就要對定義成金融街的客戶進行服務,例如問候短信或新產品通知。片區經理不僅要對現有客戶進行服務,還要對潛在客戶進行挖掘。山西移動要求片區經理對自己管轄區域內的每一棟寫字樓的每一家企業進行記錄并錄入片區化支持系統。根據掌握的多種數據,對用戶進行精細化分類和深度挖掘,進而進行相關的營銷活動,這種線上線下的共同合作,體現的正是大數據分析的特點。

片區化支持系統由Teradata公司協助山西移動搭建,目前已經完成了兩期。該系統以一年前Teradata提出的地理空間解決方案為基礎架構。Teradata的CTO寶立明介紹說,地理空間解決方案并非專門為電信運營商打造的技術,只是由于電信運營商的用戶可以通過手機定位其所處的位置,這一優勢使電信運營商成為地理空間解決方案的第一批用戶。而山西移動又是這一批用戶中的領先者。

山西移動的經營分析系統作用于營銷層面主要包含兩個核心應用。一個是核心客戶保有。核心客戶是指用戶UP值貢獻高、漫游行為較多,有重要影響的高價值客戶。如果某個核心客戶在一段時間內的主叫時長出現了顯著的下降,統計分析部就會在核心客戶保有的應用上發現這個用戶,認定該核心客戶有發展為普通客戶的可能,并且把與之相關的客戶明細提供給相關的市場營銷部門,由營銷部門對其實施保有措施。另一個應用是離網用戶關懷,與核心客戶保有應用相比,該應用是更針對離網客戶的預警。

對于海量數據的保有,山西移動的策略是數據與應用同在。一個應用上線有自己的生命周期,應用由哪個部門提出、應用的主要功能、開發人員、何時上線、預計使用期限等信息都會被記錄在生命周期管理系統中。當應用達到使用期限,根據實際效果如果沒有必要進行生命周期的延長,應用下線時就將相關的數據評估為無效,進行清理。

在經營分析系統上線的近十年時間中,山西移動的數據分析和決策進程正變得越來越科學。雖然在外部用戶層面,客戶很難感知到經營分析系統的存在,但山西移動正通過它進行著各種各樣的營銷活動,從而為用戶提供更精確的服務。而在山西移動內部,經營分析系統的內部客戶對數據的滿意度得到了非常大的提升,管理層和業務部門在決策上獲得了更好的支撐。

未來屬于將數據轉化為產品的公司。作為電信運營商,山西移動有著先天的優勢可以掌握海量的有效數據。面對大數據時代的來臨,多角度深層次的數據分析也正在成為山西移動統計分析部門支持決策的重要手段。

鏈接

Teradata通過收購應對大數據分析