日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

大數據處理論文

引論:我們為您整理了1篇大數據處理論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

大數據處理論文

數據處理論文:電子商務大數據處理研究

當今時代,是一個信息化和網絡化的時代,電子信息技術的產生對人們的生產和生活產生了極其重要的作用和影響。隨著人們生產生活水平的不斷發展,電子商務順勢而生,在人們的日常生活中占據了極大的比重,對人們的消費理念和消費方式產生了顛覆性的改變。電子商務平臺依托于傳統零售業的基礎,憑借電子信息技術和網絡技術的不斷發展,促進了銷售方式的改變。大數據作為一種新型的信息技術,能夠有效采集、存儲和分析數據,能夠提高數據信息的有效性,對于電子商務的發展而言,提高了銷售的針對性和度,促進了銷售的轉化和成交的比例,在人們消費觀念普遍轉化的今天,以大數據處理模式為基礎的電子商務呈現出蓬勃的發展態勢。那么,大數據處理模式的特點和意義體現在什么地方?大數據處理對電子商務有哪些影響?大數據處理模式不斷發展條件下的電子商務有什么樣的發展趨勢和發展前景?

1大數據處理模式的意義和特點

大數據處理模式,是依托于信息技術和互聯網技術的不斷發展而興起的一種新型技術模式,能夠有效地處理大批量的數據信息,并保障信息的安全性和性。大數據處理模式,突破了傳統意義上的信息搜索和信息存儲,有效捕捉和管理數據信息,決策力更強,洞察力更優,效率更高,信息更多樣化。大數據處理模式,改變了傳統數據收集的意義,對于數據信息的收集,其意義不在于數據信息的存儲,而是對所收集到的數據信息進行刪選整合等一系列的專業化處理,實現數據信息的轉化和升值,為不同行業不同領域的銷售轉化提供參考和動力,有效實現產業升級和企業盈利。大數據處理模式與傳統的數據庫不同,海量的數據只是基礎,能夠進行復雜有效的數據分析,才是大數據處理模式的顯著優勢。大數據處理模式有四個顯著特點:及時,數據量大。大數據處理模式能夠存儲海量信息,并保障信息的安全性。第二,數據的類型繁雜。大數據處理模式下的數據,突破傳統的數據概念,將圖片、視頻、位置數據等都統稱為數據信息。第三,數據信息的處理速度極快。無論是何種類型的數據,無論是何種形式的數據,大數據處理模式都能在短時間內分析出數據價值,促進轉化。第四,較高的數據價值回報。對于海量的信息,大數據處理模式能夠進行專業性的分析,并能夠在分析后對數據的使用和應用方式提出指示性建議,帶來較高的價值回報。總之,大數據處理模式是當今時代海量數據分析的首要選擇,也是眾多行業眾多領域越來越傾心的數據處理的前沿方式,在信息技術和互聯網技術不斷發展的背景下,必定會得到更為長足的發展。

2大數據處理模式對電子商務的影響

2.1提高了電子商務領域信息檢索的能力

電子商務平臺,是依托于信息技術和互聯網技術的不斷發展而興起的商業模式,極大地改變了當代消費者的消費心理和消費習慣,但是,電子商務信息冗雜,無論是商品的種類還是商品的數量,都有海量的商家可供選擇,增加了用戶刪選的難度。只有改變這種雜亂無章的非結構化信息數據,才能提高電子商務的運營水平和銷售轉化。大數據處理模式,使得信息數據的處理更為針對性,更為靈活化。電子商務充分利用大數據處理模式,能夠實現信息數據的有效檢索,根據用戶的消費需求進行針對性的信息顯示,根據用戶的消費習慣進行性的信息篩選,使得電子商務的運作更為智能化,更為高效性。大數據的處理模式,使得信息推薦更有針對性,提高了用戶的消費質量和消費效率,節省了消費時間和消費精力,用戶只要輸入相關字眼,就能夠迅速反饋出用戶所需的信息資源,大大提高了消費用戶的滿意度。

2.2提高了電子商務平臺彈性處理的能力

電子商務平臺的發展,離不開信息數據的處理。大數據處理模式的發展,提高了電子商務平臺的彈性處理能力,能夠在極短的時間內反饋,對大量的用戶訪問做出及時地回饋和反應。對于電子商務而言,商家的營銷活動時時有、日日有,大量活動信息的堆積必然造成大量的訂單信息,這就對數據信息的處理提出了更高的要求。大數據的信息存儲能力有效地解決了這一問題,保障了信息存儲的安全性,優化了資源配置,實現了信息數據的即取即用。電子商務的發展,依托于對信息數據的及時反饋和刪選,彈性的信息處理能力才能讓電子商務的發展如虎添翼,提高其運營的整體水平和質量。

2.3保障了電子商務行業信息處理的安全性

大數據處理模式的發展,保障了電子商務行業信息處理的安全性。電子商務是依托于信息網絡技術的不斷發展而興起的消費模式,難以避免地會面臨數據信息安全與否的問題。網絡系統的癱瘓、網絡交易安全的缺失都會對信息安全帶來極大的威脅。而對于電商的消費用戶而言,信息安全和交易過程的安全是他們最為關心的事情,不容忽視。大數據處理模式的引進,有效存儲用戶的信息,及時對網絡攻擊現象進行審查和定位,對于一些非正常的攻擊現象及時收集并分析,采取有效的預防和處理措施,保障信息資源的安全性和性。云計算技術的引用,還能夠將一些的信息進行進一步的轉化,使之成為云服務,進而托管在云端,對這些的、重要的信息進行更為專業的防護和保密,較大化信息安全。此外,大數據的處理模式還能夠將一些敏感性的、數量極大的數據信息進行轉化,使之成為可用的信息資源,為下一步創造直接的經濟價值奠定堅實基礎。

3大數據處理模式不斷發展的條件下電子商務的發展趨勢

3.1大數據的發展推動了電子商務平臺服務和產品的多樣化

大數據的不斷發展,推動了電子商務平臺服務和產品的多樣化發展。電子商務是以服務和產品為主導的行業類型,高質量的服務和產品才是提高行業效益的根據手段和運營方式。對于電子商務所針對的用戶群體來說,大數據的不斷發展,能夠有效分析這些客戶群體的喜好和偏愛,能夠刪選有效的客戶信息,能夠有效進行客戶的針對性信息發送,提高信息的針對性和度,并根據客戶信息的提示進行服務類型和服務方式的調整,根據客戶的偏愛進行產品類型的刪減和增添,以促進銷售。以書包為例,不同年齡有不同的風格喜好,不同性別有不同的類別偏好,以藍胖子為主題的書包類型一定不是酷炫殺馬特風格的青少年的囊中物,胡巴的卡通形象才是呆萌少女最熱衷的產品類型。根據客戶不同的喜好和性格,可以有效改變服務和產品類型,帶動一定量的銷售業績。

3.2大數據的發展推動新型電子商務運營模式的產生和發展

大數據處理模式的出現,對傳統的經濟模式造成了一定的沖擊,產生了一系列的個性化服務和定制化產品類型,這些都直接影響了電子商務行業的運營模式,傳統的運營理念已經遠遠不能滿足社會的發展要求和信息技術的進一步發展,創新電子商務的運營模式才能為電子商務的發展開辟一條坦途。大數據處理模式的出現,對電子商務進行了區別和分析,根據所運營產品和服務對象的不同,依托于互聯網的力量,歸納出不同的運營模式:B2B的企業互惠,B2C的網絡直銷,C2C的消費者交易,O2O的互聯網銷售等,有效提高了交易速度,簡化了交易流程,提高了交易質量,便捷了交易模式,大數據處理模式影響了電子商務不同模式競相爭榮,成為互聯網時代下一道亮麗的風景線。例如,近兩年不斷興起的上門服務,革新了傳統的銷售模式和運營方式,以消費者的訴求為根本,從消費者的消費習慣和消費心理出發,滿足消費者的消費體驗,便捷了操作模式和操作流程,明顯提高了交易質量和效果。

3.3大數據的發展推動IT設施在電子商務企業發展過程中的核心競爭力

量大數據的不斷發展,推動了IT設施在電子商務企業發展過程中的核心競爭力量。傳統的銷售,以用戶為根本,以產品為主打,大數據處理模式下,雖然離不開產品的競爭力和用戶的體驗,但是卻借助大數據的信息處理功能,有效提高了整個交易流程的轉化。對于電子商務而言,生產成本、企業管理、運營模式都會影響企業在社會中的不斷發展和其在市場中的競爭力,積極引進大數據的處理模式和相應的IT設施,能夠實現資源的優化配置和數據信息的有效利用,降低企業的生產成本,提高企業的產銷率,并較大化企業的運營管理水平。對于電子商務而言,由于其對信息技術水平和網絡技術的依賴性極大,積極應用云計算構架,采取大數據處理,能夠有效存儲海量的數據信息,并對數據信息進行刪選,為電子商務的不斷發展奠定堅實的基礎。總之,大數據處理模式的產生不是偶然的,而是當今時代信息技術與網絡技術不斷發展的產物,對各行各業都有著舉足輕重的作用和影響。電子商務作為一種網絡條件孕育下的銷售方式,必須立足于網絡環境的大背景下,以大數據的處理模式有效處理客戶信息和相應的數據資源,提高數據信息的有效性和價值意義,促進數據信息的有效轉化,提高客戶的精準度,提高銷售量和銷售質量,推動整個電子商務平臺的有效運營和整個行業的不斷發展。

作者:屈志強 喬靜 單位:濟寧醫學院

大數據處理論文:移動通信網絡中大數據處理關鍵技術研究

摘要:社會的發展以及人們生活水平的提升使得移動通信網絡的應用范圍得以大范圍推廣,并且伴隨著社會對移動通信網絡需求的增強,大數據處理技術的應用就應運而生了,本文就此展開論述。

關鍵詞:移動通信網絡;大數據處理;技術分析

伴隨著我國綜合國力的增強,科技水平也得到了進一步增強。計算機技術作為新時代的重要基礎技術,其應用范圍的擴大,在一定程度上促進了信息技術的騰飛發展。伴隨著日漸龐雜的數據規模,使得大數據處理技術應時代而生。同時移動通信網絡技術的發展,極大的方便了人們的工作和生活。為了滿足人們日益增長的通信需求,移動通信網絡也需要具備更加有力的數據處理能力和處理速度。

1大數據技術概述

現階段,我國數據的發展主要包括以下幾個階段:及時,被動產生階段。伴隨著數據庫的出現,其在規范社會數據方面意義深遠。不過該階段數據庫的作用相對較為被動,其服務的對象主要為政府、大型企業等,諸如銀行以及超市等主要進行經營活動而產生的數據交易記錄;第二,主動產生階段。伴隨著互聯網技術的騰飛發展,社會經濟活動日漸頻繁,相應的也會產生大量的數據信息。同時在這大量的數據信息中包含著大量的用戶原創性信息內容,其主要借助QQ日志、微博、博客以及微信等方式到網絡上。此外智能化電子產品的誕生,為人們這些原創信息提供了便利。因此,該階段所產生的數據信息量不僅數量巨大,且多是主動產生的。第三,自動產生階段。隨著大數據時代的到來,使得數據開始進行自動產生。主要原因在于移動通信網絡和物聯網之間得到了有效融合,從而推動數據自動產生,并直接推動者大數據時代的到來。大數據技術主要具備如下幾個特點:及時,需要處理規模相對較大的數據。大數據技術通常需要處理PB級甚至是EB級的數據量。第二,數據非結構化。在大數據時代,非結構化的數據迅速增加,高達數據總量的80%左右。第三,多源異構。由于基于物聯網環境下,大數據多運用傳感器、移動設備等異構終端來進行數據的采集,這樣很容易導致數據出現多源異構特點。第四,數據處理的實時性。生活節奏的變快使得人們需要快速處理各種信息數據,因此在線實時處理數據則是大數據時代的另一重要特點。

2大數據處理的關鍵技術

在移動通信網絡中,尤其是物聯網中,很多終端設備都是處在無人監控狀態下,加之這些終端設備所處環境大多較為惡劣,因此在物聯網進行數據采集時,往往會出現很多錯誤,因而收集到的原始數據就缺乏性,譬如采集的一些數據會和實際產生一定誤差,一些數據收集不完整,又或者是一些數據是無關多余的。因此,這就需要通過各種方式來提取所需的數據。就當前來看,有許多數據清洗技術,然而這些數據只適用于較強結構化的數據,大數據又是非結構性,因而并不能起到很好的作用。而且利用該技術也無法處理大量數據,這就難以體現大數據的實時性。因此,在大數據清洗技術的研究方面還需要進一步研究。大數據有非常多的來源,將收集到的各方數據融合在一起對于數據分析相當重要。數據融合就是收集到的數據源是不一樣的,這些數據要通過不同表象來表達實體,這就需要將數據轉換成為對同一個表象的表達,減少相關數據產生沖突的過程。在移動通信網絡當中,數據的多源性比較普遍,因而對數據進行統一十分必要,讓各數據之間產生關聯。這就要使結構化和非結構化數據發生關聯,再以數據融合來提取關鍵數據。經過一系列處理之后,就要分析所獲得的大數據,并挖掘出新的數據。要將移動通信網絡中的大數據分析和挖掘出來就要從數據表示和存儲兩個方面給予充分考慮。其中,要借助先進的挖掘工具,并改善數據開發環境。另外一項大數據處理關鍵技術是利用可視化來進行數據分析。眾所周知,移動通信網絡有著十分龐大的數據量,其挖掘結果也是大數據,通過可視化分析這些大數據可以讓人們對這些數據更加容易的理解,進而更深入來分析這些數據;并且對數據進行可視化分析,能夠促進人機交互的開展,利用人機交互來處理大數據可極大的提升數據處理能力和工作效率。當然,移動通信網絡當中大數據的處理不僅僅局限于上述挑戰,安全問題也是大數據處理所面臨的重要問題,因此需加強數據管理,不斷提升數據處理技術水平,最終實現大數據有效管理。

3云計算

經分析可以看出,移動通信網絡大數據處理有兩大趨勢,主要是數據量驟增以及分析深度加劇。這對于移動通信網絡大數據的處理來講無疑是一大挑戰。而云計算的出現則讓移動通信網絡大數據處理有了新的思路。2004年,Google就提出了MapReduce技術來作為處理大數據分析和處理的計算模型,此舉一出立刻引起了廣泛關注。MapReduce技術包含了三個層面,即分布式文件系統、并行編程模型以及并行執行引擎。MapReduce技術的出現引起了各方面關注,而在運行中,慢慢發現其很多不足之處,譬如不支持Schema、沒有存取優化以及依靠蠻力來處理數據等等。針對MapReduce當中的不足,研究人員進行了深入研究,對其性能進行了相應提升,并對易用性進行了一定的改進,經過實踐證明,MapReduce是分析和處理大數據的一種有效工具,但是在進行大數據處理過程中,MapReduce依舊有著缺陷和不足。就大數據處理模式角度而言,流處理和批處理是其中最為重要的模式。MapReduce只可以運用批處理模式來處理大數據。然而實際狀況是,眾多的社交網站和電子商務均需要進行在線處理,而MapRe-duce卻只能愛莫能助。綜上,移動通信網絡所產生的數據量不斷增多,這些數據為社會帶來了便利,然而也面臨著大量數據要處理的現實問題。對此應用大數據處理關鍵技術來解決越來越多的數據難題,盡管還存在一些不足,但相信在科技的發展下這種情況會得到有效改善。

作者:賈麗華 單位:沈陽電信工程局

大數據處理論文:大數據時代下的電力自動化系統數據處理

摘 要:我國電力市場發展度較快,電力系統也正逐步向自動化邁進,并且在運行過程中產生了大量數據,我們將其稱之為"大數據時代"。本文主要闡述了電力自動系統在運行過程中產生的具體數據情況,并分析了基于大數據時代背景下如何做好電力數據處理工作。

關鍵詞:大數據時代;電力自動化系統;數據處理

電力自動化數據的處理工作中,要針對不同的數據類型以及系統不同部分對數據的不同要求建立起對應的系統數據資源處理體系。通過建立并整合綜合數據庫、完成電力系統安全防護規范、形成完善的調度數據體現功能等實現對電力自動化系統中數據的有效處理。

一、電力自動化系統的類型分類

1.基礎型數據:主要是與電力自動化系統中的電力設施設備屬性相關的數據,如,發電機、變壓器等電力設施設備的基礎數據。對于這些數據一般是電力單位根據相關的數據規劃各自進行管理,并通過相關數據服務器對其數據進行數據同步,便于調度中心對這些數據進行集中存儲、整理和相關計算。

2.實時數據:大多數是在電力系統運行過程中進行實時采集的數據,其數據量很大,對存儲空間的要求比較高。這些數據是在電力系統運行過程中產生的,通過對其進行糾錯處理后,能夠為調度部門或市場運營提供決策參考依據。目前,我國電力自動化系統在實時數據處理方面比較成熟,對收集到的實時數據不需要進行相關的處理,只需要在數據輸入、輸出過程中建立一個穩定的接口即可。

3.日常管理的數據:主要是在電力系統運行過程中對各種相關數據進行統計,各部門對在工作中遇到的問題進行相關處理后的數據信息。一般情況下,這些數據只需要在特定的范圍內進行同步和共享即可。在電力系統運行過程中,建立這一類型數據同步和共享的數據平臺是十分必要的。主要原因表現在以下幾個方面:①這些日常管理的數據在某種程度上反映電力系統中電力設施設備的運行情況;②方便電力系統中各個部門對日常管理數據的獲取,以便更好的開展部門工作。

4.市場經濟數據:隨著市場經濟的發展,電力系統的經濟效益越來越突出,電力系統運行中的相關數據對電力單位的發展具有重要影響,將其作為經濟性數據十分有必要。市場經濟數據對城市建設規劃中的電力規劃有很重要的決策參考依據。市場經濟數據具有非常大的擴展空間,其數據規劃的重點將是實時數據。

二、電力系統化系統中數據的獲取

電力系統化系統中數據的獲取就是整個數據的采集過程。在電力自動化系統中,主要包括了數據采集、數據處理以及數據轉發三個環節。在電力系統中,實現數據傳輸是進行數據獲取與采集的重要目的。在進行數據傳輸過程中,可以采用有限傳輸與無線傳輸兩種方式進行。在采用有限傳輸的過程中,主要通過使用電纜或者光纖進行傳輸。而在無線傳輸過程中,則可以使用微波或者無線擴頻的方式進行傳送。由于有限傳輸信號穩定,因此,在電力自動化系統當中主要是使用有線傳輸方式。但是,由于無線傳輸方式能夠減少線路的鋪設工作量,而且在較為偏遠的地區能夠方便的采集數據,而使得其在部分地區得到廣泛應用。

三、電力自動化系統中的數據處理

3.1數據共享

數據共享的主要方式主要包括以下幾種:(1)內存數據庫。利用內存數據庫有著安全性高、訪問速度快和結構靈活的特點,但是也存在著一些問題,那就是其開放性較低。(2)利用網絡進行通訊。網絡通訊的方式有UDP、TCP、IP等,在對數據進行打包發送的過程中,網絡通訊的方式相應速度較快,而且數據在處理的過程中,使用的是二進制的方式,這種方式在編程的時候較為復雜。(3)直接內存訪問。利用直接內存訪問的方式進行共享,有著傳輸速度較高、進入的速度較快的特點,但是在數據處理的過程中,對于整個系統的安全性會造成一定的影響。電力自動化系統使用的是DCOM技術來進行內存數據庫的訪問的,例如,遠程主機在進行數據共享的過程中,可以使用網絡映射的方式將遠程主機進行映射,使其映射到本地的磁盤中,這樣是便于數據的下載與更新的。

3.2數據流

數據流也是電力自動化系統運行中十分重要的組成部分,在數據處理中扮演著關鍵性得角色。隨著計算機技術和網絡技術的快速發展,數據流呈現出了連續性、順序性和實時性,整個過程的起點是在數據進入到了系統中開始,而數據在流動的過程中,那么信息的流動策略就會與整個系統的功能有著緊密的聯系。隨著電力自動化技術的不斷提高,電力系統在運行的過程中,數據量在逐漸的增加,整個系統結構也變得越來越復雜,必須要對相應的數據量進行科學的分析,這樣才能夠合理的部署,提高數據傳輸的效率,使數據流在運行的過程中,能夠充分的保障其性、安全性和實時性。數據流技術在處理的過程中,一定要將接口的統一性進行相應的處理,在這樣的情況下,就要充分的解決各個子系統之間的在接口統一性上的問題。

3.3電力自動化系統中的數據整合

電力自動化系統的建立及發展是基于“建立調度綜合數據應用與交換平臺,規范和整合調度系統數據”的基本要求,通過數據讓你過河、功能完善等方式使得不同的專業技術以及信息安全技術在系統中得到應用和體現。同時,電力自動化系統的整合工作必須基于國家電網調度系統的數據整合原則及基本工作框架進行。當前,系統建設的主要目標在于建立一個綜合數據庫、形成一個與電力二次系統安全防護要求相一致的信息交換體系,實現通用調度數據的體現。在具體的實施過程中,可以采取如下步驟進行:(1)基于既有系統開發多種分散數據的采集與整合工具,形成統一數據規格的管理規范,建立一個基于對象的數據處理數學模型,進而實現系統信息的相互關聯,實現信息區域的管理中心。(2)利用通用調度數據展現技術給電力自動化系統用戶提供便捷的數據分析、加工及理途徑。同時,開發并實現基于用戶自定義規則的調度數據綜合處理信息系統,實現對數據的重復利用。(3)開發橫向調度數據接口技術,通過完善并統一對外調度接口的方式,避免出現數據多重交叉的以及重復輸出問題。(4)形成上、下級縱向調度數據的標準接口,構建起廣域范圍中的金字塔式形式的立體數據體系。

四、智能電網

1.智能電網中的網絡拓撲結構

智能電網中的網絡拓撲結構具有堅強、靈活的特點,能夠有效的解決電力系統中能源和生產力分布不均勻的問題,滿足電力企業大規模生產運輸過程中產生大規模數據的處理功能,實現資源的優化配置,減少電能損耗。同時,智能電網中的網絡拓撲結構能夠有效的應對一些自然災害,如雨、雪等。

2.開放、標準、集成的通信系統

智能電網能夠對電力自動化系統進行及時有效的監控,主要在其具有識別故障早期征兆的預測能力和對故障做出相關的相應的能力。智能電網是電力自動化企業的發展方向,能夠為電網規劃、建設和運行管理提供的數據信息,有利于大數據時代下電力自動化運行系統的穩定、安全和高效的運行。

結語

自動化系統的正常運行,一定要充分考慮到系統運行中數據信息的數量信息,便于數據的維修和存儲空間的無限擴展。文章主要是分析了自動化系統的數據類型,并且對其進行了詳盡的分析,對于相關問題進行了闡述,給電力自動化系統提供了更加廣闊的空間,并探究了智能電網在電力自動化運行系統中運行的優勢和未來的發展方向。

大數據處理論文:大數據處理平臺比較研究

摘要:大數據環境下,傳統的數據處理方式不再適用,以云計算技術為支撐的大數據處理平臺應運而生。比較了開源Hadoop和Spark平臺各自的優缺點,發現各自的適用范圍:Hadoop適用于數據密集型任務,并廣泛應用于離線分析;Spark因其基于內存計算,在迭代計算和實時分析領域占據優勢。二者在功能上有較強的互補性,協同使用可以發揮更大效益。

1大數據處理平臺

1.1大數據特點

目前,大數據還沒有一個標準定義,但是把握大數據的特征,有助于加深對大數據內涵的理解。數據具有的3V特征,即規模大(Volume)、種類多(Variety)、速度快(Velocity)。規模大,意味著數據量不斷擴張,數據量級從現在的GB、TB增長到PB、EB甚至ZB級;種類多,指數據類型有結構化、半結構化和非結構化,其中文字、圖片、音頻、視頻等非結構化數據占很大比例;速度快,表示大數據有強時效性,數據快速產生,需要及時處理及分析才能實現大數據的經濟價值。 大數據的處理過程為數據抽取與集成、數據分析以及數據解釋 [1]。巨量的數據往往也意味著噪聲較多,這給數據清洗工作造成困難。傳統的關系型數據庫處理對象單位通常為MB,適合處理存儲結構化數據,而面向大數據的數據庫技術能夠解決海量的非結構數據存儲問題。傳統的數據分析方法以算法的率作為重要的衡量指標,而大數據的高速性要求算法必須犧牲一部分性以更高效地處理數據。

1.2大數據處理平臺

為從規模巨大、種類繁多、生成快速的數據集中挖掘價值[2],針對大數據的技術和方法應運而生。GFS、NoSQL、ITHbase、MapReduce等云計算技術發展,使大數據有效存儲、管理和分析成為可能。但從眾多復雜的大數據技術中進行選擇,并搭建完備的大數據處理框架難度很高,不利于挖掘大數據中的經濟價值。大數據平臺能在用戶不了解架構底層細節的情況下,開發大數據應用程序。全球經驗豐富的科技巨頭紛紛提出了建設與應用大數據處理平臺:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平臺[4];Google提出的GFS、MapReduce等云計算技術催生了大數據處理平臺的事實標準Hadoop。目前,Google使用的是自己開發的Caffeine[2];Facebook結合自身需求實現了Corona、Prism。完備、高效的大數據處理平臺為大數據應用提供一站式基礎服務,支持應用系統從清洗、集成、分析到結果可視化展現全過程建設,降低了用戶技術門檻[5]。

2大數據處理平臺比較

Hadoop的支撐技術(MapReduce等)成熟,實現了海量數據分布式存儲和批量處理,應用廣泛,成為大數據處理平臺的事實標準。Spark以其近乎實時的性能和相對靈活易用而受到歡迎,它同Hadoop一樣都是Apache旗下的開源集群系統,是目前發展最快的大數據處理平臺之一。

2.1Hadoop與Spark比較

2.1.1Hadoop及特c Hadoop是由Apache開發的開源云計算平臺,實現在大量計算機組成的集群中進行分布式存儲和計算。Hadoop框架最核心的技術是HDFS和MapReduce。HDFS是可部署在廉價機器上的分布式文件系統,采用主/從結構,將大文件分割后形成大小相等的block復制3份,分別存儲在不同節點上,實現了海量數據存儲。MapReduce編程模型實現大數據處理,它的核心是“分而治之”[1]。Map任務區將輸入數據源分塊后,分散給不同的節點,通過用戶自定義的Map函數,得到中間key/Value集合,存儲到HDFS上。Reduce任務區從硬盤上讀取中間結果,把相同K值數據組織在一起,再經過用戶自定義的Reduce函數處理,得到并輸出結果;將巨量資料的處理并行運行在集群上,實現對大數據的有效處理。 Hadoop具有如下優點[69]: (1)高擴展性。Hadoop的橫向擴展性能很好,海量數據能橫跨幾百甚至上千臺服務器,而用戶使用時感覺只是面對一個。大量計算機并行工作,對大數據的處理能在合理時間內完成并得以應用,這是傳統單機模式無法實現的。 (2)高容錯性。從HDFS的設計可以看出它通過提供數據冗余的方式提供高性。當某個數據塊損壞或丟失,NameNode就會將其它DataNode上的副本進行復制,保障每塊都有3份。所以,在數據處理過程中,當集群中機器出現故障時計算不會停止。 (3)節約成本。首先,Hadoop本身是開源軟件,免費;其次,它可以部署在廉價的PC機上;“把計算推送給數據”的設計理念,節省了數據傳輸中的通信開銷。而傳統的關系型數據庫將所有數據存儲起來,成本高昂,這不利于大數據產業發展。 (4)高效性。Hadoop以簡單直觀的方式解決了大數據處理中的儲存和分析問題。數據規模越大,相較于單機處理Hadoop的集群并行處理優勢越明顯。 (5)基礎性。對于技術優勢企業,可以根據基礎的Hadoop結合應用場景進行二次開發,使其更適合工作環境。比如,Facebook從自身應用需求出發,構建了實時Hadoop系統。 Hadoop系統局限性 [1011]:①不適合迭代運算。MapReduce要求每個運算結果都輸出到HDFS,每次初始化都要從HDFS讀入數據。在迭代運算中,每次運算的中間結果都要寫入磁盤,Hadoop在執行每一次功能相同的迭代任務時都要反復操作I/O,計算代價很大。而對于常見的圖計算和數據挖掘等,迭代計算又是必要的;②實時性差。Hadoop平臺由于頻繁的磁盤I/O操作,大大增加了時間延遲,不能勝任快速處理任務;③易用性差。Hadoop只是一個基礎框架,精細程度有所欠缺,如果要實現具體業務還需進一步開發。MapReduce特定的編程模型增加了Hadoop的技術復雜性。

2.1.2Spark及特點 Spark的整個生態系統稱為BDAS(伯克利數據分析棧),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark是為了實現大數據的快速處理而設計的,可以用來構建低延遲應用。Spark以RDD(彈性分布數據集)為基礎,實現了基于內存的大數據計算。RDD是對數據的基本抽象,實現了對分布式內存的抽象使用。由于RDD能緩存到內存中,因此避免了過多的磁盤I/O操作,大大降低了時延。Tachyon是分布式內存文件系統,類似于內存中的HDFS,基于它可以實現RDD或文件在計算機集群中共享。Spark沒有自己的文件系統,通過支持Hadoop HDFS、HBase等進行數據存儲。Spark更專注于計算性能,其特點如下[1113]: (1)高速性。Spark通過內存計算減少磁盤I/O開銷,極大縮小了時間延遲,能處理Hadoop無法應對的迭代運算,在進行圖計算等工作時表現更好。高速數據處理能力使得Spark更能滿足大數據分析中實時分析的要求。 (2)靈活性。較之僅支持map函數和reduce函數的Hadoop,Spark支持map、reduce、filter、join、count等近80多種操作類型。Spark的交互模式使用戶在進行操作時能及時獲得反饋,這是Hadoop不具備的。Spark SQL能直接用標準SQL語句在Spark上進行大數據查詢,簡單易學。盡管在Hadoop中有Hive,可以不用Java來編寫復雜的MapReduce程序,但是Hive在MapReduce上的運行速度卻達不到期望程度。

2.1.3Hadoop與Spark特點比較分析 Hadoop具有高擴展性、高容錯性、成本低、高效性、不適合迭代運算、實時性差、易用性差等特點,與之相比,Spark最突出的特點是高速性和靈活性,基于這些特點分析總結如下:Hadoop更注重存儲性能,而Spark更專注于計算,可以形象地將二者的處理方式比作“大砍刀”和“剔骨刀”,前者可以勝任更加繁重的任務,但難免粗糙,后者則勝在快速、靈巧上。

2.2Hadoop與Spark應用場景比較

2.2.1Hadoop應用場景 Hadoop的高擴展性、高容錯性、基礎性等優點,決定了其適用于龐大數據集控制、數據密集型計算和離線分析等場景。針對Hadoop的局限性,為提高Hadoop性能,各種工具應運而生,已經發展成為包括Hive、Pig、HBase、Cassandra、YARN等在內的完整生態系統。HBase新型NoSQL數據庫便于數據管理,Hive提供類似SQL的操作方式進行數據分析,Pig是用來處理大規模數據的高級腳本語言……這些功能模塊在一定程度上彌補了Hadoop的不足,降低了用戶使用難度,擴展了應用場景。

2.2.2Spark應用場景 與Hadoop不同,Spark高速、靈活的特點,決定了它適用于迭代計算、交互式查詢、實時分析等場景,比如,淘寶使用Spark來實現基于用戶的圖計算應用[11]。但是,其RDD特點使其不適合異步細粒度更新狀態的應用[1],比如,增量的Web抓取和索引。RDD的特點之一是“不可變”,即只讀不可寫,如果要對RDD中的數據進行更新,就要遍歷整個RDD并生成一個新RDD,頻繁更新代價很大。

2.2.3Hadoop與Spark的互補競爭關系 Hadoop與Spark同櫬笫據處理平臺,必然在市場中存在一定的競爭替代關系,二者在功能上有較強的互補性。Hadoop解決了如何將大數據儲存起來的問題,Spark在此基礎上考慮的是更快速、易用地實現大數據分析,這點從Spark仍采用HDFS作為文件系統就可看出。它們適用于不同的應用場景,有時協同工作會達到更理想的效果,在Spark和Hadoop的許多發行版(如CDH、MapR、InfoSphere BigInsights)中,它們都已經互相支持實現。

3結語

本文分析了大數據的3V特點,論述了大數據處理與傳統數據處理的不同,指出了傳統處理方式在大數據環境下的局限性。通過分析常用的大數據處理平臺,并分析Hadoop和Spark的核心技術,對其優缺點進行了歸納。Hadoop實現了海量異構數據的存儲和處理,雖然在處理速度和易用性方面存在缺陷,但由于它的基礎性還是得到廣泛應用,企業可根據自身應用特點進行改進。雖然Spark不適合異步細粒度更新狀態的應用,但在處理性能和易用程度上較Hadoop優勢顯著,發展也十分迅速。通過比較兩者的優缺點,可以發現它們在功能上有較強的互補性,協同使用可以帶來效益優化。目前Spark和很多Hadoop發行版都已經互相支持。期望本文對大數據處理平臺的選擇、利用和研發有所啟發。

大數據處理論文:大數據處理技術在智能電網領域中的應用研究

【摘要】 文章首先對智能電網和大數據處理技術進行了簡介,進而分析了智能電網的大數據特點,提出了大數據處理技術在智能電網領域中的具體應用。

【關鍵詞】 大數據處理技術 智能電網 具體 應用

前言:隨著我國工業的高速發展以及居民生活的豐富化,目前我國的電力行業取得了巨大的發展,跨區聯網的規模處于不斷擴大中。而就電網結構而言,也處于不斷復雜的趨勢下,存在的不穩定因素也越來越多,使用中的風險以及故障的機率特增加了很多。進而大數據分析處理技術得以在電網中使用,實現了電網管理的智能化,提升了電網使用的穩定性和安全性。基于此,文章圍繞大數據處理技術在智能電網領域的應用為中心,分三部分展開了細致的分析探討,旨在提供一些該方面的理論參考,以下是具體內容。

一、智能電網和大數據處理技術簡介

1.1智能電網

所為智能電網指的是以基本的物理電網為基礎,通過應用目前的現代信息技術、通信技術以及計算機處理技術等技術,同時和傳感測量技術一控制技術進行結合,進而形成的一種高度集成的新型電網。智能電網在電網運輸的安全性和性上都于很大的保障,同時從功能上觀察,也具備電網實時信息的處理、分析、集成、安全以及顯示等諸多功能[1]。

1.2大數據處理技術

所謂大數據處理技術就是對數量龐大的數據進行分析和處理的技術。目前主要使用的大數據處理技術都是基于互聯網的云處理技術的,在社會中的各行各業中均有得到了廣泛的應用。

二、智能電網的大數據特點

2.1規模大

就智能電網所產生的大數據而言,其首先存在的一個特點即規模大。在電網的不斷發展過程中,其負荷節點和電機節電會不斷增加,再加之電網和負荷之間的雙向交互因素的影響,就會大大增加電網數據的量,M而所產生和需要儲備的數據也就隨之大量增加[2]。

2.2速度快

因為在電網的運作過程中,負荷的波動具有極大的隨機性,因此在電網的隨時監測工作上所產生的隨機性就很大。而電網一旦出現故障,導致的進一步事故發展的速度很快,并且造成的事故損失也會很大,因此智能電網的大數據也具有速度快的特點。

2.3多樣性

多樣性也是電網所具備的一個特點之一。因為智能電網在運作過程中,所涉及到的面很多,因此其所產生的數據,包括內部數據、外部數據等多個方面的數據,其種類十分繁多。

三、大數據處理技術在智能電網領域中的具體應用

3.1支持基建決策

首先大數據處理技術在智能電網的基建決策中起著十分重要的作用。例如可以通過大數據處理技術對電網基建地的天氣系統數據進行細致的剖析,并且和電網企業的發電機數據進行綜合分析。進而根據企業所累積的數據以及天氣系統所提供的風速、風向以及氣溫、氣壓濕度等數據作為基礎數據,并采用數據建模技術,對這些因素可能導致的對電力的影響,進行模式運算,得出電網基建的位置[3]。

3.2進行客戶分析

其次在智能電網中,大數據處理技術還被廣泛的應用于對客戶的分析工作中在電網的運作過程中會產生大量的用戶數據,而通過對這些數據的分析和歸類可以對電網用戶群體有一個清晰的認識,進而就可以展開針對性營銷,對于提升電網企業的市場競爭力具有重要的意義。

3.3實現協同化管理

從整體上觀察,對于電網企業而言,其在市場中的運作并不僅僅只涉及到電網企業一家,和市場的諸多行業均有一定的涉及,因此要保障電力企業的發展就必須和其他行業的企業做好協同工作。通過大數據處理技術的應用可以提升行業之間的聯系,進而可對行業的前景有一個動態的了解。而這不僅僅局限于電力企業一家,同時對其他和電力行業密切相關的企業也有十分巨大的影響,可促進電力企業的內外共同發展。

結束語:綜上所述,智能電網指的是以基本的物理電網為基礎,通過應用目前的現代信息技術、通信技術以及計算機處理技術等技術,同時和傳感測量技術一控制技術進行結合,進而形成的一種高度集成的新型電網。其在自身的大數據上具有規模大、速度快以及種類多樣的特點。而大數據處理技術在智能電網領域支持基建決策、進行客戶分析、提升智能控制以及實現協同化管理等多個方面都有十分廣泛的應用,是保障智能電網運作穩定性和安全性的一個基本技術。

大數據處理論文:基于人臉識別的智能大數據處理系統的研究

摘 要:構建一個基于人臉識別的智能大數據處理系統,將圖片中提取的人臉數據特征上傳到HBase分布式數據庫中進行存儲,使用Mahout提供的推薦、分類等數據挖掘算法進行數據挖掘,使用Echarts框架將挖掘結果直觀顯示給用戶。

關鍵詞:大數據;數據可視化;數據挖掘;數據預處理

1 概述

面對互聯網絡的海量數據,如何提取有用的信息并進行數據分析和挖掘就顯得尤為重要。一般置于商場和公共場所的數字標牌廣告機只具有信息顯示和信息功能,無法了解用戶更多行為,運用先進的人臉識別技術和視頻智能分析技術提供一套完善的解決方案,能夠智能統計和分析用戶狀態,幫助了解用戶的喜好。

基于人臉識別技術設計一個對人臉信息進行智能處理的系統,利用人臉識別技術統計商家數字標牌內容的觀看人數、觀看人的性別、年齡等信息,基于收集的數據利用大數據分析技術輔助產品提供者制定更加精準、人性化的推廣方案和內容。

2 關鍵技術簡介

2.1 Hadoop分布式數據處理平臺

Hadoop是基于MapReduce數據集計算框架對原始的數據集進行處理的平臺,可以快速、高效的海量數據進行快速處理。

2.2 HBase分布式數據

HBase是基于Hadoop平臺的分布式的開源數據庫,是一種基于列存儲的、非關系型的數據庫。

2.3 Mahout數據挖掘工具

Mahout是Apache旗下的一款數據挖掘工具,可以運行在Hadoop平臺上對數據進行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對數據處理提供了極大的便利性。

2.4 Echarts數據可視化工具

Echarts商業報表技術是一個純的JavaScript的圖表庫,其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點圖、K線圖、餅圖等等,提供了簡潔、直觀、生動、可交互的數據可視化圖表。

2.5 Face++人臉識別技術

Face++人臉識別技術可用于對圖片中人臉的檢測、微笑分析以及性別、年齡、種族、面部器官等坐標數據的獲取。

3 系統功能描述

基于人臉識別的大數據智能處理系統首先通過人臉識別技術收集信息,利用大數據處理技術分析用戶對內容的喜好,為不同性別、年齡、情緒狀態的用戶提供更加人性化的內容,在不同時段投放不同內容作出參考依據,為用戶帶來更好體驗同時為投資者帶來更豐厚的回報。具體包括人臉識別和數據分析兩部分內容。

3.1 人臉識別

(1)人臉檢測:通過攝像頭獲取人臉輪廓,提取特征生成特征數據庫。

(2)表情檢測:通過攝像頭判斷當前人臉是否注視攝像頭,可識別睜眼、閉眼、眨眼等動作。

(3)姿態檢測:通過攝像頭判斷當前人臉是平視、抬頭、低頭、左右轉頭等。

3.2 數據分析

通過人臉特征的提取,對其中的信息進行分析,根據統計數據,給出推薦的廣告位置和投放時間等信息,為商家提供參考依據。

4 系統構建

4.1 系統設計

針對系統的功能描述,構建分布式集群環境,通過圖片預處理、數據挖掘以及數據可視化三大核心模塊,完成系統的構建。

(1)圖片預處理

在數據處理前期對圖片進行預處理,利用Face++人臉識別技術,提取人臉信息,并將其上傳到HBase分布式數據庫中進行存儲。

(2)數據挖掘

使用Mahout開源的數據挖掘框架,進行參數設置后調用推薦、分類算法進行數據挖掘工作,獲取挖掘結果,并將其存放到數據庫中。

(3)數據可視化

從前臺獲取數據庫中存儲的挖掘結果,使用Echarts可視化工具進行數據顯示。

4.2系統實現

(1)人種興趣圖

鼠標放在某一區域時會顯示該人種所占的比例,點擊下載圖標時可將整個圖表以圖片的形式保存下來。

(2)數據分布圖

查看每個區域的數據分布情況,直觀明了。

5 結束語

本系統可以快速的對大量的人臉數據進行處理并提取出有效信息,在數據可視化平臺進行數據展示,給用戶以直觀、生動的數據感受。同時,用戶可以對相關結果進行下載、打印等操作。

大數據處理論文:Spark 2.0平臺在大數據處理中的應用研究

摘要摘要:Spark分布式框架具有利用數據集內存緩存、啟動任務的低遲延、迭代類運算、實時計算的支持和強大的函數式編程接口等特征。描述Spark 集群環境的搭建過程,將Spark 應用到預測森林植被中,對基于RDD和基于Data Frame接口的Spark隨機森林算法的性能差異進行比較。實驗結果表明,基于Dataset結構的隨機森林法預測效果好、執行時間短,可以廣泛使用。

0引言

數據爆炸式增長和隱藏在這些數據之后的商業價值催生了一代又一代的大數據處理技術。2004年Hadoop橫空出世,由Google公司提出的開源的MapReduces的大數據處理框架拉開了其在企業應用的序幕,它被視為解決高性能處理大數據的有效方案。但是MapReduces框架不僅存在單點故障,而且對實時數據和流式數據訪問能力弱,導致基于MapReduces框架的Hadoop平臺應用推廣受到較大影響。

Apache Spark是另一種分布式、開源計算框架,目的是簡化基于計算機集群的并行程序的編寫。Spark不僅可以發揮MapReduces對大數據的處理能力[1],還可以充分利用數據集內存緩存、啟動任務的低遲延、迭代類運算、實時計算的支持和強大的函數式編程接口[2]。Spark是Apache的頂級開源項目,功能不斷完善。現在近期版本為Spark 2.10,它集成了基于RDD和DataFrame(Dataset)兩種編程接口。為了簡化編程,方便更多人使用,同時進一步提高數據處理速度,Spark 3.0版本會摒棄直接面對用戶的基于RDD編程接口。目前,Spark分布式框架在基于機器學習和迭代處理的大數據分析上有廣泛應用。

1Spark2.0 基本原理

Spark繼承了MapReduces的線性擴張性和容錯性,同時對它作了一些重量級擴展,主要包括核心數據結構:RDD(Spark 3.0以后使用Data Frame、Dataset)。

RDD是Spark的核心數據結構,是一種基于內存彈性分布式數據集[3]。利用RDD可以把一部分數據,包括中間結果緩存在內存中,為后續計算所重復利用,不需要像其它計算結構需要反復訪問磁盤,節省了大量時間。與Hadoop MapReduce相比,其實驗的性能要快100倍,訪問磁盤的性能快10倍[4]。基于DataFrames/Dataset的高層API,利用PipeLine可以方便用戶構建和調試機器學習流水線,完成高效的數據處理。RDD(DataFrames、Dataset)數據結構解決了MapReduces存在的很多問題。

(1)解決了MapReduces啟動遲緩問題[5]。利用Spark采用的有向無環圖的任務調度機制,可以對多個Stage的Task進行串聯或并聯Excutor,無需將每個Stage的中間結果保存到HDFS,不需要訪問磁盤,因此可以節省時間。尤其在計算機集群的環境下,可以避免運算時過量的網絡和磁盤IO開銷。

(2)支持迭代計算。迭代計算需要訪問相同的數據集,采用基于內存的RDD/DataFrame/Dataset結構可以避免重新計算和從磁盤加載。

(3)支持實時計算。基于Spark構建Spark Straming 是在Spark基礎上的二次開發,主要是將其實時、流水任務離散化成一系列的DStream的數據窗口[6],最小窗口選擇只需要0.5~2s,滿足大多數的準實時計算場景。

(4)性能優化。Dataset API建立在Spark SQL引擎之上,它可以利用Catalyst來優化邏輯計劃和物理查詢計劃。而且采用特殊的Encoder,不僅可以有效序列化JVM object,還可以直接被Spark的許多操作,如Filter、Sort、Hash等使用,從而提高執行速度。

2Spark2.0在預測森林植被中的應用

目前,Spark支持4種運行模式。本地單機模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN,即Hadoop2。

2.1Spark分布式集群h境搭建

實驗環境所需的軟硬件設備如下:

軟件:操作系統采用Ubuntu Server 16.10 版本,Hadoop 2.7 版本,JDK 1.8 版本,虛擬軟件VMware Station Pro 12;硬件:1 臺聯想臺式機,CPU 是主頻3.4GHz的Intel的酷睿i7,超頻4.2 GHz,硬盤容量1T,內存16GB。

Spark集群環境的搭建過程如下:

(1) 安裝3臺虛擬機,OS版本ubuntu server 16.10 版本,并通過Hostname、Interfaces、Hosts文件分別設置主機名(Master、Slave1、Slave2)、IP地址,以及DNS映射關系,執行sudo ufw disable、Ping分別關閉防火墻以及檢驗3臺虛擬機互通無阻。

(2)在每臺虛擬機上安裝JDK、Scala、Hadoop、Spark并配置相關的Java環境變量。

(3)在每臺機器上執行安裝openssh-server服務,執行ssh-keygen生成SSH 密鑰文件,保障相互直接建立不需要密碼的SSH可信通道。

(4)修改Spark目錄下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件,確保能夠正常啟動Spark。

2.2隨機森林算法預測森林植被實現

在Spark機器學習中,用于分類的算法有很多,其中效果較好的有SVM和隨機森林算法。隨機森林(Random Forest,RF)是由 Leo Breiman 將 Bagging 集成學習理論[7]與隨機子空間方法[8]相結合,于2001年提出的一種機器學習算法[9]。RF利用Bootstrap重抽樣方法從原始樣本中多次隨機抽取不同特征的子集數據組成訓練樣本,構建多棵、合理、獨立的子樹,然后融合多棵決策樹的預測結果。在大數據背景下,RF不僅能夠與Spark和Map Reduce的并行處理特征結合,預測效果好,而且基于Dataset 的執行時間要比基于RDD的少。

為了更加深入地了解RF性能,尤其是測試效果,需要在實踐中進行檢驗。本實驗數據采用Kaggle大賽的數據Forestcover-Type-Prediction,記錄了美國科羅拉多州不同地塊森林植被特征:海拔、坡度、與水源的距離、遮陽情況和土壤類型,并給出了地塊的已知森林植被類型,共54特征,有581012個樣本[10]。本實驗主要比較基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異。關鍵代碼及參數如下:

2.3性能分析

通過對決策樹、隨機森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees(只有隨機森林才有此參數)、maxMemoryInMB等參數進行調試,對比其性能,找到參數及模型。下面分別從訓練時間、參數、預測效果的Accuracy 3個方面進行比較。

2.3.1尋找參數訓練時間比較

由表1可以發現,隨機森林算法的訓練時間,無論是基于RDD數據結構還是基于Datase結構,都要比決策樹算法的訓練時間長。實驗過程中的數據也顯示,隨著隨機森林算法的樹深度的加大和樹數量的增加,訓練時間明顯延長。

2.3.2尋找模型參數

從表2中可以發現,與決策樹的參數相比較,隨機森林算法的參數深度相近,桶數數量相差很大,該數據為調試參數有一定的參考意義。

2.3.3預測效果Accuracy比較

由表3可知,與決策樹的Accuracy相比,隨機森林算法的Accuracy明顯要高(無論是訓練數據、交叉數據,還是測試數據)。這說明多棵樹的評價效果比單棵樹的預測效果好。

3結語

Spark實現了分布式計算框架,它是采用分布式處理大規模數據的最有效途徑。在搭建好的實驗環境下,對基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異進行了比較,相對而言,基于RDD接口的隨機森林算法的執行效率較差。并且將隨機森林算法與決策樹算法比較,更好地體現了隨機森林算法良好的預測效果,但是訓練的時間進一步延長了。如何在集群環境中針對數據的特性,利用Spark平臺快速找到相應的模型并通過調整模型參數使預測效果達到,將是下一步研究的重點。

大數據處理論文:大數據以及大數據處理技術在醫院信息化建設中的應用

摘要:在大數據技術不斷發展的情況下,其在實際生活當中也具有了更廣的應用范圍。目前,醫院積極開展了信息化平臺的建設,要想有效的達成目標,就需要做好大數據技術的應用。在本文中,將就大數據以及大數據處理技術在醫院信息化建設中的應用進行一定的研究。

關鍵詞:大數據;大數據處理技術;醫院信息化建設;應用

在現今信息化時代背景下,各行業也大力開展了信息化建設。在醫院中,實現信息化平臺的建立與應用已經成為了醫院加強管理的重要突破口。其中,數據挖掘可以說是大數據當中的核心技術,通過該技術的應用,將在有效實現醫院信息化建設的同時提升工作效果。

1 數據挖掘技術

數據挖掘技術,即在從不、隨機以及大量的數據當中將其中不為人知且具有潛在作用知識、信息進行提取的過程。從醫院角度考慮,其關鍵數據挖掘技術有:建立數據關聯模型,了解哪些疾病在哪類病患身上容易并發;對成像儀器(如 B 超、CT 等)的影像數據進行挖掘等。這部分數據的獲得,對醫院的發展具有十分重要的意義,首先,在醫學領域當中,其具有較多的數據資源,且數據庫在復雜程度以及規模上不斷發展。在該種情況下,從大量數據當中做好有用信息的提取則成為了非常重要的一項工作。其次,在醫院信息系統中,也具有著大量的臨床信息以及管理信息,如何從這部分數據當中挖掘出有價值、深層次的知識,則是醫院發展當中的重要課題。而數據挖掘技術則能夠從海量數據當中提取有價值的信息,在對未來行為進行預測的情況下做出具有前瞻性的決策,能夠有效實現醫院管理能力的提升。

2 應用現狀

2.1 現有建設問題

目前,我國廣泛通過計算機的應用實現信息系統的建立,且有醫院逐漸對微機局域網進行了建設,并實現部分子系統的開發,如機關事務處理系統以及門診住院收費系統等。而在大多數醫院中,其在對系統數據進行處理時,僅僅限于刪除、查詢、修改以及統計這幾方面工作,對于這部分工作而言,其僅僅屬于醫院數據庫當中較低層次的應用,并沒有對數據實現深層分析與集成,也不能夠自動獲取醫學知識,并因此對系統的實際應用效果產生了較大的影響。在該種情況下,則需要醫院加強信息化建設,在以系統數據庫作為數據源的基礎上通過數據倉庫技術的應用對信息分析系統進行建立,也正是醫院現階段發展中非常重要的一項任務。

2.2 應用情況

目前,我很多醫院都已經逐步建立起了醫院信息管理系統,且在數據挖掘急速的應用方面也獲得了一定的發展,在醫院經營目標管理、財務物資管理、醫院質量管理以及經營決策管理方面都具有著十分積極的作用。舉一個簡單的例子,通過數據挖掘技術的應用,醫院則能夠在聯系就診疾病分類情況的基礎上對科室建設進行確定,如風濕性關節炎、慢性支氣管炎等病癥發病率近幾年逐漸減少,而部分慢性非傳染病如糖尿病、高血壓以及心腦血管疾病等發生率逐漸增加等。在做好這部分信息把握之后,醫院則可以更有目的的實現相應設備的購置,并建立起同其配套的科研中心或者重點實驗室。而在該技術在醫院信息化建設實際應用的過程中,也存在著一定的問題,其主要表現為:及時,在部分醫院中,其信息管理系統的實現目標更多為日常業務,如結算、掛號以及收費等,分析功能較為有限,從普通的查詢工具以及報表當中也能夠獲得,并沒有對數據挖掘技術的分析功能進行充分的應用;第二,在醫院不同業務部門中,具有大量常用的數據,但在實際存儲方式上則具有著較大的差異,如FoxPro、Oracle以及Acess等。該種情況的存在,則需要在根據信息源的不同對不同的分析應用進行開發,使醫院對數據綜合應用的廣度與深度以此獲得發展;第三,醫院在實際對信息系統進行應用時,該系統是公司在聯系具體科室需求的基礎上訂制的,并不能夠使數據庫的設計統一進行實現,不僅不同字段在長度、格式以及類型方面無法統一,且部分字段在設計當中也存在不合理的情況。而在對數據倉庫進行建立時,不同數據源數據也是實際決策分析工作開展的關鍵,如果以該方式對數據信息進行挖掘,則往往會存在問題。

3 應用建議

就目前醫院信息化建設當中在數據挖掘技術應用方面存在的不足,在未來工作中,可以從以下方面做好應對與優化:

3.1 明確建設理念

通常情況下,從系統功能角度分析,醫院信息化建設可以分為業務信息以及管理信息系統,在現今醫院信息系統中,都以聯機的方式對相關事務進行處理,在該處理方式中,管理層只具有數據匯總以及報表生成等較為簡單的功能。而在信息管理系統當中數據不斷增多的情況,如何通過這部分數據的應用推動醫院工作進一步與開展,則成為了現階段醫院發展當中需要重點解決的問題。對此,在醫院信息化建設當中,就需要先明確基礎指導理念,通過挖掘技術的科學運用實現自身數據庫的構建:首先,要從日常業務入手進行變革,加強信息流以及資金流等信息的收集,在信息收集完畢之后在存儲以及傳輸過程中其這部分數據的電子、網絡化進行實現,做好數據的積累與存儲。同時,醫院的決策者以及管理者也需要做好數據挖掘技術以及數據倉庫技術的應用,通過深入理解分析對數據庫當中有價值的信息與知識進行獲取,以此不斷實現醫院經營管理水平的提升。

3.2 掌握應用原則

要想在工作當中做好數據挖掘技術的應用,首先,就需要做好該技術應用流程的把握,在實際對數據挖掘技術進行運用時,其常用步驟有目標的確定以及模式發現等方面。其中,模式發現可以說是現階段醫院數據信息工作開展中的核心內容,在該內容中,其將可以在科學運用數據挖掘算法的基礎上對供決策應用的各類規則以及模式進行獲得;其次,要積極探索可視化操作。在技術應用中,能夠實現挖掘模型以及相關數據的可視化處理,也將因此影響到數據的解釋以及以及挖掘能力。在該種情況下,醫院則能夠充分應用可視化數據技術,以此使用戶在數據剖析方面具有更為清晰的特點,如可以將數據庫當中多為數據實現向多種圖形的轉變,以此在數據潛在規律以及內在本質揭示方面發揮更大的作用。

3.3 挖掘綜合信息

醫院在運行當中,患者在治療過程中將留下較為復雜且各異的治療記錄。在該種情況下,通過應用數據挖掘技術,醫院則能夠從新的視角觀察相關數據,并在做好數據觀察的同時深入的挖掘用戶綜合信息。如醫院可以從具體科室、病人身份以及出院時間等方面觀察醫院最近一段時間的工作情況,并在住院時間的基礎上繪制病人在院內的住院時間頻譜圖,以此對其分布規律以及集中趨勢進行觀察,此外,還可以將科室為基礎,對病人構成以及住院變化方面的規律以及相關因素在住院方面的影響進行積極的研究,通過數據挖掘技術在該過程當中的應用,則能夠在做好患者數據把握、深入分析的基礎上為醫院決策提供服務。

3.4 提升患者滿意度

在醫院發展中,其服務質量以及患者的滿意程度十分關鍵,不僅將對人的健康水平具有直接的聯系,同時也是醫院能夠獲得較好生存發展、是否具有較高生命力的重要問題,將直接對醫院經營成敗產生影響。通過數據挖掘技術的應用,則能夠在醫院提升患者滿意度方面作出更大的貢獻。如醫院在工作當中可以做好門診就診人次與各類醫院設備應用情況的分析,在對醫院醫療服務質量進行反映的基礎上將其作為管理人員決策的重要的依據,在對醫療成本進行降低的基礎上實現醫院綜合能力的提升。

4 結語

在網絡、信息技術不斷發展的情況下,使我們都身處在信息化時代當中。在信息化時代中,醫院在工作當中需要能夠做好大數據技術的重視與應用,在提升自身管理水平的基礎上獲得更好的發展。

大數據處理論文:基于大數據的綜合數據處理平臺方案設計研究

摘要:在大數據的發展時代背景下,我國的各行各業都在致力于將人、物、機等三元世界在網絡空間中進行交互、融合,以獲得互聯網上的大數據資源。在大數據資源的潮流趨勢之下,文章主要圍繞大數據的研究現狀、作用意義展開,在此基礎上探索綜合數據處理平臺,并對其平臺方案的設計進行研究,以促進我國信息化社會的建設。

關鍵詞:大數據;綜合數據處理;平臺方案設計;研究

隨著互聯網、物聯網以及云計算等IT技術的進一步發展,我國社會的各行各業都迎來了新的發展機遇和挑戰。在大數據的時代背景下,探索綜合數據處理平臺的方案設計研究,不僅能夠改變我國的經濟發展增長方式,而且還能夠讓各行各業的發展跟上時代潮流的發展步伐,提升我國產業經濟的國際競爭力,促進我國綜合國力的進一步提升。

1 大數據的概念及其作用、意義解析

大數據是一個高度抽象、凝練的概括詞,各行各業的專家、學者大多都是根據自己的理解來對大數據進行定義,因此,迄今為止,人們對大數據都沒有統一、標準的定義,大數據的概念還處于仁者見仁、智者見智的狀態。

大數據指的是所涉及的資料規模很大,無法通過目前的主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營者進行決策的資訊,這是維基百科對大數據的定義。可以看出在這概念中,維基百科對大數據的解釋主要側重點是強調大數據資源的規模量大的特點,并說明了大數據的功能作用是擷取、管理、處理以及整理相關的信息資源以供企業使用。從維基百科對大數據的定義來看,大數據所服務的對象主要是企業經營者,但就筆者看來,這一定義無可避免地帶有了維基百科本身的局限性。大數據并不僅僅是為企業經營者服務的,任何行業包括我國的基層政府、公、檢、法等部門都可以使用大數據資源來建立綜合數據處理平臺,以此對相關的決策、政策進行分析,為促進我國社會的發展貢獻力量。

在大數據的飛速發展過程中,其展現了自身的獨特作用和功能,對大數據進行精細化的研究,不僅有助于捍衛我國的網絡空間的數字主權,維護我國的社會穩定,推動社會與經濟的可持續化發展。而且大數據在發展的過程中還能夠極大的推動國民經濟核心的產業信息化升級,突破當前科學、技術的限制,帶動誕生出數據服務、數據材料、數據制藥等戰略性新興產業。縱使大數據具備了眾多的功能和作用,極大地促進了我國經濟社會的發展,但大數據給我國經濟社會的發展所帶來的挑戰也是不容忽視的。大數據由于其數據類型、數據結構以及數據內在模式都極其的復雜;數據本身、數據模型以及數據學習的不確定性;數據模式、數據行為以及智慧的涌現性等現狀使得人們在對大數據的使用中存在著諸多的挑戰。基于大數據的這些功能作用以及面臨的挑戰特點,對大數據的綜合數據處理平臺方案進行設計研究具有重要的現實作用。

2 基于大數據的綜合數據處理平臺的方案設計研究

在大數據的時代背景下,建立綜合數據處理平臺的首要任務是要明確平臺建設的目標。通過運用管理學學科的相關知識對這些目標進行層次的劃分,將目標進行細化處理,使其成為一個個可供實踐操作的小目標。其次是根據這些目標的需要,結合相關的互聯網、物聯網技術以及數學分析、建模思想等,構建綜合數據處理平臺的總體架構,初步搭建綜合數據處理平臺。是對綜合數據處理平臺的內涵及外延進行填充處理,如對綜合數據處理平臺進行技術架構、網架架構以及安全架構等等,并采取相關的措施對其進行管理維修,以方便使用。

2.1 基于大數據的綜合數據處理平臺設計的目標分析

由于大數據本身所具備的特殊性,構建基于大數據的綜合數據處理平臺,首先需要的是明確構建這一平臺的目標。在筆者看來,構建基于大數據的綜合數據處理平臺的目標主要有以下幾方面:一是提供各種類型的數據信息,在大數據概念、內涵中都已經明確了其功能作用,大數據主要是為社會各行各業的發展需要提供多元化、便捷化、高速化的服務。構建基于大數據的綜合數據處理平臺的目標之一就是收集、分析、整理各種類型的數據資源,并將其分門別類地置于綜合數據處理平臺上,為廣大用戶群體提供充足的數據資料,方便其決策使用。二是創建新型的共享數據庫,實現綜合數據處理平臺上數據的共建共享。在當前的社會發展中,各大數據庫使用的仍然是點對點的數據共享,這一復雜的網狀結構既使得同樣的信息和功能重復出現,又使得數據庫系統中存在大量的信息和功能冗余,這極大地阻礙了數據庫功能作用的發揮。而建立的新型綜合數據處理平臺,采用的是開放式架構體系,其能夠有效地實現各系統之間的耦合,這既能夠簡化數據庫中的網狀結構,節省數據庫的空間,又能夠實時完成新型數據庫中數據資源的共建、共享,_到提供信息資源和進行數據服務的目的。

構建綜合數據處理平臺第三方面的目標是建立制定數據交換使用的標準。俗話說無規矩不成方圓,在構建基于大數據的綜合數據處理平臺時,需要在其目標制定階段就推出統一的數據交換標準,以保障后續工作的有序化開展。為了更好地滿足社會各界對于綜合數據處理平臺的各項業務開展的需要,需彌補當前數據庫中數據資源標準缺乏的不足,保障同一類型的數據不會存在多個數據源頭或者是多個數據格式,更好地實現數據的共享。在進行綜合數據處理平臺方案的設計時,要預先設置統一的數據訪問和數據交換的標準,避免數據的重復建設,實現數據適應業務需要的靈活化發展,滿足人們日益增長的數據使用、業務變化需求,促進大數據綜合數據處理平臺的建設和發展。

在明確了這些平臺目標之后,還需要基于大數據的綜合數據處理平臺,在方案設計研究中一步一步地對這些目標展開進一步的細化,使其成為可操作、實時性強的小目標。并在此基礎上構建一個綜合數據處理平臺方案設計研究的目標體系,為基于大數據的綜合數據處理平臺的建成做好必要的準備工作,為后續的平臺設計、研究、建設做好鋪墊。

2.2 基于大數據的綜合數據處理平臺方案設計的總體構架分析

在大數據的理念、技術支撐之下,可以構建基于服務總線、數據庫級共享模塊以及應用級模塊的綜合數據處理平臺。在具體的方案設計研究中,分別對這三大模塊進行分解、細化,使其成為更小的子系統,然后對各子系統中的各個要素部分進行設計和處理。將所有的要素部分進行糅合,以此建立數據信息交互的綜合數據處理分析平臺。其中,基于大數據的綜合數據處理平臺方案設計中的服務總線的主要功能是完成信息的路由、轉發、服務、注冊等,并且服務總線同時與其他同級平臺進行連接,以達到數據信息資源共享的目標。服務總線模塊的方案設計是整個綜合數據處理平臺的主體部分,如果將其比作生物人的話,服務總線就相當于人的大腦,對整個平臺的運轉進行指揮、調節、控制。

數據庫級共享模塊的作用是實現數據資源的存儲、交換,并達到共享的目的。在具體的方案構架中,數據庫級共享模塊主要是通過對數據庫和共享數據庫進行直接訪問的方式展開,以完成各種類型的,大批量實時數據、靜態數據、統計分析數據、結構化數據、非結構化數據以及半Y構化數據等的共享。數據庫級共享模塊還可以主動地對被抽取的數據、被動接收的數據進行共享數據庫的構建,以不斷地滿足各大數據平臺的提供者和用戶對數據資源的儲存、交換,實現綜合數據處理平臺的作用。

而在應用級共享模塊的建設時主要是要將其與服務總線進行連接,并在其進行標準的服務接口時,對數據庫中的數據資源進行共享數據加工、共享數據交換、共享數據服務以及共享流程服務等工作。應用級共享模塊主要是通過這些工作來實現整個綜合數據處理平臺各系統之間的相互交流,相互協調合作,以實現各大數據平臺數據的交換和服務的共享。也可以這樣說,應用級共享模塊在整個的綜合數據處理平臺中居于信息共享平臺的中樞、核心層,是實現大數據交換、服務、共享的關鍵板塊。

2.3 基于大數據的綜合數據處理平臺設計的技術構架分析

基于大數據的綜合數據處理平臺設計的主要技術是計算機技術、互聯網技術、云計算處理技術以及信息通信、信息通訊等技術,進行綜合數據處理平臺的構建離不開這些現代化技術的支撐。基于大數據的發展,綜合數據處理分析平臺中的硬件構架主要有防火墻、交換機、數據庫服務器、光纖交換機、硬盤陣列以及應用服務器等。

綜合數據處理分析平臺中的各大硬件構架在使用過程中所憑借的具體技術支撐有所不同,各硬件構架在整個綜合數據處理分析平臺中的地位也有所區別。其中,數據庫服務器主要采用的是固定分區方式,對數據庫中的數據進行存取、訪問控制、對數據進行管理、集成數據分析服務、對信息進行調度以實現共享等等。此外,數據庫服務器還能夠對硬件、軟件以及其他的受控件產生的故障進行探測,并同時將故障主機上的應用迅速切換至其他的設備上,較大限度地保障數據業務使用的連貫性。

應用服務器作為連接交換機、光纖交換機的主要載體,在整個的綜合數據處理分析平臺上處于核心設備地位,主要負責數據共享方面的業務。包括基于消息隊列的共享、基于共享數據庫方式的共享以及基于共享服務和業務流程級別的信息共享等。應用服務器能夠保障資源的靈活性使用,并根據實際情況的需要,對信息資源進行相關的實時性調整。但為了更好地發揮應用服務器在整個綜合數據處理平臺上的作用,在使用應用服務器時,好對應用服務器進行雙機集群處理。

2.4 基于大數據的綜合數據處理平臺設計的網架架構分析

網架構架是整個數據平臺得以正常運轉的關鍵技術支撐,沒有網絡架構,綜合數據處理平臺其他模塊的構架都是紙上談兵。當前,我國計算機網絡使用得比較普遍的是廣域網和局域網,在絕大多數的行業領域,使用得最為普遍的是局域網。局域網主要是利用以太網技術作為網架架構,這在一定程度上能夠滿足平臺內部的網絡使用需求,實現內部數據資源的網絡共享。但在進行綜合數據平臺處理時,可以有意識地多加入廣域網的使用,以實現更廣范圍內的行業和平臺之間信息的橫向溝通交流。這樣也可以實現更大范圍內的數據資源共享,滿足人們對于大數據時展的數據需求,促進整個經濟社會的信息化發展。

2.5 基于大數據的綜合數據處理平臺設計的安全構架分析

計算機網絡安全一直以來都是社會各界人士關注的重點。近些年來,黑客入侵、用戶信息資料泄露影響了網絡環境安全,給網絡用戶的生活帶來了極大的困擾。在構建基于大數據的綜合數據處理平臺方案分析時,要充分地考慮到平臺各個方面、各個層級體系的安全性能,構建完備的安全服務與安全防護體系,保障平臺與用戶進入口之間信息交換的安全性。

筆者認為,有如下的具體做法可以用來構建綜合數據處理平臺中的安全架構體系:一是強化防火墻技術系統,對數據庫的訪問入口進行嚴密的限制、控制,并對服務器的區域邊界、區域之間的訪問進行嚴格的控制,以保障平臺數據資源使用的安全性。二是對各硬件、軟件進行防病毒系統保護。在各數據庫終端和服務器上都部署相應的安全管理區域,對各用戶的訪問端口進行病毒掃描,定期對病毒管理系統進行優化升級。借此進一步提高相關系統的監控管理能力,提高綜合數據處理平臺系統的安全性。三是對應用管系統和審計系統進行安全管理,無論是核心交換機還是終端、服務器都要對惡意用戶的不正當行為進行過濾和警告,尤其是要嚴格禁止不法用戶的非法訪問、惡意攻擊以及蠕蟲傳播等行為。要以此保障整個綜合數據處理平臺各系統之間各類型數據資源的安全性能,促進整個平臺安全構架的建設。

3 結語

在探索綜合數據處理平臺方案設計研究的過程中,筆者發現大數據的處理技術還存在著一些亟待解決的問題。當前,大數據的存儲成本比較高,資源的利用率比較低,大數據系統的吞吐率也還比較低,非線性迭代算法還需要做進一步的優化等,這些都是目前大數據平臺所存在的系列問題。在大數據時代背景下,構建綜合數據處理分析平臺既需要相關的工作技術人員采取相應的措施、方法來解決大數據自身所面臨的問題和挑戰,也需要不斷地引進、開發新的技術,解決在構建綜合數據處理平臺過程中所產生的新問題。這從一定程度上來說增加了綜合數據處理平臺的方案設計難度和數據平臺的建立難度。

大數據處理論文:關于云計算大數據處理技術在智能電網中分析與應用淺析

摘要:隨著我國經濟的高速發展,我國的電力行業的快速發展,隨著科學技術的長足進步,使得現代化的智能電網取得一定的發展。隨著智能電網系統的構建,隨著發電、輸電、用電等全方面的管理工作隨之開展,越來越多的現代化技術也逐步應用到電力系統之中,特別是現代化云計算平臺的使用,使得大量的數據得到積累和存儲,從而推動了大數據存儲和管理技術的研究和發展。在現代化智能電網而言,既是機遇也是挑戰。本文主要通過對智能電網系統具體的應用原則,從而探索其中面臨的困難和挑戰。

關鍵詞:智能電網 大數據處理技術 應用現狀 面臨困境

在經濟發展和科學技術的進步時期,為人類帶來了效益的同時也造成了嚴重的資源浪費,因此在這一時代背景下各國都加強了對智能電網的研究和建設工作。在智能電網的管理過程中,對于大量數據的管理、處理、存儲等方面的問題困擾使用者,這也是現階段需要及時改善的內容,因此本文以此為背景,對其應用和挑戰進行分析和研究。

1 智能電網云計算大數據處理技術的應用現狀

1.1 智能電網的大數據

在智能電網中,大數據的產生和存在主要由以下三個方面的原因[1]。一方面是對于電網運行以及設備數據方面的內容,這方面的數據也是智能電網的主要內容,同時也是程序最復雜的部分;第二方面是對于電能的營銷數據,這也是企業發展最櫓匾的部分,很多企業都對這部分內容投入大量的人力、物力投入;第三個方面是對于電力企業的管理數據。在這三方面形成了嚴密、系統的整體,但是很多專家和學者都不會采用分層劃分的方式,因此導致多數學者傾向于數據內部的層次劃分。大數據力求通過整合數據內部的結構為主要特點,對數據的相關信息進行有效的細化分析,從而分析出結構性數據以及非結構性數據兩個不同的部分。同時對于非結構數據而言,無法利用數據庫的二維模式進行編輯,這種類型的數據呈現出高速發展增長態勢。在電網系統中,對于智能電網數據而言,非結構數據占據極大的比重。

1.2 大數據處理技術的復雜性

隨著全世界的科學技術的發展,對于大數據的研究和應用不斷發展和深入,大數據的應用和科學的發展都對科學和經濟的發展具有重要的影響[2]。現階段的國家、企業之間的競爭都是圍繞大數據進行的控制和管理工作。但是對于云計算平臺自身而言,其實用性存在較大的劣勢,對于大數據的分析和挖掘等方面無法得到充分的滿足。隨著大數據的多元化發展方向,對于數據的發掘以及處理方面都得到了及時的提高,從而有效利用復雜的混合計算模式,從而實現智能化電網的大數據技術的局限性突破和發展。

2 智能電網中云計算大數據處理技術的具體應用和分析

2.1 智能電網中大數據的傳輸和存儲技術

當前信息化技術的發展使得電網系統地智能化發展取得了一定的成效,在電力系統的運行過程中,需要對各個環節的相關數據和設備的監測數據進行詳細的記錄,這個過程中所產生的海量數據,使得監控系統承擔著比較大的壓力,對于智能電網的進一步發展有著一定的阻礙作用[3]。在電網數據的傳輸方面,通過利用數據壓縮的方式可以減少數據的傳輸量,保障數據傳輸效率的提升。這樣導致越來越多的數據壓縮技術被應用到智能電網中,能夠降低數據存儲的空間,但在這個過程中會造成一定的資源浪費。在數據的存儲方面,通常情況下使用的方式是分布式文件保存,實現對于大量數據的存儲,但是在對于實時數據的處理方面存在著一定的缺陷。

在智能電網中,非結構化數據占到了比較大的比重,有著十分重要的作用,在存儲方面要將這些海量的非結構化數據進行有效轉化,是當前智能電網大數據處理技術所面臨的困境。

2.2 大數據的實時處理技術

大數據處理技術在當前的智能電網進程中有著比較重要的作用,在大數據技術的應用中,處理速度是一個重要的衡量指標,如果數據的規模過大,所需要的處理時間就比較長,當數據規模超過處理技術的承受能力,會對電網的正常運行造成一定的影響,這就需要保障數據傳輸、分析以及處理的速度。大數據云計算系統雖然能夠為智能電網提供品質快速的服務,但是也有可能會造成網絡堵塞現象,會使得電網的服務器運行受到影響。

2.3 可視化分析技術

智能電網在運行過程中會產生大量的數據,而對這些數據進行及時有效的處理,同時在有限的顯示屏內展示給用戶,這也是當前智能電網大數據處理所面臨的嚴峻挑戰。同時還要保障智能電網數據網絡的質量,對整個網絡系統進行定期的檢測和維護,如果出現故障,要結合出現故障的現象采用相關的技術進行分析處理,在根源上解除故障,保障數據網絡正常運轉。

3 結語

通過上述的分析,在當前提倡綠色低碳經濟發展理念以及網絡信息技術飛速發展的基礎上,智能電網的建設和發展已經成為一種必然的趨勢,在智能電網應用中的云計算大數據處理技術主要包括存儲和傳輸技術、實時處理技術以及可視化分析技術,文章對這集中主要的技術進行了研究和分析,最終得出這幾種技術在智能電網中有著非常重要的作用,可以對電網系統的戴亮數據進行及時的存儲、傳輸、收集以及處理,有效的彌補了傳統處理技術的不足,使得電網數據處理的效率和質量得到了大幅提升,但是也存在著一定的不足,這就需要相關的工作人員進行不斷的努力和創新,探索出一種有效的解決方法,促進我國智能電網的穩定健康發展。

大數據處理論文:云時代背景下大數據處理在電子信息風險中的應用

2016年,雅虎事件爆發,數以億計的客戶信息遭到泄露。除去雅虎公司自身存在的問題,該事件同時也折射了傳統的電子信息風險管理還有待健全和完善。在云時代背景下,大數據處理得到有效的發掘和利用,為電子信息的風險提供了另一種思路和方向,提高了電子信息風險的可預見性,對于完善電子信息風險管理體系和促進該行業的健康發展具有極為重要的意義。

【關鍵詞】云時代 大數據 電子信息

1 云時代及云時代背景下的大數據

云時代即為云計算時代,它是一種基于互聯網的計算方式,表現為眾多技術的積累和組合,利用共享的軟硬件資源和信息,使用戶能夠根據自身需求訪問計算機和存儲系統。云計算普及后,越來越多的用戶選擇將各類信息傳輸到計算機的“云端”,從而匯聚到大數據中。而大數據這個詞語無疑是時下最熱門的IT詞匯之一,人們越來越認識到每天大量產生的數據本身就蘊藏著無窮的資源與財富。其實,大數據這個概念很早之前就已經出現了,然而受到科技發展的局限性,大數據并未得到有效利用,因為只有海量的數據而不進行處理是沒有用處的。隨著互聯網技術尤其是云計算的不斷發展與普及,使得大數據的處理、分析和利用成為可能。云時代背景下的大數據處理其核心價值在于它的預測功能,可以為用戶提高工作效率和生產力提供解決方案。大數據處理也已在眾多行業包括一些新興行業中發揮著巨大的作用。

2 案例分析

2016年的雅虎事件將雅虎這家享譽全球的科技公司推上了風口浪尖,有超過5億雅虎用戶的賬戶信息被黑客攻擊竊取,并且該事件的最早發生事件可能追溯到兩年前,甚至更早。網絡黑客以高價出售其竊取的有效信息,這些信息包括用戶的賬戶名、密碼、密碼保護以及一些郵件地址等。對于此次事件,盡管雅虎公司做出了諸多解釋,然而這一事件的發生及后期的事件j釀,使得雅虎公司形象大跌。類似事件受影響較為嚴重的公司還包括LinkedIn、MySpace以及Tumblr等知名公司,其每家公司的單一網站遭受的損失平均超過億元。隨著信息時代的不斷發展,電子信息蒙受損失的事故不斷涌現,其中既包括經濟損失,也包括非經濟型如政治類、軍事類的損失。從雅虎事件到近期歐洲各國提款機遭遠程攻擊等來看,信息爆炸時代,電子信息風險變得常態化、多樣化以及復雜化。如何防范電子信息風險,合理進行電子信息的風險管理成為大家普遍關心的問題。

3 大數據處理對電子信息風險的意義

據稱,雅虎事件的主要原因是其旗下使用的服務器安全漏洞太多。雖然雅虎公司在電子信息風險管控中存在很多失誤,但不可否認的是,以往眾多公司采用的傳統形式的電子信息風險管控方式在如今這個時代背景下已然顯得有些捉襟見肘。而要想實現電子信息風險管理的智能化、可預期化,云時代下的大數據利用便為其提供了無限的可能。目前,已有很多領域接受并利用大數據技術,并取得了一些突破性的進展。比如電商領域,天貓等通過大數據分析得出消費者的消費心理及關注點,從而在網頁瀏覽時及時地推送消費者所關注的商品信息等。而風險控制仍未充分開始利用它的力量。因此,探討大數據處理在電子信息風險管理上的應用對于促進其健康發展,彌補傳統風險管理手段的不足,建立完善的風險防范體系有著重要的現實意義。

4 云時代背景下大數據在電子信息風險中的應用

電子信息風險管理,是指通過相應的監控管理技術識別以及評估電子信息可能存在的風險,繼而實現對電子信息風險的控制與消除,并以低的成本使風險損失程度降低的管理活動。傳統的電子信息風險控制措施主要有數據備份、定期系統檢查、系統還原以及安裝并提高防火墻等級等,但這些措施并不能對風險進行很好地控制。大數據技術提供的基于預測功能的應用,為電子信息有效的風險管控提供了一種新的思維管理方式,使得系統在運行的過程中實現電子信息風險的事前、事中及事后管理與控制的目標。

4.1 建立風險預測模型,做到事前預判

大數據處理技術在風險管理的事前控制中,通過收集運行常規數據,以及各類非結構化的數據,再由云計算整合大數據運算出風險事前控制的預測計算模型,從而得到一個高度可行的預測方案,對風險發生前電子信息運行的外部環境、自身存在的風險等進行預判,提前預知風險的發生,讓電子信息在發生危機之前就拉響警報,實時的預判和動態提示可提醒相關人員注意提前控制和規避風險,做出合理的反應和決定,保護電子信息免受損失。例如百度的百度云和奇虎360的360云安全服務系統都是通過通過云端大數據庫對數據信息處理進而實現對外部環境的識別,電子信息在遭遇黑客攻擊前,便可及時提示用戶不要對某些網頁、信息進行瀏覽和下載,或在用戶的終端禁止某些病毒類文件,以防黑客有機可乘。如瑞星的近期云管家產品每天攔截木馬攻擊的次數達100次。

4.2 大數據處理在事中風險控制的應用

在風險發生的過程中,大數據的應用可以為用戶采取應急措施提供相應的便利。云技術背景下的大數據風險應急管理技術可以云端所有的數據庫,實時在線對相應的風險進行快速的分析并處理,諸如360的云端快速掃描、全盤掃描以及特定盤的掃描等,從而快速的去除相應的風險。此外,在應對電子信息風險管理上的漏洞,大數據分析技術還可以整合風險管理涉及的各個部門提供的有效信息,并提出合理的風險決策,使相關部門和人員可以及時的通力協作,信息共享,保障風險應急處置的及時性和工作效率。對個人來說,大數據還可以為風險的應急處理提供更加便捷靈活的手段。

4.3 大數據處理在風險事后中的應用

大數據基礎上建立的風險發展趨勢預測,還可以模擬風險發生后可能產生的結果,并合理估算風險事故中產生的各項損失,基于云計算的大數據處理將為風險事故在發生后提供的處置方案,以較大限度減少或消除用戶的損失。此外,事故的處理與信息反饋是大數據處理的另一項重要的功能。通過相應的信息數據反饋從而不斷地更新和修正數據庫產生的模型,將風險管理體系進行進一步的優化和健全,防止下次事件的發生。

5 結語

云計算為大數據在電子信息風險管理的應用提供了可能。有報道稱,大數據的價值在被夸大,但無可否認的是,大數據處理已經在很多行業卓有成效。因此,云時代背景下的大數據能夠有效地提升和優化電子信息的風險管理體系,降低風控成本,并實現在線實時監控,具有很好的發展前景。與其說大數據提供了一種技術上的支持方案,不如說它提供了一種風險管理的思維,激發了新的價值增長點,讓人們從另一個方向去解決電子信息風險管理出現的問題。這對于完善電子信息風險管理體系以及促進該行業的健康發展具有極為重要的意義。

大數據處理論文:基于R語言的大數據處理平臺的設計與實現

摘 要: R語言是一種基于統計、運算和繪圖的數據處理方式,其能夠較為理想地進行大數據處理工作。因此,設計基于R語言的大數據處理平臺。當平臺的用戶請求層向技術層發送大數據處理指令,技術層隨即開始工作,其處理結果也將反饋至用戶請求層。技術層由大數據管理模塊、大數據處理模塊和R語言控制模塊組成,大數據處理模塊的EP1C6Q240C8芯片通過借鑒大型數據庫內容,進行大數據的挖掘工作,并將其挖掘結果提供給大數據處理模塊進行大數據的篩選、匯總、轉換和標準控制。經大數據處理模塊處理后的大數據,將通過串口通信電路回傳給用戶請求層。R語言控制模塊為整個平臺制訂處理標準。軟件方面利用R語言的類聚性能設計技術層挖掘功能圖和大數據向量化處理代碼。實驗結果表明,所設計的平臺能夠對大數據進行高性能的處理。

關鍵詞: R語言; 大數據處理平臺; EP1C6Q240C8; 數據挖掘

0 引 言

網絡時代的來臨,使大數據不可避免地吸引到了各界的關注。大數據處理平臺要求其處理方式應具有超強的決策能力,以應對大數據海量、多樣性的特點[1?3]。R語言是一種基于統計、運算和繪圖的數據處理方式,與普通處理方式相比,R語言能夠實現更加復雜的數據處理,且處理效果較為理想。根據R語言的以上優勢,設計基于R語言的大數據處理平臺,使大數據處理平臺具有較高的處理性能[4?6]。

科研組織也曾研究出一些較具特點的大數據處理平臺,但這些平臺的處理性能均有待提高,如文獻[7]提出基于Jaql的大數據處理平臺,該平臺利用Jaql編輯處理語言縮減大數據傳輸量,最終提高平臺處理性能,但由于Jaql編輯處理語言的處理能力有限,無法高效完成海量大數據的轉換工作,致使整個平臺的處理性能不高。文獻[8]提出基于OPENMP的大數據處理平臺,OPENMP是一種基于分布處理、集中管控的處理方式,其對大數據的兼容性較強,處理效率較高,但擴展性能較差,致使整個平臺的更新能力欠佳,無法應對大數據的實時變化。文獻[9]提出基于PR的大數據處理平臺,該平臺利用PR隱形并列的處理方式,將大數據特點進行剖析,只提取出其中的關鍵信息點,達到縮減大數據內存的目的,進而降低平臺處理壓力,但該平臺的處理效率不高,大數據信息較易丟失。

基于上述大數據處理平臺的缺陷,提出基于R語言的大數據處理平臺,以實現大數據處理平臺對大數據的高效解析、增強平臺各項處理性能。

1 基于R語言的大數據處理平臺設計

1.1 平臺總體設計

基于R語言的大數據處理平臺由用戶請求層、技術層和多種大型數據庫組成,如圖1所示。

由圖1可知,當用戶請求層向技術層發送大數據處理指令,技術層隨即開始工作,其處理結果也將反饋至用戶請求層。技術層由大數據管理模塊、大數據處理模塊和R語言控制模塊組成,技術層是基于R語言的大數據處理平臺的重點設計部分。平臺為技術層提供了多種大型數據庫,技術層在實現大數據處理的過程中會借鑒這些大數據庫的處理結果,保障平臺處理性能。

1.2 大數據管理模塊設計

大數據管理模塊能夠進行大數據的挖掘和供給工作,其進行大數據挖掘的主要借鑒對象有地方資源庫、大數據檔案庫以及網絡大數據地址。供給工作是指大數據管理模塊將挖掘出的大數據進行分類、挑選后,將其按一定順序供給大數據處理模塊進行大數據的處理工作。大數據管理模塊的核心控制元件選取了某公司設計的EP1C6Q240C8芯片。EP1C6Q240C8芯片的成本不高,且資源較多,是一種能夠實現實時高效編輯的控制芯片。EP1C6Q240C8芯片擁有先入先出隊列模式,其數據傳輸量高達36 b,傳輸速率較高可達300 MHz,能夠有效減少基于R語言的大數據處理平臺的大數據丟失率,并為平臺的后期更新工作提供了技術支持。EP1C6Q240C8芯片結構圖如圖2所示。

由圖2可知,EP1C6Q240C8芯片主要由邏輯陣列塊和I/O塊組成。邏輯陣列塊中的鎖相環是一種高性能反饋控制電路,鎖相環能夠根據挖掘信號實現基于R語言的大數據處理平臺對大數據信號的分類,并可對分類后的大數據實施主動追蹤。M4K存儲器為平臺提供大數據的分類存儲區域。I/O塊的主要作用就是實現大數據的傳輸工作,包括EP1C6Q240C8芯片的內部傳輸,以及大數據管理模塊與大數據處理模塊的通信傳輸。

1.3 大數據處理模塊設計

大數據處理模塊的主要工作是進行大數據的篩選、匯總、轉換和標準控制。篩選是指將挖掘到的大數據中的不正常信息和錯誤格式篩選出來,常用的篩選方式有填補空缺法、標準值替換法、異常值隱藏法等。大數據處理模塊進行的篩選工作是其及時流程,這程不能忽略,必要時應進行多次篩選,以保障基于R語言的大數據處理平臺的率。匯總是指大數據處理模塊將篩選后的大數據匯總并構建數據庫的過程。在這一過程中,大數據在數據庫中的、高效分類匹配是其應重點解決的問題。大數據處理模塊利用R語言解決了這一問題。轉換是統一大數據格式的過程,大數據處理模塊利用A/D轉換電路實現這一過程。

標準控制是指利用各項標準管控大數據處理的過程,基于R語言的大數據處理平臺的常用標準有解壓縮標準、維度標準、常規數值標準等,這些標準能夠實時控制大數據處理模塊對大數據的壓縮、篩選、刪除、替換等工作,是實現平臺高性能的保障。

1.3.1 A/D轉換電路設計

由于大數據管理模塊挖掘出的大數據的格式并不統一,故需首先對大數據進行格式轉換。A/D轉換電路的轉換性能直接影響著基于R語言的大數據處理平臺的各項性能,故在A/D轉換電路的設計中,應盡可能保障其轉換的效率和率。

選用某公司設計的TLC5510I轉換器作為A/D轉換電路的核心元件。TLC5510I轉換器是一種能夠進行高速A/D轉換的8位高阻抗并行A/D轉換器。擁有了TLC5510I轉換器,A/D轉換電路便能夠縮減掉其復雜的外接電路,減輕了設計難度,并間接節約了基于R語言的大數據處理平臺的運行成本。圖3是TLC5510I轉換器結構圖。

由圖3可知,A/D轉換電路經由TLC5510I轉換器轉換大數據格式,TLC5510I轉換器主要由基準分壓器、時鐘發生器、采樣比較器、采樣編碼器和數據鎖存器組成。控制開關將根據大數據的內存狀態對基準分壓器中的三種電阻進行控制。時鐘發生器會輸出三種計時信號,這三種計時信號會直接傳輸給采樣比較器,經由采樣比較器按順序依次傳遞給采樣編碼器和數據鎖存器。

1.3.2 串口通信電路O計

經大數據處理模塊處理過的大數據,需要一個傳輸性能較為完善的串口通信電路將處理后的大數據傳輸到用戶請求層,所設計的串口通信電路簡圖如圖4所示。

圖4中,串口通信電路的傳輸芯片選用EP1C6Q256芯片,該芯片的工作電壓范圍是[1.43 V,1.58 V],能夠在[0 ℃,85 ℃]的環境下工作。其擁有5 980個邏輯塊,能夠高效、且穩定地進行大數據傳輸。EP1C6Q256芯片控制著大數據的高性能輸入和電源的穩定供電,使串口通信電路能夠直接將處理后的大數據輸入到用戶請求層,提高了基于R語言的大數據處理平臺的整體效率。

1.4 R語言控制模塊設計

R語言控制模塊通過調取Java類加載器,為基于R語言的大數據處理平臺提供所有技術支持,即制訂平臺的處理標準。Java類加載器是一種能夠將大數據按需存儲到內存中的虛擬設備,其獨立于算法編譯器,可以對大數據進行選擇性處理。圖5是Java類加載器結構圖。

圖5中,啟動類加載器為R語言控制模塊調用剛挖掘出的大數據進行讀取,這部分大數據不能修改,只能對其進行R語言算法處理;擴展類加載器能夠調用大數據處理結果,R語言控制模塊可對其進行直接修改;應用程序類加載器是基于R語言的大數據處理平臺的基礎加載器,該加載器在日常工作中常處于休眠狀態,當啟動類加載器和擴展類加載器無法調用大數據時,應用程序類加載器便會啟動并接手上述工作。

2 基于R語言的大數據處理平臺的軟件設計

技術層對大數據的挖掘工作是整個基于R語言的大數據處理平臺的運行基礎,為了保障技術層挖掘出的大數據擁有較高質量,平臺利用R語言的類聚性能,設計了技術層挖掘功能圖,如圖6所示。

由圖6可知,技術層挖掘功能圖主要有預處理、分類和熱點實現三種功能。預處理功能主要進行大數據預處理,其根據R語言向技術層中的大數據處理模塊寫入特征算法,將大數據向量化,即將一維數據格式變換成向量格式,并對向量格式的大數據進行分類。預處理功能對大數據進行向量化的代碼設計為:

分類功能包括大數據的分類挖掘和類聚挖掘,單一結構的大數據會直接進行大數據類聚挖掘,對于結構較為復雜的大數據,軟件將先對其進行大數據分類挖掘,將熱點狀態不一致的大數據分開存儲,進行類聚挖掘。熱點實現功能包括熱點跟蹤和熱點展示,原則上這兩個功能是能夠同時進行的,但出于對基于R語言的大數據處理平臺各項性能要求的考慮,軟件首先對分類后的大數據進行熱點跟蹤,驗證其無誤后,再對大數據進行熱點展示。

3 實驗分析

大數據處理平臺的性能主要包括大數據寫入和讀取效率、大數據挖掘吞吐量以及大數據處理效率。為驗證所設計的基于R語言的大數據處理平臺的性能,現進行實驗。實驗選取性能較高的基于Hadoop的大數據處理平臺和基于OPENMP的大數據處理平臺,與本文平臺進行對比。大數據寫入和讀取效率、大數據挖掘吞吐量的實驗結果如圖7~圖9所示,大數據處理效率實驗的處理時間結果如表1所示。

由圖7~圖9可知,大數據寫入效率、大數據讀取效率和大數據挖掘吞吐量的變化與大數據處理平臺的處理線程數有一定關系,在特定范圍內,處理線程數越多,平臺的性能就越高,若超出特定范圍,過多的處理線程數將導致平臺性能下降。

因此,在實際應用中應選擇適合的處理線程數。雖受處理線程數影響,但本文平臺的大數據寫入效率、大數據讀取效率和大數據挖掘吞吐量性能均高于基于Hadoop的大數據處理平臺和基于OPENMP的大數據處理平臺。且根據表1數據能夠得出,本文平臺擁有較高的大數據處理效率。以上實驗結果表明,本文平臺能夠對大數據進行高性能的處理。

4 結 論

本文設計了基于R語言的大數據處理平臺。當平臺的用戶請求層向技術層發送大數據處理指令,技術層隨即開始工作,其處理結果也將反饋至用戶請求層。技術層由大數據管理模塊、大數據處理模塊和R語言控制模塊組成。大數據處理模塊的EP1C6Q240C8芯片通過借鑒大型數據庫內容,進行大數據的挖掘工作,并將其挖掘結果供給大數據處理模K進行大數據的篩選、匯總、轉換和標準控制。經大數據處理模塊處理后的大數據將通過串口通信電路回傳給用戶請求層。R語言控制模塊為整個平臺制訂處理標準。軟件利用R語言的類聚性能,設計技術層挖掘功能圖和大數據向量化處理代碼。實驗結果表明,所設計的平臺能夠對大數據進行高性能的處理。

大數據處理論文:試論智能電網大數據處理技術的應用現狀及面臨的挑戰

摘要:隨著我國經濟的高速發展,我國的電力行業的快速發展,隨著科學技術的長足進步,使得現代化的智能電網取得一定的發展。隨著智能電網系統的構建,隨著發電、輸電、用電等全方面的管理工作隨之開展,越來越多的現代化技術也逐步應用要電力系統之中,特別是現代化云計算平臺的使用,使得大量的數據得到積累和存儲,從而推動了大數據存儲和管理技術的研究和發展。在現代化智能電網而言,既是機遇也是挑戰。本文主要通過對智能電網系統具體的應用原則,從而探索其中面臨的困難和挑戰。

關鍵詞:智能電網 大數據處理技術 應用現狀 面臨困境

在經濟發展和科學技術的進步時期,為人類帶來了效益的同時也造成了嚴重的資源浪費,因此在這一時代背景下各國都加強了對智能電網的研究和建設工作。在智能電網的管理過程中,對于大量數據的管理、處理、存儲等方面的問題困擾使用者,這也是現階段需要及時改善的內容,因此本文以此為背景,對其應用和挑戰進行分析和研究。

1 智能電網大數據處理技術目前的應用現狀

1.1 智能電網的大數據

在智能電網中,大數據的產生和存在主要有以下三個方面的原因[1]。一方面是對于電網運行以及設備數據方面的內容,這方面的數據也是智能電網的主要內容,同時也是程序最復雜的部分;第二方面是對于電能的營銷數據,這也是企業發展最為重要的部分,很多企業都對這部分內容投入大量的人力、物力;第三個方面是對于電力企業的管理數據。在這三方面形成了嚴密、系統的整體,但是很多專家和學者都不會采用分層劃分的方式,因此導致多數學者傾向于數據內部的層次劃分。同時對于非結構數據而言,無法利用數據庫的二維模式進行編輯,這種類型的數據呈現出高速發展增長態勢。在電網系統中,對于智能電網數據而言,非結構數據占據極大的比重。

1.2 大數據處理技術的復雜性

隨著全世界的科學技術的發展,對于大數據的研究和應用不斷發展和深入,大數據的應用和科學的發展都對科學和經濟的發展具有重要的影響[2]。現階段的國家、企業之間的競爭都是圍繞大數據進行的控制和管理工作。但是對于云計算平臺自身而言,其實用性存在較大的劣勢,對于大數據的分析和挖掘等方面無法得到充分的滿足。隨著大數據的多元化發展方向,對于數據的發掘以及處理方面都得到了及時的提高,從而有效利用復雜的混合計算模式,從而實現智能化電網的大數據技術的局限性突破和發展。

2 智能電網大數據處理技術所面臨的挑戰

2.1 智能電網中大數據的傳輸和存儲技術

當前信息化技術的發展使得電網系統的智能化發展取得了一定的成效,在電力系統的運行過程中,需要對各個環節的相關數據和設備的監測數據進行詳細的記錄,這個過程中所產生的海量數據,使得監控系統承擔著比較大的壓力,對于智能電網的進一步發展有著一定的阻礙作用[3]。在電網數據的傳輸方面,通過利用數據壓縮的方式可以減少數據的傳輸量,保障數據傳輸效率的提升。在數據的存儲方面,通常情況下使用的方式是分布式文件保存,實現對于大量數據的存儲,但是在對于實時數據的處理方面存在著一定的缺陷。

在智能電網中,非結構化數據占到了比較大的比重,有著十分重要的作用,在存儲方面要將這些海量的非結構化數據進行有效轉化,是當前智能電網大數據處理技術所面臨的困境。

2.2 大數據的實時處理技術

大數據處理技術在當前的智能電網進程中有著比較重要的作用,在大數據技術的應用中,處理速度是一個重要的衡量指標,如果數據的規模過大,所需要的處理時間就比較長,當數據規模超過處理技術的承受能力,會對電網的正常運行造成一定的影響,這就需要保障數據傳輸、分析以及處理的速度。大數據云計算系統雖然能夠為智能電網提供品質快速的服務,但是也有可能會造成網絡堵塞現象,會使得電網的服務器運行受到影響。

2.3 可視化分析技術

智能電網在運行過程中會產生大量的數據,而對這些數據進行及時有效的處理,同時在有限的顯示屏內展示給用戶,這也是當前智能電網大數據處理所面臨的嚴峻挑戰。利用可視化技術能夠有效的處理這些數據,并逐漸的用于智能電網中,該技術運用的是高度集成技術、高分辨率的圖像以及交互工具給用戶提供的數據處理結果[4]。同時還要保障智能電網數據網絡的質量,對整個網絡系統進行定期的檢測和維護,如果出現故障,要結合出現故障的現象采用相關的技術進行分析處理,在根源上解除故障,保障數據網絡正常運轉。

3 結語

現階段,隨著信息化技術的普及應用,我國電力系統的智能化進程有著比較好的效果,大數據處理技術成為當前智能電網中維護電網安全穩定運行的主要措施。云計算為智能電網的數據處理、傳輸、存儲提供了的平臺,保障了智能電網中的大數據可以得到及時有效的處理,為電網的樹立運行提供一定的保障作用。但是隨著技術的進一步發展,以及智能化程度的進一步加深,大數據處理在傳輸、存儲等方面存在著一定的局限性,受到了比較嚴峻的挑戰,因此需要相關的工作人員進行不斷的努力和創新,探索出一種有效的解決方法,促進我國智能電網的穩定健康發展。