引論:我們?yōu)槟砹?3篇數(shù)據(jù)分析分析技術(shù)范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
篇1
1數(shù)據(jù)挖掘技術(shù)在警務(wù)數(shù)據(jù)分析系統(tǒng)中的重要性
警務(wù)系統(tǒng)由于工作的特點,要不斷地接受外來數(shù)據(jù)和有序存儲舊數(shù)據(jù),這就對警務(wù)系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來越高的要求,傳統(tǒng)的警務(wù)數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會已經(jīng)不能再有效的完善數(shù)據(jù)庫的運行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應(yīng)該有卓越的性能,將對案情有幫助的信息從大數(shù)據(jù)庫中有效的提取出來。數(shù)據(jù)挖掘技術(shù)是一項在能夠提高警務(wù)系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項技術(shù),能在短時間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。
2目前警務(wù)系統(tǒng)特點
現(xiàn)今的警務(wù)系統(tǒng)是跟隨時代不斷發(fā)展的一個工作效率高、工作素質(zhì)強的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務(wù)系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應(yīng)用,通過對數(shù)據(jù)的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務(wù)系統(tǒng)的正常運行離不開數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個系統(tǒng)的運行速度,對案件的偵查有促進作用。
3構(gòu)建警務(wù)系統(tǒng)數(shù)據(jù)存儲器
基于警務(wù)系統(tǒng)的數(shù)據(jù)特點,警務(wù)系統(tǒng)應(yīng)該建立一個高速運行的警務(wù)系統(tǒng)數(shù)據(jù)存儲器。“數(shù)據(jù)存儲器”在結(jié)構(gòu)上分為三個部分,分別是關(guān)系系統(tǒng)、OLAP服務(wù)器以及客戶處理系統(tǒng)。這三個部分的作用效果如下:
3.1關(guān)系系統(tǒng)
關(guān)系系統(tǒng)是這三個組成部分的基礎(chǔ)部分,這個系統(tǒng)負(fù)責(zé)對系統(tǒng)中的數(shù)據(jù)進行整理和提取、刷新,將數(shù)據(jù)在整個系統(tǒng)中的存儲位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運行的過程中通過警務(wù)系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護。
3.2 OLAP服務(wù)器
OLAP是聯(lián)機處理的縮寫,是將多角度的信息共享并由一個關(guān)鍵的出發(fā)點而聯(lián)機進行數(shù)據(jù)處理分析的一個軟件技術(shù),在警務(wù)系統(tǒng)中可將需要處理的信息進行聯(lián)機處理分析,將信息較快的處理出來,得到有效的結(jié)論。
3.3客戶處理系統(tǒng)
客戶處理系統(tǒng)是將數(shù)據(jù)進行分析處理以及檢索和報告的一個系統(tǒng),通過對數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來,形成有用的線索,供警務(wù)系統(tǒng)人員進行案件的偵破和處理,是數(shù)據(jù)存儲器的重要部分,特別是數(shù)據(jù)挖掘技術(shù)的應(yīng)用時整個系統(tǒng)的運作重心。
4數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫中的數(shù)據(jù)進行采集、集成以及分析的一項技術(shù),其應(yīng)用到警務(wù)系統(tǒng)中可以對案件相關(guān)信息進行檢索和分析,應(yīng)用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應(yīng)用、聚類分析方法的實際處理等數(shù)據(jù)挖掘分析處理模式將警務(wù)系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來,形成一個較為完整的數(shù)據(jù)挖掘模式。
在挖掘出境數(shù)據(jù)時,數(shù)據(jù)挖掘技術(shù)的決策樹技術(shù)有效應(yīng)用,與縣贏得算法技術(shù)相互應(yīng),將數(shù)據(jù)較為完整的從警務(wù)系統(tǒng)中巨大的信息庫中挖掘出來,實現(xiàn)了數(shù)據(jù)挖掘的分級處理模式的有效應(yīng)用。
5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務(wù)系統(tǒng)中的應(yīng)用
在警務(wù)系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個多維數(shù)據(jù)模型,使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務(wù)系統(tǒng)的工作人員面前,通過多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報告中,實現(xiàn)了信息的有效用。
6結(jié)語
警務(wù)系統(tǒng)中的信息有多樣化、復(fù)雜化、信息量巨大的特點,使用傳統(tǒng)的數(shù)據(jù)庫是不能按照現(xiàn)代的社會發(fā)展速度生存的,對數(shù)據(jù)進行高效的分析處理和采集,是現(xiàn)代警務(wù)數(shù)據(jù)處理系統(tǒng)應(yīng)該具有的一項特點。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應(yīng)該是突出的,本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問題的有效解決辦法,其運行通過對數(shù)據(jù)的建模、分析、采集等手段強化了數(shù)據(jù)處理系統(tǒng)的能力,為警務(wù)系統(tǒng)中案件處理效率的提升做出了一定的貢獻。目前社會的高速發(fā)展離不開大數(shù)據(jù)的支持,大數(shù)據(jù)時代對數(shù)據(jù)的處理系統(tǒng)要求越來越高,數(shù)據(jù)挖掘技術(shù)近些年在警務(wù)信息系統(tǒng)中的引用為警務(wù)系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持,警務(wù)系統(tǒng)未來的發(fā)展肯定也離不開數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來的警務(wù)數(shù)據(jù)分析系統(tǒng)中也會有不斷地改善和提高。
參考文獻
篇2
隨著電信網(wǎng)絡(luò)的不斷演進,全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運維效率相關(guān)的有價值的數(shù)據(jù),對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式,一方面數(shù)據(jù)量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準(zhǔn)實時分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進入大數(shù)據(jù)時代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價值信息。
Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架,通過利用計算機集群對大規(guī)模數(shù)據(jù)進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現(xiàn)分布式任務(wù)計算。
一個HDFS集群包含元數(shù)據(jù)節(jié)點(NameNode)、若干數(shù)據(jù)節(jié)點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲DataNode節(jié)點上。
MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務(wù)拆分為多個小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調(diào)度、運行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。
Spark是由加州伯克利大學(xué)AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外,還支持多次迭代計算,特別適合流計算和圖計算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。
4 分析平臺設(shè)計
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進行初步刪選,通過數(shù)量、位置和時間三個維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對某類告警進行重點關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計個性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對客戶數(shù)字出租電路設(shè)計個性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進行SQL統(tǒng)計分析。Spark SQL模K在進行分析時,將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析:
5 平臺實踐應(yīng)用
探索運維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實現(xiàn)主動維護的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺開發(fā)了相應(yīng)的分析腳本,目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差,主要表現(xiàn)在以下幾個方面:監(jiān)控級別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。
通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。
應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動,緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會根據(jù)告警過濾規(guī)則進行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡(luò)維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護人員及時處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。
5.4 動環(huán)深放電分析
動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計算這一放電過程的持續(xù)時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時長過短的局站,核查蓄電池、油機配置、發(fā)電安排等,并進行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實驗性地解決告警數(shù)據(jù)存儲和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進行分析。
從實際運行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式,滿足電信運營商主動運維的需求。
參考文獻:
[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
篇3
大數(shù)據(jù)具有“4V”的特點:Volume、Variety、Velocity和Value,可實現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級增長。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時,數(shù)據(jù)生成的速度更快,對信息安全分析應(yīng)答能力要求也相應(yīng)增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報等進行關(guān)聯(lián)分析。基于流量的安全分析應(yīng)用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計、主機入侵檢測等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場景自身產(chǎn)生的數(shù)據(jù)、通過某種活動或內(nèi)容“創(chuàng)建”出來的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問題。
1.2安全大數(shù)據(jù)分析方法
安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過對海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對不同安全場景設(shè)計針對性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲和分析的優(yōu)勢,從豐富的數(shù)據(jù)源中進行深度挖掘,進而挖掘出安全問題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲和檢索:基于大數(shù)據(jù)采集、存儲、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對數(shù)據(jù)進行存儲和分析;針對格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數(shù)據(jù)進行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲和NoSQL數(shù)據(jù)庫提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計建模工具(如回歸分析、時間序列預(yù)測、多元統(tǒng)計分析理論)、機器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機場)等。常用的大數(shù)據(jù)分析思路有先驗分析方法、分類預(yù)測分析方法、概率圖模型、關(guān)聯(lián)分析方法等。可使用Mahout和MLlib等分析工具對數(shù)據(jù)進行挖掘分析。綜上,一個完備的安全大數(shù)據(jù)分析平臺應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報信息等多源異構(gòu)數(shù)據(jù)進行分布式融合分析,針對不同場景搭建分析模型,最終實現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢。
2安全大數(shù)據(jù)分析的典型應(yīng)用
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數(shù)據(jù)的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數(shù)據(jù)分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺,采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類預(yù)測模型、統(tǒng)計預(yù)測分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準(zhǔn)地挖掘出違規(guī)電話號碼,并且發(fā)現(xiàn)違規(guī)號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構(gòu)建多維度的用戶畫像數(shù)據(jù)庫,支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識別等。實踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號碼,是對現(xiàn)有系統(tǒng)的有效補充。除此之外,中國移動還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢感知、手機惡意軟件檢測和釣魚網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。
2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析
在互聯(lián)網(wǎng)出口進行旁路流量監(jiān)控,使用Hadoop存儲及Storm、Spark流分析技術(shù),通過大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協(xié)議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數(shù)據(jù)分析
基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機服務(wù)器日志、數(shù)據(jù)庫日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場景。基于安全日志的大數(shù)據(jù)分析已經(jīng)在國際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個設(shè)備端點和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進行標(biāo)準(zhǔn)化,以區(qū)別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級等。ZettaSet海量事件數(shù)據(jù)倉庫來分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉庫)。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲。SDW于2011年BlackHat網(wǎng)絡(luò)安全會議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對于一個月的數(shù)據(jù)負(fù)載,傳統(tǒng)SIEM搜索需要20~60min,Hive運行查詢只需1min左右。
2.4基于DNS的安全大數(shù)據(jù)分析
基于DNS的安全大數(shù)據(jù)分析通過對DNS系統(tǒng)的實時流量、日志進行大數(shù)據(jù)分析,對DNS流量的靜態(tài)及動態(tài)特征進行建模,提取DNS報文特征:DNS分組長、DNS響應(yīng)時間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構(gòu)建異常行為模型,來檢測針對DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網(wǎng)站域名等。
2.5APT攻擊大數(shù)據(jù)分析
高級可持續(xù)性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征。現(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅。“震網(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問日志、數(shù)據(jù)日志、資產(chǎn)庫及Web滲透知識庫等,提取系統(tǒng)指紋、攻擊種類、攻擊時間、黑客關(guān)注度、攻擊手段類型、行為歷史等事件特征,再基于大數(shù)據(jù)機器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強事中環(huán)節(jié)的威脅感知能力,同時支撐調(diào)查取證。
篇4
1石油化工檢測涵義
一般來說,石油化工檢測技術(shù)層次面廣,涉及技術(shù)多,能夠?qū)⒂嬎銠C、控制工程、信息處理、自動化以及電子等學(xué)科融合在一起,并且應(yīng)用于石油化工領(lǐng)域自動化裝備以及其他自動化生產(chǎn)過程中。生產(chǎn)石油化工原料時,往往存在著較多的易燃易爆及有毒的氣體,一旦泄漏將會發(fā)生巨大的危險,嚴(yán)重時還會影響到相關(guān)工作人員的生命財產(chǎn)安全。因此,石油化工產(chǎn)業(yè)在一定程度上來說也存在著較高的危險性,所以對于安全問題的防范更要嚴(yán)加注意,在石油化工生產(chǎn)過程中,嚴(yán)格控制檢測程序,并且做好相關(guān)的記錄,避免檢測程序出現(xiàn)紕漏,影響石油化工的質(zhì)量檢測。隨著科學(xué)技術(shù)的不斷進步,石油化工檢測技術(shù)也在不斷提高,更新?lián)Q代,將現(xiàn)代計算機、電機學(xué)、物理、化學(xué)以及光學(xué)技術(shù)予以有機結(jié)合,從而實現(xiàn)了質(zhì)的飛躍。在當(dāng)前的石油化工檢測過程中,無損失檢測設(shè)備比較常見,并且廣泛應(yīng)用于石油化工產(chǎn)業(yè)。隨著人們對新設(shè)備的采納,說明現(xiàn)代石油產(chǎn)業(yè)的新興概念已經(jīng)開始被接受,這便是安全評價及安全檢測體系,安全評價主要采用工程技術(shù)方法以及安全系統(tǒng)工程原理來進行評價,全面分析系統(tǒng)中可能存在的危險因素或者已經(jīng)發(fā)現(xiàn)的危險,亦可以稱之為危險性評價以及風(fēng)險評價,主要包括危險性評價和危險性確定兩方面的內(nèi)容,因此需要全面的對危險源予以排除,并且反復(fù)認(rèn)真考核及校對,同時,合理的對危險源可能導(dǎo)致的后果進行預(yù)測及分析,并且和目前最新的安全指標(biāo)予以校對,假如控制在安全范圍之內(nèi),則可以視之為安全,如果不在安全范圍之內(nèi),則需要上報上級部門,并且采取合理的措施,對危險源可能導(dǎo)致的危險予以降低或者避免。
2數(shù)據(jù)分析技術(shù)的要點
2.1數(shù)據(jù)集
數(shù)據(jù)主要包括數(shù)值形態(tài)以及數(shù)字中的各種信息,而數(shù)據(jù)集則是一組數(shù)據(jù)的總和,數(shù)據(jù)集是數(shù)據(jù)分析技術(shù)的依據(jù)及基礎(chǔ),數(shù)據(jù)分析技術(shù)主要通過數(shù)據(jù)集來實現(xiàn)此功能,僅僅少數(shù)的幾個數(shù)據(jù)對其來說并沒有實際意義,而且數(shù)據(jù)的種類通過需要有計量數(shù)據(jù),比如重量、質(zhì)量等,計數(shù)數(shù)據(jù)需要包括故障數(shù)、缺陷數(shù)以及合格品數(shù),順序數(shù)據(jù)包括產(chǎn)品的質(zhì)量狀態(tài)順序等。
2.2數(shù)據(jù)整理
收集的數(shù)據(jù)需要對其分類整理,比如分析目的以及分析對象等,將沒有實際意義的數(shù)據(jù)予以剔除,最終組成數(shù)據(jù)集。數(shù)據(jù)整體通常包括兩種,即分類整理及分層整理,分層整理主要是通過邏輯關(guān)系對該數(shù)據(jù)進行不同層次的整理,分類整理主要是通過收集到的數(shù)據(jù)的性質(zhì)以及特點對其進行不同類別的整理。
2.3分析工具
目前常見的分析工具主要包括控制圖、因果圖、直方圖、散布圖、排列圖以及調(diào)查表,某些復(fù)雜的數(shù)據(jù)分析還會用到卡方分析、加權(quán)分析、回歸分析以及方差分析等。利用軟件工具包對其進行合理利用,比如MiniTab工具,不同的數(shù)據(jù)分析工具均具有其不同的適用條件以及自身特點,石油化工產(chǎn)品的檢測需要結(jié)合其產(chǎn)品技術(shù)特點和質(zhì)量管理要求的特點,合理的采用相關(guān)工具,比如為了確保石油化工產(chǎn)品生產(chǎn)順利,應(yīng)該將其危險源予以排除,從而判斷某批石油化工產(chǎn)品是否過關(guān),充分了解石油化工產(chǎn)品的生產(chǎn)過程以及生產(chǎn)質(zhì)量,通常可以利用控制圖以及統(tǒng)計抽樣檢驗的方法,從而避免石油化工產(chǎn)業(yè)發(fā)展過程中受到阻礙。
2.4過程監(jiān)督
通過相關(guān)的數(shù)據(jù)分析,對整個石油化工產(chǎn)品生產(chǎn)質(zhì)量的過程進行控制,比如通過控制圖將質(zhì)量波動表現(xiàn)出來,對其質(zhì)量程度進行判斷,挖掘出薄弱的環(huán)節(jié),加強監(jiān)督效果。
3數(shù)據(jù)分析技術(shù)在石油化工檢測中的具體分析
3.1分析石油化工產(chǎn)品安全檢查
一般石油化工產(chǎn)品的系數(shù)均要控制于安全系數(shù)范圍中,根據(jù)表1數(shù)據(jù)可以看出,國標(biāo)200#溶劑油產(chǎn)品的初餾點為190~245,密度0.893~0.912,閃點14~25℃,外觀無色透明,拔出常壓裝置石腦油和直柴的部分餾分,控制餾程在140~200℃,即可達到直接生產(chǎn)200#溶劑油,所有的數(shù)據(jù)均能夠確保相互獨立,而且彼此之間不受影響,呈正態(tài)分布,因此可以看出該檢測數(shù)據(jù)均處于一個合理的范圍的準(zhǔn)備,此為安全檢測法表法,利用抽樣數(shù)據(jù),結(jié)合SPSS軟件數(shù)據(jù)的標(biāo)準(zhǔn)方差以及平均值進行計算,對其進行比較,觀察數(shù)據(jù)是否控制在平均值的合理范圍內(nèi),在對其進行分析時,還能夠?qū)踩珯z測標(biāo)準(zhǔn)方差比值和標(biāo)準(zhǔn)平均值予以賦分,假如>1,則偏差較大,石油化工產(chǎn)品并沒有在安全范圍內(nèi),假如=0,則石油化工產(chǎn)品處于安全范圍之內(nèi)。
3.2分析石油化工產(chǎn)品預(yù)先危險性數(shù)據(jù)
進行數(shù)據(jù)統(tǒng)計時,還有種分析方法,通常將其稱之為數(shù)據(jù)擬合,能夠?qū)?shù)據(jù)進行回歸分析,并且通過回歸分析函數(shù)的作用,對系統(tǒng)的危險性進行合理的預(yù)見。通常采取的數(shù)據(jù)回歸方法主要包括曲線擬合分析以及二元Logistic回歸分析,例如利用同居分析,對過往存在的事故中的安全數(shù)據(jù)系數(shù)予以統(tǒng)計,并且針對性的進行二元回歸擬合,進而計算出輸入函數(shù),閃點指標(biāo)數(shù)據(jù)統(tǒng)計、儲存時數(shù)據(jù)如果在可控范圍內(nèi),不會增加危險性。
3.3分析石油化工產(chǎn)品的故障影響因素
進行石油化工產(chǎn)品工作過程中,往往會發(fā)生故障,此類故障的概率主要受發(fā)生變質(zhì)產(chǎn)品、某次故障以及工藝過程的影響,存在明顯的差異,對于主要因素的分析,通常可以采取方差對其進行分析。通過將兩個樣本設(shè)置成對比對象,從而計算出主要的影響因素,在進行數(shù)據(jù)的統(tǒng)計計量分析過程中,需要滿足統(tǒng)計量存在明顯的正態(tài)分布,經(jīng)過結(jié)果表明,影響因素往往互相獨立,從而滿足方差分析的實際標(biāo)準(zhǔn),利用數(shù)據(jù)統(tǒng)計及方差分析,能夠清晰明了地顯示出故障的主要愿意,并且對其進行合理的評價,為日后的整治措施提供理論依據(jù)。與此同時,方差分析還能對自動化儀表故障以及石油管道故障的主要因素進行分析,與此同時,石油長期儲存將會在不同程度上增加石油的膠質(zhì),而且柴油隨著產(chǎn)品氧化,也會使其安定性變低,影響其石油化工產(chǎn)品的使用。
3.4分析石油化工產(chǎn)品的事件頻率
進行石油化工產(chǎn)品的檢測過程中,通常會存在較大差異的不同類型的事故,而且此類事故對發(fā)生,因此,可以對這些數(shù)據(jù)頻率進行統(tǒng)計分析,利用頻率分析及參數(shù)估計,對數(shù)據(jù)頻率進行歸納分析,從而明確是否存在置問的范圍內(nèi),頻率分析法是目前較為常見的方法,通過對發(fā)生事件趨勢的監(jiān)測,確定其分散峰度、偏度以及離散程度,利用模擬分布圖將事件的合法性頻率進行有效判斷。石油化工產(chǎn)品的時間頻率分析收益較高,能夠?qū)⑵鋺?yīng)用于主要故障的分析以及成品油質(zhì)量的分析過程中。
4結(jié)束語
綜上所述,數(shù)據(jù)分析的范圍比較大,但是目前市場上有關(guān)石油化工產(chǎn)品檢測的設(shè)備均大同小異,最終目的確保油品質(zhì)量過關(guān),但是這只是一方面的因素,重要的是進行石油化工產(chǎn)品的生產(chǎn)過程中,降低事故的發(fā)生頻率,這才是石油化工產(chǎn)業(yè)亟待解決的重要問題。為了適應(yīng)當(dāng)前石油化工產(chǎn)品的檢測需求,針對性的進行軟件開發(fā),合理的予以數(shù)據(jù)分析,除此之外國外還要出臺一些優(yōu)惠政策,從而確保石油化工產(chǎn)業(yè)健康發(fā)展。
參考文獻
[1]董偉亮.解析石油化工檢驗檢測的若干問題的思考[C].//科技研究——2015科技產(chǎn)業(yè)發(fā)展與建設(shè)成就研討會論文集(上).2015.
篇5
一、數(shù)據(jù)挖掘技術(shù)簡介
1.1數(shù)據(jù)挖掘的概念
在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價值信息挖掘,獲取價值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計、可視化技術(shù)、數(shù)據(jù)庫等。數(shù)據(jù)挖掘在對數(shù)據(jù)分析研究過程中,主要采取分類及聚類進行監(jiān)測,對有關(guān)知識進行演變。數(shù)據(jù)挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。
1.2數(shù)據(jù)挖掘的過程
1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點在確定之后,能夠有效對有關(guān)數(shù)據(jù)進行收集,同時對數(shù)據(jù)背景進行掌握,對挖掘模式進行確定。有關(guān)數(shù)據(jù)在收集之后,需要對數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進行預(yù)處理,為計算機分析奠定堅實基礎(chǔ)。
2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對數(shù)據(jù)進行計算分析,構(gòu)建針對性數(shù)據(jù)。
3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無法對數(shù)據(jù)挖掘結(jié)果進行了解,所以需要對數(shù)據(jù)挖掘結(jié)果進行轉(zhuǎn)化,通過圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來,直觀將挖掘結(jié)果展示出來,用戶能夠?qū)ν诰蚪Y(jié)果深入理解。
4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對數(shù)據(jù)挖掘結(jié)果進行系統(tǒng)性分析研究,進而找到海量數(shù)據(jù)內(nèi)具有價值的信息,同時這些信息技有關(guān)生產(chǎn),對數(shù)據(jù)挖掘結(jié)果正確性進行判斷,對數(shù)據(jù)挖掘有關(guān)知識進行修正、完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析中的應(yīng)用
2.1認(rèn)知無線電中頻譜資源預(yù)測應(yīng)用
認(rèn)知無線在頻譜監(jiān)測數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測數(shù)據(jù)質(zhì)量,同時非授權(quán)用戶也可以對頻譜資源進行利用。授權(quán)用戶在對頻譜監(jiān)測數(shù)應(yīng)用過程中,非授權(quán)用戶能夠直接將頻譜監(jiān)測數(shù)據(jù)資源讓出來,非授權(quán)用戶就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶要是沒有直接將頻譜資源讓出來,授權(quán)用戶與非授權(quán)用戶之間就會產(chǎn)生矛盾,進而造成通信中斷,這樣情況所將的損失將是無法預(yù)計的。所以,非授權(quán)用戶及授權(quán)用戶要是都能夠?qū)︻l譜資源精確劃分,能夠有效對資源矛盾事件防止,在這種情況下頻譜監(jiān)測資源利用效率也就顯著提升。
正式由于認(rèn)識無線電技術(shù)在實際應(yīng)用內(nèi)所具有的優(yōu)勢,在對認(rèn)知無線電技術(shù)分析研究過程中,需要將重點放在授權(quán)用戶應(yīng)用規(guī)律上面,對授權(quán)用戶占據(jù)頻譜監(jiān)測數(shù)據(jù)空余時間進行預(yù)測,幫助非授權(quán)用戶能夠在授權(quán)用戶空余時間內(nèi)尋找利用有關(guān)資源,這種預(yù)測性分析研究主要是通過數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實現(xiàn)。
2.2異常無線電信號監(jiān)測應(yīng)用
無線電監(jiān)測站在常規(guī)監(jiān)測過程中,最為主要的一項工作就是對異常無線電信號進行監(jiān)測,嚴(yán)禁非法占用情況出現(xiàn),有效提高無線電通信安全性能。
按照無線電監(jiān)測所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運行,一旦出現(xiàn)異常運行情況,所輸出的信號就與常規(guī)狀態(tài)下信號存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號進行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對海量信號內(nèi)特點進行提取,在海量信號內(nèi)尋找到異常信號。數(shù)據(jù)挖掘技術(shù)在無線電監(jiān)測內(nèi)應(yīng)用,首先是通過無線電監(jiān)測歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對無線電瞬息變化環(huán)境,對數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點進行計算,在發(fā)現(xiàn)無線電設(shè)備出現(xiàn)異常運行情況之后,數(shù)據(jù)模型就會發(fā)出警告。
結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對l譜監(jiān)測數(shù)據(jù)分析流程進行簡化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進而為管理人員提供針對性意見。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)所具有的作用,所以對數(shù)據(jù)挖掘技術(shù)進行分析研究,能夠有效推動頻譜監(jiān)測數(shù)據(jù)發(fā)展。
篇6
大數(shù)據(jù)的主要特點是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實時處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對這些數(shù)量巨大的海量數(shù)據(jù)進行搜索、整理、分析、加工,以便獲得有價值的產(chǎn)品和服務(wù),以及提煉出具有深刻見解和潛在價值信息的技術(shù)和手段。
1 大數(shù)據(jù)分析在公共交通中的應(yīng)用
交通擁堵日益嚴(yán)重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準(zhǔn)確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過大數(shù)據(jù)管理得到解決。
大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫攝入更多數(shù)據(jù),所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準(zhǔn)。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個路段發(fā)生問題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態(tài)性給予實時監(jiān)控。因此,在駕駛者無法預(yù)知交通擁堵的可能性時,大數(shù)據(jù)可幫助用戶預(yù)先了解。
2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用
在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時代。基因序列、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過互聯(lián)網(wǎng)連接,實現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專門的數(shù)據(jù)庫中,在信息協(xié)作平臺上將各種醫(yī)療信息分類整合,建立成一個相互共享的網(wǎng)絡(luò),從而實現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。
大數(shù)據(jù)技術(shù)的核心就是預(yù)測,使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準(zhǔn)確率,對有效地治療疾病具有重要價值。其中最好地體現(xiàn)在傳染病預(yù)測上,因為傳染病的發(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟全球化背景下,自然環(huán)境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預(yù)測、預(yù)警具有重要意義。利用大數(shù)據(jù)可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現(xiàn)對傳染病的流行趨勢及影響范圍進行預(yù)測、預(yù)警,對提高傳染病防控的針對性、預(yù)見性和主動性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。
3 大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用
當(dāng)前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過大和安全隱患越多這兩個問題。在移動通信網(wǎng)絡(luò)發(fā)展的過程中,網(wǎng)上用戶在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴大, 而移動通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動通信網(wǎng)絡(luò)的安全問題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動通信網(wǎng)絡(luò)的數(shù)據(jù)就會出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲功能的是云儲存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺之上,加大了數(shù)據(jù)丟失的風(fēng)險,影響移動通信網(wǎng)絡(luò)的安全。
優(yōu)化移動通信網(wǎng)絡(luò),需要運用大數(shù)據(jù)技術(shù)的儲存功能。移動通信網(wǎng)絡(luò)的用戶在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進行妥善管理和保存。在這一過程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。
優(yōu)化移動通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動通信網(wǎng)絡(luò)的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進行數(shù)據(jù)的獲取和收集工作時,移動通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時增加數(shù)據(jù)的準(zhǔn)確度。
4 結(jié)語
本文是大數(shù)據(jù)技術(shù)在實際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動通信網(wǎng)絡(luò)優(yōu)化中的具體運用。借助大數(shù)據(jù)技術(shù)的即時性、準(zhǔn)確性和預(yù)測性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。
參考文獻
[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書與情報,2012(06):22-28.
[2]張春麗,成.大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用[J].標(biāo)記免疫分析與臨床,2016(03):327-333.
[3]汪敏,廖名揚.大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用研究[J].通訊世界,2017(02):123.
[4]祝興平.大數(shù)據(jù)分析技術(shù)及其在數(shù)字出版中的應(yīng)用[J].出版發(fā)行研究,2014(04):13-16.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報,2014(09):1889-1908.
作者簡介
篇7
由于能將存儲讀寫響應(yīng)時間從毫秒縮短到微秒級別,閃存這種最先用于消費級電子產(chǎn)品領(lǐng)域的技術(shù)也開始被企業(yè)級存儲市場關(guān)注和青睞。隨著大數(shù)據(jù)時代的到來,企業(yè)需要更強更快的分析洞察能力,閃存技術(shù)越來越多地出現(xiàn)在硬件底層,以加速大數(shù)據(jù)應(yīng)用。
正是看準(zhǔn)這一機遇,自去年收購閃存企業(yè)Texas Memory System后,IBM在近日宣布投入10億美元研發(fā)資金,用于設(shè)計和創(chuàng)建新的閃存解決方案,并將其集成到日益增多的服務(wù)器、存儲系統(tǒng)和中間件中。IBM副總裁、IBM系統(tǒng)與科技部企業(yè)級存儲產(chǎn)品線總經(jīng)理周諗畬表示,閃存將對企業(yè)產(chǎn)生革命性影響。尤其是對于事務(wù)密集型應(yīng)用,它將為運營信息提供實時的決策支持,并且提高關(guān)鍵任務(wù)的工作負(fù)載性能,例如信用卡處理、證券交易、制造業(yè)和訂單處理系統(tǒng)。
美國目前的閃存企業(yè)多達100多家。IBM院士、存儲首席技術(shù)官許育誠表示,閃存技術(shù)用于企業(yè)級別最大的挑戰(zhàn)在于承載能力。有的閃存產(chǎn)品初始速度很快,但當(dāng)閃存存儲承載到一定級別后讀寫速度就顯著降低,甚至降低到磁盤讀取速度的級別。而IBM 在中國剛剛推出的FlashSystem全閃存系統(tǒng)其實已經(jīng)在全球的銀行交易和電信應(yīng)用上有不少的成熟客戶,他們的處理時間縮短了90%。在ERP和業(yè)務(wù)分析應(yīng)用中,批處理時間縮短了85%。在美國運營商Sprint的最新規(guī)劃中,甚至計劃把最活躍的數(shù)據(jù)都轉(zhuǎn)移到IBM FlashSystem全閃存存儲系統(tǒng)中去。據(jù)悉,新的IBM FlashSystem是IBM穩(wěn)步擴展的全閃存和混合(磁盤/閃存)解決方案的新成員,后者還包括IBM Storwize V7000、IBM System Storage DS8870和IBM XIV Storage System。
IBM 投入的10億美元研發(fā)經(jīng)費將如何提升閃存技術(shù)呢?許育誠總結(jié)了三大方向。一是更高密度的閃存,現(xiàn)在1U的存儲量是24TB,每年I/O吞吐量將增加一倍,數(shù)據(jù)存儲也增加一倍。二是核心物理介質(zhì)技術(shù)的提升,“未來將會是24納米,15納米的技術(shù),以及更強的數(shù)字信號處理能力,比如IBM蘇黎世實驗室就在研究數(shù)字信號進程技術(shù)。”許育誠說。第三,閃存將影響上層中間件的軟件架構(gòu)的設(shè)計思路。如果沒有軟件層面的優(yōu)化,用戶使用閃存技術(shù)僅僅獲得的是20%以上的速度提升。雖然這也是非常可觀的改善,但是由于軟件以前的設(shè)計思路是將存儲看作整個系統(tǒng)應(yīng)用速度的瓶頸,當(dāng)閃存提升存儲速度后,軟件將會成為一種全新的設(shè)計思路。
以DB2 Blue為例,它直接做實時分析而無需將數(shù)據(jù)轉(zhuǎn)移到其他地方,這種配合軟件優(yōu)化技術(shù)的產(chǎn)品,可以將速度提升20倍甚至百倍。據(jù)悉,IBM目前至少有兩種產(chǎn)品在應(yīng)用軟件和閃存共同優(yōu)化的技術(shù):一個是DB2 Blue;另一個是PureData Analytics的最新版本,它將DB2和信息管理軟件進行高度整合,成為大數(shù)據(jù)基礎(chǔ)云的最新產(chǎn)品。
篇8
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營業(yè)務(wù)板塊的數(shù)據(jù)庫。數(shù)據(jù)庫包括的內(nèi)容主要有單井、區(qū)塊的日月報數(shù)據(jù)、試井與生產(chǎn)測井?dāng)?shù)據(jù)、分析化驗數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開發(fā)公司正式開始進行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問題,使用大數(shù)據(jù)技術(shù)對油田進行全面感知、分析預(yù)測、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個特點即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進行管理、處理實現(xiàn)數(shù)據(jù)的價值。大數(shù)據(jù)對數(shù)據(jù)庫的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識,再將知識轉(zhuǎn)化為智慧。這個過程應(yīng)用于油田可以理解為是對油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個處理步驟包括:對數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價值規(guī)律、建立預(yù)測模型、對結(jié)果進行可視化的估計、驗證結(jié)果、評估模型。
2 大數(shù)據(jù)分析平臺及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個有效的大數(shù)據(jù)分析平臺及體系架構(gòu)。此平臺主要包括四個基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺、進行分布式的存儲平臺、大數(shù)據(jù)的分析與展示平臺。最底層是數(shù)據(jù)抽取平臺主要是實現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲平臺主要是對數(shù)據(jù)進行匯總、建模、分析,最后將處理好的數(shù)據(jù)進行儲存。其功能與數(shù)據(jù)倉庫相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進行分類、建模,生成預(yù)測的結(jié)果,結(jié)合專家經(jīng)驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計為運行軟件,運用建模方法實現(xiàn)數(shù)據(jù)的可視化界面設(shè)計,更好的實現(xiàn)人機交互。
3 大數(shù)據(jù)分析技術(shù)研究
進行大數(shù)據(jù)分析時我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時間,不同地點的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計值法、填補平均值替換錯誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時需要進行數(shù)據(jù)庫的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個過程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對多個指標(biāo)和因素間的相關(guān)性進行描述,一般將密切相關(guān)的多個變量歸納為一類,這一類數(shù)據(jù)就屬于一個影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征。回歸分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個變量和其他變量間隱藏的關(guān)系。利用回歸方程,進行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡單得表示出來。
在使用大數(shù)據(jù)進行分析時,數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門技術(shù)。該技術(shù)將大量復(fù)雜的、隨機性的、模糊的、不完整的數(shù)據(jù)進行分析,挖掘出對人類未來有用的數(shù)據(jù),即提前獲得未知信息的過程[3]。數(shù)據(jù)挖掘功能分為預(yù)測功能和描述功能。數(shù)據(jù)預(yù)測是指對數(shù)據(jù)進行處理推算,完成預(yù)測的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動識別
油田生產(chǎn)過程中影響最大的一個因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產(chǎn)部門的生產(chǎn)人員,必須經(jīng)過人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對異常井進行識別,提高效率。為了實現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進行,能夠及時發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識別算法建立抽油井的特征功圖庫,對比油井當(dāng)前的功圖和所建立的特征功圖,實現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫,對比相關(guān)因子的指標(biāo)項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開關(guān)井計劃制訂
當(dāng)油田開發(fā)進入后期階段就會出現(xiàn)很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關(guān)時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關(guān)時間,對油田實現(xiàn)節(jié)能減排是至關(guān)重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開關(guān)時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開關(guān)時間的合理方案,達到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測
目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現(xiàn)了許多問題。比如,一些井還沒有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進行分析,建立油井Y蠟?zāi)P停倮没貧w分析法對建立的模型建立曲線方程,進行預(yù)測,找到結(jié)蠟時間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進行,提高油田的精細(xì)化管理。
5 結(jié)束語
總之,對比以前利用人工進行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進行可視化分析,關(guān)注問題的主要影響因素找到管理中存在的不足,預(yù)防未來問題的出現(xiàn)。大數(shù)據(jù)的核心價值就是通過以往大量數(shù)據(jù)進行分析,預(yù)測出未來,從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻
篇9
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準(zhǔn)確也遠未達到營銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價格和其它標(biāo)準(zhǔn)把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準(zhǔn)確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數(shù)的2%而購買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對決策有幫助的關(guān)聯(lián)規(guī)則,相對于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個數(shù)據(jù)源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上進行的,因而這些都會嚴(yán)重破壞數(shù)據(jù)的準(zhǔn)確性,導(dǎo)致最終決策的失誤。所有這些問題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數(shù)據(jù)挖掘的模型與算法研究”,《計算機研究與發(fā)展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
篇10
近日,英特爾公司公布了其在高性能計算方面的創(chuàng)新,并宣布推出全新軟件工具,幫助企業(yè)和研究人員從大量數(shù)據(jù)中獲得深入洞察,解決業(yè)務(wù)難題和科學(xué)挑戰(zhàn)。
英特爾通過與各合作伙伴的合作,利用當(dāng)前可用技術(shù),創(chuàng)建出易于編程且經(jīng)濟高效的新一代高度集成的解決方案。在合作過程中,英特爾還計劃提供定制化高性能計算產(chǎn)品,來滿足客戶的廣泛需求。這一計劃將通過加入優(yōu)化特性等方式,提升基于標(biāo)準(zhǔn)的英特爾可擴展平臺的價值。在今年的超級計算大會上,英特爾展示了新一代能夠被用作主處理器的英特爾至強融核產(chǎn)品――Knights Landing。該處理器可用于標(biāo)準(zhǔn)機架架構(gòu)之中,同時無縫運行原生應(yīng)用,而無需將數(shù)據(jù)轉(zhuǎn)移至協(xié)處理器。這一處理器將能夠降低編程的復(fù)雜性,并消除數(shù)據(jù)“負(fù)載的轉(zhuǎn)移”,縮短內(nèi)存、PCIe和網(wǎng)絡(luò)導(dǎo)致的延遲。
此外,英特爾與富士通公司最近宣布推出了一項可利用光纖鏈路來替代計算機電纜的計劃,前者可通過基于英特爾硅光子技術(shù)的鏈路來承擔(dān)以太網(wǎng)或PCI Express的流量。在此基礎(chǔ)之上,英特爾至強融核協(xié)處理器將可以安裝至與主英特爾至強處理器相分離的擴展機箱中,但功能卻如同其仍位于主板上一樣,從而能夠?qū)崿F(xiàn)更高的協(xié)處理器安裝密度,并在不影響主服務(wù)器運行的情況下擴展計算機容量。
如今,在高性能計算行業(yè)中系統(tǒng)和并行軟件的高性能讓我們可以創(chuàng)建出大而復(fù)雜的模擬。但是,由于非結(jié)構(gòu)化數(shù)據(jù)占所有數(shù)據(jù)的 80%,同時該類數(shù)據(jù)量的增長速度比其他數(shù)據(jù)快 15 倍,為滿足這一需求,英特爾推出了Intel HPC Distribution for Apache Hadoop。該解決方案結(jié)合了 Apache Hadoop 軟件的英特爾分發(fā)版和Lustre軟件的英特爾企業(yè)版,為存儲和處理大型數(shù)據(jù)集提供了企業(yè)級解決方案。這一組合將能夠支持用戶無需做出改變,即可在基于 Lustre的快速共享存儲上直接運行MapReduce應(yīng)用,并加快存儲速度,提高管理速度、可擴展性和易用性。
The Intel Cloud Edition for Lustre是一個可擴展的并行文件系統(tǒng),通過Amazon Web Services Marketplace提供,允許用戶以隨用隨付的形式購買使用。該軟件可用于快速模擬和原型設(shè)計等動態(tài)應(yīng)用,當(dāng)出現(xiàn)超出用戶內(nèi)部計算或存儲性能的緊急的、意外的任務(wù)時,該軟件可用于處理云爆發(fā)模式下的高性能計算工作負(fù)載,從而將任務(wù)遷移至云之前,快速供應(yīng)所需的基礎(chǔ)設(shè)施。
篇11
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準(zhǔn)確也遠未達到營銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價格和其它標(biāo)準(zhǔn)把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準(zhǔn)確性。
篇12
一、前言
電力用戶用電信息采集系統(tǒng)是國家電網(wǎng)公司實現(xiàn)智能化用電的主要方法,通過采集電力用戶的用電信息,能夠減少電力公司的運營成本,并且還可以減少設(shè)備維護,延長設(shè)備的使用壽命。
二、 用電信息采集系統(tǒng)現(xiàn)狀與分析
用電信息采集系統(tǒng)一般由主站、遠程傳輸通信通道和本地數(shù)據(jù)采集通道三部分構(gòu)成。用電信息采集的實現(xiàn)主要依賴于通信通道的選擇,在通信方式上一般采用兩級通信方式,一是遠程傳輸通道,是指集中器到主站(供電公司)之間的通信方式;二是本地數(shù)據(jù)采集通道,即集中器到采集器或電能表之間的通信方式。
1、遠程傳輸通道現(xiàn)狀與分析遠程通信是指采集終端和系統(tǒng)主站之間的數(shù)據(jù)通信。通過遠程通信,系統(tǒng)主站與用戶側(cè)的采集終端設(shè)備間建立聯(lián)系,下達指令和參數(shù)信息,收集用戶用電信息。遠程通信信道可采用光纖專網(wǎng)、GPRS/CDMA無線公網(wǎng)、230MHz無線專網(wǎng)和中壓電力線載波等。綜合考慮系統(tǒng)建設(shè)規(guī)模、技術(shù)前瞻性、實時性、安全性、可靠性等因素,確定具體通信方式。
2、遠程傳輸通道可以采用以下幾種方式:
(一) 借助移動運營商的無線傳輸方式,如中國移動或中國聯(lián)通的GSM/GPRS和中國電信的CDMA-1X優(yōu)點:覆蓋面廣,接入容易,在一定程度上解決了少量數(shù)據(jù)采集的需求,按流量計費;缺點:能提供的帶寬很低(一般只有幾十千比特),且存在不穩(wěn)定性,滿足不了實時采集的要求。在地下配電室、移動電話用戶集中區(qū)、樓宇密集區(qū)對通信質(zhì)量影響很大。處理網(wǎng)絡(luò)問題依賴第三方的協(xié)調(diào)。
(二) 借助于固網(wǎng)運營商的寬帶城域網(wǎng),如ADSL或LAN優(yōu)點:傳輸速率高,適用于有網(wǎng)絡(luò)端口環(huán)境下的表計集抄;缺點∶目前運行費比GPRS/CDMA方式貴。處理網(wǎng)絡(luò)問題依賴第三方的協(xié)調(diào)。此外還有通過電話線調(diào)制的方式上傳數(shù)據(jù),這種方式曾經(jīng)用于調(diào)度自動化的遠動數(shù)據(jù)傳輸,但由于接續(xù)時間長,容易掉線,與電話用戶擠占通道資源、帶寬較低、運行不穩(wěn)定等因素很快就被淘汰。這種方式多用于試點,已陸續(xù)轉(zhuǎn)為其他通信方式。
以上幾種遠程數(shù)據(jù)通信方式,普遍存在以下問題:通道不能專用用電信息涉及商業(yè)機密,公用網(wǎng)絡(luò)承載業(yè)務(wù)復(fù)雜,用電數(shù)據(jù)以內(nèi)網(wǎng)轉(zhuǎn)外網(wǎng)再進入內(nèi)網(wǎng)的方式進行數(shù)據(jù)轉(zhuǎn)發(fā),存在著數(shù)據(jù)泄漏和易被攻擊的隱患,難以達到國家電網(wǎng)公司對于生產(chǎn)經(jīng)營信息安全分區(qū)與隔離的要求。易受到天氣、地理、人群密度等多方面因素的影響多點間難以實現(xiàn)同步的實時采集與分析,關(guān)口電量、大客戶與居民用電信息存在比較大的時延差,使線損分析、營業(yè)數(shù)據(jù)動態(tài)分析偏差較大。運營成本較高以上海市為例,640萬居民用戶按照每100戶一個集中點計算,70萬大用戶按照每個用戶一個集中點計算,共有76.4萬個集中點。按照10元/月進行計算,每年僅運行費用就達9200多萬元。基于這一原因,許多供電公司只能采用加大采集間隔,或有選擇地抄收部分而不是全部表計參數(shù),犧牲應(yīng)用性能來維持系統(tǒng)的正常運行。
3、無線寬帶通信目前主要的無線寬帶接入方案有WiMax和McWill。WiMax支持ATM和IP兩種數(shù)據(jù)接口,主要應(yīng)用于高速傳輸?shù)臄?shù)據(jù)業(yè)務(wù),同時也支持語音、視頻等多媒體業(yè)務(wù)的傳輸。McWill是完全基于IP分組交換的寬帶無線系統(tǒng),采用宏蜂窩網(wǎng)絡(luò)結(jié)構(gòu)。McWill是大唐基于SCDMA衍生出來的寬帶無線技術(shù),由大唐旗下的信威公司擁有知識產(chǎn)權(quán)。
三、分析電力用戶用電信息采集系統(tǒng)不良數(shù)據(jù)的必要性
用電信息的采集系統(tǒng)建設(shè)工作是一項復(fù)雜而系統(tǒng)的工程,其涉及到通信體系的建設(shè)、信息采集終端的架構(gòu)、采集系統(tǒng)主站的建設(shè)等幾個方面。整個采集系統(tǒng)建設(shè)工作涉及到復(fù)雜的用戶類型,而且用戶數(shù)量眾多,同時還需要解決信道不穩(wěn)定、算法不統(tǒng)一以及公共網(wǎng)絡(luò)信道故障等問題。在這個過程中,將使得不良數(shù)據(jù)出現(xiàn),例如線路的功率異常、電量異常、電壓數(shù)據(jù)異常等現(xiàn)象。采集系統(tǒng)獲得的數(shù)據(jù)中不良數(shù)據(jù)比例雖然很低,但是其存在直接影響到信息的準(zhǔn)確性以及客觀性,可能造成計費錯誤以及用電習(xí)慣分析不準(zhǔn)確等問題,從而造成不良的社會影響。因此,如何處理好其中的數(shù)據(jù)畸變問題是當(dāng)前用電信息采集系統(tǒng)優(yōu)化及完善的一個重要內(nèi)容。
四、導(dǎo)致不良數(shù)據(jù)的主要原因及主要類型
1、導(dǎo)致不良數(shù)據(jù)出現(xiàn)的主要原因
(一)數(shù)據(jù)采集、存儲過程中的不良數(shù)據(jù)
電力數(shù)據(jù)的采集終端主要用于配網(wǎng)的使用,但是配網(wǎng)運行過程中存在諸多的問題,而且用電電壓的穩(wěn)定性不足,造成信息通道噪聲較大。所以,在設(shè)備的應(yīng)用過程中就會在數(shù)據(jù)的采集、傳輸環(huán)節(jié)中出現(xiàn)數(shù)據(jù)遺漏、數(shù)據(jù)誤差等現(xiàn)象。同時,所應(yīng)用的數(shù)據(jù)處理芯片中可能存在BUG,從而導(dǎo)致電力數(shù)據(jù)超出邊界,或者電力數(shù)據(jù)讀數(shù)偏大等現(xiàn)象。
(二)電力系統(tǒng)故障導(dǎo)致的數(shù)據(jù)錯誤
當(dāng)線路中由于部分故障而導(dǎo)致電流出現(xiàn)不正常時,例如出現(xiàn)了接地問題、連電問題等時,將會導(dǎo)致供電網(wǎng)絡(luò)的功率數(shù)據(jù)、用電數(shù)據(jù)出現(xiàn)故障。
五、電力用戶用電信息采集系統(tǒng)不良數(shù)據(jù)處理方法
不良數(shù)據(jù)點(包括漏點數(shù)據(jù)、畸變數(shù)據(jù)等)若沒有進行處理,直接參與統(tǒng)計分析,對系統(tǒng)數(shù)據(jù)將造成較大的影響,使整體負(fù)荷曲線、負(fù)荷特性等數(shù)據(jù)失真。可使用短期負(fù)荷預(yù)測的方法進行修正。
采用短期負(fù)荷預(yù)測方法對不良數(shù)據(jù)進行修正的原理是:辨識出歷史日中的正常數(shù)據(jù)點和可疑數(shù)據(jù)點;以正常數(shù)據(jù)點為已知條件,采用短期負(fù)荷預(yù)測方法完成對可疑數(shù)據(jù)點的預(yù)測,用預(yù)測結(jié)果修正這些可疑數(shù)據(jù)點、。其修正步驟如下(適合功率、電壓、電流、電量等)。
1、辨識可疑數(shù)據(jù)點
不良數(shù)據(jù)點往往具有數(shù)值突變的特征。通過這個特征可以辨識出歷史負(fù)荷數(shù)據(jù)中的可疑不良數(shù)據(jù)點。對于采集系統(tǒng)來說,其負(fù)荷數(shù)據(jù)中存在的正常的隨機變化量幅度不同,通過提高或降低判斷標(biāo)準(zhǔn),即可收緊或放寬對可疑數(shù)據(jù)點的認(rèn)定。任何一種可疑數(shù)據(jù)判斷機制都可能造成一定的誤差(誤判或漏判),但是,在采用短期負(fù)荷預(yù)測進行不良數(shù)據(jù)修正時,由于依據(jù)的是有規(guī)律的預(yù)測結(jié)果完成修正,所以所認(rèn)定的可疑數(shù)據(jù)點多幾個點或少幾個點并不會對修正結(jié)果造成太大的影響。該算法可滿足實際數(shù)據(jù)估算的要求。
2、修正可疑數(shù)據(jù)點
修正歷史數(shù)據(jù)中的可疑數(shù)據(jù)是用電信息采集系統(tǒng)的要點和難點之一。準(zhǔn)確修正可疑數(shù)據(jù)點的數(shù)據(jù)要比辨識它難得多。因此,傳統(tǒng)的負(fù)荷預(yù)測系統(tǒng)無法很好地處理不良數(shù)據(jù)修正問題,只能依靠預(yù)測人員的人工經(jīng)驗來解決。采用短期負(fù)荷預(yù)測方案進行不良數(shù)據(jù)修正則可代替人工修正方式,減少預(yù)測人員的工作量,同時減少由于人工修正帶來的人的主觀因素影響。
根據(jù)已運行的采集系統(tǒng)數(shù)據(jù)分析,實際電力系統(tǒng)中每日不良數(shù)據(jù)點數(shù)一般不超過5%,以每天采集96點為例,不超過5點,即:91。則上述修正方案相當(dāng)于,在以已知的91點數(shù)據(jù)為優(yōu)化目標(biāo)的情況下,對該日96點數(shù)據(jù)進行短期負(fù)荷預(yù)測,統(tǒng)計表明,這樣條件下的預(yù)測準(zhǔn)確度高達97.59%以上。滿足系統(tǒng)實用化要求。
六、結(jié)束語
通過以上詳細(xì)的分析以及探討,我們能夠看出電力用戶用電信息采集系統(tǒng)數(shù)據(jù)分析與處理技術(shù)在電力公司中的作用。所以,我們必須加大資金投入力度,進行廣泛推廣以及應(yīng)用。
參考文獻
[1]莫維仁,孫宏斌,張伯明.面向電力市場的短期負(fù)荷預(yù)測系統(tǒng)設(shè)計及實現(xiàn)[J].電力系統(tǒng)自動化.2001(23):41―44.
篇13
交通運輸業(yè)指的是在國民經(jīng)濟的發(fā)展過程中主要負(fù)責(zé)運送貨物和旅客的社會生產(chǎn)工作,其中包括鐵路運輸、公路運輸、水路運輸以及航空運輸?shù)鹊取T撐闹饕獙⒊鞘械缆方煌ㄟ\輸作為主要切入點,分析當(dāng)前大數(shù)據(jù)分析決策技術(shù)在城市道路運輸行業(yè)的應(yīng)用過程中所出現(xiàn)的問題以及所帶來的重要影響。在信息技術(shù)高速發(fā)展的今天,以數(shù)據(jù)為核心的大數(shù)據(jù)技術(shù)在交通系統(tǒng)中的應(yīng)用已經(jīng)逐漸為城市交通事業(yè)的發(fā)展提供了新的方向,并打開了新世紀(jì)的大門,城市智慧交通的時代已經(jīng)逐漸到來了。
1 大數(shù)據(jù)分析決策技術(shù)概述
1.1 大數(shù)據(jù)分析決策技術(shù)的概念
大數(shù)據(jù),顧名思義是對許多大型數(shù)據(jù)進行分析、處理和管理的數(shù)據(jù)集,數(shù)據(jù)的最大可達到10 TB左右,在大數(shù)據(jù)的日常工作中具有體量大,數(shù)據(jù)類別多,數(shù)據(jù)處理速度快以及數(shù)據(jù)具有真實性的特點。
而大數(shù)據(jù)分析決策技術(shù)正是在大數(shù)據(jù)的體量大、數(shù)據(jù)類別多、數(shù)據(jù)處理速度快以及數(shù)據(jù)具有真實性的優(yōu)勢的基礎(chǔ)上對數(shù)據(jù)進行分析和決策的一種新興技術(shù)。這種技術(shù)多應(yīng)用于公共交通服務(wù)、交通引導(dǎo)、物流調(diào)度優(yōu)化等各個方面。大數(shù)據(jù)分析決策技術(shù)能夠通過反饋的各種交通數(shù)據(jù)和各種資源進行分析、處理、整合,并能夠依托云計算服務(wù)平臺為使用者提供更加快捷、便利的出行服務(wù)。
1.2 大數(shù)據(jù)分析決策技術(shù)的關(guān)鍵
大數(shù)據(jù)分析決策技術(shù)的關(guān)鍵在于計算層,而計算層主要指的是利用內(nèi)存計算中的Spark,并利用R語言和框架來實現(xiàn)專業(yè)的統(tǒng)計分析功能,采用圖形的方式展現(xiàn),以保證分布式的集群和高效存儲方式來加快大數(shù)據(jù)集上的查詢速度。除此之外,Mahout是一個集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實現(xiàn)的經(jīng)典算法,通常相關(guān)人員會使用其作為數(shù)據(jù)分析的核心算法集來進行參考[1]。
利用大數(shù)據(jù)進行決策和分析,就必須通過表格和圖表圖形來展示,這樣一來,將使得數(shù)據(jù)的分類更加詳細(xì),并提高了數(shù)據(jù)的權(quán)威性。另外,Tableau和Pentaho也是進行處理的最佳選擇。
2 大數(shù)據(jù)分析決策技術(shù)在道路運輸業(yè)的應(yīng)用分析
2.1 大數(shù)據(jù)分析決策技術(shù)在道路運輸業(yè)的應(yīng)用現(xiàn)狀
伴隨著信息技術(shù)的快速發(fā)展和高新技術(shù)產(chǎn)業(yè)的高速推進,新科技、新技術(shù)已經(jīng)融入到了各行各業(yè)的生產(chǎn)活動和運營管理當(dāng)中,并深入到了人們的生活中,使普通人也能看見科技,摸得著技術(shù),時時刻刻地感受著科學(xué)技術(shù)為生活帶來的美好[2]。
當(dāng)前,大數(shù)據(jù)分析決策技術(shù)在道路運輸業(yè)應(yīng)用日漸成熟,使得大數(shù)據(jù)分析決策技術(shù)已經(jīng)成為了城市智慧交通的重要發(fā)展平臺和重要的技術(shù)載體,科學(xué)穩(wěn)定的分析決策技術(shù),便捷高效的數(shù)據(jù)處理技術(shù)使得大數(shù)據(jù)分析決策技術(shù)在城市道路運輸業(yè)一經(jīng)應(yīng)用就得到了迅速的拓展。大數(shù)據(jù)分析決策技術(shù)對城市運輸業(yè)所反饋的數(shù)據(jù)包、日志、資產(chǎn)數(shù)據(jù)以及諸如漏洞信息、配置信息、身份與訪問信息、用戶行為信息、應(yīng)用信息、業(yè)務(wù)信息、外部情報信息等信息的分析、處理和決策帶來了極大的便捷。
2.2 大數(shù)據(jù)分析決策技術(shù)應(yīng)用面臨的挑戰(zhàn)
2.2.1 行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性
行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性是大數(shù)據(jù)分析決策技術(shù)應(yīng)用面臨的挑戰(zhàn)之一,眾所周知,地區(qū)經(jīng)濟發(fā)展不平衡是我國經(jīng)濟發(fā)展的重要現(xiàn)狀之一,在這樣的背景下,致使我國道路運輸業(yè)發(fā)展也存在著地區(qū)發(fā)展不平衡的問題,這樣一來,很難在全國實行統(tǒng)一的行業(yè)標(biāo)準(zhǔn),致使很多地區(qū)的城市運輸數(shù)據(jù)系統(tǒng)相對獨立,沒有在全國范圍內(nèi)形成統(tǒng)一、完整的智慧交通系統(tǒng)。
智慧交通運輸系統(tǒng)的不完整,導(dǎo)致了各個城市之間的道路運輸?shù)男畔⒑蛿?shù)據(jù)的銜接與配合達不到一定的標(biāo)準(zhǔn),進而嚴(yán)重影響交通數(shù)據(jù)的收集和處理,并阻礙了城市\(zhòng)輸線路的分析和統(tǒng)計。
2.2.2 基礎(chǔ)設(shè)施缺乏穩(wěn)定性
基礎(chǔ)設(shè)施缺乏穩(wěn)定性也是大數(shù)據(jù)分析決策技術(shù)應(yīng)用所面臨的挑戰(zhàn)之一,大數(shù)據(jù)決策分析技術(shù)在城市道路運輸業(yè)得以應(yīng)用的目的在于建立完整度和成熟度較高的智慧城市道路交通系統(tǒng),而這樣智慧交通系統(tǒng)必將是整合度和復(fù)雜度較高的系統(tǒng),如果想要建立這樣的智慧交通系統(tǒng)不僅僅需要成熟的大數(shù)據(jù)分析技術(shù),更需要完整、穩(wěn)定的基礎(chǔ)設(shè)施作為建立這一系統(tǒng)的平臺。但是,當(dāng)前在建立這一系統(tǒng)的過程中卻面臨著城市運輸系統(tǒng)硬件設(shè)備功能滯后、老化的現(xiàn)狀,這些問題都可能會引起引起數(shù)據(jù)的泄露,甚至丟失,為大數(shù)據(jù)的統(tǒng)計和處理帶來了極大的威脅。
2.2.3 數(shù)據(jù)統(tǒng)計缺乏真實性
數(shù)據(jù)統(tǒng)計缺乏真實性同樣也是大數(shù)據(jù)分析決策技術(shù)應(yīng)用所面臨的問題和挑戰(zhàn)。作為數(shù)據(jù)統(tǒng)計和數(shù)據(jù)整合的重要技術(shù),數(shù)據(jù)的真實性和精確性是其存在的最重要的基礎(chǔ)。大數(shù)據(jù)分析決策技術(shù)在道路運輸行業(yè)得以應(yīng)用的重要標(biāo)準(zhǔn),如果數(shù)據(jù)的真實出現(xiàn)了問題,將使得智慧交通系統(tǒng)失去其應(yīng)用價值。目前由于道路運輸設(shè)備老化等問題,致使其性能得不到根本的保證,造成了信號獲取的不穩(wěn)定,由此可能會出現(xiàn)數(shù)據(jù)統(tǒng)計缺乏真實性的問題。
3 大數(shù)據(jù)分析決策技術(shù)在道路運輸業(yè)應(yīng)用問題的解決措施
3.1 加強交通平臺資源整合,推進數(shù)據(jù)標(biāo)準(zhǔn)化
為了解決行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性的問題,相關(guān)人員應(yīng)當(dāng)加強交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)。正如上文所說的我國經(jīng)濟發(fā)展的不平衡導(dǎo)致了城市交通運輸業(yè)發(fā)展的不平衡,而交通運輸系統(tǒng)又是極為復(fù)雜的系統(tǒng),如果每個城市之間交通平臺不能形成很好的銜接,將會極大地影響交通運輸業(yè)的發(fā)展,問題解決措施如下。
首先,需要相關(guān)部門建立完整的道路交通運輸標(biāo)準(zhǔn),對各個城市的交通運輸情況進行嚴(yán)格的管理,努力建立一個統(tǒng)一度高、完整度高的現(xiàn)代化、標(biāo)準(zhǔn)化行業(yè)標(biāo)準(zhǔn)。
其次,還需要加強對各個交通平臺資源的分配和整合,加強各個地區(qū)的兼容性。
最后,還應(yīng)當(dāng)實現(xiàn)各個地區(qū)各個交通的相互合作,相互聯(lián)系,推動交通運輸標(biāo)準(zhǔn)化、統(tǒng)一化的實現(xiàn)。
3.2 加強交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)
為了解決基礎(chǔ)設(shè)施缺乏穩(wěn)定性的問題,相關(guān)人員應(yīng)當(dāng)加強交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)。正如上文介紹的我國道路運輸系統(tǒng)的設(shè)備因使用時間較長,設(shè)備老化度較高,這嚴(yán)重影響了大數(shù)據(jù)決策分析技術(shù)的應(yīng)用,為解決這一問題,應(yīng)當(dāng)加強基礎(chǔ)設(shè)施建設(shè),及時對設(shè)備進行更新和維護,從而實現(xiàn)信息數(shù)據(jù)的安全有效。
3.3 嚴(yán)格控制交通運輸?shù)臄?shù)據(jù)真實度
為了解決數(shù)據(jù)統(tǒng)計缺乏真實性的問題,相關(guān)人員應(yīng)當(dāng)嚴(yán)格控制交通運輸?shù)臄?shù)據(jù)真實度。
正如上文所介紹的因種種原因大數(shù)據(jù)決策分析技術(shù)的數(shù)據(jù)真實度有待考證,為了解決這一問題,需要相關(guān)人員做到的是通過嚴(yán)格的監(jiān)控措施和測試手段保證數(shù)據(jù)的真實性和可靠性,嚴(yán)禁因人為原因而對數(shù)據(jù)的真實性造成影響。
4 結(jié)語
綜上所述,智慧交通時代的大門已經(jīng)逐漸向大家打開,在城市化速度不斷加快的今天,城市居民對舒適的交通環(huán)境和便捷快速的城市道路運輸有著十分迫切的渴求,而在大數(shù)據(jù)分析決策技術(shù)基礎(chǔ)上智慧交通是大的發(fā)展趨勢,將為解決城市道路運輸問題提供新的思路。智慧交通時代是高效便捷運輸?shù)臅r代,也是現(xiàn)代化的重要標(biāo)志,通過大量數(shù)據(jù)匯集融合,能夠有效地解決城市交通存在的問題。現(xiàn)階段,大數(shù)據(jù)分析決策技術(shù)和智慧交通系統(tǒng)發(fā)展得還不夠成熟,需要在相關(guān)人員的不懈努力下,使城市居民能夠更早地進入便捷的現(xiàn)代生活中,期待那一天的到來。