日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

數據分析方法論文

引論:我們為您整理了1篇數據分析方法論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

數據分析方法論文

數據分析方法論文:關于我國電子商務企業的數據分析方法的探討

為了驗證所提煉的因子影響程度及重要程度、檢驗問卷結構效度和后續回歸分析的需要,本文首先對調查數據進行了因子分析,剔除不符合要求的題目,最終得到問卷;然后,使用spss軟件對問卷調查數據進行信度、效度、描述性統計、方差和相關分析;,建立回歸方程模型對假設進行檢驗。

1因子分析模型及其統計檢驗

因子分析是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統計分析方法。因子分析的目的即在找出量表潛在的結構,減少題目的數目,使之成為一組數量較少而彼此相關較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據kaiesr(1960)的觀點選取特征值大于1.0以上的共同因素,再以較大變異法進行共同因素正交旋轉處理,保留共同度大于0.6以及因素負荷量大于0.5以上的題目。因素負荷量為碩士論文因素結構中原始變量與抽取出共同因素相關,負荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個重要指標。共同度是每個變量在每個共同因子的負荷量的平方和,也就是個別變量可以被共同因子解釋的變異量百分比,是個別變量與共同因子間多元相關的平方。特征值是每個變量在某一共同因子的因子負荷量的平方總和。

因子分析的數學模型及其統計檢驗描述如下:

彼此之間是獨立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關性,則稱為斜交因子模型。由于斜交因子模型比較復雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。

模型中的矩陣a稱為因子載荷矩陣,a稱為因子“載荷”,是第i個變量在第j個因子上的負荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個因子的因子載荷陣。主要問題就在于如何通過spss統計軟件對數據的分析來估計因子載荷矩陣a,負荷量大的指標給予保留,否則剔除。保留下來的指標所構成的體系就是本文最終研究得到的指標體系。關于因子載荷的檢驗有:模型的標準化,這主要是為了得到抽象的因子含義,即對因子各維度進行命名;變量共同度檢驗,變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻檢驗,用因子的累計方差貢獻率來確定公共因子提取的個數,也就是尋找一個使得累計方差貢獻率達到較大百分比的自然數,即最終提取方差貢獻大于1的因子作為公共因子。

由于本文的論題是電子商務環境下服務業企業績效評價指標體系構建,本文主要運用平衡計分卡把評價指標體系分為四個方面,18個二級指標作為18個因子,按照因子分析法來選取有效指標,各項指標在選取時,需要遵循兩個原則,一是該指標在以前的研究中出現的概率,二是指標與所要研究的問題的潛在相關性。本文在四個方面的指標的選取上,另外考慮了①性,要求所選的指標能反映企業的經營、客戶、企業學習與成長、財務方面的狀況;②有效性,要求選擇那些能夠對預測企業的整體狀況有指示作用的重要指標;如,若各項指標的雙尾t檢驗的顯著性概率小于0.05,則能有效的反映企業的四個方面的狀況,反之,則是無效指標,應剔除。③同趨勢性,即當各項指標增大時,表示企業的整體狀況改善,反之當各項指標減少時,表示企業的整體狀況惡化;④可操作性,采用易得到的數據。

2信度、效度、描述性統計、方差和相關分析方法

信度分析是采用一定的方法來衡量回收問卷中各變量的內部一致性,它主要考查的是問卷測量的性,檢驗每一個因素中各個題目測量相同或相似的特性。本文采用克隆巴赫(cronbach a)一致性系數檢驗量表的信度和各分量表的信度。效度分析是采用一定的方法對問卷的理論構思效度進行驗證。首先,必須對題目的結構、測量的總體安排以及題目見的關系做出說明,然后運用一定的方法從數據中得出基本構思,以此來對測量構思的效度進行分析。用于評價結構效度的主要指標有累積貢獻率、共同度和因子負荷。累積貢獻率反映公因素對量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負荷反映原變量與某個公因素的相關度。描述性統計分析是對各維度中的測量題目的均值、標準差、方差等描述性統計量碩士論文進行統計,了解各維度中題目設置的水平。方差分析又稱變異數分析或f檢驗,其目的是推斷兩組或多組資料的總體均數是否相同,檢驗兩個或多個樣本均數的差異是否具有統計學意義。

方差分析對客觀事物數量進行依存關系的分析,主要刻畫兩類變量間線性相關的密切程度,其兩個變量全是隨機變量,且處于平等地位。兩變量之間的相關關系可以通過繪制散點圖或計算相關系數來反映。

3回歸模型及其統計檢驗

現實世界中,一個事物的運動變化,總是與其他事物相關聯。其中,有的還存在因果關系,這種因果關系有的是線性的,有的是非線性的。當預測對象與其影響因素的關系是線性的,且只有一個影響因素時,就可以用一元線性回歸方法建立其一元線性回歸預測模型,來表述和分析其因果關系;當有兩個或多個影響因素同時作用于一個預測對象時,則用多元線性回歸法建立多元線性回歸預測模型。

本文就是以多對一的關系,因此,用多元線性回歸模型進行統計檢驗。對于多元線性回歸模型及其統計檢驗描述如下:

當預測對象y同時受到多個解釋變量x1,x2,...,xm影響,且各個xj(j=1,2,...,m)與y都近似地表現為線性相關時,則可建立多元線性回歸模型來進行預測和分析,模型為:

3)回歸方程整體顯著性檢驗

回歸模型的顯著性檢驗包括兩個方面,即回歸方程的顯著性檢驗和回歸系數的顯著

性檢驗。

(1)回歸方程的顯著性檢驗

回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著。回歸模型總體函數的線性關系是否顯著,其實質就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構造f統計量來進行檢驗,f檢驗是用來檢驗多元線性回歸模型的總體效果。

(2)回歸系數顯著性檢驗

回歸方程總體顯著并不意味著每個解釋變量對被解釋變量的影響都是重要的,還需要對每個回歸系數的顯著性進行檢驗。回歸系數顯著性檢驗通過構造t統計量來進行,

4)殘差正態性檢驗

殘差e是隨機擾動項ε的體現。對殘差進行分析的目的是檢驗隨機擾動項是否服從經典假設。殘差分析的內容包括殘差正態性檢驗、序列相關檢驗、異方差檢驗等。本文應用殘差的累計概率散點圖進行殘差正態性檢驗。

5)異方差檢驗

異方差常常表現為殘差隨某個解釋變量取值的變化而變化,因此,檢驗隨機擾動項是否存在異方差可以通過繪制被解釋變量與解釋變量的散點圖來簡單的判斷。如果散點圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動逐漸增大或減少,則很可能存在異方差的現象。實踐中,常常使用加權最小二乘法消除異方差。

7)多重共線性檢驗

所謂多重共線性是指各個解釋變量之間存在線性關系或接近線性關系的現象。多重共線性常常會導致回歸系數方差增大,從而使得t檢驗難以通過。用spss檢驗多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數和方差比例。本文選用條件指數和比例方差這兩種方法來檢驗共線性。

(2)方差比例

通過對解釋變量協差陣進行矩陣分解,協差陣的每個特征根可以解釋各個解釋變量方差的一部分。若對于幾個不同的解釋變量,某個特征根能夠解釋的方差比例都很高(一般認為都超過50%),則可以認為這幾個解釋變量之間存在較強的共線性。

需要注意的是,多元線性回歸模型的構建中,可能會遇到多重共線性的問題。如果變量相關,則(x tx)?1不存在,最小二乘法失效。應用最小二乘法估計回歸系數的一個重要條件就是自變量之間為不的線性相關。如果這種相關程度較低,其影響可以忽略;擔任若高度相關時,則回歸系數無效或無意義,因而所建模型無效或無意義。這時應該選擇其他新的自變量以替代相關的變量或采用其他方法來建立模型。在本文中就是采用其他新的自變量,從模型中剔除不顯著的變量,在這里剔除的是意義相對次要的變量。

數據分析方法論文:探討統計數據分析體系中統計分析方法的選擇與比較

探討統計數據分析體系中統計分析方法的選擇與比較

一、數據統計分析的內涵

數據分析是指運用一論文聯盟定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。

二、數據統計分析的原則

(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保障其專業性和科學性的同時也不能忽略其現實意義。

三、推論性統計分析方法

(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。

四、多元統計分析方法

(1)相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是,事物之間有相關關系,不一定是因果關系,也可能僅僅是伴隨關系;但如果事物之間有因果關系,則兩者必然存在相關關系。(2)主成分分析。在大部分數據統計分析中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分

轉貼于論文聯盟

分析就是利用降維的思想,把多指標轉化為幾個綜合指標的多元統計分析方法,很顯然在一個低維空間識別系統要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調論文聯盟研中,市場細分是最常見的營銷術語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法,它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是,對所研究的對象進行了的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方,而在判別分析中,至少要有一個已經明確知道類別的“訓練樣本”,從而利用這個數據建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。轉貼于論文聯盟

數據分析方法論文:環境空氣檢測數據分析及處理方法

摘要:隨著社會的快速發展,人們的生活水平越來越高,同時伴隨著而來的是環境質量的下降,現在城市空氣質量問題屢亮紅燈,人們越來越關注環境的質量。現代科技的快速發展,使得在環境空氣檢測方面人工檢測的越來越少,自動檢測的越來越多,給人們帶來了很多的方便。本文分析環境空氣檢測的數據,對一些異常數據的檢測判斷分析,以及對這些異常數據該如何正確的處理。

關鍵詞:環境空氣檢測;數據分析;處理方法;異常數據

環境空氣自動檢測系統早已在空氣質量檢測中運用嫻熟,在我國的各個城市的空氣質量檢測得到廣泛的運用。環境空氣自動監測系統是基于干法儀器的生產技術,利用定電位電解傳感器原理,結合電子技術和網絡通訊技術,研制、開發出來的近期科技產品,是開展城市環境空氣自動監測的理想儀器。

目前,我國有上百個城市都運用了此系統來進行城市空氣質量的檢測。但是,這個系統也并不是百利無一害的,因為檢測中會面臨一些氣候異常現象、還有設備的維修、斷電現象,諸如此類的現象會導致環境空氣自動檢測系統出現一些異常數據,這就需要工作人員對這些異常數據進行分析探討,促進環境空氣質量檢測數據的標準化。

1環境空氣自動檢測系統的組成部分

環境空氣自動檢測系統可對環境空氣質量進行24小時自動連續檢測。該系統由檢測中心站、檢測子站和質量保障實驗室組成。其中空氣環境檢測子站包括采樣系統、氣體分析儀器、校準裝置、氣象系統、子站數據采集等。子站檢測的數據通過電話線傳送至環境檢測中心站進行實時控制、數據管理及圖表生成。

檢測的項目為:so2、no、no2、nox、co、o3、pm10、氣象的五個參數(即:風向、風速、溫度、相對濕度、大氣壓力)子站計算機可連續自動采集大氣污染監測儀、氣象儀、現場校準的數據及狀態信息等,并進行預處理和貯存,等待中心計算機輪詢或指令。采樣集氣管由采樣頭、總管、支路接頭、抽氣風機、排氣口等組成。遠程數據通訊設備由調制解調器和公用電話線路組成,有線調傳或直接使用無線pc卡(支持gprs)。

2異常數據

環境空氣自動檢測系統在24小時無人值班的情況下檢測中,經常會出現一些異常數據。據統計,我國每年實時檢測的上萬個檢測數據中有0.95%——3.18%的異常數據,這些數據主要表現在一下幾個方面:

2.1可預知的異常數據

有的異常數據是因為儀器自身出現的故障、斷電等問題產生的,這種可預知的數據一般而言是不需要進行分析的,這種可預知的異常數據被視作為無效數據,不參與均值計算。

2.2數據出現負值

出現負值的數據會有兩種情況,及時種是:檢測的環境中氣體濃度極低,接近于儀器的零點值,這個時候會因為儀器的零點漂移而產生負值的數據。第二種是因為儀器本身的故障導致的負值,這種就作為無效數據,不予分析。

2.3數據在零值附近徘徊

單個檢測子站的某項污染物的濃度出現極高值時,就會導致數據在零值附近徘徊5個小時以上。這個時候,要根據周圍的環境、氣象、風向等來分析判斷。

2.4突然產生的異常數據

有的時候,當外界環境發生急劇的變化時就會導致檢測的數據突然的發生異常情況,一般情況下只有當發生突然的空氣污染問題時才會出現這種情況,也就是空氣中某一

或者幾種大氣污染物的濃度突然的急劇增加。這種情況需要工作人員根據當地的環境和以往的經驗進行判斷分析數據,對出現的異常數據進行正確的取舍,將無效的數據不參與均值計算。

3處理方法

子站臨時停電或斷電,則從停電或斷電時起,至恢復供電后儀器完成預熱為止時段內的任何數據都為無效數據,不參加統計。恢復供電后儀器完成預熱一般需要0.5~1 小時。

對于低濃度未檢出結果和在監測分析儀器零點漂移技術指標范圍內的負值,應該取監測儀器低檢出限的1/2 數值,作為檢測結果參加均值計算。

有子站自動校準裝置的系統,儀器在校準零/跨度期間,發現儀器零點漂移或跨度漂移超出漂移控制限,應從發現超出控制限的時刻算起,到儀器恢復到調節控制限以下這段時間內的檢測數據作為無效數據,不參加均值計算,但要對該數據進行標注,作為以后的參考數據保留。

對于手工校準的系統,儀器在校準零/跨度期間,發現儀器零點漂移或跨度漂移超出漂移控制限,應從發現超出控制刻的前24小時算起,到儀器恢復到調節控制限以下這段時間內的監測數據作為無效數據,不參加統計,但對該數據進行標注,作為參考數據保留。

在儀器校準零/跨度期間出現的異常數據作為無效數據,不參加統計,但應對該數據進行標注,作為以后儀器檢查的依據予以保留。

結束語

隨著社會的發展,環境保護工作受到的關注越來越多,城市規模的不斷擴大給城市環境帶來了各種各樣的問題,人們對環境質量的要求也越來越高。對環境的保護很重要的根據就是環境空氣檢測的數據,這些數據是做好環境保護工作的依據。而在環境空氣檢測系統中經常會出現一些異常數據。對這些異常數據,先判斷是否是因為儀器自身的故障而產生的數據,排除這些無效的數據之外的異常數據,要根據具體情況進行分析,尋找出出現異常數據的原因,然后找出解決問題的具體方法,保障環境檢測系統能夠健康安全的運轉下去,為環境保護工作貢獻自己的一份力量。

數據分析方法論文:信息通信網絡告警數據分析方法

【摘要】信息通信網的運行故障時有發生,要確保其運行安全,首先要做好網絡維護工作,通過網絡告警分析和處理故障。告警數據應采用多維度的分析方法,以構建層次化的網絡告警管理體系,提供多維度的,有效的信息通信網安全防護措施。

【關鍵詞】信息通信網;網絡告警;告警數據;多維度分析

信息通信網告警是指在網絡運行異常時獲得網絡運行狀態,對網絡運行進行正確的評估,判斷網絡故障。告警系統的應用有效的減少了故障發生概率,提高了生產效率。多維度分析方法是告警數據的一大特點,文章將其進行具體的分析如下。

1信息通信網絡告警管理的層次體系

構建網絡告警管理層次體系,拓展其影響范圍并實現管理創新具有必要性。在以往的信息通信網告警管理中,網絡設備是其主要實現途徑,有效的實現了對網絡的監督。隨著科技的發展,現階段網絡告警不僅可以應用網絡設備,還能夠實現級報警,也就是對所得信息進行分級處理,得到一定的網絡狀態后,從整體上考慮,完成性能級告警、業務感知告警、容量負荷類告警和網絡運行異常告警等多層次的告警內容,并可以對不同的告警內容實施不同的管理方案,進一步提高了通信網的告警效率。他是按照性能需求將網絡業務設定標準,超出標準后即出現報警。在通信網使用過程中,由于用戶量劇增,因此容量負荷是主要故障之一。針對這類故障我們設置了運行負荷進行監測,即在超出負荷后發出預警。總之,信息通信網絡的告警是多維度的,多層次的,只有這樣才能保障系統的安全運行。

2信息通信網絡告警數據的多維度分析方法

2.1故障工單數據的獲得

故障數據是提供解決方案的基礎,因此信息通信網絡告警的分析首要問題就是獲得數據源提供的故障數據工單,工單數據不同于告警數據,它主要體現在電子運維系統中。是通過對網絡結構的分析而獲得的相關數據,用以判斷是否存在系統故障。對于故障處理實施在線監控,可以隨時發現其中存在的故障。網絡管理系統具有多樣性,通常是由多個商家提供,但是可以實現對故障的集中處理,具有詳細性和性特征。故障分析過程包括了全部字段,如設備告警息息字段、告警派單相關字段、告警標準化字段以及處理過程等。確保電子運維系統的運行安全才能保障信息通信網絡的安全。其作用就是反饋信息,并對相關數據進行存儲和處理。創建工單序列號,時間以及處理整個流程,進而解決故障問題。

2.2多維度信息通信網絡告警數據分析

信息通信網絡告警數據具有層次性,因此應根據不同的特征將其進行分類,采用獨立分析與結合分析的方式提高數據的處理效率。筆者將信息通信網絡告警信息分為總量類、單量類和邏輯類三種,并對其進行相應的分析。分析信息中是否存在三超信息,也就是信息量操長告警、超量告警以及超短告警,利用該方法可以快速定位故障并予以解決。通過維護人員的故障分析方法則可以保障故障工單的反饋有效,積累大量的維護經驗,實現資源的共享。隨著我國通信業務的發展,不僅業務量增多,業務類型也不斷的增多,因此信息數據的種類是復雜的,對其處理應采用科技化的方式,以減少處理過程中的資源浪費,確保系統的運行問題。多維度分析方法分為幾個重要的模塊,在大量告警系統的分析下,通過小模塊逐步分析,并將結果匯總的方式,得到最終的故障位置,這種分析方法符合信息系統運行規律,可以確保信息系統的運行穩定,具有積極意義。

2.3信息通信網絡告警多維度分析的應用

信息通信網絡告警多維度分析主要應用于電信、工業以及服務等領域,將其應用于設備管理具有高效性,由于傳統設備檢驗過程時間長,檢驗效果不理想。而對其采用多維度告警分析后,能夠及時查找設備故障,并提供必要的解決方案。多維度分析方法能獲得網絡的運行動態信息,使對網絡運行的判斷更加,對所有數據進行分析和統計,進而提高了網絡運行維護水平,是我國現階段主要推廣應用的信息通信網絡故障處理方式。在告警數據的分析和處理下,網絡異常現象得到了解決,并且對網絡運行具有監督作用,一旦出現異常,就會立刻報警。當然,多維度分析方法的預警也是的,不會出現誤報警現象。因此為及時的發現通信系統故障提供了基礎。未來,這一技術將進一步發展,并從根本上解決信息通信系統的故障問題,提高網絡運行質量。

3總結

文章主要分析了信息通信網絡的告警系統,致力于實現告警的多維度分析方法。我國信息通信的增多,對其質量要求也就更高。通過多維度分析方法可以建立完善的預警設備,對數據進行收集、整理和處理,實現對網絡運行狀態的實時監控,一旦出現故障,會及時告警,從而保障了設備維修,促進了設備的運行穩定。同時,多維度分析方法的實施還需要專業維修人員的配合,不斷的提高我國網絡運行維護水平和服務水平,提供更加品質的服務,才能促進其可持續發展。

作者:楊潤智 單位:廣東海格怡創科技有限公司

數據分析方法論文:供電企業信息安全大數據分析方法

摘要:本文將針對供電企業中的信息安全大數據進行探討,并針對大數據的分析方法進行研究。

關鍵詞:供電企業;信息安全;大數據;分析方法;思路;探討

前言

智能化的電網正在地實施建設。隨著以大數據為中心的IT技術的不斷融入,當前我國的供電企業展開了大數據分析的研究,以便更好地使得大數據應用到整個配網的規劃當中。此外,還要根據電網的實際數據情況,把數據應用到智能變電站的建立、智能電網的調度及供電信息的采集等各個方面。進而有效地提高我國供電企業的管理水平及處理業務的能力。然而,信息化新技術在應用的過程中也具有一定的風險因素,所以需要建立大數據的安全分析結構,進而對數據進行相應的處理并把安全分析方法應用到整個供電企業的信息系統中去,進而更好地為供電企業的數據安全提供保障。

1供電企業的信息風險分析

大數據作為供電企業的管理工具是一把雙刃劍,給供電企業管理提供了便利,提高供電企業的管理水平和管理能力的同時,也給供電企業帶來了一定的挑戰和風險因素。使得企業數據處理、收集及傳輸的風險等級提高。若企業內部的數據出現問題,則會使得數據在進行傳輸的過程中被盜取和竊聽,這給企業的管理帶來了很大的風險。除此之外,企業在進行數據中進行一定的儲存和利用的過程中,也會由于大數據系統的內部維護不到位而帶了很大的風險。若企業的數據被長時間地竊聽,就會使得不法分子有機可乘,采用各種方法來對數據后臺進行攻擊和試探,并尋找系統的薄弱之處。實行致命的攻擊,并造成系統的癱瘓。所以,大數據給在方便企業的信息管理的同時,也帶來了一定的信息安全挑戰。

2供電企業信息安全大數據所面臨的數據安全的需要

傳統的電力信息系統逐漸地走向了信息化處理的進程,智能化的電網模式帶給了供電企業信息系統數據安全更大的要求。每次進行數據的訪問時,都需要確定數據的訪問權限,并核實訪問者的身份,并查看是否被授權。供電企業的數據信息需要被完整地保護,并保障其不被刪除或者惡意的篡改。一旦供電企業發生一定的突發事件,需要大數據平臺對數據進行自動的備份,并使數據得到安全的保護。④要采取一定的措施來保障供電企業的數據在運行過程中的安全性不被破壞。⑤要切實保障整個供電企業的信息系統的網絡安全,控制供電企業信息系統的基礎安全信息網絡和供電企業內部比較重要的業務系統的安全。

3供電企業的信息安全大數據分析思路

當前供電企業內容的安全信息系統逐漸地向著對抗型的信息安全系統方式轉變,并使得電力系統的大數據網絡可以積極地應對外界的攻擊。并對潛在的敵人進行分析和識別,并歸納總結當前的供電企業的信息安全大數據的風險類型,從而采取相應的對策,并先發制人,提高安全大數據系統的防御能力。這就是當前供電企業的信息安全大數據的分析思路。大數據的分析和挖掘技術需要不斷地融入到大數據的安全分析中去,下圖是大數據的安全結構分析思路。供電企業的信息安全大數據分析思路是基于技術的安全分析和理念,是至今為止比較完善的大數據安全分析辦法,是供電企業大數據的核心環節,是對相對分散的信息進行采集并實現存儲,并對其進行一定的分析,把其分析結果進行分發,把所有的安全分析體系結合在一起,并實現安全技術的互動。

4供電企業信息安全大數據安全分析結構的數據處理

供電企業的信息安全大數據的結構具體根據業務的不同分為不同的數據庫進行處理。關系數據庫是當前最豐富的數據庫,是進行供電企業信息安全處理的主要形式。而數據倉庫屬于一種多維的數據結構,可以允許用戶進行匯總級別的計算,并對數據進行觀察。事務數據庫中記錄了每一個事務,并同時附帶了一些相互關聯的附加表。文本數據庫是對圖象進行描述的數據庫,文本數據庫與圖書館數據庫類似。而多媒體數據庫則是對圖像以及音頻和視頻的存儲,并用于存放內容的檢索。供電企業的信息安全大數據的存儲往往需要先確定好處理的目標,并對數據進行量化的處理,對數據進行一定的評估,進行結果的展示。將大量的數據進行集中化的處理可以切實地反映出安全數據的指標,并根據指標對安全數據進行相應的評估。

5供電企業信息安全大數據安全分析方法

當前,進行供電企業信息安全大數據安全分析的方法有很多,隨著大數據的技術體系逐漸成熟,目前對安全數據的分析算法也變得多樣化,很多分析方法比如分類技術方法、序列分析方法等等對大量的數據的分析具有很好的效果。而對于不同的數據庫可以采用不同的分析算法進行分析。比如,當利用關系數據庫和事務數據庫時,就可以利用序列分析的辦法進行數據的挖掘和統計;而數據倉庫除了需要進行聯機處理以外,還需要進行數據的挖掘;文本數據庫則是利用模式匹配以及關聯分析等方法相互結合來進行數據的挖掘分析。

6結論

針對供電企業的信息安全的大數據分析有很多的途徑,在進行供電企業信息安全的大數據分析時,需要對供電企業的安全數據信息進行預測,并利用多種分析辦法綜合處理。隨著當前大數據網絡技術的不斷發展,根據大數據的分析特點進行安全分析的辦法也在不斷地完善。基于信息安全的大數據分析方法和思路具有很大的發展前景,安全大數據技術的不斷革新,使得供電企業的防護網絡更加地發達,并逐漸實現了供電企業的大數據信息安全的評估系統的完善,使得供電企業的信息安全大數據發展更為迅速。

作者:李迪 冷金敏 馮濤 單位:國網山東省電力公司聊城供電公司

數據分析方法論文:提高環境監測數據分析質量的方法

一、環境監測數據分析的方法

環境監測數據可以反映出某一區域內的環境質量狀況、污染物的排放情況以及環境受污染的程度。各項數據的不斷匯總并分析為各級環保主管部門以及相關機構做決策提供了技術依據。因此,采用健全的質量保障體系以及方法來保障數據的分析質量很有必要。首先,我們先來了解監測數據分析的方法。

(一)統計規律分析

就是采用數理統計方法、模糊數學方法以及適用于小同環境要素的數學和物理方程等方法,對所得的監測數據進行深度剖析,做出詳細的分析評價。這種數據分析方法主要適用于環境調查、環境規劃和環評等工作。

(二)合理性分析

實際的環境監測中,影響環境要素變化的因素錯綜復雜,而有效的能用于綜合分析的監測數據十分有限,所以我們需要考慮到各種環境要素之間的相互影響,以及監測項目之間的關系,理論結合實際分析數據的合理性,這樣才可能得到的、合理的監測數據分析結果。

二、提高環境監測數據分析質量的方法

為了促進環境執法工作的嚴肅和公正,在科學化環境管理政策中,提高環境數據分析質量很有必要。在前人的研究工作基礎之上,我們提出了以下幾種方法來提高數據分析質量。

(一)加強審核

加強各項審核是提高環境監測數據分析質量的重要方法,它主要是指加強對現有數據的綜合審核。在進行例行監測或是年度監測計劃時,我們的工作一般都是連續性的展開的,一年或是好幾年,因此,我們可以建立一個動態的分析數據庫,錄入每次的監測數據,包括每個污染源的詳細信息(污染點的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數據審核中對于同一采樣點、同一分析項目進行新舊數據的分析對比。當數據分析結果出現異常時,可以及時的發現并找到原因,這可以對污染應急事故的發生起到提前警示的作用。另外,在數據審核中,也要密切注意到同一水樣、不同的分析項目之間的相關性,比如:同一水體中氟化物和總硬度、色度和pH的關系、氨氮和總氮之間的相關性等,這樣也能及時發現數據分析中出現的誤差。

(二)加強監督機制

通過調研我們發現,目前在傳統的監測數據質量控制系統中依舊存在許多不足,我們可以通過引入反饋和交流機制,加強監督機制來有效提高數據分析的質量。首先,通過強化平面控制,在系統內部優化管理的模式,提高工作人員的分析技術水平,盡可能的減少或消除數據誤差,以此來提高監測分析的性;其次,我們應該主動接受來自外界的監督,對于外界有異議的監測數據要進行反復的檢測;再次,我們也應該多舉辦技術交流會,讓技術人員可以與各級環境監測部門的人員溝通,學習他們的先進技術和方法,同時進行數據分析結果對比,找到自身的不足,發現問題并能及時更正。

(三)加強采樣及實驗室測量質量的控制

1.采樣控制

工作人員在每次采樣前,都應該根據實際環境情況來制定采樣技術細則,做好采樣控制,比如:需要校準儀器并確保儀器可以正常運轉;使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時進行檢測,考慮到樣品的穩定性,好將樣品密封并存放在于冰箱中。

2.實驗室測量控制

在實驗室進行樣品測試之前,首先應該對所要用到的玻璃量器及分析測試儀器進行校驗。日常工作中,也應該根據各種儀器保養規定,對儀器定期進行維護和校驗,確保儀器可以正常運轉工作。其次,需要調配各種溶液,特別是標準溶液,配置時要使用合格的實驗用蒸餾水。測試數據時,先要測定標準樣品并繪制標準曲線。測定樣品時要檢查相關系數和計算回歸方程,并對實驗系統誤差進行測驗,每一步都不能少。

三、結束語

總得來說,提高環境監測數據分析質量是環境問題防治的基礎和前提,為了保障環境工作質量和監測數據分析結果的,我們首先要注意審核及采樣質量的控制,同時將各種數據分析方法結合起來,綜合使用,以此來有效提高環境監測數據分析的質量,為環境保護提供科學的決策性依據。

作者:黃瓊 單位:黔東南苗族侗族自治州環境監測中心站

數據分析方法論文:基于數據分析方法的屬性簡約算法的實現

摘要:屬性約簡是粗集理論中的研究熱點之一。 文章通過數據分析方法討論了屬性約簡問題,該算法直觀,易于理解,能計算出所有的約簡,克服了啟發式算法的不完備性,以及基于區分矩陣的屬性約簡算法中出現時間和空間浪費的問題。實例表明,該法是行之有效的。

關鍵詞:粗糙集理論;數據分析方法;信息系統;決策表;屬性約簡

1 引言

粗糙集(Rough Set)理論[1]是波蘭數學家Z.Pawlak于1982年提出的,它建立在完善的數學基礎之上,是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。

屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發式算法[4],這類算法往往不能得到系統的所有約簡.另一類是基于區分矩陣和區分函數構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。

本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現區分矩陣中大

量的重復元素,從而提高了屬性約簡的效率。

2 粗糙集概念

定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。

定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。

定義2.3稱4元有序組K=(U,A,V,f)為信息系統,其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數,?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。

顯然,信息系統中的屬性與近似空間中的等價關系相對應。

定義2.4設K=(U,A,V,f)為信息系統,P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。

定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。

定義2.6設K=(U,A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統的一個約簡。

定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。

定義2.8數據分析方法對于信息系統K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現新的不一致,則該屬性可被約去,否則該屬性不可被約去。

3 基于數據分析方法的屬性簡約算法

3.1 算法思路

利用函數的遞歸調用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規則,作為是否約去屬性的依據。

以上給出的函數是求解信息系統的屬性約簡算法;對于決策表,只要將Match(A’)函數中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數,ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現新的不一致,作為約去此屬性的依據。

數據分析方法論文:基因調控網絡的研究內容及其數據分析方法

摘要:基因調控網絡以系統的觀點從基因之間相互作用的角度揭示復雜的生命現象,是功能基因組學研究的重要內容,本文著重研究基因調控網絡的研究內容、數據分析研究方法。

關鍵詞:基因調控網絡;自組織圖聚類;機器學習

基因調控網絡是計算機科學、數學、信息學向分子生物學滲透形成的交叉點,是運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段研究復雜的基因網絡關系。作為一種系統的、定量的研究方法建立在包括分子生物學,非線性數學和程序算法設計等知識等基礎上,運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段,整合已有的實驗數據和知識,構建生物基因調控網絡,從整體的層次,了解細胞的功能;從整體的角度,闡述基因參與的生物調控過程,在全基因組水平上以系統的、全局的觀點研究生命現象及其本質,是后基因組時代研究的重要內容。

1 基因調控網絡概念

基因調控網絡本質上是一個連續而復雜的動態系統,即復雜的動力系統網絡。

1.1 基因調控網絡的定義

生物體任何細胞的遺傳信息、基因都是同樣的,但同一個基因在不同組織、不同細胞中的表現并不一樣。一個基因的表達既影響其它的基因,又受其它基因的影響,基因之間相互促進、相互抑制,在特定的細胞內和時間下綜合環境等因素這樣的大環境中呈現活化狀態,構成一個復雜的基因調控網絡。

1.2 基因調控網絡的特性:

基因調控網絡是連續的多層次動力系統模型,具有穩定姓、層次性、復雜性、動態性等。

1.2.1 復雜性

生物具有大量的基因,諸多基因組成各個模塊,不同的基因網絡模塊可以在不同層次上發生相互作用,同一個基因可能參與各種不同的分子機理,使得基因網絡有著高度的復雜性。

1.2.2 層次性

基因調控網絡具有一定層次結構,按照調控元件、motif、模塊和整個網絡的四層結構,將各個節點有規律的來接在一起。調控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調控基因的結合位點DNA 序列和結合在該序列上對基因起激活或者抑制作用的轉錄因子。Motif 和模塊都是由基因集合構成的調控模式, 是分析網絡局部特征和網絡構成以及研究調控機理的重要結構。

1.2.3 動態性

生物過程是動態的,用來理解生物過程意義的基因調控網絡自然就動態存在。基因調控網絡是隨著生物過程的動態發生而具有動態的特性,不同條件、不同時間的基因調控網絡是不同的。

1.2.4 穩定性

基因調控網絡的穩定性體現在生物體緩解突變的影響方面,功能上無關基因之間的相互作用可以抵抗系統突變;一個基因在突變中喪失的功能,有另外一個或更多具有相似功能的基因所補償,以減弱該突變對表型造成的影響,保持生物進化中的穩定性。

1.2.5 功能模塊性

基因調控相關的生物功能主要是通過網絡模塊來實現的,有適當尺度下的動力學特征和生物學功能解釋的模塊是由多個motif 構成的,實現相同功能的基因或蛋白質存在拓撲結構上是相關的。

1.3 基因調控網絡研究的目的

通過對基因調控網絡的研究,識別和推斷基因網絡的結構、特性和調控關系,認識復雜的分子調控過程,理解支配基因表達和功能的基本規則,揭示基因表達過程中的信息傳輸規律,清楚整體的框架下研究基因的功能。

2 基因調控網絡研究內容

基因調控網絡的研究是假設兩個基因列譜相似,則這兩個基因協作調控,并可能功能相近,有同樣表達模式的基因可能有同樣的表達過程。基因調控網絡主要在三個水平上進行:DNA水平、轉錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關系影響基因的表達;轉錄水平主要研究代謝或者是信號轉導過程決定轉錄因子濃度的調控過程;翻譯水平主要研究蛋白質翻譯后修飾,從而影響基因產物的活性和種類的過程。基因轉錄調控信息隱藏在基因組序列中,基因表達數據代表基因轉錄調控的結果,是轉錄調控信息的實際體現。

基因調控網絡試圖從DNA微陣列等海量數據中推斷基因之間的調控關系,對某一物種或組織中全部基因的表達關系進行整體性研究。采用帶有反饋回路的基因網絡,首先是按照同步或反同步表達,以及表達強度的變化,系統地識別各基因的特點,再用聚類的方法將各基因歸類,在此基礎上構建基因調控網絡,分析相關控制參數.利用其本身或調節位點或拓撲結構進行不同的研究。

3 基因調控網絡研究數據分析方法

基因相互作用形成的網絡可以利用計算機語言來描述,并進行計算機模擬,計算機仿真語言以及一些數學處理工具如Matlab等對基因網絡進行分析;利用拓撲學方法、模糊數學方法、圖論和各種可視化技術等數學技術輔助建模、設計并改進算法;利用統計語言學方法,建立DNA序列的多層次信息結構模型,發展真核基因預測的新算法;利用語言學的方法進行調控序列分析,尋找轉錄因子結合位點的新算法;利用基因表達譜數據,結合啟動子及其結合位點,利用Bayes網絡及因果分析等統計方法,重構基因轉錄網絡,認識基因的調控規律并進行基因協作功能的分析。

研究基因調控網絡的方法目前主要有(1)聚類分析建立模型;(2)微擾分析重構模型口 ;(3)逆向工程推斷網絡;(4)基于表達譜和ChIP―chip的分析方法,(5)基于表達譜和啟動子序列的分析方法,(6)機器學習(machine learning)的方法等幾大類。

數據分析方法論文:大數據分析方法及應用初探①

摘 要:大數據在很多的行業和企業得到了應用,對大數據的研究和分析也受到了很多的學者的青睞。大量非結構化流式數據已成為大數據時代的主要數據形態,這給傳統的數據處理系統架構帶來非常大的挑戰,必將使大數據處理系統漸漸由流程設計轉變為數據設計。為此,該文主要從大數據分析的方法理論入手,對現今各行各業即將運用的大數據處理方法進行研究,總結出一種較適用的大數據分析方法及其應用,以供行業和企業在未來的業務活動中作參考。

關鍵詞:預測分析 大數據處理 大數據應用 數據挖掘

隨著云計算、大數據、物聯網和移動互聯網等新一代信息技術的發展,傳統企業級IT架構正在朝基于互聯網的分布式新架構轉型。大數據作為新一代信息技術的核心,正在使各個領域變得越來越可感知,并走向智能化。大數據將會發揮自身獨特的優勢,帶給我們更多的方便和便捷。大數據分析的方法理論有哪些、在行業、企業的活動中有哪些應用。

1 大數據分析的五個基本要素

1.1 大數據預測性分析

大數據技術的主要應用是預測性分析,如在線教學資源網站通過數據分析用戶會對推薦的教學模是否感興趣,保險公司通過數據預測被保險人是否會違規,地震監測部門通過對大數據的分析,預測某地點發生地震的大致時間,氣象部門利用數據預測天氣變化等。預測是人類本能的一部分,通過大數據預測人類才可以獲得有意義的、智能的信息。許許多多的行業應用都會涉及到大數據,大數據的豐富特征表述了快速增長的存儲數據的復雜性。大數據預測分析打破了數據預測一直是象牙塔里數據科學家和統計學家的工作,伴隨著大數據的出現,并融合到現有的MIS、MRPII、DSS 、CIMS和其他核心業務系統,大數據預測分析將起到越來越重要的作用。

1.2 數據管理和數據質量

大數據分析跟數據質量和數據管理緊密相關,而質量高的數據和有效的數據管理可以使分析結果有價值、真實并得到有力的保障。

1.3 可視化分析

普通用戶和大數據分析專家是大數據分析的直接使用者,因此他們對大數據分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數據特征,讓用戶直觀看到結果。

提高解釋信息的能力可以通過數據的可視化展示來實現,而可視化展示主要由圖形和圖表來呈現。要從大量的數據和信息中找尋相關性非常的不容易,而圖形或圖表能夠在短時間內展示數據之間的相關信息,并為用戶提供所需的信息。

1.4 語義引擎

語義引擎是把現有的數據標注語義,其實可以把它理解為結構化或者非結構化的數據集上的一個語義疊迭層。它是數據分析及語義技術最直接的應用,好的語義引擎能夠使大數據分析用戶快而準地獲得比較的數據。

數據分析的新挑戰及困難主要表現在非結構化數據與異構數據等的多樣性,必須配合大量的工具去分析、解析、提取數據。語義引擎的設計可以達到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數據的特征,在此基礎上科學建模和輸入新的數據,來預測未來的可用數據。

1.5 數據挖掘算法

大數據分析的理論核心就是數據挖掘。各種數據的算法基于不同的數據類型和格式,能更加科學地呈現出數據本身的特點,能更快速地處理大數據。如果采用一個算法需要花好幾年才能得出結論,那大數據價值也就無從f起了。可視化是給人看的,數據挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數據內部的價值,并且這些算法能夠處理大數據的數據量,也可以滿足處理大數據的效率要求。

2 大數據處理方法

大數據處理技術在社會的發展中占有重要的地位,現在有很多的研究者對大數據處理技術進行研究,將大數據處理技術與交互設計結合,讓交叉科學得到發展,計算機技術的進步,讓交叉技術被廣泛應用,并引起了很多人的重視,例如:計算機技術可以在藝術中被應用,進行色彩搭配,還可以將計算機技術應用到垃圾分類里,這些都是研究人員對計算機和交叉設計的結合。這種結合讓設計學與計算機技術緊急的結合在一起,將傳統的調研方式和測試方式應用到交叉科學領域,這種方法的研究可以為用戶調研和測試方法提供依據,能夠減少人工的成本。大數據處理方法其實有很多,筆者根據長時間的實踐,總結了幾種基本的大數據處理方法,如非結構數據處理法、自然語言處理法等,該文主要介紹非結構數據處理流程涉及到的主要方法和技術。非結構化數據處理流程主要以網頁處理為例來闡述,包括3個階段,分別是信息采集、網頁預處理和網頁分類。

2.1 信息采集

信息采集主要是根據相關主題由固定的專業人士來完成,其采集的數據只能用于所針對的主題和相關的模塊,出于對效率和成本的考慮不必對整個互聯網進行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預測鏈接指向的頁面與主題的關聯性,并測算其是否值得訪問;然后研究以哪種相關策略訪問Web,以在采集到主題相關頁面的同時,盡可能地減少采集到主題無關的頁面。

預先設定好種子鏈接是信息采集的基本方法,充分使用HTTP協議下載被訪問的頁面,運用分析算法對頁面與主題的相關性進行分析,然后確定待訪問的相關鏈接,預測可能指向主題相關頁面的鏈接,循環迭代地運用不同的相關策略訪問網頁。

2.2 網頁預處理

網頁預處理最主要涉及到網頁去重處理,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。

網頁去重是先抽取文檔對象的特征,再對文檔內容進行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉為數字串映射方式,為后續的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,就是計算文檔的相似度,此步需要根據文檔特征重復比例來確定文檔內容是否重復。一般是提取網頁的某一個信息特征,通常是一組關鍵詞,或者是關鍵詞加權重的組合,調用相應的算法,轉換為一組關鍵代碼,也被稱為指紋,若兩個頁面有大數量的相似指紋,那么可以預測這兩個頁面內容具有很高的重復性。

2.3 網頁分類

網絡時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網頁分類。將網絡信息正確分類,方便人們更好地使用網絡資源,使雜亂無章的網絡環境變得有條理。而網頁分類一般是先對網頁中的文本素材進行分類,通常采用文本分類來完成。文本分類主要應用于電子郵件分類、信息過濾、文獻翻譯、數據檢索等任務,文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。

在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等。

網頁分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統計學理論及線性分類器準則之上,從線性可分入手,再擴展到線性不可分的情況。甚至有時會擴展到使用非線性函數中去,這種分類器統稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網頁分類技術人員的青睞。

3 大數據分析在行業活動中的應用

非結構數據處理和數據挖掘的應用范圍較廣,它可能應用于運營商、銀行、傳統企業和電商,挑選幾個具有代表性的案例與大家分享。

3.1 電信行業

某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。

3.2 地產行業

某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體數據,進行網絡口碑監測,負面情緒被及時地發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。

3.3 證券行業

某證券商戰略信息監測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產品相關信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數與趨勢對應曲線可以看到歷史相似天氣與歷史趨勢的對照。

3.4 金融行業

某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估,這些數據指數可以有效協助商業銀行進行供應商風險評估。

4 結語

大數據處理數據的基本理念是用全體代替抽樣,用效率代替,用相關代替因果。證券、微商、地產等行業每天都會產生巨大的數據量,大數據分析與處理已成為大數據技術的最重要的應用,通過大數據技術從海量數據中提取、挖掘對業務發展有價值的、潛在的信息,找出產品或服務未來發展趨勢,為決策者提供有力依據,有益于推動企業內部的科學化、信息化管理。

數據分析方法論文:淺談小學科學實驗數據分析方法

在小學科學探究活動中,經常要涉及實驗數據。實驗數據是客觀事實的反映,但實驗數據并不等于實驗結論,只有在實驗的基礎上進行科學分析處理,才能得出正確的結論。探究活動中學生經歷提出問題、猜想假設、設計方案、進行實驗、收集數據等環節后, 就要引導學生分析實驗數據,找出規律。分析數據有時要花很長時間,有的需要一定的方法,但有的老師為了完成教學任務,將數據分析過程草率處理,或者直接給出結論。這種對實驗數據的態度,嚴重違背了課程標準對情感、態度、價值觀的要求, 更不用說像科學家一樣來探究問題。本文結合筆者的教學實際,談談科學探究活動中處理實驗數據的幾種方法。

一、定量計算法

在探究中我們會收集到很多數據,我們可以把收集到的數據運用數學運算方法,得出各數量之間的關系。例如六上《杠桿的科學》一課中,學生通過實驗得到了以下數據:

杠桿的科學

阻力點情況 用力點情況

教師引導學生分別比較阻力點與用力點的鉤碼數和格子數,發現杠桿平衡時每組數據都是用力點的鉤碼數與格子數的積等于阻力點的鉤碼數與距離的積,教師利用數據之間的等量關系,幫助學生很好掌握了杠桿平衡的規律。

二、對比分析法

對比是常用的思維方法。在探究活動中,教師可以通過有意識控制一定的條件,讓學生觀察數據在不同情況的表現,找到它們之間的不同點和共同點,從而揭示事物的本質和現象。如在五下《擺的研究》一課中,針對擺的快慢與哪些因素有關這一問題,讓學生利用三個鉤碼和三根長度不同的擺繩進行實驗并采集了以下數據:

15秒擺動次數記錄表

引導學生比較數據,可以得出這樣的結論:在擺繩長度相同時,擺的快慢與擺重無關;在擺的重量相同時,擺線越長,擺的速度越慢。學生在數據的比較中,發現了擺的特點。

三、示意圖分析法

示意圖分析法是指利用簡單的圖和形,把實驗采集的數據,繪制成簡明的圖形,用來說明所研究對象量與量之間關系的一種方法。如六上《下沉的物體會受到水的浮力嗎》一課,學生采集了以下數據(見下表):

下教師讓學生用示意圖,將重力和浮力之間的關系,用圖示方法(見上圖)畫出,并附上簡單的文字說明,然后利用示意圖解釋石塊在水下沉的原因。在這里,教師用示意圖搭建數據與概念之間的橋梁,把抽象的力之間的關系用直觀的手段表現出來,幫助學生理解石塊下沉的原因,突破了學生學習上的難點。

示意圖直觀,形象和簡捷,通過示意圖來分析數據,既有利于學生對知識的理解和記憶,又可以提高學生的學習興趣,提升學生的學習能力及情感、態度和價值觀等方面的素養。

四、圖表圖像法

圖表圖像法是結合數據與圖形之間的密切關系,形象地表達數據趨勢和規律的一種方法。在六上《抵抗彎曲》一課中,探究 “紙的抗彎曲能力和什么有關” 這個問題時,學生通過實驗來獲得紙在不同寬度和不同厚度時承受壓力(墊圈個數)的數據。(見下表)

教師利用“折線統計圖” 將上面的數據用統計圖表示如下:

在完成圖表和圖像后,讓學生結合表格中的數據觀察折線圖,在圖上清晰看到了紙的寬度和厚度的抗彎曲能力,同時對紙的厚度更能影響紙的抗彎曲能力有了更直觀的認識。在這里,教師利用統計圖,引導學生比較紙的寬度和厚度的抗彎曲能力,方法巧妙,目標清晰,學生對概念的印象也深刻。

五、推理分析法

數據推理方法是運用數學思想,通過推導、分析一組已知數據,來判斷、推測與它對應數值的一種分析方法。如五上《我們的小纜車》中,一小組在2、4、6個墊圈拉力時,測得小車運行時間分別為2.5秒、1.8秒和1.2秒,教師引導提問:“推測一下,你們的小纜車在8個墊圈的時候,速度大概是多少?并說說理由。”學生:“我們認為8個墊圈應該在0.6秒左右。”教師:“說說理由。”學生:“因為我們組2個墊圈是2.5秒,4個墊圈是1.8秒,6個墊圈是1.2秒,增加2個墊圈,時間減少0.6秒左右,所以我們估計8個墊圈在0.6秒左右。”教師:“那你們能不能利用剛才的實驗裝置來驗證一下你們的猜測?”學生:“可以。”

……

在上述案例中,學生根據自己的實驗數據,通過對相鄰數據的連續觀察,發現其中的一些科學規律,經過分析、推敲,得出一個可能的稻蕁T謖飧齬程中,教師引導學生運用推理方法分析數據,不僅加深了學生對力與運動的進一步認識,而且提高了兒童的思維能力和探究能力。

上面所說的是一些科學探究活動中常用的數據分析方法。事實上,對科學探究中的實驗數據進行分析、處理的方法很多。只有根據具體的實際情況,引導學生選擇恰當的方法對實驗數據進行合理處理,才能快速發現規律,得出科學的結論,形成科學概念。科學探究的過程是曲折的,在科學探究的路上,從一堆數據中找出規律來,有的要花費科學家畢生的精力,甚至需要一代又一代的不懈努力。我們在引導學生進行探究活動時, 不能只為完成教學任務,急功近利,應多在引導學生分析數據上下功夫,真正讓學生體會到科學探究的艱辛和樂趣。

數據分析方法論文:幾種功率譜估計方法在飛行試驗數據分析中的研究

摘 要:在飛行試驗數據處理中為了頻域分析的需要,針對輸入數據進行功率譜估計,文章使用經典功率譜估計中的周期圖法、Welch法以及現代功率譜估計中的Burg法、MTM法對飛機輸入激勵信號進行譜估計,從而得到各種方法對該信號的功率譜圖并分析其頻域特性,然后比較得出Welch法的結果更適用于該類信號的頻域分析,得到的結果能夠較好地應用于飛行品質頻域準則的評估。

關鍵詞:經典功率譜估計;現代功率譜估計;飛行試驗

1 概述

當飛機在閉環補償跟蹤任務中飛行時,飛機飛行品質的一種量度是它的穩定裕度,因而將在不危及穩定性的情況下可以進行閉環跟蹤的較大頻率定義為頻寬。頻寬是衡量較大頻率的一個指標,它對高增益飛機特別有用,不論是對駕駛員操縱力和操縱位移的俯仰姿態響應還是根據航向角或者橫向航跡角對座艙直接力空中輸入的開環頻率響應,它都可以在這個頻率條件下實現閉環跟蹤而不需要駕駛員提供有利的動態補償且不對穩定性構成惡化[5]。因此,在飛行試驗的數據分析中,獲取精準的飛機響應的頻域特性尤為重要,這就需要首先對操縱輸入信號進行功率譜估計,本文列出4種功率譜估計方法,并用這些方法對飛機的輸入激勵信號進行譜估計,以便得到適用于飛行品質頻域準則評估的頻域特性。功率譜估計可分為經典譜估計和現代譜估計。

2 經典譜估計

功率譜密度是一種概論統計方法,是對隨機變量均方值的量度。平穩信號的自相關函數的傅立葉變換稱為功率譜密度。實際中采用有限長的數據來估計隨機過程的功率譜密度[2、3]。

2.1 周期圖法

周期圖法是信號功率譜的一個有偏估計,它對觀測到的有限長序列x(n)求其N點離散傅立葉變換XN(ej?棕),再取其模值的平方除以N,得到計算公式:

周期圖法是基本的功率譜估計方法,計算簡便,計算效率高,但是當數據長度N過大時,功率譜曲線起伏加劇,當N過小,譜分辨率較差。

2.2 加權交疊平均法(Welch法)

Welch法是對隨機序列分段處理,使每一段部分重疊,然后對每一段數據用一個合適的窗函數進行平滑處理,對各段譜求平均。這樣可以得到序列x(n)的功率譜估計:

(n)是窗函數[1],由于各段數據的交疊,數據段數L增大,從而減小了方差,另外,通過選擇合適的窗函數,也可使遺漏的頻譜減少,改進了分辨率。因此這是一種把加窗處理和平均處理結合起來的方法,它能夠滿足譜估計對分辨率和方差的要求,但是如果信號數據過短,也會無法進行觀測。

3 現代功率譜估計

現代功率譜估計分為參數模型法和非參數模型法。

3.1 參數模型法(AR模型的Burg法)

參數模型法是將數據建模成一個由白噪聲驅動的線性系統輸出,并估計該系統的參數。最常用的線性系統模型是全極點模型,也就是一個濾波器,這樣的濾波器輸入白噪聲后的輸出是一個自回歸(設AR模型的沖擊響應在方差?滓2的白噪聲序列作用下產生輸出,再由初值定理得到:

這就是AR模型的Yule-Walker方程。本文采用的是該方程的Burg法,即先估計反射系數,然后利用Levinson遞推算法,用反射系數求AR參數。Burg法在信號長度較短時能夠獲得較高的分辨率,并且計算高效。

3.2 非參數模型法(多窗口法)

多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一組濾波器計算估計值,這些FIR濾波器是由一組離散扁平類球體序列(DPSS)得到的,除此之外,MTM法提供了一個時間-帶寬參數,它能在估計方差和分辨率之間進行平衡。因此,MTM法具有更大的自由度,在估計精度和估計波動方面均有較好的效果,其增加的窗口也會使序列兩端丟失的信息大幅減少[7]。

4 實例分析

本文采用Matlab計算,輸入信號使用飛行試驗中常用的掃頻和倍脈沖信號。通過Matlab中的譜估計函數方法[4、6],編寫程序對給定的輸入信號分別進行周期圖法、Welch法、Burg法和MTM法的譜估計并分析。估計結果如圖1、圖2所示:

從圖1、圖2可以看出:

(1)周期圖法得到的掃頻功率譜曲線起伏大,倍脈沖信號的頻譜分辨率低;(2)Welch法明顯改善了周期圖法的不足,方差性能得到很大的改善,只要窗函數選取適當,可減少頻譜泄露。圖中可見Welch法的譜估計曲線比較光滑,在飛行品質關注的頻段頻譜分辨率高;(3)Burg法的曲線平滑性好,頻譜分辨率高,但是其譜峰窄而尖,在飛行品質關注的低頻段頻譜并不理想,也就是不能在所需的頻段內產生足夠的能量;(4)MTM法得到的結果介于周期圖法和Welch法之間,但是對于時間序列較長的信號,MTM法的功率譜曲線起伏較大,分辨率變低。

5 結束語

通過4種功率譜估計方法對飛機輸入激勵信號的譜估計分析,采用Welch法得到了更有效的輸入信號的譜估計,得到的頻域特性能夠更好地進行飛行品質頻域準則的評估,這對飛行品質的等級界定提供了有效的依據。

數據分析方法論文:運用數據分析方法 把握概念的內涵與外延

摘 要:文章以弱酸的電離平衡常數Ka為例,簡述如何運用數據分析方法,把握化學概念的內涵與外延,幫助學生理解概念本質,提升學生的科學素養,提高學生綜合應用概念的水平,提高學生計算能力,體現化學基本概念對元素化合物性質學習的指導作用。

關鍵詞:數據分析方法; 概念的內涵與外延 ;弱酸電離平衡常數Ka

概念的內涵就是反映在概念中的事物的本質屬性,這是概念的內容。概念的外延就是具有概念所反映的本質屬性的對象,這是概念的適用范圍。學生對于概念的掌握程度可以通過各種判斷題、選擇題的綜合檢測得到體現,概念的正確掌握能從根本上解決計算題、實驗題及綜合題等。只有學好的基本概念,深刻理解概念的內涵和外延,把握概念的本質屬性,才能扎實地掌握相關的知識內容,正確而有效地學好化學知識。

一、運用數據分析,把握化學概念的內涵

高中化學選修四《化學反應原理》一書中的一些化學基本概念比較抽象,教師應在教學中依據教材提供的數據材料或通過實驗所得數據及推理演算,引導學生在探索中得出相關概念,并進一步理解概念的本質。通過數據分析的教學,讓學生自己收集數據,應用數據分析,從而感受數據分析的實際價值,深刻理解概念的內涵。

例如,弱電解質電離平衡常數用Ki表示。弱電解質通常為弱酸或弱堿,所以在化學上,可以用Ka、Kb分別表示弱酸和弱堿的電離平衡常數。用HA表示弱酸,則其電離方程式為HA H++A-,則電離常數Ka=[H]*[A]/[HA],電離平衡常數描述了一定溫度下弱電解質的電離能力。在相同溫度和濃度時,電離度的大小也可以表示弱電解質的相對強弱。用電離度比較幾種電解質的相對強弱時,應當注意所給條件,即濃度和溫度,如不注明溫度通常指25℃。

在教學過程中,我們發現這些概念抽象難以用啟發式教學法讓學生去學習,因為學生對于課本上弱酸的電離平衡常數的理解總是基于表面,沒能真正理解化學概念的內涵。

教師在教學中應充分利用課本中的數據,分析Ka與電離度α的關系,比較Ka與電離度α的相同點與不同點。電離常數K與電離度α的關系可近似地表示為K=cα2,其中c為弱電解質溶液的濃度。教師通過設計一組具體數據,讓學生從電離常數可以算出不同濃度、不同溫度時弱電解質的電離度,比較電離常數與電離度的區別,可看出Ka是常數而α不是常數。Ka隨溫度而變化,α隨Ka而變化,因此α也隨溫度而變化,Ka不因濃度改變而變化,但α卻隨濃度而變化,Ka不因溶液中其他電解質的存在而變化,但α卻因溶液中其他電解質離子的存在而變化。

例如,在醋酸溶液中加入醋酸鈉(CH3COONa),則因同離子效應而使平衡向左移動,α將減小。在室內溫度下,醋酸的電離常數是1.8×10-5,學生對這一數據并沒有什么印象,但通過計算可以得出它的電離度α=1.3%,學生得出每1000個醋酸分子室溫條件下只有13個醋酸分子發生電離,987個醋酸分子的形式存在溶液中。通過數據的分析轉換,學生容易理解弱電解質的電離程度的大小,有利于把握化學概念的內涵。

二、運用數據分析,化學概念的外延

化學課本中有許多數據,教學中并不要求具體記憶這些數值,但對這些數據的統計分析,既能幫助學生理解概念本質,形成學科觀念,又有利于培養學生嚴謹的科學態度,提升科學素養。對這些數據的統計分析,有利于學生建立的數據觀念,可以發展學生的數據意識,學生從中提取相關信息,從而充分體現化學基本概念對元素化合物性質學習的指導作用。例如,關于Ka概念外延的教學,我們應該清楚該概念的適用范圍。

(1)根據Ka判斷弱酸的酸性強弱。通過Ka的學習達到指導元素化合物性質的學習。相同條件下,Ka越大,酸性越強。通過比較Ka,我們可以得出常見弱酸的酸性:CH3COOH>H2CO3>

H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。這樣,學生就很容易理解醋酸溶液與碳酸鈣的反應,還有漂白粉放置在空氣中失效、水玻璃溶液中通入二氧化碳氣體、偏鋁酸鈉溶液中通入二氧化碳氣體等一系列反應,這些反應都是高一化學課本中的重要反應,都符合“酸性強的制取酸性弱”的基本原理。

(2)以Ka來判斷鹽類物質的水解相對大小。根據鹽類水解規律“越弱越水解”,我們可以判斷出相同條件下醋酸銨溶液、氯化銨溶液、次氯酸銨溶液水解的相對大小,從而判斷出溶液的酸堿性。分析利用醋酸Ka和氨水Kb數據的特殊性可知:醋酸銨溶液接近中性,進而可以探究Mg(OH)2沉淀溶于濃銨鹽的反應原理。

(3)根據Ka1、Ka2判斷酸式鹽溶液的酸堿性。在25℃時,碳酸的電離平衡常數分別為:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亞硫酸的電離平衡常數Ka1=1.54×10-2 ,Ka2=1.02×10-7。對于酸式鹽NaHA的水溶液, NaHA 中 HA-既可電離:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式鹽溶液由于NaHCO3溶液的Ka1Kh1而顯酸性。

(4)根據Ka1、Ka2的相對大小判斷物|的性質、理解離子反應的實質。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氫氧化鋁的酸式電離Ka= 6.3×10-13 。通過對這些數據的分析,我們容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>

C6H5OH>HCO3-。這樣就容易理解以下四個反應:

A.往苯酚鈉水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+

HCO3-

B.往偏鋁酸鈉水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-

C.往偏鋁酸鈉水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+

HCO3-

D. 偏鋁酸鈉水溶液與碳酸氫鈉水溶液混合: AlO2-+HCO3-+H2O

Al(OH)3+CO32-

三、運用數據分析,拓展提高學生綜合應用概念的水平

化學計算是中學化學教學的重要內容,也是中學生必須掌握的一個基本技能,學會數據分析是提高計算能力的關鍵。化學計算題中,往往題目數據多、綜合性強,但學生們因綜合分析能力差,不善于對知識遷移,因而覺得十分棘手。分析化學過程、融會貫通理解化學概念的內涵是正確解決化學計算題的基礎。

在學習《溶液中的離子反應》專題后,許多教師會引導學生對化學平衡常數K、酸堿電離平衡常數Ka、Kb、水的離子積Kw、難溶電解質的溶度積Ksp等一些概念進行比較歸納,分析他們的異同,但是若能進一步拓展到酸電離平衡常數Ka與鹽的水解常數Kh、與難溶電解質的溶度積Ksp、配合物的穩定系數Kw之間的聯系,就能進一步提高學生的綜合能力。

例如,在25℃下,于0.010mol?L-1

FeSO4溶液中通入H2S(g), 使其成為飽和溶液 (C(H2S)= 0.10mol?L-1) 。

用HCl調節pH值,使C(HCl)= 0.30mol?L-1 ,試判斷能否有FeS生成。這樣一道計算題融合了Ksp與Ka的計算,體現了概念的外延,拓展了學生綜合應用概念的水平,既能幫助學生理解概念本質,形成學科觀念,又有利于培養學生的計算能力、解題能力,提升學生的科學素養。

總之,運用數據分析方法,把握化學概念的內涵與外延,有利于促進學生化學綜合素養的提升。本文僅從以上三個方面予以論述,以供參考。

(作者單位:福建省永春及時中學)

數據分析方法論文:一種大數據智能分析平臺的數據分析方法及實現技術

摘要:文章介紹了一種用于大數據智能分析平臺的數據分析方法及實現技術,介紹了這種方法的需求和意義;和該方法的總體架構,以及在數據傳輸、數據清洗和數據分析的實現;概述了這種技術高并發、大數據量的優化措施和跨平臺的實現。

關鍵詞:大數據;數據分析;數據挖掘

1 綜述

1.1 簡介

在數字化時代,需要新一代系統架構提升業務創新能力。在新一代系統架構中,大數據是核心要素。業務應用能否自主發現與自助獲得高質量的大數據,就成為業務創新成敗的關鍵。這就要在搭建大數據平臺時,就著手大數據治理相關建設。

1.2 需求和意義

從某種意義上說大數據治理架構需要以元數據為核心、提高大數據質量、透明化大數據資產、自助化數據開發、自動化數據、智能化數據安全,提升大數據平臺服務能力,讓大數據平臺變得易使用、易獲得、高質量。

但是,目前很多技術解決方案存在諸多安全和效率隱患:業務系統多,監管力度大;數據量龐大且呈碎片化分布,急需提升大數據質量;數據格式不規范、難以在短時間內找到所需數據;數據在各階段的應用角度不同,需要降低系統間的集成復雜度。

2 功能設計

2.1 總體架構

本文講述的數據分析方法及實現技術是建立在Hadoop/Spark技術生態圈的基礎之上,以實現用戶集成處理、、清理、分析的一個統一的數據處理平臺;按數據類別分為線數據、歸檔數據;按數據格式分為非結構化數據、結構化數據;按數據模型分類為范式化模型數據、維度模型數據;按數據采集頻度分為非實時數據、準實時數據處理架構;并提供數據中心平臺與安全管理方案,為企業級用戶建立一個通用數據處理和分析中心。如圖1所示。

2.2 在線數據

在線數據在線通過接口去獲得的數據,一般要求為秒級或速度更快。首先應當將數據進行區分:在線數據、或歸檔數據。本平臺中采用:Storm或Spark Streaming框架進行實現。Spark Streaming將數據切分成片段,變成小批量時間間隔處理,Spark抽象一個持續的數據流稱為DStream(離散流),一個DStream是RDD彈性分布式數據集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數操作,也可以通過一個滑動窗口的數據進行變換。

2.3 歸檔數據

歸檔數據是在線存儲周期超過數據生命周期規劃的數據,處理的要求一般在分鐘級或速度更慢。通常歸檔數據的計算量、數據量、數據復雜度均超過試試數據處理。本平臺中采用:Hadoop、Spark技術生態體系內的框架進行計算,這里不詳細闡述。

2.4 非結構化數據

通常非結構化的數據不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結構化數據,更適合處理非結構化數據。常見的非結構化數據包括XML、文本、圖象、聲音、影音、各類應用軟件產生的文件。

針對包含文字、數據的為結構化數據應當先利用數據清洗、數據治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數據的過程中,需要根據情況對數據本身額外建立描述數據結構的元數據、以及檢索數據的索引服務,以便后續更佳深度利用數據。

2.5 結構化數據

結構化數據具備特定的數據結構,通常可以轉換后最終用二維的結構的數據,并且其字段的含義明確,是挖掘數據價值的主要對象。

本平臺中主要使用Hadoop Impala和Spark SQL來進行結構化數據的處理。Impale底層采用C++實現,而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結構化數據的簡便的narrow-waist操作,為高級的數據分析統一了SQL結構化查詢語言與命令式語言的混合使用。

結構化數據根據采集頻度可以繼續分類為:非實時數據、準實時數據。

2.6 準實時數據

通常準實時數據是指數據存儲在平臺本身,但更新頻率接近于接口調用數據源的數據。適合用于支持數據和信息的查詢,但數據的再處理度不高,具有計算并發度高、數據規模大、結果性較高的特點。通常使用分布式數據處理提高數據規模、使用內存數據進行計算過程緩沖和優化。本平臺主要采用Spark SQL結合高速緩存Redis的技術來實現。Spark SQL作為大數據的基本查詢框架,Redis作為高速緩存去緩存數據熱區,減小高并發下的系統負載。

2.7 非實時數據

非實時數據主要應用于支持分析型應用,時效性較低。通常用于數據的深度利用和挖掘,例如:因素分析、信息分類、語義網絡、圖計算、數值擬合等。

非實時數據根據數據模型可繼續分類為:范式化模型數據、維度模型數據。

2.8 范式化模型

范式化模型主要是針對關系型數據庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數據查詢、數據主題的整合。范式化模型數據的數據存儲區,建議使用并行MPP數據庫集群,既具備關系型數據庫的優點,又兼顧了大數據下的處理。

2.9 基于維度模型

維度模型數據主要應用于業務系統的數據挖掘和分析。過去多維度數據處理主要依賴OLAP、BI等中間件技術,而在大數據和開源框架的時代下,本技術平臺采用Hadoop Impala來進行實現。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數據庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優化。

3 應用效果

本系統在不同的業務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數據倉庫建設,但眾多數據質量問題嚴重影響了數據應用的效果,以不同的數據存儲方式,以更高的要求去進行數據的統一管理。通過組織、制度、流程三個方面的實施,以元數據、數據標準、數據質量平臺為支撐,實現了數據管控在50多個分支,60個局,1000余處的推廣,實現了全行的覆蓋;管理了120個系統和數據倉庫,顯著提升了新系統的快速接入能力;通過14個數據規范和流程明確了數據管控的分工;數據考核機制的實施,使其在數據質量評比中名列前茅。

4 結語

本文介紹了大數據下數據分析方法及實現技術的大體設計和思路,從需求分析、總體架構和數據處理以及數據分析這幾個方面來介紹。文章在介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業務中能得到很好的應用。