日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

數據分析的方法實用13篇

引論:我們為您整理了13篇數據分析的方法范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

數據分析的方法

篇1

· 數據分析的一般過程是怎樣的?

· 有哪些數據分析方法

· 在服務性行業里,數據分析方法有哪些需要特別注意的地方?

· 在國內最容易犯哪些數據分析的錯誤?

因筆者能力和精力有限,文章中存在錯誤或沒有詳盡之處,還望各位讀者見諒并懇請及時指正,大家相互學習。

(一)數據分析的核心作用

根據國際標準的定義,“數據分析是有組織、有目的地收集并分析數據,通過將數據信息化、可視化,使之成為信息的過程,其目的在于把隱藏在看似雜亂無章的數據背后的信息集中和提煉出來,從而總結研究對象的內在規律。”在實際工作中,數據分析能夠幫助管理者進行判斷和決策,以便采取適當策略與行動。

這里需引起關注的是任何沒有目的或結果的分析報告都是“忽悠”,都僅僅是沒有靈魂的軀殼!我們經常看到國內的同事們忙于各種所謂的“數據分析報告”,堆砌了大量的圖表和文字,顯得“專業”、“美觀”,但認真研讀后卻發現缺乏最關鍵的“分析”過程,更別說什么分析結果了。顯然大家只是把對事實的原始描述當成了數據分析,而實際上描述原始事實只是數據分析過程的一項內容而非全部。數據分析不能僅有報表沒有分析,因為“有報表不等于有分析,有分析不代表有效執行”,報表只是數據的展現形式;數據分析也不能僅有分析沒有結論,沒有結論的分析無疑“差了一口氣”,對實際業務工作無法產生價值,唯有通過分析得出結論并提出解決方案才能體現數據分析協助管理者輔助決策的核心作用。因此數據分析來源于業務,也必須反饋到業務中去,沒有前者就不存在數據分析的基礎,沒有后者也就沒有數據分析的價值了。

(二)數據分析的分類

最常見也是最標準的數據分析可分為三大類:描述性數據分析、探索性數據分析以及驗證性數據分析。

所謂描述性分析是對一組數據的各種特征進行分析,以便于描述測量樣本的各種特征及其所代表的總體特征。這種分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形,比如上個月的平均通話時長是多少,員工離職率是多少等等。

探索性數據分析是指對已有數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法,側重于在數據之中發現新的特征,比如呼叫中心的一次解決率和哪些因素相關?他們背后的驅動因素又有哪些?哪些因素是“因”、哪些又是“果”等等。

而驗證性分析是依據一定的理論對潛在變量與觀察變量間關系做出合理的假設,并對這種假設進行統計檢驗的現代統計方法,側重于驗證已有假設的真偽性。驗證性分析是在對研究問題有所了解的基礎上進行的,這種了解可建立在理論研究、實驗研究或兩者結合的基礎上,比如從調研的結果來看本月的客戶滿意度比上個月高出2%,是否真是如此;男性客戶的滿意度是否高于女性客戶等等。

(三)數據分析的一般過程

通常來講完整的數據分析過程可分為以下幾步:明確數據分析的目的、采集并處理數據、分析及展現數據、撰寫分析報告。

現實情況中人們往往在做數據分析時陷入一大堆雜亂無章的數據中而忘記了分析數據的目的,數據分析第一步就是要明確數據分析的目的,然后根據目的選擇需要分析的數據,明確數據分析的產出物,做到有的放矢、一擊即中!

其次,在做數據分析時要根據特定需求采集數據,有目的地采集數據是確保數據分析過程有效的基礎,采集后的數據(包括數值的和非數值的)要對其進行整理、分析、計算、編輯等一系列的加工和處理,即數據處理,數據處理的目的是從大量的、可能是難以理解的數據中抽取并推導出對于某些特定人群來說是有價值、有意義的數據。

接著是對處理完畢的數據進行分析和展現,分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,數據展現的方式有兩類:列表方式、圖形方式。

最后,整個數據分析過程要以“分析報告”的形式呈現出來,分析報告應充分展現數據分析的起因、過程、結果及相關建議,需要有分析框架、明確的結論以及解決方案。數據分析報告一定要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為整個數據分析過程就是為尋找或者求證一個結論才進行的。最后,分析報告要有建議或解決方案,以供管理者在決策時作參考。

(四)客戶中心常用的數據分析工具及簡介1 Excel

Excel是微軟辦公套裝軟件的一個重要組成部分,它可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用于管理、統計財經、金融等眾多領域。Excel提供了強大的數據分析處理功能,利用它們可以實現對數據的排序、分類匯總、篩選及數據透視等操作。

2 SPC

SPC(Statistical Process Control)即統計過程控制,是一種借助數理統計方法的過程控制工具。實施SPC的過程一般分為兩大步驟:首先用SPC工具對過程進行分析,如繪制分析用控制圖等;根據分析結果采取必要措施:可能需要消除過程中的系統性因素,也可能需要管理層的介入來減小過程的隨機波動以滿足過程能力的需求。第二步則是用控制圖對過程進行監控。

3 SAS

SAS是用于決策支持的大型集成信息系統,但該軟件系統最早的功能限于統計分析,時至今日,統計分析功能仍是它的重要組成部分和核心功能。在數據處理和統計分析領域,SAS系統被譽為國際上的標準軟件系統,SAS提供多個統計過程,用戶可以通過對數據集的一連串加工實現更為復雜的統計分析,此外 SAS還提供了各類概率分析函數、分位數函數、樣本統計函數和隨機數生成函數,使用戶能方便地實現特殊統計要求。

4 JMP

JMP是SAS(全球最大的統計學軟件公司)推出的一種交互式可視化統計發現軟件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等強大的產品線,主要用于實現統計分析。其算法源于SAS,特別強調以統計方法的實際應用為導向,交互性、可視化能力強,使用方便。JMP的應用非常廣泛,業務領域包括探索性數據分析、六西格瑪及持續改善(可視化六西格瑪、質量管理、流程優化)、試驗設計、統計分析與建模、交互式數據挖掘、分析程序開發等。 SPSS(Statistical Product and Service Solutions)“統計產品與服務解決方案”軟件,是世界上最早的統計分析軟件,基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數,SPSS也有專門的繪圖系統,可以根據數據繪制各種圖形。

6 Minitab

篇2

文獻標識碼:A

文章編號:1002―2848―2007(01)-0108―06

一、前 言

在經濟數據的傳統定量分析中,所分析的數據對象具有這樣的特征,即數據要么是時間序列數據,要么是橫截面數據。而實際中獲得的許多經濟數據,往往是在時間序列上取多個截面,再在這些截面上同時選取樣本觀測值所構成的樣本數據。計量經濟學中稱這樣的數據為“平行數據”(Panel Da―ta),也被翻譯成“面板數據”,或“縱向數據”(longitudinal data)。20多年來,許多學者研究分析了面板數據。事實上,關于面板數據的研究是計量經濟學理論方法的重要發展之一,它在解決數據樣本容量不足、估計難以度量的因素對經濟指標的影響,以及區分經濟變量的作用等方面,具有突出優點。但是,研究面板數據的計量模型,以線性結構描述變量之間的因果關系,且模型太過于依賴諸多的假設條件,使得方法的應用具有一定的局限性。為了彌補面板數據的計量模型分析方法及其它統計分析方法的缺陷,本文基于經濟數據的函數性特征,介紹一種從函數視角對經濟數據進行分析的全新方法一函數性數據分析(Functional Data Analysis,FDA)。

函數性數據分析的概念,始見于加拿大統計學家J.O.Ramsay和C.J.Dalzell于1991年發表的論文《函數性數據分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數性數據進行統計分析的已有理論和方法,總結在《函數性數據分析》一書中。但這本書偏重方法的理論介紹和數學推導,不利于統計基礎薄弱者使用。經過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數性數據案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經做了許多研究,也取得了許多有價值的結果,但是有關函數性數據的研究依然處于起步階段,還有很多問題需要研究或進一步完善。另外,從方法應用的具體領域來看,很少涉及對經濟函數性數據的分析。就目前研究文獻來看,我國在此方面的研究尚是一片空白。

為填補我國在這方面研究的空白,本文從思想、方法等方面,對函數性數據分析進行系統介紹,并通過編寫計算機程序,率先利用該方法分析實際的經濟函數性數據。本文共分六部分,以下內容的安排為:數據的函數性特征及經濟函數性數據實例、從數據的函數性視角研究數據的意義、函數性數據分析的目標和步驟、函數性數據分析方法的經濟應用,最后一部分是本文的結論。

二、數據的函數性特征及經濟函數性數據實例

一般地說,多元數據分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個統計指標(變量)在多次觀察中呈現出的數據,樣本數據具有離散且有限的特征。但是,現代的數據收集技術所收集的信息,不但包括傳統統計方法所處理的數據,還包括具有函數形式的過程所產生的數據,例如,數據自動收集系統等,稱具有這種特征的數據為函數性數據。

函數性數據的表現形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數等)。許多研究領域的樣本資料往往表現為函數形式,如考古學家挖掘的骨塊的形狀、按時間記錄的經濟數據、手寫時筆尖的運動軌跡、溫度的變化等。函數性數據分析(Functional Data Analysis,FDA)的基本原理是把觀測到的數據函數看作一個整體,而不僅僅是一串數字。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。

實際中,之所以要從函數的視角對數據進行分析,是因為:(1)實際中,獲得數據的方式和技術日新月異、多種多樣,例如,越來越多的研究者可以通過數據的自動收集系統獲得大量的數據信息。更重要的是,原本用于工程技術分析的修勻(smoothing)和插值(interpolation)技術,可以由有限組的觀測數據產生出相應的函數表示。(2)盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數版本下進行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征。(4)將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。

在經濟分析中,融合時間序列和橫截面兩者的數據很常見,例如,多個國家、地區、行業或企業的多年的年度經濟總量、多家商業銀行歷年的資本結構、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時間上多個省市的失業數據等。這些經濟數據往往呈現函數性特征,即每個個體對應著一個函數或曲線。在對經濟函數性數據進行分析時,將觀測到的數據(函數)看作一個整體,而不是個體觀測值的順序排列,這是函數性數據分析不同于傳統統計分析之根本所在。例如,表1是工商銀行、農業銀行、中國銀行、建設銀行1995年到2004年期間的資產收益率(ROA)數據。

利用基于MATLAB編寫的程序,對數據進行平滑處理(smoothing),并繪出四家國有銀行的資產收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個個體(銀行)對應著一條曲線(其數學表達式為函數),這是將多家銀行的歷年ROA數據記錄看作函數的根本理由,也是函數性數據分析的出發點。

三、從數據的函數性視角研究數據的意義

從函數的視角,對具有函數特征的經濟數據進行研究,會挖掘出更多的信息。例如,對函數性數據的平滑曲線展示,不但能夠診斷出擬合數據的可能數學模型,還能夠通過對光滑曲線求一階、或更高階的導數,來進一步探索數據的個體(橫截面)差異和動態變化規律。

圖2是四家銀行資產收益率的速度(一階導數)曲線,觀察發現:在1995年至2004年期間,農業

銀行、中國銀行及建設銀行的資產收益率的變化率,呈現出較強的周期性,其中尤以建設銀行的表現最為突出。加速度曲線圖顯示,四家銀行資產收益率的變化率的波動狀況不相同,轉折變化的時間差異也較大。這些情況一定程度表明,各家銀行的內部管理與經營機制,對市場信息的反應快慢程度各不相同。

四、函數性數據分析的目標和步驟

函數性數據分析的目標與傳統統計學分析的目標基本一樣,具體情況如下:

(一)以對進一步分析有利的方法來描述數據;

(二)為突出不同特征而對數據進行展示;

(三)研究數據類型的重要來源和數據之間的變化;

(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;

(五)對兩組或更多的某種類型的變量數據進行比較分析。

典型的FDA主要包括以下步驟:

第一步,原始數據的收集、整理和組織。假設我們考慮的自變量是一維的,記為t,一個的函數僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數性數據分析中,將這些離散的觀測值看作一個整體。

第二步,將離散數據轉換為函數形式。這是利用各次觀察的原始數據定義出一個函數x(t),它在某一區間上所有t處的值都被估算了出來。解決這個問題的基本方法是選定一組基函數 (t),k=O,…,K,并用基函數的線性組合給出函數x(t)的估計

第三步,多種形式的初步展示與概括統計量。概括統計量包括均值和方差函數、協方差與相關函數、交叉協方差(cross―covafiance)與交叉相關(cross―correlation)函數等。

第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現出來,可能需要對函數進行排齊(regigtration),其目的是能夠區別對待垂直方向的振幅變化與水平方向的相變化。

第五步,對排齊后的函數數據進行探索性分析,如函數性主成份分析(FPCA)、函數性典型相關份析(FCCA)等。

第六步,建立模型。建立的模型可能是函數性線性模型,也可能是微分方程。

第七步,模型估計。

五、函數性數據分析方法的經濟應用

為了說明函數性數據分析方法的具體應用,同時出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數據,對資產收益率進行更深入的分析。雖然此實例中個體數少,但并不妨礙對方法應用的系統描述與理解。

在對實際問題的經濟數據進行分析時,通常需要依照研究的目標編寫計算機程序。就目前的研究現狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計算函數等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產收益率數據進行分析。

關于四家銀行資產收益率數據的函數(曲線)展示與初步分析,本文在前面已進行了描述,具體結果見圖1和圖2。概括資產收益率特征的統計量(均值函數和標準差函數)的曲線見圖3。

為了進一步探討典型函數所呈現的特征,本文利用函數性主成份分析,對四家銀行的資產收益率數據進行分析。一般來說,在函數性數據分析中,與多元統計中的某個主成份的權向量相對應的是主成份權函數(principal component weight function),記為 ,其中t在一個區間 中變化。第i個樣品(個體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達到最大的權函數 ,即它是下面數學模型的最優解: 類似地,可以求得第j個主成份,其權函數毛(t)是下面數學模型的解:

為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動程度的粗糙因子納入到約柬條件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個主成份的數學模型是其中 稱為修勻參數,用它可對粗糙懲罰項進行調整。

利用上述方法和基于MATLAB編寫的程序,對四家銀行進行函數性主成份分析(FPCA)。具體結果見圖4。第一個主成份(PCI)的解釋能力為85.5%,第二個主成份(Pc2)的解釋能力為13.1%,前兩個主成份的綜合解釋能力為98.6%。

為了清晰地顯示主成份,并進行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個適當倍數而形成的曲線,具體結果見圖5(本文所選的倍數是0.12)。以上所述的三條曲線分別對應著圖5中的實心曲線、‘+’曲線和‘*’曲線。第一個主成份反映了資產收益率(ROA)的一般變化,尤其反映了資產收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個主成份反映了資產收益率(ROA)的中段變化。

六、結論

在經濟實踐中,越來越多的領域所得到的樣本觀察資料是曲線或圖像,即函數性數據。因此,對這種類型的經濟數據進行統計分析和描述,具有重要的現實意義。因篇幅所限,還有一些函數性數據的分析方法未予以介紹,如函數性方差分析、函數線性模型、函數性典型相關分析以及描述動態性的微分方程等。由于本文的主要目的,是通過對函數性數據分析方法和具體應用的介紹,傳述對數據進行分析的新思想,而不只是方法技術本身。因此,缺少的方法并不影響對思想的闡述。

篇3

網站優化數據分析方法二:關鍵詞分析

網站關鍵詞分析也是網站優化的重要工作之一!分析現在網站關鍵詞的布局,分析網站有流量的關鍵詞,分析網站還沒有覆蓋的與網站業務相關的關鍵詞,分析出網站主關鍵詞的排名情況,分析關鍵詞的設計是否合理。分析頂級關鍵詞是否占據了搜索引擎首頁的排名,分析搜索關鍵詞的質量高不高,與網站業務的相關度如何?!分析關鍵詞轉化率如何等等。

篇4

一、運用數據分析,把握化學概念的內涵

高中化學選修四《化學反應原理》一書中的一些化學基本概念比較抽象,教師應在教學中依據教材提供的數據材料或通過實驗所得數據及推理演算,引導學生在探索中得出相關概念,并進一步理解概念的本質。通過數據分析的教學,讓學生自己收集數據,應用數據分析,從而感受數據分析的實際價值,深刻理解概念的內涵。

例如,弱電解質電離平衡常數用Ki表示。弱電解質通常為弱酸或弱堿,所以在化學上,可以用Ka、Kb分別表示弱酸和弱堿的電離平衡常數。用HA表示弱酸,則其電離方程式為HA H++A-,則電離常數Ka=[H]*[A]/[HA],電離平衡常數描述了一定溫度下弱電解質的電離能力。在相同溫度和濃度時,電離度的大小也可以表示弱電解質的相對強弱。用電離度比較幾種電解質的相對強弱時,應當注意所給條件,即濃度和溫度,如不注明溫度通常指25℃。

在教學過程中,我們發現這些概念抽象難以用啟發式教學法讓學生去學習,因為學生對于課本上弱酸的電離平衡常數的理解總是基于表面,沒能真正理解化學概念的內涵。

教師在教學中應充分利用課本中的數據,分析Ka與電離度α的關系,比較Ka與電離度α的相同點與不同點。電離常數K與電離度α的關系可近似地表示為K=cα2,其中c為弱電解質溶液的濃度。教師通過設計一組具體數據,讓學生從電離常數可以算出不同濃度、不同溫度時弱電解質的電離度,比較電離常數與電離度的區別,可看出Ka是常數而α不是常數。Ka隨溫度而變化,α隨Ka而變化,因此α也隨溫度而變化,Ka不因濃度改變而變化,但α卻隨濃度而變化,Ka不因溶液中其他電解質的存在而變化,但α卻因溶液中其他電解質離子的存在而變化。

例如,在醋酸溶液中加入醋酸鈉(CH3COONa),則因同離子效應而使平衡向左移動,α將減小。在室內溫度下,醋酸的電離常數是1.8×10-5,學生對這一數據并沒有什么印象,但通過計算可以得出它的電離度α=1.3%,學生得出每1000個醋酸分子室溫條件下只有13個醋酸分子發生電離,987個醋酸分子的形式存在溶液中。通過數據的分析轉換,學生容易理解弱電解質的電離程度的大小,有利于把握化學概念的內涵。

二、運用數據分析,準確化學概念的外延

化學課本中有許多數據,教學中并不要求具體記憶這些數值,但對這些數據的統計分析,既能幫助學生理解概念本質,形成學科觀念,又有利于培養學生嚴謹的科學態度,全面提升科學素養。對這些數據的統計分析,有利于學生建立準確的數據觀念,可以發展學生的數據意識,學生從中提取相關信息,從而充分體現化學基本概念對元素化合物性質學習的指導作用。例如,關于Ka概念外延的教學,我們應該清楚該概念的適用范圍。

(1)根據Ka判斷弱酸的酸性強弱。通過Ka的學習達到指導元素化合物性質的學習。相同條件下,Ka越大,酸性越強。通過比較Ka,我們可以得出常見弱酸的酸性:CH3COOH>H2CO3>

H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。這樣,學生就很容易理解醋酸溶液與碳酸鈣的反應,還有漂白粉放置在空氣中失效、水玻璃溶液中通入二氧化碳氣體、偏鋁酸鈉溶液中通入二氧化碳氣體等一系列反應,這些反應都是高一化學課本中的重要反應,都符合“酸性強的制取酸性弱”的基本原理。

(2)以Ka來判斷鹽類物質的水解相對大小。根據鹽類水解規律“越弱越水解”,我們可以判斷出相同條件下醋酸銨溶液、氯化銨溶液、次氯酸銨溶液水解的相對大小,從而判斷出溶液的酸堿性。分析利用醋酸Ka和氨水Kb數據的特殊性可知:醋酸銨溶液接近中性,進而可以探究Mg(OH)2沉淀溶于濃銨鹽的反應原理。

(3)根據Ka1、Ka2判斷酸式鹽溶液的酸堿性。在25℃時,碳酸的電離平衡常數分別為:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亞硫酸的電離平衡常數Ka1=1.54×10-2 ,Ka2=1.02×10-7。對于酸式鹽NaHA的水溶液, NaHA 中 HA-既可電離:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式鹽溶液由于NaHCO3溶液的Ka1Kh1而顯酸性。

(4)根據Ka1、Ka2的相對大小判斷物|的性質、理解離子反應的實質。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氫氧化鋁的酸式電離Ka= 6.3×10-13 。通過對這些數據的分析,我們容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>

C6H5OH>HCO3-。這樣就容易理解以下四個反應:

A.往苯酚鈉水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+

HCO3-

B.往偏鋁酸鈉水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-

C.往偏鋁酸鈉水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+

HCO3-

D. 偏鋁酸鈉水溶液與碳酸氫鈉水溶液混合: AlO2-+HCO3-+H2O

Al(OH)3+CO32-

三、運用數據分析,拓展提高學生綜合應用概念的水平

化學計算是中學化學教學的重要內容,也是中學生必須掌握的一個基本技能,學會數據分析是提高計算能力的關鍵。化學計算題中,往往題目數據多、綜合性強,但學生們因綜合分析能力差,不善于對知識準確遷移,因而覺得十分棘手。分析化學過程、融會貫通理解化學概念的內涵是正確解決化學計算題的基礎。

在學習《溶液中的離子反應》專題后,許多教師會引導學生對化學平衡常數K、酸堿電離平衡常數Ka、Kb、水的離子積Kw、難溶電解質的溶度積Ksp等一些概念進行比較歸納,分析他們的異同,但是若能進一步拓展到酸電離平衡常數Ka與鹽的水解常數Kh、與難溶電解質的溶度積Ksp、配合物的穩定系數Kw之間的聯系,就能進一步提高學生的綜合能力。

例如,在25℃下,于0.010mol?L-1

FeSO4溶液中通入H2S(g), 使其成為飽和溶液 (C(H2S)= 0.10mol?L-1) 。

篇5

使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。

簡單地來說,分析可被劃分為4種關鍵方法。

下面會詳細介紹這四種方法。

1.描述型分析:發生了什么?

這是最常見的分析方法。在業務中,這種方法向數據分析師提供了重要指標和業務的衡量方法。

例如,每月的營收和損失賬單。數據分析師可以通過這些賬單,獲取大量的客戶數據。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強描述型分析所提供的信息。

2.診斷型分析:為什么會發生?

描述性數據分析的下一步就是診斷型數據分析。通過評估描述型數據,診斷分析工具能夠讓數據分析師深入地分析數據,鉆取到數據的核心。

良好設計的BI dashboard能夠整合:按照時間序列進行數據讀入、特征過濾和鉆取數據等功能,以便更好的分析數據。

3.預測型分析:可能發生什么?

預測型分析主要用于進行預測。事件未來發生的可能性、預測一個可量化的值,或者是預估事情發生的時間點,這些都可以通過預測模型來完成。

預測模型通常會使用各種可變數據來實現預測。數據成員的多樣化與預測結果密切相關。

在充滿不確定性的環境下,預測能夠幫助做出更好的決定。預測模型也是很多領域正在使用的重要方法。

4.指令型分析:需要做什么?

數據價值和復雜度分析的下一步就是指令型分析。指令模型基于對“發生了什么”、“為什么會發生”和“可能發生什么”的分析,來幫助用戶決定應該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

篇6

數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。

二、數據統計分析的原則

(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。

三、推論性統計分析方法

(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。

四、多元統計分析方法

(1)相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是,事物之間有相關關系,不一定是因果關系,也可能僅僅是伴隨關系;但如果事物之間有因果關系,則兩者必然存在相關關系。(2)主成分分析。在大部分數據統計分析中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標轉化為幾個綜合指標的多元統計分析方法,很顯然在一個低維空間識別系統要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調研中,市場細分是最常見的營銷術語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法,它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是,對所研究的對象進行了全面的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方,而在判別分析中,至少要有一個已經明確知道類別的“訓練樣本”,從而利用這個數據建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。

參考文獻

篇7

隨著醫藥制造業在我國整個制造業中的地位逐步提高,如何有效提升企業管理決策水平是我國醫藥制造業企業正面臨的關鍵問題。目前,眾多信息融合、數據分析和決策分析方法正為企業現代化發展做出重要貢獻。文提出一種醫藥制造企業的數據分析和決策支持設計方案,實現多維數據倉庫基礎上的高效分析,繼而進行分級決策支持。數據分析和決策支持系統主要是對存儲于數據倉庫中的各級粒度數據進行處理,并返回用戶所需的分析和決策信息。系統主要任務是定制固定和自由統計報表、多維數據分析以及決策支持。

1.醫藥制造企業數據分析方法

系統多維數據分析的主要關鍵技術包括如下。

(1)多維數據分析的核心是將一條或多條多維查詢指令輸入進平臺接口中;接口調用查詢解析器對多維查詢指令進行解析和分解;接著查詢優化器接收經過解析后的多維查詢指令,并對指令進行一系列的優化;最后查詢處理器執行優化后的多維查詢指令,獲取數據、加工數據以及返回查詢結果,為了能夠提高多維數據分析的效率,文需要對以下內容進行考慮。

①對于新出現的一些多維數據分析應用,系統將這些多維數據分析作為一個特殊的關系操作符(稱為多維操作符),考慮它與傳統關系操作符間執行順序變換的等價規則。從而,基于這些等價變換規則和附加條件,通過改變多維操作符與傳統關系操作符之間的執行順序來有效提高數據分析的效率。同時,給出充分的理論證明以及代價模型來論證所給等價變換規則的正確性和有效性。

②當用戶提出的多維數據分析應用在查詢優化器中沒有對應的操作函數表示時,系統采用如下方案:確定多維數據分析的精確代價模型;基于代價的方式擴展傳統的查詢優化樹(主要是擴展注釋連接樹);將這些多維數據分析作為一個特殊的關系操作符(稱為多維操作符),考慮它與基本關系操作,聚集操作以及rank操作之間組合的等價關系的約束條件和正確性判定;在擴展的查詢優化樹上使用等價規則,通過操作的上移,下移,增加操作符,變換操作符等機制生成代價最小的查詢操作執行序列;多維操作符的物理層面上的實施;將多維操作符集成進傳統的查詢優化器之后將如何影響執行計劃的搜索空間;擴展傳統查詢優化器的搜索執行計劃的算法,權衡執行計劃的有效性和生成執行計劃的時間開銷。

③當存在多個數據分析應用時,采用的技術是:從祖先數據立方體獲取子孫數據立方體的代價模型;根據多維數據分析的自身特點,有效選擇近似最優數據立方體的方法;根據代價模型,考察邏輯上如何將所有給出的多個多維數據分析分組,每個組由一個相同的祖先數據立方體來回答;根據多維數據分析的底層實現機制,將每個組中的多個多維數據分析通過物理上的共享機制進行有效的同步進行,節省不必要的物理上的時間開銷。

2.決策支持方案

醫藥制造企業決策支持模塊應用的考慮主要包含三個部分,即決策模型庫的構造、決策分析的實施以及多環節協作決策的實施,為了能夠有效且正確地讓各級管理者和用戶進行決策,需要對以下內容進行考慮。

(1)醫藥制造業決策模型庫建立。決策模型庫主要用于存放進行企業用戶決策分析的模型。針對醫藥生產過程中的材料采購、庫存管理、產品生產、市場營銷、財務管理與人力資源管理等方面的數據,構建進行決策的模型。決策模型可以通過一定程度的授權,獲得訪問數據的權限。在此前提下,根據數據倉庫中獲取的數據,進行由用戶指定目標的決策支持。系統對現有模型組成元素及其組成結構的知識進行描述,并且獲取模型構造過程中的各類推理算法。對于由人機交互接口實現機器理解的決策問題,平臺通過模型概念詞及其屬性等相關知識,獲取適合新決策問題的匹配模型結構等信息。然后再根據模型構建推理算法自動用新問題的屬性值填充匹配模型的框架,最終構造出決策問題模型。

(2)醫藥制造業決策分析實施。決策分析的實施就是決策模型進行求解的過程。模型的求解主要是通過對決策問題的理解,獲取用戶所需要決策的目標,意圖等方面信息,進而通過合適的決策模型將可獲得的數據進行分析,利用一定的規則和模型的求解算法得出有效的決策意見,并提交給用戶。本系統通過對每個模型所包含求解算法進行規范的描述,對于具有通用求解算法的模型,通過調用模型中所包含的求解算法很容易對問題進行求解。而對于求解算法不存在或者不確定應采用哪種算法實施求解時,平臺將從以往成功的決策案例中,選擇與需要求解的問題相似的范例,通過范例求解的方法對問題進行求解。對于取得較好決策效果的案例,平臺會進行相關的記錄,同時存放在數據層的公用數據庫中,方便在決策分析時調用相似范例進行求解。

篇8

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數據分析(Big Data Analytics,BDA)是以“深度的發現分析、引領行動”作為目標的工作[1-2],它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具,以便讓海量數據的處理及分析變得更加容易,從數據中提取有用信息并形成結論,用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領域中的情報研究(也稱情報分析)在本質上是一致的,兩者至少在方法與技術(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關問題。因此,本文首先概略總結BDA的方法體系,然后探討BDA方法在情報研究中的適用性。

1 大數據分析的方法分類

到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現有的相關研究,并以此為基礎提出我們的分類體系。

1.1 相關研究

不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。

(1)面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據,從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。

Power[5]依據分析需求將數值型數據的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析,可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件,可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6],包括:①基本統計(如一般統計及多維數分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數計算(Linear Algebraic Computations);⑤優化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數據匹配(如隱馬爾可夫模型等)。

針對非純粹的數值型數據,Li、Han[7]梳理了面向“時空數據”(Spatiotemporal Data)的BDA方法,通過對動態數據挖掘出主體的預測性,如運用物理工程領域的傅立葉變換(Fourier Transform)及自相關匹配(Autocorrelation)偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律,也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例,梳理了面向學生與學習環境的“學習分析方法”(Learning Analytics),此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法,從中挖掘學習的各種語義關系,并回答“誰在學、學什么、怎么學、學的結果如何”等問題,為教學與優化學習提供參考。

Mohanty等人[3]從數據獲取(Data Ingestion)角度,依照處理的數據量從小至大的順序,區分出八種分析方法:①流分析(Streaming Analytics),以預定模式及時處理數據流;②高速的數據采集(High Velocity Data Ingestion),不轉換任何格式,可稍晚處理; ③鏈結分析(Linkage Analysis),構建不同數據源的關系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數據集中尋找特定模式;⑤數據聚合(Data Mash-Ups),需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網絡分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論(Data Forensic),用于數據科學家探索大規模數據集。

Chen等人[9]認為,在商業智能分析發展的過程中,商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展,涵蓋了五類核心的分析方法:①數據分析,涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術,可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析,涉及信息檢索、查詢處理、相關反饋等分析技術,可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析,涉及信息檢索、網絡爬蟲、日志分析等分析技術,可應用在云計算、社會網絡分析、網站可視化等;④網絡分析,涉及信息計量、引用網絡、數學網絡模式等分析技術,可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析,可應用在移動通訊服務、個性化分析、游戲營銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。

美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數據獲取及記錄,從各種感知工具中獲取的數據通常與空間時空相關,需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗,從異構數據源抽取有用信息,并轉換為結構化的格式;③數據整合及表示,將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析,從數據中挖掘出潛在規律及知識,涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋,為了讓用戶容易解讀分析結果,可視化分析技術變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數據的關鍵技術,包括:遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。

(3)面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術,將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。

孟小峰、慈祥[11]著眼于大數據處理框架,梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法,在數據抽取與集成方面,可區分為基于物化(Materialization)或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面,傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難,需進一步發展;在數據解釋方面,引入可視化技術或交互式的數據分析過程,有助于用戶理解分析結果。覃雄派等人[12]認為,非關系數據管理(如MapReduce)擴展了數據分析的多維視角,使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。

2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應用、社交媒體數據挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數據降維分析(如主成分分析、因子分析、經典相關分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會,BDA結合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向層次的BDA方法框架

上述三種視角的BDA分類各有特點,都有一定的道理。從面向數據的視角來看,BDA方法正從統計(Statistics)轉向挖掘(Mining),并提升到發現(Discovery)和預測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務時,需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出,這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新,同時更重視新型系統架構與分析方法的集成,例如,各種數據挖掘算法的MapReduce化,就是這方面的典型實例。

本文認為,如果綜合上述三種分類體系中體現的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向層次的BDA分類框架,將BDA方法分為統計、挖掘、發現、預測及集成五個層次,并初步歸納出17種BDA相關方法(見表1)。

2 BDA方法在情報研究中的適用性探討

如前所述,BDA與情報研究在本質上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究,用來對情報研究的數據源(如科技文獻、網絡資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中,數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經有多年的應用歷史。

(1)數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發現技術,文本挖掘屬于基于計算機語言學及統計方法的發現技術,用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎,用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中,數據挖掘多應用在圖書館自動化技術與服務方面,例如,館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題,提出引文內容分析,先建立基于規則的引文內容抽取來識別引用句,再通過基于C-value多詞術語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關系。

(2)知識發現。情報研究中所說的知識發現,主要是指基于文獻的知識發現,例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上,提出了“基于文獻的知識發現”,包括:基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現,完整揭示文獻的知識結構與演化情況。在網絡環境下,李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境,為知識發現提供了新的研究潛力,包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之,知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律,甚至可對未來進行預測。

(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務:情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20],例如,黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態度及觀點,再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別,并根據文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內容演化,從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。

(4)多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統計規律,后者則是基于隨機過程理論和數理統計學方法,研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化,評價事物現狀或預測事物未來的發展。

(5)海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是,專家們普遍認為,在現有硬件技術條件下要開發一個海量數據分析系統的難度過高,且高性能計算領域也面臨許多困難,因而轉向尋找共通的基礎性計算方法來幫助運算[6],同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說,處理的數據量不及高性能計算領域的海量數據,因此可以容易地應用這些基本統計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內的定量分析方法,仍然要經常借鑒基礎性的計算方法,并進行公式改進。

(6)高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音,通過線性(如主成分分析、典型相關分析等)或非線性(如投影尋蹤、核方法等)映射可以將數據樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽取(如PCA、LSI、NMF等),轉換成一個低維的特征集來提高訓練效果,是非常必要的[29]。

(7)多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法,例如,為了解決不同研究階段產生的各類科學數據集成問題,白如江、冷伏海[30]認為解決關鍵在于中間件構建,例如,通過基于XML模型將異構數據源的元數據映射到全局視圖,解決了不同數據源的關系描述問題,并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合,為了提供數據在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎上生成邏輯規則,揭示隱含在科學數據中的語義信息。此外,也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系,再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務,對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質異構信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。

2.2 調整后移植的方法

調整后移植的方法是指其在原本的領域已經成功應用,但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點,若移植到情報研究時,需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。

(1)數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性,為了提高數據可用性及數據質量,李建中及劉顯敏[32]梳理了數種數據可用性的相關方法,包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等,分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33],其中,情報素材的質量對后續的情報分析成敗存在著至關重要的作用,當數據或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人,如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。

(2)時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現對象可能沒有周期、時間點分布不一定呈現周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法,但并沒有呈現出其中的周期性規律,特別是文本中的規律特征較難發現,如果能引入此類方法,將有助于找出情報演化的周期模式。

2.3 不適用的方法

考慮學科領域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。

(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據特定目的整合多數據源及促進領域知識的有效利用,其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系,通過翻譯生物信息學分析,可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說,考慮到數據源的特殊性(如DNA編碼數據、蛋白質結構等)、分析視角、工具構建及使用等因素,并不符合情報學的學科研究特色。

(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容,包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法,但學習分析方法的結果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境,離開了學習語境,方法的內涵和外延可能就會產生變化,因此,難以移植到情報研究。

2.4 需要繼續關注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續發展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規范,同樣地,對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術,又例如,商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統,通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識,涉及數據的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構。

因此,本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數據)積累到了一定程度,成為傳統關系數據庫處理不了的大數據,那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務智能分析可理解為一套集成系統,可應用在情報機構的知識庫或機構典藏,找出組織的知識缺口等方面。

3 結語

大數據時代就是一個數據分析的時代,學界和業界提出了很多大數據分析的方法與技術,這些方法與技術對情報研究產生了積極的借鑒作用,本文總結了大數據分析的方法,提出面向層次的BDA方法框架,歸納總結了其中的17種BDA方法,并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關方法提供參考,促進情報研究的理論與實踐發展。

參考文獻:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學習分析技術:挖掘大數據時代下教育數據的價值[J]. 現代教育技術,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴霄鳳,張德馨. 大數據研究[J].計算機技術與發展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013, 50(1): 146-169.

[12]覃雄派,王會舉,杜小勇,等. 大數據分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.

[18]張樹良,冷伏海. 基于文獻的知識發現的應用進展研究[J]. 情報學報,2006, 25(6): 700-712.

[19]李楠,張學福. 基于關聯數據的知識發現應用體系研究[J]. 圖書情報工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學,2009:(1): 94-99.

[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現代圖書情報技術,2012,(4): 61-67.

[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數據特征降維研究綜述[J]. 計算機應用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數據降維方法分析與研究[J]. 計算機應用研究,2009,(8):2832-2835.

[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.

[30]白如江,冷伏海. “大數據”時代科學數據整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報研究質量[J].圖書情報工作,2010,54(10):35-39.

[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強.多粒度時間文本數據的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

篇9

1 交通事故預測思想

交通事故對人類造成的危害相對較大,對人類產生嚴重的威脅。從我國發展實踐中可知,交通事故在一定程度上制約我國經濟的發展進程,尤其對人類社會福利、醫療保險等方面的影響較大。據不完全統計,2015年全年間,我國交通事故約為10597358起,死亡人數約為68432人,財產損失高達10億元以上。可見,交通事故威脅隱患相對較大。交通事故預測能夠根據已發生交通事故進行統計、分析、處理,在遵循規律的基礎上,對未來可能發生的交通事故作出科學合理的預測,該預測結果以科學邏輯推斷為基礎。就交通事故原因而言,道路環境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測,我國交通部門人員能夠對交通事故作出科學合理的判斷和制定有效的預防策略,以最大限度降低和消除交通事故隱患。

2 交通事故主要預測方法

2.1 回歸分析預測法

回歸分析預測法在交通事故預測中的有效應用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預測法,通過對自變量和因變量之間關系問題的探討,對因變量趨勢加以預測,其模型為:

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數。

其次,英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究,提出非線性回歸分析預測法。對此,他建立冪函數曲線事故模型,

即:D=0.0003。其中D為交通事故死亡人數;N是機動車保有量;P為人口數量。

回歸分析預測法能夠對交通事故影響因素間的因果關系加以反應,以達到預測結果的目的,但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數據波動小和極具規律性的預測實踐中。

2.2 時間序列預測法

時間序列預測法主要有兩種類型,分別為移動平均預測法和指數平滑預測法。首先,移動平均預測法是比較簡單的平滑預測技術,通過計算項數時序平均值,對長期發展趨勢變化做出科學合理的預測。內蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析,對交通事故加以預測。其次,指數平滑預測法的通式為:

Ft+1=αxt+(1-α)Ft

時間序列預測法屬于定量預測方法,擬合效果良好,但在短期預測中,受諸多因素干擾影響較大,使預測結果具有不確定性。該方法適用于國內縣區等區域范圍較小的預測實踐中。

2.3 灰色馬爾科夫鏈預測法

道路交通系統屬于動態時變系統,但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下,相關人員能夠通過灰色預測模型,做出短期預測,以縮小預測區間,提高預測效率。云南交通職業技術學院王剛對灰色馬爾科夫鏈預測法而建立模型,對交通事故進行預測,根據實踐可知,基于該模型的預測精確度十分高,取得良好的預測成效。

灰色預測以短期預測為主,馬爾科夫鏈預測以長期預測為主,通過二者結合,可提高預測精度,但如若數據變化大,則灰色模型的吻合度和精度下降。借助該預測方法,能夠對狀態下的轉移規律加以預測,并揭示交通事故時序變化總趨勢。

2.4 貝葉斯預測法

貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應的時間較少,其應急策略不足,造成重大交通安全隱患。貝葉斯預測法能夠對未來交通事故發生的可能性進行預測。該預測方法應用中,必須建立在交通事故和車速有關聯的基礎之上,有助于交通部門人員更好開展數據統計和交通流進行觀測。

2.5 灰關聯分析及神經網絡預測法

就灰關聯分析及神經網絡預測法而言,哈爾濱工業大學交通研究所和中國城市規劃設計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進行進一步解析,并建立合理的模型理論和確定預測指標,對未來交通事故發展趨勢加以預測。該預測方法的適應性較強,在我國交通事故預測工作實踐中有著較為有效的運用,可解決傳統預測方法難以解決的問題,建立在BP網絡基礎之上,并利用計算機開展輔計算活動。

2.6 多層遞階預測方法

多層遞階預測方法能夠規避傳統統計預測方法的缺陷,以現代控制理論“系統辨識”為重要基礎,對對象的未來狀態做科學的預測。動態系統數學模型為:y(k)=。在交通事故預測中,多層遞階預測方法是大數據時代背景下的重要處理方式,有利于增強預測效果。

3 結論

交通部門對交通事故進行合理的預測,有利于提高道路交通系統的安全系數。所以,相關人員合理選擇交通事故預測方法具有必要性,為規避交通事故而做出科學合理的決策。目前,使用較多的交通事故預測方法主要有:回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關聯分析及神經網絡預測法等,因其各具優缺點和適用條件,因而要求相關人員必須對系列問題進行深入探究,確保公路交通事故預測的有效性。

參考文獻

[1]李景文,高桂清.交通事故預測分析[J].中國安全科學學報,2015,6(01):20-23.

[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機,2013,19(05):7-10.

篇10

[中圖分類號]F239.1[文獻標識碼]A[文章編號]1673 - 0194(2012)11- 0026- 02

1背景

網間結算是各運營商之間永恒的話題。自各運營商開展全業務經營以來,網間結算的協議和收入支出結構都發生了很大的變化,C網的雙向結算和規模的發展、增值短信業務的發展、固網的逐漸萎縮以及國家對TD業務結算上的扶持,網間結算支出的變化,均值得分析研究。

網間結算的收入與本網的規模間接相關,網間結算的支出與本網的用戶數量、話務量以及商品、營銷政策直接相關,是公司經營成本的一部分,也是關注的重點。

網間結算的支出與很多環節相關,如在設計各類套餐、營銷政策、增值業務包資費政策等環節時是否考慮網間結算的成本、規避風險保證公司經營目標的實現;在公司經營分析中是否持續關注網間結算的支出,防范各種異常、突發的網間結算損失等。

2分析思路和目標

網間結算支出按業務可分為語音、短信兩大類,按通信區域可分為本地網和長途業務兩大類。語音又可分為固網和移動兩類,兩者之下還可繼續分為本地業務和長途業務(省內、省際、國際)。本地業務包括普通語音、短號、智能網、卡類業務等,本地普通語音業務還要細分為固話、GSM/WGSM/CDMA、TD三個小類。短信可大致分為點對點短信、彩信、業務短信等。每一類還要分為收入和支出,劃分如此多的小類是結算規則的要求和系統結算出賬的需要。

我們可以從一個分公司結算支出的時間和業務兩個維度進行分析調查。在分析分公司結算支出的月度變化趨勢時,也分析結算支出的業務構成。計算出單個分公司每個用戶的平均語音、短信結算支出,可與其他分公司進行比較,還可進一步細化到對某一類套餐進行分析。對支出占比較大的結算業務要分析其支出的明細清單,查清是哪些號碼造成的結算支出,查清這些號碼的來源、商品屬性、受理渠道并檢查結算系統的結算規則是否正確配置。

流程如下:

(1)檢查結算報表。

(2)分析結算支出的月度變化。

(3)計算每個用戶的平均語音、短信結算支出。

(4)查找高額結算用戶。

(5)檢查用戶套餐資費、受理渠道信息。

(6)檢查營銷或業務短信資費政策的合理性。

根據以上思路進行調查分析,我們可以確立重點和發現疑點,做到有的放矢,進行深入分析。重點查找是哪些業務的結算支出較高,計算該業務或套餐在結算收支相抵后帶來的價值,找出評價的標準,提出管理建議。

3分析方法

結算系統每個月都會出網間結算報表,包括結算的收入和指標。我們可以先從這些數據的分析開始。

3.1 分析網間結算的變化趨勢

首先分析網間結算總的變化趨勢,再查看指標明細項的變化趨勢,找出結算支出變化較大的分公司。

3.2 查找平均結算金額高出平均水平的營銷套餐

我們可以從指標中計算出每個用戶的平均結算支出,公式如下:

(1)固話語音平均結算支出=固網語音(本地、省內、省際)網間結算支出/當月過網固網用戶數。

(2)固話短信平均結算支出=短信結算支出/當月過網固網用戶數。移動用戶的平均結算支出計算與固話類似。

(3)再調查一些營銷方案,計算其扣除補貼、結算支出以及傭金后的收入,檢查是否可能有結算風險。

3.3 檢查業務短信的結算支出

我們分析短信結算支出的構成要分析構成是否包含了業務短信的結算支出。

先分析總體情況,再進一步統計檢查結算清單,找出結算支出金額、條數較多的號碼,可到系統進一步查看這些號碼。

3.4 預估以后一段時間內的網間結算支出

經過統計分析發現,單個過網用戶的平均結算支出是比較穩定的。而業務短信基本是采取預付費的形式,因此可以通過業務受理情況、分析其他網占比(單個分公司基本穩定)來估算它一段時間內的網間結算支出。分公司一段時間的網間結算支出的模型如下:

分公司一段時間的網間結算支出≈固話語音平均結算支出×平均過網用戶數×賬期數+移動語音短信平均結算支出×平均過網用戶數×賬期數+短信(不含業務短信)平均結算支出×平均過網用戶數×賬期數+預期消費的業務短信業務受理量/資費×他網占比×結算資費。該公式的數值都可以從報表和平臺統計得到,有一定指導意義。通過這個公式我們可以預估一個分公司一段時間的網間結算支出。

4分析結論和建議

分析發現,要加強對結算支出數據的分析、監控,應對結算的支出開展預估,要加強對業務短信的管理,維護市場秩序,結算支出的監控要實現自動化、智能化。

篇11

[中圖分類號]F270 [文獻標識碼]A [文章編號]1673-0194(2017)02-00-01

0 引 言

隨著移動互聯網技術的發展,人們越來越習慣于網絡購物。在網上購物或刷微博時,常常會看到“猜你喜歡”“可能感興趣的商品”等廣告欄目。而這些內容都是大數據產業的成果,是面向大數據視野得到市場分析的結果。掌握這種市場分析方法,能幫助企業更好地了解消費者的需求,進而更好地開展營銷活動。

1 大數據視野下市場分析的問題

在互聯網得到普及應用的情況下,大數據時代已經正式到來。目前,互聯網上的數據每年都會增長50%。而隨著運動、濕度和溫度等各類傳感器的出現,企業接觸到的數據信息也越來越多,而這些數據在給企業帶來挑戰的同時,也為企業提供了新的市場增長空間。加強數據挖掘和分析,能幫助企業精準地找到用戶,從而通過降低營銷成本、提高銷售率實現利益最大化。因此,企業應面向大數據進行市場分析研究,以便通過統計和分析超大量的樣本數據,獲得更接近市場真實狀態的市場研究成果。

2 大數據視野下的市場分析方法

2.1 基于大數據的市場調研方法

在過去較長的時間里,市場分析是以實地調查為前提,或是通過問卷調查和提供抽樣技術,其目的均是為了獲得消費者的答案。進入大數據時代后,企業開始通過網絡調研進行市場調查。這種方法,能夠方便、快捷且經濟地完成市場調查。具體來講,就是企業通過門戶網站完成市場調研模塊的建立,然后將新產品郵寄給消費者,并要求消費者在試用后進行網上調查問卷的填寫,這樣就能夠投入較少的人力和物力來完成市場調研。由于這種市場分析方法具有一定的互動性,能夠在概念階段利用虛擬仿真技術完成產品測試,從而使消費者參與到產品的開發,進而使市場需求得到更好的滿足。

2.2 基于大數據的市場信息挖掘

面向大數據視野研究市場分析的問題,企業可以發現有效的市場分析需要大量的數據信息提供支撐。所以,企業還要使用基于大數據的市場信息挖掘技術,以便對市場需求進行更好的分析。首先,在智能手機逐步得到普及應用的情況下,企業還應在移動終端開展市場研究,借助移動APP完成消費信息的采集。企業對這些數據進行深入分析,能夠完成產品回購率、產品促銷獎勵評估和購買時點等內容的分析。其次,在零售終端,POS機得到較好的建設和應用下,企業可以通過掃描商品條形碼完成購買地點、名稱和零售價等信息的采集,進而使其更好地掌握商業渠道的動態信息。此外,消費者往往具有從眾性,企業加強對社交平臺的信息挖掘能更好的掌握消費潮流。比如,利用微博評論可以完成消費者對某種產品偏好的了解,從而完成消費者真實消費心理及態度的分析,進而更好地掌握市場信息。

2.3 多學科分析方法的引入

以往的市場分析通常需要采取社會學調查方法完成資料搜集,再利用數據分析軟件完成數據分析,并獲得描述性或預測性的分析報告。在大數據時代,由于要完成海量數據的分析,因此,可以引入相對論、整體論和跨文化比較研究等多個學科的分析方法,以滿足大數據時代數據分析的需要。就目前來看,大數據來自各種移動終端和網絡,其是能反映消費者行動過程和軌跡的數據記錄,采用傳統的市場分析方法難以對這種過程性數據進行分析,而引入以分析過程見長的人類學的分析方法,則能對市場消費者的行動過程進行描述,從而使消費者的行動趨向得到揭示。

2.4 定量與定性分析方法的結合

采取定性或定量這兩種分析方法中的一種,可以完成片段式或截面式數據內容的分析。但在大數據時代,數據變得更加復雜,因此可以使用定量和定性相結合的分析方法進行市場分析。一方面,企業通過網絡調研完成大量數據信息的搜集,從而采取定量分析法進行市場分析研究。這種方法,能夠使市場研究人員成為“隱形人”,從而更加客觀地觀察消費者,并通過對超大樣本量進行統計分析,完成市場狀態的分析。另一方面,針對文本、視頻和圖形等非量化數據,可以通過智能化檢索和分析來完成定性分析,以便在保護消費者隱私的基礎上,更好地分析市場需求。

2.5 數據復雜屬性的還原

在傳統的市場分析工作中,可以將數據看成是一些片段而進行分析。而這樣的分析,實際上是脫離具體情境和社會關系的分析過程,雖然可以根據自身經驗和想象來進行情境原,但得到的研究結果卻不夠客觀和科學。在大數據背景下,企業可以使用能夠還原數據復雜屬性的市場分析方法,以便更好地完成、嵌入某些社會關系的消費者的購買行動和軌跡的分析,進而獲得更加有效及真實的分析結果。因此,使用的市場分析方法應更關注數據的社會背景,從而更好地完成大數據的整合與分析。

3 結 語

在大數據時代,企業要選擇適當的市場分析方法,以便使自身的數據處理能力得到提高,從而通過獲取的高質量的數據信息來提高自身競爭力,進而更好地適應社會發展的要求。因此,希望本文對大數據視野下的市場分析方法展開的研究,可以為相關工作的開展帶來啟示。

主要參考文獻

篇12

數據缺失的程度、機制均影響處理方法的選擇。方法不適當也會帶來有偏的參數估計M1、方差估計與統計檢驗,甚至影響數據分析效用。

(一)數據缺失的程度

借助某一變量上數據缺失的比率X描述數據缺失的程度。缺失比率X如何應用方面,當X<10%時應當保留這些賊并對其哳搬的艦曾建議,當X>15%時可以考慮刪除采用刪除法;MRaymond與Roberts則認為X>40%時才考慮刪除這些數據。

(二)缺失機制

缺失數據與諸多變量等相關,處理方法的性質依賴這些相依關系的特征。為論述方便,記全部變量Y觀測值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨立無關,則缺失數據為完全隨機缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時缺失值是總體的一個簡單隨機抽樣。如果缺失值僅與Yobs相關聯、與Ymis相互獨立,則是隨機缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關系,則稱非隨機缺失(NMAR,notmissingatrandom),是不可忽略的。

二、單一借補

單一借補用一個借補值替代全部缺失值,后用完全數據方法分析數據。單一借補是缺失數據處理中最通用方法之一,有多種方法。

(一)推理借補與最近鄰借補

根據已有信息推斷缺失數值,該方法簡單易行,可提供準確借補值,或者近似準確借補值,同等情況下可優先進行推理借補。例,信息收集時已提供有姐弟信息的某被試“獨生子女”一項空著,可推斷為“否”。最近鄰借補選用與缺失數據提供者相類似的被試數據替代該缺失值。按照匹配變量找到一個以缺失數據提供者類似的被試時,可還用例如歐式距離等來度量類似程度。

(二)均值借法

均值借補用已得數據的均值替代全部缺失值。借補值易均值形成尖峰,嚴重扭曲數據分布。當數 據缺失非MACR時,將低估統計量方差,導致參數估計偏差,且不適用需方差的復雜分析。

(三)回歸借補

回歸借補可分為線性回歸借補,非參數回歸借補等。本文主要關注線性回歸借補,用Yk關于數據完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時有一次或多次迭代之分。多次迭代中,預測變量以逐步進人模型,獲得預測力最佳、最精簡的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數變化不顯著。是類別變量時,則考慮進行變換,進行線性回歸。同時,我們還應注意到利用嚴格的回歸方程進行預測,易人為增大變量之間的關系。多數情況下,教育學、心理學討論的變量大多都不是相互獨立的。選擇該方法時,須考慮當預測變量與變量Y是否存在高度的相關關系。其構造借補值的邏輯清晰,相對客觀。該方法能得到合乎邏輯的結果,尤其滿足正態分布時。數據模擬實驗表明,方法加精確。

三、多重借補

多重借補(multipleimputation,MI)基于缺失值的預測分布或統計模型的方法:提供多個借補值依次替代各個缺失值、構造個“完全數據”,121,191211后運用完全數據統計方法分別分析多個數據集;分別得到數個分析結果,擬合這多個結果,獲得對缺失值的估計等,甚至是置信區間、P值。MI具備例如連續性的優良統計性質。

(一)回歸預測法與傾向得分法

回歸借補基于已有數據建立回歸模型、嵌入借補值。先確定觀察協變量,傾向得分法賦予一個條件概率。即對各Y產生一個觀測值缺失概率,并以傾向得分表示。依據傾向得分對數據分組,組內進行近似貝葉斯Bootstrap(ABB)借補。

(二)似然的方法

1.極大似然估計

從理論上來看,極大似然法(MaximumLikelihood,ML)至今仍是參數點估計中的重要方法。既定模型下缺失值的諸多估計均可基于似然函數進行。ML利用總體數量特征的分布函數等,建立未知參數的估計量。將Y作為未知變量0,構造關于e的似然函數,后求的參數的極大似然估計量,甚至在參數空間內的置信區間,或者置信區域。

參數極大似然估計量(MLE)具有不變性,推廣至多元變量時該優良性質亦成立。這恰能滿足實際研究需要。基于其漸進最優性質等,ML成為參數估計的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。

2.期望極大化算法

期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來計算基于不完全數據的MLE15。當由于觀測過程局限帶來數據部分缺失時,或似然估計因似然函數不是解析函數而無效時可選用該方法。EM是一種迭代算法,每次迭代似然函數值都將有所增加,進而保證參數估計值收斂到一個局部極大值。此外,EM可自動實現參數約束。基于軟件數據模擬表明X<30%時EM算法可得到比較好的結果。

3.MCMC方法

當缺失值分散在多個變量時,回歸法基于對回歸系數的估計獲得借補值。復雜缺失模型中,回歸系數的估算又依賴于借補值。這里似乎存在某種循環論證痕跡。此時,可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進行蒙特卡洛積分,可基于無后效性隨機過程探討數量關系、預測變量,還可有包括0出1?抽樣等多種具體算法。基于多元抽樣MCMC有諸多優點,足夠長的時間使得雅過程驗時,MCMC可得卿常麵的結果。171MCMC是與具體的模型結合的,自身有不少擴展方法,且不同MCMC方法對缺失數據的參數估計之間存在差異。不過,X<30%時MCMC方法得到結果與完全數據時擬和較好。這些研究支持MCMC是處理缺失數據的有效方法,軟件包SPSS17.0等均收人該方法。

四、不處理

借補值是缺失數據的主觀估計值。引人的主觀值可能改變原信息系統,甚至帶進新噪音、導致分析錯誤。不處理確保了原有信息不變,并進行分析,其主要包含貝葉斯網與人工神經網絡。不過,后者的具體應用仍有限、待進一步探索與實證。研究開始關注神經網絡在心理學中的具體應用。

(一)貝葉斯網

貝葉斯網絡(BayesianNetworks)是一個有向無圈圖,W能描述不確定性因果關聯的模型。該有向無圈圖帶有概率注解,能夠表示隨機變量的因果關系與概率關系,網絡的拓撲結構能夠表明如何從局部的概率分布獲得完全的聯合概率分布。分析缺失數據時,貝葉斯網將結合先驗知識與樣本數據對數值計算進行推理,得到最佳值。其最大程度利用數據蘊含的信息,是具有魯棒性的方法。

缺失數據下學習貝葉斯網有各類算法,不少算法是通過對含缺失數據的信息系統完備化得到所需統計因子,最終將問題轉化為完全數據下學習貝葉斯的網的問題。例如,結構EM(StructureEMAlgorithm)通過EM算法獲得期望統計因子。數據非隨機缺失可以通過引人隱藏變量轉化為隨機缺失問題,m似乎可以僅討論隨機缺失情況下算法。隨著研究的推進,新的、優良的算法相繼涌現,并得到模擬實驗的支持。例如,數據缺失下貝葉斯網絡增量學習算法IBN-M。甚至穩健的貝葉斯方法能夠適用于含缺失數據的結構方程分析中,此時的結構方程模型選擇固定方差。

建構貝葉斯網可由專家人工建構。其中,因果關系、網絡結構是不可或缺的。這需對分析領域有相應了解,至少對變量間關系較清楚。在心理學等領域中應用尚待深入研究,該方法運用前景令人期待。

(二)貝葉斯網適用軟件能夠實現貝葉斯網的軟件包不少。Netica是最重要軟件之一,可免費下載功能有限的版本。專門進行數值計算的語言Matlab,其編程量較少、調試程序方便、呈現學習所得結構也不繁瑣,國內文獻也更多地涉及Matlab。BNTtolkit是基于Matlab開發的,提供不少基礎函數庫,能夠進行參數學習與結構學習,且完全免費。缺乏圖形用戶界面、無法將基本函數集成相應系統是其“硬傷”。

五、結論與討論

實際應用中,刪法“浪費”不少數據,統計力低下,盡量選用其它方法。當滿足MAR缺失機制且人在10%時,對刪法可運用對有多個項目的量表的數據處理。當滿足MAR、變量相關聯,可考慮均值借補。當變量之間高相關且X>20%Ht,可考慮回歸借補。

篇13

Cluster Analysis Method Application of Grid Technology

Ma Dongmei

(Xinjiang Tianshan Vocational and Technical College,Urumqi830017,China)

Abstract:In the grid based on data mining combines the advantages of grid technology to various information carriers in the distribution of vast amounts of information for efficient processing, analysis and mining.This paper analyzes the grid and cluster analysis of the characteristics,the use of grid-based methods of data analysis methods will be ground into space(hyper)rectangular grid consisting of grid cells,then the cluster analysis of grid cells in order to achieve a more in-depth analysis of the data mining purposes.

Keywords:Data mining;Grid;Cluster analysis

一、引言

隨著信息技術的飛速發展,人們對計算機信息處理的要求越來越高,同時處理、傳輸、儲存各種信息的數據量也越來越龐大。如何進一步增強計算機信息系統的處理能力,從海量的數據中提取有益的資源,便成為人們不斷追求的目標。網格技術和數據挖掘技術的發展,為解決此問題提供了一種有效的辦法。網格是一個集成的資源環境,它能夠充分吸納各種資源,并將它們轉化成一種隨處可得的、可靠的、標準的、經濟的能力。這些資源包括計算資源、網絡通信資源、數據資料、儀器設備、知識等各種各樣的資源。網格計算就是基于網格的問題求解。數據挖掘就是從大量的數據中發現或"挖掘"知識,而網格上含有豐富的數據,是數據挖掘的理想目標。基于網格的數據挖掘就是建立在數據網格的基礎設施和相關技術的基礎上,在廣域分布的海量數據和計算資源的環境中發現數據模式,獲取新的科學知識和規律。

二、基于網格的數據挖掘

網格計算技術是解決復雜海量科學數據的訪問存儲組織和管理的一種有效技術,是廣域分布的異構虛擬組織間實現協同資源共享、多領域的科學和工程的問題求解。建立在網格基礎上的數據挖掘結合網格計算的思想及其技術的優點,能夠對廣域分布的海量數據進行高效的處理、分析和挖掘,將給信息分析處理的效率帶來極大的促進。(一)網格數據挖掘過程:數據的處理,數據的分析與挖掘,模式的評價。(二)網格數據挖掘的特點:超強的計算能力;具有分布性和動態性;具有高性能的I/O負載平衡能力;高效的數據存儲服務、傳輸服務和復制管理。(三)聚類分析在網格計算中的實現方法。

三、網格聚類過程劃分

基于網格聚類算法的第一步是劃分網格結構,按搜索子空間的策略不同,主要有基于由底向上網格劃分方法的算法和基于自頂向下網格劃分方法的算法。由底向上劃分方法只需對數據集進行一次線性掃描以及較高的簇的描述精度,算法的效率與維度密切相關。自頂向下劃分方法能夠自動根據數據的分布對空間進行劃分,可以快速將大型高維數據集中的簇分隔開,數據空間維度對網格計算的影響較小。可以看出,兩類方法適用于不同的問題。前者適于處理高維數據集,后者能有效處理存取代價較大的超大型數據集與動態數據。

四、基于網格的聚類過程分析

基于網格的聚類算法的基本過程是,首先將數據空間W劃分為網格單元,將數據對象集O映射到網格單元中,并計算每個單元的密度。根據用戶輸入的密度閾值Min Pts判斷每個網格單元是否為高密度單元,由鄰近的稠密單元組形成簇,第一步,定義一個網絡單元集;第二步,將對象指派到單元,并計算密度;第三步,刪除密度低于指定闕值的單元;第四步,由稠密網格單元形成簇。

(一)網格單元的密度。簇就是一個區域,該區域中的點的密度大于與之相鄰的區域。在網格數據結構中,由于每個網格單元都有相同的體積,因此網格單元中數據點的密度即是落到單元中的點的個數。據此可以得到稠密網格單元的密度是,設在某一時刻t一個網格單元的密度為density,定義density=單元內的數據點數/數據空間中總的數據點數,設密度閾值為A,為用戶輸入的密度闕值,當density>A時,該網格單元是一個密集網格單元。反之為稀疏網格單元。需聚類計算時,對于稀疏網格單元一般采用壓縮或直接刪除的處理方法,理論分析和實驗證明刪除稀疏網格單元并不影響聚類的質量。(二)由稠密網格單元形成簇。在基于網格的聚類算法中,根據以上分析,由鄰接的稠密單元形成簇是相對直截了當的,這也是基于網格的方法的優點之一。但是需要首先定義鄰接單元的含義。設n維空問中的存在任意兩個網格單元U1和U2,當這兩個網格單元在一個維上有交集或是具有一個公共面時,稱它們為鄰接網格單元。在二維空間中,比較常使用的是4-connection相鄰定義和8-connection相鄰定義,

五、結束語

基于網格聚類方法的優點是它的處理速度快,因為其速度與數據對象的個數無關。但是,基于網格方法的聚類算法的輸入參數對聚類結果影響較大,而且這些參數較難設置。當數據中有噪音時,如果不加特殊處理,算法的聚類質量會很差。而且,算法對于數據維度的可伸縮性較差。

基于網格的聚類方法目前還存在一些急需解決的問題,主要有以下幾點:(1)當簇具有不同的密度時,全局的密度參數不能有效發現這樣的簇,需要開發具有可變密度參數的算法。(2)對于不同類型數據的聚類問題,比如對于高維數據,網格的數據將急劇增加,需要有效地技術發現近鄰單元。(3)當數據集的規模巨大以及數據具有地理分布特性時,需要開發有效的并行算法來提高處理的速度。(4)對現有網格算法的優化,從不同方面提高網格算法的有效性。比如開發稀疏網格的壓縮算法、密度相似網格的合并算法等。

本文對基于網格的聚類方法的進行了分析和研究,包括網格的定義與劃分方法、網格單元密度的確定、由鄰接網格單元形成聚簇的聚類過程;最后對網格聚類方法優點與局限性進行總結,在已有研究分析的基礎上,提出后續需要重點解決的問題。

參考文獻: