日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

數據分析論文

引論:我們為您整理了1篇數據分析論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

數據分析論文

數據分析論文:大數據分析煤礦安全生產論文

1綜合決策分析缺乏時空維度的支持

煤礦安全生產和管理是一個與時間和空間相關的過程,其綜合決策分析離不開時間和空間維度的參與,而現有的煤礦信息系統往往缺乏時空維度的決策分析工具,如拓撲分析、緩沖區分析、密度分析、疊置分析、時間和空間趨勢探測分析、時間/空間關聯分析、時間/空間自回歸分析等。煤礦安全生產內涵豐富,既包含了日常性事務性的風險超前預控管理,又包含即時性的風險識別、監測、預測乃至預警,這就給安全生產管理的各類信息系統建設提出了很高的要求,需要滿足監控實時化、系統集成化、數據海量化、分析決策在線化和智能化,這些都是目前信息系統建設的短板。上述問題的存在使得我國煤礦安全生產形勢沒有本質的好轉,諸多信息化建設成果(硬件、軟件)在煤礦安全生產過程中也沒有起到預期的成效。

2煤礦安全生產大數據分析系統

2.1大數據分析的概念大數據分析

是指數據量急劇積累迅速超出主流軟件工具和人類思維處理的極限,大數據與傳統數據比較起來,有四大特征:數據體量巨大(Volume)、數據類型繁多(Variety)、數據價值密度低(Value)、更新速度快時效高(Velocity)。大數據分析需要全新的數據處理理念和分析工具,洞察發現海量高速增長信息中潛藏的價值[4]。從理念上,大數據分析與傳統數據分析有三大轉變:要全體不要抽樣,要效率不要,要相關不要因果。針對大數據,既有的技術架構和分析工具已經無法滿足要求,需要全新的數據分析方法和技術,這其中包括:(1)大數據分析可視化方法;(2)大數據挖掘算法;(3)預測性分析能力;(4)語義處理能力;(5)數據質量和數據管理技術。

2.2大數據分析系統的建設

根據大數據處理和分析的理念,煤礦安全大數據分析系統的建設目標包括:數據綜合集成、安全知識集成、三維虛擬可視化展示、煤礦安全動態分析診斷。具體建設內容包括:(1)基于物聯網/云計算技術的煤礦安全綜合數據庫。建設煤礦安全大數據分析診斷系統,首先要利用物聯網和云計算技術實現綜合的數據集成,將基礎空間和屬性數據、在線監測的實時性數據、專業業務系統的事務性數據綜合集成起來,構建煤礦安全綜合數據庫。(2)基于專家系統的煤礦安全專家知識庫。針對知識集成的目標,整理規范規程體系中的經驗或者理論知識(煤礦安全規程、煤礦作業規程、三違行為知識、隱患界定知識、評估模型、設備操作規程知識、工種操作規程知識),構建煤礦安全動態分析診斷的專家知識庫。(3)建設三維虛擬礦井可視化平臺。針對信息和知識三維虛擬礦井可視化展示分析,主要的建設內容是基于高精度地質模型理論研究開發三維虛擬礦井平臺,實現地層建模、鉆孔建模、斷層建模、工作面建模和巷道建模等工作。然后,基于三維虛擬礦井平臺,實現數據和知識可視化、煤礦安全生產活動可視化、分析和決策過程可視化。(4)研發煤礦安全動態分析系統。針對基于專家知識庫的煤礦安全生產分析決策,需要利用煤礦安全綜合數據庫中的基礎數據、實時監測數據以及事務性數據,根據煤礦安全專家知識庫進行煤礦安全生產狀況評估、推理和演繹,動態分析診斷煤礦安全生產的現狀與趨勢、預測未來,并針對煤礦應急現象做出科學合理的響應對策。

3結語

物聯網、云計算、大數據分析帶來了新的數據處理和分析的視野[5],也必將影響煤礦企業的信息化建設,成為提升煤礦安全生產水平的核心信息技術手段。與互聯網、電子商務、電信通信等行業相比,煤炭行業在這方面的發展稍稍晚一些。因此,煤礦科技研究工作者需要抓住時機,在大數據分析處理的研究和應用上付出更大努力,推動煤礦信息化建設發展。

作者:魏忠奎 袁傳增 單位:山東能源棗礦集團田陳煤礦

數據分析論文:數據分析網絡輿情論文

網絡輿情是由于各種事件的刺激而產生的通過互聯網傳播的人們對于該事件的所有認知、態度、情感和行為傾向的集合[1]。在大數據背景下,網絡輿情呈現以下特征:1.信息數據量龐大,2013年我國產生的數據總量超過0.8ZB(相當于8億TB),兩倍于2012年;2.網絡信息來源多樣,信息內容來源于各門戶網站,博客、論壇、微博、微信等;3.信息傳播速度快,尤其是微博、微信等的即時性特征,可以將信息同步傳播。網絡信息呈現出的特征在網絡科技日益進步的情況下將會越來越突出。在海量、復雜的數據環境下,要及時有效地發現網民的認知、態度、情感和行為傾向,依靠傳統的數據人工獲取、人工分析的方法顯然是難以應對的。我們需要應用情報分析手段,從繁雜的網絡信息中采集熱點信息,將信息修剪、清洗、統計,獲取輿情評估結果,實現網絡輿情有效管控。

一、基礎數據采集

網絡產生巨大的數據量,例如2013年,每天平均產生兩百多萬TB的數據量而且信息來源多樣,這些信息都是獲取有效輿情的數據基礎,我們首先要盡可能地收集到這些信息。網絡數據獲取可以采用網站提供的API或網絡爬蟲工具獲取。使用API方式是通過網站提供商獲取數據信息,為了避免頻繁調用對網站服務產生影響,一般調用API次數都會有一定限制,同時網站對于獲取數據權限有各種限制,由于種種限制,目前普遍研究和使用的網絡爬蟲都不使用API。網絡爬蟲指從一個或多個指定的網頁開始,在全網范圍搜索獲取網絡信息資源,通過簡單設置目標網站、爬行間隔和存儲位置等就能夠自動批量獲取網頁內容,為數據獲取提供極大便利。常見的網絡爬蟲有傳統網絡爬蟲和聚焦網絡爬蟲。傳統網絡爬蟲獲取的數據有一定盲目性,獲取的信息很大一部分都不符合要求,造成時間、資源的浪費。而傳統網絡爬蟲的并行機制也帶來數據重復抓取、頁面質量下降等問題。但傳統網絡爬蟲具有獲取數據完整、速度較快的優點。聚焦網絡爬蟲增加了頁面相關度評價和URL價值評價功能進行信息過濾和分析,利用主題相關度評價模型過濾掉與主題無關的網頁,利用URL主題相關度控制爬蟲爬行過程,不遍歷和主題無關頁面,提高爬行效率。聚焦網絡爬蟲數據相關性高,但速度較慢。在輿情采集過程中合理利用網絡爬蟲,可以在短時間獲取大量網絡數據,但這些數據存在大量冗余,數據針對性不高,需要后續提取分析。

二、冗余數據清洗

網絡輿情分析的主體是與主題相關的數據信息,通過網絡爬蟲程序獲取的是由HTML和各種腳本語言構成的web頁面,web頁面由與主題相關的網頁正文和與主題無關的數據組成,與主題無關的數據也稱為網頁噪音。由于web頁面的形式多樣,正文與噪音之間沒有明確的界限,而大量存在的網頁噪音造成資源浪費,對正文分析也造成很大干擾。我們需要對頁面進行處理,剔除網頁噪音,比如頁面中的廣告、導航信息、說明文字等,提取正文、鏈接、作者、點擊量等主題相關信息。通過去噪處理得到的文檔一般包含大量重復信息,互聯網信息頻繁的轉發、復制以及不同URL地址指向同一頁面等情況都導致信息重復,重復信息成倍增加工作量,去除重復文檔也是進行正文提取、分析的必要步驟。我們可以對文檔進行向量化處理之后,計算各個特征詞的權重,利用相似度算法計算詞語與詞語之間的相似度,通過計算文檔相似度,去除重復信息。當前網頁去重算法有很多,但大多數都是基于shingling和LsH的思想,比如對shingle生成策略的改進,對LsH指紋間海明距離計算的改進,以及對這些算法本身參數設置不同而帶來性能變的研究等。

三、正文文本提取

通過去噪去重處理,修剪掉網頁多余數據,如何快速有效地提取出需要的正文就需要正文提取技術。正文提取技術也是網絡輿情發現的一項重要技術。當前常用的網頁正文提取算法包括基于DOM樹的網頁正文提取技術、基于內容規則的網頁正文提取技術、基于統計學特征的網頁正文提取技術和基于神經網絡的網頁正文提取技術等。各種提取技術各有優劣,比如目前應用比較廣泛的基于DOM樹的網頁正文提取技術,它利用HTML的各種標簽信息,將網頁內容轉化成規范的樹形結構,通過遍歷DOM樹的節點,裁剪與正文無關的節點而得到正文內容。這種算法依賴于HTML標簽,對于HTML規范性要求很高,而且解析過程效率也較低。利用統計學特征的正文提取技術將HTML代碼解析后以行或段為單位保存,統計單位文本和HTML代碼的字節數,通過計算文本和字節數比例得到文本密度,如果密度大于事先設定好的文本閾值,則該部分內容判定為正文。這種算法不需要分析源碼,判斷度較高,但限制性也較大,對于正文集中的內容效率較高。實際應用中需要針對輿情來源及其特點,結合使用各種網頁正文提取技術,以達到提取效率和度。

四、信息分類與關聯

網絡信息數據多樣,來源復雜,數據分布離散。通過文本處理抽取的正文數據往往是相互沒有關聯的數據,這些文本在使用時就面臨無法分析、統計等諸多問題。利用數據挖掘技術可以將文本經過分類、聚類、關聯規則發現等一系列處理,從海量數據中發現主題相關的信息,發現其中的模式、規律等,從而為輿情分析與預警提供依據。文本分類指按照預先定義好的類別集合,根據文本內容進行文本自動分類的過程。是一種有監督的機器學習問題。當前的文本分類技術,大多數是基于向量空間模型,用規則的向量來表示不規則的文本數據。文本分類一般分為訓練和分類兩個階段,訓練階段需確定類別集合,并在類別集合選取代表性文檔計算特征矢量。分類階段則計算待分類文檔特征矢量,通過與各集合特征矢量比較選取相似度最接近的集合。文本聚類在沒有類別集合的情況下進行文本分類。主要依據文檔相似度,通過計算將相似文檔進行歸類。不同的聚類算法采取不同的文本向量組織調度策略,以不同的方式進行相似或相異的比較,將大量無序的文本劃歸為若干類簇,使得不同類簇描述不同事件,得出不同的話題。文本聚類是一種無監督的機器學習問題,不需要預先定義集合,具有一定的靈活性和較高的自動化處理能力。網絡獲取的數據類型多樣,比如對于一個輿情熱點事件,我們可能從網頁獲取事件過程,從論壇、博客等獲取關注度和轉發量,從公安部門獲取人員、關聯信息等,這些數據我們需要通過關聯規則發現關聯關系,將數據整合為相關的數據網。關聯規則挖掘過程主要包含兩個階段,及時階段從獲取的復雜數據聚合中找到出現頻率高的數據組,第二階段在這些高頻數據組中產生關聯規則。有效的關聯規則對于輿情分析有重大意義,但目前我國對這一領域的研究應用尚不深入。

五、話題檢測與追蹤

話題不同于主題、事件等概念,話題是由某一個特定事件和與該事件相關的一系列事件共同構成的。在大量網絡信息中,發現某一話題并按照該話題收集與其相關的信息,對信息重新組織,可以有效了解話題的發展與演變。信息的采集、處理、分類、關聯等方法將網絡中存在的大量無序數據整合為統一的、存在映射關系的數據網,這個過程以網絡中已經存在的各類信息為主體進行簡單檢索和歸類。隨著網絡規模的幾何增長,網絡信息多樣化,網絡輿情具有隱蔽性、突發性、自由性等特點。話題發現與跟蹤技術的關注點不僅僅在網絡已有信息的收集處理上,還要在大量信息基礎上,自動分析判斷,發現值得關注的深層次的、新的信息并進行追蹤,更傾向于新信息的發現,話題跟蹤依據與某話題相關的少量事件,判斷出后續新聞報道流中與該話題相關的報道,并將相關報道收集起來實現跟蹤。通過大規模文檔自動聚類建立話題。話題檢測與追蹤對復雜無序的網絡事件進行深入分析,總結事件中的特征規律。當某一網絡事件特征符合其中規律時,就可以預測該事件的發展結果,并對于預測可能導致重大后果的事件進行輿情預警。網絡監控人員可以根據預警提前對網絡事件進行預防疏導,避免產生嚴重后果。

六、信息定量評估

一般通過數據采集、修剪、提取和分類后可以獲得大量輿情信息,并通過跟蹤檢測手段獲取話題發展規律從而對輿情事件采取積極的、有的放矢的應對措施。信息評估不屬于輿情信息獲取的組成部分,但在具體輿情監控工作中,不同地域、不同行業對于信息的需求不同,如何從用戶角度出發,對獲取的數據進行評估是非常重要的一個方面。從公安行業需求角度,按照話題熱度、行業敏感度等綜合評估,對于信息的定量分析與把握是非常必要的。公安行業對于輿情有很多特定的關注點,把握關注點的關鍵詞是重要的評估指標,關鍵詞來源于公安行業多年信息數據積累,有基于行業的文本信息關鍵詞,比如警察、公安局等,基于案件的文本信息關鍵詞,比如偷竊、搶劫等,基于轄區的文本信息關鍵詞,比如蘭州、城關區等,基于重大事件的文本信息關鍵詞,比如爆炸、貪腐等。通過對這些關鍵詞的甄別提供輿論傾向性、苗頭性的輿情信息以及相關輿情數據,為網絡輿情關注點評估提供支持。熱點話題是網絡流傳比較廣泛、網民反響較為激烈、產生較大影響的話題,網絡熱點在新媒體環境下傳播的即時性和廣泛性大幅增長,我們可以通過對話題訪問量、轉發數、網頁瀏覽數等評估網絡輿情中的熱點話題,即時抓住海量網絡信息中的重點,找到真正有價值的信息。當前互聯網輿情日益復雜,處置要求高、難度大。網民的理性討論與過激言論疊加在一起,人民群眾的正常民意呼吁、反映與敵對分子和別有用心的人蠱惑煽動、惡意炒作交織在一起。在這種形勢下,互聯網輿情監控引導工作是必要的,研究網絡輿情獲取與分析技術并及時應用在輿情監控工作中,對于梳理輿情監控的思路,抓住紛繁的監控工作中的重點,將有限的人力物力用到關鍵的地方,提高工作的針對性和有效性有重要意義。

作者:胡晴云 馬鴻 單位:甘肅警察職業學院 渭源縣公安局

數據分析論文:項目數據分析與金融投資論文

一、項目數據分析工作對投融資具有重要的意義

無論是政治,還是經濟形勢,任何政府、企業、個人,面對未來進行投融資等項目決策,不經過數據分析論證就簡單的決定會帶來巨大的危害,已經漸漸的被人們認同。所以,只要參與社會政治、經濟等活動,進行投融資,期望帶來一定的經濟效益,或者社會效益,就必須加強數據分析工作,對投融資意向進行評估,為決策提供科學的依據。

(一)項目數據分析

1、什么是項目數據分析工作

項目數據分析就是研究將經濟學理論用數學模型表示,并應用于項目投資分析的方法論。項目數據分析過程是:提出項目(研究機會)、初步可行性研究(市場、技術、資源、環境研究、效益、風險分析評價)、測算經濟效益、評估和決策、可行性研究(市場、技術、資源、環境研究、效益、風險分析評價)、評估和決策、項目實施。

2、項目數據分析工作的內容、特點

(1)項目分析工作的內容

一般來說,項目數據分析的內容包括項目的經濟效益評價、項目的風險分析和項目的比較選擇。

項目的經濟效益評價主要是在假設項目沒有風險情況下的經濟效益,主要針對非貼現指標(會計收益率和投資回收期)和貼現指標(凈現值、內部收益率、獲利指數和動態投資回收期)。

項目的風險分析,主要是進行盈虧平衡分析、敏感性分析和概率分析。

項目的比較選擇,主要是獨立方案、互斥方案和不互斥方案的設計、評估等選擇。

(2)項目分析工作的特點

項目數據分析工作是一門邊緣科學,其特點是以定量分析為主要分析手段,通過分析翔實的數據進行項目的論證得出定性結論,并以定量數據進行說明。顯然,項目數據分析,必須通過建立數學模型的方法進行分析涉及經濟學、數學、統計學和預測學。

(二)什么是投融資

1、項目投融資的概念。

投資是指 “為了在獲得預期的收益而作出的確定的墊支或犧牲的各種經濟行為” 。因此,投資并不局限于與基礎建設相關的經濟活動,還包括證劵投資、信貸投資和信托投資。

2、項目投資的特點

項目投資的特點是現在投入資金進行經濟效益的博弈,通過對該項目的管理進行長期或者未來的收益,不僅具有時間性,而且具有較強的風險性,其本質就是獲得預期的收益。

一些大型的投資項目,通常都由一家專業的財務顧問公司擔任其項目的財務顧問,財務顧問公司做為資本市場中介于籌資者與投資者之間的中介機構憑借其對市場的了解以及專門的財務分析人才優勢,為項目制定嚴格的,科學的,技術的財務計劃以及形成最小的資本結構,并在資產的規劃和投入過程中做出理性的投資決策。

(三)項目數據分析工作對投融資具有重要的意義

1、數據分析工作提高了工作效率,增強了管理的科學性。無論是國家政府部門、企事業單位還是個人,數據分析工作都是進行決策和做出工作決定之前的重要環節,數據分析工作的質量高低直接決定著決策的成敗和效果的好壞。

2、越來越多的企業將選擇擁有中國項目數據分析師資質的專業人士為他們的項目做出科學、合理的分析,以便正確決策項目;越來越多的風險投資機構把中國項目數據分析師所出具的項目數據分析報告作為其判斷項目是否可行及是否值得投資的重要依據;越來越多的企業把中國項目數據分析師課程作為其中高管理層及決策層培訓計劃的重要內容;越來越多的有志之士把中國項目數據分析師培訓內容作為其職業生涯發展中必備的知識體系。

二、從事項目數據分析工作的感受

(一)從數據分析師的角度,項目數據工作需要做到以下幾個方面的服務,才可以為被服務對象提供品質的有價值的投融資報告。

1、真誠服務

所謂真誠服務,主要是因為投融資報告的價值來自于數據分析師精湛的業務能力,細致的數據搜集能力、閱讀能力、分析能力和預測能力。無論是競爭性項目、還是基礎性項目,由于數據分析工作時一門邊緣科學,需要對真實和翔實的數據進行定量或者是定性分析,需要對國家或者國際政策進行審讀,需要對經濟形勢進行判斷,需要對項目所屬的行業進行科學的宏觀把握,因此,項目數據分析師在搜集相關數據,在分析相關數據時,在閱讀國家或者國及政策時,在斟酌行業趨勢時,都需要真誠的付出,否則,閉門造車或者移花接木式的投融資報告,只能是危害客戶,只能給客戶帶來更大的風險,而不是豐厚的收益。

2、真心服務

所謂真心服務,主要是指項目數據分析師在服務客戶時,需要站在客戶的角度思考問題。由于項目數據分析師,是從屬于某公司,因此從公司利益出發,需要為公司賺取一定的利潤,這部分利潤就來自于數據分析師所服務的客戶。從客戶角度思考,實際上客戶委托數據分析師針對企業的項目意向而進行的數據分析,實際是希望數據分析師提供的項目方案,不僅是可行的,能夠為公司獲得預期利益,而且是風險較小的,可以操作實施的投融資報告。

3、真實服務

所謂真實服務,就是指數據分析師在進行項目數據分析,通過建立數學模型的方法進行分析并提出具有科學性的、前瞻性的、科學性的、可操作性的投融資項目預測報告時,需要是真實服務。一般來說,客戶在提出項目設想時,是充滿了憧憬,也具有天真的幻想,那么數據分析師提出的可行性報告如果是刻意逢迎客戶的主張,那么對客戶來說將是災難性的打擊。

4、真情服務

所謂真情服務,主要側重于項目付諸于實踐中,項目數據分析師跟蹤調查項目實施的禁毒,以及修正項目風險分析和比較選擇。

(二)從數據分析師所服務的客戶角度來看,客戶也需要做到以下幾個方面的工作:

1、信賴數據分析師的服務

對數據分析師服務的企業來說,信賴數據分析師是必要的。一方面,投融資項目報告,制定嚴格,具有科學性,是理性的投資決策;另一方面,

2、忠誠數據分析師的服務

3、誠摯和數據分析師的合作

數據分析師在進行投融資項目分析時,一方面,客戶的意項是否描述清晰、完整、,是非常重要的,它決定了投融資項目報告的起點和方向;另一方面,企業的真實經營狀況,也對項目報告具有決定性的意義。因此,企業需要同數據分析師進行誠摯的、真誠的合作,否則,項目數據報告就存在不可預知的、本可避免的巨大風險。

三、為項目方和投資方案例分析

支持創新 不忘避險—“倍愛康”生物科技項目作為股東類項目,“中投信保”為“倍愛康”提供4筆貸款擔保,累計擔保余額1900萬元,實現保費收入28.5萬元。

“倍愛康”是由冶金自動化研究院投資興辦的高新技術企業,主營磁分離酶聯免疫檢測系統等醫療器械和試劑的購銷與制造。企業貸款用途為引進加拿大的磁酶免系統。但貸款后對該產品的市場推廣未見成效,研發費用又較高,在銷售無法取得突破的情況下,使得公司的凈利水平偏低。同時,下游各地方醫院壓款情況嚴重。雖引入的國外先進技術不如預期般成功,企業仍按時還貸,該項目順利完結。

四、結束語

本文在對項目數據分析與投融資進行了簡單的介紹,并分析了數據分析對投融資的重要性,在此基礎上簡要說明了數據分析與企業之間的服務關系。本文認為,從項目數據分析與企業投融資決策之間,要相互真誠合作,以避免數據分析失真,避免投融資出現過大的風險。

數據分析論文:云計算環境下大數據分析論文

1大數據處理流程

基本的大數據的處理流程可以分成數據采集、數據處理與集成、數據分析和數據解釋4個階段。首先獲取數據源的數據,因為在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數據成為某種可以用一種算法分析的統一數據格式,接著需要找到這種數據分析的算法,將預處理過的數據進行算法特定的分析,并將分析的結果用可視化等手段呈現至用戶端。

1.1數據采集

大數據的采集是整個流程的基礎,隨著互聯網技術和應用的發展以及各種終端設備的普及,使得數據的生產者范圍越來越大,數據的產量也越來越多,數據之間的關聯也越來越復雜,這也是大數據中“大”的體現,所以需要提高數據采集速度和精度要求。

1.2數據處理與集成

數據的處理與集成主要是對前一步采集到的大量數據進行適當的預處理,包括格式化、去噪以及進一步集成存儲。因為數據采集步驟采集到的數據各種各樣,其數據結構也并不統一,不利于之后的數據分析,而且,一些數據屬于無效數據,需要去除,否則會影響數據分析的精度和性,所以,需要將數據統一格式并且去除無效數據。通常會設計一些過濾器來完成這一任務。

1.3數據分析

在完成了數據的采集和處理后,需要對數據進行分析,因為在進行數據分析后才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成后的統一格式數據,需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析。現有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進行分析,數據分析服務與傳統數據分析的差別在于其面向的對象不是數據,而是數據服務。

1.4數據解釋

數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的用戶直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨著數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求,因此,數據分析企業會引入“數據可視化技術”作為數據解釋方式。通過可視化結果分析,可以形象地向用戶展示數據分析結果。

2云計算與大數據分析的關系

云計算是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數據分析是整個大數據處理流程里最核心的部分。數據分析是以數據的價值分析為目的的活動,而基于大數據的數據分析通常表現為對已獲取的海量數據的分析,其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看,云計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長的數據量需要性能更高的數據分析平臺承載。所以,云計算技術的不斷發展可以為大數據分析提供更為靈活、迅速的部署方案,使得大數據分析的結果更加。另一方面,云計算的出現為大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業也可以通過云計算來實現屬于自己的大數據分析產品。大數據技術本身也是云計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、數據庫、實時流數據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數據分析要走向云計算還要賴于數據通信帶寬的提高和云資源的建設,需要確保原始數據能遷移到云環境以及資源池可以隨需彈性擴展。

3基于云計算環境的Hadoop

為了給大數據處理分析提供一個性能更高、性更好的平臺,研究者基于MapReduce開發了一個基于云計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(HDFS)、分布式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態系統,已經成為當前流行的大數據處理平臺,并被廣泛認可和開發應用。基于Hadoop,用戶可編寫處理海量數據的分布式并行程序,并將其運行于由成百上千個節點組成的大規模計算機集群上。

4實例分析

本節以電信運營商為例,說明在云計算環境中基于Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑,智能終端快速增長,移動互聯網業務發展迅速,大數據分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數據分析樣本來自于某運營商的個人語音和數據業務清單,通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數據中所蘊含的價值要遠遠大于本文體現的。以上舉例意在說明基于云計算的大數據分析可以在數據分析上體現出良好的性能,為企業帶來更豐富更有效率的信息提取、分類,并從中獲益。

5結束語

基于云計算的大數據分析已經成為解決大數據問題的主要手段,云計算環境中的大數據分析平臺部署需要綜合考慮硬件、網絡、軟件等各方面的集成,使大數據的海量信息積累體現價值,顯示云計算的性能優勢,而沒有云計算技術的支撐也不能進行高效和的大數據處理分析。本文通過一個例子來分析了基于云計算的大數據分析給企業帶來的價值,由此可見,大數據需要云計算技術的深入挖掘,同時也促進了云計算技術的不斷發展。

作者:陳清金 張巖 陳存香 單位:聯通云數據有限公司 中國聯合網絡通信集團有限公司

數據分析論文:蚊蟲基因組數據分析論文

1蚊蟲的基因組學研究

蚊蟲基因組序列的揭示為其基因的克隆鑒定和功能分析提供了很好的平臺。由于蚊基因組中高度重復序列的廣泛存在,給一些基因特別是非編碼序列的分子克隆帶來了困難,而基因組序列的提供給這一問題的解決帶來了福音。利用已獲得的白紋伊蚊基因組序列,我們已順利克隆了其嗅覺結合蛋白(OBP)和嗅覺受體(OR)基因及其調控序列,為其嗅覺發生分子機制的闡明奠定了基礎。Criscione等通過比較斯氏按蚊雌蚊和雄蚊的基因組DNA和RNA樣本的Illumina測序結果,發現了一個Y染色體特有的基因GUY1。Hall等則發明了一種更為有效的染色體熵法,該方法的優勢是僅利用高通量測序獲得的基因組和轉錄組數據,而不需要一個固定在染色體上的參考基因組來進行比對。通過比對兩種瘧疾重要傳播媒介斯氏按蚊和岡比亞按蚊的高通量基因組和轉錄組數據,系統性地在斯氏按蚊和岡比亞按蚊中各發現了3個Y基因。同時通過對鑒定的Y基因進行生物進化分析,結果表明按蚊的Y染色體進化迅速。隨后,Hall等又使用染色體熵的方法比對了雄性和雌性埃及伊蚊基因組DNA和RNA的Illumina測序數據,篩選并鑒定了一個新的基因myo-sex。myo-sex基因幾乎只存在于雄蚊的基因組,但是由于基因重組偶爾地能在雌蚊的基因組中發現,具有雄性偏好性,是一個可能具有性別拮抗效應的肌球蛋白重鏈基因。蚊蟲基因組數據也為蚊蟲性別決定網絡底部基因dsx的研究提供了依據。dsx是性別決定網絡中的調控核心,主要行使決定體細胞和生殖細胞性別的功能,也可調控中樞神經相關基因fruitless,進而調節性行為。岡比亞按蚊基因組數據之后,Scali等率先鑒定了岡比亞按蚊dsx的性別特異性轉錄本,其橫跨2號染色體85kb的區域,通過選擇性拼接產生多個外顯子組成的雌性和雄性特異性轉錄本。而隨著2014年斯氏按蚊基因組的,有研究者將Scali等報導的Angdsx與剛的斯氏按蚊基因組和轉錄組進行序列比對,發現一致性達到了97%,而與岡比亞按蚊基因組及轉錄組序列一致性僅為85%。Scali等在埃及伊蚊中發現了兩種雌性特異性的可變剪接方式,這不同于黑腹果蠅和岡比亞按蚊具有的特異性DsxF。

2蚊蟲的轉錄組學研究

轉錄組學(transcriptomics)是一個活細胞所能轉錄出來的所有RNA的總和,是研究細胞表型和功能的一個重要手段。傳統上用于轉錄組數據獲得和分析的方法主要有基于雜交技術的芯片技術包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即轉錄組測序技術。基于Illumina高通量測序平臺的轉錄組測序技術能夠在單核苷酸水平對任意物種的整體轉錄活動進行檢測,在分析轉錄本的結構和表達水平的同時,還能發現未知轉錄本和稀有轉錄本,地識別可變剪切位點以及cSNP(編碼序列單核苷酸多態性),提供最的轉錄組信息。相對于傳統的芯片雜交平臺,轉錄組測序無需預先針對已知序列設計探針,即可對任意物種的整體轉錄活動進行檢測,提供更的數字化信號,更高的檢測通量以及更廣泛的檢測范圍,是目前深入研究轉錄組復雜性的強大工具。巨蚊屬是蚊科中三種不吸血的蚊屬之一,其幼蟲階段以同在小型水體中孳生的白紋伊蚊和埃及伊蚊為食,兩性成蚊均不吸血,以植物汁液和花蜜為食。為了探究巨蚊與其它吸血蚊種在搜尋宿主方面的基因水平上有何差異,國外有學者從巨蚊上分離出觸須、觸角和身體其他部分,分別提取這三部分的RNA,利用RNA-seq技術,將獲得的序列片段從頭組裝,與目前已公布的致倦庫蚊、岡比亞按蚊、埃及伊蚊基因組數據進行系統進化樹分析,發現巨蚊與埃及伊蚊的種屬關系最近,并且在上述四種蚊種中均發現了編碼氣味分子受體(odorantreceptor,OR)蛋白和離子轉移受體(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受體蛋白的表達量與豐度上較其它蚊種都有所降低[18]。因為這些受體蛋白被認為與吸血昆蟲搜尋宿主氣味分子如CO2有關,所以,巨蚊在長期的生物進化過程中,喪失了原本存在的吸血習性。蚊唾液腺蛋白與其吸血傳病密切相關。國外有學者提取白紋伊蚊雌性成蚊的唾液腺RNA后進行轉錄組和蛋白質組分析,發現至少有32個基因在雌性成蚊的唾液腺中表達程度或者增高或者降低,另外有17個基因表達在雌性成蚊唾液腺和雄性成蚊中,但不表達在雌性成蚊的其他組織中。通過分析發現,其中大約三分之一的基因功能表現在吸血、消化糖、免疫應答等方面,但是并未發現其余基因的明確功能,所以非常有可能是長期吸血的過程中進化出的新的功能分子。利用同樣的方法,分析岡比亞按蚊、斯氏按蚊、達氏按蚊、埃及伊蚊、白紋伊蚊、致倦庫蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相關的轉錄組,可以將這些蛋白歸納為:

(1)昆蟲唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;

(2)在吸血的長角亞目昆蟲(包括白蛉、蚋、蠓等)中豐富表達的D7蛋白;

(3)僅在蚊唾液腺中存在的蛋白,包括30000左右的過敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆蟲都被發現具有一種獨特的生物學現象——滯育(diapause)。昆蟲的滯育現象被認為是一種休眠的形式,在昆蟲發育時遇到不適宜的環境時,就會馬上由體內激素調節并控制,暫時停止發育。白紋伊蚊被發現同樣具有滯育現象,這是它能適應環境氣候變化,實現快速擴張入侵的生物學基礎之一。白紋伊蚊的雌性成蚊在每日受到較短時間的光照后,產下的卵不會立即孵化,這便是一種滯育的現象。有趣的是,同是伊蚊屬的埃及伊蚊,其雌性成蚊產的卵如果沒有接觸到水,也不會孵化、發育,這卻被認為是一種靜息狀態(quiescence)。這兩種現象的區別在于,發生滯育后,白紋伊蚊的卵即使收到合適的外界環境的刺激,仍需要經過一段時間的恢復才會孵化,而處于靜息狀態的埃及伊蚊的卵,只要受到適宜條件的刺激(如接觸到水),就會馬上進入發育階段。國外有學者利用RNA-seq技術,對這兩種現象進行分析,發現這兩種現象在發育停止的階段,分子水平上是很相近的,不同之處在于滯育現象的早期準備階段和后期修復階段,是其所獨有的。關于滯育現象的早期準備階段,國外學者通過RNA-seq技術,比較滯育前階段(pre-diapause)的白紋伊蚊胚胎與同時期非滯育的白紋伊蚊胚胎基因表達水平上的差異,發現前者在基因表達模式上有非常大的改變。目前,已有學者歸納和總結出了一套利用RNA-seq技術研究白紋伊蚊滯育現象的方法,為今后更、徹底地認識白紋伊蚊以及其他媒介昆蟲的滯育現象提供了堅實的基礎。利用RNA-seq技術,我們對白紋伊蚊不同發育時期(卵、幼蟲、蛹、雄蚊、雌蚊)和感染登革病毒前后的轉錄組進行了分析。對比分析不同發育階段特別是雌雄蚊的基因表達譜,我們找到了在胚胎早期對性別分化具有重要作用的候選基因和對雌蚊吸血傳病相關的性別偏愛基因。對比分析登革病毒感染與否的白紋伊蚊轉錄組,我們發現了可能與蚊媒與病原相互作用有關的免疫分子(未發表結果)。目前,針對這些候選基因的進一步功能分析正在進行之中。另外,對白紋伊蚊抗藥品系和敏感品系的RNA-seq對比分析也在進行中,這對于其抗藥機制的闡明非常重要。

3蚊蟲的小RNA組學研究

小RNA(smallRNAs)主要指長度在18~30nt的一類非編碼RNA(ncRNAs),在真核生物中,具有基因表達調控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、內源小干擾RNA(endo-siRNAs)和piwi干擾RNA(piRNAs)。piRNA長度集中在26-31nt,目前只在動物的生殖系細胞及干細胞中被發現,其主要功能是參與轉座子的沉默。miRNAs和endo-siRNAs長度主要集中在20~24nt。miRNAs在動植物和微生物中都普遍存在,據估計一個物種中約1/3的基因會受到miRNA的調控,大量的實驗也表明miRNAs參與了諸多生命過程的調控,例如細胞周期、細胞分化、組織器官的發生、營養代謝、信號途徑以及對外界生物的非生物的環境的反應;同時,miRNAs在生產實踐與臨床治療上也具有很大的應用前景。以往用于尋找miRNAs等小RNA的方法有實驗克隆法、計算機預測法。克隆法可以直接用于鑒定新小RNA,是初期發掘小RNA的常用方法,不足之處是實驗周期較長,對低表達的小RNA的發現能力十分有限。計算機預測法多是針對某一已知的小RNA特征設計算法,從全基因組或EST數據庫中快速發掘大量潛在的小RNA,一定程度上彌補了克隆法的缺點,然而,預測的小RNA最終還需要實驗證明,同時計算機預測法對新類型小RNA的發掘能力十分有限。隨著第二代高通量測序技術的問世,小RNA高通量測序(smallRNA-Seq)技術開始逐漸取代原始的小RNA發掘法方法,該法具有速度快、成本低、覆蓋度深等多方面的優點,對鑒定與發現生命體內的小分子RNA及其功能與機理研究起極大的推動作用。全世界有超過3000種蚊蟲,目前為止僅有岡比亞按蚊、斯氏按蚊、埃及伊蚊、致倦庫蚊以及白紋伊蚊鑒定出miRNA。一些miRNA的文庫和功能分析表明miRNA對蚊蟲的卵巢發育和吸血后的血液消化具有調節作用。病毒感染可以對宿主細胞miRNA的表達水平產生深遠影響,可能與宿主抗病毒機制及病毒入侵后改變細胞內環境有關,雌蚊中miRNA的表達模式會隨著病原體的感染而發生變化。Hussain等對登革病毒(DENV)編碼的miRNA或病毒小RNA(vsRNAs)的進行了功能研究,他們發現6個vsRNAs能通過作用于病毒基因組RNA莖環結構中的5''''和3''''的UTR區,顯著增加病毒復制。中腸屏障是蚊蟲防止病原體入侵而建立的重要屏障,Alexander等的研究發現miR-1174僅在伊蚊和按蚊的中腸中表達,且雌蚊吸血后其表達量明顯上調;而當miR-1174表達下調后,蚊子吸血率明顯降低,壽命明顯縮短。作者認為:蚊特異性miRNAs,特別是miR-1174具有重要的生物學意義,它們可能影響人們今后控制蚊蟲的策略。我們對白紋伊蚊不同發育時期(卵、幼蟲、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA進行了深度測序分析。結果在白紋伊蚊中篩選出119條已知的miRNA基因,確定了15條novelmiRNA基因,其中11條是伊蚊特異的,并且觀察到許多miRNA呈現期特異表達的特點。經過實驗驗證,miR-286、miR-2492和miR-1891分別在白紋伊蚊的卵、幼蟲和成蟲期特異高效表達,敲低/敲除這些miRNA會對蚊蟲的生長發育造成顯著影響。這些研究為新型生物殺蟲劑的研發提供了靶標。我們還對感染登革病毒前后白紋伊蚊的細胞和成蟲的小RNA進行了深度測序分析。結果在感染登革病毒的白紋伊蚊中找到了10條表達上調的miRNA和11條表達下調的miRNA。通過對這些差顯表達miRNA的功能分析,發現miR-252通過與E蛋白3''''-UTR區域的結合,對登革病毒的復制起到抑制作用;而miR-281則通過與E蛋白5''''-UTR區域的結合,對登革病毒的復制具有促進作用。這些研究為抗登革病毒藥物的設計和研發提供了線索。piRNA來源于轉座元件、基因間隔區和一些編碼蛋白質基因的3''''UTRs,對維持基因的完整性和穩定性有一定作用,但最近的研究證明它在抗病毒免疫中也有較大作用。Schnettler等的研究證明:對蚊蟲細胞感染蟲媒病毒可以引發piRNA路徑,而敲除piRNA蛋白質會使病毒產生增多。Castellano等確定了多個24-30nt的Piwi相互作用RNAs基因組簇,通過比對到轉座元件和蛋白質編碼基因的3''''UTRs,發現許多TEs和一些內源性基因的3''''UTR產生大量具有piRNA樣特征的29-nt小RNAs峰。此外,來自岡比亞按蚊和黑腹果蠅TEs的正義和反義piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亞理工大學的研究人員最近在庫蚊中發現了一種新型的抗病毒途徑,Morazzani等在無dicer-2和無突變的蚊細胞中進行的實驗表明,病毒產生的piRNA樣小RNA可以在病毒產生siRNA的過程中調節病毒感染的發生。同時也表明新的piRNA途徑存在于蚊媒的體細胞中并且可能發揮著比siRNA途徑更寬泛的的抗病毒作用,顯示出其為強大的免疫系統。因此,理解病毒如何繞開蚊蟲的雙重抗病毒反應對于科學家來說是越來越有趣的挑戰。

4結語

隨著新型測序技術和生物信息學分析技術的不斷發展,生物醫學研究也迎來了大數據分析時代。近年蚊蟲組學的快速發展,給其媒介生物學、入侵擴散的機制研究等提供了廣闊的、深遠的大數據分析平臺,也必將為蚊蟲的媒介控制和傳播疾病的防制帶來更多的機遇和指引。

作者:吳恙謝李華劉培文李小聰閆桂云陳曉光單位:南方醫科大學公共衛生與熱帶醫學學院病原生物學系

數據分析論文:多維數據分析下電力營銷論文

1電力營銷現狀

1.1壟斷

世界多數大國在近一百多年來在供電上采取的模式是集發電、輸電、配電為一身的壟斷模式。國家在電力供應上大多數或全部由國家壟斷經營,廣大電力用戶就是消費者。這種壟斷經營在短時間內使電力工業聚集了大量的資金,電力工業持續發展,同時避免了重復設施的出現,為電網的統一規劃和建設提供了有力的支持。

1.2發電競爭

發電競爭模式,競爭主要體現在發電環節,輸電和配電仍然采取壟斷經營。在電力經營過程中對電力市場進行開放,引入發電企業,在市場中由壟斷企業對發電企業生產的電力進行買斷,然后由壟斷企業統一賣給電力用戶,這種供電模式的引入加大了市場中電力的供給量。

1.3電力轉運

電力運轉模式就是合理的將發電、輸電、配電三個過程進行分離,每個發電廠都獨立成為一個企業,各個發電廠之間采取公平競爭。市場中的用電大戶,可以低價從電力企業直接購買電力,利用統一電網實現電力運轉。在電力運轉模式中,部分競爭市場、壟斷經營市場和競爭市場同時存在。

1.4配電網開放

配電網開放模式的主要特點是:發電、輸電、配電三個環節適當分離,三個環節都各自成為獨立的經營體系,三者之間存在電力買賣關系。這種經營模式將發電、輸電、配電三者打破了傳統的電力運營管理模式,電力市場形成了多種商家相互競爭的形式,這不僅增加了發電企業之間的相互競爭,客戶可以通過自己的需求來選取適當的發電商,而且電力消費者和生產者之間形成了一種真正的買賣格局,從而為電力顯示商品特性提供了便利條件。

2企業多維數據分析具有的特點

2.1多維性

多維數據分析的一個最重要特點就是多維性。多維性不僅體現了人們在觀察世界時的多角度,同時也體現了多層次觀察。例如,在銷售量數據的查看上可以從時間維入手,同時還可以從年、季、月等時間層次上進行查看。對數據進行分層查看,不僅符合事物的客觀運行規律,而且也能讓用戶地掌握數據情況。

2.2實時性

實時性不僅滿足了用戶在時間上對信息的需求,而且可以快速查找多維數據的分析結果,同時實現了實時的接受用戶所反饋的數據。

2.3開放性

多維數據分析支持多數據源和系統平臺。因此,在實際工作中,不論數據存儲量有多大,存儲在何處,采取何種方式對數據進行存儲,都可以及時獲取到存儲的數據,并且可以以多種方式將分析結果提供給不通過平臺上的客戶使用。

2.4可分析性

可以從不同的角度對數據的較大值、平均值、最小值、匯總進行記錄和處理,將龐大的有用數據提供給客戶,此外還具有數據分析和數據查詢等能力。

2.5安全性

確保信息的安全,避免受到欺詐,對用戶進行分級管理,數據分析過程中,對于數據分析結果只能提供給相應的用戶。如果在實際工作中,存在多個用戶共同應用同一個分析時,應當對客戶的級別進行合理劃分,依據客戶所處的安全級別,允許客戶查看對應層次的信息。

3電力營銷多維數據分析過程

(1)依據決策者和企業業務在信息上的需求,對多維數據分析主題進行確定,在進行多位數據分析時,依據面向主題分析獲取信息,從而實現為決策者提供信息的目的。

(2)收集數據,目前供電企業信息系統收集了電量的業務數據,這些數據都存儲在各個供電企業的信息系統中,為了使其能夠更好的為企業所用,應當建立數據庫服務器,采集供電企業中數據。多維數據分析在電力決策的實際應用中,數據采集工作需要依據多維數據分析主體進行,要對數據庫系統進行確認,并且在構建面向分析時選擇數據庫,從數據庫系統中抽取、轉換企業需要的數據。數據倉庫是集成的、面向主題的且在實際運行過程中容易因為時間變化而發生改變的一個數據集合。數據倉庫是企業為數據分析工作而設計的,利用數據倉庫可以為多維數據分析提供更加穩定且具有針對性的數據,目前許多電氣企業都構建了數據服務器。

(3)多維數據模型的建立,多維數據分析需要以多維數據模型為基礎,從哪些角度對多維數據模型進行觀察,對哪些數據進行分析,可以通過多維數據分析決定哪些數據需要仔細分析歷史數據結構來獲得,從獲取的數據中找到有用的數據構建成適當的度量、維度從而構成高效的多維數據模型。

(4)設計人員依據現有的多維數據模型,選取適當的度量和維度,結合報表利用適當的統計方法,通過圖表直觀地展現企業的大量了歷史數據。

(5)信息,通過靈活的方式將電力企業想要的相關信息直接提供給決策者。

4分析電力影響數據主題

在電力營銷決策中,每一個主體都對應一個具體的分析,表示一種營銷決策者在工作中需要掌握的信息。本文在研究上將分析主體分為用戶情況、購電情況、電價情況、電費回收、設備資產情況等,并對較大的主體進行了進一步劃分,針對電力營銷的數據分析,應當從宏觀到微觀,從多個角度對電氣企業的數據進行科學分析,為電力企業的各級領導者提供決策信息。因此,在分析上還需要確定分析層次和分析角度。

5結論

綜上所述,近年來電力營銷工作得到了一定的發展,但在管理過程中,同一營銷管理因為時間、地點上的差異,管理者通過不同的角度觀看信息,信息的呈現方式都會所差別。同時因為多維數據的存儲、分析不斷的發展,多維數據分析在電力營銷決策中的應用是一個漫長的過程,因此需要依據需求的變化進行不斷地改進和完善。

作者:劉曉華柏青單位:國家電網新疆電力公司

數據分析論文:固網漏話用戶數據分析論文

1數據挖掘和知識獲取

數據挖掘是在數據庫中進行知識發現的重要方法,是從大量的表面數據中提取隱藏在其中的知識的過程。近年來,該技術發展迅速,已應用到各個領域。本文主要介紹固話漏話用戶數據挖掘和分析。

2數據挖掘技術應用于電信用戶數據研究

2.1固網用戶數據的組成和結構

對于企業來說,大量的用戶數據不僅有利于客戶關系管理(CRM),同時也是獲得用戶知識的源泉。從用戶知識發現的過程中可以看到,用戶數據的質量會對知識發現的結果產生直接的影響,所以用戶數據準備也是一項很重要的步驟。從商業系統中提取出高質量的用戶數據就成為一項最主要的工作。固網企業的用戶數據包括用戶基本信息、用戶賬單信息以及客服信息。數據倉庫就是根據這種方式來組織的。

2.2知識發現的方法和過程

用戶知識發現概括如下:根據提出的商業目標,分析大量的用戶數據,找出隱藏的和未知的規律或者豐富已知的規律,進而提出模型;要將數據挖掘和分析的結果轉化成有商業意義的方法,然后采取進一步的行動。用戶知識發現必須遵循以下幾個步驟:商業理解,數據理解,數據準備,分類模型,評估應用。

2.3數據挖掘建立用戶分類模型

近年來,“以客戶為中心”的電信市場開始強調為不同用戶提供個性化服務,其前提條件就是用戶分類。這也說明了過去的消費行為也預示了未來的消費傾向。

(1)商業理解

對用戶的理解不僅是理解電信市場的開始,也是理解客戶關系管理的開始。在電信企業中對用戶的理解包括:用戶種類,不同類中用戶的本質屬性區別,用戶偏好,不同類別之間的用戶如何通信等。

(2)用戶數據準備

對用戶分類的研究主要是從用戶屬性中得到用戶特征和行為習慣。主要數據來源于用戶賬單信息,同時也需要從商業系統中得到一些用戶的基本屬性信息。

(3)用戶分類模型

本文使用聚類分析對用戶進行細分以建立分類模型。聚類分析是把大量數據點的集合根據較大化類內相似性、最小化類間相似性的原則進行聚類或分組,使得每個類中的數據之間較大限度地相似、而不同類中的數據之間較大限度地不同。

3固網漏話用戶數據分析

3.1關于固網漏話用戶數據分析的商業理解

通過各種渠道調查,對固網漏話用戶數據分析的目標可以概括為以下幾點:

(1)對用戶通話次數、時間段等分析,找出特征,以此來尋找目標用戶;

(2)對用戶開通漏話保護業務前后的ARPU值分析比較,分析收益的對比;

(3)對目標用戶數據分析,從用戶分類的角度來管理,設計針對性的服務,提升用戶滿意度。

3.2系統用戶數據準備

數據準備的過程:明確目標;制定計劃;分析變量的獲取;數據收集和獲取;數據集成。根據當前客戶關系管理基本狀況和數據挖掘的目的,涉及到的人口屬性變量有:性別、年齡、住址、用戶職業、婚否、學歷、薪資等。用戶分類結束之后,再使用描述變量來進行分析說明。本文選用某市電信公司運營支持系統和經營分析系統的數據,從中選取了基本客戶基本信息表、客戶詳細話表、賬單及繳費信息表、產品信息表、業務使用清單等原始數據。數據挖掘工具選擇SPSSClementine。在使用該工具進行挖掘之前,需要對數據進行清洗:

(1)刪掉不滿足要求的數據:選擇普通的用戶;選擇狀態正常的用戶;選擇入網時間較長的用戶,使數據有完整的用戶周期;

(2)去掉異常數據:比如用于測試的號碼;

(3)去掉極端值:不具備普遍性的極值容易產生噪聲。

3.3固網漏話用戶數據分析結果

考慮到不同分類建立的有效性和簡便性,以及固話用戶和數據源的特點,本文采用常見的K-means算法,其高性、高精準性以及低復雜度使其成為主流的聚類算法。本文選用SPSSClementine作為數據挖掘工具進行K-means聚類分析。獲取原始數據并進行預處理之后,選擇參與聚類的細分變量,輸入簇的個數k,選擇k=7,然后點擊“聚類”按鈕,使用K-means算法對固網漏話用戶數據進行聚類。經過正常值選擇、極值處理等一系列的數據清洗工作,用于研究的記錄有251284條。

3.4分析結果和解釋

93%的遇忙話務都出現在8∶00~18∶00的工作時段,這說明該時段遇忙話務較多,話務量流失嚴重,特別需要遇忙話務的解決方法。而這一時間段遇忙話務量最多的就是政企用戶,這些話務量流失對政企用戶將造成巨大的損失:30000政企用戶一個月遇忙話務損失達到260萬次,本網超過120萬次,每個月預計損失20萬;以電信中等發達省份為例:符合條件的政企高端用戶約為60萬;每年度損失的潛在業務收入為50000萬。經過分析,得到該市各地區已開通和未開通漏話保護業務的用戶分布,如圖4所示。C區屬于政務新區,未開通漏話業務的用戶較多,而F區屬于工業園區,企業較多,很多用戶已開通漏話保護業務,但是還有大量用戶未開通該業務,所以C區和F區應該作為該業務的重點推廣地區。綜上分析,固網漏話業務是一個非常有潛力的業務,解決漏話問題是提高用戶滿意度和忠誠度的重要途徑。根據上文的分析,在8∶00~18∶00時間段,用戶遇忙話務量非常多,在這段時間內,企業需要更多的漏話接入服務器,而在其他時間段可以減少接入服務器以節約成本。而在不同的地區,用戶數量和精準用戶的數量也不同,應該選擇精準用戶較為集中的地區優先推廣漏話保護業務。由于精準高端用戶帶來的收益遠遠超過普通用戶,所以要對經過篩選的精準用戶采取針對性措施,比如在C區和F區大力宣傳,以各種形式讓精準客戶看到該業務帶來的收益,還可以電話推廣為精準用戶提供信息。

4結論

本文將聚類挖掘方法應用到固網漏話用戶數據分析中,采用SPSSClementine工具進行數據挖掘。漏話保護系統主要針對政企高端用戶提出,主要目的是為了提高通話接通率,以提高政企用戶的效益,達到用戶和運營商的共贏。而對用戶數據的分析,是為了運營商可以更好地服務于政企客戶,為企業帶來更多的利益,從根本上改善固網漏話問題。

作者:孫駿單位:南京郵電大學

數據分析論文:多層次數據分析論文

1海量數據處理流程

1.1數據采集

數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據,這是一切數據分析的基礎。數據的采集需要解決分布式高速高數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型,開發數據質量技術。而數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。

1.2數據預處理

數據采集的過程本身就有會有很多數據庫,但如果想達到有效分析海量數據的目的,就必將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。

①抽取:因為我們通過各種途徑獲取的數據可能存在多種結構和類型,而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。

②清洗:對于海量數據而言,數據所處的價值層次不一樣,就必然存在由于價值低而導致開發成本偏大的數據,還有與數據分析毫無關系的數據,而另一些數據則是錯誤的干擾項,所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。

1.3數據的存儲與管理

當我們采集數據完成后,就需要將其存儲起來統一管理,主要途徑就是建立相應的數據庫,進行統一管理和調用。在此基礎上,需要解決大數據的可存儲、可表示、可處理、性及有效傳輸等幾個關鍵問題。還需開發的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術;以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。

1.4數據的統計分析

一般情況下,統計與分析主要就是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。

1.5數據分析與挖掘

所謂數據挖掘是指從數據庫中的大量不的、有噪聲的、模糊的、隨機的實際應用數據中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是,數據挖掘一般不會有預先設計好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。

2數據分析的8個層次

2.1標準化報告(StandardReports)

標準化報告作為數據分析的及時個層次,要求相對較低,主要是借助相應的統計工具對數據進行歸納總結,得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。

2.2即席查詢(AdHocReports)

用戶可以通過自己的需求,靈活地選擇查詢條件,系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢較大的不同是普通的應用查詢是定制開發的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統計結果,不僅一目了然,而且沒有任何操作難度。

2.3多維分析(QueryDrilldown)

多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數據,使分析者、決策者能從多個角度多個側面觀察數據,從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數據(切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。

2.4儀表盤與模擬分析(Alerts)

儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件(如滑動塊、可調旋鈕、選擇框等),來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時,圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動,而這種運動正好反映了該參數的變化對模型行為的影響,如果這種變動引起了模型中解或其他關鍵數字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。

2.5統計分析(StatisticallyAnalysis)

我們知道概率論是數理統計的基礎,數理統計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:

①描述統計:主要是集中趨勢、離散程度、分布形狀等,統計圖(方圖、箱線圖、散點圖等);

②數據的分類匯總;

③基礎統計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統計分析方法。

2.6預測(Forecasting)

在統計分析和數據挖掘領域,對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式,然后以這些模式為支點,就可以對未來進行預測。

2.7預測模型(PredictiveModeling)

隨著數據分析學家對數據挖掘技術的不斷探索,出現了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統一化的模型,只存在有選擇性的模型。下面介紹幾種典型的預測模型。

①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數項(截距項),b1稱作回歸系數。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數,又稱偏回歸系數。

②貝葉斯網絡:貝葉斯網絡是基于概率推理的數學模型,而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合,有向無環圖中的每一個節點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環圖中的節點,存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。

③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和的方法,在經濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。

2.8化

(Optimization)因為優化問題往往可以帶來巨額的收益,通過一系列可行的優化,可以使收益得到顯著提高。所謂化就是從有限或者無限種可行的方案中選取的方案。如果可以通過簡單的評判,就可以確定方案那是好的。但是事實不會那么簡單,所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為:

①線性規劃:當目標函數與約束函數都是線性函數時,就是一個線性規劃問題。而當同時滿足約束函數和目標函數時,則可以認為是解。

②整數規劃:要求決策變量取整數值的數學規劃。

③多目標規劃:指衡量一個決策優劣的標準不止一個,也就是有多目標函數。

④動態規劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局解。

3用Excel實現簡單的數據分析

①對于企業而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據,通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。

②其次,我們必須要做進一步的分析。已經對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業高層做決策提供有力的依據。對產品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業可以根據客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業較大銷量來自哪個地區,對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額,而對于銷量最小的地區考慮開辟新的市場。

統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小,以及各地區總銷售額大小。借助圖表描述,管理者可以對企業在某段期間內的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經常性大量購買的客戶必須要以惠的價格和好的服務讓其滿意,以形成一個穩定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。

4用R語言實現數據多層次分析

R語言是一種自由軟件編程語言與操作環境,是一套完整的數據處理、計算和制圖軟件系統,它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時,當我們遇到很大的原始數據,但用來建模的數據較小,則可以先在數據庫中進行整理,然后通過R與數據庫的接口提取數據,數據庫適合存放和整理比較規整的數據,和R中的數據框有良好的對應關系,這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。

5結語

多層次數據分析在管理上有十分重要的意義,因為它所產生的價值是建立在真實的數據層面,而對一個企業而言搜集數據模式的改進是管理過程的完善,對企業符合時代潮流和規范管理過程是至關重要的。多層次數據分析能夠及時糾正企業錯誤的決策,能夠對進度展開實時跟蹤,還能了解成本管制情況和人員思想動態等。對于個人而言,數據分析可以幫助我們更好地去生活,消費者可以通過分析結果去選擇物美價廉的商品。還可以用數學模型來分析電影的票房,來減少不必要的損失等。總之,大數據時代多層次數據分析的價值是無可估量的,它可以囊括我們能想到方方面面以及我們現在還想不到的一些領域。也許,在不久的將來數據分析技術會變成一個獨立的學科,而掌握數據分析技術是以后社會中人才必備的技能。

作者:祁鵬年單位:長沙理工大學經濟與管理學院

數據分析論文:氣象雷達數據分析論文

1.系統的設計

系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。

1.1反射率分析模塊

反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。

1.2速度分析模塊

多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。

1.3天線穩定性分析模塊

天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保障24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。

1.4雷達組網分析模塊

按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

2.結束語

本文從實際出發,提出一種包括多普勒雷達反射率數據分析、速度分析、天線穩定性分析和雷達組網分析為一體的集成化空管氣象雷達數據分析系統,該系統通過C#設計實現,能夠應用于空管一線技術保障,并為相關多普勒雷達系統數據分析提供一種參考。

作者:李志單位:中國民用航空汕頭空中交通管理站氣象臺

數據分析論文:變電站電流回路數據分析論文

1新投變電站概況

某一變電站是220kV新建負荷站,220kV和110kV電氣主接線均使用雙母線接線方式,通過2213,2214和-500kV變電站連接并接入系統,110kV系統和10kV系統尚無出線。站內有2臺三卷變壓器,接線型式為Y0/Y0/Δ-11,額定容量是180000/180000/90000kVA,電壓組合是220±8×1.25%/115110.5kV。

2相量檢查的意義

對新安裝或電流回路有過變動的保護裝置,在其投入運行前,必須用一次電流和工作電壓檢驗,也就是進行相量檢查。在檢驗保護裝置電流回路接線正確后,方可將保護投入運行,為電網的安全、穩定運行提供保障。

3相量數據采集和分析

3.1井目量數據分析

502所帶為10kV5母線,投入3組電容器,每組容量為7.5Mvar,總容量為22.5Mvar。因為所帶負荷為純電容元件,所以,有功P為0Mvar,無功Q為22.5Mvar。即得出視在功率S為22.5MVA。取10kV系統平均電壓為10.5kV,得出502的一次電流為1237A。已知502保護用TA變比是4000/1,可求得502TA保護繞組二次電流為0.309A。通過相量檢查,可知502各TA保護繞組電流為0.294A左右,計算值與測量值相差不大。因此,可以得出502各TA保護繞組變比使用正確。同理可推導出503各TA保護繞組變比使用正確。3.1.1.2502,503相位分析,10kV5母線通過502向2號主變輸送無功,10kV3母線通過503向3號主變輸送無功,并且已知有功為0,因此,對應相電壓超前一次電流90°,電流以母線側為極性,則二次對應相電壓超前二次電流90°。通過相量檢查所得電流相位與理論推導一致。3.1.22202,2203相量數據分析

3.2變比分析

502各TA保護繞組電流為0.294A左右,且已驗證502各TA保護繞組變比使用正確,因此,通過502的一次電流是1176A。由于102,103,145均在合位,所以,10kV5母線通過502向2號主變輸送等量無功,10kV3母線通過503向3號主變輸送等量無功。根據基爾霍夫定律可知,102,103,145沒有電流流過。因此,2號主變可視為只有高低壓側運行,即兩卷變運行。根據能量守恒定律,低壓側輸入功率等于高壓側輸出功率,取10kV系統的平均電壓為10.5kV,220kV系統的平均電壓為231kV,由此可得,2202一次電流I為(1.732×1176×10.5)/(1.732×231)=53.45A。已知2202的主變差動保護用TA變比是1250/1,則可求得2202主變差動保護二次電流是0.0428A。2202母線差動保護用TA變比是2500/1,則可求得2202母線差動保護二次電流是0.0214A。通過相量檢查可得2202TA保護繞組的電流分別為0.0413A和0.0205A,計算值與測量值相差不大,由此可得,2202各TA保護繞組變比使用正確。同理可推導出2203各TA保護繞組變比使用正確。

3.3相位分析

220kV5母線通過2202,2203接受無功,并且已知有功為0,因此,對應相電壓超前一次電流270°,電流以母線側為極性,則二次對應相電壓超前主變差動二次電流270°。因為母差用保護繞組為反極性,由此可得二次對應相電壓超前母差二次電流為90°。通過相量檢查所得的電流相位與理論推導一致。觀察可知,A相、B相、C相的電流幅值基本相等,相位互差120°,即A相電流超前B相120°,B相電流超前C相120°,C相電流超前A相120°。由此可得,2202,2203各TA保護繞組極性正確。

3.4相量數據分析

3.5母聯極性問題

該變電站220kV系統為雙母線,配置母線保護BP-2B和RCS-915AB.BP-2B母線保護各元件TA的極性端必須一致,裝置默認母聯TA的極性與2母線上的元件一致。RCS-915AB母線保護TA極性要求支路TA同名端在母線側,母聯TA同名端在母線1側,可將該變電站的母線1稱作4母線,母線2稱作5母線。因此,2245母聯BP-2B母線保護用TA同名端在5母線側,2245母聯RCS-915AB母線保護用TA同名端在4母線側。

3.6變比分析

2214是2202通過2245提供一次電流,因此,2245一次電流為51.625A。已知2245各TA保護繞組變比為2500/1,則可求得2245各TA繞組二次電流為0.0207A。通過相量檢查可得2245各TA保護繞組電流為0.0202A左右,計算值與測量值相差不大。由此可得,2245各TA保護繞組變比使用正確。

3.7相位分析

220kV4母線通過2245接受無功,且已知有功為0,因此,對應的相電壓超前一次電流270°,充電保護電流以4母線為極性,則二次對應相電壓超前充電保護二次電流270°。2245母聯BP-2B母線保護用TA同名端在5母線側,并且母差用保護繞組為反極性,則二次對應相電壓超前BP-2B母線保護二次電流270°。2245母聯RCS-915AB母線保護用TA同名端在4母線側,并且母差用保護繞組為反極性。由此可得,二次對應相電壓超前RCS-915AB母線保護二次電流90°。通過相量檢查可知,電流相位與理論推導相差不大。

3.8相量檢查結論

之前多通過表記得出一次電流的大小和送受關系,其實這是不的(TA表記繞組也需要相量檢查),應該通過負荷情況,用理論方法計算和推導出一次電流的大小和送受關系,以便核實相量檢查結果。相量檢查后的相量分析不但包括相位分析,還應包括變比分析,只有在變比和相位都正確的情況下,才能算作相量正確。

4結束語

電流回路數據的采集和分析對變電站的運行有非常重要的作用,所以,我們要足夠重視此問題。綜上所述,本文主要研究了變電站電流回路數據,并結合具體的工程實例系統地闡述了相關內容,以期為變電站的工作提供一定的幫助。

作者:盧志華單位:廣州南方電力集團科技發展有限公司

數據分析論文:電力營銷系統數據分析論文

1HANA數據分析平臺采用的核心技術

HANA數據分析平臺在軟件方面,通過內存技術,應用程序能直接處理電力企業數據庫中的各種數據,并直接在主內存中處理。主要技術包括行+列的存儲、壓縮、數據分區、增量數據更新等。平臺采用的軟件包括數據抽取工具、內存數據庫(含數據庫服務器、建模工具Studio、客戶端工具)、報表展現層BusinessObjectsBI組件。在硬件方面,通過預配置的軟硬件結合體,提供高性能的數據讀寫操作,并在內存數據庫里采用列式存儲從而將更多的數據存入(列式存儲方式更適合數據壓縮)。

2HANA數據分析平臺實施過程

數據分析平臺建設應遵循較大限度的考慮應用實用性、縮短實現周期、降低技術風險等因素。

2.1需求分析

需求分析是要對用戶的訴求或需求進行深入了解,并在需求的基礎上對整個平臺進行一致約定。因此以重要性、分析的復雜性、數據量大小、以及快速見效為原則,需求分析需要明確下面的內容。

1)選擇需要分析的主題,結合當前電力營銷業務在計量、業擴、抄表、電費核算、電費繳納、賬務等工作職能的劃分,也要考慮分析的主題具有針對性的業務場景,這些場景往往跨越多個職能。

2)分析并描述各個主題的業務背景,包括使用的用戶角色,使用的業務場景。以電費出賬異常為例:電費出賬異常主要是由于用戶檔案錯誤、抄表錯誤所引發的,涉及到業擴、抄表、電費核算等多個職能部門。以電費出賬異常作為分析的主題,其業務場景主要用于電費發行后,對引發電費異常的用戶檔案數據、計量信息、抄表信息進行檢查并按職能需求進行分別展示。

3)分析各個主題間的關系,在這個平臺上用戶的所有活動信息,如用戶請求的數量,用戶對這些數據的訪問頻率、時間、數據細節層次、請求多大的數據量等之間的關聯。

4)分析主題所涉及的表的目錄、表的內容、表的容量、每個表的平均行大小、表的記錄數、表的增長情況等。

2.2平臺規劃

HANA數據分析平臺應用架構一般采用四層:數據源層、數據抽取及復制層、HANA數據集市層以及報表展示層。

1)數據源層:作為平臺的分析對象,提供報表分析所需的數據,數據源層可同時支持各種類型的數據庫,數據源層為營銷系統(管理庫),生產庫到管理庫之間采用SharePlex復制工具實現數據同步,以避免數據抽取對生產系統的影響。

2)數據抽取和復制層:數據抽取和復制層負責將數據源層中源系統的數據抽取和復制到HANA分析數據庫中,主要構成是數據抽取和復制工具,可以分別采用實時同步服務(SLT)以及非實時同步的數據服務(DataService)兩種不同的復制工具來滿足不同特征的源數據要求。在確定采用哪種工具前,需要對每個數據源的大小、變更時間、變更頻繁度、增量大小等信息做詳細了解,對不同數據源表選擇合適的復制工具。

3)數據集市層:數據集市層是整體系統架構的核心,負責分析數據的儲存、報表模型的建立以及數據計算。該層包含分析數據庫以及虛擬模型架構兩個主要組成,所有需分析展示的數據在數據集市層通過集市層進行儲存、壓縮、建立邏輯模型并計算,通過該平臺特有的內存計算技術可以使這個過程的效率大幅提升。

4)報表展示層:報表展示層負責將HANA數據庫中的數據運算結果按照報表需求進行展示,采用SAPBusinessObjectBI4.0以及EXCEL作為展示工具。

2.3平臺實現

2.3.1模型設計

依據報表的需求分析、功能需求、性能需求、模型擴展性、模型的靈活性、實現成本進行平衡,在達到性能要求的前提下,設計出可以重用的模型,HANA平臺不同于傳統的數據倉庫需要物理化模型設計,HANA采用了邏輯視圖模型設計的概念,邏輯視圖從表面看體現的是傳統的星型、雪花型模型設計,但這些模型中的數據并不是物理存放的。HANA提供了屬性視圖、分析視圖、計算視圖三種模型設計,屬性視圖實現對維度的設計,分析視圖則實現傳統的星型模型設計,計算視圖實現更復雜的雪花型模型設計。模型設計時是先將需求階段所確定的分析主題作為分析對象,梳理每個主題展示所需的事實表數據內容和數據粒度、分析維度、分析的數據指標。例如:一個以分析電費構成為主題的業務場景,該主題分析當期電費的構成情況,并同期比較各個電費構成的變動情況,那它的指標可以為目錄電度電費、峰谷品跌、豐枯品跌、基本電費、力調費、代征費、電度電費、結算電費等指標。分析的維度可包含:時間維度、用戶維度、組織維度、用電服務維度、抄表維度、計收維度等。并在此時完成對事實表和維度表的邏輯數據模型設計。

2.3.2表樣及功能設計

報表的樣式和功能應當考慮用戶對數據進行分析的使用習慣,借鑒數據倉庫中的多維數據可視化方法,通過對報表的上鉆、下鉆、切片等展示功能技術的利用,實現對匯總性數據、明細類數據、核心數據的快速查看和分析。以上述的分析電費構成主題為例,其展示需求決定表樣的設計采用圖型混合表格的方式,功能上采用按照組織維度進行上鉆、下鉆功能可查看不同供電區域的電費構成情況和各個指標的排名情況,前端展示采用了BOWebintelligence嵌入DashBoard圖表設計實現。

2.3.3數據抽取及復制設計

為確保數據質量,應當進行數據抽取和復制的規劃設計。首先,根據模型設計中指標、維度信息分別列舉出其相應的數據來源,即營銷系統的物理表和字段,指標來源于營銷系統的交易數據,而維度來源于營銷系統的主數據。其次,根據邏輯數據模型和數據來源確定營銷數據庫到HANA數據庫的ETL規劃,根據數據的質量規則(包括:數據清除、空值處理、數據替換、規范化數據格式等),確認營銷系統源數據到HANA目標數據庫數據的轉換規則,同時依據數據大小、數據變更時間、數據變更頻繁度、數據增量大小要求確定采用的實時工具SLT還是定時抽數工具BODataService,例如:收費賬務相關的交易數據存在記錄基數大、變更頻率很高等特征,采用實時復制增量數據更合適,而賬務的月結數據僅在每月初產生且數據量非常巨大,因此采用定時批量復制更合適。

2.3.4模型及報表開發

模型及報表開發共分為數據裝載、HANA建模、定義語義層(IDT)、報表開發、數據校驗五個步驟,這五個步驟相互交疊與重復,直至到達化設計。其中數據裝載的方式利用了SLT的實時同步技術,SLT同步技術其核心是基于數據庫的觸發器模式實現對源數據的增量復制,較大限度的避免了對源系統表結構的改變,同時采用的多任務復制機制使得實時復制的效率可保持在5~10秒內的數據延遲,裝載后的HANA數據的大小比較源數據庫數據大小可壓縮30%~70%的容量。

3發展前景

不斷的完善HANA數據分析平臺的分析主題,不僅是基于電力營銷系統,還可以基于用電采集系統等構建起電力企業的大數據分析平臺。利用HANA內置的PAL(預測分析庫)對海量電量數據、客戶服務數據實現數據高級分析,建立其有效的事前預測、事中控制、事后改善的企業快速輔助決策模式。營銷業務可以在客戶服務中對受理業務的情況信息、執行過程、執行結果進行深入分析、對客戶需求進行快速響應,改進服務質量、提升電網服務建設。更可以利用海量電能量數據對偷竊電稽核、客戶用電行為、能效管理等進行過分析和應用,助力營銷輔助決策與分析能力的快速提升。

4結論

基于電力營銷系統中業務數據所建立的HANA數據分析平臺,從分析效率來看均有實質性的提高。經實踐證明,與營銷系統報表在同等條件下對比,其分析效率可提高百倍以上。在大宗數據的分析上,HANA平臺更是體現了其快速見效、性能優異、分析功能操作簡潔和靈活、快速適應業務變化的能力。

作者:劉宏剛吳丹單位:重慶市電力公司信息通信分公司重慶智網科技有限公司

數據分析論文:中醫學科評估數據分析論文

1評估指導思想和中醫學科參評高校情況分析

評估按照“提高質量、優化結構、鼓勵特色、協同創新”的思路,強調質量,淡化規模,建立了新的評估指標和體系。全國中醫學科共有21個學位授予單位自愿申請參評,共有博士授權學科14個,碩士授權學科7個。其中,博士一級12個(北京中醫藥大學,天津中醫藥大學,遼寧中醫藥大學,黑龍江中醫藥大學,上海中醫藥大學,南京中醫藥大學,浙江中醫藥大學,山東中醫藥大學,湖北中醫藥大學,湖南中醫藥大學,廣州中醫藥大學,成都中醫藥大學),博士二級1個(青海大學),碩士一級6個(河南中醫學院,湖北民族學院,重慶醫科大學,西藏藏醫學院,陜西中醫學院,甘肅中醫學院),碩士二級1個(中央民族大學)。全國中醫國家重點學科有11個,“國家重點學科”參評率為。全國有中醫博士一級學科的大學是14個,其中12個參評,2個未參評(福建中醫藥大學、長春中醫藥大學),“博士一級學科”參評率為85.7%。

2評估指標分析

2.1一級指標分析

在本輪學科評估指標體系中,一級指標共有4個,分別是“師資隊伍與資源”“科學研究水平”“人才培養質量”和“學科聲譽”。“學科整體水平”得分由這4項一級指標得分按指標權重計算得出。高于“學科整體水平”的一級指標為“學科聲譽”和“師資隊伍與資源”,低于“學科整體水平”的一級指標有“科學研究水平”和“人才培養質量”,說明我校中醫學科“學科聲譽”和“師資隊伍與資源”實力較強,是我校長期積淀的結果,“科學研究水平”和“人才培養質量”相對較弱,表明我校在這2個方面仍有很大的進步空間。

2.2二級指標分析

(1)師資隊伍與資源。“師資隊伍與資源”的二級指標包括“專家團隊情況”“突出中青年專家數”“專職教師數”和“重點學科與重點實驗室”。“專家團隊情況”是將本單位本學科的“院士、長江、杰青、千人、973首席、教學名師、新世紀人才”等。“突出中青年專家”是指“長江學者、國家杰青基金獲得者、千人計劃入選者、973首席科學家、百千萬人才工程部級人選、國家教學名師”。我校中醫學科在“專家團隊情況”“突出中青年專家數”和“重點學科與重點實驗室”均位列第1。但在“專職教師數”指標上僅位列第9,相對于其他項明顯不足。從該指標上看,我校中醫學科應著力增加專職教師,促進師資隊伍整體結構進一步優化。

(2)科學研究水平。“科學研究水平”一級指標包括“代表性學術論文質量”“科研獲獎”“專利轉化與出版專著情況”“科研項目情況”等二級指標。我校“科研獲獎”位列第1。“代表性學術論文質量”和“科研項目情況”位列第2。“代表性學術論文質量”包括“國內、國外收錄的代表性學術論文的他引次數”“高水平學術論文”等末級指標。“國內代表性論文他引次數和”是指近5年(2007—2011年)被CSSCI、CSCD收錄的代表性學術論文的他引次數和(自選20篇)。“國外代表性論文他引次數和”是指近5年(2007—2011年)被SCI、EI、Medline收錄的代表性學術論文的他引次數和(自選30篇)。“高水平學術論文”是指本學科近3年(2009—2011年)發表學術論文中,水平相對較高的15篇論文,提供給專家進行主觀評價打分。我校“國內代表性論文他引次數和”在20個參評高校中位列第1,但“國外代表性論文他引次數和”在20個參評高校中位次第3,“高水平學術論文”位次第2。該指標比起2008年學科評估結果有較高程度的提升,究其原因一方面可能是隨著我校師生研究和交流國際化進程的不斷加速,國際交流與合作意識持續增強;另一方面由于我校出臺了高水平論文獎勵制度,學校教師及科研人員也得到了認可和鼓勵,發表SCI論文能力也大幅增長[2]。但是離“研究型大學”的目標還很遠,仍需加強高水平論文激勵機制,大幅度提高數量和質量,特別是SCI收錄文章的質量。“專利轉化”二級指標是指本學科近3年(2009—2011年)獲得授權并已轉化或應用的“發明專利”或“國防專利”(不含“外觀專利”“實用新型專利”“軟件著作權”等)。我校“專利轉化”在20個參評高校中位次僅并列第8,說明我校成果轉化能力需要加強,服務社會的貢獻度有待進一步提高。學校應在專利轉化上要加大支持力度,出臺優厚的政策,鼓勵專利成果的轉化。“科研項目情況”包括“部級科研項目經費及項目數”“人均科研經費”等末級指標。“部級科研項目”包括:863計劃、973計劃、支撐計劃等科技部項目及國家自然基金項目、國家社科基金項目、全國教育科學規劃課題等科研項目;所統計經費應是本學科近3年(2009—2011年)實際到賬的經費之和。“人均科研經費”是指本學科近3年(2009—2011年)承擔“部級、省部級、境外合作科研項目以及30項其他重要科研項目(如橫向項目)”并實際到賬的經費除以專職教師數。我校“部級科研項目經費”位列第3,“人均科研經費”在20個參評高校中僅位列第2。可見,我校承接重大科研課題的能力需要加強。科研經費短缺一直是制約我校發展的難點和重點,我校應當創造條件,鼓勵科研人員積極爭取各類科研項目。

(3)人才培養質量。“人才培養質量”一級指標包括“教學與教材質量”“學位論文質量”“學生國際交流”“學生”和“授予學位數”等二級指標。“教學與教材質量”二級指標包括“國家及省部級教學成果獎”“部級規劃教材與精品教材”等末級指標。“國家及省部級教學成果獎”是指本學科近3年(2009—2011年)獲得的國家教學成果獎和省部級教學成果獎,不包括精品課程等。“部級規劃教材與精品教材”是指本學科近3年(2009—2011年)出版或再版的“十一五”部級規劃教材和精品教材情況。我校“教學與教材質量”在20個參評高校中位次第10,“國家及省部級教學成果獎”在20個參評高校中位次第9,“部級規劃教材與精品教材”在20個參評高校中位次第10,說明我校應在中醫學科的“教學與教材質量”上下功夫,花大力氣沖擊“國家及省部級教學成果獎”,同時,爭取更多的“部級規劃教材與精品教材”。“學位論文質量”二級指標包括“全國博士學位論文”“全國博士學位論文抽檢情況”等末級指標“,學位論文質量”二級指標中,一項重要觀測點就是“學生獲得全國博士學位論文數”。全國博士學位論文評選工作是教育部為了加強高層次創造性人才的培養工作,鼓勵創新精神,提高我國研究生教育特別是博士生教育的質量開展的。此次評估主要依據參評學科近5年(2008—2012年)入選和提名“全國博士學位論文”的情況。我校“學位論文質量”本次在20個參評高校中位次并列第2。我校中醫學科2008—2012年入選“全國博士學位論文”1篇,無提名,排在并列第3的位置上。表明盡管我校中醫學科人才培養的成效顯著,但其質量仍有待進一步提高。“學生國際交流情況”二級指標包括“學生境外交流人數”和“授予境外學生學位數”等末級指標。“學生境外交流人數”是指近3年(2009—2011年)本學科學生赴境外交流學習(時間超過3個月)的學生數。“授予境外學生學位數”是指近3年(2009—2011年)本學科授予境外學生的學位數。我校“學生國際交流情況”在20個參評高校中位次第3,“學生境外交流人數”在20個參評高校中位次第4,“授予境外學生學位數”在20個參評高校中位次第2,可能與近些年外籍學生數目減少有關。我校已將建設“有特色、高水平、國際知名的研究型大學”作為奮斗目標,因此,必須推進與境外知名大學、研究機構和醫療單位高層次、實質性合作,加快我校的國際化進程。走出去拓展我校的國際交流與合作平臺,同時積極宣傳,擴大學校的國際影響力。“學生”二級指標是有參評學科提供本學科的在校生(5名)和近10年(2002—2011年)的畢業生(10名),由本學科專家和行業、企業界人士進行主觀評價打分。我校“學生”在20個參評高校中位次第1。“授予學位數”二級指標包括“授予博士學位數”和“授予碩士學位數”等。本次評估對此項指標設置了“上限”,超過上限值的均為滿分,而不按規模的增大遞增得分。我校“授予學位數”在20個參評高校中位次并列第1。可見,我校中醫學科的研究生學位授予已達一定的規模,今后的重點是進一步提高研究生培養的質量。從二級指標層面看,位次等于學科整體水平的有“專家團隊情況”“重點學科與重點實驗室”“科研獲獎”“學生”“授予學位數”。位次低于學科整體水平的有“專職教師數”(第9位),“專利轉化”(并列第8位),“代表性學術論文質量”(第2位),“科研項目情況”(第2位),“教學與教材質量”(第10位),“學位論文質量”(并列第2位)等。可見,位次低于學科整體水平的指標偏多,未來提升的需求任重而道遠。

3我校中醫學科發展的方向及趨勢建議

綜上所述,我校中醫學科較前5年有較大發展,在“師資隊伍與資源”“科學研究水平”“人才培養質量”和“學科聲譽”均有整體優勢,這與我校長期的積淀分不開。但在一些方面仍顯不足,如:“師資隊伍與資源”暴露出“專職教師數”的不足,在“科學研究水平”上仍有“國外代表性論文他引次數和”和“高水平學術論文”不夠多,“專利轉化”明顯滯后,還存在“部級科研項目經費”不夠多、“人均科研經費”缺乏等問題。在“人才培養質量”上,“教學與教材質量”“學位論文質量”還有待提高,“學生境外交流人數”不多“,授予境外學生學位”的規模還不大。這些均是學科核心競爭力的體現,代表著學科發展的潛能和動力。因此,在努力改善辦學條件的同時,一方面要繼續打造和發展學科平臺,穩固學科發展所需的科研基礎;另一方面要繼續提高人才培養質量,加強高層次領軍人物的培養和引進工作,提升承擔國家重大科研任務和科研成果孵化轉化能力,加快學校的國際化進程,保持主干學科的國內引領地位。

總之,筆者分析了我校中醫學科此次評估中的重要指標,有優勢也有不足,希望能為了解我校中醫學科的學術隊伍、科學研究、人才培養等方面的狀態提供一些參考,從而更加明確發展和建設的方向,并有針對性地進行學科的內涵和質量建設提供科學依據。

作者:趙慧輝單嬌王娟王偉單位:北京中醫藥大學

數據分析論文:人工模擬降雨試驗數據分析論文

1人工模擬降雨試驗方法

1.1徑流小區布局

野外人工模擬降雨試驗要在前期土壤水分不飽和的狀態下進行,因此每次模擬降雨試驗只能在同一徑流小區進行一次降雨過程。為獲取更多的野外模擬降雨產匯流及水土流失對比數據,計劃在每個項目區的典型坡度———5°~8°、8°~15°、15°~25°分別建設坡地徑流小區。徑流小區的布設與等高線垂直,根據相關規范和實際條件,徑流小區投影面積一般為60m2,即20m(順坡投影長度)×3m(寬與等高線平行)。云縣石佛山坡耕地水土流失綜合治理試點工程水土保持監測項目于2010年12月初完成8°、12°、15°三塊坡地小區的建設,2011年6月下旬及時次模擬降雨試驗后,為方便對比分析,根據工程進展情況在12°坡地小區旁增設一塊梯地小區。

1.2人工模擬降雨系統

此次人工模擬降雨試驗采用西安理工大學研制的人工模擬降雨試驗系統(圖1)。它基于工控組態軟件,應用現有的人工模擬降雨試驗裝置,將試驗過程的常用設備和工控軟件結合在一起,增加了自動控制環節,通過對控制系統進行改造,解決了手動調節雨強不方便的問題,實現了對不同時段、不同雨強、不同分布的人工模擬降雨系統的手動和自動雙控制,采用監控組態系統更好地滿足了人工模擬降雨試驗的需求。該人工模擬降雨系統可建于自然坡面上,高6m,降雨試驗區長20m、寬3m,有效降雨面積60m2。降雨系統布設在降雨裝置支架上,噴頭選用與天然降雨雨滴譜最為接近的X型下噴式噴頭,由4組不同噴嘴孔徑組合而成。為兼顧模擬降雨的均勻性與搭建支架的經濟性和安全性,將系統在野外難以架設的固定式方鋼支架改為鋼管腳手架。頂寬超出徑流小區寬度方向兩邊各0.3m,頂端橫桿按照水管和噴頭分布架設,壓力控制裝置設4個出水管,每管對應同一噴嘴孔徑的噴頭,共設置4組24個不同噴嘴孔徑噴頭,支架內部無任何遮擋。壓力控制裝置可自動、手動控制出水管的全開、全關或部分開啟。本系統可模擬降雨強度變化范圍4~200mm/h,降雨雨強最小分辨值1.3mm/h,降雨強度控制精度0.66mm/h,降雨均勻度>0.95。系統采用先進的閉環自動控制理論和技術,是一種應用交流變頻調速器控制的人工模擬降雨自動控制設備,以降雨過程的最終實際降雨參數控制和驅動系統的各個降雨部件,克服了從水源到噴頭之間諸多環節對降雨的隨機影響。實驗室測試結果表明,該設備的主要性能指標優于國內外其他人工模擬降雨系統,是進行土壤產匯流和侵蝕規律研究的重要試驗設備。

1.3人工模擬降雨雨強

石佛山小流域位于云南省臨滄市云縣幸福鎮幸福村水土保持監測項目區。模擬降雨設計頻率及雨強參照幸福雨量站。該站距項目區直線距離2km,1983年建站,有1983—2010年共28年的完整降雨資料,降雨資料質量,能滿足設計暴雨頻率分析要求。通過幸福雨量站1h短歷時暴雨頻率計算,石佛山小流域100年一遇1h降雨量為84.8mm,50年一遇1h降雨量為77.0mm,30年一遇1h降雨量為72.1mm。人

工模擬降雨采用100年一遇1h降雨過程。

2人工模擬降雨監測結果

2.1JDZ02型自記雨量器記錄結果

人工模擬降雨試驗于2011年1月開始,至2012年9月結束,跨2年歷時40天,試驗時間分別為枯水期兩次(及時次、第三次)、主汛期兩次(第二次、第四次)。在不同坡度的徑流小區分別進行15場次的人工模擬降雨試驗。

2.2普通雨量器監測結果

徑流小區人工模擬降雨面降雨量采用普通雨量器監測,用算術平均法計算平均面降雨量。用普通雨量器觀測的15場次人工模擬降雨面降雨量計算結果見表3。

2.3人工模擬降雨產流產沙量監測

人工模擬降雨雨強采用100年一遇1h降雨雨強。在模擬降雨試驗前采用移動墑情監測儀和稱重法在各小區距地表10、20、30cm土層剖面處取土樣分別測定前期土壤含水率,并取平均值。產流產沙量的監測是在有徑流產生時,每5min取1個水樣,采用加權平均法計算平均含沙量,并用容積法記錄產流量。監測結果。

3試驗結果分析

3.1人工模擬降雨試驗降雨監測結果分析

云南省人工模擬降雨試驗是全國及時次大規模使用人工模擬降雨系統在野外研究土壤產匯流和侵蝕規律的試驗。實驗室內的環境與野外環境差距較大,在野外試驗雖然是按100年一遇的標準進行人工降雨,但是由于受風速、風向影響較大,加之降雨雨滴與實際還有一定差距,所以部分降雨隨風飄落到小區之外,落到小區地面的降雨標準也因此降低。考慮到上述情況,試驗都選在無風或輕微風和微風的環境下進行。將徑流小區內安裝的JDZ02型自記雨量器記錄的降雨雨強與設計降雨雨強進行相關性分析,相關系數都在0.6以上,說明人工模擬降雨過程與設計降雨過程之間存在強相關。根據統計學原理,使用Brown-Forsythe檢驗法檢驗設計降雨過程與12場次JDZ02型自記雨量器記錄降雨過程的差異性,在顯著性水平α=0.05下檢驗結果為各組之間差異不顯著。對比設計雨量與JDZ02型自記雨量器記錄結果,有7場次降雨接近或超過設計雨強,說明在徑流小區局部,人工模擬降雨雨強是達到設計要求的。對徑流小區12場次面降雨量監測結果進行分析,小區內模擬降雨重現期達到10年一遇以上的有7場,以下的有5場,較高重現期為13年一遇,低為2年一遇。小區內降雨極不均勻,單個普通雨量器收集的降雨量有的大于設計雨強,有的小于設計雨強,特別是小區兩側降雨量與設計雨量誤差較大,達到82.5mm。受風速、風向、試驗支架架設高度和植被的影響,用加權平均法計算出徑流小區內21只普通雨量器的實測面平均雨量均小于設計雨量,相對誤差在-62.7%~-27.0%之間,未達到設計要求。

3.2徑流小區產流產沙情況分析

(1)8°徑流小區。由表4知,及時次模擬降雨試驗,坡地小區土壤含水率接近飽和、植被覆蓋率為0,降雨4min后開始產流,歷時1h,產流量1.402m3,產沙量15.6kg。第二次試驗在主汛期進行,土壤含水率接近飽和,小區內種植玉米,植被覆蓋率為,降雨2min后開始產流,歷時62min,產流2145m3,產沙量10.2kg。第三次試驗,小區土壤含水率12.16%,植被為雜草和伐倒的玉米植株,植被覆蓋率為70%,降雨9min后開始產流,歷時40min,產流量0.064m3,產沙量0.015kg。該次模擬降雨面平均雨量為44.1mm,僅占設計雨量的48.5%,加之前期土壤含水率低,因此產流量和產沙量都較小。第四次試驗,小區內種植的玉米已進入成熟期,植株較高,植被覆蓋率為。試驗時為減小風力對人工模擬降雨的影響,將降雨架高度由6m減至4m。降雨27min后開始產流,歷時12min,產流量0.082m3,產沙量0.082kg。該次降雨面平均雨量為59.9mm,占到設計雨量的70.6%,但是由于小區前期土壤含水率低,僅為9.04%,故產流量和產沙量都較小。

(2)12°徑流小區。及時次試驗,由于模擬降雨面平均雨量小(31.6mm),雖然前期土壤含水率高達1503%,但該次降雨條件下該小區未產流。第二次試驗,小區前期土壤含水率已接近飽和,植被覆蓋率達,降雨2min后開始產流,歷時58min,產流量1.513m3,產沙量20.9kg。第三次試驗,小區前期土壤含水率11.41%、植被覆蓋率70%,降雨11min后開始產流,歷時42min,產流量0.156m3,產沙量0.044kg。該次模擬降雨面平均雨量較大,占到設計雨量的71.3%,但是由于前期土壤含水率低,故產流量和產沙量都較小。第四次試驗,小區植被覆蓋率,降雨31min后開始產流,產流時間5min,產流量0.010m3,產沙量0.004kg。該次模擬降雨面平均雨量達到50.9mm,占到設計雨量的60.0%,但是受土壤含水率僅為10.59%的影響,產流量和產沙量都較小。

(3)15°徑流小區。由表4可知,及時次試驗,小區前期土壤含水率為16.05%、植被覆蓋率為0,降雨30min后開始產流,歷時10min,產流量0.0165m3,產沙量0.133kg。第二次試驗,土壤含水率已接近飽和,達20.65%,小區植被覆蓋率60%,降雨7min后開始產流,產流53min,產流量0.629m3,產沙量10.6kg。第三次試驗在冬季進行,小區植被覆蓋率為80%,由于前期土壤含水率低(10.41%)、面平均雨量偏小(43.3mm),因此該次降雨在該小區未產流。第四次試驗,小區植被覆蓋率,人工模擬降雨60min未產流,為檢驗產流情況,在12:15將人工模擬降雨裝置閘門全開,以較大降雨強度連續降雨5min,于降雨64min后開始產流,產流5min,產流量0.022m3,產沙量0.036kg。該次模擬降雨歷時65min,面平均雨量達到61.1mm,占到設計雨量的72.1%,受前期土壤含水率(10.74%)較低、植被覆蓋率較高影響,該小區產流量和產沙量都較小。(4)梯地徑流小區。由表4可知,梯地徑流小區及時次試驗在主汛期進行,前期土壤含水率為17.46%,植被覆蓋率為20%,降雨2min后開始產流,產流48min,產流量1.146m3,產沙量1.93kg。第二次試驗在冬季進行,小區前期土壤含水率8.09%,植被覆蓋率90%,模擬降雨面平均雨量為58.5mm,由于前期土壤含水率過低,該次降雨在該小區未產流。第三次試驗在9月份進行,前期土壤含水率為8.48%,植被覆蓋率為,模擬降雨面平均雨量為54.1mm。該次試驗該小區未產流,其主要原因也是梯地小區前期土壤含水率過低。

4結語

(1)人工模擬降雨裝置在實驗室內可取得較為理想的降雨成果,在野外試驗雖然是按100年一遇的標準進行人工模擬降雨,但受風速、風向、支架架設高度和植被的影響,加之降雨雨滴與實際還有一定差距,部分降雨隨風飄落到小區之外,落到徑流小區地面的降雨量相對減少,面平均降雨強度因此降低,但局部降雨強度達到設計要求,這說明該模擬降雨系統仍存在一定不足,需要進一步改進。

(2)在相同坡度、相同暴雨條件下,無植被覆蓋或植被覆蓋率低的徑流小區產流、產沙量更大,說明提高地表植被覆蓋率可以有效涵養水源、減輕土壤侵蝕,同時在前期土壤含水率高的情況下,也更容易出現產流產沙。此外,將坡地改為梯地,并增加相應植被覆蓋率對減少水土流失的效果是非常明顯的。

作者:徐曉鵬徐志春張鼎輝楊軒單位:云南水文水資源局耿馬縣水務局

數據分析論文:煙草視頻數據分析論文

1前言

隨著煙草行業信息化推進現代化進程的快速發展,新興的IT技術、先進的IT技術等已不斷融入到煙草行業的生產、營銷及管理等過程中,逐漸改變了煙草行業原有的經營管理模式,加快了煙草行業結構調整,完善管理體制,提升市場競爭力。可以說,信息化建設給煙草行業帶來了改革與發展。因此,對新興技術的研究與探索,具有十分重要的意義。尤其是視頻監控技術的發展,給煙草行業的帶來了較多的好處,煙草從種植、生產、流通、消費的每個環節中,視頻監控技術都發揮了重要作用。視頻大數據分析技術是近兩年興起的技術,視頻大數據分析的應用,在公安視頻偵查等中已突顯其發展前景,本文將針對煙草行業,討論視頻大數據分析的發展應用。

2視頻監控在煙草行業的發展及應用現狀

(1)煙田監控:實現對煙田、育苗大棚內實時監控;

(2)煙葉收購站監控:實現對煙草所有站點煙葉收購全流程監控視頻調看、查詢、巡視、控制的功能;

(3)生產及公用設施區監控:主要用于監控車間內重要設備、生產線運行、物流線路及環境狀況,以及動力中心車間內空調、鍋爐等重要設備的運行及環境狀況,防止災害和事故的發生。

(4)煙草物流配送中心監控:對物流配送中心進行實時監控;

3視頻大數據分析的技術需求

隨著視頻監控在煙草行業的大規模應用,視頻數據量的增加,每天產生的數據量都是以TB(1000GB)級別計算的,若是利用傳統的技術手段對每天的視頻進行檢索和分析,則需要數小時的時間才能夠完成,工作量及工作難度可想而知;而對于更高級別的視頻數據,如PB(1000TB)級別的視頻數據進行分析和檢索時間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數據利用效率及數據價值低下的首要原因。為此,如何提高視頻數據分析與檢索的效率,如何針對PB(1000TB)級別甚至EB(1000PB)級別的海量數據進行分析與檢索,提升視頻監控數據價值,成為了當前用戶的首要需求,也成為了當前視頻大數據分析技術的難點及關鍵點之一。同時,在對視頻進行檢索與分析的過程中,需要考慮檢索結果的性。由于視頻圖像信息為非結構化數據,如何合理有效地對非結構化的數據進行檢索分析,優化計算機圖像識別算法,是提高視頻大數據分析性關鍵所在。再者,當完成視頻檢索與分析后,如何做好視頻數據與非視屏數據的整合與關聯工作,是后期視頻數據應用時重點考慮的內容。

4視頻大數據在煙草行業的應用思考

時下,煙田監控、煙葉收購站監控、生產及公用設施區監控、煙草物流配送中心監控等的視頻監控數據較多僅僅用作安防視頻使用,還未涉及到與煙草業務的關聯;隨著視頻監控建設的完善及視頻大數據技術發展,各類監控視頻數據量的增加,考慮到投資回報比,是否可以通過視頻大數據分析,將煙草業務與視頻監控相關聯,在海量的視頻監控數據中提取有益于煙草行業發展的變革或新技術呢?

4.1安防業務

基于傳統視頻監控,安防業務是傳統業務之一,通過大數據分析,有效快捷的提取安防所需要的視頻片段。同時基于視頻行為告警策略,及時告警。

4.2安全生產

結合視頻大數據分析,將以往多次生產事故監控視頻整合,通過對多次生產安全事故的分析,總結出更為安全的生產規則;再則通過視頻監控與生產行為的結合,制定安全生產標準,通過聲音報警或警示燈報警等技術,在不符合標準視頻監控預定義的安全規則情況時,能夠及時報警。通過視頻監控分析,提升生產的安全性。如采用彩色網絡快球攝像機和彩色固定網絡槍式攝像機,彩色網絡快球攝像機的預制位設置應優先,根據視頻大數據分析后,系統可提供不同故障區域或設備的故障信號,各工藝段或設備的操作運行信號,通過系統集成與生產監控實現聯動,平常攝像機對正在操作或運行設備進行監控,一旦某個故障點報警,攝像機立刻自動轉動到報警點,監控中心的NVR主機開始錄像等。

4.3效率生產

結合視頻大數據分析,通過分析各個不同煙站或煙廠中的同一種生產行為,結合對海量數據進行智能分析,提取出價值數據片段,形成元數據信息庫,再通過人為加工后期數據,總結形成效率生產有用的價值信息,提供生產借鑒,提高生產效率。

4.4創新生產

通過視頻大數據分析,將以往的視頻通過軌跡分析,得出以往生產過程中各類生產動作中不必要或者多余的部分,簡化或者優化生產規則;通過對給類生產行為的總結,提出合理的建議,為生產提出創新性意見或建議,提高生產率。

5結論

視頻大數據分析技術是近年來新興的技術,目前已廣泛應用于公安行業的平安城市之中;隨著視頻監控的發展與更新,其視頻大數據分析同樣也會逐漸向各行各業擴展,煙草行業對視頻大數據分析技術的需求也將會越來越強烈,目前國內基本還屬于空白及探索階段,尚需要技術的發展與行業的實踐。

作者:郜社榮魏嘉偉王寧單位:昆明市煙草公司

數據分析論文:廣電網絡數據分析論文

1系統架構設計

整個系統以廣電大數據分析平臺為基礎構建,系統由數據采集系統、數據分析中心、三個數據應用中心(推薦中心、決策中心和服務中心)組成和系統管理模塊組成。

1.1數據采集系統

大數據時代,大數據有著來源復雜、體量巨大、價值潛伏等特點,這使得大數據分析必然要依托計算機技術予以實現.因此從兩個方向上加強數據采集統建設,一是側重于數據的處理與表示,強調采集、存取、加工和可視化數據的方法;二是研究數據的統計規律,側重于對微觀數據本質特征的提取和模式發現,在兩個方向上的協同、均衡推進,以此來保障大數據平臺應用的穩健成長和可持續發展.廣電的網絡和用戶是其核心資產,而其中流動的數據(包括用戶基礎數據、網絡數據、網管/日志數據、用戶位置數據、終端信息等)是核心數據資產.對于廣電運營商來說,最有價值的數據來自基礎網絡,對于基礎網絡數據的挖掘和分析是運營商大數據挖掘的最重要方向.因此其數據采集的目標包括機頂盒數據、CRM數據、帳務數據、客服數據、運維數據、媒資數據、GIS數據、財務數據和其他手工錄入、表格數據.采集頻率要求可以實現實時采集和定時批量采集.采集這類數據帶來一個問題就是各類數據雜亂無章,會導致數據質量問題越來越嚴重,通過引進實時質量監控和清洗技術,建設強大的分布式計算和集群能力,提高數據監控和數據采集性能,利用分布式處理技術,實現數據抽取、數據清洗以及相應的數據質量檢查工作,保障采集到高質量的數據,將廣電大數據中心建設成一個覆蓋廣電系統全部數據的存儲中心,具備采集各類結構化、非結構化海量數據的處理能力.

1.2數據分析中心

廣電企業每時每刻都在產生大量的數據,需要對這些數據歸集、提煉,廣電企業大數據平臺建設的意義在于有效掌握規模龐大的數據信息,對這些數據信息進行智能處理,從中分析和挖掘出有價值的信息.在廣電大數據分析中需要對直播節目分析、互動業務分析、互聯網流量分析、互聯網內容分析、廣電客戶分析、市場收益分析、智能內容推送和廣告分析等,通過這類數據分析,能夠實時了解廣電運營商的經營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數據進行分析處理.一是采用在線分析方法技術,使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的.這些信息是從原始數據直接轉換過來的,他們以用戶容易理解的方式反映企業的真實情況.在線分析策略是將關系型的或普通的數據進行多維數據存貯,以便于進行分析,從而達到在線分析處理的目的.這種多維數據存儲可以被看作一個超立方體,沿著各個維方向存貯數據,它允許分析人員沿事物的軸線方便地分析數據,分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數據挖掘是從海量、不的、有噪聲的數據中挖據出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則.這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等方面提供依據.

1.3數據應用中心

在大數據分析平臺應用過程中,數據本身并不是數據分析和數據挖掘的重點,重點在于如何應用這些技術去解決企業在運營中實際的商業問題.通過對數據分析和挖掘,了解企業運行過程存在問題,預判企業中各類業務發展走向.對數據分析與挖掘結果來說主要有兩個方面,一是將分析結果給客戶使用,另一個是將分析結果提供給內部用戶使用,因此在大數據分析平臺設計中,將數據應用劃分為三個應用中心:

1)推薦中心

推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯網、消費等行為,將使用用戶分群,總結群體特征,向不同群體推薦個性化的電視節目、廣告和增值應用服務.從而提升用戶的使用體驗,提升用戶的滿意度和粘度.

2)決策中心

決策中心面向廣電企業內部決策者、管理者、經營分析人員,通過對企業經營數據的KPI、運營監控、經營盤點,使企業決策者掌握企業運營狀況及發展趨勢;智能報告協助分析人員自動定位經營中的問題;即席查詢在預定義的語義層基礎上,實現靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進行深入挖掘,輔助專業分析人員的工作;統計報表滿足各部門常規統計需求.

3)服務中心

服務中心面向廣電的合作伙伴,比如:電視臺、廣告商、服務和內容提供商、相關政府職能部門等.通過對使用用戶收視行為的實時分析,將電視欄目實時收視率提供給電視臺,電視臺根據收視率進行在線的問卷調查,提高電視臺的影響力,幫助其增強欄目的評價體系.為廣告商提供精準的廣告投放策略,實時的廣告投放評估,幫助廣告商提升廣告到達率、度和營銷效果.為服務和內容提供商的電影、電視和增值應用等產品提升收視率和使用頻率,并進行評估,為其提供受眾喜好特征,幫助其推出有針對性的產品.通過用戶收視數據、節目反饋等信息,將相關輿情向相關政府部門匯報.

1.4系統管理

系統管理是大數據分析平臺一個輔助功能模塊,主要是為了系統管理員對大數據平臺進行有效的監控和管理,提升大數據分析平臺性能使用,包含有如下幾個模塊:權限管理、數據質量管理、元數據管理、調度管理、系統監控等.

2數據應用分析

移動互聯網的發展為傳統行業帶來了新的思考,如何在互聯網時代更好地實現以客戶為中心的服務理念,借助大數據分析平臺、海量的客戶非結構化的行為數據和傳統的結構化數據,可以有效提升廣電個性化、人性化的服務水平.大數據分析平臺通過整合廣電網絡中多個數據源,并按照主題進行劃分,在定義主題的過程中,提供廣電業務概念的規范定義.數據模型不偏重于面向某個應用,而是站在企業角度統攬全局,提供可擴展的模型設計,偏范式化的設計使平臺在較大程度上保持一致和靈活擴展性.依托某廣電網絡公司業務開展情況,搭建數據分析平臺,具有如圖2所示的主題結構,共計8大類53小類,從廣電網絡運營的各個方面進行了數據分析.

2.1直播節目分析主題

直播電視節目作為廣電運營模式中一直沿用的產品類型,對于廣電用戶的影響和廣電運營商運營模式起著至關重要的作用.實時直播節目分析,用戶可以實時查看每個時間點上每個節目收視率,以此為據來指導產品定制、節目選擇、用戶推廣等方面的商業應用,對直播節目的多維度分析,運營商可深入分析直播節目收視特性及受眾影響規律,以指導運營優化,提高節目的收視率和營收.

2.2多媒體業務分析主題

廣電行業的雙向網絡改造不僅將視頻點播、通信及娛樂業務成為可能,同時配備增值業務,如廣告、支付、股票、游戲、付費節目等服務.可以明顯看到哪類業務受歡迎,哪類業務的增長趨勢良好,哪類業務應用下滑得較快,哪類業務不受用戶歡迎,從這樣的分析結果中,可以為廣電網絡以后的業務引進中提供指導,避免引進的業務不受用戶歡迎,同時也可以預見性的引進一些代表將來趨勢性的業務,提前做好業務儲備工作.互動業務的互動特性為廣電運營商增加客戶粘度、制定產品投放策略、獲取較大化收益及市場價值提供了前所未有的空間,通過對互動業務的應用分析,可以分析出用戶的行為趨勢.利用這樣的分析結果改善廣電業務引進,提高用戶的粘度和ARPU值.

2.3互聯網應用分析主題

廣電作為政府宣傳的喉舌,一個主要的特點就是可管可控,相對此而言,互聯網網絡一個重要特點就是用戶各類行為的不可控性.在三網融合的新環境下,廣電網絡一個重大改變就是引進了互聯網業務,同時通過多屏互動技術使廣電終端類型日益復雜,如何對廣電網絡引進的互聯網業務和終端進行有效的管控,成為擺在廣電網絡運營商面前一個重要課題.運營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進而來引導用戶輿論與行為,實現對廣電網絡的可管可控的最終目的.同時廣電網絡也可以利用互聯網數據從如下兩方面做了分析,運營流量及應用優化,節省網絡帶寬,減少運營費,同時用以提高用戶體驗度,增加用戶粘性;充分利用線上、線下同步運營模式,深入挖掘線上討論內容,為線下運營提供指導.

2.4廣電客戶分析主題

在三網融合的環境下,廣電網絡在逐漸擺脫事業單位模式下經營模式,向“市場驅動”、“客戶驅動”經營模式的轉變,“以客戶為中心”的理念和策略不可或缺,而廣電網絡擁有的客戶群和常規用戶分析的客戶群體有著本質區別,以往分析往往針對個體用戶進行分析,廣電網絡面向的用戶通常是以家庭為單位的,這給廣電網絡用戶行為分析帶來不可預料的困難.通過針對用戶群體不同年齡、不同時間段的收視行為和上網行為分析,可以區分某一時間段內該家庭用戶內個人的行為,可以清晰看到各類用戶在各個階段的變化情況,以及這個變化給廣電網絡運營帶來的變化.從用戶信息出發,以用戶應用行為為主線,深入挖掘用戶關系,為廣電用戶關系管理提供有效基礎數據,提高用戶滿意度、忠誠度,提高廣電網絡市場運作的主動性.

2.5市場收益分析主題

三網融合后,廣電網絡作為一個市場主體,需要適應日趨激烈的市場競爭環境,提升廣電運營商的企業核心競爭力,應充分利用業務支撐系統產生的大量寶貴的數據資源,建立廣電企業收益分析系統,實現對收益數據的智能化加工和處理,為市場運營工作提供及時、、科學的決策依據.利用先進的OLAP技術和數據挖掘技術,幫助企業的經營決策層了解企業經營的現狀,發現企業運營的優勢和劣勢,預測未來趨勢;幫助細分市場和客戶,指導營銷、客服部門進行有針對性的營銷和高效的客戶關系管理;對決策的執行情況和結果進行客觀的評估,深受用戶的青睞.如圖7所示的收益分析結果,可以清晰看出企業各類業務在營收中所占比例,可以明確了解哪類業務是企業的品質業務,哪類業務需要進一步加強開拓市場,同時也可以預測哪類業務會有更大的推廣空間,為企業持續開展業務提供指導.

2.6智能內容推送主題

深層次挖掘用戶潛在的需求,以用戶的需求為導向,向用戶推送有針對性的內容.廣電運營商通過對用戶差異性的運營策略,激發用戶參與的熱情,讓用戶有持續的良好體驗,提升對用戶的吸引力和黏著度.信息精準、智能推送的關鍵在于把握住用戶的行為習慣,同時讓每一個用戶都可以按自己需求方便、快捷地調整、歸類相關信息.大數據分析平臺基于用戶行為收集分析系統,挖掘出用戶潛在需求,充分了解了用戶的真實意愿,將有助于廣電運營商建立以客戶為中心的服務理念,提升社會影響力.

3總結

大數據分析平臺能夠整合企業內部多源異構、跨域關聯的海量數據,有效收斂企業各業務系統的運營數據,提供完善的數據分析和挖掘能力,為企業的客戶和企業本身提供了有價值的數據支撐,讓企業輕松掌握數據背后的本質洞察商機,提升效率,搶占大數據時代的競爭優勢.通過在實際環境中建設的大數據分析平臺檢驗,大數據分析平臺具備四個核心能力:數據存儲、數據管控、數據服務和數據分析能力,將對廣電企業運營和發展有著重要的戰略意義.廣電利用大數據分析技術了解用戶,同時將分析結果融入內容制作傳播等各個環節。因此,廣電需要利用大數據發展的契機,了解用戶,提升用戶粘性.

作者:朱月單位:沈陽音樂學院