引論:我們為您整理了1篇統計學數據論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
統計學數據論文:大數據與統計學協同發展的思考分析
摘要:海量的數據已經滲透了每個人的生活,以數據為研究對象的統計學應該以科學的態度迎接大數據浪潮,并積極思考如何把握這重要的發展機會。本文首先闡明大數據與統計學的密切關系,再從大數據時代下的非結構化數據與結構化數據、相關關系與因果關系,這兩個方面思考大數據與統計學的協同發展。
關鍵詞:大數據時代;大數據;統計學;
一、大數據與統計學
(一)大數據與統計學關系密切
簡單來說,我們可以分為兩個方面來理解大數據:若“大數據”作為形容詞,則描述的是大數據時代數據的特點;若“大數據”作為名詞,則體現的是數據科學研究的對象。對大數據的定義有非常多,不同領域不同專業對大數據的界定都會有些許不同。通俗地說:大數據是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加。現代互聯網和信息技術的飛速發展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數據,從中挖掘出有用的信息促進社會的發展。邁爾?舍恩伯格說:大數據發展的核心動力就是人類測量、記錄和分析世界的渴望。而統計學正好是收集、整理、分析、解釋數據并從數據中得出結論的科學。由此可見大數據與統計學關系密切,將大數據與統計學結合發展潛力無窮。
(二)大數據時代下的非結構化數據與結構化數據需整合
對接統計研究可根據自身的目的收集總體數據或樣本數據,但如果總體太過龐大,以過去的技術方法來收集總體數據成本會很高,受于限制統計研究更多收集得是樣本數據。如今,人類已經開始能夠在合適的成本下獲得大數據,大數據的廣博給統計研究帶來了新的發展方向。我們需要著重研究的一個方向就是如何將結構化數據和非結構化數據對接。大數據的核心是數據,統計學的研究對象也是數據,但是它們獲得的數據性質有所不同:大數據收集的多是半結構化和非結構化的數據,通俗地理解,先獲得數據,再整理結構(如聲音、圖片、視頻等信息);傳統統計學收集則主要是結構化數據,先定好結構,再根據目標結構收集數據(如數字、符號等信息)。拿非結構化數據和結構化數據來說:大數據時代使得我們有更多可以分析利用的數據,使得統計研究不僅可以在有更多的結構化數據的情形下進行;對于一些領域的研究工作還可以設法將非結構化數據和結構化的數據結合起來分析。如何實現非結構化數據與結構化數據的結合?首先,完善非結構化數據的整合,然后我們可以用結構化數據做數量說明,非結構化數據加強描述;或是提高數據處理技術,實現結構化數據與非結構化數據的互相轉化,選擇能更好說明問題的數據形式作為后續分析基礎。這都是值得再深入思考研究的新問題,而且這不僅僅是大數據和統計研究的事,同時需要計算機技術的一同創新發展。統計研究的范圍在大數據時代越來越大,能用數據說明的問題越來越多。
(三)大數據時代下的相關分析與因果分析發展并重
《大數據時代》一書中表示:大數據時代的一個顯著變化是:相關分析比因果分析更重要。我的看法是:大數據時代下,市場確實會對相關分析有著更強的關注度,但這并不意味著因果分析的重要性會有褪色。統計學中既有相關分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關關系和因果關系之間的聯系,簡單說:有相關關系不一定有因果關系,有因果關系則一定有相關關系。大數據時代,相關關系變得比以前更加為人所關注的原因:一方面,在很多領域的應用里,相關分析比因果分析更簡單可行;另一方面,因為相關關系足以體現事物之間的一定聯系,在商業效益上更為經濟有效。因此在商業利潤的推動下,相關關系也會更加受到青睞。但是我們不能就此否定因果關系的重要性,因果關系是對數據更加深度地分析:相關關系讓我們知道了“是什么”,因果關系是讓我們知道了“為什么”。倘若只是在商業經濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學研究領域,“知其然而不知其所以然”就遠遠不夠了。結合現實發展需要,可在分析確定相關關系后,根據情況研究因果關系,若能夠得出因果關系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力,因果分析是人類永恒的使命。
二、結語
大數據時代的到來幾乎對每個領域都有著不可忽視的影響。大數據與統計學關系密切,大數據的出現對統計學的意義是非凡的,我們應把握住大數據時代和統計學的可結合點。其一,完善非結構化數據的整合,深入研究如何實現非現結構化與結構化數據的對接,都需要我們思維上的創新、數據處理技術上的提高。其二,在注重相關分析的同時,不能丟掉對因果分析的研究,應合理并重,實現大數據的進一步利用,真正挖掘出數據的價值。對于以數據為研究對象的統計學科,大數據時代就是統計學變革創新的時代,統計研究工作人員也應把握機會思考創新,為統計學增添新的生命力。
作者:張天舒 單位:廣州工商學院
統計學數據論文:大數據時代統計學發展研究
統計學在現實的生活中應用十分廣泛,以至于如今很多人把統計學的范圍擴展為用數據表示的現象。在如今的經濟發展中一些金融分析師會利用一系列的數據對客戶提供咨詢服務,證券分析師可以利用數據來分析股市的信息,然后對股市的行情進行預測。在與我們息息相關的農業領域,水稻的產量以及有機物的培養環境都可以利用數據進行探究。以上都是與我們相關的實例,這些實例都是與統計學分不開的,這些實例都是統計學中的應用實例。總之統計學的運用可以貫穿各行各業。統計學的發展與大數據之間有著很密切的關系。如今隨著信息時代的發展,很多信息都是利用數字來進行表述的,因此可以看出來數據其實就是信息的載體,也是數據學分析的對象,如今的統計學工作實際就是收集數據、整理數據、分析數據、解釋數據。如果沒有數據統計學就像植物失去土壤一樣難以存在,同樣離開了統計學以后,數據就會顯得沒有意義。數據在如今的大環境下變得越來越廣泛,其增長也是漫無邊際的。隨著社會的不斷發展,以及信息時代的不斷進步,人們開始意識到了數據的重要性。目前最為實用的數據很多,不但可以提高生產力的發展水平,還能夠利用數據的分析來解決國家的民生問題,因此這種大數據下的統計學發展十分重要。
一、大數據時代的內涵及其意義
(一)大數據時代的內涵
大數據其實就是一個大樣本和高維便利的數據集合,針對一些樣本的問題,利用統計學原理進行抽樣、分析,來達到所需要的精度,但是對于一些維數高的問題需要運用統計學原理進行選擇降維、壓縮、分解。從另一種角度講大數據包含很多方面,它是多領域的數據綜合,其中包含自然科學、人文科學等一系列的混合數據,各個學科之間進行融會貫通,相互穿插。一些傳統的統計學方法只適合分析單個計算機的數據存儲,然而目前的大數據環境下改變了這一現象。如今大數據環境下包括了數據流環境、磁盤存儲環境、分布存儲環境、多線條環境等。目前大數據環境下最主要的目的就是把數據轉變為人們容易懂得的知識,來探索數據產生的源頭和機制,從而制定相應的對策。由于要把信息轉變為知識需要一個漫長的時間,因此如今有很多人搜集當今社會的大量的數據存放在相應的存儲器中,甚至有些人并不知道如何去分析所搜集的數據,但是他們把這些數據當成一段發展的歷史,把如今高速發展的過程記錄下來,供以后應用。
(二)大數據時代給社會帶來的變革
如今大數據環境下給人們帶來了很大的變革,目前各行各業的勞動者們都開始利用研究問題來驅動搜集數據,利用搜集來的數據進行分析來解決問題。因此以這種發展的趨勢可以看出,在以后人們會慢慢地利用搜集數據來驅動問題的解決,就像我們出門查天氣、查交通一樣,未來的勞動者們會通過大數據的分析來決策一些研究性的問題。現在國內外很多統計學專家、甚至一些大學教授都開始利用計算機中相應的軟件來搜索、分析一些研究性成果。在古希臘哲學家是百科全書式的人物,在文藝復興時期開始細化了一些單一科學的科學家。如今大數據時代勢必會再次產生百科全書式的人物,大數據將慢慢地減弱專家在各個領域的影響,甚至導致專家的消亡,比如,現在很多統計學家、物理學家、計算機專家等開始利用他們敏銳的數據處理和分析能力進入生命科學界,在以后假如我們有成千上萬本書和它的外文譯本,即使我們不懂外文也能夠通過一些翻譯軟件進行翻譯,把它翻譯成我們懂得的語言,大數據中包含很多數據集,為我們以后的生活提供很大的便利。
二、大數據的研究動向、信息問題
(一)研究動向
目前美國一些機構開始提出了大數據環境下的一些挑戰性的問題,即處理高度分布的數據資源,追蹤數據的來源以及核實數據、處理樣本等。他們開始把數據處理的方式進行改進,開發并行和分布式的算法。我國也十分重視大數據科學的發展,國家多次組織召開會議探討大數據科學發展的前景,并且設立了大數據專項研究計劃。國家自然科學基金的一些專項科學項目開始設立,在業界以及一些咨詢公司都在尋找大數據合作的機會。大數據的分析需要多個領域進行結合,已經不是單一的一個科學領域,統計學家不但要認真研究計算機的實時決策還要把計算機與統計學的相關知識進行緊密的結合。相反計算機專家也要時刻了解統計學的相關知識。
(二)大數據的信息問題
隨著大數據信息時代的到來,人們也不斷地對大數據進行探究。由于大數據中不只是包含一種數據,它是很多數據的一個集合體。為了能夠把搜集到了各個方面的數據融合起來,必須對數據的來源以及數據的獲取方式進行探究,利用這些探究的結果來進行數據的分析。如今數據的來源一般都是多方面、多渠道的,難免會產生較大的誤差,這樣也就產生了一些問題,比如數據搜集的準則與決策不相符,甚至有些數據根本不是原始搜集的數據,而是經過分析推斷而來的數據,這種數據更會產生較大的誤差。由于數據的量是非常大的,然而并不是數據量越大所包含的信息就越多,如果所獲的數據中含有一些偏差較大的信息,就會破壞原始的數據,因此從這一方面我們應該意識到在數據的搜集過程中應該避免得到一些破壞性的信息。在大數據時代中會產生一些缺失的數據,數據的缺失難免會對數據的分析產生影響,不同的研究搜集的數據會有一些重疊的部分,比如經濟、社會、保險、醫學等研究的問題不同,搜集的變量和集合不相同,但是他們肯定會有一些共同用處的數據。在對數據進行分析時,其中有2種數據需要進行具體的分析,一類是觀察的數據,一類是試驗的數據,這兩種數據包含兩種不同的信息,這樣依然會導致一些人對數據的認知錯誤。由于數據的本身是有一定的范圍的,數據搜集以后就已經確定了它的這一屬性,因此如果想需要范圍以外的含義就必須進行推斷。
三、大數據的處理、抽樣與分析
(一)數據的預處理
大數據環境下對數據的處理包括很多方面,比如,數據清洗、數據矯正、數據填補等,其中數據矯正是一種非常有效的數據處理方式,它可以大大減少系統的誤差。如今互聯網領域中數據的獲取是非常復雜的,在大量的、復雜的數據進行分析時難免會產生一些差異性,為了盡可能地使得這些數據不產生偏倚性,就必須利用計算機來對這些數據進行矯正。矯正的方法就是把一些從互聯網上搜集的數據作為一些補充的資源進行更新,這種更新速度要快,而且是實時的更新。
(二)大數據的分析與整合
在對大數據分析時,針對一些高維的問題需要進行降維、分解。還要探究一些壓縮數據的方法,經過壓縮的數據可以直接進行傳輸和操作。這一系列的過程除了可以用常規的方法以外還可以利用一些數據的實時分析以及一些先進的算法進行操作。考慮計算機內存和外存的數據傳送問題、分布數據和并行計算的方法。如何無信息損失或無統計信息損失地分解大數據集,獨立并行地在分布計算機環境進行推斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計結果。研究多個數據資源的融合算法,研究利用數據流尋找模型變化時間點的動態變化模型。
四、結束語
在一個新的事物到來以后勢必會對社會的發展帶來一定的沖擊,會慢慢地把一些傳統的關鍵和技術進行淹沒,比如,數碼相機的出現取代了傳統的膠片相機,使得影像業幾乎消亡。在大數據環境下將會對傳統的統計學進行嚴格的考驗,統計學會不會像以往的哲學那樣,只有一些歷史的光環,而不再作為人們分析和利用大數據的資源。目前來看很多的學科都開始慢慢地涌入大數據時代,如果統計學的發展不進行改革的話也會慢慢的被邊緣化。目前統計學的主要的目標就是通過大范圍的獲取數據,然后利用計算機對獲取的數據進行分析,來發現真理,統計的方法和理論有過高的要求,在大數據的環境下存在各種隨機和非隨機的誤差,根本無法滿足這些要求。大數據已經給統計學帶來了很大的機遇,我們不但要洞察到這種機遇,還要看到現在的統計學中的一些基本的分析方法已經不能滿足現在的數據分析,如今一些分布式的大數據已經給統計學帶來了很大的挑戰,由此看來一些統計學家要積極應對目前的這種現狀,不應該把傳統的數據環境作為目前研究的目的,必須積極地去學習新生的事物,只有這樣才能面對未來的挑戰有一席之地。
作者:彭先萌 單位:湖北工業職業技術學院
統計學數據論文:大數據時代下統計學課程教學改革思考
隨著互聯網時代的到來,特別是微博、微信、朋友圈等社交網絡的興起和手機使用功能的多元化,導致人們的生活行為產生大量的數據信息,而企業可以通過這些數據了解顧客的需求以及消費習慣等,并應用大數據技術進行市場細分和定位;與此同時,政府也意識到數據信息的經濟開發價值,并在《“十二五”時期統計發展和改革規劃綱要》中明確提出“:建立現代統計體系就是建立以現代信息技術為支撐的方案設計、任務布置、過程控制和行為監督的統計系統。”2015年3月3日在北京召開的兩會,也特別強調“數字兩會”,讓老百姓通過實實在在的數據對比感受生活的變化。可見,政府、企業乃至老百姓都已經認識到大數據的價值,所以大數據相關人才也成為社會各界爭搶的對象。如何培養符合大數據時代背景下所需要的人才?這使得統計課程的教學不得不面臨較大的改革。
一、大數據的概念
大數據即大的數據集,它不像我們過去那些數值型數據那么簡單,但至今它也尚無確切、統一的定義。通過參照多方對大數據概念的理解,作者認為大數據的概念是指在對海量數據進行傳輸、采集、儲存、處理、分析和挖掘的基礎上,獲得憑直覺難以發現的有用信息,從而揭示數據隱藏的規律和發展趨勢,為決策者所用,它是科技,是訊號,是機會。
二、大數據時代對統計學的影響
大數據時代的到來,對統計工作者而言,為了更好的服務于經濟社會的發展,較大的考驗和“本領”就是如何深度開發和利用海量的數據信息,這就要求統計學既從理論上又在方法上必須進行改革。一方面需要統計學解決更多、更復雜的問題,另一方面也對統計學提出了更高的要求。不僅要求對統計學的理論與方法進行創新,還要求對統計學進行教學改革,尤其是注重培養對象的統計思維的養成。因為統計學是一門方法論科學,在長期的發展過程中,形成了很多具有特色的統計思維,如靜態思維、變異思維、動態思維、指數思維、推斷思維、相關思維、假設思維等等。而這些統計思維對處理不確定現象、分析數據和解釋數據等都有巨大的影響,成為統計學的核心內容。但在大數據時代背景下,由于數據分析直接針對總體,而且具有復雜性和混雜性,因此,有些統計思維可能用不上,就必須摒棄掉,但也需要統計學隨著環境的變化不斷創新新的統計思維。
三、當前統計學課程教學中存在的問題
目前統計學課程在教學中存在以下幾個主要問題:
(一)教學內容偏重理論,學生學習興趣不高
目前的統計學教學中一般采用的是理論的教學模式,雖然也在提倡項目化教學,但是教師主要依托教材,對與統計學相關理論和方法逐一進行介紹,對涉及到的公式和定理進行推導。學生聽和記,真正理解的內容并不多,應用則更談不上。在這樣的教學模式下,學生對該課程的學習不僅興趣不高,而且容易對課程產生抵觸心理。
(二)忽略對統計相關軟件的教學
統計理論和方法很重要,但要真正用統計作為一個工具來解決實際問題,單憑會動筆計算相關的統計指標是遠遠不夠的,尤其是在目前大數據時代背景下。高職院校經濟管理類專業的學生所接觸的統計相關軟件從表面上只有WORD和EXCEL,而這兩軟件往往是在計算機基礎課程中介紹的,在統計學課程中幾乎不作介紹,導致不少高職院校學生沒有意識,更不會使用甚至根本不知道大多數普通函數計算機都具備的求和、平均、方差和標準差、相關系數等統計功能鍵,這也限制了很多學生不會運用統計學思維和方法去看待和解決身邊遇到的實際問題。目前許多統計學課程的教學過程中,由于受到學生基礎差和實訓條件不夠等的限制,教師在講授的統計知識內容的時候主要圍繞描述統計和簡單的推斷統計,而對于分析社會問題的多元統計方法在課堂上涉及不多,另外目前高職可用的教材中也缺乏統計軟件相關理論知識的介紹,導致學生在學習和應用統計軟件進行實際問題的操作時增加難度。
(三)缺乏校企合作
在我國目前國情環境中,大多數高職院校與企業之間很難找到利益共同點,所以實訓條件、實訓項目等受到限制,使得大多數高職院校的在安排該課程教學時偏重理論教學,而實踐教學課時所占課時比重偏低,對開展社會調查的活動僅僅局限于本校學生,并沒有跨出校門,更不能與當地的政府部門、市場調研公司、市場咨詢公司以及企業建立協作和參與機制,導致學生在學習統計和運用統計之間不能較好地銜接。
四、對統計學課程教學改革的思考
在大數據時代背景下,企業和政府對統計工作者要求較高,不但要求具備一定的統計學理論與方法,而且更重要的是要求能夠運用現代化的信息處理工具對海量數據進行采集、處理、分析和挖掘,從而為企業、政府的決策使用者提供正確、快速、的數據支撐資料。為此,作者結合十多年的統計教學經驗,對統計學課程在教學中的改革提出以下幾個方面的思考。
(一)統計學課程教學內容的改革
1.著重介紹統計方法的應用
統計方法有很強的實用性,加之統計學課程的課時限制,所以應該著重介紹統計方法的在實踐中應用。因此,教學中設計并引入好的統計項目,然后從項目中的數據來源入手,著重介紹現成數據如何收集,若項目中沒有現成的數據,則如何采用不同的調查組織方式開展數據的搜集活動?怎樣組織學生設計調查方案?怎樣開展調查活動?怎么做好調研員等知識內容就被引出來,從而讓學生產生對統計課程學習的興趣;若采用抽樣調查,則會涉及到樣本單位數的如何確定?抽樣框如何取得?如何才能保障樣本具有足夠的代表性?如何減少抽樣誤差等。當然,對高職院校學生除了介紹傳統的統計方法外,還是有必要引入國外比較通行的、實踐證明有現實應用價值的一些統計方法,比如時間序列分析、相關分析、回歸分析等,以提高統計方法的可學性和運用性,為高職院校學生踏入社會運用統計方法解決本專業領域問題奠定良好的基礎。故該課程的教學內容可根據專業的特殊要求、課時的安排情況進行適當的改革,而且重點體現統計方法的有用性和可行性。
2.在教學內容中增加Excel軟件的運用能力
目前在實際統計學課程教學中,教師并沒有把Excel軟件作為教學內容教給學生,而是認為計算機基礎中學生已經學習了,然后讓學生在課外自行復習和運用,這樣效果就大打折扣。作為高職院校應結合學生的特點有針對性的將Excel應用軟件作為統計學課程的實訓內容,增加實訓課時,提高學生的Excel基礎應用、Excel函數、Excel圖表與圖形以及Excel數據透視表等方面的應用能力。
(二)創新教學模式,激發學生興趣
統計學是一門實用性很強的課程,我們應該結合高職院校學生的特點創新教學模式,激發學生學習統計學課程的興趣。例如在課程教學中以“練———學———思———拓”能力訓練模式進行課堂教學模式改革,讓學生在快樂中學習、快樂中成長,同時挖掘學生學習趣味性、調動學生積極性、注重團隊合作、增強溝通交流,并與就業接軌,多方位、全過程提高學生素質等,打破了僵化死板的教學方式,樹立以學生為本的教學思想,著力培養學生的個性化發展和自主學習能力、創新思維能力和綜合實踐能力、開發思維能力、競爭能力,有助于學生理解、掌握統計方法的應用條件和應用思路,強化了學生的統計思維。
(三)加強校企合作,提高學生實踐創新能力
社會經濟現象是錯綜復雜的,其表現的各種數據信息在相互影響、相互作用,這就要求學生不僅學會在實踐中去尋找各種異常出現的原因,而且也要求學生能對事物的關聯、因果、發展等方面進行分析,培養學生嚴謹的數據處理態度,同時增強學生創新統計思維。為此,在開展社會與企業實踐活動時,建議并組織學生以小組為單位,然后再來選擇和確定實踐課題,當然,研究課題可以是學生日常生活中所關心的問題,如大學生校園戀愛觀的調查,也可以是社會經濟中的熱點問題,如生態功能區環境保護統計監測研究。因此,在學院“會-站-室”的整體框架下,在學院公共服務平臺的支撐下,在系專業共建委員會的有力支持下,通過加強與當地的統計局、市場咨詢公司、市場調查公司、企業等單位之間的合作,讓學生真正參與社會統計實踐活動,從而使得學生在實踐中體會統計理論與方法的美感,感受統計的在生活中的樂趣。
(四)優化課程考核評價方法
在“兩全多方”人才培養質量保障體系下,為實現高職院校和行業企業共訂標準、共管過程、共評效果。統計學課程的考核應多樣化,既考核學生對統計理論的理解程度,也考核學生對統計知識的綜合運用能力,同時也考核學生在參與統計實踐中的組織能力、團隊協作精神、溝通能力、表達能力等;對學生的評價不僅僅是任課老師,還需要學生之間的互評、家長對學生的綜合評價以及第三方對學生的評價等。總之,統計學一門關于一切學問的學問,在大數據時代,應加強統計學基礎性原理與真實的教學,凸出統計學理論與方法的應用性,讓學生建立起大數據統計思維,并在統計思維的引導下,選擇合適或最有效的統計方法,或通過創新統計方法,有效地解決實際問題。
作者:陳秀芬 單位:四川化工職業技術學院
統計學數據論文:大數據時代統計學專業教學改革探索
從狹義上來講,大數據的構成包括兩方面,一方面是大樣本,在統計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。
一、大數據及其意義
大部分傳統的統計方法只適合分析單個計算機存儲的數據。而目前大數據的環境包括以下要素。1.流數據:數據快速地不斷涌來,現有存儲設備和計算能力難以應付這種數據流(比如歐洲高能粒子對撞機所產生的數據,每秒鐘可以達到500TB)。2.磁盤存儲限制:數據已不能存儲在內存中,需要硬盤存儲。3.分布存儲狀態:數據分布存儲在多個計算機中。4.多線條狀態:數據存儲在一個計算機中,多個處理器共享內存。大數據的發展就是對數據產生的機制進行探索,將所產生的數據轉變為人們所需要的知識,進而對相關政策的制定產生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據一個孩子的年齡確定他掌握的單詞多少則并不科學。進一步來說,大數據有記錄保存自然與社會現狀的功能。現在大家收集著海量數據,盡管他們還不清楚如何分析大量的數據,但是他們相信需要保存現今社會經濟高速發展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術還不足以測試和分析這些資源,期待今后更先進的測試技術能夠做到。大數據就如同自然和社會的血液那樣記錄著社會的現狀和發展過程。17世紀望遠鏡以及顯微鏡的發明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數據就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數據來觀察和分析自然、經濟、社會的現象。借助于互聯網數據,可以及時了解疾病的疫情、科學的動態、社會的動態。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經感染了流感。大數據將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。
二、大數據帶來的變革
時代的進步有賴于大數據的發展,大數據的發展給時代變革增加了更多的不確定性。就當前研究來看,數據的搜集很大程度上依靠所研究問題的出現來推動其向前發展。不過在不久的將來,隨著大數據時代的到來,人們對于問題的研究將會由“數據”來驅動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據所查詢的數據信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復興時代,隨著學科的不斷細化,不同學科出現了各自的專家。隨著大數據時代的到來,大百科全書式的人物將有可能再次出現,而不同領域的專家的性將被逐步消弱,隨著大數據的不斷發展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統計學家對數據的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數量的相關專業書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常的翻譯軟件,如谷歌翻譯軟件等。大數據已經在各個領域和學科得到了應用,例如醫療領域,大數據可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫生對患者進行疾病診斷等。
三、大數據時代統計學專業教學現狀
隨著科技的不斷發展和進步,人們獲取信息和數據的途徑也發生了很大的變化,電子商務的發展和各種多媒體信息技術的飛速發展和應用,給傳統的統計學應用和教學帶來了機遇的同時也帶來了非常大的挑戰。一方面,由于各種信息和數據的不斷涌入,人們在被動搜集著各種數據。統計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數據的同時也在主動搜集數據信息,不同學科有不同的數據需要。例如經濟學領域的專家每天都在搜集各自的調查數據和觀察數據,而自然科學領域的專家學者則不僅搜集宏觀天文數據,還在搜集微觀基因數據。不同的人們搜集數據的方法也各不相同,有的在實驗室通過試驗進行數據搜集,有的人則通過網絡進行數據搜集和研究。對于當前大數據給統計學帶來的挑戰,美國科學院“大數據分析委員會”給出了分析,他們認為這些挑戰在于對不同格式和結構的數據的處理方面、對于數據來源的追蹤方面、對于共享數據的安全性問題和完整性問題方面、對于樣本異質性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發時的算法方面的問題等。國內相關部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數據科學與工程”會議,第二次是在2013年5月召開的對于大數據原理以及發展前景的探討會,并同時制定了相關的科研計劃。但關于大數據背景下統計學專業教學的探索還非常稀缺。
四、統計學專業課程改革
針對以上所述大數據時代的特點和變革意義以及目前統計學專業教學的現狀,本文進行了相應的初步探索。
(一)改革的總體思路
將現有的統計學頂級雜志或著名文獻中的成熟的大數據分析方法逐步凝練,形成教學內容;將使用R軟件中的函數包實現這些大數據分析方法。
(二)改革的具體內容
1.在《數據挖掘原理與方法》課程中引入大數據分析方法及其R語言的代碼實現。2.在《非參數統計》課程中引入多元非參數統計方法(諸如多元符號、多元秩、多元符號秩等)、非參數回歸模型、半參數回歸模型及其R語言的代碼實現。3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態LASSO回歸等)及其R語言的代碼實現。4.在《多元統計分析》課程中引入高維統計分析方法及其R語言的代碼實現。5.在工科《概率論與數理統計》課程中引入R語言的代碼實現。
(三)改革的主要創新點
在傳統的統計學專業課程教學中引入近期的大數據分析方法及其R語言實現。其中R語言是區別SAS、SPSS等傻瓜軟件的結構化程序設計語言,可以靈活實現傻瓜軟件所不能實現的各種高級數據分析功能。其非常適應于大數據統計分析方法的教學。所以大部分國內外著名大學已經不再使用諸如SAS、SPSS等傻瓜統計軟件進行統計分析方法的教學。R語言已經逐步成為統計學系的標準的教學軟件。
作者:周茂袁 單位:中國民航大學理學院
統計學數據論文:大數據時代統計學專業建設分析
[摘要]大數據時代對統計學人才培養而言,既是機遇又是挑戰。高校的統計學專業要從統計學專業的培養目標出發,通過改革教學模式,調整教學內容,對課程設置、師資培養、課堂教學、實踐環節各個方面進行改革,承擔起大學人才培養的責任。
[關鍵詞]大數據時代;統計學;專業建設;實踐教學
全球知名的麥肯錫咨詢公司最早提出了“大數據”的概念,宣告了大數據時代的來臨;IBM公司指出了大數據的4個特點:數據體量巨大、數據類型繁多、數據產出速度快、數據價值密度低。[1]大數據對高等學校人才培養的影響表現在以下方面:1.思維方式與認知模式的改變;2.海量的學習對象與輔助教學資源;3.開源課程(慕課,微課、翻轉課堂)的教育方式對傳統教學模式產生沖擊;4.新媒體模式的社會化互助學習打破教學界限;5.網絡思維拓展了個體思維。[2]在這個意義上,大數據時代對高校人才培養提出了新的要求。對于統計學專業建設而言,大數據的背景既是一個機遇也是一個挑戰。高等學校統計學專業需要通過整合現有人才培養資源、建立創新人才培養平臺,承擔起大學人才培養的責任,緊隨大數據的發展趨勢,占領大數據發展人才培養的制高點,體現高等學校滿足社會需求、提供智力支撐的載體作用,確保大數據產業科學、健康、持續、高速地發展。本文擬從統計學專業的培養目標出發,研討在大數據時代統計學專業學生培養各個環節的問題。
一、關于培養目標
統計學專業的培養目標是:培養德、智、體、美發展,掌握堅實的數學、統計學基本理論,具備扎實的經濟學基礎和數據分析技能,能夠熟練地運用統計方法和數據分析軟件進行數據分析和數據處理,能在企事業單位和經濟管理部門從事統計調查、數據分析、風險決策、質量管理等工作,或者在科研單位、高等學校從事統計學研究和教學工作的高級專門人才。本專業學制四年,通過四年的學習,統計學專業的畢業生應具備以下能力:
1.掌握堅實的數學、統計學基本理論。掌握數學、統計學的基本理論、基本知識、基本方法和計算機操作基本技能;具備數據采集、調查問卷設計和數據處理的基本能力;了解與經濟統計、生物統計、醫學統計或社會統計等有關的自然科學、社會科學某一領域的基本知識,具備利用統計學專業知識,發現、分析、解決某一領域實際問題的基本能力;了解統計學學科的發展前沿及其應用前景。
2.具備扎實的經濟學基礎和數據分析技能。具備扎實的經濟學基礎,了解國家經濟運行的基本方針、政策、法律、法規;掌握R語言,精通Python、Spark、SAS、SPSS等流行大數據處理軟件中的一種,有較強的統計計算能力;掌握資料查詢、文獻檢索及數據獲取的基本方法;具有一定的從事科學研究和實際工作的能力;英語達到四級水平,計算機達到二級水平。
二、關于課程設置
1.專業主干課程包括:數學基礎部分(數學分析,高等代數與解析幾何)、C語言、數據庫、概率論與數理統計、統計學、微觀經濟學、計量經濟學、時間序列分析、多元統計分析、市場調查方法與抽樣技術、實驗設計、統計預測與決策、數據挖掘、隨機過程、統計分析軟件。
2.充分調研市場需求,在保障基礎課程的前提下,靈活設置選修課程,機動調整培養計劃及課程設置。
3.對高年級實行模塊式分流,包括數據處理、數理金融等防線,并與數據分析師、市場調查師等一些職業資格考試接軌,開設相關選修課。
三、關于師資培養
師資方面,要培養、引進并舉,以培養為主。主要立足于現有師資隊伍,同時積極引進國內外統計學專業人才,充實、提高教學研究水平。1.努力為教師的成長創造條件,支持和鼓勵教師攻讀統計學博士學位;積極引進國內外統計學博士。2.加強在職培訓提高,深入有效地開展統計學教研活動,教師相互學習,在教學過程中不斷學習,促進教師教學科研水平同步提高。3.結合課程教育,以單位進修方式對教師進行短期培訓。鼓勵教師外出學習,要求每人掌握\精通一門課程或一門外語;通過培訓學習近期統計學,數據分析教育理念、方法、技術,提高教師的教學水平,以滿足不斷變化的教學需要;積極開展科研立項及學術交流活動,積極組織教師申報部級、省級教學改革項目,并積極開展學術交流活動。4.對于實戰中比較流行的軟件、算法、設備,聘請具備豐富經驗的數據分析公司工程師來校為學生授課。
四、關于課堂教學
實踐性、動手能力培養貫穿教學始終,除基礎課程外,其他課程都在實驗室進行教學,學用結合。數據分析語言\軟件教學貫穿課程教學,如:1.基于R語言的時間序列分析;2.基于SPSS的多元統計分析;3.高等統計與SAS語言,等等。每門課程完成一個案例報告。
五、關于實踐環節
(一)3+1模式
學生前三學年在學校,第四學年在實習單位學習。在實習單位的前四個月,學習數據分析實踐技能,以案例教學為主;后8個月在公司、企業接觸具體工作。冶金工業過程湖北省系統科學重點實驗室、統計學專業實驗室、湖北省統計局、武漢市統計局、廣發證券等實習實訓基地是學生開展實踐活動的硬件保障及重要保障。
(二)校內實習
以數據挖掘技術為依托,每年為校內教務處、研究生處、招生就業處、校醫院、招投標辦公室、后勤等部門出具一份完整、的數據分析報告,確實對學校各個部門的決策起到積極作用。以項目形式申報,每年以此類項目作為統計學專業的固定訓練題,或專業實踐題目。
(三)參加數據分析、數據挖掘
競賽學科競賽為創新統計學科人才培養模式,進一步提升大學生調研能力、數據分析能力和處理實際問題能力,促進學校應用型人才的培養,同時為社會實際工作部門和高校人才培養的銜接提供一個良性平臺。[5]我們要求統計學專業的學生在讀期間都必須參加至少一次數據分析、數據挖掘類競賽,通過競賽提高學生分析、解決實際問題的能力,并以此作為創新學分的得分依據。目前學生參加的相關專業競賽有:
1.全國大學生數據挖掘挑戰賽。競賽由全國大學生數學建模競賽組織委員會主辦,廣州泰迪智能科技有限公司承辦,廣東省工業與應用數學學會、華南師范大學數學科學學院協辦。從2015年開始,我們組隊參加這一比賽,成績逐步提高。2015年雖然沒有獲得很好的成績,但卻鍛煉了學生,激勵了教師。參加了競賽的學生,數據分析能力有了明顯的長進,論文撰寫水平也提高不少。這些學生的本科學位畢業論文內容充實,條理清晰,答辯時胸有成竹,語言流暢。一些學生因為參加過這一賽事,在找工作時增分不少,順利簽下了數據分析師的就業合同。我們教師也從這一賽事中了解了目前數據分析領域的前沿知識,感受到了和兄弟院校的差距,這促使教師積極參加國內數據分析的各種培訓,鉆研數據分析的近期方法與技術,提高數據分析教學能力。2016年,我校再次組隊參加該項賽事,獲得國家三等獎兩項。
2.中國高校SAS數據分析大賽。這是由SAS中國公司發起的專門針對中國高校數據分析相關專業的一次非營利性的公益大賽。2016年,我校首次組織統計專業本科生、研究生混合組隊參加了這一比賽,總共3隊參加華中區初賽,1隊參加復賽,在比賽中表現良好,最終獲得“匯豐杯”2016中國高校SAS數據分析大賽決賽百強,并被授予“大賽組織獎”。
六、就業前景
武漢科技大學從2012年就開始培養統計學研究生,2015年本科也開始招生。實際上,我們從2001年就在信息與計算科學本科專業開設了經濟統計模塊,2002年就開始招收數理統計方向的研究生,已經有了10屆畢業生,這些學生的就業單位有政府統計局、金融行業的證券交易所、保險公司、銀行、軟件公司、企業里的信息中心、高校等。還有部分學生繼續攻讀了數理統計、經濟統計、隨機分析等方向的博士研究生,畢業后在政府部門、高校從事研究工作。我們通過對這些畢業生的社會調查與用人單位的信息反饋,對本專業學生的社會適應能力以及社會需求有了深入的了解。這也為我們做好教學改革工作指明了方向。在大數據時代,培養符合社會需求的統計學人才,這是高等學校的責任和義務。
作者:馮育強;李德宜;余東 單位:武漢科技大學理學院
統計學數據論文:大數據時代統計學重構分析
摘要:基于大數據特征,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果評價標準的重建等成為統計學理論面臨解決的首要問題.為適應大數據時代的發展,分析了大數據時代傳統統計學所面臨的機遇與挑戰,對傳統統計學的繼承、發展和完善,重構大數據時代新的統計理論有其重要意義.
關鍵詞:大數據;統計學;數據分析;抽樣理論;理論
重構隨著信息科學技術的高速度發展,當代獲取和儲存數據信息的能力不斷增強而成本不斷下降,這為大數據的應用提供了必要的技術環境和可能.應用大數據技術的優勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數據信息.近年來,專家學者有關大數據技術問題進行了大量的研究工作[1],很多領域也都受到了大數據分析的影響.這個時代將大數據稱為未來的石油,它必將對這個時代和未來的社會經濟以及科學技術的發展產生深遠的意義和影響.目前對于大數據概念,主要是從數據來源和數據的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的定義.麥肯錫全球數據分析研究所指出大數據是數據集的大小超越了典型數據庫工具集合、存儲、管理和分析能力的數據集,大數據被Gartner定義為極端信息管理和處理一個或多個維度的傳統信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規模”是GB級數據,“海量”是TB級數據,而“大數據”是PB及其以上級別數據[2].
一些研究學者把大數據特征進行概括,稱其具有數據規模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數據區別于其他概念的最重要特征是快速動態變化的數據和形成流式數據.大數據技術發展所面臨的問題是數據存儲、數據處理和數據分析、數據顯示和數據安全等.大數據的數據量大、多樣性、復雜性及實時性等特點,使得數據存儲環境有了很大變化[45],而大部分傳統的統計方法只適合分析單個計算機存儲的數據,這些問題無疑增加了數據處理和整合的困難.數據分析是大數據處理的核心過程,同時它也給傳統統計學帶來了巨大的挑戰[6].產生大數據的數據源通常情況下具有高速度性和實時性,所以要求數據處理和分析系統也要有快速度和實時性特點,而傳統統計分析方法通常不具備快速和實時等特點.基于大數據的特點,傳統的數據統計理論已經不能適應大數據分析與研究的范疇,傳統統計學面臨著巨大的機遇與挑戰,然而為了適應大數據這一新的研究對象,傳統統計學必須進行改進,以繼續和更好的服務于人類.目前國內外將大數據和統計學相結合的研究文獻并不多.本文對大數據時代這一特定環境背景,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果的評價標準的重建等問題進行分析與研究.
1傳統意義下的統計學
廣泛的統計學包括三個類型的統計方法:①處理大量隨機現象的統計方法,比如概率論與數理統計方法.②處理非隨機非概率的描述統計方法,如指數編制、社會調查等方法.③處理和特定學科相關聯的特殊方法,如經濟統計方法、環境科學統計方法等[7].受收集、處理數據的工具和能力的限制,人們幾乎不可能收集到全部的數據信息,因此傳統的統計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數據,但從實際角度出發,因所需成本過大,也會放棄搜集全部數據.然而,選擇的抽樣方法和統計分析方法,也只能較大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數據特征也只是總體大量特征中的一小部分,更多的其他特征尚待發掘.總之,傳統統計學是建立在抽樣理論基礎上,以點帶面的統計分析方法,強調因果關系的統計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數據從而探索數據內部存在規律的一門科學.
2統計學是大數據分析的核心
數的產生基于三個要素,分別是數、量和計量單位.在用數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據,即有根據的數.科學數據是基于科學設計,通過使用觀察和測量獲得的數據,認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設,由此得到了具有實際意義和理論意義的數據.從數據中獲得科學數據的理論,即統計學理論.科學數據是通過統計學理論獲得的,而統計學理論是為獲得科學數據而產生的一門科學.若說數據是傳達事物特征的語言,進行科學研究的必備條件,認知世界的重要工具,那么大數據分析就是讓數據較大限度地發揮功能,充分表達并有效滿足不同需求的基本要求.基于統計學的發展史及在數據分析中的作用,完成將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學.以大數據為研究對象,通過數據挖掘、提取、分析等手段探索現象內在本質的數據科學必須在繼承或改進統計學理論的基礎上產生.
統計數據的發展變化經歷了一系列過程,從只能收集到少量的數據到盡量多地收集數據,到科學利用樣本數據,再到綜合利用各類數據,以至于發展到今天的選擇使用大數據的過程.而統計分析為了適應數據可觀察集的不斷增大,也經歷了相應的各個不同階段,產生了統計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數據挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數據量以指數速度的不斷增長,統計學圍繞如何搜集、整理和分析數據而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現在進入了大數據時代,統計學依舊是數據分析的靈魂,大數據分析是數據科學賦予統計學的新任務.對于統計學而言,來自新時代的數據科學挑戰有可能促使新思想、新方法和新技術產生,這一挑戰也意味著對于統計學理論將面臨巨大的機遇.
3統計學在大數據時代下必須改革
傳統統計學是通過對總體進行抽樣來搜索數據,對樣本數據進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統計結果的評判標準都是離不開樣本的抽取,不能適應大數據的4V特點,所以統計學為適應大數據技術的發展,必須進行改革.從學科發展角度出發,大數據對海量數據進行存儲、整合、處理和分析,可以看成是一種新的數據分析方法.數據關系的內在本質決定了大數據和統計學之間必然存在聯系,大數據對統計學的發展提出了挑戰,體現在大樣本標準的調整、樣本選取標準和形式的重新確定、統計軟件有待升級和開發及實質性統計方法的大數據化.但是也提供了一個機遇,體現在統計質量的提高、統計成本的下降、統計學作用領域的擴大、統計學科體系的延伸以及統計學家地位的提升[7].
3.1大數據時代抽樣和總體理論存在價值
傳統統計學中的樣本數據來自總體,而總體是客觀存在的全體,可以通過觀測到的或經過抽樣而得到的數據來認知總體.但是在大數據時代,不再是隨機樣本,而是全部的數據,還需要假定一個看不見摸不著的總體嗎?如果將大數據看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統統計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數據的復雜程度.但實際上很難做得到,大數據涵蓋多學科領域、多源、混合的數據,各學科之間的數據融合,學科邊界模糊,各范疇的數據集互相重疊,合成一體,而且大數據涉及到各種數據類型.因此想要通過抽樣而使數據量達到傳統統計學的統計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數據和非結構數據交織在一起,系統首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數據信息來自于同一個地址的數據源,等等,傳統的統計學是無法做到的.在大數據時代下,是否需要打破傳統意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數據時代下,傳統統計學面臨改進的首要問題.
3.2統計方法在大數據時代下的重構問題
在大數據時代下,傳統的高維度表達、結構描述和群體行為分析方法已經不能表達大數據在異構性、交互性、時效性、突發性等方面的特點,傳統的“假設-模型-檢驗”的統計方法受到了質疑,而且從“數據”到“數據”的統計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數據噪聲、篩選有價值的數據、整合不同類型的數據、快速對數據做出分析并得出分析結果等一系列問題都有待于研究.大數據分析涉及到三個維度,即時間維度、空間維度和數據本身的維度,怎樣才能、深入地分析大數據的復雜性與特性,掌握大數據的不確定性,構建高效的大數據計算模型,變成了大數據分析的突破口.科學數據的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數據的統計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發展過程,而絕不是否定一種理論、由另一種理論形式所代替.大數據時代的到來統計學理論必須要進行不斷的完善和發展,以適應呈指數增長的數據量的大數據分析的需要.
3.3如何構建大數據時代下統計結果的評價標準框架
大數據時代下,統計分析評價的標準又該如何變化?傳統統計分析的評價標準有兩個方面,一是性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.性評價有時表現為置信水平,有時表現為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數據在一定程度上是全體數據,因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、性問題怎么確定?依據是什么?有效性評價指的是真實性,即為誤差的大小,它與性、性有關.通常性是指觀察值與真實值的吻合程度,一般是無法衡量的,而性用抽樣分布的標準差來衡量.顯然,性是針對樣本數據而言的,也就是說樣本數據有性問題,同時也有性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數據中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數據的全體數據而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為性.但是由于大數據特有的種種特性,使得大數據的非抽樣誤差很難進行防范、控制,也很難對其進行性評價.總之,對于大數據分析來說,有些統計分析理論是否還有意義,確切說有哪些統計學中的理論可以適用于大數據分析,而哪些統計學中的理論需要改進,哪些統計學中的理論已不再適用于大數據統計研究,等等,都有待于研究.所以大數據時代的統計學必是在繼承中求改進,改進中求發展,重構適應大數據時代的新統計學理論.
4結論
來自于社會各種數據源的數據量呈指數增長,大數據對社會發展的推動力呈指數效應,大數據已是生命活動的主要承載者.一個新事物的出現,必然導致傳統觀念和傳統技術的變革.對傳統統計學來說,大數據時代的到來無疑是一個挑戰,雖然傳統統計學必須做出改變,但是占據主導地位的依然會是統計學,它會引領人類合理分析利用大數據資源.大數據給統計學帶來了機遇和挑戰,統計學家們應該積極學習新事物,適應新環境,努力為大數據時代創造出新的統計方法,擴大統計學的應用范圍.
作者:岳曉寧;丁宇 單位:沈陽大學
統計學數據論文:數據科學的統計學內涵探討
一、統計學視角下的數據科學
統計學研究的對象是數據,數據科學顧名思義也是以數據為研究對象,這產生一種直觀的錯覺,似乎數據科學與統計學之間存在某種與生俱來的淵源關系。Wu(1998)直言不諱,數據科學就是統計學的重命名,相應地,數據科學家替代了統計學家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因為數據量大本身并不足以促成“統計學”向“數據科學”的轉變,數據挖掘、機器學習這些概念似乎就已經足夠了。問題的關鍵在于,二者所指的“數據”并非同一概念,數據②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數據,包括數字、文字、音頻、視頻等等。統計學研究的數據雖然類型豐富,如類別數據、有序數據等定性數據,定距數據、定比數據等定量數據,但這些都是結構化數據;數據科學所謂的數據則更為寬泛,不僅包括這些傳統的結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據,即,大數據。大數據(以半/非結構型數據為主)使基于關系型數據庫的傳統分析工具很難發揮作用,或者說傳統的數據庫和統計分析方法很難在可容忍的時間范圍內完成存儲、管理和分析等一系列數據處理過程,為了有效地處理這類數據,需要一種新的范式———數據科學。真正意義上的現代統計學是從處理小數據、不的實驗等這類現實問題發展起來的,而數據科學是因為處理大數據這類現實問題而興起的。因此數據科學的研究對象是大數據,而統計學以結構型數據為研究對象。退一步,單從數量級來講,也已發生了質變。對于結構化的大規模數據,傳統的方法只是理論上的(可行性)或不經濟的(有效性),實踐中還需要借助數據挖掘、機器學習、并行處理技術等現代計算技術才能實現。
二、數據科學的統計學內涵
(一)理論基礎
數據科學中的數據處理和分析方法是在不同學科領域中分別發展起來的,譬如,統計學、統計學習或稱統計機器學習、數據挖掘、應用數學、數據密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現了“metric+模式”,如計量經濟學、文獻計量學、網絡計量學、生物統計學等。因此,有學者將數據科學定義為計算機科學技術、數學與統計學知識、專業應用知識三者的交集,這意味著數據科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數據科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現實活動都可以拆解為不同的細分學科,這是必然的。根據Naur(1960,1974)的觀點,數據科學或稱數據學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數據科學作為一個獨立的學科提出時,將數據科學表述為統計學加上它在計算技術方面的擴展。這種觀點表明,數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統計學最初只是作為征兵、征稅等行政管理的附屬活動,而現在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規模數據(登記數據),到結構型的小規模數據(抽樣數據)、結構型的大規模數據(微觀數據),再擴展到現在的非(半)結構型的大規模數據(大數據)和關系數據等類型更為豐富的數據。從分析方法的擴展來看,是從參數方法到非參數方法,從基于模型到基于算法,一方面傳統的統計模型需要向更一般的數據概念延伸;另一方面,算法(計算機實現)成為必要的“可行性分析”,而且在很多方面算法模型的優勢越來越突出。注意到,數據分析有驗證性的數據分析和探索性的數據分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數據是由背后的一個(隨機)模型生成,因此數據分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數據導向是計算機時代統計學發展的方向,這一觀點已被越來越多的統計學家所認同。但是數據導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數據背后存在某種生成機制;而算法模型則認為復雜的現實世界無法用數學公式來刻畫,即,不設置具體的數學模型,同時對數據也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發展而得到快速成長,然而很大程度上是在統計學這個領域之外“悄然”進行的,比如人工神經網絡、支持向量機、決策樹、隨機森林等機器學習和數據挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到的模型———外推預測能力強。而對于現實中復雜的、高維的、非線性的數據集,更切合實際的做法是直接去尋找一個恰當的預測規則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強。基于算法的基本形式類似于非參數方法y=f(x,ε),但是比非參數方法的要求更低yx,因為非參數方法很多時候要求f或其一階導數是平滑的,而這里直接跳過了函數機制的探討,尋找的只是一個預測規則(后續的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數是被當作一個確定的值通過優化算法得到的),并不是統計意義上的推斷解。
(二)技術維度
數據科學是基于數據的決策,數據分析的本質既不是數學,也不是軟件程序,而是對數據的“閱讀”和“理解”。技術只是輔助數據理解的工具,一個毫無統計學知識的人應用統計軟件也可以得到統計結果,但無論其過程還是結果都是可疑的,對統計結果的解釋也無法令人信服。“從計算機科學自身來看,這些應用領域提供的主要研究對象就是數據。雖然計算機科學一貫重視數據的研究,但數據在其中的地位將會得到更進一步的加強”。不可否認,統計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數據量快速膨脹,數據來源、類型和結構越來越復雜,迫切需要開發更高效率的存儲和分析工具,可以很好地適應數據量的快速膨脹;另一方面,計算機科學技術的迅猛發展為新方法的實現提供了重要的支撐。對于大數據而言,大數據分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統計軟件來協助基本的統計分析和計算,而是大數據并不能像早先在關系型數據庫中的數據那樣可以直接用于統計分析。事實上,面對越來越龐雜的數據,核心的統計方法并沒有實質性的改變,改變的只是實現它的算法。因此,從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現統計分析的輔助工具,核心的數據分析邏輯并沒有實質性的改變。因此,就目前而言,大數據分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)應用維度
在商業應用領域,數據科學被定義為,將數據轉化為有價值的商業信息①的完整過程。數據科學家要同時具備數據分析技術和商業敏感性等綜合技能。換句話說,數據科學家不僅要了解數據的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數據科學家從一開始就應該熟悉整個數據分析流程,而不是數據庫、統計學、機器學習、經濟學、商業分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經在專業領域內有所成就的統計學家、程序員、商業分析師相互學習。在提及數據科學的相關文獻中,對應用領域有更多的傾向;數據科學與統計學、數學等其他學科的區別恰在于其更傾向于實際應用。甚至有觀點認為,數據科學是為應對大數據現象而專門設定的一個“職業”。其中,商業敏感性是數據科學家區別于一般統計人員的基本素質。對數據的簡單收集和報告不是數據科學的要義,數據科學強調對數據多角度的理解,以及如何就大數據提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發問)。同時數據科學家要有良好的表達能力,能將數據中所發現的事實清楚地表達給相關部門以便實現有效協作。從商業應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念,數據分析的目的很大程度上也是為了增進商業理解,而且包括數據科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環境科學、生物醫藥、互聯網技術等領域所面臨的大數據挑戰。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫學》、《科學-職業》專門就日益增長的科學研究數據進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數據(數據密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上是將數據從計算科學中單獨區別開來了。
三、數據科學范式對統計分析過程的直接影響
以前所謂的大規模數據都是封閉于一個機構內的(數據孤島),而大數據注重的是數據集間的關聯關系,也可以說大數據讓孤立的數據形成了新的聯系,是一種整體的、系統的觀念。從這個層面來說,將大數據稱為“大融合數據”或許更為恰當。事實上,孤立的大數據,其價值十分有限,大數據的革新恰在于它與傳統數據的結合、線上和線下數據的結合,當放到更大的環境中所產生的“1+1>2”的價值。譬如消費行為記錄與企業生產數據結合,移動通訊基站定位數據用于優化城市交通設計,微博和社交網絡數據用于購物推薦,搜索數據用于流感預測、利用社交媒體數據監測食品價等等。特別是數據集之間建立的均衡關系,一方面無形中增強了對數據質量的監督和約束;另一方面,為過去難以統計的指標和變量提供了另辟蹊徑的思路。從統計學的角度來看,數據科學(大數據)對統計分析過程的各個環節(數據收集、整理、分析、評價、等)都提出了挑戰,其中,集中表現在數據收集和數據分析這兩個方面。
(一)數據收集方面
在統計學被作為一個獨立的學科分離出來之前(1900年前),統計學家們就已經開始處理大規模數據了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規模數據(樣本),大部分經典的統計方法(統計推斷)以及現代意義上的統計調查(抽樣調查)正是在這個時期產生。隨后的45年里,統計方法因廣泛的應用而得到快速發展。變革再次來自于統計分析的初始環節———數據收集方式的轉變:傳統的統計調查方法通常是經過設計的、系統收集的,而大數據是零散實錄的、有機的,這些數據通常是用戶使用電子數碼產品的副產品或用戶自行產生的內容,比如社交媒體數據、搜索記錄、網絡日志等數據流等,而且數據隨時都在增加(數據集是動態的)。與以往大規模數據不同的是,數據來源和類型更加豐富,數據庫間的關聯性也得到了前所未有的重視(大數據的組織形式是數據網絡),問題也變得更加復雜。隨著移動電話和網絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數據從常規調查中越來越難以取得(從各國的經驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統計的數據來源已經無法局限于傳統的統計調查,迫切需要整合部門行政記錄數據、商業記錄數據、個人行為記錄數據等多渠道數據源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數據分析方面
現代統計分析方法的核心是抽樣推斷(參數估計和假設檢驗),然而數據收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數據構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數據同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數據勝于好的算法”這與統計學的關鍵定律(大數定律和中心極限定理)是一致的。同樣,在大數據分析中,可以用數量來產生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據導向的、基于算法的數據分析方法成為計算機時代統計學發展無法回避的一個重要趨勢。算法模型不僅對數據分布結構有更少的限制性假定,而且在計算效率上有很大的優勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數據分析首先涉及到存儲、傳輸等大數據管理方面的問題。僅從數量上來看,信息爆炸、數據過剩、數據泛濫、數據墳墓、豐富的數據貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數據中有利用價值的部分卻少之又少或塵封窖藏難以被發現。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數據。然而,大數據時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數據。因為:數據再怎么拋棄還是會越來越多。我們不能通過刪減數據來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現實,提高處理海量數據的能力。退一步,該刪除哪些數據呢?當前無用的數據將來也無用嗎?顯然刪除數據的成本要大于存儲的成本。大數據存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統,它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統存儲的數據僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統計分析。而NoSQL這類分布式存儲系統可以實現高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統的數據庫編程,二者的差異將變得越來越模糊。大數據分析的可行性問題指的是,數據量可能大到已經超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數據相對也就“大”了。換句話說,可行性問題主要是,數據量太大了,或者算法的復雜度太高。大數據分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網格計算也是并行處理,但是對于大數據而言,由于很多節點需要訪問大量數據,因此很多計算節點會因為網絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節點上存儲數據,以實現數據的本地快速訪問。因此,數據本地化是MapReduce的核心特征。
四、結論
(一)數據科學不能簡單地理解為統計學的重命名,二者所指“數據”并非同一概念,前者更為寬泛,不僅包括結構型數據,而且還包括文本、圖像、視頻、音頻、網絡日志等非結構型和半結構型數據;同時,數量級也是后者難以企及的(PB以上)。但是數據科學的理論基礎是統計學,數據科學可以看作是統計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數據導向的、基于算法的數據分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數據考驗的并不是統計學的方法論,而是計算機科學技術和算法的適應性。譬如大數據的存儲、管理以及分析架構,這些都是技術上的應對,核心的數據分析邏輯并沒有實質性的改變。因此,大數據分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統計分析的需要。
(三)大數據問題很大程度上來自于商業領域,受商業利益驅動,因此數據科學還被普遍定義為,將數據轉化為有價值的商業信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數據產生的土壤,符合數據科學數據導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經意識到,數據庫技術的下一個“大數據”挑戰將會來自科學領域而非商業領域(科學研究領域成為產生大數據的重要土壤)。他提出科學研究的“第四范式”是數據,不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數據,而非將數據用于計算”。這種觀點實際上將數據從計算科學中單獨區別開了。
(四)數據科學范式對統計分析過程的各個環節都提出了挑戰,集中表現在數據收集和數據分析這兩個方面。數據收集不再是刻意的、經過設計的,而更多的是用戶使用電子數碼產品的副產品或用戶自行產生的內容,這種改變的直接影響是淡化了樣本的意義,同時增進了數據的客觀性。事實上,在某些場合(比如社會網絡數據),抽樣本身是困難的。數據的存儲和分析也不再一味地依賴于高性能計算機,而是轉向由中低端設備構成的大規模群組并行處理,采用橫向擴展的方式。
(五)目前關于大數據和數據科學的討論多集中于軟硬件架構(IT視角)和商業領域(應用視角),統計學的視角似乎被邊緣化了,比如覆蓋面、代表性等問題。統計學以數據為研究對象,它對大數據分析的影響也是顯而易見的,特別是天然的或潛在的平衡或相關關系不僅約束了數據質量,而且為統計推斷和預測開辟了新的視野。
作者:魏瑾瑞蔣萍
統計學數據論文:大數據環境下統計學改革探討
摘要:進年來,隨著科學技術的不斷創新,信息技術的不斷發展,人類文明已經迎來了大數據時代,隨之而來的必將是經濟的不斷攀升,企業運行模式的不斷轉型,人們生活方式的不斷改變,社會整體經濟以及人們生活方式也將朝著多元化、便捷化、科技化、舒適化方向發展,所以,這將是一個具有潛力的新型產業,而與之對應的統計學也將順勢而行,迎來新的改革,基于在大數據環境下統計學理論及方法改革探究,筆者進行簡單闡述與研究。
關鍵詞:大數據:統計學理論:創新應用
顧名思義,統計學幾乎是對所有領域的數據進行統計與研究、分析篩選,因而統計學在如今的大數據時代幾乎涉及到各行各業,其表現方式為,統計出來的數據進行科學的研究與分析,可以有效的幫著企業獲取有效信息,探索其中數量規律行,進而企業可以更高效、更精準的進行工作。而如今隨著現代信息技術以及數字科學技術的不斷發展,統計學也得到了更多的應用,也被人們更加重視,應用最多的為企業管理系統中,統計學中的理論及其分析方式幫助企業進行對數據數量規律性的探以及定性分析,為企業尋找自身的管理經營的基礎進行有效地夯實,奠定企業向更加穩定方向進行發展。而如今計算機軟件的不斷發展與更新,大數據時代的到來,統計學的應用也會得到更為廣泛的發展,其中有政府和企業利用計算機對相關數據的采集、整理、統計進行綜合的分析。統計學相關的軟件開發商也將軟件設計的更為簡易化、便捷化,使得非統計學專業的人員也可以使用。當今社會經濟高速發展,統計學的應用及其發展趨勢將會迎合時代的到來進行改革改變,促進社會經濟的快速提高。
一、大數據時代的內涵及其意義
(一)大數據時代的內涵
大數據是指在一定時間內對信息的捕捉、管理、處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力、流程優化能力的海量、高增長率和多樣化的信息資產。針對這些信息資產,利用統計學原理對其進行數據分析、提煉、分解。也可以從另一個方面理解大數據,它涉及各行各業,是多個領域數據的集中區域,涉及到的有自然科學、人文科學、社會經濟學等等相關的混合數據,它們之間相互參雜,互相融合,形成非常龐大的數據系統。目前傳統統計學中的統計方法是分析單個計算機系統的數據儲備,無法分析多臺計算機的數據,在數據統計中產生了局限性、單一性、不穩定性和客觀性等,但是目前大數據時代的到來,改變了如今這一現象,改變了大數據環境下數據流、磁盤存儲、分布存儲、多線條等環境。大數據環境主要起到的作用為,將龐大而復雜的數據進行轉換,轉換成為簡單易懂、顯而易見的內容,進而使工作人員對數據進行源頭和機制的追述,從而研究出適合自身并有效的應對策略。因將數據轉換成需要的知識需要相對緩慢的時間,所以工作人員將當前龐大復雜的數據分別存放在不同的儲備空間里,有些工作人員將目前無法分析的或是不需要的數據進行整體精準的記錄儲存,記錄成一整套的數據發展史,已供日后應用,以備不時之需,為今后科研做出充分準備。
(二)大數據時代給社會帶來的改革
大數據在一夜之間成為各大互聯網上的討論話題,成為一個包含性非常強的概念,大數據時代也成為人們關注的話題,它的到來已然成為不爭的事實,從本質上來看,它是當今中新型的產業,通過對海量的數據進行統計分析追蹤發現龐大的市場,通過對人們行為喜好進行科學分析,獲取營銷手段。大數據使得廣告投放精準化、醫療衛生體系精密化、社會安全管理有序化等多方面優勢,同時大數據時代的到來隨著帶來了新的新業市場,大數據將為全球帶來440萬個IT崗位和上千萬個非IT崗位,提供了更多的就業崗位。大數據時代到來的變革之大,影響著人們傳統的工作方式,各行各業的人利用研究問題來驅動收據數據,然后再利用收集來的數據進行分析,從而解決問題,從這一行為來講,人們會慢慢適應通過大數據進行統計學的研究分析來解決問題,利用通過統計學理論開發的軟件搜索、分析一些研究性成果。目前統計學家通過數據的收集、數據的處理以及個人分析能力進行科學探索,如今大數據的到來將會威脅的他們的領域,大數據將我們難以理解的內容翻譯成我們一看便知的統計成果,優化了人們工作的便捷性、舒適性等。
二、大數據時代統計學的發展研究
大數據發展如今,滲透社會的各個角落,分析大數據需要多個領域的結合,它并非單一的科學領域,自成一體,現如今的統計學家不僅需要研究探討計算機對數據的實時決策,更是要將其與統計學理論及其方法相互結合,同時,計算機專家也要不斷學習統計學的一些知識,統計學與大數據相互結合才能順應時代的發展。獲取大數據之后,研究探討大數據時,針對數據分析的高難問題,利用統計學原理對其進行數據分析、提煉、分解時,需創新出新的更便捷更高效的統計處理方法,在壓縮提煉過程中,解決數據混雜的問題,在分解數據中,解決精準問題,使得大數據與統計理論更好的溝通合作,構造全局統計結果。統計學主要是對海量的數據進行整理分類,結合計算機進行科學分析,探究出數據的數量規律性,從而得出結論,由于目前統計學中的統計學理論和統計方法與時代稍有差距,如今更是大數據時代,而大數據隨機或非隨機的誤差比較大,所以傳統的統計學理論及方法無法滿足如今變革,也無法更好的獲取大數據背景下所帶來的各種機遇。現在的統計學家應該更加努力專研統計學理論以及對數據壓縮、分解的方法,舍棄無法適應當前時代的陳舊理論及方法,必須去學習如何迎合新的事物的到來進行改革改變,只有這樣才能順勢而行。
作者:宋瑞雪 周晏羽 黃揚藝 單位:沈陽理工大學
統計學數據論文:大數據時代下統計學面臨的挑戰及建議
摘要:傳統的統計學是因數據而生的,也是以研究數據為根本目的,傳統統計學有其獨特的數據收集、整理與分析的方法體系,也確實為我們研究數據帶來了便利,但是不得不思考的是在數據爆炸的信息時代,尤其是“大數據”概念產生以后,傳統的統計學如果不改變,又將如何應對大數據分析帶來的挑戰,該文將從零售行業的角度分析大數據為傳統統計學帶來的諸多挑戰。
關鍵詞:總體數據;相關性;個性化營銷;定制服務
隨著科技的發展,大數據已經成為信息時代的一場技術革命。大數據是指傳統數據庫管理工具難以處理的大量的、多樣化的數據。當前普遍認為大數據有3個特點:及時,數據量非常大;第二,數據增長速度非常快;第三,數據類型越來越多樣化[1]。零售業作為傳統的線下實體經營行業,積累了大量的消費者以及管理層的數據,如果依靠傳統的統計學模型對這些數據進行分析,很難得出可以用于企業經營管理的有效信息,加上年輕一代消費者越來越追求個性化,所以傳統統計學所采用的根據部分樣本推斷總體的分析方法已經無法滿足市場的個性化需求,因此,傳統統計學要想跟上時展的步伐,就必須做出與之相適應的改變。
1零售行業里大數據與傳統統計學的區別
維克多?邁克爾在《大數據時代》一書中提出了大數據思維的3個最顯著的變化:一是樣本等于總體。這與過去基于樣本進行統計分析的思維截然不同;二是不再追求性。在大數據中往往存在“噪音”和罕見事件,這樣的數據影響了結果的性;三是相關分析比因果分析更重要,在大數據時代我們將注意力更多地放在“是什么”而不是“為什么”[2]。大數據的以上特性在零售行業同樣適用,零售行業的大數據與傳統統計學的區別有以下3點。及時,大數據收集總體數據,而傳統統計學多采用抽樣的方式收集部分數據。傳統統計學在做統計分析時首先針對某一個問題提出假設,然后確定需要調查對象的總體,由于數據采集存在一定的難度,所以統計分析采取從總體中隨機抽樣選取一部分數據作為分析的對象,如此的話對隨機抽樣的方法與數據采集的性要求是非常高的。而大數據收集的是數據“總體”,在進行分析的時候不會人為進行假設,排除了人的干擾因素,僅僅從數據本身出發進行數據分析。在零售行業如果能運用大數據思維分析數據,從產生數據的顧客行為本身出發,針對不同顧客做出個性化營銷,而不是人為假設的話,管理層就可以根據數據進行預測,避免了主觀的經驗與直覺的判斷。沃爾瑪作為零售行業的巨頭,運用大數據分析得出的著名的啤酒與尿布理論可以證明這一點。第二,大數據注重個體行為的研究,統計學用樣本數據推斷總體行為。傳統的統計學采用抽樣調查的方式對樣本數據進行分析,用樣本推斷總體,那些在圖表上反映出來的異常數據被排除在外。大數據包容一切數據,其中包括各種結構化、半結構化、非結構化甚至是異構數據。對于零售行業而言,顧客的總體行為表現是沒有意義的,因為每個顧客的需求不同,在不同的時間和地點需要的商品都不同,只有根據每位顧客的不同行為進行個性化服務才能讓線下的零售行業有優勢可言。美國品質連鎖百貨Nordstorm最近開始采用線下實體店客流分析服務供應商EuclidAnalytics公司的客流監測解決方案EuclidZero,基于用戶連接Wifi行為來獲取店內顧客手機的Mac物理地址并進行線下追蹤,由此可以通過單個顧客在百貨店里的行動路線和滯留時間,從而用于改善商品羅列與室內動線以及顧客個性化偏好與推薦服務[3]。第三,大數據注重數據之間的相關性,而傳統統計學更加關注數據分析的結果。從社會發展的角度來看,大數據對數據的關聯性分析更有助于零售行業管理層做出決策。對于傳統零售行業而言,線下的用戶體驗是非常重要的,如果能根據用戶行為數據分析出哪些商品放在一起能促進購買力,那么零售行業將會有更大的利潤空間,相比之下,統計學進行的結果分析顯得沒有那么重要。
2大數據在零售行業的優勢
邁克爾?舍恩伯格說:大數據發展的核心動力就是人類測量、記錄和分析數據的渴望。及時,大數據收集的數據是多樣化的、非標準化的,而統計學收集的數據都是標準化、結構化的,統計學無法對非結構化的數據進行分析與測量。但是在零售行業僅僅對標準化的數據進行分析做出的判斷已無法滿足行業的需求,通過對用戶在商品前滯留的時間以及與貨架上商品的互動行為產生的數據進行分析,從而調整貨架的位置才是主流。第二,大數據可以實時、快速監測與收集數據,而統計學收集數據時間長、難度高。大數據收集與處理數據的能力對于零售行業的供應鏈管理十分有效。零售市場可以利用大數據對庫存和員工行為進行監測,從而為管理層做決策提供依據。沃爾瑪為了提高大數據成果在不同部門之間的高效利用,并增加存貨管理和供應鏈管理的投入回報率,其開發了RetialLink工具。供應商使用該工具可以預先知道不同店鋪商品銷售和庫存情況,從而能夠在沃爾瑪發出指令前自行補貨,極大地減少商品斷貨,提高供應鏈的庫存水平[4]。
3傳統統計學面對大數據挑戰要做出改變
大數據的出現給我們的生活帶來了巨大的改變,甚至不同國家的政府都將大數據作為國家的戰略資源。相比之下,傳統統計學面臨著大數據的巨大挑戰,如果能根據自身優勢做出改變,傳統統計學仍然具有存在的價值。及時,改變數據的收集方式。統計學收集數據時前期要做大量的準備工作,需要耗費大量的人力物力成本,所以想要更加高效收集數據,就必須做出改變。由于大數據是基于互聯網收集數據的,所以對于不使用互聯網的地區和群體來說,大數據就顯得很無力,而傳統統計學可以在此基礎上發揮自身優勢,在以往的數據收集方式上進行創新。第二,傳統統計學在數據的分析思維上也要進行改變。傳統統計學不光要打破只能分析標準化數據的魔咒,更要著重分析問題的本質,而不是一味注重結果分析,雖然“是什么”很重要,但是一直以來探尋事物內在本質才是不斷推動人類社會進步的動力所在,所以統計學也要學會知道“為什么”。
4結語
信息技術的發展是無法想象的,我們無法通過今天來預測未來10年信息行業的發展。只有追上時代的腳步,做出順應時代潮流的改變,才能免遭淘汰,對于傳統統計學也是一樣,停留在原地不動是不明智的,改變才是世界的本質。而所有技術的變革都將反饋給人類的生活,讓人們和社會從中受益。
作者:吳興蔚 單位:河北省張家口市蔚縣及時中學
統計學數據論文:大數據時代統計學面臨機遇與挑戰
摘要:作為與數據緊密相關的統計學學科,在大數據的時代背景下,當今數據的獲取和規模發生了根本的變化,統計學面臨著新的機遇和挑戰,需要在方法論上有所突破,研究統計學在大數據時代的發展趨勢有著十分重要的時代意義。
關鍵詞:大數據;統計學;樣本;機遇;挑戰
21世紀爆發的信息技術革命,改變了社會發展過程中的方方面面。在云技術、物聯網技術等高科技信息技術的大規模革新背景下,網絡數據增長速率十分驚人,海量龐大的數據標志著大數據時代的來臨。作為與數據緊密相關的統計學學科,在大數據的時代背景下,將會面臨一系列的機遇和挑戰,研究統計學在大數據時代的發展趨勢有著十分重要的時代意義。
1.大數據時代統計學面臨的挑戰
統計學是一門傳統的學科,發展至今已經有幾千年歷史,無論是學科理論領域內還是生產實踐過程中,統計學的發展已經十分成熟,存在著許多成熟的研究成果。統計學的不斷發展為人類的社會生產帶來了極大的影響,隨著大數據時代數據呈現海量、分散式的分布狀態,其對統計學的影響也是較為明顯的。一方面,大數據時代數據之“大”已經超出人們的想象,數據之“全”讓人們對于事情的認知更加,大數據的多樣性、大體量改變了數據樣本與總體之間的關系,另一方面,大數據的數據多樣性的特點改變了傳統統計對數據統計分析的主觀訴求,過去人們通過統計分析更偏向于追求“為什么”,而現在的統計分析更趨同與追求“是什么”。這一系列的影響對于統計學的進一步發展提出了新的發展挑戰:
1.1樣本選取以及標準的確定難度加大
樣本統計屬于統計學的核心內容,統計學通過樣本統計對客觀事物數量特點、數量關系等展開研究。在大數據背景下,樣本與總體之間的局部與整體之間的關聯性將會進一步地降低,造成樣本即是總體的變化趨勢,因而會造成大樣本的標準化的變更。數據來源的多樣化進一步的提升了樣本數量,繼而提升了統計度,促進了統計學學科的高精尖的發展。但隨著樣本數量越來越多,而從網絡環境中采集到的數據多半屬于非結構化的數據,但傳統統計學要求結構化數據,利用傳統的關系數據庫難以對非結構數據進行有效的轉換,難以挖掘大數據大樣本數據中的潛在信息。大數據時代統計樣本的選取工作難度不斷提升,傳統統計學缺乏非結構數據的建設,難以發揮出大數據時代,大數據庫有效轉換非結構與結構數據的優勢,也為統計學的進一步發展提出了新的挑戰。
1.2統計軟件以及統計方法的欠缺
隨著信息計算機技術的快速發展,基于計算機運算環境的統計學軟件應運而生,統計學軟件的使用有效提升了統計學中對數據分析和處理的效率和精準率,統計模型也進一步的簡化了統計的實際操作,更有利于一般性的統計工作的實踐操作。大數據背景下,現階段發展較為成熟的統計學軟件如SPSS、DPS等,尚不能夠實現大數據高速傳輸、存儲功能,軟件功能還需要一定的開發和升級。與此同時,數據在大數據時代下屬于一項資本,其被開發的水平還略顯不足,絕大多數被互聯網、搜索引擎以及電子商務等相關IT公司、統計機構所掌握。
2.大數據時代統計學面臨的機遇
2.1統計效率的提升
在大數據時代,統計學的統計效率得到了更好的體現。一方面,大數據的多樣化、及時性特征能夠有效彌補傳統統計中數據的滯后性問題,有效的提升了統計的時效性,另一方面,大數據的高速傳輸為統計的動態數據的收集提供了保障。與此同時,大數據可被頻繁反復應用,采集的統計數據不再單單局限于一種相關用途,其能夠服務于各式各樣的需求。對采集數據應用的次數逐步增多,數據所具備的潛在價值被更的挖掘,而采集數據所產生的成本并不會受數據應用的次數所影響,故各式各樣用途的平均統計成本將得到顯著地降低。
2.2統計學科體系的新延伸
大數據引入到統計學科之中,龐大的數據使得樣本的選取、標準劃分都產生了新的變化,傳統統計中的樣本統計將會進一步的朝向總體統計的方向發展,一并囊括總體統計、樣本統計的統計學科體系,能夠有效消除總體統計的數據采集難度,彌補樣本統計的數據采集不足,達到有效延伸統計學科體系的目的。
2.3統計學科的應用范圍擴大
傳統的統計學實踐是為了去了解一個結果或者一個原因,但基于大數據的統計學科將向人們展示的是一個具體的過程。從前,人們習慣于根據“研究問題”來驅動“收集數據”。今后,大數據到處可得,人們將會用“數據”驅動“研究問題”而這種功能性的還變,促進了統計學應用范圍的進一步擴大,例如傳統的統計學往往被用來作為一個數學形式的參考信息,例如衛生統計、生產統計等等,但在大數據背景下,數據本身所含有的信息更加豐富化和多元化,基于海量用戶下的網絡數據所包含的信息極為廣闊,而這些信息涉及到他們生活中的方方面面,這些信息一旦被深入挖掘出來,將會促進許多產業的快速發展。在大數據背景下,傳統統計學的結構化數據局限會逐步接觸,在非結構或者半結構的數據統計下,統計學將會應用到許多傳統意義上無法數據化的行業領域中。
3結束語
數據是統計學科的核心,也是統計學科的主要價值體現。大數據時代改變了傳統的數據的意義,數據所包含的信息、傳播速度、分布速度也遠遠超出了我們的想象,數據核心意義的轉變,迫使得以此為基礎的統計學科必然會隨之做出改變。機遇與挑戰并存,在新的時期,統計學要想快速完成其學科的有效轉換,就必須要進一步的深入研究大數據的時代特征,并有效地與傳統統計學結合起來,以達成統計學科的進一步發展。
作者:鄭雅倩 單位:海南師范大學數學與統計學院
統計學數據論文:數據挖掘與統計學的比較分析
摘要:數據挖掘來源于統計分析,而又不同于統計分析。數據挖掘不是為了替代傳統的統計分析技術,相反,數據挖掘是統計分析方法的擴展和延伸。
關鍵詞:數據挖掘;統計學;比較
隨著科學技術的發展,利用數據庫技術來存儲管理數據,利用機器學習的方法來分析數據,從而挖掘出大量的隱藏在數據背后的知識。這種思想的結合形成了現在深受人們關注的非常熱門的研究領域:數據庫中的知識發現――KDD(Knowledge Discovery in Databases),其中,數據挖掘技術便是KDD中的一個最為關鍵的環節。
一、數據挖掘簡介
(一)數據挖掘的含義和功能
數據挖掘―DM(Data Mining)就是從大量的、不的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一門交叉學科,它匯聚了數據庫、人工智能、統計學、可視化、并行計算等不同學科和領域,近年來受到各界的廣泛關注。
一般說來,數據挖掘是一個利用各種分析方法和分析工具在大規模海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策和預測。它強調對大量觀測到的數據庫的處理。它是涉及數據庫管理、人工智能、機器學習、模式識別、及數據可視化等學科的邊緣學科。
作為一門處理數據的新興技術,數據挖掘有許多的新特征。首先,數據挖掘面對的是海量的數據,這也是數據挖掘產生的原因。其次,數據可能是不的、有噪聲的、隨機的,有復雜的數據結構,維數大。,數據挖掘所采用的技術涉及到:數據庫、人工智能、統計學、可視化、并行計算等不同學科和領域。
二、統計學的含義
統計學最初是作為一門實質性科學建立起來的,它從數量上研究某類具體的現象(如社會經濟發展)的規律,但是,隨著統計學研究范圍的不斷擴大以及統計方法在社會領域和自然領域內的有效應用,加之統計方法體系本身的不斷發展和完善,使得統計學的研究對象也發生了變化。統計學已從實質性科學中分離出來,轉而研究統計方法,成為一門方法論的科學。即統計學是研究如何搜集數據、整理數據和分析數據的一門方法論科學。
從本質上看,統計工作的核心就是數據(或者信息)的采集、分析和處理,正如的不列顛百科全書將統計定義為“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“統計:收集、分析、表述和解釋數據”
三、數據挖掘與統計學的比較
數據挖掘來源于統計分析,而又不同于統計分析。數據挖掘不是為了替代傳統的統計分析技術,相反,數據挖掘是統計分析方法的擴展和延伸。大多數的統計分析技術都基于完善的數學理論和高超的技巧,其預測的程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發展,數據挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算算法的產生如神經網絡、決策樹使人們不需了解到其內部復雜的原理也可以通過這些方法獲得良好的分析和預測效果。
由于數據挖掘和統計分析根深蒂固的聯系,通常的數據挖掘工具都能夠通過可選件或自身提供統計分析功能。這些功能對于數據挖掘的前期數據探索和數據挖掘之后對數據進行總結和分析都是十分必要的。統計分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時間序列分析等功能都有助于數據挖掘前期對數據進行探索,發現數據挖掘的題目、找出數據挖掘的目標、確定數據挖掘所需涉及的變量、對數據源進行抽樣等等。所有這些前期工作對數據挖掘的效果產生重大影響。而數據挖掘的結果也需要統計分析的描述功能(較大值、最小值、平均值、方差、四分位、個數、概率分配)進行具體描述,使數據挖掘的結果能夠被用戶了解。因此,統計分析和數據挖掘是相輔相成的過程,兩者的合理配合是數據挖掘成功的重要條件。
四、小結
數據挖掘理論與技術的產生,促進了統計學發展的同時,也提出了更多的挑戰。如何更好地使用數據挖掘和統計為解決社會實際問題做出貢獻,是統計學家和數據挖掘研究者共同關心的話題。數據挖掘和統計學應該相互學習和滲透,各自分工,協同工作,共同為挖掘隱藏在復雜現象背后的有價值的知識貢獻力量。
統計學數據論文:大數據時代統計學重構研究中的熱點問題剖析
摘要:新興科學技術的發展帶領我們進入數據大時代的環境中,大數據如“一口新興石油”,一定會引領科技和經濟的大發展。我們了解大數據需要一定的時間,大數據的研究對于我們有非常重要的意義,可能會激發出一個新興的產業,我們應該將大數據的研究上升為國家的呼聲和意志,以舉國之力來研究它,發展它。本文就從大數據時代統計學重構的價值和意義出發,談一談在大數據時代統計學重構研究中的幾個熱點問題。
關鍵詞:大數據;統計學;重構研究
引言
進入21世紀以來,科學技術尤其是互聯網和計算機技術的迅猛發展,促使大數據時代快速到來,大數據是堪比黃金石油的致富新思路,會給社會方方面面帶來很深遠的影響和變化,在生活中,農業工業等很多領域都會運用到統計學,統計學之于現代社會有著較為重要的意義,因此,在這種情況下,對大數據時代背景下統計學重構進行研究是非常必要也是非常重要的。
一、大數據時代統計學重構的價值與意義
1.是前沿科研領域
伴隨著科學技術的發展,大數據時代科研的進步會帶來很多領域的發展和超多超復雜的數據,面對這樣的挑戰,我們應該不斷增強自身獲取信息的能力,就統計學而言,這門學科應該具有分析這些龐大數據的能力,并且通過分析能夠研發出合理的分析工具以及相應的分析研究理論,來通過科學的理論解決一些更為前沿、復雜的現實問題[1]。顯而易見,當前很多造詣深厚的學者都將研究領域轉向了數據分析上來。
2.是交叉科研領域
統計學是一個與眾多學科都有交叉的一個學科,比如與數學有交叉關系,與經驗科學如天文學中假設估計參數有關系。在現代社會,統計學的使用已經不止局限在政府或者國家事務中使用,而將應用領域延伸到了商業、社會科學以及自然科學中來,由于統計學具有廣泛的應用性和深厚的歷史,因此,它不只是與數學有親密的關系,更是與數學本身的哲學有著親密的聯系。伴隨著領域的增多和數據的復雜程度的加重,統計學家一直進行著跨領域、跨學科的研究,隨著研究數據的不斷增多,所研究的領域也在不斷拓寬,統計學家面臨著越來越多的機遇,統計學的發展也面臨著越來越多的機遇,同時,統計學的發展也推動著很多前沿科學的發展。
3.具有非常重大的意義
我們可以在進行統計學研究時形成一套完整的統計學研究理論和方法,推動大數據時代多元復雜數據分析朝著國際化方向發展;可以將數據化研究理論成果運用到經濟和社會發展中去,比如可以運用在金融風險管理與控制上;還有很多金融領域的人運用大數據分析可以挖掘出市場信息,據此判斷市場走勢,會獲得高收益,這些都是大數據時代中統計學在發揮作用[2]。
4.搶占制高點
國外很多研究表明,大數據時代統計學工程需要從各個領域挖掘有用的信息,并將這些信息融合,提取出有用的因素,發展相應的研究理論。目前,已經有很多研究結果表明,現如今的大數據研究方法和理論已經相對成熟,我們應該牢牢把握住這次機會,不畏挑戰,迎難而上,盡快研究出具有獨立知識產權、具有創新性的數據分析理論和軟件,為我國的數據分析發展提供動力。
二、大數據時代統計學重構的熱點問題研究
1.大數據統計學的理論和方法
過去的統計主要將重心放在概率分布的指數族方面,在上世紀70年代以來,指數族分布研究及其在高維貝葉斯和像圖模型的應用中的研究居多,我們知道,由于指數族包括了所有已知概率的分布,因此,指數組的應用十分廣泛,它是統計學的核心,并且在概率論方面的作用也在不斷加強。這一研究方向旨在運用指數族來對龐大的數據進行初步的簡化,利用Bootstrap方法對大多數統計和概率方面的貝葉斯數據進行應用[3]。
2.大數據數據建模
隨著大數據的不斷變化和發展,線上算法被研究出來,大數據的形式多種多樣,因為多樣化的應用、龐大的數據和針對大數據所開發的技術,這項研究會產生深遠廣泛的影響。該研究的方向是將數據建模相應的領域進行推廣,將這些數據能夠統一運用在大數據中,運用理論和公式對實際應用進行輔助。
3.并行迭代蒙特卡羅方法
日常生活和科學研究與計算機技術的結合讓大數據的收集不再是幻想,要想分析這些數據,要運用并行和分布結構。并行和分布結構是擁有存儲和處理大數據功能的,但是目前的技術還不能將現代的統計算法應用到大數據中去,并且在日益增多的數據中,我需要更加復雜的結構和模型來進行解釋。盡管迭代蒙特卡羅方法已經被相關研究證明是非常強大的,但是它仍然不能夠用于大數據的分析,該研究旨在將迭代蒙特卡羅方法融入到一個通用理論中去發展,另其適應大數據的發展環境,并且讓其也能夠適用并行和分布結構,即從并列的樣本中算出蒙特卡羅值,一這個數值來近似最初需要的數據量,這個理論能夠有效避免在算法迭代中的重復掃描數據問題,與此同時,這一算法的應用也可以另數據研究中的問題得出具有統計學意義的解[4]。
三、結語
大數據時代下統計質量得到提高,統計成本降低,統計學發揮作用的領域增多,并且讓統計學能夠發展延伸,提高了統計學的地位,面對統計學發展過程中可能遇見的問題,要通過大數據的時代背景,順應當今的發展潮流,不斷進行思維和技術上的進步與提升。
統計學數據論文:大數據時代下統計學科建設與教學改革的幾點思考
[摘 要]大數據時代的來臨給統計學科建設與教學帶來了不小的挑戰。傳統的統計學科在認知水平、技術手段、內容框架等方面均需要進行革新。在回顧統計學科發展歷史沿革以及大數據時代數據特征的基礎上,對新時代下統計學科面臨的傳統統計手段的不適應性、傳統統計學科框架不能滿足時代要求、統計學專業設置與社會需求脫節和統計學師資隊伍建設不夠完善等問題進行闡述,可以得出相應的對策。
[關鍵詞]統計學;大數據時代;學科建設;教學改革
21世紀是一個信息化的時代,尤其在2012年之后,大數據逐漸進入尋常百姓的生活,并深刻影響著這個時代的變革。大數據時代下海量數據所隱藏著的巨大價值不可小覷。因此,如何應用、分析、挖掘數據背后的隱含知識、潛在規律成為各個領域所關注的熱點話題,統計學科的重要性不斷彰顯。早在2011年2月,國務院學位委員會就將統計學科設為一級學科[1],改變了統計學科被分別安放在經濟學門類和理學門類下的歷史局面,從此終結了統計學究竟是應用經濟學范疇還是概率論與數理統計學范疇的各種爭論。如今的統計學,就是關于數據科學的學科,在理學門類之下理學學位和經濟學學位均可授予。站在大數據時代的風口浪尖,在統計學科成為一級學科的歷史背景下,統計學在全國各個院校的發展如火如荼。但如何讓統計學科適應大數據的時代要求,如何培養勝任各種數據挖掘能力的人才,是奮斗在統計學教育一線同仁們所必須面對的問題。
一、傳統統計學的發展歷史
統計學源于實踐與應用,當人類開始從事生產勞動以來,統計學就慢慢建立和發展起來。在西方,一般認為統計學始于古希臘時期的亞里士多德時代,并在此后開枝散葉。而中國也是世界上最早進行統計活動的國家,具有國際公認的最早的統計史料,但先秦之后發展緩慢,未成氣候。1930年,中國統計學會成立,這是中國最早的統計學研究群體。
此后統計學的發展大致分為以下幾個階段:1.蘇聯模式模仿期。新中國成立后,我國在經濟模式上采用了計劃經濟體制,同時也引入了蘇聯的馬克思統計理論與模式。在這種模式之下,統計學僅僅是計劃經濟制度的專屬工具,其抑制了數理統計學派的發展。因此,這個階段下的中國統計學發展逐漸喪失活力,未能與西方統計學的主流研究方向接軌。2.改革開放時期的再認識。隨著我國改革開放的不斷深入,不斷涌現的新事物導致傳統模式下的蘇聯統計理論與我國實踐工作形成不可避免的矛盾,依附于計劃經濟的統計學逐漸喪失生命力,這一現象引起了我國學者的反思。在這種背景下,歐美體系下的統計學逐步進入中國市場,并引發了一場關于統計學科建設的學術爭鳴。3.20世紀90年代的“大統計”思想。隨著我國改革開放的不斷深化,統計學在社會經濟統計學和數理統計學兩個方面蓬勃發展起來。于是“大統計”的提法日漸增多,20世紀90年代尤其是20世o90年代中后期有關統計學發展的文獻,都在討論統計學的融合與構建問題。“大統計”思想是對傳統認識局限的一次突破,它為中國統計學在下一個世紀的發展提供了理論前提。4.大數據時代下統計學的新機遇。從上述3個階段可以看出,統計學的發展與其時代背景息息相關。進入21世紀以來,在大數據的時代背景下,統計學在學科建設與教學改革方面該有怎樣的側重和突破,這正是身處這個時代的統計學人應該思考的問題。要對這個問題進行剖析,必須了解這個時代的數據特點。
二、大數據時代的數據特征
在20世紀90年代,信息化開疆拓土給數據的產生帶來了指數級的增長模式,這一現象就曾引起美國社會的廣泛討論和研究。進入21世紀以來,社會高速發展、信息飛速流通、科技不斷進步,這使得“大數據時代”呼之欲出。2012年,由維克托?邁爾-舍恩伯格 (Viktor Mayer?鄄Sch?inberger)和肯尼思?庫克耶 (Kenneth Cukier)聯合編著的《大數據時代:生活、工作與思維的大變革》給社會帶來了不小的反響,學術界也逐漸摩拳擦掌地迎接大數據時代的來臨。[2]
著名的4V理論有效揭示了大數據的主要特征。[3]1.Volume:海量的數據規模。在當下社會,每一分每一秒都伴隨著大量數據的產生,由于數據的驅動性,現在的數據量已經不再是傳統的TB、PB級別,其早已經擴展到EB、ZB乃至更高的級別。2.Velocity:快速的數據流轉和動態的數據體系。在一個瞬息萬變的社會中,數據是一種流動的狀態,大量數據可以隨時隨地產生并改變,這種動態性給統計分析帶來了巨大的挑戰。3.Vari?鄄ety:多樣的數據類型。大數據不但具有動態性,還具有多樣性。數據形式包括:文本數據、網頁數據、行為數據、圖片數據、聲音數據、多媒體數據等各種各樣的數據形態。4.Value:巨大的數據價值。曾經有人把Data mining稱為數據采礦,倘若在傳統的數據模式下數據都蘊含著豐富的“礦藏”,那么大數據時代下的數據價值則是我們難以想象的。正因為數據擁有巨大的價值,這才使我們有了進一步分析處理的動力。
大數據時代下的數據特征給傳統統計學帶來了不小的沖擊。作為一門處理、分析數據的學科,在新時代下必須認清統計學科所面臨的問題,這樣才能有的放矢地進行革新,采用新的技術手段駕馭新時代的數據,為社會進步做出應有的貢獻。
三、新時代下統計學科面臨的問題
(一)傳統統計手段的不適應性
傳統的統計思維模式基本是以問題為導向,確立要研究的問題之后,再著手獲取數據。國家統計局所開展的數據普查和抽樣調查都是基于這種模式。對于數據索取能力較弱的科研院所或個人而言,其沒有能力進行大規模抽樣調查的能力,一般是通過各種官方數據庫獲取數據用以科學研究。但用傳統抽樣調查手段所獲取的數據,是用樣本估計總體的思路進行,倘若調查方案設計合理、操作得當,誤差可以控制在允許范圍之內,這不失為一種良好的統計手段。但在大數據時代下,不僅難以有效地抽取數據,而且沒有簡潔有效的技術手段對數據進行分析,這給抽樣調查帶來了不小的麻煩,其省時省力的優勢也不復存在。類似的問題在傳統統計方法的發展中依然存在。因此,需要緊貼時代背景,建立一套適用于當下的統計分析模式,以便更加科學高效地開展統計分析工作。
(二)傳統統計學科框架不能滿足時代要求
統計學是從大量實踐經驗中所逐漸發展形成的一門對數據進行搜集、處理、分析的學科。統計學的產生與數據有著不解之緣,因此,有關大數據的處理必然離不開統計理論和技術的支撐。但是,傳統的統計思想、分析手段以及分析設備等都無法滿足大數據時代的發展要求。在人類邁入新紀元以來,互聯網技術日臻成熟,社會信息化程度出現質的飛躍,大量半結構化、非結構化數據源源不斷地產生,人們對各種類型數據資源的潛在規律以及數據回報價值都有迫切的需求。[4]這要求統計學有一套完整的學科框架體系去駕馭大數據,具備對海量非結構化、半結構化、實時性數據等的有效分析能力。而大數據時代下的數據分析工作,已經從根本上打破了傳統統計學科的框架。
(三)統計學專業設置與社會需求脫節
當前統計學學生的培養方式雖然逐漸向應用層面傾斜,但形式與內容相對老套。在這種模式下,理論模型的建立、參數估計的方法、一些統計量的檢驗等都得到了足夠的重視,但學生對這些問題的認識很可能還停留在表面。雖然部分課程安排有上機實踐操作,但由于數據局限性等原因,其所帶來的案例相對老舊、與時代脫節的情況時有發生。這導致學生不能很好地學以致用。另外,大數據時代下的統計分析工作,由于數據的海量性、動態性等特點,工作量相對較大,需要團隊的分工協作才能很好地完成。而在我們日常的教學中,由于面向傳統的統計手段較多,學生基本都是個人完成案例,這種教學方式難以培養學生在數量搜集、處理、分析中的團隊協作精神,而這種精神在學生今后的工作崗位中是應該必備的。
(四)統計學師資隊伍建設不夠完善
由于統計學的蓬勃發展以及社會對統計學人才的迫切需求,各個院校紛紛成立(或籌備成立)統計學院,導致統計學教師相對緊缺。在教資力量相對不夠充足的情況下,統計學科依然面臨一個嚴峻的問題。這個問題就是在現有的教師隊伍中,大部分教師接受的均是傳統統計理論方法的訓練,專業和研究成果也都偏向于經濟統計、數理統計的傳統模型、實證分析等方面。在傳統領域,大部分教師具備教學與科研的經驗,具有相當深厚的功底及心得。但是在大數據領域、有關大數據的清洗、降維、處理、可視化;云計算、云平臺、分布式計算、并行計算的hadoop、Spark、MapReduce等有關大數據的挖掘理論和技能方面,則出現斷層。對于絕大多數教師而言,這也是一個相對陌生的領域。因此,這引發了統計學師資隊伍知識結構不完善的問題。
四、解決新時代下統計學面臨問題的對策
(一)針對新問題,尋找新的統計技術手段
大數據時代下,數據量巨大、數據信息瞬息萬變、數據類型多種多樣,數據結構也由原來單一的結構化數據變為非結構化、半結構化數據模式。面對新的問題,對于海量數據的存儲、清洗、數據挖掘、知識呈現、數據傳輸、管理等各個方面都需要有新的技術手段加入。[5]因此,我們需要從各個細小的環節入手,從而形成一個完備統一的處理大數據問題的新模式和新框架。這個過程需要其他領域專業人員的支持和協作,其中包括計算機、數學、經濟學、信息學、管理學等。1.數據獲取階段。數據獲取的途徑有很多,不應再拘泥于過去翻閱式的查找和抽樣調查。由于大部分數據均產生于互聯網,因此我們不得不通過爬蟲技術對所需數據進行爬取,從而獲得海量的一手數據。2.數據清洗、降噪、降維等預處理階段。這一階段是大數據分析的開始,任何一種分析都不能離開有效的數據而進行,對原始數據的整理、清洗等工作直接影響到后續統計分析的有效性和科學性。3.數據挖掘、知識發現。這是整個數據分析中最為關鍵的環節,是整個分析的核心所在。在此需要強調的是,并非在大數據時代所有的傳統統計方法都不可使用。當經過數據預處理、把數據轉出化成傳統數據模式之后,傳統統計分析方法依然有其用武之地,且傳統統計分析方法當中寶貴的統計思維模式和統計視野也是我們解決大數據問題的智庫。因此,對于傳統統計分析方法要給予足夠的重視,其在大數據時代也有廣闊的舞臺。我們要在繼承的基礎上,進行改進、創新和發揚。
(二)系統性調整統計學科框架,以適應時展
在大數據時代下,統計學同樣需要加入信息化的過程。雖然大數據與統計學有著千絲萬縷的聯系,但是由于面對的數據類型、對象等的不同,傳統統計學的研究范式已經不能適應新時代的要求。這主要表現在以下幾方面:1.統計對象的改變。新時代下的統計數據從數量、結構和類型上早已打破傳統統計學的數據概念。2.統計技術的改變。新時代下關于數據的搜集、整理、知識發現等數據處理手段相較于傳統的統計學科,已經發生了巨大的變化。3.數據倉庫的建設和使用。關于海量數據的存儲、調取、傳輸、管理是在傳統統計學當中較容易被忽視的環節。傳統統計學下的數據量較小,對其的存儲、傳輸和管理并不存在問題,但海量數據出現之后,這個話題則成為統計學需要重點研究的問題之一。因此,我們需要從更高的視野重新構建統計學的學科框架,使其達到能駕馭大數據時代的目的,從而為人們的生產、生活提供科W有效地指導和幫助。首先,要從思想上打破對傳統統計學的認識,將視野投放到更加廣闊的數據天地。客觀對待傳統統計學在社會發展中所出現的滯后性問題。其次,應尋求多學科協作,信息資源共享。沒有任何一種單一的技術分析手段可以貫穿大數據分析的始終,它需要多種學科的交叉與融合。因此,統計學的學科框架不能故步自封,一定要兼容并蓄,這樣才有新活力。,統計學科框架的建設要體現出大數據時代的信息化。對信息的收集與爬取、清洗與降維、分析與挖掘、結果與展示等各個方面,都需要在傳承經典的基礎上,進行大膽地突破性改革。從而建設一個能夠在新歷史背景下解決新數據問題的學科,從而培養出適應這個時展的統計分析人才。
(三)改良統計學科內容設置,滿足新時代下的社會需求
關于統計學科的專業培養方案。目前,基于傳統統計學的模式,可以采取兩種統計方式進行培養。這就是我們熟知的數理類和經濟類,這兩類具有不同的側重點和學科背景。“大統計”思想的提出以及統計學一級學科的成立,終于可以讓統計學匯到統計學院或者統計系的框架下統一培養。由于西方主流統計學甚至經濟學,均注重數理思維和能力,任何一個統計分析手段和經濟模型都離不開數學推導、演算,因此,打好數理基礎成為我國統計學科建設的普遍共識。在本科生的培養方案中,就包含數學分析、高等代數等一系列數學思維培養的課程。但無論是本科生還是碩士生的教學,都缺乏對大數據分析技能的培養,未能迅速地緊跟時代,與社會需求相脫節。這一現象不利于學生就業。因此,亟須在教學內容、方法和技術方面進行改進。1.在教學內容方面,傳統的統計學科從概率論與數理統計、多元統計分析到統計學原理等都是基于結構化的小量數據展開,關于非結構化大數據的教學內容缺失。因此,要注重培養學生對非結構化、半結構化數據的處理分析能力;教師應對原有課程進行調整,減少重復內容與重復教學,加入與大數據相關的數學理論與軟件學習方面的新內容。2.在教學方法方面,應注重培養學生的動手能力和團隊協作精神。傳統統計學的數據處理分析工作量相對較輕,個人可以獨立完成工作,但是在大數據模式下,分工與協作是必不可少的環節。因此,在培養學生實戰能力的同時,不能忽視團隊協作能力的培養。3.在教學技術方面,要善于通過經典案例寓教于樂,通過對實際問題的思考,培養學生對數據處理的熱情及其思維能力和實戰能力。有必要打破傳統的相對固化的授課模式,采用具有時代感的新鮮問題來激發學生的創新性思維,讓學生在解決實際問題的過程中對理論有更加深刻的認識。
(四)加強統計學師資隊伍建,填補知識結構的不均衡性
在y計學成為一級學科之前,我國高校的普遍做法是將數理統計專業放在數學學院,授予理學學士學位,把經濟統計放在經濟學院,授予經濟學學位。這種模式對我國統計學教師隊伍的知識結構產生了重要影響。統計學專業教師基本也都來源于這兩個領域:一個分支來自擅長數學模型、推導等數量關系的數理統計方面;另一個分支則是擅長經濟理論、實證的經濟統計方面。但互聯網技術之下應運而生的各種新信息和新問題,需要用新技術去解決,遺憾的是這方面的人才相對缺乏,這導致在大數據時代下教師隊伍知識結構不完整。要解決這個問題,可以從兩個方面入手。首先,針對一些數學功底見長,對大數據分析感興趣的教師進行內部培訓。鼓勵他們在全國乃至全球范圍內參加有關大數據學科的培訓、研討等學術交流活動,力求在短期內培養一批在大數據方面有所專長的教師團隊,以彌補整個教師隊伍知識結構的失衡問題。同時加強教師隊伍的自主學習和創新能力,保持他們對新事物、新方法的敏銳嗅覺。其次,在全國范圍內著重關注相關培養單位的博士、博士后等潛在的教師力量。力爭將從事有關數據挖掘方向、大數據分析方向等具有一定大數據分析能力及實戰經驗的博士、博士后納入教師隊伍。此外,還要充分認識到大數據分析工作的交叉性和協作性,它對計算機技術、數學理論方法等都有較高的要求;要著重引進具有上述學科經歷的復合背景人才,力爭將這些新鮮血液融入傳統的師資隊伍當中,以改善教師知識結構的不平衡問題,力爭建設一支專業結構合理、學術素養良好、適應能力強大的統計學教師隊伍。
統計學數據論文:淺析大數據時代對統計學的挑戰
【摘要】隨著互聯網技術和信息技術的不斷發展,讓我們迎來了大數據時代,為統計學帶來了發展機遇,但是也是統計學面臨著嚴峻的挑戰。本文主要針對大數據時代對于統計學的挑戰進行論述,并且提出具體的改革策略,對于相關的研究提供理論基礎。
【關鍵詞】大數據時代 統計學 挑戰
二十一世紀屬于信息爆炸的年代,我們的生活當中隨處都涉及到大數據,例如圖書館、高校學生檔案管理、企業的財務數據等各個場所都擁有龐大的信息量。大數據不斷發展,給統計學帶來了挑戰和機遇,利用傳統的統計學方法,對于大數據的處理無法有效的利用,有關于大數據的各種處理需求無法得到滿足,處理大數據的基礎就是統計學。因此需要分析大數據影響下統計學面臨的各種挑戰進行論述。
一、大數據時代給統計學帶來的挑戰
(一)對于教學內容帶來的挑戰
針對統計學的專業教學,主要包括概率論、數理統計、抽樣抽查等,其面臨的處理對象就是結構化的數據,但是卻不夠重視非結構化和半結構化的數據,也很少進行利用。在大數據時代當中,高端人士的對于數據處理提出了更高的要求,當前的統計學內容無法滿足含量數據研究和商業運用的需求。實施統計學教學需要結合時展情況,核心內容就是統計專業人士的各種現實需要,從而將其科目內容進行提升,適當的開設新的課程,這樣才可以滿足大數據時代的發展需求。
(二)對于教育方法提出的挑戰
我國長期利用的統計學教育模式的中心就是課堂教育,主要以教師的講解為主要內容,理論知識的講解比較注重,但是實際應用卻沒有重視,教師只是在講解理論知識,卻沒有培養學生的技能。利用的方式比較單一,而教學方法也比較單調。利用這樣的統計學教育方法對于大數據時代的要求無法得到滿足,無法培養人才的素養,因此需要改革其教學方法。
(三)對于人才培養提出的挑戰
統計學教育方式面臨著重大的統計任務,其主要內容就是實現統計教育和研究人員,很多教師的綜合素養比較低,沒有研究專業之外的知識,更新實驗室相關設施的速度比較慢,培養學生比較注重理論知識,形成的知識構架的主要內容就是數理認知,對于其他領域的知識缺乏認知,無法將實際困難進行解決。在大數據時代,對于統計學人才提出了更高的要求,需要在海量的數據當中將市場機遇進行掌控,從而將其中的商業價值挖掘出來,從而可以將行業的內在潛力進行制造,具備探究精神。
二、大數據時代統計學的改革策略
(一)提高統計人員的綜合素質
在當前大數據背景的影響下,統計學對于統計人員提出了更高的要求,統計人員需要具備良好的道德素質和職業素質,這樣才可以更好的應對大數據時代帶來的挑戰。企業需要定期開展崗位培訓和思想道德教育,使統計人員的專業技能得到增強,使統計人員的思想認識進行提高,使統計人員不斷學習新的統計知識,可以學會更多的統計方法,對于各種新型的統計工具的實際操作流程進行熟練的掌握,企業應該為統計人員提供良好的工作氛圍,從而的提升統計人員的素質。針對學校的教育需要采取措施提升學生的素質,統計學專業課在實踐過程中,需要營造良好的學習氛圍,加強引導和教育學生,不斷學習統計學的專業課程,不斷掌握統計學的展業理論知識,使學生深入的認識和理解統計學,從而可以更好的和時代接軌,以社會的實際需求為基礎,讓學生形成自主的意識,將自身素質不斷提升。
(二)加強統計人員掌握新技術
在當前的時代影響下,總是會出現各種新的數據處理技術和分析工具等等,利用這些新的處理工具和技術,對于當今的統計學來說這是一種挑戰,因為統計人員不夠了解這些新的技術和工具,這些新的技術也不夠熟悉,但是可以有效利用這些新計劃,可以使統計學更好的適應大數據時代的發展。這就需要統計人員了解這些新技術。在大數據的影響下,需要改革統計學,重視培訓統計人員的新技術,加強統計人員掌握新技術。企業需要將各種新的數據處理技術和設備進行引進,通過專題講座和實訓的方式,為統計人員提供學習的平臺,使他們可以學習更多的數據處理技術,從而可以對于大數據時代提供更好的服務。
(三)加強統計學課程教學改革
高職教育機構需要做的哦啊與時俱進,大數時代不斷發展,統計學課程需要實現改革,將落后的教學理念和教學方式進行拋棄,將統計學的相關設備設施進行完善,使統計學的教學環境和教學條件進行改善,將各種先進的統計學教學方法進行有效的引進,在實際改革的過程中,充分融合統計學教學內容和大數據信息,協調統計學教學內容和教學方法。改革統計學課程,不僅需要實現課程改革,還要實現教學改革,需要在課程和教學兩個方面進行,從而使統計學更好的適應大數據時代,將大數據時代帶來的各種挑戰進行有效的應對,更好的掌握大數據時代帶來的各種機遇。
改革統計學教學,需要有效的整改課程教學模式和課程目標以及課程結構安排等,從而將課程結構的合理性得到有效的提升,使課程目標具備科學性,使課程內容實現完整性,將統計學課程的重點內容進行突出。改革統計學內容,需要提高教師自身的教學水平,將傳統的教學理念進行轉變,從而利用新的教學方法和科學的教學模式,重視實訓教學,使學生的實踐操作能力得到有效的提高。
三、結束語
大數據和統計學在探究目標。數據處理對象等各個方面具有一定的聯系,但是也具有一定的差異。大數據時展的速度不斷提高,沖擊了統計學的固定探究方式和價值觀念,統計學教育的教學結構和教育方式等各個方面都帶來了各種挑戰,要想對于大數據時代的發展潮流更好的適應,培育胡高素質、適應能力很強的統計專業人才,統計學教師和統計教育需要做到與時俱進,從而實現有效的調整和改革、
統計學數據論文:大數據背景下統計學教學改革的探討
摘 要:在當今大數據背景下,統計學教學存在著諸多問題。本文首先梳理了傳統的統計教學過程中存在的問題,然后針對大數據時代需求的統計學人才的特點,從教學體系、教學內容等等方面來探討統計學教學改革,為各高校更好的培養適應當今社會發展的統計學人才提供思路。
關鍵詞:大數據 統計學教學改革 教學方法
當今社會是信息爆炸的時代,隨著數據可獲得性的提高,數以海量級的數據有待于我們處理。作為一門處理分析數據的學科――統計學,其教學面臨著諸多挑戰,為了適應當今時代的需求,統計學課程的教學迫切需要進行多方面的改革。那么如何改進傳統的教學模式,培養出能夠適應“大數據時代”需求的專業人才?是值得我們深思的問題,對該問題進行探討具有深遠的意義。本文從當今社會人才需求方面,探討如何進行改革,來尋求的教學模式和方法,來為社會輸送品質的統計專業的畢業生。
1 傳統的統計教學中主要存在的問題
1.1 就教學內容而言,偏重于理論
在大多數高校中,目前對于統計學課程的教學仍然是偏重于統計理論的講解,學生大多數是采用死記硬背或者習題訓練的方式來掌握統計理論。雖然他們能夠記住統計理論或一些統計模型,但是卻無法將所學的知識應用到實際中,來解決實際問題。學生不知道為什么要學習統計學,學習該課程有何用途?因而很難提起學生們的學習興趣。學生往往在了解所學的內容可以解決什么問題后,才會積極主動的去學習,這便要求老師在課堂教學中,摒棄偏重于理論教學的枯燥教學模式,更多的拋出生動的實際問題,來調動學生的積極性。
1.2 統計教學過程中上C實驗課較少
在目前的統計教學過程中,鑒于課程內容較多,而教學課時量有限,這便使得上機實驗課在課程中所占的比例較少,大多只有幾個學時的上機實驗課。致使很多需要上機實踐的課程內容無法實現。這非常的不利于學生現學現用, 而只能是讓學生簡單了解一下統計軟件的基本操作流程,這即利于學生掌握課堂知識,也不利于調動學生的學習積極性。
1.3相對于中國統計實踐的需求,統計教學的發展較為滯后
統計學是一門搜集、整理、分析數據的學科,學習統計學的目的是通過探索數據的內在規律性,來客觀、科學的認識客觀事物。統計數據源自于實踐,及時、、完整的統計數據是我們進行統計分析的前提,否則,統計方法將無用武之地。隨著計算機技術的快速發展,數據的可獲得性大大提高,我們已經步入了大數據時代,此時,傳統的統計學理論或方法已不再使用,迫切需要在我們的教學過程中引入新的內容來適應時代的發展。但是,在統計學的教學過程中,教學內容并沒有隨著社會的發展而有所變化,不僅如此,在統計學的教學案例中,大多數還是采用比較陳舊的數據,并沒有及時更新數據,數據質量不高。
2 大數據時代對統計學教學改革的需求
在當今大數據時代,數據已經成為了一項非常重要的資源,它同礦產資源、石油資源等一樣的重要,并且數據資源有其特別之處是越用越多。大數據方面的人才在各國較為緊缺,在能夠做數據分析的人才里面,統計學專業有其獨特的優勢,統計人才是數據分析的核心人才。這是我們統計的發展機遇,也是挑戰。因為傳統的統計教學已經不能夠適應當今社會對統計人才的需求。改革開放三十年來,我們的統計學教材并沒有隨著社會的變化而變化,教材已經不能夠反映社會的需求,在我們的教材中有些部分花費了很大的篇幅來介紹一些簡單的計算方法,但是,隨著計算機的普遍,這些方法,計算機一點就能夠解決。
有人說21世紀是統計的世紀,這是一個很好的機遇,需要從事統計專業的老師和學生共同努力,主動的接受大數據的知識,加強計算機能力的培養,拓寬視野,既能夠熟練的掌握計算機,又能夠很好的運用統計軟件進行數據分析,來適應當今社會的發展。
3 關于統計教學改革的思考
3.1 構建集課堂、實驗室和社會于一體的教學體系
學好統計學并不是一件易事,不僅需要掌握課堂上的理論知識,還需要步入社會去實地調查,獲得一手數據,得到數據后,進一步需要我們到實驗室去學習如何運用統計軟件,進行處理、分析數據,從數據得到結論。因而,要達到較好的教學效果,便需要一個集課堂、社會和實驗室于一體的完善教學體系。使得學生不僅掌握了基本的統計學理論知識,還能夠熟練運用統計軟件和計算機系統來處理現實數據,挖掘數據內在的規律性,成為當今社會需求的統計專業人才。
3.2 在教學過程中,加大教學案例所占的比例
在統計教學過程中,如果只偏重于理論教學,無疑是枯燥、乏味的。如果我們可以適當的添加一些生動的教學案例,便會調動學生的學習積極性,使其能夠更好的理解課本上的內容,也會提高學生的應用能力,更清楚的明白所學內容可以如何應用。所以說案例在教學過程中非常的重要,好的案例不僅要能夠體現書本上的知識點,還要考慮到所授學生的專業特點,不斷的更新,有針對性的挑選一些好的案例,這有助于學生掌握如何運用統計學知識來處理所學專業的問題,提高他們的學習積極性。
3.3 教學內容上跟上大數據時代的需求
傳統的教學理念和方法所培養出來的統計人才,已經不能夠很好的適應大數據時代對人才的需求,當今社會需要的是具有很好的動手能力、數據處理能力和學習能力的人才。
這便迫切需要我們不斷的調整教學理念和教學模式。一方面在統計教學過程中,在講授基礎知識的基礎之上,突出統計方法以及統計理論的應用性,在授課過程中,幫助同學們樹立起大數據的統計思維。另一方面,在教學過程中,調整傳統的教學模式,盡可能的引入慕課、微課等新的教學方法,穿插一些有趣的案例,來不斷的激發學生的學習興趣。,統計學教師作為知識的傳授者,需要不斷的學習,提高自身的大數據知識水平,才能夠更好的引導學生,帶領他們跟上時代的步伐。