引論:我們為您整理了1篇網絡信息檢索論文范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。
網絡信息檢索論文:網絡信息檢索研究論文
[摘要]搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進行了簡要的分析,指出了其存在的缺陷和發展的方向。
[關鍵詞]信息檢索中文搜索引擎存在的問題發展方向
隨著Internet信息資源的迅速增長,如何在浩瀚的信息海洋中、方便、快速地找到自己所需的信息,成了迫切需要解決的問題,從1995年開始出現的信息檢索工具——搜索引擎很好地解決了這一問題。然而各種搜索引擎,特別是尚處于發展初期的中文搜索引擎還存在著很多的缺陷有待改進,本文旨在分析目前中文搜索引擎存在的主要問題,并為解決此類問題提出一些建議和方法。
一、搜索引擎的概念和及類型
搜索引擎又稱檢索引擎,是指運行在Internet上,以信息資源為對象,以信息檢索的方式為用戶提供所需數據的服務系統,主要包括信息存取、信息管理和信息檢索三大部分。
目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。
1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數據庫,由編輯人員在訪問了某個web站點后,對該站點進行描述,并根據站點的內容和性質將其歸為一個預先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的度較高,導航質量也不錯。但因其人工的介入,維護量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內著名的新浪、搜狐、中文雅虎都屬于這種類型。
2.機器人搜索引擎。這是一種目前運用較廣泛的搜索引擎。國內以百度,google、天網為代表。它是使用自動采集軟件Robot,搜集和發現信息,并下載到本地文檔庫,再對文檔內容進行自動分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。
機器人搜索引擎具有龐大的全文索引數據庫。其優點是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點是缺乏清晰的層次結構,檢索結果重復較多,需要用戶自己進行篩選。
3.元搜索引擎。元搜索引擎是一種調用其他搜索引擎的引擎。它是通過一個統一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索。中文元搜索引擎開發較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。
二、現階段中文搜索引擎存在的主要問題
1.信息覆蓋面有限。現階段搜索引擎所覆蓋的數據庫的規模是非常有限的,據美國科學期刊Natures一篇報告中稱,全球較大的搜索引擎也只能覆蓋現有網頁的16%。中文搜索引擎因起步慢、中文信息所占互聯網全部信息的比例小(只占全部網絡信息的5%)等原因在這方面尤為突出。
2.查全率不高。查全率是指檢索出的相關信息量與存儲在檢索系統中的全部相關信息量的百分比,是判斷檢索系統質量的度量之一。
國內絕大多數的網站組織的信息大多都是通過瀏覽方式獲得內容。即使是經過精心組織、編排非常合理的網站,也會有70%~80%的網頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護量大,在這方面表現較明顯。
3.查準率較低。查準率更是判斷檢索系統質量的重要尺度。是指系統所檢索到的真正與查詢內容相關的文檔占檢索出的所有文檔數的百分比。
造成查準率低的原因是,部分搜索引擎的分類體系與科學知識體系之間缺乏內在聯系;類目之間邏輯關系模糊,導致檢索路徑與搜索引擎類目錯位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結果是題錄式而非全文式,其內容簡單等等。機器人搜索引擎的分類和索引缺乏人工的參與,其查準率不如目錄式搜索引擎,且檢索結果中還含有大量的重復、虛假的信息。
4.專業性的搜索引擎發展遲緩。專業性的搜索引擎是為專門收錄某一行業,某一主題的信息而建立,能夠提供專題信息查詢服務的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時收錄各行業、各學科的多種信息,但在反映某一行業或某一專題的信息方面很難做到、,不能給用戶提供特定的信息服務。這就使得專業人員,特別是某一領域的學者、專家不愿意利用中文搜索引擎去查詢資料。
5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運算符的搜索引擎極為有限;二是關鍵詞檢索輸出的結果相關度排序方式雜亂,不能根據用戶需要來選擇信息輸出的方式;三是多數的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復利用用戶檢索過的成果,更不能對特定的用戶進行定題跟蹤服務;四是檢索網站的主頁不規范,有些太簡,有些又太繁,而且廣告內容太多,無法進行有效檢索。三、中文搜索引擎的發展方向
1.提高查全率。首先是需要開發分布式的系統。這種系統可以把各個接點當作是新的信息資源,擴大數據庫的規模,正在興起的元搜索引擎屬于這種系統,它在接受了用戶的查詢命令后,可同時用多個搜索引擎進行查詢;二是把專業數據庫資源納入自己的檢索范圍。除了Web信息資源外,網上還有大量的非Web信息資源,如聯機檢索系統、光盤檢索系統、專業數據庫系統。如中文搜索引擎能把這些Web和非Web資源結合起來使用,即使有的只能查到題錄、文摘等內容,也大大擴展了檢索范圍,能為用戶提供較的檢索需求。
2.提高查準率。需解決以下幾個難關:首先需提高搜索引擎的信息過濾功能。在對網絡信息進行集中的搜集之后,搜索引擎還需對這些信息進行鑒別和過濾,即剔除大量的無用信息,而把有效的信息提煉出來并加以聚集;第二則是需對專家過濾后的信息進行一定的檢索標引,并給予相關的標識符號,如關鍵詞、分類號、主題詞等各種標識,其關鍵是利用智能檢索技術,提高性;把檢索的結果存儲在相應的數據庫中,并由URL與Internet建立鏈接供用戶使用;還需注意信息定期更新,以保障信息的新穎性和鏈接的性。
3.建立垂直化專業領域的搜索引擎。網絡用戶所從事的職業千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業搜索引擎則可解決這一難題。它只面向某一特定的領域,專注于自己的特長和核心技術,能保障對該領域的信息的收錄齊全與更新迅速。在提供專業信息方面有著大型綜合搜索引擎無法比擬的優勢,所采用的技術都是些較成熟的技術。
中文垂直化專業搜索引擎的發展已取得了一定的成功,如新浪的新聞搜索,博客搜索、雅虎的個性化旅行路線搜索、百度的MP3搜索、Google的學術搜索,航班搜索等都為用戶提供了較好的搜索功能,為今后的繼續發展奠定了基礎。
4.搜索引擎的智能化發展。智能搜索引擎是未來搜索引擎的發展趨勢。可以通過自然語言與用戶交互,較大限度地了解用戶的需求。智能檢索一是表現在搜索引擎技術的智能化,研究重點放在自然語言處理技術和人工智能技術的研究上;另一表現是體現在搜索引擎面向檢索者的智能化,它致力于通過分析檢索者的檢索和瀏覽行為來學習檢索者的需求,利用搜索引擎現有的服務有選擇地為檢索者提供個性化的服務。
5.加強搜索引擎的檢索功能。首先需強化全文檢索功能。利用Robot實現對站點頁面文字內容的檢索技術。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接根據文獻資料的內容進行檢索,支持多角度、多側面地綜合利用信息資源,、、快速是衡量全文檢索系統的關鍵指標;同時改善用戶檢索界面,設計簡潔、明白的界面引導用戶進入檢索狀態;更方便、實用的檢索技巧的利用,中文搜索引擎需簡化和統一語法規則,如布爾邏輯檢索符號的利用:空格或“*”代替“與”、“+”代替“或”、“-”代替“非”,規范語法符號,節省用戶的檢索時間;還需研發查詢圖像、聲音、圖片和電影的搜索引擎。
6.完善元搜索引擎。元搜索引擎彌補了獨立搜索引擎不全的特點,提高了檢索的性。現開發出的中文元搜索引擎的數目很少,還有諸多缺陷,需在各方面進一步改進。
元搜索引擎要對各獨立的信息特色進行較細致的調查,以確定自己要收錄的范圍;在對目標搜索引擎的組織中突出獨立搜索引擎的檢索特色,并設計各搜索引擎之間的檢索方式的轉換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務。檢索界面要統一和友好,檢索方法的設置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結果的顯示中要開發出一個有效的檢索結果去重、選擇、排序和優化算法,這是中文搜索引擎開發中的一個重點和難點。
網絡信息檢索論文:淺談網絡信息檢索的現狀及其發展趨勢
【摘要】隨著計算機技術及網絡技術的發展,網絡信息檢索顯得越發重要。本文主要綜述了網絡信息檢索的全文數據庫、搜索引擎、互聯網“超鏈接”等現行檢索模式及它的智能化、一站式化、可視化等發展趨勢。
【關鍵詞】網絡信息檢索;現狀;發展趨勢
1.信息檢索概述
信息檢索(Information Retrieval)是指將信息按照一定的方式組織和存儲起來,并能根據信息用戶的需要指出其中相關信息的過程,因此它的全稱叫“信息存儲與檢索”。
隨著互聯網的發展,人類社會的信息化、網絡化進程大大加快。當今出現的一系列新型檢索模式,包括網絡信息規范控制標準等為網絡檢索技術的未來展現了新希望,與之相適應的信息檢索的交流平臺也迅速轉移到以WWW為核心的網絡應用環境中,信息檢索步入網絡化時代,網絡信息檢索已基本取代了手工檢索。
2.網絡信息檢索的現狀
對大多數讀者而言,檢索并不意味著發現,而是獲得。人們希望不僅僅是提供寬泛的檢索結果,而應該是計算機能試圖理解用戶提問的意圖,并對檢索結果進行適當的分類和排序。但是,現有的搜索引擎大多是基于簡單的關鍵詞匹配,不能真正理解用戶的檢索意圖;各個搜索引擎的信息搜集和索引建立有很大的不同,每個搜索引擎平均只能涉及到整個網上資源的30%~50%,而其中真正有用的信息也只占很小的比例,這就意味著使用任何一個搜索引擎都只能檢索到網絡中的部分資源。目前網絡檢索面臨一系列的挑戰,網絡信息量迅猛增加,人工已經無法對它們進行有效的分類、索引和利用;簡單的關鍵詞搜索,返回的信息量過大,已經讓用戶無法承擔;網絡信息組織的無序性;信息有用性評價困難;網絡信息日新月異的更變;信息媒體的多樣化;帶寬等其它因素的制約,這些都給因特網信息的獲取造成了極大的阻礙。這樣就造成了要求智能化、專業化、多元化、多媒體化的網絡信息檢索工具出現的呼聲越來越高,并且有更多的人參與到其中來。如此種種,給當今的網絡信息檢索研究帶來了發展機遇,也給了它無限的發展空間。
3.網絡信息檢索的現行模式
3.1 網絡全文數據庫檢索
網絡全文數據庫是以全文數據為數據庫對象,并在網上提供全文檢索服務的數據庫。按數據庫的生產機構分類,可分為出版商全文期刊數據庫和生產商全文期刊數據庫。前者主要是那些期刊出版單位在其出版的印刷期刊基礎上建立的網絡電子期刊全文數據庫。而后者則是由數據庫生產商根據一定的主題或一定的收錄范圍整合一定數量的期刊出版物而產生的全文數據庫。國內全文數據庫主要有中國學術期刊全文數據庫。
3.2 網絡搜索引擎檢索
搜索引擎是一個專門的系統,它可以對互聯網信息資源進行搜索整理和分類,并將其儲存在網絡數據庫中供用戶查詢。搜索引擎包括搜集信息、分類和用戶查詢等三大部分。目前流行的搜索引擎有兩大類:關鍵詞全文檢索式搜索引擎和分類目錄式搜索引擎。
關鍵詞全文檢索式搜索引擎主要利用其內部的搜索機器人和蜘蛛程序,自動搜索來自互聯網上的各種內容,在每一個關鍵詞和所有相關的網頁之間按照網頁相關性原理建立一個對應關系,儲存在其網絡服務器的數據庫中。用戶只要輸入關鍵詞就可以找到符合該關鍵詞特征的所有被索引的網頁,搜索結果以超鏈接的方式列表,搜索結果有簡單介紹,用戶點擊相應的鏈接就可以進入相應的網絡資源網站,從而找到所需信息。用這種方式搜索到的結果通常數以百萬計,但是相關性越高的信息,在搜索結果列表中的位置越靠前。分類目錄式搜索引擎將互聯網信息按照一定的標準進行收集和分類,并編入相應目錄,以層級和逐次分項的方式管理目錄,查找信息可以按照分類目錄一層層進入,最終找到所要的信息。
3.3 互聯網“超鏈接”搜索
Web信息以超文本鏈接方式組織,基本組織單元是信息節點而不是字符串,信息節點之間通過鏈接進行聯系。超鏈接是網頁必不可少的一個元素,同一主題或相關的信息因超鏈接構成了信息網。超文本信息檢索技術,以超文本信息節點之間的多種鏈接關系為基礎,根據思維聯想或查找信息的需要,通過鏈接從一個信息節點轉到另一個信息節點。
4.網絡信息檢索的未來發展趨勢
網絡技術的發展,給網絡信息檢索及信息的網絡化帶來的極大的便利,進一步推動了網絡信息檢索理論和技術的快速發展。怎樣為網絡用戶提供高質量、高效率的檢索方式是網絡信息檢索研究者的努力方向。信息檢索的對象已從傳統的文本信息擴展到如今開放、動態、分布廣泛的多媒體信息。那么,網絡信息檢索的發展趨勢如何呢?
4.1 智能化信息檢索
智能化信息檢索是基于自然語言處理的檢索形式。檢索工具是對用戶提供的以自然語言表達的檢索要求進行分析,從而形成檢索策略進行檢索。檢索工具智能化的內涵在于檢索工具具有學習、分析、辨別和推理的能力。近年來,因特網上不斷涌現的人工智能產品,如智能搜索引擎、智能瀏覽器、智能等,它們將提高網絡信息檢索的智能化程度,促進智能信息檢索的發展。
網絡中的智能通常是一個專家系統、一個過程、一個模塊或一個求解單元。智能可以獲得用戶的信息需求,自動檢索信息和推送檢索結果信息。多智能系統還具有信息發現、信息篩選、信息推送和信息導航功能,可滿足專業研究人員的特定需求,實現網絡信息檢索與服務的智能化。
4.2 一站式信息檢索
一站式(One Stop)信息檢索是指用戶通過一個檢索工具能滿足自己所有的信息檢索需求。一站式信息檢索將是網絡信息檢索服務的一種發展模式。一站式檢索服務是人性化服務的重要體現,它將大量節約用戶的檢索時間。全球較大的搜索引擎Google正在朝著一站式服務的方向發展。2004年12月,Google宣布與紐約公共圖書館和包括哈佛大學圖書館在內的4個主要圖書館合作,將這些圖書館的大約1500萬冊藏書掃描進自己的數據主庫以提供網絡用戶檢索。目前,Google已經為其用戶提供了某種程度上的一站式的檢索服務了。而其他越來越多的檢索服務提供商將向一站式檢索方向發展。
4.3 可視化
可視化指的是運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。據統計,獲取信息有70%~80%靠視覺,20%靠聽覺,10%靠觸覺。用圖像取代文字幫助人們檢索的優點在于:圖像的表達更生動、結束語形象、,效率更高,具有交互性、多維性、可視性等特點,可以大大加快檢索速度,使時刻都在產生的海量數據得到有效利用。
4.4 商業化
目前網絡信息檢索系統已成為新的投資熱點,網絡信息檢索系統不再僅僅是一種檢索工具,而且是一種商業產品。2001年10月,全球較大的中文搜索引擎提供商百度()聯合新浪等多家中文門戶網站,共同推廣“搜索引擎競價排名”全新網絡商業服務模式。網絡信息檢索的商業化還體現在聯機和光盤檢索逐漸進入網絡環境。由于目前網絡信息檢索的檢準率低,聯網的收費聯機和光盤檢索依舊受到青睞,如世界著名的聯機信息系統DIALOG、OCLC、EBSCO、Silverplatter,國內的萬方數據資源系統、中國學術期刊光盤、重慶維普公司系列光盤等都紛紛在網上設立自己的網絡檢索入口。許多著名科技期刊的上網豐富了網絡資源,它們大多數都是在提供印刷版的同時提供期刊的網上服務,包括收費檢索。
5.小結
在的網絡信息資源中尋找自己所需要的信息資源是一件具有挑戰性的工作。為此,許多信息專家正在積極地研究探索,并且取得了不少成果。我們相信隨著科學技術的進步,網絡信息檢索發展會越來越快,人們所利用的檢索工具和手段的更替會更加頻繁。
網絡信息檢索論文:網絡信息檢索環境下的語義檢索研究
摘要: 互聯網給用戶的信息檢索帶來便利的同時也導致大量冗余信息出現,使得檢索效率低下。語義檢索通過對用戶檢索要求的語義分析使得檢索效率以及檢索度大大提升。本文在分析語義檢索基本要素和檢索原理的基礎上,介紹三種常用的語義檢索系統,體現語義檢索在網絡信息檢索環境下的優勢。
0 引言
互聯網的快速發展和廣泛應用,為人們提供了一個廣闊的信息空間,也為信息檢索提供了一個廣闊的發展平臺。互聯網的開放性和自由性使得網絡信息資源呈現出數量巨大、異構性、分散性和動態性特征。但由于網絡信息時效性強以及互聯網缺乏必要的監督和質量控制,使得大量垃圾信息混于高質量信息當中,增加了有效信息獲取的難度,影響檢索效率。因此,使用有效的檢索工具才能使得網絡信息資源為人們所充分利用。
1 網絡信息資源點與檢索工具
上世紀90年代中期出現的搜索引擎技術目前已經成為檢索各類網絡信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網絡自動搜索軟件(Robot、Spider等)訪問瀏覽網頁并抓取文件,并通過已瀏覽的網頁中的鏈接訪問更多網頁。在抓取網頁的同時對頁面文件進行分析分解以及索引,建立索引數據庫。當用戶在搜索引擎界面輸入搜索詞后,搜索引擎對搜索詞進行處理,按照處理后的搜索詞在索引數據庫中找出所有包含相關內容的網頁,并更具排名算法計算出排名順序然后按照一定的格式返回到搜索頁面。普通的搜索引擎缺點在于返回的檢索結果數量巨大,無關和冗余信息較多,用戶必須從中進行篩選。雖然布爾運算、截詞運算、自然語言檢索等技術使用大大提高了率,但對用戶檢索素養要求很高。針對以上問題,學者把研究對象放到對詞意的挖掘上,探索實現基于概念匹配的檢索技術和方法,基于本體的語義檢索成為研究重點。
2 語義檢索基本要素和原理
隨著人工智能以及自然語言處理的發展,尤其是語義網技術的興起,自上個世紀以來語義檢索研究得到了迅猛的發展。雖然對于語義檢索在概念上到目前為止沒有統一的界定,但是不同的研究都有一個共同之處就是基于對信息資源的語義處理時限效率更高的檢索[1]。本體是語義檢索的基礎,其主要任務是對信息資源進行語義表達。
本體(Ontology)原本是一個描述客觀事物本質的哲學概念,是對客觀存在的一個系統的解釋和說明。如今,本體是一種能在語義和知識層次上描述概念體系的有效工具,用來描述概念以及概念之間的關系,通過概念之間的管理來描述概念的語義。本體作為一種的知識表示方式能夠充分的描述所以的數據結構,是推理和關系數據庫的結合[2]。概括的講本體能夠在人們和應用系統之間達成對術語含義的共享和共同理解,通過函數(functions)、關系(relations)、原則(axioms)和實例(instances)、類(classes)這5種元素表達本體中的知識,使其具有邏輯推理和語義識別功能,幫助檢索系統跨越目前基于關鍵詞的檢索過程中的上述問題以實現語義檢索[3]。目前實現網絡檢索的技術主要有兩種:及時種,依賴于編碼處理,以分類模式來描述信息資源以實現檢索的目的;第二種,是通過全文檢索查找文本中包含用戶指定的詞語的信息源。語義檢索的語義信息的提取和處理是基于語義網方法與技術的查詢處理與文檔標注及索引。基于本體的查詢處理包括:查詢消歧和查詢擴展,通過消岐,明確查詢的確切所指,反映用戶的信息意圖,繼而通過加入與其語義相關的其他概念來實施擴展。在對文檔進行語義標注與索引的基礎上,先進行實例檢索,再據此返回所有以檢出實例標注的文檔信息是語義標注文檔檢索的一種普遍思路。相對于傳統的網絡檢索,基于本體的語義檢索的優勢在于體現語義信息,表達用戶的查詢意圖。
3 常見語義檢索系統介紹
3.1 一體化醫學語言系統(UMLS) UMLS(Unified Medical Language System)作為計算機化的情報檢索語言集成系統,是美國國立醫學圖書館(NLM)主持的一項長期開發研究計劃。它不僅是自然語言處理、語言規范化以及語言翻譯的規范化工具,更是實現實現跨數據庫檢測的詞匯轉換系統并且還可以幫助用戶連接情報源,包括書目數據庫、事實數據庫、計算機化的病案記錄以及專家系統過程中對于其他的電子式生物醫學情報的一體化檢索。UMLS包括情報源圖譜(Information Sources Map)、語義網絡(Semantic Network)、專家詞典(SPECIALIST Lexicon) )和超級敘詞表(Metathesaurus)四部分。其中超級敘詞表是術語、生物醫學概念、等級范疇、詞匯及其涵義的廣泛集成。1997年第8版的超級敘詞表收錄了739439個詞匯,這些詞匯來源于30多種生物醫學詞表和分類表的能表達33萬多個概念的,詞匯量達到空前規模。而語義網絡是為超級敘詞表中的所有概念提供語義類型及相互關系結構的工具,是為建立概念術語間相互錯綜復雜關系而設計的。UMLS的語義網絡不僅運用了常規的語義控制手段,如屬分、相關關系控制、語義等級,同時在語義規范和語義關系分析、延伸等多方面有許多創新。
3.2 語義網(Semantic Web) 為了能夠在網絡環境下也同樣實現語義檢索的功能進而開發研究了語義網的W3C項目。W3C項目是將網絡上的數據通過一種方式進行連續和定義,通過這種定義和連續可以根據人的不同需求實現計算機將數據自動進行整合以及再利用,從而達到更有利于人機協作的目的。資源描述框架(Re-source Description Framework,簡稱RDF)是語義網的核心構件。在網絡中,一般用元數據對資源進行描述,而RDF則是處理元數據的一個基礎。RDF認為一個具體的元數據是由屬性值(Statements)、屬性(Properties)和資源(Resources)構成的三元關系模式[4],實際上是關于一個特定的資源特定屬性的取值聲明。使用RDFS語言,元數據的設計者不僅可以定義所描述資源的類別、屬性以及詞匯,還可以定義這些屬性或者對象的關系以及對象與屬性之間的相互關系,同時還可以進一步定義這些資源的對象、屬性以及屬性應用類別和取值條件等,通過這些定義從而能以計算機理解的標準方式對元數據進行描述語義內容以及元數據的結構關系。
3.3 WordNet WordNet是一種基于認知語言學的英語詞典,它是由普林斯頓大學的計算機工程師、心理學家和語言學家聯合設計的不僅是把單詞以字母順序排列,并且是按單側的意義組成的一個“單詞的網絡”。WordNet將所有的英語詞匯按詞性分為功能詞、形容詞、動詞、名詞和副詞五類。動詞被組成各種推演關系;名詞在詞匯記憶中被組成主題的層次;而形容詞和副詞被組織在N維超空間中。根據WordNet關系分析較大的優勢是能在他的單詞網里通過相關關系消除歧義,因為WordNet分析主要是關系分析。WordNet在名詞的語義消歧率可以超過60%。
4 結語
從以上三個語義系統來看,無論是相對封閉的ULMS系統還是開放式的語義網、wordnet系統都具有較強的靈活性和擴展性。相對于常見的關鍵字信息檢索,語義檢索不需要用戶使用專業的檢索策略,也不需要語法嚴謹的檢索式,用戶可以將自己的信息需求通過自然語言直接表達出來。語義檢索在后臺經過大量的計算,分析用戶的用戶的語義文檔信息,充分利用各種語義關系消除歧義將用戶真正需要的的信息資源反饋給用戶,將用戶的檢索效率提升60—80%。因此,語義檢索無疑是當前信息爆炸條件下最適合的網絡信息檢索方式。
網絡信息檢索論文:網絡信息檢索中的圖像檢索技術
[摘 要] 圖像檢索是網絡信息檢索中的重要的組成部分,而其檢索技術卻相對滯后。基于內容的圖像檢索已成為網絡信息檢索技術的研究熱點。本文分析并總結了圖像檢索的概念,綜述了基于內容的圖像檢索系統和相關技術。
[關鍵詞] 網絡信息檢索; 基于內容; 圖像檢索技術
隨著網絡信息資源的迅速增加,信息多樣化的程度不斷加大,諸如圖形、圖像、音頻、視頻、動畫等多媒體信息日漸豐富,其中圖像信息的需求尤為大量,而當前主要以文本方式進行檢索的技術已不能滿足人們對信息的需求。
基于文本的檢索是搜索引擎將網站、網頁的內容索引為一系列的關鍵字,當用戶輸入相應關鍵字后,系統根據數據庫中的倒排文檔將關鍵字映射為網站或網頁的地址。圖像信息基于文本的檢索技術,即根據圖像信息的文件名、路徑名、ALT標簽等,將其標注為一系列關鍵字的描述,然后通過檢索這些描述以達到檢索圖像信息的目的。這種檢索技術很不實用。首先,由于目前的計算機視覺和人工智能技術都無法自動對圖像進行標注,要由人工完整地標注網絡上的所有圖像,不但費時費力,而且往往是不或不完整的;其次,不同用戶對于同一張圖像的看法不盡相同,導致對圖像的標注沒有一個統一標準;再次,這種方法將注意力局限在圖像的著錄特征,即文字描述上,不能充分揭示和描述圖像中有代表性的畫面內容特征。所以基于內容的圖像檢索技術應用而生。
1 基于內容的圖像檢索技術
基于內容的圖像檢索一般是指靜止圖像的檢索。這種圖像檢索技術通過分析圖像的內容,提取其顏色、形狀、紋理等可視特征,建立特征索引存儲于特征庫中,在檢索時,用戶只需把自己對圖像的模糊印象描述出來(繪制的草圖或通過掃描儀等在線輸入的圖像),就可以通過多次的近似匹配,在大容量圖像庫中查詢到所需圖像。基于內容的圖像檢索具有較強的客觀性。
基于內容的圖像檢索算法涉及的相關技術比較多,主要有:圖像的分析與特征向量的提取技術、特征向量數據的組織與存儲技術、圖像數據的組織與存儲技術等。
1.1 基于顏色特征的圖像檢索
顏色特征是圖像檢索中最基礎的一種檢索依據,顏色是人識別圖像的主要感知特征之一。在基于顏色特征的檢索算法中,通常用顏色直方圖來表示圖像的顏色特征。直方圖能較好地反映圖像中各顏色的頻率分布,橫軸表示顏色等級,縱軸表示在一個顏色等級上,具有該顏色的像素在整幅圖像中所占的比例。直方圖可以對整幅圖像進行較大匹配度檢索。目前關于色彩的索引方法有兩類:基于全局色彩的索引與基于局部色彩的索引。
全局色彩的索引就是按全局色彩的分布來索引圖像,計算每種顏色的像素,檢索出具有相同顏色內容的像素的圖像。其中最為簡單有用的工具是灰度直方圖。利用圖像的灰度直方圖作為特征指標來描述圖像,一般是利用二維直方圖,如紅—藍直方圖,它是紅光圖像的灰度值和藍光圖像的灰度值的函數。利用色彩直方圖進行檢索的方法有許多,如:比例直方圖法、累加直方圖法等。
色彩直方圖還不能為像素在圖像中的位置提供線索,為了盡可能少地丟失信息,提出了局部色彩方法。局部色彩的索引對象是局部相似的顏色區域,它考慮了顏色的分類和一些初級的顏色特征。用形狀面積、圓度、離心率等來描述形狀的特征矢量。
1.2 基于形狀特征的檢索
形狀是刻劃物體的本質特征之一,利用形狀來檢索可提高檢索的性和效率。基于形狀的檢索不僅包括傳統意義的基于二維形狀的檢索,還包括三維形狀的檢索。
基于圖像內物體形狀的檢索,首要問題是采用合適的圖像分割算法把不同對象從圖像中分割出來,關鍵是尋找符合人眼感知特性的形狀特征。目前,較好的方法是采用圖像的自動分割方法結合識別目標的前景和背景模型來得到比較的形狀特征。圖像自動分割方法的具體思路是:將圖像分塊后,將每個塊看成是一幅小圖像,計算每個小圖像的顏色直方圖特征,則每個塊間的直方圖是不一樣的,為分析邊緣特征,將相鄰兩個塊構成一個比較對,將每個塊間的差值記錄下來,同時記錄差值在一定范圍內的數目,這樣就形成一個顏色特征差值表。圖像對象空間位置發生變化,其特征差值表也就不同。
1.3 基于紋理特征的檢索
紋理是指圖像在局部區域內可能呈現出不規則性而在整體上卻表現出某種規律性。紋理特征是圖像中難以描述的特征,它是一種反映圖像像素灰度級空間分布的屬性。如果一個物體內部以灰度級變化明顯而又不是簡單的色調變化,那么該物體就有紋理。
紋理分析的方法基本可以分為統計法、結構法、模型法和空間法/頻率域聯合分析法等4類。基于統計的方法是對圖像中的顏色強度的空間分布信息進行統計,主要用于分析像木紋、沙地、草坪等細致而不規則的物體;基于結構的方法將重點放在分析紋理元之間的相互關系和排列規則上,適用于像布料或磚瓦等一類元素組成的紋理以及排列比較規則的物體;基于模型的方法是假設紋理按某種類型分布,如Markov隨機場模型、分形模型等。基于空間/頻率域聯合分析法主要包括Cabor變換法和小波變換法等。
1.4 基于知識的圖像檢索
基于知識的圖像檢索也是基于內容檢索的重要方法之一。圖像本身是一定數量的顏色像素點的集合,人類能夠識別出像素點集合的含義是人類以自身的知識賦予圖像意義的過程。基于知識的圖像檢索系統為用戶提供知識庫,針對一個圖像需求,搜索引擎依次調入每一幅圖像的內容描述,結合知識庫中的相關知識,以圖像需求為目標進行推理,如果需求目標得到滿足,則確定這幅圖像符合檢索要求。
2 基于內容的圖像信息檢索系統
目前,基于內容的圖像檢索技術的研究取得了很大的突破,較有影響力的有以下幾個:
2.1 QBIC系統
QBIC(Query By Image Content)是IBM公司于20世紀90年代研制的圖像和動態影像檢索系統,其含意是“根據圖像的內容進行查詢”。由IBM Almaden研究中心開發,是基于內容的檢索系統的典型代表。QBIC在檢索過程中用戶無須提供文字檢索詞(它也提供關鍵詞檢索),只要輸入以圖像形式表達的檢索要求,即可檢索出一系列相似的圖像。QBIC系統允許使用示例圖像、用戶構建的草圖、選擇的顏色與紋理模式、鏡頭與目標運動等,對大型圖像和視頻數據庫進行查詢。
2.2 Photobook系統
Photobook系統是由美國麻省理工學院(MIT)的媒體實驗室于1994年開發研制的用于瀏覽和搜索圖像的一套交互式工具,圖像在存儲時按人臉、形狀或紋理特性自動分類,圖像根據類別通過顯著語義特征壓縮編碼。
2.3 Virage系統
Virage是由Virage公司開發的基于內容的圖像搜索引擎。與QBIC相似,Virage支持基于顏色、顏色布局、紋理和結構(對象邊界信息)的可視化查詢,但Virage比QBIC更進一步,它也支持由4個原子查詢的任意組合,用戶可以根據他們自己的側重調整4個原子查詢的權重。
2.4 CORE系統
CORE是新加坡國立大學開發的一個基于內容的檢索系統。其顯著的技術特色包括:多種特征提取方法、多種基于內容檢索方法、使用自組織神經網絡對復雜特征度量、建立基于內容索引的新方法以及對多媒體信息進行模糊檢索的新技術。
2.5 VisualSEEK系統
由美國哥倫比亞大學圖像和高級電視實驗室開發。它實現了互聯網上基于內容的圖像/視頻檢索系統,提供了一套工具供人們在Web上檢索圖像和視頻信息。用戶可以把頂部為紅橙黃色區域、底部為藍綠色區域,這樣的圖像作為查詢“日出”的草圖,使人們在Web上可以方便地搜索和檢索圖像和視頻。
3 基于內容的圖像檢索體系結構
基于內容的圖像檢索系統與傳統基于文本的檢索系統不同。基于內容的檢索系統一般通過可視化界面和用戶進行頻繁的交互,以便用戶能夠方便地構造查詢和改進檢索結果,用戶通過選擇具有代表性的一幅或多幅例子圖像來構造查詢,然后由系統查找與例子圖像在視覺內容上較相似的圖像,按相似度大小排列返回給用戶,即所謂的通過例子圖像的檢索(Query By Image Example)。
基于內容的圖像查詢和檢索是一個逐步求精的循環過程。其過程及各個模塊如下:
3.1 圖像的預處理
在特征抽象子模塊里,首先要進行圖像的預處理,包括圖像格式的轉換,尺寸的統一,圖像的增強與去噪,圖像的邊緣提取,經過邊緣提取獲得圖像的輪廓特征,對其進行進一步輪廓清晰化處理等功能,為圖像的特征提取打下基礎。
3.2 圖像的目標標識
圖像預處理后,要進行圖像的目標標識。目標標識為用戶提供一種工具,以全自動或半自動(需要用戶干預)的方式標識圖像中用戶感興趣的區域或目標對象,以便針對目標進行特征提取并查詢。當進行整體內容檢索時,利用全局特征,這時不用目標標識功能。目標標識是可選的。
3.3 圖像的特征提取與表達
圖像特征的提取與表達是基于內容的圖像檢索技術的基礎。對圖像數據庫進行特征提取,提取用戶感興趣的、適合檢索要求的特征。特征提取可以是全局性的,即整幅圖像,也可以是針對某個目標的,即圖像中的子區域,如人的面部特征或指紋特征等。
3.4 圖像數據庫
作為圖像查詢的后臺基地,生成的數據庫由圖像庫、特征庫和知識庫組成。圖像庫為數字化的圖像信息,特征庫包含用戶輸入的特征和預處理自動提取的內容特征。知識庫包含專門和通用知識,有利于查詢優化和快速匹配,知識庫中知識表達可以更換以適用各種不同的應用領域。
3.5 圖像的查詢接口
在基于內容檢索中,由于特征值為高維向量,不具有直觀性,因此必須為其提供一個可視化的輸入手段。友好的人機交互界面是一個成功檢索系統不可缺少的條件,可采用的方式有3種:操縱交互輸入方式、模板選擇輸入方式和用戶提交特征樣板的輸入方式。另外,查詢返回的結果需要瀏覽,應在用戶界面提供瀏覽功能。
3.6 圖像的檢索引擎
檢索是利用特征之間的距離函數進行相似性匹配,模仿人的認知過程,近似得到數據庫的認知排隊,存在一些不同的相似性測度算法,檢索引擎中包括一個較為有效的相似性測度函數集。
3.7 圖像的索引/過濾
索引是用來提供快速、有選擇性地存取數據庫的一種機制,它相當于一種映射機制,將屬性的值轉換為相應數據地址域的地址集。過濾器作用于全部數據,過濾出的數據集合再用高維特征匹配來檢索。索引用于低維特征,可以用R樹來索引以加快檢索速度。
基于內容的圖像檢索技術為用戶提供了一個在網絡上搜索感興趣的圖像信息資源的有效手段,但基于內容的圖像檢索技術目前還存在許多有待發掘的內容,因而,基于內容的圖像檢索技術也需要隨著網絡技術、信息技術的發展而發展。
網絡信息檢索論文:光盤網絡信息檢索系統開發與應用
摘要:光盤網絡信息檢索系統是圖書館信息服務的核心,面對信息服務供求緊張、矛盾日趨激烈,如何高效的開發光盤信息檢索系統,并應用在不同領域儼然已經成為信息服務產業的一個重要環節。本文將以自發研制的圖書館光盤網絡檢索系統為例,并針對其運行環境、基本性能以及應用情況等等做出相關討論。
關鍵詞:光盤網絡信息檢索系統;開發;應用
隨著科學技術的迅速發展,信息產業更是異軍突起,前景一片大好。因此這也就造成信息服務供求關系嚴峻、矛盾突出,特別是應用于圖書館的信息檢索系統。信息檢索系統在圖書館的只用查閱中起著至關重要、不可或缺的作用,但由于我國國內圖書館眾多,特殊時期時光盤網絡的應用條件和應用環境并不完備和事宜,因此如何開發應用光盤網絡檢索系統也是我國信息化產業的重要環節。本文將以某圖書館自行開發研制的光盤網絡檢索系統——Medical CD–ROMNET為例,著重探討光盤網絡檢索系統的運行環境、基本性能應用情況以及現今尚存在的問題和解決辦法等等。該系統是一種經過自發研制并研究試用的一款光盤網絡檢索系統,主要作用于局域網,并應用在圖書館領域。該系統具有費用低、方便易行等諸多有點,十分理想,下面將從四個方面分別進行討論:
1 光盤網絡檢索系統的運行環境
該光盤網絡檢索系統是已DOS作為系統操作系統,并把網絡服務器驅動程序—SERVER.EXE作為開發基礎,在NOVELL的IPX/SPX協議的光盤局域網絡的基礎上研發而成。圖書館信息檢索系統含有多個工作站和數據庫,其驅動程序都分別裝在各個工作站的微機中,并通過光盤網絡檢索系統來實現各工作站之間的聯系。這樣一來明確了各個工作站之間分工,有效的利用空間資源等等,也保障了各工作站以的狀態進行檢索信息服務。另外各工作站可根據用戶方便來使用不同的操作系統,極大程度上的方便用戶使用。也實現了主程序與各個工作站相互配合,以及主程序對各個子工作站的控制作用的體現。
另一方面,該光盤網絡檢索系統的運行環境要求比較低,一般普通計算機即可達到指標,服務器主機達到4兆及4兆以上即可達到標準,而各工作站由于直接接觸用戶,對內存方面并無要求。同時,服務器還要求含有軟驅,通過網線與各個子工作站相連接,而子工作站方面可以在不影響與主服務器的有效連接外,按照需要添加打印機、磁盤驅動器等設備,以方便用戶進行信息檢索服務。因此該系統徹底的實現了各子工作站與主服務器硬件上的相互獨立,使得用戶可以任意的使用各工作站的硬件資源而并不影響服務器與各驅動之間的正常工作,極大程度上的實現了資源的充分利用,也避免了很多昂貴的不必要的開銷費用,這也使得國內很多圖書館采用光盤網絡檢索系統的主要原因之一。
2 光盤網絡檢索系統的性能
光盤網絡檢索系統的模式與文件服務器模式相類似,整個光盤網絡檢索系統只有一個主服務器,有一個較高配置的計算機以及光盤驅動器組等構成,通過網線與各個字工作站相互連接,各個子工作站由任意配置的計算機和數據庫的驅動程序構成,同時主服務器還可通過遠程工作站連接有私人工作站和科室工作站,這就是光盤網絡系統的大體模式。
所有的光盤驅動器都集中在主服務器上,而通常專用于驅動與共享光盤驅動資源的即為服務器上的軟件程序。雖然光盤驅動器全部集中在主服務器上,但是由于主服務器與各子工作站之間的有效連接使得用戶在使用過程中,就好像光盤驅動器就在本地一樣,更加方便了用戶的信息檢索服務。該模式的光盤網絡檢索系統采用文件服務器模式,因此秉承了其很多不可替代的優點,安全性好,性能穩定而且十分節省耗資等等。另一方面由于主服務器與各子工作站直接相連,因此對于集中管理和維護變得十分的方便。同時,一旦用戶提出信息檢索需求,各子工作站可單獨提供檢索服務,但前提實在網絡連接并無錯誤時,主服務器可有效工作。而當各個子工作站計算機不使用甚至是關機或故障并不影響主服務器的工作,和其他子工作站的信息檢索服務,實現了總體與個體、個體與個體之間的緊密聯系和相互獨立。
3 光盤網絡檢索系統的應用情況
光盤網絡檢索系統可廣泛應用于圖書館的信息檢索服務,應用情況如下:主服務器為386SX/33兼容計算機、4兆內存,含有軟盤驅動器以及4個外置式和2個內置式光盤驅動器,除了含有科室遠程工作站和私人遠程工作站外還含有8個關內的子工作站。個人或科室可以通過該工作站隨時進行信息檢索服務,各個子工作站可包含不同的服務類型,其中情報服務組、教育組、流通服務組和期刊服務組分別占5個、1個、1個和2個.數據光盤具有容量大,安全性高,性強等特點,保障數據的記錄、查找和篩選。另外,圖書館可以在驅動器中添加資源光盤以引進更多的文獻資源,使得各個子工作站共同享有的文獻資源。檢索系統在工作過程中各個子工作站用戶可以利用自身的硬件資源等等進行篩選和處理得到所需要的服務信息,而個人或是科室則可通過電話線、網絡連接等方式隨時的進行遠距離操控,實現對文獻的檢索和篩選,檢索過程中與各個子站的檢索服務并無區別,因此大大的減輕了圖書館情報部門的負擔,使得情報服務組可以更加高效率的進行工作,也使得整個圖書館的信息檢索服務變得更加順暢和便捷,用戶對此也十分滿意。
4 存在的問題和解決辦法
雖然通過應用自發研制的網盤網絡信息檢索系統具有諸多優勢,比如方便快捷、高效提供用戶對于信息的檢索服務、可添加共享文獻資料、可實現遠程操控、耗資成本低以及維修簡單等等多個有點,但在應用過程中仍會發現很多的不足,在此將分別討論各個缺點和不足,并討論和提出相應的解決辦法。首先,主服務器的工作效率受子工作站與驅動器數目的影響極大,過多的工作站或驅動器不可避免的導致服務器超負荷運行,導致服務器運行緩慢,甚至是出現死機的狀況。出現這種情況的原因可以用系統服務器的工作原理來解釋,光盤網絡信息檢索系統的服務器CPU的工作方式是分時處理任務,也就是說檢索服務是嚴格按照申請的時序來今后進行服務的,然后由于時間非常短而用戶一般察覺不到。但是正式由于這種分時處理任務的方式決定了分配給每個申請占有CPU的時間有限,另外還要進行數據的輸入、輸出和處理篩選等等。那么當各個子工作站或驅動器的數目過多時,超過了主服務器正常工作的范圍時也就很自然的導致運行速度嚴重緩慢,嚴重時甚至可能出現網絡崩潰的狀況。這是信息檢索系統最常見的問題,解決方法通常從三個方面來出發,及時就是提高服務器的硬件設置,比如增加內存,更換更高性能的處理器等等。第二是嚴格控制光盤驅動數目和工作站的數目,將其控制在一定的指標,保障服務器能夠正常或是高效的工作。第三則是要組織專門的維修和保護人員成立維修小組,定期對于主服務器以及各個子工作站、個人工作站或是科室工作站,以及數據庫、驅動程序的檢測、維修和保護。保障圖書館的信息檢索系統始終能夠以較高的效率服務于用戶。
縱觀我國信息產業的發展,信息服務行業由于供求關系激烈而變得十分緊張,發展信息服務,開發應用光盤網絡信息檢索系統可以更加方便快捷的服務于人群、服務于社會。
網絡信息檢索論文:信息檢索課網絡多媒體課件系統設計
【摘要】本文采用網絡多媒體技術設計和開發的信息檢索課網絡教學課件,本系統體現和貫穿了素質教育思想,注重學生的知識與能力的協調發展,有利于提高當代大學生的綜合素質。
【關鍵詞】信息檢索課;多媒體課件;系統設計
一、引言
美國教育心理學家克拉克(Clark)說:能引起教學質量變化的是使用媒體的方法——軟件的設計,而不是媒體本身,因此,在設計網絡多媒體課件系統時我們著重考慮以下幾點:
(1)知識內容的新穎:在講述信息檢索知識基礎上,重點介紹檢索工具的使用及網上信息資源的開發,并將文獻的篩選、鑒別、利用融于檢索之中,突出實用性。
(2)基礎理論部分是吸引學生和引導學生深入學習的基礎,但涉及較多概念和抽象性問題,也是學生較難理解的部分內容,要求課件通過視頻等方式,化靜為動,化難為易。
(3)涉及到具體的實驗和操作方法的內容,操作性強,既是重點,又是難點,要求真實演示和記錄其過程或以視頻形式展示其過程。
(4)設計風格的規范性和靈活性:對課程內容的整體功能上實現較為嚴格的規范,而在具體內容的表達上,根據內容的需要,進行靈活的個性化設計。通過功能鍵可以控制課程進度,便于學生靈活掌握進度。
二、網絡多媒體課件系統的設計與開發
1.網絡多媒體課件系統設計及開發要求
(1)學生自主性學習。學生可以根據自身不同的要去選擇使用不同的媒體形式、不同的教學內容和教學進度來自主學習。
(2)系統的開放性。展示教學內容中的素材。
(3)系統的可擴性。教學內容,形式可隨時增加、刪除、修改。
(4)系統的可控性。課件的導航清晰明確,鏈接、無死鏈接。
(5)系統的易用性。降低課件開發難度,克服下載延遲時間過長或存儲空間不夠的技術問題,保護知識產權。
2.網絡多媒體課件系統總體設計
總體設計包括結構和內容的設計、功能的設計。在教學內容確定后,如何將這些知識內容在計算機上通過靈活多樣的形式加以表達,發揮多媒體的優勢,突破教學難點,突出教學重點,培養學生的素質和能力。整體上需要進行的、系統的結構和功能設計;更具體的表現在對課程內容、封面導言、界面、交互方式、導航、超文本等設計。
(1)結構及內容設計
該系統包括信息檢索基礎理論、手工檢索工具介紹和計算機檢索系統三個模塊。每個模塊下又分課程簡介、課程學習、專題論壇四個子功能模塊。
課程簡介;簡單介紹本學科信息檢索課的主要內容,學習的重點、難點及學時安排。
課程學習:它是信息檢索課網絡課程的主體部分,以篇、章、節縱向目錄導航為主線展示學習內容,將所有檢索工具從概況、編排結構、檢索途徑、實例分折、練習等五個層面展開介紹,針對與教學內容相關的、較重要的名詞、概念、定義、教學用圖、表以及實例分析等設置了相關鏈接;
專題論壇:設置了有關信息檢索與利用的專題討論組,體現出人機交互和人人交互的功能,在討論區,學生可以通過這個地區與老師討論問題,也可以與其它同學互相討論。
本課程的內容設計方法,能夠有效的引起和維持學習者的興趣。
(2)功能設計
導航:導航功能設計的如何直接影響到網絡課件的功能和質量,對課件規范化和標準化起到很重要的作用,該功能可控制學習進度,增強交互活動。該課程設置了當前位置導航、章節導航、功能目錄導航、知識點導航等。
交互提示:教程提供了多種交互方式,按操作形式分:文本方式、按鍵方式、鏈接方式等,使操作過程更接近實際;按交互活動分:人機交互、人人交互。
同步播放功能:利用流式傳輸技術,服務器將經過特殊方式壓縮過的聲音、文本、圖像、視頻多媒體文件打成一個個壓縮包,連續、實時傳送給用戶,在網絡上同步播出。在這種方式中,用戶只要等待很短的一段時間用來下載一定量的緩沖信息,就可以開始利用播放設備對壓縮的多媒體文件進行觀看,多媒體文件的剩余部分將邊播放邊下載。
網絡多媒體課件系統是一個基于WWW的自主式異步遠程教學的信息檢索課多媒體課程開發系統,并且通過Intranet/Internet實現多媒體課件的與分布式存儲。
(3)腳本編寫
在課件設計中腳本的編寫占非常重要的地位,它是設計階段的總結,又是開發和實施階段的依據,從內容上看,它是網絡課件中教學內容和教學方法的載體。腳本編寫可分為文字腳本和制作腳本。文字腳本是按照教學過程的先后順序,將知識內容呈現方式描述出來的一種形式;制作腳本包含著學習者將要在屏幕上看到的細節,并詳細說明各種信息表示的邏輯關系。腳本編寫主要內容包括:
①顯示信息。指屏幕上將要顯示的教學信息、反饋信息。
②注釋信息。說明顯示信息呈現的時間、位置和條件以及連接要求。
③邏輯編號。顯示常常是以屏幕為單位表述的,為了說明它們之間的連接關系,每個顯示單位沒有一個邏輯編號,以便說明連接時使用。
④媒體、交互信息的表示。為了清楚地表示教學信息中使用的不同媒體(文字、聲音、圖形或圖象等),交互過程中呈現的各種信息,腳本中常常采用不同的符號表示它們。
(4)素材搜集
素材準備是課件制作中工作量較大的一部分工作。這不僅在很大程度上決定著課件的整體質量,而且影響著素材內容是否能順利地加載到多媒體課件合成系統中,并能完成打包工作。素材主要有:文本、圖像、音頻、視頻。
①靜態圖象
要求圖像素材為.GIF格式,每一幅圖像在800×600分辨率下的尺寸為200×200—800×800像素之間。
②音頻素材
要求音頻素材為CD音質,立體聲,采樣頻率為44100HZ、8位。音頻素材主要為語音錄音,以.WAV格式存儲。錄制的聲音文件還要在GOLDWAVE軟件程序中進行修改,主要進行去雜音、分配合理的停頓時間等處理,并對每句或每段話的起迄時間記錄在案。
③視頻素材
視頻素材從數碼相機攝像獲取。與音頻轉換相似,先設置所需的采樣頻率等參數,選擇需要轉換的視頻文件,其默認的畫面大小就是352×288,采樣基準頻率為350赫茲。這些素材通過PINNAC視頻采集卡,轉換為計算機可識別的數據文件,然后轉換成AVI格式保存。
④文本素材
文本素材為純文本的.DOC格式,文字素材可通過鍵盤輸入、掃描資料并進行文字自動識別(OCR)處理等方法獲得。
素材搜集完畢后,就要把文本、靜止圖像、音頻、視頻、動畫等媒體內容組合在一起。同步多媒體合成語言SMIL可以把多媒體對象集成到同步表現中。利用SMIL語言,我們研制開發了“流式多媒體文本同步制作子系統”和“流式多媒體同步課件合成系統”,將收集的素材進行同步合成。
文本同步文件的生成:利用流式多媒體文本同步制作子系統,在其屏幕區添加屏幕序號,一屏內容最多13行,在其內容編輯區將文本素材輸入或拷貝到此區域,按屏幕內容區的“加入”按鈕,即可將文本素材加入到該屏,在屏幕內容屬性區根據已經記錄在案的每句或每段話的起迄時間,輸入某段要顯示的文字的起迄時間,然后輸出REALTEXT(.RT)格式的文字與聲音同步文件。
圖像文件生成:圖像素材無須壓縮和格式轉換。
聲音文件的生成:.WAV格式的音樂素材需用REALPRODUCER PLUS轉成RM格式,以便于流式多媒體素材的合成。
視頻文件的生成:保存后的AVI文件再利用REALPRODUCER PLUS工具壓縮成RM格式文件,以便于流式多媒體素材的合成。
文本同步文件及其它壓縮文件準備好之后,就要利用流式多媒體同步課件合成系統,將這些元素合成為RM格式的同步流媒體播放文件。
3.網絡多媒體課件教學環境設計
“流式多媒體同步課件教學子系統”其用戶界面如圖1所示。
流式多媒體同步課件教學子系統課件以多媒體為主要表現手段,所以其中加入了視頻文件使真實圖像、原始聲音、現場情況等真實地展現在學習者面前,增強了學習者的感性認識,在很大程度上提高了教學質量。
如圖1所示頁面的右側是用來播放同步文本內容(即教師的教學同步電子文稿)的區域。頁面的左上側是用來播放同步視頻、同步圖像以及同步動畫的區域。這樣利用多媒體的視頻、音頻材料的時候能夠使之與課堂電子文稿同步的話將會達到很好的教學效果。頁面的左下側是課件內容的滾動目錄,通過點擊目錄中的滾動標題可以很容易的在教學內容之間跳轉。例如用鼠標點擊“EI年刊本編排及著錄格式”標題就可以將屏幕右側和左上側的演示內容跳轉到“EI年刊本編排及著錄格式”這一小節,并在Real
-Player控件中開始播放。在頁面的下方是用于控制播放內容的控制條。它們可以控制播放的內容快進、倒退、暫停、停止以及播放的音量和屏幕的大小等眾多功能。
三、結論
信息檢索網絡多媒體課件系統根據信息檢索課課程的教學目標,結合網絡自助教學的特點和要求開發研制,初步解決了信息檢索課網上自助教學中的重點和難點。本系統采用圖文并茂的方式,真實再現課程內容,跳躍式學習方法,使學生寓學于樂,克服了自助教學中學生脫離了教師便無所適從的較大障礙,解決了網上教學中自助教學的難點。同時啟發提示教學內容凝聚了教師多年豐富的教學經驗,充分發揮了教師的主導作用,通過課件引導學生完成自助教學中難以達到甚至無法達到的教學目標,大大減少了教師在課堂教學中的工作量。
總之,該課件系統是采用網絡多媒體技術研制的文檢課教學課件,它體現和貫穿了素質教育思想,注重學生的知識與能力的協調發展,有利于提高當代大學生的綜合素質。
網絡信息檢索論文:凌波多媒體網絡教學系統在高職院校信息檢索課中的應用
【摘要】高職院校信息檢索課是實踐性很強的方法技能課程,教學中通常是先在教室集中上理論課再到機房上實踐課,不利于學生很好理解、及時實踐和鞏固。將凌波多媒體網絡教學系統直接應用于課程的理論和實踐教學中,把理論課和實踐課有機結合起來,利用教師機對學生機的廣播、監控、語音教學等操作,可做到老師邊講授學生即時練習當時掌握,實現廣播式、集體交互式、個別化和分組等多種模式的教學。
【關鍵詞】高職院校;信息檢索教學;凌波多媒體網絡教學系統
1.引言
信息檢索課是一門融圖書館學、情報學、計算機網絡技術知識為一體的技能方法課,是培養學生的信息意識和信息運用能力的主要途徑,具有“授人以漁”的功效[1]。而高職院校培養的是具有一定理論知識和較強實踐能力,面向基層、面向生產、面向服務和管理及時線的實用型、技能型專門人才[2]。可見,高職院校的信息檢索課應以理論夠用、適用為度,突出實踐性,注重精講多練。而目前很多高職院校的信息檢索課還是使用傳統的教學方法和手段,大部分是先在教室集中上理論課再到機房上實踐課。理論課則是以教師講座為主,有的教師也采用了現代化的教學手段,但一般僅是以大屏幕演示PPT的方式為主,即老師在臺上針對于某一具體的數據庫,進行某一具體問題的演示操作,把檢索步驟與過程,甚至結果都一一演示出來。學生則在臺下跟著老師的思路一步一步走,或自顧自看書,處在一種似懂非懂、愛聽不聽的狀態。而理論和實踐的間隔時間往往偏長,學生即使在理論課上聽懂了,相隔幾個星期后再去上機實踐時已忘得差不多了;再加上學生多,網速慢,老師指導上機時很難做到及時、。這樣,學生所學的知識不能很好理解、及時實踐和鞏固,難以達到理想的教學效果。筆者將凌波多媒體網絡教學系統應用于信息檢索課,直接在機房中開展教學,將理論教學與實際操作教學有機地聯系起來,把教師演示與學生實踐有機地結合起來,利用教師機對學生機的廣播、監控、語音教學等操作,開展直觀、動態和交互式的教學,做到老師邊講授學生即時練習當時掌握,讓學生學以致用,融會貫通,取得了良好的教學效果。
2.凌波多媒體網絡教學系統簡介與安裝
2.1 凌波多媒體網絡教學系統簡介
凌波多媒體網絡教學系統是一套基于純軟件設計的網絡教學軟件,利用機房的局域網環境,實現基于文本、圖像、聲音、視頻、動畫等多媒體的同步教學。該系統具有良好的屏幕廣播速度,特別適合多媒體課件的教學;語音方面采用音頻混合技術,支持多人會話,如同真實的課堂討論一般;影音廣播不僅支持VCD、MPEG,還支持AVI、WAV等多種影音文件格式;獨創的縮略圖顯示方式,全部學生的電腦屏幕盡現眼前;無功能限制、無節點數限制,可以安裝任意多臺學生端。先進的并發運行制作,各功能可以任意組合,隨心所欲[3],為教師提供全新的教學模式,從根本上改變并促進師生之間的信息交互、資源共享和教學合作,實現真正意義上的教與學的交互。
2.2 凌波多媒體網絡教學系統的安裝
2.2.1 教師端的安裝
凌波多媒體網絡教學系統采用了類似傳統意義上的“服務器—客戶端”的配置模式。在機房全千兆局域網的網絡環境下,在一臺電腦上安裝軟件中的教師端程序,把這臺電腦固定下來供老師上課時進行演示、輔導和管理[4],即為教師機。
2.2.2 學生端的安裝
任選另外一臺電腦安裝軟件中的學生端程序,在教師端和學生端程序配置正確、調試無誤的基礎上,利用機房硬盤保護卡將其余準備作為學生端的電腦喚醒,把安裝好學生端程序的電腦作為發射機,進行網絡拷貝,待學生端程序傳輸完畢之后,就建立了基于“教師端—學生端”模式的多媒體授課環境和教學平臺。
2.2.3 設置注意
為更好地達到教師與學生的教學交互,在進行教師端和學生端設置時還應注意把模式中顏色質量設置為增強色(16位),使屏幕廣播效率較高;在“系統設置”對話框把“發送數據速率”調整為慢,避免學生端接收屏幕畫面時出現丟失現象;將學生端程序中“舉手”、“發消息”、“交作業”等權限開啟。
3.高職信息檢索課教學中凌波多媒體網絡教學系統的應用
在信息檢索課教學時,教師首先啟動教師端程序,進入教師端窗口。而學生啟動電腦后,學生端程序自動運行,受控于教師端。教師可以根據教師端軟件所提供的豐富的功能,利用系統獨創的并發運行設計,任意組合各功能,實現相應多樣化的教學環節。教師端界面如圖1所示。
3.1 利用屏幕廣播、電子畫板等功能,輕松實現各種教學展示與示范
凌波多媒體網絡教學系統的屏幕廣播功能可以實時傳送教師或某個學生的電腦畫面到某組或全體學生的電腦屏幕上,教師可利用這個功能將各種文本、視頻、音頻、動畫等多媒體課件和各種檢索操作過程屏幕廣播到學生機,輕松實現各種講解與示范。比如在教學搜索引擎的利用的時候,我既制作了靜態的PPT,又利用Camtasia記錄了檢索的屏幕動作,包括影像、音效、鼠標移動的軌跡、解說聲音等,還當場演示了各種搜索引擎的實際操作過程。在講解過程中還同時使用電子畫板功能,把電腦屏幕作為黑板,直接在屏幕上邊將邊寫寫畫畫。多種形式的屏幕廣播方式供學生實時地、清晰地觀看到效果。教師還可以把任意一臺學生機的屏幕廣播到其他學生機,既可以給大家展示某個學生的練習情況,進行及時的點評,也可以抽查某個學生進行操作演示甚至講解,反學為教,既達到了了解學生掌握程度的目的,又可以供其他同學吸取經驗和教訓。整個教學過程,學生既可清楚地看到教師機或某臺學生機的相關內容,又增強了師生的交互,讓學生地參與學習過程,真正成為課堂的主角,比教室里單一使用多媒體投影屏幕或請學生上講臺演示操作的效果更好。
3.2 利用遠程控制、聲音廣播、雙向對講等功能,實現個別化的教學和針對性輔導
系統的屏幕監控功能可以讓教師隨時監看和監聽某個學生的信息,了解該生的練習情況,然后利用聲音廣播、雙向對講等功能對該生進行個別語音指導,必要的時候還可以通過遠程遙控對該生的電腦進行操作,開展“手把手”式的指導,進行單獨的交互式輔導教學。這種點對點的個別語音指導和遠程遙控也可以指定某兩臺學生機來進行,以此開展學生間互助式的學習,提高學習效率。
3.3 利用班組管理、多人會話、網上聊天等功能,實現分組式的教學與輔導
系統的班組管理可以對所有學生進行任意分組,便于分組練習與指導。教師端軟件預設了十一個組,教師可以通過分組列表窗口選擇組。“全體”組含義是全部學生,教師只能對其他十個小組進行小組成員的添加或刪除。通過這種方式,教師可以針對不同專業、不同程度的學生進行分組,分別建立班組模型,有側重點的進行干預和輔導。高職院校的信息檢索課大多以公選課的形式開展,以筆者所執教的廣西機電職業技術學院為例,信息檢索課屬于全院公選課,學生有來自不同的專業,甚至不同的年級。在教學中,我根據不同的課程內容對學生進行分組。比如講計算機檢索基本理論的時候以全體組來開展,講數據庫的使用的時候以系部分組來練習,講信息檢索策略的綜合應用時則以年級分組來進行。這樣的教學針對性更強,輔導更到位。
同時,系統采用音頻混合技術,支持多人同時用語音進行交談,教師可以綜合利用系統的多人會話、網上聊天功能,指定某個組的學生(包括教師)之間進行語音交流或文字交流,開展分組學習和討論。比如在進行期刊數據庫的檢索與利用的練習中,我按專業群布置學生不同的檢索任務,要求學生查找自己專業群的相關課題,并形成檢索報告。我先將學生按系部分組,按組將學生機的屏幕畫面同時顯示在教師端,讓自己對每一組學生的練習情況一覽無余。然后根據各組學生練習的情況,向各小組用語音或文字廣播他們檢索課題的檢索策略、方法等關鍵問題,進行窗口遙控輔導,或者直接對各組進行遙控操作。有時還組織分組討論,教師可以隨時加入任何一組參與討論。也可以隨時根據各組練習情況將某個學生的熒屏顯示和語音等信息,向該組甚至所有學生廣播,進行展示或講評,以便學生學習他人的經驗,調整自己檢索策略和方法,提高學生的檢索能力。
3.4 利用屏幕日志、提交文件等功能課后檢查學生的學習情況
系統的屏幕日志功能,可以自動把全體學生機的電腦屏幕畫面,以jpeg圖片文件格式,保存到教師機指定的文件夾中,便于無人值守或事后查看學生電腦的使用情況。系統還有方便快捷的提交文件和傳送文件的功能,學生可以把練習結果提交到指定的文件夾中。由于每一次課的時間有限,課堂指導不能面面俱到,所以課后我經常調出自動保存的文件或學生提交的練習,繼續了解學生上一節課的練習情況,分析學生對知識、技能的掌握程度,便于下一次課有針對性的復習和鞏固,提高教學效果。
3.5 利用屏幕監視、鎖定電腦、點名簽到等功能,實現課堂的有效管理
系統設置有點名簽到功能,便于教師考勤。同時有鎖定電腦功能,如果教師在講課過程中通過屏幕監視發現個別學生機擅自脫離了控制,在玩游戲或隨意添加刪除程序的,可以立即將其電腦鎖定,強制其停止當前操作,或者將其顯示器屏幕設置為黑屏,提醒學生注意聽講。如果在自主練習中發現有學生未按要求練習的,則可以通過點對點或點對多給這些學生機發送提醒消息,這樣充分保障了學生的學習質量,實現了課堂的有效管理。
4.高職信息檢索課教學中應用凌波多媒體網絡教學系統的好處
4.1 安裝簡單,操作簡潔,好用易學
高職院校的信息檢索課程教學大多由圖書館館員兼任,他們的電腦應用能力普遍較弱。但凌波多媒體教學系統純軟件實現,不需要服務器,安裝簡單,升級維護方便,且硬件兼容強,對所有的網卡、聲卡及顯示卡都能體現出良好的性能,具有極強的系統穩定性,保障教學過程的順利進行。同時,系統的各項功能完善,使用統一的操作模式,直觀簡潔、易學易用,不同電腦知識基礎的圖書館館員都可以自如地操作,順暢地開展教學。
4.2 邊講邊練,學生當堂掌握所學知識
屏幕廣播功能可以隨時打開、停止,切換方便。教師用屏幕廣播講完一個知識點或演示完一種檢索方法,馬上停止廣播,把學生機的操作權放給學生,開始操作練習。教師可以通過教師端顯示的學生機屏幕縮略圖通覽每臺學生機的操作情況,再根據學生的練習情況進行文字、語音輔導,或者把任意一臺學生機的操作屏幕向全體學生機廣播,進行點評或展示;也可以重新打開廣播,繼續知識點的講解。整個教學過程操控自如,講練結合,實現當堂講授、實踐、輔導、掌握和鞏固,各教學環節學生都充分參與,學習興趣貫徹始終。
4.3 教學功能靈活組配,便于開展多種教學模式
凌波多媒體網絡教學系統豐富的教學功能可以進行靈活組配,隨心所欲。既可以利用系統的廣播功能完成班級集體授課,也可以通過點對點、點對多的操作與學生交流;既可文字交流,也可語音交流,兼顧了廣播式、集體交互式、個別化和分組教學四種教學模式,開展更適合高職學生特點的課堂教學。
4.4 教學管理功能齊全,保障課堂教學管理質量
系統齊全的教學管理功能,既實現了課堂的自動考勤,又可以限制學生對電腦的使用權限,避免學生機脫離教師端控制,使學生專心聽課。還可以保存學生機的操作屏幕,便于無人值守和事后查看每個學生的操作情況,更有穩定的提問、收取和提交作業功能。這些,既方便了課堂管理,保障了教學質量,也為平時成績的評定提供了很好的依據。
5.結語
實踐證明,將凌波多媒體網絡教學系統應用于高職院校的信息檢索課教學,將實際操作與理論知識教學結合起來,利用其交互作用,充分調動學生的積極性、主動性和創造性,通過動腦、動手、動口,使學生積極、主動、較大限度地參與到教學過程中,讓課堂充滿活力,充分體現學生在學習活動中的主體作用。同時,可以使教師由一個說教者成為教學的管理者和組織者,學習的引導者和幫助者,使信息檢索課密切結合高職院校獨特的人才培養目標,切實提高學學生的信息素養。
網絡信息檢索論文:泛在網絡環境下改革信息檢索課教學
【摘要】在泛在網絡環境下,信息檢索課教學面臨前所未有的機遇和挑戰。信息檢索課有可能采取移動教學這種新型的教學模式。本文分析了信息檢索課開展移動教學的必要性,并提出了信息檢索課開展移動教學模式的思路。
【關鍵詞】泛在網絡;信息檢索課;移動教學
在泛在計算提出以后,日韓等國先后提出了泛在網絡。顧名思義,泛在網絡即是指無所不在、無時不在的網絡[1]。隨著網絡泛化的發展,3G 網絡的成功運用,以及移動手機的普及,信息檢索課的教學內容和實踐平臺都發生了重大變化。為了適應網絡泛化的緊迫形勢,移動教學或許將成為泛在網絡環境下信息檢索課的主要教學模式。所謂移動教學,指的是基于網絡環境、借助移動通信技術、移動通信終端進行的隨時隨地的教學活動[2]。
1.信息檢索課開展移動教學的必要性
1.1 信息人群的現實需求
隨著互聯網成長起來的新一代用戶,是信息服務的主要群體,他們的信息需求頻率很高,更熱衷于使用網絡,并且多數人上網的時間長、頻率相對較高,對網上信息資源也是持肯定的態度。根據中國互聯網絡信息中心(CNNIC)《第28次中國互聯網絡發展狀況統計報告》,截至2011年6月,中國網民規模達到4.85億,且較大的網民群體是學生,特別是手機網民年齡呈現偏態分布,主要集中分布于10-29 歲的人群。與整體網民相比,年輕人更多熱衷于手機網,尤其是在線閱讀、手機閱讀、手持式閱讀器閱讀等數字媒介閱讀已開始普及[3]。可見我們已經進入了全新的網絡生活。
1.2 更新知識的需求
美國學者托布斯認為,未來的文盲不是不識字的人,而是不會學習的人。因為據統計現在的大學生一出校門,所學知識的50%就已經老化。為了適應競爭激烈的社會,每個人需要不斷更新自己知識,那么誰掌握了知識和信息上的新鮮度,誰就獲得了生存和發展的優勢。在泛在網絡時代,基于3G 網絡的信息檢索課移動教學正好符合人們的這種需求,通過幫助學習者隨時隨地獲得不斷更新知識、創新知識的能力和方法,來抗拒日益嚴重的知識老化現象的出現。
2.泛在網絡環境下開展信息檢索課移動教學的思考
移動教學是基于互聯網、3G 移動網以及移動終端實現的交互式的教學活動,所以信息檢索課移動教學系統主要由互聯網、3G 網絡、移動終端、教學交流平臺構成[4]。
2.1 已具備開展移動教學所需的網絡環境
隨著三網合一步伐的加快,3G進入規模化發展階段。截至2011年,中國電信、中國移動和中國聯通三家基礎電信企業共完成3G專用設施投資941億元。3G基站規模達到79.2萬個,3G網絡已覆蓋所有城市和縣城以及部分鄉鎮。11月末,3G用戶達到11873萬戶,比年初新增7168萬戶[4]。因為高傳輸速率是3G 的較大優勢,它擁有足夠的帶寬,在室內、室外和行車的環境中能夠分別支持至少2Mbps、384kbps 以及144kbps的傳輸速度53Mbps,這個速度比一般家庭固網1-2Mbps的速度都要快,足夠在線觀看視頻講座(流暢觀看視頻信息所需要的速度約為100Kbps)。所以只要3G 網絡覆蓋的地方,學習者都能夠利用個人信息終端,接收教師發送的所有教學資源,實現真正的移動教學。泛在網絡正是開展信息檢索課移動教學的基礎。
2.2 已具備開展移動教學所需的移動終端
能夠處理更多的數字化信息的移動終端,主要包括3G手機、PDA、上網本等,通過數據庫商、圖書館等信息服務機構與移動通信網絡結合,可以建立起與讀者之間的即時交流的信息網絡。特別是3G手機終端用戶的普及,利用手機學習、娛樂已逐漸成為共識,且應用領域和使用范圍越來越寬廣。在教育領域中,從師生之間、學生之間的語音通話、短信互動、家校通、及圖書館信息管理的一些手機推送服務等,利用手機輔助教學已成為教育領域的一個前沿[5]。據工信部數據顯示,2011 年底,移動電話用戶已達到9.97 億戶。這些數據表明,手機終端具有廣泛的群眾基礎,因此開展手機移動教學這種方式更容易推廣。
2.3 足夠豐富的數字化教學資源
檢索課應該緊緊抓住時展的脈博,將教學內容不斷更新,科學編排,形成系統完整的課程體系。
借助移動公司的手機短信互動平臺發送上課及培訓信息,使學習者了解授課信息,合理安排工作與學習。利用手機短信互動平臺實現同步微播教學內容,使不能參加現場上課的學習者,同步了解授課內容及教學進程。增加手機短信互動平臺,隨時隨地地更好的滿足讀者的需求。整合網絡教材、電子圖書、多媒體課件、數據庫商培訓課件、信息檢索課教學網站、國家精品課程資源,設計信息模板,建立課程在線管理學習平臺。現在的一些數據庫商已提供手機閱讀查找文獻鏈接,如IEL增設移動訪問功能
網絡信息檢索論文:網絡信息檢索影響因素及策略研究
【摘要】網絡信息檢索因其獨特的檢索特點越來越普遍的為廣大信息用戶所應用。然而,網絡信息檢索存在許多影響因素,這些因素影響了信息檢索效果。減小這些因素的影響,提高信息檢索效率,是信息用戶必須解決的問題。本文就提高網絡信息檢索效率提出四大網絡信息檢索策略,并對每個檢索策略進行了詳盡的描述。
【關鍵詞】網絡信息檢索;影響因素;檢索策略;信息菜單;信息斑塊
網絡信息檢索一般指因特網檢索,是通過網絡接口軟件,用戶可以在終端查詢各地上網的信息資源[1]利用網絡信息檢索,信息用戶可以獲得任何類型的即得信息,為他們科研、學習、生活的需要提供相應信息素材。然而,眾所周知,網絡信息是海量的、復雜的、無章的。怎樣從浩如煙海的網絡信息資源中有效而快捷的檢索到即需信息,成為信息用戶迫切需要解決的問題。尋找或者掌握合適的網絡信息檢索策略是解決這一問題的關鍵所在。
1.網絡信息檢索的特點與不足
1.1 網絡信息檢索的特點
網絡信息資源檢索系統是基于Internet的分布式特點開發和應用的。與傳統的信息檢索(如手工檢索、聯機檢索等)相比,網絡信息檢索有其自身特點,主要表現在以下幾個方面:
及時,必須借助網絡檢索工具。網絡檢索工具即Web檢索工具,是指提供網絡信息資源檢索和導航服務的一類專門網站或服務器。[2]網絡檢索工具對采集到的網絡信息進行分析、加工和整理,建立應用索引數據庫,為用戶提供網絡信息檢索服務。
第二,基于超文本結構。超文本是一種用戶界面范式,它是將自然語言文本和計算機交互式地轉移或動態顯示線性文本的能力結合在一起的文本管理工具。[3]網絡信息檢索系統利用了超文本的技術特性,對網絡信息進行交叉聯想方式存儲,從而使得在internet上檢索信息方便靈活。
第三,檢索方法的多樣性。由于網絡信息檢索系統具有交互式操作和程序員接口,所以其勢必擁有較多的檢索方法。例如:在線目錄瀏覽、關鍵詞(主題詞)檢索、布爾邏輯算符檢索、位置邏輯檢索、字段檢索、截詞檢索等。
第四,多媒體檢索。隨著信息技術的發展,網絡信息呈現圖形、圖像、聲音、視頻、動畫等多媒體化。網絡信息檢索系統基于文本的技術和基于內容的技術,把這些信息聚類并建立索引,從而在internet上實現基于多媒體內容的信息檢索。
1.2 網絡信息檢索的不足
網絡信息的復雜性和網絡檢索技術的限制,使得網絡信息檢索也有著明顯的不足:
及時,信息篩選能力有限。網絡信息檢索返回的信息數量巨大,用戶面對這些松散的未組織信息,常常會無所適從。如果網絡信息系統能夠進行有針對性的信息篩選工作,那將會給用戶節省大量的時間和精力。
第二,信息有用性評價困難。由于因特網沒有一個統一的管理機制,信息自由度高,這就造成信息良莠不齊,真假難辨。網絡用戶對獲得的信息的有用性評價十分困難。比如,一些站點在網頁中大量重復某些關鍵字,使得容易被某些著名的檢索引擎選中,以期借此提高站點的地位,但事實上卻可能沒有提供任何對用戶有價值的信息。[4]
第三,信息資源更新頻繁。用戶總是希望得到近期確切的信息,然而網絡信息分分秒秒在更新,即時檢索存在不可能性。即使是剛剛瀏覽過的信息,再去瀏覽時也有可能已經更新、過期,甚至被刪除。
2.網絡信息檢索影響因素
網絡信息檢索的影響因素有很多方面。在諸多因素中,有四個因素主要影響著不同檢索策略的選擇和應用,從而影響網絡信息檢索效果。這四個因素是:信息用戶目標和任務、信息用戶知識結構、IR系統設計和社會和組織背景。
2.1 用戶目標和任務
用戶信息需求和需求表達是用戶網絡信息檢索的目標和任務,是網絡信息檢索的始點,它會影響到網絡信息檢索策略和網絡信息檢索效率。由于自身的信息能力、專業知識、理解水平等原因,用戶不一定能意識到自己真正的信息需求。用戶任務處于不同檢索階段將影響其檢索策略的選擇、用戶行為和感知,也決定著檢索技巧、關鍵詞選擇、信息類型、相關標準的選擇。用戶所在的階段越關鍵,越應使用更的檢索關鍵詞,更多的運算符和技巧。在整個檢索過程中,用戶對問題描述的清晰度將會影響用戶檢索結果。
2.2 用戶知識結構
高效地網絡信息檢索需要三種不同的知識類型:領域知識、IR知識、系統知識。其中,領域知識幫助用戶對檢索任務和需求有更深的了解,影響檢索行為、策略和表現;IR即信息檢索(Information Retrieval,簡稱IR),IR知識幫助用戶形成觀念策略和執行策略,;系統知識幫助用戶選擇有效檢索系統,讓策略執行的更順暢、檢索效果更,系統知識要求信息用戶必須具備一定的計算機知識和網絡信息檢索知識。毫無疑問,有經驗的用戶會比沒經驗的用戶利用更好的檢索策略和實現更佳的檢索過程。
2.3 IR系統設計
在網絡信息檢索過程中,IR系統設計也是一個重要的因素。系統中信息資源的組織、分類是否科學、檢索方式是否多樣化、智能化、界面設計是否科學等因素會直接影響到檢索的效果。比如系統所提供的界面是否容易理解、是否能讓用戶快速尋找到完成任務的功能區域,是否隨時為用戶提供幫助等等。[5]由此可見,IR系統的設計無疑會影響用戶檢索策略的選擇。作為用戶網絡信息檢索過程的伙伴,IR系統,尤其是IR系統界面,直接決定用戶應用某種特定策略的多寡。IR系統特定功能的可用性決定著用戶是否專注于某種策略。
2.4 社會和組織背景
根據用戶信息檢索所處的特定環境,可以將社會和組織背景因素分為信息用戶所在的組織環境、信息服務商提供的服務環境(當這種服務環境以系統比如網上咨詢服務的形式體現時,該環境與系統因素有一定的交叉)以及國家政府大環境。[6]組織自己的關于任務解決的規則、組織中其他人已有信息行為都會在不同層面影響個體信息用戶的信息檢索行為;IR系統提供商的服務環境、其它服務環境(用戶檢索知識培訓學習、信息資源介紹、導航服務、權限設定等)對用戶信息檢索的成功與否也有著不可低估的關系;作為社會大環境,國家的信息政策,信息產業的發展,一直到信息資源的整體配置水平都會在很大程度上影響微觀的信息消費活動乃至信息檢索行為。
3.網絡信息檢索的幾大策略研究
3.1 選擇最有利網絡信息源
網絡中有多種多樣的信息源,其質量、豐度和分布格局等各不相同并具有一定的規律性。信息用戶在檢索信息時需要耗費時間、資金和精力等稀缺資源,這就面臨著信息源選擇的問題:如果選擇范圍過窄,信息用戶就可能需要花費更多的時間來構建檢索式,從而增加檢索結果的片面性;如果選擇范圍過寬,信息用戶就可能會被檢索出來的信息再次淹沒。信息用戶由于受時間、資金和精力的限制,選擇何種信息源將對其信息獲取效率起著重要的作用。
信息用戶在檢索和吸收信息過程中,需要消耗時間、資金和精力,才能獲得所需的信息,同時也獲得一定的信息凈收益,用公式表示為:
信息凈收益=信息總能一檢索耗能一加工處理和吸收耗能
信息凈收益與信息處理時間之比值是衡量信息源有利性的一種尺度(其中信息處理時間是指從檢索到吸收所花費的時間)。信息行為學研究發現,信息用戶在信息檢索活動中總是選擇有利性更大的信息源,盡量選擇那些能夠為其帶來較大信息凈收益的資源。對信息用戶進行信息檢索來說:選擇費用較高的信息源,需花費較多的資金,但單位檢索時間內所獲得的信息凈收益較高;選擇費用較低的信息源,花費資金較少,但單位檢索時間內所獲得的信息凈收益較小;選擇費用適中的信息源,單位檢索時間內提供的信息凈收益幾乎是較高的。所以,信息用戶選擇費用適中的信息源其有利性較大。
3.2 選擇最適信息菜單
信息菜單是指信息用戶在信息檢索過程中,選擇檢索的信息類型的集合。[7]信息用戶在信息檢索活動中,假設已選定信息源。如果信息源中最有利的信息的密度小,則信息獲取率低;有利性較小的信息密度大,則信息獲取率高。在這種情況下,信息用戶必然要選擇部分有利性較小的信息。在既定信息源中選擇部分有利性較小的信息,就必須使信息菜單選擇范圍擴大。如何調節兩者間的矛盾,即在網絡環境下信息用戶的信息菜單應在多大程度上包括一些有利性較小的信息資源類型呢?國外學者對此進行了深入的調查和討論,分別提出了人的最適信息菜單構成要素,其要點為:①如果有利信息的可獲得性增加,那么最適信息菜單中的信息類型會減少;②信息用戶在信息檢索過程中,檢索辨識時間和信息的平均有利性將隨著信息菜單范圍的擴大而減少;③根據信息的有利性和檢索辨識時間,可以推測最適信息菜單中應包含的信息類型。由于對信息獲取效率的需要,人單位時間內所攝取的信息能量應該盡量維持在一定的水平。[8]由此可以推測:①如果與有利信息相遇的機會較多,而足以使信息檢索者忽略較差的信息,那么無論較差信息的數量有多少,都不會影響信息檢索者對有利信息的專一選擇;②如果有利信息數量增加,信息檢索者會立即從檢索多種類型的信息,轉變為檢索單一的、有利的信息;③假定人一直是檢索最適信息菜單范圍內的信息資源類型,現在遇到了兩種新型信息資源x和y,若檢索信息資源x時,單位總處理時間內所攝取的信息能量高于滿足人的信息需求的信息數值;檢索信息資源Y時,單位總處理時間內所攝取的信息能量低于滿足人的信息需求的信息數值,則人總是要檢索信息資源X,而拒絕檢索信息資源Y。
網絡信息環境下,信息用戶的最適信息菜單中還應包括某些特定的信息或特定的信息元(如某些數據信息、事實信息及圖片信息等),這些特定信息或信息元是滿足人的信息需求所必需的。對這類信息的檢索,不以信息能量凈收益為目的,而以滿足增加人的知識或人改變知識結構需要為目的。另外,信息用戶的最適信息菜單通常隨信息需求和網絡信息環境的變化而變化。
3.3 選擇最有利信息斑塊
信息斑塊是指信息環境中信息資源豐度較高的集合體,它只是一種物理學意義上比喻,可以將它看成是一個網站、一篇論文、一本書、一個網頁、一個文檔集合。正如選擇最有利的信息源一樣,網絡環境下,信息用戶也會尋找最有利的信息斑塊進行信息檢索。[9]
信息用戶的信息檢索活動通常會導致信息斑塊中有價值信息的“減少”,或需要花費更大的代價才能獲取有價值的信息,使信息斑塊的可利用性隨著時間而“降低”。因此信息用戶要選擇在適當的時間停止信息檢索行為,或在花費較少費用或克服較低的技術問題情況下,轉移到另一信息斑塊繼續檢索信息。是什么機制使信息用戶在恰當的時間,從一個信息斑塊轉移到另一信息斑塊呢?信息用戶在信息斑塊內檢索信息的去留是由放棄時間所決定的(放棄時間是信息用戶從一次獲得有用信息到下一次獲得有用信息所能等待的最長時間)。在信息密度足夠大的信息斑塊內,兩次信息檢索時間間隔較短,不會超過放棄時間,因而信息用戶不會轉移;但隨著有價值信息密度的減小,兩次獲得有用信息的間隔時間就會逐漸延長,一旦超過了放棄時間的限度,信息用戶就會放棄這個信息斑塊,轉移到另一個信息斑塊繼續檢索。放棄時間的長短與檢索辨識信息時間和轉移所需費用、信息檢索的難易程度有關,在數值上等于從一次獲得有用信息到離開這個信息斑塊所經歷的時間。在信息用戶的“內置”信息檢索機制中,可能有一個相對固定的放棄時間,好像在每次信息檢索之后就上好一個鬧鐘,到時未能檢索到信息就轉移離開。
3.4 選擇多點檢索信息行為
多點檢索信息是指信息用戶在網絡上并不局限于在一個網站上檢索信息,而是采用在多個網站上檢索信息的策略和行為。在檢索信息過程中,用戶離開某一網站很容易,但要找到好的網站并不容易。當用戶期望的具有大量信息的網站很容易被找到時,他們就不再熱衷于留在一個網站來檢索信息。從經濟學角度分析,信息用戶在選擇最有利的信息斑塊時,必定會借助于行為適應來減少信息檢索投資和提高信息檢索效率。當信息用戶到達一個陌生的信息環境進行信息檢索時,通常會借助信息取樣檢索(試檢索)行為獲得信息環境中各信息斑塊狀況的信息,并根據這些信息做出最有利的信息檢索決策。一般來說,信息用戶主要集中在信息密度較大的信息斑塊內,當最有利信息斑塊質量下降時,信息用戶會轉移到第二較有利的信息斑塊繼續檢索信息。另外,信息用戶通常也借助于以往的網絡上瀏覽或某一次的信息檢索行為,不斷積累有關網絡上各種各樣信息資源的信息豐度的認識,并且能夠把獲得的各個信息斑塊中相對有利的信息儲存起來。
在實際網絡信息檢索中,信息用戶可以綜合運用網絡信息檢索策略,以期提高信息檢索效率,達到性價適宜的信息凈收益。
網絡信息檢索論文:數據挖掘及其在網絡信息檢索中的應用探析
摘 要 本文通過對數據挖掘的概念方法出發,探討了數據挖掘在當代網絡信息檢索中的應用。分析了數據挖掘與信息過濾和可視化技術的結合,進而提高網絡信息的檢索效率,彌補現有檢索工具的不足。
關鍵詞 網絡信息挖掘 數據挖掘 網絡信息檢索
一、 網絡信息資源及其特點
所謂網絡信息資源就是指網絡上能夠滿足用戶信息需求的資源的集合。可想而知,網絡信息資源相當的豐富,各方面的都有,其內容涉及到世界上的每一方面,例如:農業、文學、航天、地理、醫療、計算機、法律、娛樂界等幾乎所有專業領域,網絡資源是知識和信息的集合,是一批非常寶貴的財富。而目前的網絡信息資源與傳統的不同,以成為一種新型的數字化資源。網絡信息資源的特點主要體現在以下幾個方面:
(一)信息數量龐大、種類繁多以及傳播范圍比較廣。網絡信息類型呈現多樣化,主要有文本、數據、圖文、圖像、音頻、視頻等信息;其內容也不是單一的既有健康的信息,也少不了有害和虛假的信息,從個人到政府都有一定量的信息。
(二)目前網絡信息資源管理機制多樣,沒有統一的機制,以至于網絡信息安全缺乏一定的保障。于是就出現了普遍存在的黑客、計算機病毒和色情信息。國家花費了大量的社會資源來防止有害信息的傳播。
(三)由于科學技術的不斷發展造成了網絡信息資源更新數的極快,在網絡信息管理方面就比較困難。網絡信息屬于自由,因此信息來源廣泛,內容呈現出多種多樣,質量也就沒有了保障。
(四)網絡資源較大的優點是它給用戶提供了多層次的信息交流模式,反應了當今社會生活的各個方面,形成了網絡的百科全書和具有快速的傳播功能。
二、網絡信息挖掘的類型
(一)網絡信息的內容挖掘。
網絡信息的內容挖掘就是從網絡中存在的內容、數據中發現出對自己有用的信息。網絡信息資源類型繁多,其中大量的網絡信息資源可以通過在網絡中的索引和檢索服務直接獲取,但是還有一些網絡信息是通過一些工具或方法獲取,如用戶通過提問而動態生成的結果就屬于此類信息。還有一些私人網絡數據,它們不能夠通過就不能通過索引收索出來。另外,網絡信息內容是由文本、圖像、音頻、視頻和數據等形式的數據組成的,由此可見網絡內容挖掘是一種多媒體數據挖掘形式。
(二)網絡信息結構挖掘。
網絡結構挖掘是從Web文檔結構、WWW的組織結構和鏈接關系中推導的。網絡信息結構挖掘的目的是尋找Web和頁面的結構及其蘊含在這些結構中的有用模式,然后對其鏈接進行合理的分類,通過不同網頁的關聯有助于用戶找到所需信息的相關資源,并且可以通過瀏覽特定的網頁從中獲取近期的動態信息。還可以發現Web文檔本身固有的結構,此種結構既可以擁有用戶的瀏覽,也可以對網頁進行比較。
(三)網絡信息用法挖掘。
通過網絡信息用法挖掘,可以充分的了解用戶的網絡數據實際意義。網絡信息內容挖掘和網絡信息結構挖掘主要是針對原始數據的,而網絡信息用法挖掘主要是針對用戶和網絡交互的過程中產生的數據。這些數據類型包括很多:用戶對網絡服務器的訪問記錄、瀏覽器日志記錄、用戶的個人信息、用戶額交易信息等等。運用網絡信息用法挖掘技術能夠有效的從服務器以及瀏覽器端的日志記錄中發現隱藏在網絡數據中的一些無法通過索引獲取的模式信息,還可以了解用戶對網絡系統的訪問模式以及在網絡上所進行的行為模式,從而對其作出預測性分析。
三、網絡新挖掘在信息檢索中的應用
網絡信息挖掘的作用除了體現在具有很大的網頁的生成上外,還可以通過Web的組織結構和鏈接關系中發現一些其他類型的知識。網絡信息挖掘可以通過挖掘web的結構信息揭示蘊含在web內容之外的許多隱含的有用信息,例如web頁面上的U不僅可以反映頁面的類型,還可以在一定程度上反映頁面間信息的存儲位置和不同信息內容的層次關系以及通過分析網頁的URL來分析這種層次關系。根據上述原理已有很多人提出了與web頁面URL有關的啟發式規則,并將其應用于尋找個人主頁上。因此,利用網絡信息挖掘可以很快的尋找個人主頁和與其相似的網頁。除此之外,web的信息挖掘還可以對web頁進行合理的分類,預測用戶的鏈接使用及鏈接屬性的可視化,對各個企業搜索引擎索引的web頁數量進行統計分析等。它也可以揭示文檔結構信息中的有用模式,有助于從多個維度和層面提供檢索途徑。
四、結束語
因為信息時代的發展,促使網絡信息挖掘成為網絡信息處理領域中的一項新技術,它可以使用戶通過大量網絡信息中,得到數據對象間的內在特性,并根據數據間的關聯在網絡資源中進行有目的獲取相應的信息。目前網絡信息挖掘是數據挖掘技術在網絡時代網絡信息處理中的一項非常重要的應用,同時也是今后網絡領域中的一項嶄新的研究課題。隨著網絡的快速發展和不斷的普及,網絡信息資源不但來源途徑更加廣泛而且內容也越來越豐富,但如何分析和利用這些無以計數的網絡數據是當前比較突出的一個問題。網絡信息挖掘在實際工作中具有重要的實踐意義和非常廣闊的應用前景。
網絡信息檢索論文:網絡環境下信息檢索課教學模式探討
摘要:本文利用多媒體同步技術在網絡環境下的優點,將其應用到信息檢索課網絡教學模式中去,為學生提供了自主學習、交互式的教學新模式,很大程度上調動學生的學習積極性,提高了教學質量,大大促進了信息檢索課教學的發展。
關鍵詞:信息檢索課;多媒體;教學模式
“信息檢索與利用”是國家教育部于1984年(004)及l992年(044)兩次發文要求全國高校本科生、研究生開設的一門公共課程。教育部從1998年正式啟動我國的現代遠程教育工程。雖然各院校信息檢索課教師在這方面做了一些必要的有益嘗試,制作了一些CAI課件,綜觀這些文獻檢索課件,普遍存在以下問題:①多以HTML文本或POWERPOINT格式顯示授課內容,教學內容難以同步、內容單調;而且用戶可以隨意下載課件內容,容易侵害制作單位的知識產權。②有些多媒體課件采用VOD(視頻點播)技術,但存在因網絡帶寬限制而出現延遲過長和存儲空間不足的問題。③課件開發的難度、復雜度和課件制作的成本較高。④信息檢索課教學內容的更新緩慢。因此運用新型的網絡多媒體技術,編制出符合教學實踐需要、受學生歡迎的多媒體課件,并將網絡課件通過Internet的鏈接,使學生可隨時上網學習,不僅將提高信息檢索課件的制作效率與質量,而且將調動學生的學習積極性,提高信息檢索課遠程教學效果。
一、個性化同步多媒體教學模式
從教育心理學上考慮,獲得較好的遠程教育課件應該滿足下列條件:
1.媒體多元化:在網絡環境教學中使用媒體多元技術能夠使遠程信息的表現形式豐富多彩,利用視聽信息來代替只能文本信息,讓學生更加容易接受新知識。
2.個性化:在遠程教育的教學過程中學生知識結構不同,對新知識的認知也有差別。因此課件內容需要讓每一位學生按照自己的需求選擇相應學習的方式和進程。
3.教學內容同步:網絡環境下學習的效果比不上老師教學的原因就在于學生在課堂上調動了聽覺與視覺,在老師的引導下,不斷接受老師的聲音和板書信息。因此我們在利用各種視頻和音頻材料的時候,使課堂電子文稿同步的話將會達到很好的效果。
為了達到以上幾個目標,我們將課件設計為如下形式:
流式多媒體同步課件教學系統課件以媒體多元化為主要表現形式,加入視頻文件使真實圖像、原始聲音、現場教學情況等地展現在學生面前,增強了學生者的認識程度,提高了教學質量。如上圖所示頁面的左下側是本節課件的目錄,通過點擊目錄中的滾動標題可以很方便的在教學內容之間跳轉。例如點擊“工程索引年刊本編排及著錄格式”標題就可以將屏幕右側和左上側的演示內容跳轉到“工程索引年刊本編排及著錄格式”這一小節,并在播放控件中開始播放。頁面的左上側是用來播放同步視頻、同步圖像以及同步動畫的區域。這樣利用視頻和音頻的時候能夠使之與老師的電子文稿同步顯示話將會達到很好的教學效果。頁面的右側是播放同步文本內容(即老師的教學同步電子文稿)的區域,在頁面的下方是控制播放內容的控制條,用其可以控制播放的內容前進、倒退、暫停、停止以及播放的音量和屏幕的大小等功能。
二、同步媒體技術和流媒體技術
1.同步媒體技術。同步媒體技術是指使各種多媒體信息保持播放同步。同步媒體的實現,一般是編寫一個時間序列表,對文本、圖片、音頻、視頻文件播放的先后次序作出定義,使多媒體演示內容的各個組成部分可以按照規定的時間序列表實現播放同步。網絡環境下老師教學內容點播應用中,需要實現老師的視頻音頻信息與其講稿文本的同步播放。為了在網絡環境中開發各種多媒體應用,W3C(World Wide Web Consortium)組織推出了同步多媒體集成語言SMIL。SMIL作為一種新型多媒體語言具有很多優點:①組合各種多媒體對象,實現其在時間上的同步;②節約網絡帶寬;③提供內嵌的超鏈接元素,支持各種超鏈接。SMIL是同步多媒體集成語言(Synchronized Multimedia Integration Language)的縮寫,它是由W3C組織規定的多媒體操縱語言。近期的SMIL版本是2001年8月推出的SMIL 2.0版本。SMIL與我們網頁上用的HTML的語法格式非常相似。后者主要針對普通的網絡媒體文件進行操縱(文字、圖片、聲音、動畫、視頻的機械堆砌),而前者則操縱多媒體片斷(對多媒體片斷的有機的、智能的組合)。
2.流媒體技術。流媒體技術也稱流式媒體技術,所謂流媒體技術就是把連續的影像和聲音信息經過壓縮處理后放上網站服務器,讓用戶一邊下載一邊觀看、收聽,而不要等整個壓縮文件下載到自己的計算機上才可以觀看的網絡傳輸技術。流媒體技術包含多媒體內容的制作、多媒體內容的存儲以及相應的傳輸和播放等信息處理環節,具有實時廣播與異步回放(點播)兩種應用形式。其中,異步回放也即點播是實現網絡教育的重要技術手段。點播系統采用客戶端服務器模式,將多媒體內容存儲于服務器內,基于實時多媒體通信協議RTP,通過配置媒體流播放插件(Plug-ins)的Web瀏覽器實現視頻點播。目前,在網絡環境中點播系統的產品很多,但是各個系統之間相互不兼容。因此,在網絡教育應用中,需要首先解決點播系統的選型問題。目前,廣泛應用的點播系統是Real Networks公司的RealSystem G2系列和Microsoft公司的Windows Media Technologies。兩套系統均提供了一整套制作、和播放工具,其中RealSystem G2系統提供了一個開放協同的、滿足多方面應用的解決方案,包括異構操作系統的同步媒體、傳輸協議和集成框架等。因而,我們選擇RealSystem G2產品平臺作為網絡環境中流媒體技術平臺。
三、異步點播教學系統在網絡環境下的應用
網絡環境下的異步點播教學系統是基于網絡的應用。此系統向學生展現了一個功能齊全、操作方便的播放多媒體網絡教學課件的教學環境。僅僅需要學生在使用的計算機上安裝相應的RealPlayer System軟件,就可以使用異步點播教學系統。使用此教學環境,學生可以隨心所欲地選擇授課的內容,可以實現在授課內容之間的跳轉,并可以控制播放的進度(快進、倒退、暫停、停止)以及播放的音量和屏幕的大小等眾多功能。
網絡環境下信息檢索課多媒體教學系統根據信息檢索課程的教學目標,結合學生網絡自主學習的特點和要求開發研制,解決了信息檢索課網上自主學習中的難點和重點。總的說來,主要有如下兩點:①信息檢索課是一門實習操作課程,本課件系統圍繞其特定的教學任務設計,讓學生積極參與練習,突出其教學重點,達到了理想的教學目標。②采用媒體多樣化方式,點播式學習方法,使學生克服了自主學習過程中無所適從的較大障礙,解決了網上教學中自主學習的難點。
網絡信息檢索論文:網絡信息檢索系統的設計與技術分析
【摘 要】當前,隨著互聯網的普及和網上信息的爆炸式增長,信息檢索系統及其核心技術搜檢索擎的性能和效率問題已成為人們研究和關注的焦點。影響一個搜檢索擎系統的性能有很多因素,但最主要的是信息檢索模型,通過對信息檢索模型研究的主要內容和構建策略進行了描述,就相關的問題進行了探討,總結了信息檢索模型的研究。
【關鍵詞】信息檢索模型;相關性;查詢;搜檢索擎
隨著網絡應用的不斷普及,網絡已經成為人們獲取信息的重要場所。在對新的檢索工具和檢索技術進行探索和研究的過程中,應克服當下網絡信息檢索給我們帶來的困難,加強對不同需求進行信息搜集和發送的智能化服務功能。
一、網絡環境下信息檢索的含義及特點
智能化信息檢索是在信息檢索的基礎上提出來的,它是以用戶為中心的信息檢索技術,為不同用戶提供不同的服務,并滿足同一用戶在不同時期的需求,通過收集和分析用戶信息來學習用戶的興趣和行為,并綜合利用這些用戶信息,提高信息檢索系統的性能,滿足用戶的個體信息需求。在具體實現過程中主要是通過觀察和分析用戶的搜索行為,從中識別出用戶對信息需求的偏好,并且能夠根據用戶對搜索結果的評價,自覺地調整搜索策略,使得對于不同的檢索請求,不同用戶都能夠得到最貼近自己需要的信息服務。
數據量巨大。在網絡環境下,數據量大的驚人。大數據量會導致一些難以預料的軟件異常,流量也會難以控制,對各個環節的策略和算法選擇將會更加復雜。
多用戶服務。多用戶模式的信息檢索服務必須注重快速反應,注重對并發訪問的支持,對公共數據的共享,對臨時工作數據的清理等。如果要針對不同用戶開展不同服務,就要獲取并管理不同用戶的個性化需求,使大量的信息通過不同的渠道,主動送到用戶的手上。
用戶層次復雜。網絡環境下信息檢索服務的用戶中,大多數都不是專業用戶,他們的層次區別較難,擁有不同的操作技能和操作知識,面對這些非專業的用戶,將更加需要人性化的引導式信息服務。
二、網絡信息檢索的原理
隨著信息技術的飛速發展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進程度已成為衡量一個國家或地區現代化程度的重要標志,而網絡上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當今世界上規模較大、覆蓋面最廣、信息資源最豐富、發展最為迅速的信息網絡,基于Internet的網絡信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強的現實性和實用性。
網絡信息檢索工具是網絡信息檢索技術的實物體現。目前,常用的網絡信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式:
1.布爾邏輯模型
這是一種簡單而常用的嚴格匹配模型。用戶可以根據檢索項在文檔中的布爾邏輯關系提交查詢,搜索工具根據事先建立的倒排文檔結構確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。利用這種模型進行查詢,其查詢結果一般沒有按照內容的相關特性排序。
2.模糊邏輯模型
它在查詢結果處理中引進了模糊邏輯比較,并且按照相關的優先次序排列查詢結果,這樣就可以克服布爾邏輯模型信息查詢結果的無序性。
3.概率模型
它是基于貝葉斯概率原理而提出的,根據詞條、文檔間的內在聯系,利用詞條間和詞條與文檔間的概率相依性來進行信息檢索。
三、網絡信息檢索系統主要功能模塊
(一)Oracle數據集成工具(ODI)
ODI(Oracle Data Integrator)是Oracle公司采用ELT理念進行數據抽取、加載、轉換的數據集成中間件工具,其較大特點是提出了知識模塊的概念。ODI將一些場景(如文件加載到數據庫,從MySQL數據庫抓取數據到Oracle數據庫等)的詳細實現步驟使用Jvthon腳本語言結合數據庫SQL語句錄制成詳細的步驟記錄下來,形成知識模塊,ODI中共有超過100種主流數據庫引擎和應用系統的知識模塊,基本上包含了普通應用所涉及的所有場景,因此ODI可以實現對校園網內多種異構數據庫的支持。在一個數據集成任務中,ODI通過聲明設計運用接口和關系圖等概念聲明數據集成規則,使集成的邏輯和技術層面分離,底層的技術方面由知識模塊描述和定義,系統只需要把重點放在集成任務規則的制定上面,再將制定好的集成規則封裝為一個服務模型。和訂閱該模型便可實現類似于數據增量定時更新的功能,系統以全局數據庫為核心通過ODI工具對校園網內異構數據庫數據進行抽取、轉換、清洗和加載,集成后的數據質量得到了提高,對異構數據源的處理也得到了加強。在對數據處理的過程中提取了信息的標題、作者、正文、時間、URL地址等字段,可定時對各異構數據庫數據進行增量更新操作,從而替代利用網絡爬蟲獲取信息數據。Oracle全局數據庫可以集成校園網內大部分信息系統的數據并提供給信息檢索和檢索模塊。
(二)Lucene與Nutch
Lucelle不是一個完整的搜檢索擎,而是一個用于實現全文檢索的軟件庫,采用Java語言開發,提供了檢索內核,其設計原理是檢索檢索,任何信息資源只要被轉換成文本格式都可以被檢索。Nutch是Lucene得到廣泛應用和認可后出現的搜檢索擎系統,內部使用了Lucene的檢索檢索技術,并進一步封裝了網絡爬蟲和分布式處理等模塊從而成為一個完整的應用系統。本系統以Nutch為基礎,既應用了Nuteh系統的完整性,減少了不必要的開發,又可靈活使用Lucene接口,豐富系統功能。
對于非結構化文本信息,系統對Office文檔采用了POI插件方式,用PDFBox插件來實現對PDF文檔的讀取,并將上述插件集成到Nutch當中。信息檢索的基礎是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。Nutch自帶的CJK分詞模塊對中文分詞的效率和度上不能滿足實際需要。為此。在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統采用,并通過Nuteh的插件機制集成到系統當中。
(三)信息檢索與檢索
為滿足用戶全網檢索和分類分部門檢索信息的需要,并提高檢索效率,信息檢索模塊首先對每個數據源建立檢索文件提供給分類檢索用戶,然后通過優化檢索提供給全網檢索用戶。優化檢索就是將多個檢索文件合并成單個文件的過程,目的是為了減少檢索文件的數量,并且能在搜索時減少讀取檢索文件的時間。Nutch中的IndexWrite類提供了optimize方法實現該優化操作。利用Nutch中的MultiSearcher類可實現對優化后檢索的全網檢索功能,檢索結果會以一種指定的順序合并起來。
針對校園網用戶信息檢索的特點。綜合考慮信息相關度、時效性和訪問量等因素后,系統采用了自定義的排序機制,文檔文本相關度作為信息檢索的主要排序依據,信息時間和訪問次數作為重要的排序因子,系統通過Lucene的激勵因子boost值來改變文檔得分,從而調整文檔的出現順序。系統為校園網用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細的檢索條件,用戶可根據需要對信息進行更加精細的檢索。系統管理功能除對用戶權限進行管理外還對信息檢索結果進行屏蔽和進一步處理。
四、網絡信息檢索的主體技術和相關技術
(一)信息檢索服務的主體技術
網絡信息檢索通常采用搜索引擎技術,該技術是為了解決“信息迷航”問題而提出的。它通過相應的算法在互聯網上搜索相關信息,并對信息進行組織和處理,從而為用戶提供信息導航。
現階段,網絡搜索引擎有很多,用戶比較常用的有Google、有道、百度等等,這些搜索引擎能進行網絡信息檢索、信息過濾、個性化信息服務定制等比較有特色的服務,但是并沒有實現真正意義上的智能化檢索。在實際使用過程中,用戶想要的不僅僅是有用的信息,他們更希望做信息消費的主人,使信息的搜索可以在一個相對主動的環境中進行。
(二)智能信息索引的相關技術
1.智能技術
智能又可以稱之為智能體,它是在用戶沒有明確具體要求的情況下,根據用戶需要,代替用戶進行各種復雜的工作,如信息檢索、篩選及整理,并能推測用戶的意圖,自動制定、調整和執行工作計劃。智能首先要建立個性化的數據庫,在數據庫中建立用戶基本信息表(包括用戶編號、用戶名、姓名、年齡、性別等字段)、用戶職業信息表(包括職業編號、職業類型、等級、職稱等字段)和用戶興趣信息表(包括興趣編號、興趣類別、程度等字段),用來詳細描述用戶的個人情況,其中及時個字段可以設置成關鍵字。然后建立用戶檢索策略表(包括策略編號、策略控制、檢索詞控制、檢索時間控制、檢索范圍控制等字段)和用戶檢索評價表(包括檢索編號、檢索時間、檢索詞、檢索結果數量、查全率、查準率等字段),同樣的,及時個字段設置成關鍵字。檢索策略表主要是給用戶模型的檢索定義一個比較完整的檢索策略,檢索評價表主要是對用戶檢索的滿意度作一個簡單的評價描述。
有了用戶個性化數據庫,一方面,在服務器端吸收智能技術的思想,引入個性化服務的理念,引入用戶反饋機制來完善檢索機制、提高檢索命中率,同時也可提供面向個人的特殊檢索服務。另一方面,信息檢索用到智能主要集成在客戶端,配合用戶興趣完成搜索,它會對用戶信息需求、偏好進行區別、歸納、總結,分析用戶的興趣愛好,并借助學習的規則,自動、獨立地用戶查找用戶感興趣的信息。
2.用戶興趣挖掘技術
實現信息檢索服務最重要的就是對用戶的喜好和習慣進行分析,日前,通常使用兩種方法:其一是通過用戶主動提供自己的興趣來得到用戶的個性化向量;其二是在用戶沒有明確參與的情況下,系統通過觀察用戶行為來得到用戶的興趣,從而得到用戶的個性化向量。使用及時種方法,可以選擇下面兩種方式:一是用戶將自己感興趣的信息類或在線文檔分類后提供給系統,系統從這些文檔或信息類中發現用戶的興趣;二是用戶提供自己的研究方向和其它閱讀愛好等信息,系統從這些信息中發現用戶的興趣。但是,由于用戶的興趣并不是一成不變的,而用戶一般不可能提供所有的興趣以及感興趣的程度,因此還需要使用及時種方式進行補充。使用第二種方法是根據用戶對推送頁面的評價信息來更新用戶的個性化向量。
隨著信息技術的進一步發展,信息檢索技術必將更加完善,它將在人類與信息之間建起一座方便的橋梁。我們雖取得一些成績,但是道路還很漫長,真正實現信息搜索的智能化服務,還有待技術的智能性、主動性、自主性等得到進一步的提高。
網絡信息檢索論文:網絡信息檢索的工具
[摘 要] 搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進行了簡要的分析,指出了其存在的缺陷和發展的方向。
[關鍵詞] 信息檢索 中文搜索引擎 存在的問題 發展方向
隨著Internet信息資源的迅速增長,如何在浩瀚的信息海洋中、方便、快速地找到自己所需的信息,成了迫切需要解決的問題,從1995年開始出現的信息檢索工具――搜索引擎很好地解決了這一問題。然而各種搜索引擎,特別是尚處于發展初期的中文搜索引擎還存在著很多的缺陷有待改進,本文旨在分析目前中文搜索引擎存在的主要問題,并為解決此類問題提出一些建議和方法。
一、搜索引擎的概念和及類型
搜索引擎又稱檢索引擎,是指運行在Internet上,以信息資源為對象,以信息檢索的方式為用戶提供所需數據的服務系統,主要包括信息存取、信息管理和信息檢索三大部分。
目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。
1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數據庫,由編輯人員在訪問了某個web站點后,對該站點進行描述,并根據站點的內容和性質將其歸為一個預先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的度較高,導航質量也不錯。但因其人工的介入,維護量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內著名的新浪、搜狐、中文雅虎都屬于這種類型。
2.機器人搜索引擎。這是一種目前運用較廣泛的搜索引擎。國內以百度,google、天網為代表。它是使用自動采集軟件Robot,搜集和發現信息,并下載到本地文檔庫,再對文檔內容進行自動分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。
機器人搜索引擎具有龐大的全文索引數據庫。其優點是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點是缺乏清晰的層次結構,檢索結果重復較多,需要用戶自己進行篩選。
3.元搜索引擎。元搜索引擎是一種調用其他搜索引擎的引擎。它是通過一個統一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索。中文元搜索引擎開發較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。
二、現階段中文搜索引擎存在的主要問題
1.信息覆蓋面有限。現階段搜索引擎所覆蓋的數據庫的規模是非常有限的,據美國科學期刊Natures一篇報告中稱,全球較大的搜索引擎也只能覆蓋現有網頁的16%。中文搜索引擎因起步慢、中文信息所占互聯網全部信息的比例小(只占全部網絡信息的5%)等原因在這方面尤為突出。
2.查全率不高。查全率是指檢索出的相關信息量與存儲在檢索系統中的全部相關信息量的百分比,是判斷檢索系統質量的度量之一。
國內絕大多數的網站組織的信息大多都是通過瀏覽方式獲得內容。即使是經過精心組織、編排非常合理的網站,也會有70%~80%的網頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護量大,在這方面表現較明顯。
3.查準率較低。查準率更是判斷檢索系統質量的重要尺度。是指系統所檢索到的真正與查詢內容相關的文檔占檢索出的所有文檔數的百分比。
造成查準率低的原因是,部分搜索引擎的分類體系與科學知識體系之間缺乏內在聯系;類目之間邏輯關系模糊,導致檢索路徑與搜索引擎類目錯位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結果是題錄式而非全文式,其內容簡單等等。機器人搜索引擎的分類和索引缺乏人工的參與,其查準率不如目錄式搜索引擎,且檢索結果中還含有大量的重復、虛假的信息。
4.專業性的搜索引擎發展遲緩。專業性的搜索引擎是為專門收錄某一行業,某一主題的信息而建立,能夠提供專題信息查詢服務的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時收錄各行業、各學科的多種信息,但在反映某一行業或某一專題的信息方面很難做到、,不能給用戶提供特定的信息服務。這就使得專業人員,特別是某一領域的學者、專家不愿意利用中文搜索引擎去查詢資料。
5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運算符的搜索引擎極為有限;二是關鍵詞檢索輸出的結果相關度排序方式雜亂,不能根據用戶需要來選擇信息輸出的方式;三是多數的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復利用用戶檢索過的成果,更不能對特定的用戶進行定題跟蹤服務;四是檢索網站的主頁不規范,有些太簡,有些又太繁,而且廣告內容太多,無法進行有效檢索。
三、中文搜索引擎的發展方向
1.提高查全率。首先是需要開發分布式的系統。這種系統可以把各個接點當作是新的信息資源,擴大數據庫的規模,正在興起的元搜索引擎屬于這種系統,它在接受了用戶的查詢命令后,可同時用多個搜索引擎進行查詢;二是把專業數據庫資源納入自己的檢索范圍。除了Web信息資源外,網上還有大量的非Web信息資源,如聯機檢索系統、光盤檢索系統、專業數據庫系統。如中文搜索引擎能把這些Web和非Web資源結合起來使用,即使有的只能查到題錄、文摘等內容,也大大擴展了檢索范圍,能為用戶提供較的檢索需求。
2.提高查準率。需解決以下幾個難關:首先需提高搜索引擎的信息過濾功能。在對網絡信息進行集中的搜集之后,搜索引擎還需對這些信息進行鑒別和過濾,即剔除大量的無用信息,而把有效的信息提煉出來并加以聚集;第二則是需對專家過濾后的信息進行一定的檢索標引,并給予相關的標識符號,如關鍵詞、分類號、主題詞等各種標識,其關鍵是利用智能檢索技術,提高性;把檢索的結果存儲在相應的數據庫中,并由URL與Internet建立鏈接供用戶使用;還需注意信息定期更新,以保障信息的新穎性和鏈接的性。
3.建立垂直化專業領域的搜索引擎。網絡用戶所從事的職業千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業搜索引擎則可解決這一難題。它只面向某一特定的領域,專注于自己的特長和核心技術,能保障對該領域的信息的收錄齊全與更新迅速。在提供專業信息方面有著大型綜合搜索引擎無法比擬的優勢,所采用的技術都是些較成熟的技術。
中文垂直化專業搜索引擎的發展已取得了一定的成功,如新浪的新聞搜索,博客搜索、雅虎的個性化旅行路線搜索、百度的MP3搜索、Google的學術搜索,航班搜索等都為用戶提供了較好的搜索功能,為今后的繼續發展奠定了基礎。
4.搜索引擎的智能化發展。智能搜索引擎是未來搜索引擎的發展趨勢。可以通過自然語言與用戶交互,較大限度地了解用戶的需求。智能檢索一是表現在搜索引擎技術的智能化,研究重點放在自然語言處理技術和人工智能技術的研究上;另一表現是體現在搜索引擎面向檢索者的智能化,它致力于通過分析檢索者的檢索和瀏覽行為來學習檢索者的需求,利用搜索引擎現有的服務有選擇地為檢索者提供個性化的服務。
5.加強搜索引擎的檢索功能。首先需強化全文檢索功能。利用Robot實現對站點頁面文字內容的檢索技術。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接根據文獻資料的內容進行檢索,支持多角度、多側面地綜合利用信息資源,、、快速是衡量全文檢索系統的關鍵指標;同時改善用戶檢索界面,設計簡潔、明白的界面引導用戶進入檢索狀態;更方便、實用的檢索技巧的利用,中文搜索引擎需簡化和統一語法規則,如布爾邏輯檢索符號的利用:空格或“*”代替“與”、“+”代替“或”、“-”代替“非”,規范語法符號,節省用戶的檢索時間;還需研發查詢圖像、聲音、圖片和電影的搜索引擎。
6.完善元搜索引擎。元搜索引擎彌補了獨立搜索引擎不全的特點,提高了檢索的性。現開發出的中文元搜索引擎的數目很少,還有諸多缺陷,需在各方面進一步改進。
元搜索引擎要對各獨立的信息特色進行較細致的調查,以確定自己要收錄的范圍;在對目標搜索引擎的組織中突出獨立搜索引擎的檢索特色,并設計各搜索引擎之間的檢索方式的轉換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務。檢索界面要統一和友好,檢索方法的設置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結果的顯示中要開發出一個有效的檢索結果去重、選擇、排序和優化算法,這是中文搜索引擎開發中的一個重點和難點。
網絡信息檢索論文:數據挖掘及其在網絡信息檢索中的類型及應用
摘要:隨著當代計算機技術的快速發展,網絡已成為人們互相傳遞信息的一個快速渠道。然而網絡信息資源是非常龐大的,這個人們尋找所需要的信息資源帶來了很多的不便。網絡信息檢索經過近幾年的快速發展,在解決這一問題上起到了一定的作用,在一定程度上滿足了用戶檢索信息的需要,但在檢測的標準率上還是不盡如人意。本文通過對數據挖掘的概念方法出發,探討了數據挖掘在當代網絡信息檢索中的應用。分析了數據挖掘與信息過濾和可視化技術的結合,進而提高網絡信息的檢索效率,彌補現有檢索工具的不足。
關鍵詞:網絡信息挖掘 數據挖掘 網絡信息檢索
1、網絡信息資源及其特點
所謂網絡信息資源就是指網絡上能夠滿足用戶信息需求的資源的集合。可想而知,網絡信息資源相當的豐富,各方面的都有,其內容涉及到世界上的每一方面,例如:農業、文學、航天、地理、醫療、計算機、法律、娛樂界等幾乎所有專業領域,網絡資源是知識和信息的集合,是一批非常寶貴的財富。而目前的網絡信息資源與傳統的不同,以成為一種新型的數字化資源。網絡信息資源的特點主要體現在以下幾個方面:
(1)信息數量龐大、種類繁多以及傳播范圍比較廣。網絡信息類型呈現多樣化,主要有文本、數據、圖文、圖像、音頻、視頻等信息;其內容也不是單一的既有健康的信息,也少不了有害和虛假的信息,從個人到政府都有一定量的信息。
(2)目前網絡信息資源管理機制多樣,沒有統一的機制,以至于網絡信息安全缺乏一定的保障。于是就出現了普遍存在的黑客、計算機病毒和色情信息。國家花費了大量的社會資源來防止有害信息的傳播。
(3)由于科學技術的不斷發展造成了網絡信息資源更新數的極快,在網絡信息管理方面就比較困難。網絡信息屬于自由,因此信息來源廣泛,內容呈現出多種多樣,質量也就沒有了保障。
(4)網絡資源較大的優點是它給用戶提供了多層次的信息交流模式,反應了當今社會生活的各個方面,形成了網絡的百科全書和具有快速的傳播功能。
2、網絡信息挖掘的類型
2.1 網絡信息的內容挖掘
網絡信息的內容挖掘就是從網絡中存在的內容、數據中發現出對自己有用的信息。網絡信息資源類型繁多,其中大量的網絡信息資源可以通過在網絡中的索引和檢索服務直接獲取,但是還有一些網絡信息是通過一些工具或方法獲取,如用戶通過提問而動態生成的結果就屬于此類信息。還有一些私人網絡數據,它們不能夠通過就不能通過索引收索出來。另外,網絡信息內容是由文本、圖像、音頻、視頻和數據等形式的數據組成的,由此可見網絡內容挖掘是一種多媒體數據挖掘形式。
2.2 網絡信息結構挖掘
網絡結構挖掘是從Web文檔結構、WWW的組織結構和鏈接關系中推導的。網絡信息結構挖掘的目的是尋找Web和頁面的結構及其蘊含在這些結構中的有用模式,然后對其鏈接進行合理的分類,通過不同網頁的關聯有助于用戶找到所需信息的相關資源,并且可以通過瀏覽特定的網頁從中獲取近期的動態信息。還可以發現Web文檔本身固有的結構,此種結構既可以擁有用戶的瀏覽,也可以對網頁進行比較。
2.3 網絡信息用法挖掘
通過網絡信息用法挖掘,可以充分的了解用戶的網絡數據實際意義。網絡信息內容挖掘和網絡信息結構挖掘主要是針對原始數據的,而網絡信息用法挖掘主要是針對用戶和網絡交互的過程中產生的數據。這些數據類型包括很多:用戶對網絡服務器的訪問記錄、瀏覽器日志記錄、用戶的個人信息、用戶額交易信息等等。運用網絡信息用法挖掘技術能夠有效的從服務器以及瀏覽器端的日志記錄中發現隱藏在網絡數據中的一些無法通過索引獲取的模式信息,還可以了解用戶對網絡系統的訪問模式以及在網絡上所進行的行為模式,從而對其作出預測性分析。
3、網絡新挖掘在信息檢索中的應用
網絡信息挖掘的作用除了體現在具有很大的網頁的生成上外,還可以通過Web的組織結構和鏈接關系中發現一些其他類型的知識。網絡信息挖掘可以通過挖掘web的結構信息揭示蘊含在web內容之外的許多隱含的有用信息,例如web頁面上的U不僅可以反映頁面的類型,還可以在一定程度上反映頁面間信息的存儲位置和不同信息內容的層次關系以及通過分析網頁的URL來分析這種層次關系。根據上述原理已有很多人提出了與web頁面URL有關的啟發式規則,并將其應用于尋找個人主頁上。因此,利用網絡信息挖掘可以很快的尋找個人主頁和與其相似的網頁。除此之外,web的信息挖掘還可以對web頁進行合理的分類,預測用戶的鏈接使用及鏈接屬性的可視化,對各個企業搜索引擎索引的web頁數量進行統計分析等。它也可以揭示文檔結構信息中的有用模式,有助于從多個維度和層面提供檢索途徑。
4、結語
因為信息時代的發展,促使網絡信息挖掘成為網絡信息處理領域中的一項新技術,它可以使用戶通過大量網絡信息中,得到數據對象間的內在特性,并根據數據間的關聯在網絡資源中進行有目的獲取相應的信息。目前網絡信息挖掘是數據挖掘技術在網絡時代網絡信息處理中的一項非常重要的應用,同時也是今后網絡領域中的一項嶄新的研究課題。隨著網絡的快速發展和不斷的普及,網絡信息資源不但來源途徑更加廣泛而且內容也越來越豐富,但如何分析和利用這些無以計數的網絡數據是當前比較突出的一個問題。網絡信息挖掘在實際工作中具有重要的實踐意義和非常廣闊的應用前景。
網絡信息檢索論文:高校圖書館網絡信息檢索服務研究
關鍵詞:高校圖書館;網絡;信息檢索;圖書館服務
摘要:文章圍繞網絡信息檢索服務方式、檢索方式及用戶培訓三大環節,針對過于傾向傳統信息服務方式、檢索方式“邊際效應”嚴重及用戶培訓質量不容樂觀等一系列問題,提出高校圖書館網絡信息檢索服務的對策建議,以提高高校圖書館網絡信息檢索服務水平,完善高校圖書館網絡信息檢索服務體系。
1高校圖書館網絡信息檢索的特征
隨著信息時代的到來及互聯網的廣泛應用,高校圖書館信息檢索也呈現網絡化,進而高校圖書館網絡信息檢索倍受人們關注,成為信息時代影響力較大的信息檢索系統,并獲得了廣大用戶的高度認可。最重要的是,高校圖書館網絡信息檢索秉承以“簡單化、智能化、個性化、多樣化”為特征的服務理念,來實現高校圖書館網絡信息服務建設(見圖1)。
1.1簡單化———網絡信息系統的易用性
對于高校圖書館網絡信息檢索服務而言,所謂簡單化則是指高校圖書館網絡信息系統的易用性。高校圖書館網絡信息檢索具有良好的“人—機”會話界面與幫助支持系統,有關操作程序都在后臺進行,用戶不需掌握專業的檢索原理與技術支持等技能,只需要按照高校圖書館檢索指南中的步驟操作即可,無須花費太多的時間即可掌握使用方法。1.2多樣化———多角度、多信息載體檢索信息資源高校圖書館網絡信息檢索的多樣化特征是網絡信息簡單化的延伸,在網絡信息系統易用性的基礎上從多角度、多信息載體中檢索用戶所需的信息資源[1]。如:利用網絡環境與搜索引擎等工具檢索自己所需的信息資源;在高校圖書館建設的專門數據庫檢索系統中,通過檢索全文、關鍵詞、題目、專著、作者名稱等,檢索出所需的信息資源。
1.3智能化———自動分析用戶的需求
在信息化時代,高校圖書館網絡信息檢索智能化是信息檢索系統的發展方向。智能化分析比正常分析顯得更有智慧,現代高校圖書館網絡信息檢索系統引用了人類的大腦思維,根據用戶所需的要求自動進行識別與分析,并將用戶查詢請求傳遞給鏈接的多個獨立型搜索引擎查詢處理,其檢索過程與知識已經在檢索系統中智能運轉,用戶可直接獲得所需的信息資源。
1.4個性化———針對不同用戶提供不同特色檢索服務
高校圖書館網絡信息檢索個性化是根據用戶需求而展開的特色與個別服務,主要是基于信息用戶的信息檢索行為、習慣、偏好及其個人特點等多個方面,針對不同用戶的個體信息需求提供不同檢索服務[2]。如今網絡化的普及促使現代信息技術飛速發展,高校圖書館開展信息檢索個性化服務更具有優勢,網絡信息檢索不僅與網絡信息服務密切聯系,還具備一些深受科研人員、學術研究人員喜愛的新特色,因為這類用戶群體需要高質量、專業化、針對性與及時主動推送的近期信息服務。
2高校圖書館的網絡信息檢索服務體系
高校圖書館網絡信息檢索服務分為服務方式、檢索方式及用戶培訓方式三類內容,各類方式又具備自身的各項功能(見圖2)。64第36卷第9期河南圖書館學刊2016年9月。
2.1服務方式
2.1.1傳統信息服務方式。傳統信息服務方式是信息需求者向信息提供者索取信息的一種信息服務方式,是通過“拉取”方式而實現的。但隨著信息網絡化時代的到來,其未能更好地滿足用戶需求,獲取信息時間長、費用高、信息傳輸效率低、服務器被動服務及信息資源浪費等一系列問題成為其應用于實際的瓶頸。2.1.2主動信息服務方式。主動信息服務方式是信息提供者主動向信息需求者提供信息的一種信息服務方式,在不需要用戶指示與干預的情況下,可根據用戶的需求與偏好,自動按照用戶的需求為其提供相應的信息資源。其思想核心實現了信息服務系統的“被動響應”向“主動響應”的轉變,是新時代高校圖書館網絡信息服務的發展方向。
2.2檢索方式
2.2.1分類語言檢索方式。分類檢索是指從學科和專業角度根據系統信息資源有序化的分類體系進行信息輸出的族性檢索方式,包含分類導航、期刊導航及分類檢索等三大內容。分類導航與期刊導航是指利用網絡信息檢索系統,通過明細分類科目的所屬關系的方式,逐層瀏覽并檢索出所需信息資源的一種檢索服務方式。分類檢索是選定不同層級的類目,利用主體語言檢索方式對檢索活動進行學科范圍針對性限定的檢索方式。分類導航、期刊導航及分類檢索三者都為分類語言檢索方式,在相輔相成的同時也存在一定的差異性,如:分類導航直接檢索為“論文”;期刊導航初次檢索為“期刊”,二次檢索是“論文”;而分類檢索則是在檢索前就設定學科專業的范圍,突出分類語言的檢索方式。2.2.2主題語言檢索方式。主題語言檢索方式分為初級檢索與高級檢索。初級檢索的實現形式又包括快速檢索與基本檢索。快速檢索是講究速度,只需要輸入關鍵詞即可查詢到信息結果的簡單的檢索方式。基本檢索關系到多個方面,是對年度、作者、學科、專業、機構等多項途徑進行限定的一種檢索方式。無論是快速檢索還是基本檢索都采用單檢索詞進行。此外,高級檢索相對初級檢索要復雜些,不僅需要對檢索結構進行形式限定,還需要通過多檢索詞對其內容進行限定,綜合運用布爾邏輯、位置邏輯、截詞技術和限定技術對多個檢索詞進行邏輯組合,構造出能夠表達信息檢索訴求的檢索策略,以提高檢索結果的度。
2.3用戶培訓方式
2.3.1教學科研類培訓方式。該種用戶培訓方式主要以教學科研為主,面向的主體對象為學校的教學科研人員及在校研究生。在高等院校,這類人員的知識層次較高,信息意識也較強,可采用“網絡信息檢索”培訓班與計算機信息檢索課的方式對其進行信息檢索原理、信息資源特征、信息檢索技巧等培訓,從而提高教學科研類用戶群體的綜合信息檢索素養,并使其掌握檢索技能。此外,也可采用理論與實操相結合的講解方式同步進行,以取得良好的培訓效果。2.3.2技術人員與大學生類培訓方式。這種用戶培訓方式的培訓主體對象為在校技術人員與大學生群體,因為這類用戶群體比較講究學以致用,可采用“網絡信息檢索”培訓班與文獻檢索課程的培訓方式進行培訓,主要是介紹計算機檢索的原理及通過上機實習來運用檢索語言表達信息需求,以提高檢索效率,提高用戶群體信息檢索的能力。
3高校圖書館的網絡信息檢索服務問題及對策
3.1創新“傳統+主動”雙向結合新模式高校圖書館習慣傾向于傳統信息服務方式,但隨著信息網絡化時代的到來,獲取信息時間長、費用高、信息傳輸效率低、服務器被動服務及信息資源浪費等問題,影響著高校圖書館的信息檢索服務建設。為了彌補傳統信息服務方式的弊端,高校圖書館可創新“傳統+主動”雙向結合新模式,在原有的傳統信息服務基礎上,充分利用現代智能推拉、用戶及信息過濾技術一體化等信息技術,完善計算機用戶檢索服務系統。主動推送服務系統具備主動信息、預測需求、采取信息、處理信息、挖掘知識、人機交互及主動使用用戶等特征。該系統能夠根據用戶的需求、偏好或者事先的約定事件,不需人的指示而自動進行網絡信息檢索服務工作,可主動將用戶所需的信息安全地傳送給用戶,以提高高校圖書館網絡信息檢索服務效率[3]。
3.2緊抓檢索方式“質”的建設
每一個網絡信息檢索系統都通過多種形式提供初級檢索、高級檢索和分類檢索,高校圖書館也不例外。初級檢索、高級檢索及分類檢索的檢索順序呈“邊際效應”遞減現象,初級檢索使用率較高,最易被用戶接受;高級檢索一般能為高級用戶所使用;分類檢索使用率很低[4]。由此可見,高校圖書館要緊抓檢索方式“質”的建設,減少檢索方式的重復建設、盲目充數以及由此造成的用戶負擔加重。74王艷軍:高校圖書館的網絡信息檢索服務實踐研究3.3“以點帶面,以面帶片”的訓練與引導近年來用戶培訓質量不容樂觀,不少高校的信息檢索培訓教師尚未能實際掌握構造檢索策略的各種方法與技巧,要他們來傳授實用的檢索技能,顯然是力不從心的,只有經驗豐富、訓練有素的專職檢索人員才有可能勝任信息檢索培訓工作[5]。所以,高校對于出任專職檢索人員的員工應當予以重視,迅速提高培訓質量。因此,可由省級圖書館學會、信息學會及高校圖工委組織與引導具備豐富網絡信息檢索經驗的專家,對有一定實踐經驗的專職信息檢索人員進行強化訓練,再向教學科研類人員、在校技術人員與大學生等用戶培訓群體傳授檢索知識與技能,秉承“以點帶面、以面帶片”的方式,提高高校圖書館用戶群體獲取和利用網絡信息資源的能力。
4結語
現代高校圖書館網絡信息檢索服務,要秉承以“簡單化、智能化、個性化、多樣化”為特征的服務理念,來實現高校圖書館網絡信息服務建設。其中“簡單化”旨在提高網絡信息系統的易用性;“智能化”旨在自動分析用戶的需求;“個性化”旨在針對不同用戶提供不同特色檢索服務;“多樣化”旨在多角度、多信息載體檢索信息資源。要想豐富高校圖書館網絡信息檢索服務體系,應當不斷改進與完善過于傾向傳統信息服務方式、檢索方式“邊際效應”嚴重及用戶培訓質量不容樂觀等一系列問題,創新“傳統+主動”雙向結合新模式,緊抓檢索方式“質”的建設,“以點帶面,以面帶片”地對用戶進行訓練與引導,從而提高圖書館管理水平,滿足現代讀者的真正需求。
網絡信息檢索論文:圖書館網絡信息檢索服務實踐探索
【摘要】當前隨著科學技術和互聯網的發展,信息網絡技術在生活和教育中的適用范圍越來越廣泛。在高校圖書館中的使用也越來越頻繁,尤其是在信息檢索服務方面的使用,不僅滿足了信息檢索服務效率,而且提高了用戶的使用感受。本文在分析了當前高校信息服務的特征后提出了一些發展建議,希望能夠為高校圖書館信息檢索服務實踐提供一些理論支持。
【關鍵詞】高校圖書館;網絡信息;檢索服務
21世紀是網絡化和信息化的時代,各行各業的發展數據在網絡中匯集和傳播,在這一背景下就需要強大的信息檢索服務來支撐數據工作。高校圖書館隨著網絡信息化的快速發展成為新時期信息匯聚的一個重要地點,因此高校圖書館信息檢索服務成為圖書館發展和實踐的主要方向之一。高校圖書館由于自身特點,匯集的是各學科研究研究成果和經典書目,因此,高校圖書館網絡信息檢索服務成為師生的關注點。
一、高校圖書館網絡信息檢索特征
高校圖書館作為高校師生主要的信息來源之一成為師生教學科研和學習的重要途徑,圖書館網絡信息檢索服務隨著網絡化和技術的發展不斷獲得師生的認可和喜愛,并且在發展中逐漸朝著簡單化、智能化、個性化的方向發展。(一)高校圖書館網絡信息檢索服務日益簡單化。由于高校圖書館是信息和資料匯聚的地方,因此師生對于信息檢索服務要求很高。當前高校圖書館網絡信息檢索服務整體呈現出了簡易化的發展趨勢,并且在信息檢索系統方面不斷地提高和升級,力求做到操作簡單和快捷,保障師生能夠在龐大的信息面前快速地尋找到自己想要的資源和信息。高校圖書館網絡信息檢索系統在人與機器對話方面呈現出良好的溝通和交流,可以保障對話界面順暢,在信息檢索操作系統中,通過完善專業的檢索原理和技術,實現了優良的后臺操作,只要師生在檢索過程中能夠按照系統提示的步驟進行操作就能夠在短時間內尋找到自己需要的信息。(二)高校圖書館網絡信息檢索服務日益多樣化。高校圖書館網絡信息檢索服務在當前網絡不斷發展的情況下日益呈現出多樣化的特征,主要表現為在網絡信息檢索的過程中多角度和多載體檢索師生所需要的信息和資源。在高校圖書館信息檢索服務中師生可以通過不同的關鍵詞、題目以及自身需求檢索國內或者國外的相關資源和信息。不僅如此,高校在網絡日益發展的情況下不斷完善自身網絡信息數據庫,以方便高校師生進行日常的信息檢索。另外,國內各高校間的資源互享已經成為高校網絡信息檢索服務的重要途徑,來滿足高校師生對于信息的需求。(三)高校圖書館網絡信息檢索服務日益智能化。當前,高校圖書館網絡信息檢索服務已經在朝著智能化的方向發展。通常對于智能化的理解是在正常檢索的基礎上通過檢索使用到的關鍵詞和題目進行智能分析然后在資源庫中進行搜索。當前圖書館網絡信息技術在模擬和借鑒了人類大腦運行規律的基礎上根據用戶的實際需求進行自我分析和鑒別,并通過網絡信息檢索系統進行檢索并反饋給用戶。這樣用戶在檢索的過程中能夠有選擇地進行甄別和檢索,尋找到更加合適的資源和信息。(四)高校圖書館網絡信息檢索服務日益個性化。當前高校圖書館網絡信息檢索服務另一個特點就是具有個性化。這一特征是在智能化的基礎上進行延伸的。高校圖書館網絡信息檢索通過智能化的對比和分析,在確實用戶需求的基礎上提供個性化的服務,這是以用戶日常檢索的習慣和行為方式為依據的,并通過不同的檢索內容提供不同的服務。由于高校圖書館網絡信息檢索體系主要對面的用戶群是高校師生,因此,在此基礎上要根據科研人員和師生的實際需求為依據進行系統開發和完善,不斷地提高系統的性能和服務水平。
二、高校圖書館的網絡信息檢索服務問題及對策
(一)重視信息服務的廣度和深度。在高校圖書館網絡信息檢索服務中,首先要注重信息服務的深度和廣度,這是有高校自身特點所決定的。一方面,圖書館網絡信息檢索服務的廣度要覆蓋到高校師生所需要的范圍,包括學校開設學科、近期的科學研究、不同類型信息資源、不同年限的信息資源不同程度和適用范圍的資源。另一方面,圖書館網絡信息檢索服務的深度要涉及各個領域資源和信息的詳細程度。而且能夠通過不同的分類進行檢索,這樣能夠為師生在檢索資源時節省時間,更好地進行科研和學習。(二)加強檢索服務的宣傳。當前隨著高等教育和社會的發展,高校學生呈現出逐年增長的趨勢,高校圖書館的用戶越來越多。因此,高校圖書館網絡信息檢索服務要在新生入學之時就做好培訓工作,以此來提高用戶的檢索能力。這就要求高校圖書館負責檢索教學的教師能夠首先熟練本校的檢索系統,提高自身的業務水平,并不斷地進行學習。其次,要通過教師的講解和示范,為學生建立良好的網絡信息檢索思想,重視網絡信息技術的學習和應用。(三)提高網絡信息檢索服務質量。當前網絡信息成為一個大的網絡,其中包含著多種多樣的搜索引擎,并且提供著不同程度和類型的搜索。在高校圖書館網絡信息檢索中主要包含這初級檢索、高級檢索和分類檢索這幾種主要的檢索模式。但是,在高校圖書館中由于學生學習程度有限往往采用最多的是初級檢索。因此,在高校網絡信息檢索服務中要根據用戶的檢索質量和層次來提高自身檢索質量建設,減少不必要的檢索方式建設,避免給檢索系統造成不必要的負擔。
三、總結
當前隨著社會和科技的發展,高校網絡信息檢索服務也在不斷地建設和發展。在發展過程中,高校網絡信息檢索服務要以用戶實際需求為基礎來提高自身建設和服務能力,不斷豐富自身數據庫和信息網絡,為高校師生的教學科研工作和學習提供良好的保障。
網絡信息檢索論文:淺談網絡環境下信息檢索課教學內容的改革
論文關鍵詞:網絡環境 信息檢索課 教學內容 信息素質教育 信息意識 信息能力 信息道德
論文摘要:環境的變化一直是推動信息素質教育前進的動力。作為我國信息素質教育的重要基地的信息檢索課,在網絡環境下,其教學內容要改變傳統的只側重文獻檢索和中外工具書的利用,而是向信息素質教育轉變,緊扣信息意識、信息能力和信息道德三個方面來設置,真正成為學生在資源獲取與知識融入的過程中,培養創新性思維的一個重要環節。
信息素質(Information literacy)概念的提出,可以溯源到1974年美國信息產業協會主席給美國圖書館與信息科學委員會的報告。而被人們接受程度較高的當屬美國圖書館學會ALA(American Library Association)在1989年報告中給出的定義:能夠判斷什么時候需要信息,并懂得如何去獲取信息,如何去評價和有效利用所需要的信息。
信息素質是大學生必備的素質之一,在高等院校開設專門培養學生“信息素質”的課程,不僅是當前我國開展素質教育的要求,也為學生的終身學習奠定了基礎。有專家認為,我國信息素質教育始于文獻信息檢索。它是不可多得的中國高校開展信息素質教育的一個重要基地。從20世紀80年代以來,從一般的用戶導讀、講座和培訓,直至正規課程的普遍開展。從全校講座到相關的研究生課程,逐步擴大,由淺入深,在信息素質教育方面已經做了許多扎實的工作。環境的變化一直在推動我國的信息素質教育的前進。
1 信息檢索教學在高校人才培養中的必要性
美國實用主義教育家杜威曾說過“學校中求知識的目的,不在于知識本身,而在于使學生自己獲得知識的方法”。1999年《中共中央、國務院關于深化教育改革推進素質教育的決定》對高等教育實施素質教育也提出了明確要求,“高等教育要重視培養大學生的創新能力、實踐能力和創業精神,普遍提高大學生的人文素養和科學素質”。教育部2001年工作要點中提出堅持用近期的科學文化成果教育學生,融傳授知識、培養能力和提高素質為一體,促使學生廣泛參與科研和社會實踐,加大對學生創新精神與實踐能力的培養力度。高等學校人才培養的關鍵就是創新、求索、綜合能力的培養。
信息檢索課是信息素質教育的重要課程,是培養學生具有良好的信息意識,掌握文獻檢索方法,主動攝取知識、更新知識,培養學生自學和獨立科研能力的重要環節。隨著信息素質教育在高校的深入開展,在信息檢索課教學中,開始注意突出信息素養能力的培養,即將檢索科學與科研信息調研結合。如康奈爾大學圖書館在門戶網站上建立調研策略(research strategy)而不是一般的檢索策略(retrieval strategy)的教學網頁,從如何選題、如何尋找背景資料到科研論文、綜述文獻資源的獲取、鑒別和引用,體現出信息研究與分析的真正內涵。又如克羅拉多大學Tutty圖書館制作了科研專題信息調研分析范例網頁,內容包括如何系統查找課題相關資源,評價選擇書目及二次文獻資源、發現館藏、確定學科重要人物、理論影響性評價、引文分析、跟蹤近期信息等等,并將這些內容與專業課題結合,幫助學生將獲取的知識信息融入自身專業課題基礎中,從而使學生在初步接觸課題的同時,通過信息知識的獲取啟發科研思路,建立科學假設。
信息檢索課程作為以培養本科學生的信息能力為目標的信息教育的重要課程,應把信息意識、信息道德諸方面的教育貫穿于信息能力培養的具體過程中。傳統的文獻檢索課程是基于圖書館素質教育的作用而開設的。其內容側重于文獻檢索和中外工具書的利用。1992年2月原國家教委高教司[1992]44號文件對文檢課教學內容作了規定:文檢課教學應使學生學會使用檢索工具與參考工具書的使用方法,初步掌握計算機檢索方法。還規定文檢課教學要分三段進行:在新生入學時期進行圖書館利用方法的教育,在三、四年級講授文獻檢索與利用的知識,對研究生要增加文獻資料整理利用的知識,包括文獻的鑒別、選擇、整理以及情報研究方法等。這說明了文獻檢索教學不僅是信息獲取知識和方法的傳授,而且是通過對學生進行信息獲取、分析、處理和運用能力的訓練,培養學生的創新意識。
信息檢索課程已經不僅僅是圖書館一般利用數據庫檢索技術等信息獲取的教學,而成為學生在資源獲取與知識融入的過程中,培養創新性思維的一個重要環節。
2 網絡環境下信息檢索教學內容的改革
2002年1月在黑龍江大學召開了信息素質教育學術研討會,會議前身是“文獻檢索與利用”學術研討會。會議認為,在網絡環境下,原有的文獻檢索課內容偏窄,缺乏創意和科技含量,必須加以改革,而改革的方向就是向信息素質教育轉變。新環境下信息檢索課教學的目標是強化學生的信息意識,增強信息道德觀念,提高學生的信息獲取、利用能力、自學能力以及知識更新能力,提高大學生的綜合素質。因此,信息檢索課的教學任務勢必要隨著信息社會的發展而不斷的改革和擴充。信息檢索課程要為學生今后的學科發展選擇教學內容,而不是為考試而選擇教學內容。我國的一些高校為了適合不同專業的特點安排教學內容,較好地達到教學目的,針對不同專業編制了不同的教學大綱。文獻檢索學作為國家標準認可的具有相對獨立地位的分支學科,雖然在新形勢下需要補充更新的知識內容較多,但仍具有其知識體系特點,各不同專業的本科學生的信息檢索課程仍包括通用的教學內容。美國的信息素質教育是通識教育,德克薩斯州立大學的信息素質教育課程(TILT)包括概論、選擇、檢索、評價和本館引論五部分,重點講授信息基礎和信息利用的技術和方法。而對于具體檢索工具和檢索系統的使用方法,則只講比較典型的一個檢索系統的詳細使用。因為我國的信息素質教育主要是從大學才開始的,學生多數沒有信息資源檢索的感性認識,因此,不同專業的大學生在教學內容基本相同的前提下,在細節上考慮到學生專業性的特點,應該是必要的。
《信息檢索》課的教學內容應該緊扣信息意識、信息能力和信息道德三個方面來設置。具體來講包括如下方面:
2.1 信息意識部分
傳統的文檢課著眼于培養學生文獻信息檢索工具的使用方法,即信息技能,而不是他們的信息素養。進入網絡化信息環境后,教學內容應有所改變,引導學生掌握如何從各種途徑獲取所需信息。
為了培養學生的信息意識,在教學內容中除了信息、知識、情報等概念,信息資源的分類、特點、識別,專業文獻的特點等外,還可增加大學生的信息需求、網絡上免費學術資源分布情況等內容。據統計,大學生最感興趣的內容是中文期刊、教育信息源和新聞信息源。大學生有著快速接收新鮮事物的能力,但卻經常會為找不到有用的信息而苦惱,而上述三種類型的資源,正好為學生提供了品質的信息源。各類網絡信息源、電子圖書、外文期刊等是學生較為感興趣的內容。統計結果還顯示,學生對傳統印刷型的資源基本提不起什么興趣。所以授課內容中應包括網絡教育信息源(四六級、考研等)、學科相關的專業信息源、網上參考工具書、的網絡資源導航等的特點及使用方法等內容。通過這些知識的學習,使大學生對信息的概念、特點、規律有了基本的了解,對信息在社會中的地位、作用有較深刻的認識。從而確立他們較強的信息價值觀念和培養從信息角度觀察問題、解決問題的思維習慣,并且掌握一定的科學思維方法和研究方法。為了加深印象,可在課后布置一個小作業,激發學生去挖掘信息源,了解周圍的信息環境。
2.2 信息能力部分
這一部分教學的目標是使學生能夠熟練運用各種信息源,高效地獲取、處理、分析和利用所需信息。具體的講,信息能力應該包括提出和分析信息需求的能力、尋找信息源的能力、評價信息源的能力、信息利用能力等。在教學當中我們主要講授信息檢索原理、方法、基本途徑和步驟、檢索策略和技巧,檢索工具的結構,計算機信息檢索基礎等,主要數據庫的檢索使用,特種文獻的檢索,搜索引擎的檢索,以及對檢索到的信息進行鑒別遴選、分析歸納、概括表達,在自己的科研課題或其它任務中尋求信息支持。
重點講解按出版形式文獻的檢索途徑、檢索步驟、計算機檢索的邏輯算符、位置算符、截詞符、字段限制及綜合運用;講課側重典型的檢索工具或數據庫,如本校圖書館引進的數據庫及網上免費學術型數據庫的檢索,重點講清檢索思路,增加信息分析和利用方法的介紹、檢索策略的制定和調整等。講解利用網上搜索引擎查閱資料,重點解剖一種搜索引擎即可,使學生舉一反三,掌握各種搜索引擎的使用方法;講解如何選取主題詞、檢索策略的制定和調整、提高查全率和查準率的方法、原文文獻的索取等。增加文獻類型尤其是外文信息識別的內容。實踐證明,在教學中引導學生充分利用專業數據庫和網絡資源,是提高學生信息能力的最直接和最有效的途徑。
2.3 信息道德部分
信息道德是指整個信息活動中的道德,是整個信息活動信息加工者、傳遞者、使用者相互之間各種行為規范的總和。隨著互聯網的發展,不僅增強了用戶利用信息資源的自主性,而且使得與信息知識合理利用密切相關的知識產權保護問題日益復雜化,所以我們在教學中不能忽視信息道德教育。在對信息道德和信息法規內容的認識上,有相當多的學生僅認為“計算機犯罪”屬違法問題,只有少數學生了解“對知識產權的侵犯”、“對個人隱私權的侵犯”和“網絡上的人為惡習”等也屬于違法或不道德范疇。
信息檢索課在教學過程中,一般都安排了特種文獻檢索的內容,使學生充分了解專利、標準的基礎知識和檢索方法。除此之外,應當盡快地將《著作權法》對相關信息活動的規范、對數據庫使用權限的相關規定等內容進行普及。教師要教育學生不僅要學會提取信息,還要學會用正確的觀點去分析信息,辨別是非,去偽存真,分清精華與糟粕,才能更好地利用網絡信息。學校也要進一步加強和規范因特網教育信息及網站的管理,可以在教育網站的入口處設置相應的服務器或防火墻,對網絡信息進行凈化處理,消減不良信息的負面影響。
2.4 實踐部分
信息檢索課的目的是培養學生實際解決問題的能力,實習題的作用在于鞏固課堂教學內容,是理論知識融入實踐訓練中,從而達到循序漸進、提高能力的目的。實習題的設計,一要結合實際,二要突出新意。既要能夠有效檢驗課堂知識的運用能力,又要與社會實際或科技前沿課題相結合,使學生認識到所學知識的實用性和應用上的顯著效果。實習題要由淺入深,可以針對一個問題多角度發問,如:你所學專業的熱點問題都有哪些?從事相關研究的學者都有誰?他們的著作都有什么?他們參加過哪些學術會議?有發明嗎?等等,以此類推,還可以有很多設問。
實際操作中實習題分為兩大類型。一類為階段實習題。按課程教學需要,一般講完一段較為獨立的內容就布置一批相關實習題。另一類為專題文獻檢索題。這部分實習為綜合實習題,圍繞科研課題研究活動的實際情景設計適合本科生的課程任務,從分析課題、檢索所需信息、評估結果、編寫檢索和分析報告綜合練習。要求學生綜合運用檢索理論和檢索技能,通過各種渠道搜集相關信息源,經過整理歸納,完成實習報告。以往課程比較重視的是學科資源的獲取,學術性強而目的性弱,用的多是經典的檢索工具、聯機數據庫,課題往往是虛設的多,學生并不太介意檢索的結果。但是對于階段實習題,我們可以結合社會生活出一些問題,比如要去某地旅行,出發前需要了解該地的地理、風俗、文化、名勝、路線、交通、費用等各方面的信息。我們可以設計出更好的題目來。
我們在教學的過程中,可以選擇和專業學科緊密結合的學生畢業論文或畢業設計作為貫穿信息檢索課程全過程始終的教學主線。從畢業論文信息對不同文獻類型的需求,畢業論文題目的選擇擬訂、題目的分析、檢索詞和分類號的擬訂、檢索詞的規范、檢索式的擬訂,不同學科數據庫的選擇,檢索過程檢索策略的修訂、檢索結果的分析與匯總等,學用結合使學生對信息檢索課程的理論和實踐有了系統的的掌握。
3 內容設置上應該注意的幾個問題
3.1 雖然手工檢索在諸多方面似乎變得越來越“不合乎適宜”,但其中一些基本原理、基本方法卻是非常“經典”的。手工檢索與計算機檢索內容的安排不應偏廢,傳統文獻目前仍在大量使用,通過其傳播的信息量也相當大,而電子化、數字化、計算機網絡化傳播的信息正在不斷擴大。因此,內容上要兩者兼顧,適當減弱傳統信息載體、檢索工具的講述,注重現代技術信息傳播、檢索的內容。
3.2 教學內容的設置要根據教學對象的不同,側重點有所區別。如對于大一、大二學生來講,幫助他們了解各種信息資源,根據需要選擇合適的信息源。電子資源教學方面側重于介紹圖書館的數據庫,主要是中文全文數據庫的檢索,以及圖書館書目系統的查詢。而對大三、大四學生開課,側重于檢索技能的培養:選擇合適的數據庫;使用恰當的檢索詞及檢索策略;在網上搜索的能力。電子資源方面則要增加外文數據資源的檢索,學科門戶、學科資源目錄導航。在搜索技巧方面,對低年級的學生主要講解確定所需要的信息的關鍵詞(要盡可能地列舉出更多的關鍵詞或短語),如果是英文,千萬別忘了單詞的不同拼寫、簡稱、縮寫等情況,同時應該區分哪些詞擴展了原來的含義(上位詞),哪些詞縮小了原來的含義(下位詞)和適當的檢索步驟。而對高年級的學生除了掌握這些以外,還要學會評估搜索策略、搜索結果的數量、質量和相關性。
3.3 及時更新和擴充新的教學內容,使大學生及時了解和掌握新型信息資源、信息檢索技術及相關領域的新變化、新成果,通過介紹網上免費資源,推薦開放獲取文獻,普及科技查新檢索知識等,以便與時俱進、充分利用;另外還要增加實用的信息檢索利用的內容,追求教學效果。結合學校的重點學科、專業,與專業有關的國內外著名檢索工具、全球著名的搜索引擎、相關的檢索目錄、網址、學科導航系統以及獲取專業文獻全文,四、六級考試、考研升學以及就業招聘等內容都應作為教學內容。
3.4 高校信息檢索教學的目的是為了使學習和科研者在學習科研活動中,能夠在盡可能少的時間內查找到盡可能多的學術信息。所以一般來說檢索課教學應主要解決學術信息資源的獲取問題,其它資源信息如生活類信息的檢索等應該放在次要的地位。就現階段而言,學術信息資源應該是選擇性的信息資源,即綜合或專業性數據庫(盡管互聯網上也存在著大量的免費學術資源,但這種學術資源往往是零散的,不充分的)。也就是說,教學工作的重點應該解決學校花大價錢所購買的電子信息資源的使用。
4 今后的發展方向
圖書館是高校信息素質教育的基地,擁有豐富的信息資源和大批圖書館學的專家,但缺乏各個學科的專業人才,無法真正把信息素質教育滲透到專業學習中。在這方面,我們可以借鑒美國的成功經驗,首先認識我國高校的學生應當具有什么樣的信息素質能力,如何來實現這樣的目標,根據我國的國情和歷史及現狀制定信息素質教育指標體系。此外,還要積極開展圖書館員與院系教師的合作,針對具體學科展開信息素質教育,目前,在線信息素質教育已經成為美國大學開展用戶教育的主要形式。融入課程建設、個性化網上自導教學、建成用戶的信息門戶網站等方式都已經被廣泛應用在教學實踐中。這給今后我國信息檢索課教學工作帶來一些啟示:
4.1 配合專業課教學為學生創造信息需求背景,以實際需求作背景進行教學,使學生了解本專業相關領域的信息源及信息索取途徑。重點剖析典型的專業檢索工具、參考工具書及專業數據庫的檢索和利用,讓學生帶著問題和需求來學習。
4.2 組織學生進行小組“合作探究”,充分發動學生自主學習,教師做一些引導性的工作。提出與已學過的學科內容有關的問題,檢索大量的信息源,使用環境、人力、工具等資源進行學習。鼓勵相互間的交流與合作,自行總結歸納知識點,檢索結果沒有好只有更好。這樣的教學方法能夠充分調動學生學習的積極性、主動性,對于培養學生的創新精神與實踐能力都有積極的作用。
4.3 加強與各專業課教師的聯系,注意搜集各個專業的科研課題和學生畢業論文的題目按不同學科專業分類,作為信息檢索教學的實例和學生實踐課的作業。任課教師做信息參考咨詢工作和學科導航庫的建設工作,應多收集信息檢索方面的事例。
參考文獻:
[1] 楊淑琴.網絡信息時代高校文獻信息檢索課教學改革之探討[J].科技信息,2007,(33).
[2] 顏瑜,楊海鷗.文獻檢索課在網絡時代的變革[J].圖書館理論與實踐,2005,(2).
[3] 陳潔清.專業課教學與大學信息素質的培養[J].中國科技信息,2007,(15).
[4] 余曉蔚.文獻檢索課教學新思路[J].高校圖書館工作,2007,(6).
[5] 王澤琪,周鳳飛.體現本科專業特點的信息檢索課程教學內容研究[J].圖書館工作與研究, 2007,(3).
[6] 劉君君,周進良.大學生研究性學習中的信息素質與信息資源保障[J].現代情報,2007,(1).
[7] 李武.美國和香港地區開展在線素質教育的情況分析與啟示[J].四川圖書館學報,2004,(1).