網(wǎng)絡(luò)信息資源檢索研究論文

時(shí)間:2022-05-04 06:40:00

導(dǎo)語:網(wǎng)絡(luò)信息資源檢索研究論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

網(wǎng)絡(luò)信息資源檢索研究論文

編者按:本文主要從引言;網(wǎng)絡(luò)信息的特點(diǎn);網(wǎng)絡(luò)環(huán)境下的信息資源檢索策略及其應(yīng)用;結(jié)論進(jìn)行論述。其中,主要包括:21世紀(jì)是一個(gè)高度信息化的社會,信息就是生產(chǎn)力、數(shù)量巨大而龐雜、內(nèi)容范圍廣泛、信息類型豐富、網(wǎng)上信息具有高度動態(tài)性,各種信息處在不斷生產(chǎn)、更新淘汰的狀態(tài)、有序與無序,集中與分散并存、信息過濾技術(shù)及其應(yīng)用、文本挖掘技術(shù)及其運(yùn)用、文本內(nèi)容挖掘在檢索中的應(yīng)用、文本結(jié)構(gòu)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用、文本行為挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用、全文檢索技術(shù)及其運(yùn)用、自然語言處理技術(shù)及其運(yùn)用等,具體請?jiān)斠姟?/p>

[摘要]:因特網(wǎng)上的信息資源,是指以數(shù)字形式記錄,以多媒體形式表達(dá),存貯在網(wǎng)絡(luò)計(jì)算機(jī)磁介質(zhì)、光介質(zhì)及各類通信介質(zhì)上的信息集合。對網(wǎng)絡(luò)信息資源及其檢索進(jìn)行必要的研究,有助于人們快速準(zhǔn)確地獲取網(wǎng)上有用信息,推動社會信息化與信息社會化的雙向發(fā)展。因此本文闡述了網(wǎng)絡(luò)環(huán)境下的信息資源檢索策略及其應(yīng)用。

[關(guān)鍵詞]:網(wǎng)絡(luò)環(huán)境,信息檢索,信息過濾,文本挖掘

一、引言

21世紀(jì)是一個(gè)高度信息化的社會,信息就是生產(chǎn)力,在各個(gè)行業(yè)信息化發(fā)展的同時(shí),人們對信息檢索的完備、準(zhǔn)確、快捷會有更嚴(yán)格的要求和期望。作為文獻(xiàn)信息中心的圖書館也迎來了一個(gè)全新的信息環(huán)境,豐富的網(wǎng)絡(luò)信息資源為圖書館的信息服務(wù)提供了廣泛的資源基礎(chǔ),使網(wǎng)絡(luò)環(huán)境下的信息資源檢索策略發(fā)生了重大的變化。

二、網(wǎng)絡(luò)信息的特點(diǎn)

(一)數(shù)量巨大而龐雜。Internet是一個(gè)基于TCP/IP協(xié)議連接世界各國數(shù)以百萬計(jì)算機(jī)網(wǎng)絡(luò)的通訊網(wǎng),是一個(gè)集各種信息資源為一體的信息資源網(wǎng)。政府、機(jī)構(gòu)、企業(yè)、個(gè)人等都可以在網(wǎng)上信息,因此它己成為無所不包的龐雜信息源,并具有跨地區(qū)、分布廣、多語種、高度資源共享的特點(diǎn)。

(二)內(nèi)容范圍廣泛。網(wǎng)上的信息源幾乎涵蓋了人類知識的全部領(lǐng)域,既有人文科學(xué)、社會科學(xué)、自然科學(xué)、工程技術(shù)信息,也有大量生活服務(wù)、娛樂消遣等方面的信息。

(三)信息類型豐富。其主要形式有網(wǎng)絡(luò)出版,包括電子期刊、網(wǎng)上圖書、電子工具書等;各種動態(tài)信息主要包括新聞、廣告、股市行情、天氣、交通、會議等;還有大量的書目數(shù)據(jù)庫、聯(lián)機(jī)數(shù)據(jù)庫、軟件資源以及個(gè)人主頁、電子郵件等。這些信息都是數(shù)字式、多媒體,既有文本的信息,也有大量的圖形、圖像、音頻、視頻信息。

(四)動態(tài)性強(qiáng)。網(wǎng)上信息具有高度動態(tài)性,各種信息處在不斷生產(chǎn)、更新淘汰的狀態(tài),同時(shí)連接在一起的各網(wǎng)絡(luò)、網(wǎng)站、網(wǎng)頁都時(shí)時(shí)刻刻在變化。網(wǎng)絡(luò)信息還具有交互式特點(diǎn),如BBS、聊天、游戲等。

(五)信息組織特殊、控制性差。因特網(wǎng)上信息的組織以超文本技術(shù)鏈接,構(gòu)成立體網(wǎng)狀文獻(xiàn)鏈,把不同國家地區(qū)、不同服務(wù)器、各種網(wǎng)頁、各類不同文獻(xiàn)的相關(guān)信息都通過節(jié)點(diǎn)鏈接起來,使得檢索相關(guān)文獻(xiàn)、相關(guān)信息非常方便,加強(qiáng)了信息間的關(guān)聯(lián)度,形成了一個(gè)網(wǎng)狀結(jié)構(gòu)。

(六)有序與無序,集中與分散并存?;ヂ?lián)網(wǎng)上的信息沒有統(tǒng)一控制,雖然從局部來說某個(gè)網(wǎng)站、某個(gè)數(shù)據(jù)庫是有控制的、相對集中的、有序和規(guī)范的,但總的來說互聯(lián)網(wǎng)的信息沒有統(tǒng)一的控制,信息質(zhì)量良蕎不齊,信息也處于分散、無序、不規(guī)范的狀態(tài)之中。

三、網(wǎng)絡(luò)環(huán)境下的信息資源檢索策略及其應(yīng)用

科學(xué)技術(shù)的日新月異和用戶需求的不斷提高促使網(wǎng)絡(luò)檢索工具相應(yīng)發(fā)展,網(wǎng)絡(luò)環(huán)境下的信息資源檢索策略及其應(yīng)用可以分為以下幾個(gè)方面:

(一)信息過濾技術(shù)及其應(yīng)用

Internet開放式的環(huán)境,為人們檢索和利用信息提供了極大的方便,但同時(shí),網(wǎng)絡(luò)環(huán)境也為人們及時(shí)準(zhǔn)確地檢索到所需信息帶來了麻煩。信息過濾技術(shù)就是在這樣的背景下開始受到人們的重視,它的目的就是讓搜索引擎具有更多的“智力”,讓搜索引擎能夠更加深入、更加細(xì)致地參與到用戶的整個(gè)檢索過程中,從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精煉,幫助用戶在浩如煙海的信息中找到和需求真正相關(guān)的資料。

在用戶的檢索過程中,信息過濾可以通過多種途徑實(shí)現(xiàn)。第一,關(guān)鍵詞的選擇。當(dāng)用戶要檢索不太熟悉的領(lǐng)域時(shí),系統(tǒng)可以通過提供機(jī)讀類詞表的方法方便用戶選詞,也可以通過后控詞表等方法自動擴(kuò)大或縮小(通常是通過近義詞表擴(kuò)大)檢索范圍,提高查全率和查準(zhǔn)率;第二,利用過濾模型。過濾模型是目前Internet上信息過濾主要方法,它是通過設(shè)計(jì)過濾軟件并附加到網(wǎng)絡(luò)信息檢索的程序中以增加過濾功能。這主要表現(xiàn)在兩個(gè)方面,一方面,搜索程序在進(jìn)行信息搜索時(shí)可通過過濾功能過濾掉一些認(rèn)為價(jià)值不大或沒有價(jià)值的信息;另一方面,用戶也可根據(jù)自己的需求選擇服務(wù)項(xiàng)目與內(nèi)容,通過過濾機(jī)制快速找到所需的信息資源。其方法是根據(jù)需求設(shè)置過濾條件,如不希望獲取的網(wǎng)址、某類主題的內(nèi)容、某種類型或范圍的信息等,程序在運(yùn)行時(shí)一旦觸發(fā)條件,則可將有關(guān)信息刪除或拒之門外,而其他信息仍可輸入。

(二)文本挖掘技術(shù)及其運(yùn)用

文本挖掘是知識管理研究領(lǐng)域的新興分支之一,為文本信息的整理、分析、挖掘提供了有效的手段。傳統(tǒng)的信息檢索或信息訪問,主要根據(jù)用戶提供的查詢條件從文檔數(shù)據(jù)庫中檢索出相關(guān)的文檔信息。為了提高信息訪問的準(zhǔn)確性,檢索系統(tǒng)增加了相關(guān)處理,如文檔分類、自動文摘、主題詞自動抽取等方法,使用戶能夠方便查找到所需信息。在文本挖掘處理中,大多采用神經(jīng)網(wǎng)絡(luò)模型描述文本及文檔數(shù)據(jù)庫各概念之間,以及概念和文檔之間、文檔與文檔之間的相互關(guān)系在信息檢索中,無須分析文檔中概念之間的相互關(guān)系,只要依據(jù)用戶的查詢,返回相關(guān)文檔集合。但是,文本挖掘不僅能夠區(qū)分不同的概念,還能夠分析不同概念結(jié)點(diǎn)之間的相互關(guān)聯(lián)關(guān)系。

1、文本內(nèi)容挖掘在檢索中的應(yīng)用。文本內(nèi)容挖掘是指從文檔內(nèi)容及其描述中獲取知識的過程,由于用傳統(tǒng)的信息檢索技術(shù)對文本文檔的處理不夠深入,因此,可以利用文本內(nèi)容挖掘技術(shù)來對網(wǎng)絡(luò)信息檢索中的文本文檔處理部分進(jìn)行進(jìn)一步的完善。

2、文本結(jié)構(gòu)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用。文本的信息組織方式采用了一種非平面結(jié)構(gòu),一般來說文本的信息組織方式是根據(jù)內(nèi)容來進(jìn)行組織的。但是由于文本的這些結(jié)構(gòu)信息比較難以處理,所以搜索引擎一般不處理這些信息,而是將文本頁面作為平面機(jī)構(gòu)的文本進(jìn)行處理。但是,在文本結(jié)構(gòu)挖掘中,通過對文本文檔組織結(jié)構(gòu)的挖掘,搜索引擎可以進(jìn)一步擴(kuò)展搜索引擎的檢索能力,改善檢索效果。

3、文本行為挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用。文本行為挖掘是一種通過挖掘總結(jié)出用戶的檢索行為的模式。用戶的檢索行為一直是信息檢索中重要的研究內(nèi)容,通過文本行為挖掘,不僅可以發(fā)現(xiàn)多數(shù)用戶潛在共同的行為模式,而且還可以發(fā)現(xiàn)單個(gè)用戶的個(gè)性化行為,對這些模式進(jìn)行研究,可以更好地對搜索引擎的檢索效果進(jìn)行反饋,以便進(jìn)一步改進(jìn)搜索策略,提高檢索效果。

(三)全文檢索技術(shù)及其運(yùn)用

我國對全文檢索技術(shù)的研究已經(jīng)有一段時(shí)間了,也取得了一定的成果。主要集中在漢字全文檢索、超文本全文檢索、網(wǎng)絡(luò)環(huán)境下的全文檢索技術(shù)等方面。全文檢索作為一種發(fā)展迅速的檢索技術(shù),近年來已得到廣泛的關(guān)注并走向市場。有學(xué)者提出的“漢字全文檢索系統(tǒng)的關(guān)鍵技術(shù)與實(shí)現(xiàn)”,在對中西文全文檢索系統(tǒng)進(jìn)行分析比較的基礎(chǔ)上,提出了一種新的索引建立方式,并在此基礎(chǔ)上,實(shí)現(xiàn)了支持模糊提問的全文檢索。同時(shí)獨(dú)立設(shè)計(jì)了自己的數(shù)據(jù)結(jié)構(gòu)和算法,以及利用VisualC++在Windows環(huán)境下加以實(shí)現(xiàn)。全文檢索技術(shù)的運(yùn)用包括:1、檢索主題要求對全文檢索效果的影響:通過適當(dāng)擴(kuò)大檢索范圍或多字段聯(lián)組檢索來改善檢索主題專指度過高;縮小檢索主題范圍,提高查找專指度,采取適當(dāng)?shù)臋z索策略,來限制檢索主題范圍太寬;提高檢索主題要求的明確性;2、組配檢索式對全文檢索效果的影響,導(dǎo)致在確定檢索詞時(shí),不僅僅要考慮到各檢索詞本身的切題與匹配。在這方面雖然取得一些成績,但是國內(nèi)的全文檢索軟件全是商品化的,其技術(shù)都不公開,導(dǎo)致低水平重復(fù);漢語本身有難度,國內(nèi)目前還沒有公開的詞庫及可用的自然語言理解模塊,重復(fù)研究的現(xiàn)象比較嚴(yán)重。

(四)自然語言處理技術(shù)及其運(yùn)用

自然語言處理(naturallanguageprocessing,簡稱NLP)是語言信息處理的一個(gè)重要分支。所謂自然語言處理就是計(jì)算機(jī)對自然語言的形、音、義等信息的理解及詞、句子、篇章的輸入、輸出、存儲和識別等多方面的加工。尤其側(cè)重于研究計(jì)算機(jī)對于句子、篇章的處理。

自然語言處理在網(wǎng)絡(luò)信息檢索中的應(yīng)用方式主要有以下幾種:

1、自動標(biāo)引

由計(jì)算機(jī)實(shí)現(xiàn)文獻(xiàn)標(biāo)引,分為抽詞標(biāo)引和賦詞標(biāo)引兩種類型,前者是從文獻(xiàn)中自動抽出能表征文獻(xiàn)主題的詞作為標(biāo)引詞,而后者則在此基礎(chǔ)上引入預(yù)先編制的詞表來規(guī)范自動抽取出的詞,不過這種詞表從其生成來看與規(guī)范語言詞表本質(zhì)上是不同的,自動標(biāo)引的目的是賦予文獻(xiàn)自然語言標(biāo)引詞,以使檢索時(shí)直接用自然語言詞進(jìn)行匹配查找。

2、自動文摘

利用計(jì)算機(jī)來完成文獻(xiàn)文摘的編制。其一般過程為:(1)原始文獻(xiàn)的錄入,使之轉(zhuǎn)化為機(jī)讀形式;(2)確定每個(gè)單詞和句子的“意義”與權(quán)值的測量標(biāo)準(zhǔn);(3)通過計(jì)算每個(gè)單詞和句子的權(quán)值來分析輸入計(jì)算機(jī)內(nèi)的文獻(xiàn),選出一組最能代表文獻(xiàn)主題內(nèi)容的句子;(4)排列和打印句子,形成文摘。

3、文本檢索

文本是文獻(xiàn)題名或文摘、文獻(xiàn)的正文。文本檢索就是不對文獻(xiàn)進(jìn)行標(biāo)引,而是以自然語言表達(dá)檢索課題。它需要借助計(jì)算機(jī)的自動匹配功能直接在篇名、文摘、正文中查找。文本檢索要掌握字符串匹配、截詞檢索、位置邏輯檢索等技術(shù)。

四、結(jié)論

總的說來,變化是因特網(wǎng)發(fā)展的永恒主題,也是網(wǎng)絡(luò)信息檢索的發(fā)展主題。隨著因特網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索將不斷的改進(jìn)和完善,越來越滿足人們的網(wǎng)絡(luò)信息的獲取需求。

[參考文獻(xiàn)]:

1黎小妮網(wǎng)絡(luò)信息資源檢索研究圖書館學(xué)刊2006(5)

2王平網(wǎng)絡(luò)環(huán)境下信息資源及信息檢索遵義科技2006(3)

3陳劍網(wǎng)絡(luò)信息資源檢索存在的問題及解決對策情報(bào)資料工作2005(5)

4王林網(wǎng)絡(luò)環(huán)境中信息檢索的特點(diǎn)及發(fā)展趨勢圖書館學(xué)研究2002(2)

5凌美秀關(guān)于搜索引擎當(dāng)前存在的主要問題及其發(fā)展趨勢的探討高校圖書館工作2002(21)