用www 搜索引擎檢索
  • 更新時(shí)間:2024-10-28 20:17:40
  • 網(wǎng)站建設(shè)
  • 發(fā)布時(shí)間:1年前
  • 263

WWW,又稱萬維網(wǎng)或萬維網(wǎng),是1989年由歐洲核子研究中心的美國(guó)科學(xué)家蒂姆貝默斯-李開發(fā)并命名的基于超文本的信息傳輸網(wǎng)絡(luò),開啟了互聯(lián)網(wǎng)新的一頁。 Tin Bemcrs-L因此被譽(yù)為萬維網(wǎng)之父,并獲得了世界上第一個(gè)“千年科技獎(jiǎng)”。 WWW和Internet不是一個(gè)概念,而是Internet提供的服務(wù)功能之一。 WWW使網(wǎng)絡(luò)用戶不再面對(duì)枯燥和混亂的機(jī)器使用說明。通過瀏覽器和超鏈接,您可以直觀、方便地訪問互聯(lián)網(wǎng)上呈指數(shù)級(jí)增長(zhǎng)的文本、圖像和各種多媒體信息。此外,在互聯(lián)網(wǎng)上收集用戶感興趣的信息還必須依賴一個(gè)強(qiáng)大的工具,那就是WWW搜索引擎。

搜索引擎是在互聯(lián)網(wǎng)上提供信息搜索服務(wù)的平臺(tái),是使用最廣泛的網(wǎng)絡(luò)服務(wù)工具。我們現(xiàn)在常用的搜索向?qū)?,基本都運(yùn)行在WWW中,所以也可以稱為WWW搜索向?qū)?。隨著網(wǎng)絡(luò)信息越來越深入到普通人的生活中,搜索和推薦已經(jīng)成為互聯(lián)網(wǎng)上流行的關(guān)鍵技術(shù),研發(fā)的競(jìng)爭(zhēng)也從未停止過。我們之所以能夠“輕點(diǎn)”數(shù)以億計(jì)的互聯(lián)網(wǎng)網(wǎng)頁信息,是因?yàn)榛ヂ?lián)網(wǎng)上成千上萬的搜索引擎都在孜孜不倦地發(fā)現(xiàn)、抓取、存儲(chǔ)、索引和提供網(wǎng)絡(luò)信息檢索服務(wù)。他們正朝著專業(yè)化、本土化、生活化的方向前行。 WWW搜索引擎按其運(yùn)行方式的不同可分為三種類型:目錄網(wǎng)站、全文搜索引擎和元搜索引擎。萬維網(wǎng)

1.目錄網(wǎng)站

日?qǐng)?bào)建站是早期的WWW信息搜索工具,其工作方式是人工收集整理網(wǎng)絡(luò)信息,以分類話題的形式呈現(xiàn)和瀏覽。由于人工成本高,技術(shù)含量相對(duì)較低。本質(zhì)上,它并不是真正的搜索指南,所以至今沒有被人們所重視。幾乎所有的目錄網(wǎng)站都開發(fā)了自己獨(dú)立的新一代搜索指南,演變成常見的關(guān)鍵詞搜索形式,如新浪、搜狐、雅虎中國(guó)等已經(jīng)很難找到原有目錄瀏覽方式的痕跡,只有少數(shù)仍然保留原網(wǎng)站分類搜索的特點(diǎn)。最著名的網(wǎng)站名錄是雅虎的中文網(wǎng)站名錄,按出現(xiàn)時(shí)間依次包括搜狐、網(wǎng)易、新浪等,還有LookSmart。關(guān)于等在國(guó)外。名錄網(wǎng)站具有以下特點(diǎn)。

基于樹目錄瀏覽網(wǎng)絡(luò)信息,簡(jiǎn)單易用。以樹型目錄結(jié)構(gòu)組織的信息資源導(dǎo)覽系統(tǒng)嚴(yán)謹(jǐn),可擴(kuò)展性好。月記加入了人性化的智能,屏蔽了網(wǎng)絡(luò)高級(jí)系統(tǒng)相對(duì)于用戶的復(fù)雜性,并能提高信息的準(zhǔn)確性,高質(zhì)量的導(dǎo)航。 資源分類不夠細(xì)化。網(wǎng)絡(luò)信息資源的復(fù)雜性決定了很難確定一個(gè)全面的分類體系作為主題樹結(jié)構(gòu)的基礎(chǔ)來覆蓋所有的網(wǎng)絡(luò)信息資源。為了保證主題的可用性和結(jié)構(gòu)的清晰度,分類系統(tǒng)的類別不宜過多,這樣一來,一些特殊的分類無處可尋,另一方面,大量的網(wǎng)頁被排除在外,因?yàn)樗鼈儾话谀夸浿?。忽視。隨著Web 的發(fā)展,這個(gè)問題只會(huì)變得更糟。使用聚類或其他自動(dòng)分類(包括自然語言處理、相關(guān)頂部提取等)的方法仍然不能令人滿意。并且會(huì)出現(xiàn)機(jī)器自動(dòng)得到的類和人工分類的結(jié)果不一樣的問題。 由于人工干預(yù)、維護(hù)量大、信息相對(duì)較少、信息更新不及時(shí)等原因,此類目錄網(wǎng)站為了使用戶能夠獲得更多的信息,往往會(huì)向其他搜索引擎發(fā)送查詢以搜索整個(gè)Web .今天的目錄站點(diǎn)和全文搜索引擎相互融合,用戶基本沒有區(qū)別。例如,雅虎使用谷歌的搜索指南提供頁面搜索,谷歌使用“OpenDirectory”目錄提供分類查詢,搜索界面幾乎是一樣的。二、全文搜索引攀全文搜索引擎,堪稱真正的搜索引擎。與網(wǎng)站目錄不同的是,它不再采用人工信息搜索和分類,而是采用軟件程序?qū)W(wǎng)絡(luò)信息進(jìn)行收集、索引和檢索。全文搜索lead climbing 的結(jié)構(gòu)由四部分組成。

(I) 搜索者。爬蟲或網(wǎng)絡(luò)機(jī)器人。它是一種自動(dòng)網(wǎng)絡(luò)搜索軟件,通常稱為“蜘蛛”、爬蟲(crawler)或機(jī)器人(robots)等。“蜘蛛”的唯一工作就是漫游網(wǎng)絡(luò)以發(fā)現(xiàn)和收集信息。它每天可以“抓取”大約1000萬個(gè)網(wǎng)頁,以最快的速度收集各種類型的新信息。同時(shí),由于網(wǎng)絡(luò)上的信息更新非???,所以需要定期更新已經(jīng)收集到的舊信息,避免出現(xiàn)死鏈接和無效鏈接。收集信息有兩種策略。首先,從一組URL(資源定位器)開始,跟隨這些URL 中的超鏈接,以廣度優(yōu)先或深度優(yōu)先的方式遞歸地從Web 中提取信息。這些起始網(wǎng)址往往是一些非常流行的站點(diǎn),包含很多鏈接,比如雅虎的分類節(jié)點(diǎn);其次,通過設(shè)置“添加URL”欄目,網(wǎng)絡(luò)信息作者可以主動(dòng)向搜索引擎提供網(wǎng)頁地址,但這種方式經(jīng)常被垃圾郵件轟炸,幾乎95%的通過添加URL字段提交的URL都被拒絕。搜索指南采用的搜索信息策略不同,如搜索頻率、搜索對(duì)象等,都會(huì)造成各搜索引擎的搜索結(jié)果和質(zhì)量的差異。

(2) 索引器。索引器或索引器。它的功能是分析收集器收集的信息,執(zhí)行自動(dòng)索引,以易于檢索和存儲(chǔ)的形式表示文檔

在索引庫(kù)中,也就是建立倒排文檔。倒排文檔中的每個(gè)標(biāo)引項(xiàng)都包含一組指針,指向它出現(xiàn)的網(wǎng)頁。為了給用戶提供有關(guān)被檢出文檔的信息,標(biāo)引中還包含每個(gè)頁面的簡(jiǎn)單描述,如產(chǎn)生日期、大小、標(biāo)題、子標(biāo)題和摘要等。
???
(3)檢索器。檢索器或稱為檢索軟件,它的功能是根據(jù)用戶的查詢,在索引庫(kù)中快速檢索出相關(guān)文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并能夠?qū)崿F(xiàn)某種用戶相關(guān)反饋機(jī)制(即可以對(duì)檢索策略的不斷修正)。檢索器被視為搜索引擎中最復(fù)雜的部分,其中包含關(guān)于檢索結(jié)果的排序的重要問題。研究者發(fā)現(xiàn)用戶不可能耐心地去瀏覽動(dòng)輒上萬的搜索結(jié)果,而只會(huì)注意到最前幾頁的搜索結(jié)果,光靠點(diǎn)擊率和詞頻來簡(jiǎn)單排序的方法顯然有缺陷。
???
三、元搜索引攀

?元搜索引攀又稱多搜索引擎,這類搜索引攀沒有自己的海量數(shù)據(jù)庫(kù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行去排序等處理后再將結(jié)果返回給用戶。按其搜索機(jī)制可分為并行式和串行式。并行式元搜索引攀指將查詢要求問時(shí)發(fā)向各個(gè)獨(dú)立的搜索引攀。然后將結(jié)果按特定的順序提供給用戶。串行式元搜索引攀是將查詢耍求先發(fā)給某個(gè)獨(dú)立的搜索引擎,待其返回結(jié)果后再將請(qǐng)求發(fā)給另一個(gè)搜索引攀。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對(duì)接開發(fā)等。十余年開發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿意為止,多一次對(duì)比,一定讓您多一份收獲!

本文章出于推來客官網(wǎng),轉(zhuǎn)載請(qǐng)表明原文地址:https://www.tlkjt.com/web/12602.html
推薦文章

在線客服

掃碼聯(lián)系客服

3985758

回到頂部