精品久久久成人影院免费,久久大香伊蕉在人线免费,香蕉久久成人国产精品免费,色色色999韩,国内精品久久久精品久久,国产乱码久久久一区二区三区三洲 ,中文字幕一区二区在线播放 ,久久久亚洲中文字幕,亚洲精品乱码久久久97

品牌知名度調(diào)研問(wèn)卷>>

搜索引擎的基本結(jié)構(gòu) 搜索引擎的主要模塊及功能

摘要:搜索引擎是將與用戶檢索內(nèi)容相關(guān)的信息展示給用戶的系統(tǒng),是一項(xiàng)檢索服務(wù),是根據(jù)一定的策略,用特定的計(jì)算機(jī)程序,從網(wǎng)上搜集、整理信息并呈現(xiàn)給用戶。搜索引擎技術(shù)的核心模塊一般包括爬蟲(chóng)、索引、檢索和排序等,同時(shí)可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。下面來(lái)了解下搜索引擎的基本結(jié)構(gòu)及模塊功能。

一、搜索引擎的基本結(jié)構(gòu)

搜索引擎基本結(jié)構(gòu)一般包括:搜索器、索引器、檢索器、用戶接口等四個(gè)功能模塊。

1、搜索器

搜索器也叫網(wǎng)絡(luò)蜘蛛,是搜索引擎用來(lái)爬行和抓取網(wǎng)頁(yè)的一個(gè)自動(dòng)程序,在系統(tǒng)后臺(tái)不停歇地在互聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)爬行,在爬行過(guò)程中盡可能快的發(fā)現(xiàn)和抓取網(wǎng)頁(yè)。

2、索引器

它的主要功能是理解搜索器所采集的網(wǎng)頁(yè)信息,并從中抽取索引項(xiàng)。

3、檢索器

其功能是快速查找文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)要輸出的結(jié)果進(jìn)行排序。

4、用戶接口

它為用戶提供可視化的查詢輸入和結(jié)果輸出的界面。

二、搜索引擎的主要模塊及功能

1、爬蟲(chóng):從互聯(lián)網(wǎng)爬取原始網(wǎng)頁(yè)數(shù)據(jù),存儲(chǔ)于文檔知識(shí)庫(kù)服務(wù)器。

2、文檔知識(shí)庫(kù)服務(wù)器:存儲(chǔ)原始網(wǎng)頁(yè)數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫(kù),能根據(jù)URL/UID快速獲取網(wǎng)頁(yè)內(nèi)容。

3、索引:讀取原始網(wǎng)頁(yè)數(shù)據(jù),解析網(wǎng)頁(yè),抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。

4、索引服務(wù)器:存儲(chǔ)索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲(chǔ),并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí),還根據(jù)類別、主題、時(shí)間、網(wǎng)頁(yè)質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布,更好地服務(wù)在線查詢。

5、檢索:讀取倒排表索引,響應(yīng)前端查詢請(qǐng)求,返回相關(guān)文檔列表數(shù)據(jù)。

6、排序:對(duì)檢索器返回的文檔列表進(jìn)行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。

7、鏈接分析:收集各網(wǎng)頁(yè)的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計(jì)算各網(wǎng)頁(yè)鏈接評(píng)分,最終會(huì)作為網(wǎng)頁(yè)屬性參與返回結(jié)果排序。

8、網(wǎng)頁(yè)去重:提取各網(wǎng)頁(yè)的相關(guān)特征屬性,計(jì)算相似網(wǎng)頁(yè)組,提供離線索引和在線查詢的去重服務(wù)。

9、網(wǎng)頁(yè)反垃圾:收集各網(wǎng)頁(yè)和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁(yè)特征,從而對(duì)在線索引中的網(wǎng)頁(yè)進(jìn)行判定,去除垃圾網(wǎng)頁(yè)。

10、查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請(qǐng)求,指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。

11、頁(yè)面描述/摘要:為檢索和排序完成的網(wǎng)頁(yè)列表提供相應(yīng)的描述和摘要。

12、前端:接受用戶請(qǐng)求,分發(fā)至相應(yīng)服務(wù)器,返回查詢結(jié)果。

網(wǎng)站提醒和聲明
本網(wǎng)站為注冊(cè)用戶提供信息存儲(chǔ)空間服務(wù)。除Maigoo網(wǎng)官方發(fā)布內(nèi)容外,用戶自主上傳的文章、文字、圖片等均不代表本站立場(chǎng),本站亦不主動(dòng)修改編輯,不對(duì)其真實(shí)性、合法性、準(zhǔn)確性負(fù)責(zé)。如涉侵權(quán)、違法虛假等問(wèn)題,權(quán)利人可通過(guò)平臺(tái)投訴并提交相關(guān)證明,平臺(tái)將依法履行通知和刪除義務(wù)。 申請(qǐng)刪除>> 糾錯(cuò)>> 投訴侵權(quán)>> 平臺(tái)自有內(nèi)容(文字、圖片、界面、榜單、商標(biāo)、LOGO 等)知識(shí)產(chǎn)權(quán)歸本站所有,未經(jīng)書(shū)面許可,禁止復(fù)制、轉(zhuǎn)載、商用。
提交說(shuō)明: 快速提交發(fā)布>> 查看提交幫助>> 注冊(cè)登錄>>
最新評(píng)論
相關(guān)推薦
谷歌瀏覽器怎么截圖 谷歌瀏覽器怎么設(shè)置主頁(yè)
谷歌瀏覽器是一款簡(jiǎn)單快捷,非常方便的瀏覽器,也是我們常用的瀏覽器之一。我們?cè)谑褂霉雀铻g覽器的過(guò)程中,可能會(huì)遇到一些問(wèn)題,比如想要截圖,或者設(shè)置主頁(yè),那么下面就為大家介紹谷歌瀏覽器怎么截圖,谷歌瀏覽器怎么設(shè)置主頁(yè)。
SEO站內(nèi)運(yùn)營(yíng)優(yōu)化技巧 搜索引擎優(yōu)化技巧
SEO是一種利用搜索引擎的規(guī)則提高網(wǎng)站在有關(guān)搜索引擎內(nèi)的自然排名的方式。站內(nèi)優(yōu)化顧名思義就是指網(wǎng)站內(nèi)部?jī)?yōu)化,即網(wǎng)站本身內(nèi)部的優(yōu)化,SEO站內(nèi)優(yōu)化包括代碼標(biāo)簽優(yōu)化、內(nèi)容優(yōu)化和URL優(yōu)化。那么SEO站內(nèi)運(yùn)營(yíng)優(yōu)化有哪些技巧呢?下面就來(lái)一起了解一下。
SEO 搜索引擎
330 35
網(wǎng)站搜索記錄怎么消除 如何恢復(fù)刪掉的瀏覽器記錄
現(xiàn)在人人都有手機(jī)電腦,上網(wǎng)的頻率也越來(lái)越高,無(wú)論是工作還是生活我們都會(huì)在搜索網(wǎng)站上瀏覽一些網(wǎng)頁(yè)。很多人為了安全,會(huì)把瀏覽過(guò)的網(wǎng)頁(yè)信息刪除,不過(guò)也有一些人誤刪了重要網(wǎng)頁(yè)希望恢復(fù),那么網(wǎng)站搜索記錄怎么消除?如何恢復(fù)刪掉的瀏覽器記錄?下面來(lái)了解下。
頭條極速版賺錢是真的嗎 今日頭條極速版賺錢方法是什么
頭條極速版賺錢是真的嗎?今日頭條極速版是今日頭條的輕量級(jí)版本,這款應(yīng)用通過(guò)讓用戶閱讀新聞、觀看視頻、完成任務(wù)等方式賺取金幣,然后可以將金幣兌換成現(xiàn)金。下文為大家詳細(xì)介紹了今日頭條極速版賺錢方法等內(nèi)容,趕緊來(lái)了解下吧。
什么是搜索引擎 搜索引擎的工作原理
在互聯(lián)網(wǎng)時(shí)代,我們應(yīng)該都用過(guò)搜索引擎查詢過(guò)一些信息。說(shuō)到搜索引擎,我們腦海里想到的無(wú)非就是百度、谷歌、搜狗等等。搜索引擎這個(gè)名字也許我們并不陌生,但至于什么是搜索引擎也許大家并不怎么了解。下面小編就來(lái)介紹搜索引擎的含義及搜索引擎的工作原理。
頁(yè)面相關(guān)分類
生活知識(shí)百科分類
知識(shí)體系榜
精華推薦