搜索引擎的工作過程非常復(fù)雜,大致可以分為三個(gè)階段
一、網(wǎng)頁收集:搜索引擎蜘蛛通過鏈接進(jìn)行爬行和實(shí)時(shí)搜索,并將捕獲的網(wǎng)頁存儲(chǔ)在原始數(shù)據(jù)庫中
二、預(yù)處理:搜索引擎蜘蛛捕捉到的頁面不能被用戶直接查詢和排序,因此需要進(jìn)行預(yù)處理
三、檢索服務(wù):用戶輸入查詢項(xiàng)后,排名程序調(diào)用索引數(shù)據(jù)中的數(shù)據(jù),按排序順序向用戶顯示與用戶搜索項(xiàng)相關(guān)的頁面
搜索引擎通過蜘蛛程序抓取和收集網(wǎng)頁。網(wǎng)頁收集是搜索引擎工作的步。了解由手引起的網(wǎng)頁抓取機(jī)制,便于蜘蛛抓取更多的網(wǎng)頁,使網(wǎng)站有更好的排名
蜘蛛:網(wǎng)絡(luò)爬蟲,也稱為網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機(jī)器人,是根據(jù)一定規(guī)則自動(dòng)抓取網(wǎng)頁的程序和腳本
蜘蛛的工作原理:對(duì)于Internet中的網(wǎng)站,如果沒有鏈接的篩選設(shè)置,蜘蛛可以通過鏈接在網(wǎng)站或網(wǎng)站之間爬行。由于網(wǎng)絡(luò)中網(wǎng)頁的鏈接結(jié)構(gòu)異常,蜘蛛需要采取一定的爬行策略來爬行更多的網(wǎng)頁
有兩種簡(jiǎn)單的爬行策略:深度優(yōu)先和廣度優(yōu)先。
深度優(yōu)先:蜘蛛從起始頁開始,一個(gè)接一個(gè)地跟蹤和吸收鏈接,從這一行出來后,再到下一個(gè)起始頁跟蹤鏈接。
如圖1所示:
在深度優(yōu)先模式下,爬行器從第f頁爬行到第A1、A2和A3頁。爬網(wǎng)到第A3頁后,沒有其他要爬網(wǎng)的鏈接。它將返回到F頁,并沿著頁面上的另一個(gè)鏈接爬行到B1、B2和B3頁。在“深度優(yōu)先”策略中,蜘蛛爬行,直到它不能再向前移動(dòng),然后返回另一條路徑。
廣度優(yōu)先:這意味著蜘蛛將抓取起始網(wǎng)頁鏈接中的所有鏈接,然后選擇其中一個(gè)鏈接頁面,并繼續(xù)抓取此頁面中的所有頁面。這是一種常見的方法,因?yàn)檫@種方法可以讓蜘蛛網(wǎng)并行處理,提高其抓取速度。
如圖2所示:
這是一個(gè)有限范圍的模型圖。蜘蛛沿著鏈接從f頁爬行到A1、B1和C1頁,直到f頁上的所有鏈接都已爬行,然后從f頁上找到的下一個(gè)鏈接A1爬行到A2、A3和A4頁。
深度優(yōu)先和官渡優(yōu)先通常是混合使用的。這樣,你不僅可以照顧盡可能多的網(wǎng)站,還可以照顧一些網(wǎng)站的內(nèi)部頁面。勇士還將考慮頁面權(quán)重、網(wǎng)站規(guī)模、外鏈、更新等因素。此外,為了提高爬行和抓取的速度,搜索引擎使用多個(gè)蜘蛛同時(shí)爬行。根據(jù)這一原則,為了使網(wǎng)站中的所有頁面按順序爬行,必須合理設(shè)置網(wǎng)站中的鏈接(內(nèi)鏈的結(jié)構(gòu)和布局)。