一個合格的SEO工程師一定會理解搜索引擎的工作原理。百度和谷歌的原理基本相同,但有些細節(jié)不同,比如分詞技術(shù)。因為國內(nèi)搜索一般都是百度,所以我們未來的課程都會針對百度,當然,基礎課只適用于谷歌!
搜索引擎的工作原理其實很簡單。首先,搜索引擎大致分為四個部分。_部分是蜘蛛爬蟲,第二部分是數(shù)據(jù)分析系統(tǒng),第三部分是索引系統(tǒng),第四部分是查詢系統(tǒng)。當然,這只是基本的四個部分!
讓我們來談談搜索引擎的工作流程
搜索引擎蜘蛛程序,其實是一個自動應用的搜索引擎,它的作用是什么?其實很簡單,就是在網(wǎng)上瀏覽信息,然后把這些信息抓到搜索引擎服務器上,然后建立索引數(shù)據(jù)庫。我們可以把搜索引擎蜘蛛作為用戶,然后這個用戶會訪問我們的網(wǎng)站,然后把我們網(wǎng)站的內(nèi)容保存到自己的電腦上!這很容易理解。
查找鏈接→下載此網(wǎng)頁→添加到臨時庫→提取網(wǎng)頁中的鏈接→下載網(wǎng)頁→循環(huán)
首先,搜索引擎的蜘蛛需要找到鏈接,至于如何找到它很簡單,就是通過鏈接鏈接。當搜索引擎蜘蛛找到鏈接時,它將下載頁面并將其存儲在臨時庫中。當然,它會提取這個頁面上的所有鏈接,然后循環(huán)。
搜索引擎蜘蛛幾乎24小時沒有休息(這里為它感到悲劇性,沒有假期。哈哈)那么蜘蛛下載回來的網(wǎng)頁呢?這需要轉(zhuǎn)到第二個系統(tǒng),即搜索引擎分析系統(tǒng)。
這個問題問得好,那么搜索引擎蜘蛛爬行網(wǎng)頁到底有沒有規(guī)則?答案是肯定的!
如果蜘蛛隨機地去抓取網(wǎng)頁,那就很難了,網(wǎng)頁在網(wǎng)上,每天都有這么多,蜘蛛怎么能搶過來呢?所以,蜘蛛爬網(wǎng)頁也有規(guī)則!
策略1:深度優(yōu)先
什么是深度優(yōu)先?簡而言之,搜索引擎蜘蛛在一個頁面上找到一個連接,然后沿著鏈接向下爬行,然后在下一個頁面上找到另一個連接,然后向下爬行并獲取所有連接。這是深度優(yōu)先的爬行策略??聪旅娴膱D片
上圖為深度優(yōu)先示意圖。如果a網(wǎng)頁在搜索引擎中擁有***的權(quán)限,如果D網(wǎng)頁的權(quán)限_,如果搜索引擎蜘蛛按照深度優(yōu)先的策略抓取網(wǎng)頁,那么它就會反轉(zhuǎn),即D網(wǎng)頁的權(quán)限變?yōu)?,這就是深度優(yōu)先!
策略2:寬度優(yōu)先
寬度優(yōu)先更容易理解,也就是說,搜索引擎蜘蛛先抓取整個頁面上的所有鏈接一次,然后再抓取下一頁的所有鏈接。
上圖是寬度優(yōu)先的示意圖!這實際上就是我們通常所說的扁平結(jié)構(gòu)。你可能會在一個神秘的角落里看到一篇文章,警告你網(wǎng)頁的層次不要太高,如果太多會導致收藏困難。這是用寬度優(yōu)先策略來對付搜索引擎蜘蛛,這其實也是原因所在。
策略三:權(quán)重優(yōu)先
如果我們說寬度優(yōu)先比深度優(yōu)先,那不是***的。我們只能說,每一個都有自己的優(yōu)勢?,F(xiàn)在搜索引擎蜘蛛一般會同時使用兩種爬行策略,即深度優(yōu)先+寬度優(yōu)先。在使用這兩種策略進行抓取時,我們應該參考這種聯(lián)系的權(quán)重。如果這個連接的權(quán)重好,那么我們應該先采用深度,如果這個連接的權(quán)重很低,那么就先使用寬度!
那么搜索引擎蜘蛛如何知道這個連接的權(quán)重呢?
有兩個因素:1?;蚨嗷蛏俚膶哟?;2。該連接的外鏈的數(shù)量和質(zhì)量;
所以,如果層次結(jié)構(gòu)中有太多的鏈接,它們會不會被抓取?這并不是***的,在這里我們要考慮很多因素,我們在***階段會淪為邏輯策略,然后我會詳細告訴你!
蜘蛛爬行網(wǎng)頁策略4:重新訪問和爬行
我認為這更容易理解。比如昨天的搜索引擎蜘蛛抓取了我們的網(wǎng)頁,今天我們給這個頁面增加了新的內(nèi)容,那么搜索引擎蜘蛛今天會抓到新的內(nèi)容,這就是重新訪問和爬行!再訪還有兩種抓取方法,如下所示:
所謂全回訪是指蜘蛛一次爬網(wǎng)鏈接,然后在本月的某一天,全部回訪并抓取一次!一次訪問通常是針對更新速度更快、更穩(wěn)定的頁面。如果我們有一個頁面,它不會每月更新一次。