搜索引擎基本上是我們要打開的個瀏覽器網(wǎng)站。如果沒有人,不要問我為什么,因為那就是我。隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的內(nèi)容在互聯(lián)網(wǎng)上產(chǎn)生,但我們?nèi)绾尾拍茌p松地看到它呢?這直接導致了搜索引擎的誕生,我們做SEO網(wǎng)絡推廣,首先需要了解它的工作原理,然后才能有針對性地去做的,終實現(xiàn)網(wǎng)站排名的推廣。那么它是如何工作的呢?
這就是扎克的書中所說的:爬行和抓取,預處理,排名。
爬行和爬行:搜索引擎蜘蛛通過跟蹤鏈接對網(wǎng)頁進行爬行,以獲取網(wǎng)頁的HTML代碼并將其存儲在數(shù)據(jù)庫中。這里的蜘蛛指的是搜索引擎用來抓取訪問頁面的程序。瀏覽網(wǎng)頁后,本程序?qū)g覽記錄作為原始數(shù)據(jù)保存到數(shù)據(jù)庫中。一般來說,當蜘蛛訪問時,它們會首先訪問網(wǎng)站根目錄中的robots協(xié)議文件,以了解哪些網(wǎng)站不能被爬網(wǎng),哪些網(wǎng)站可以被爬網(wǎng)。
然后為了抓取更多的內(nèi)容,蜘蛛通常會跟隨網(wǎng)站上的鏈接,先根據(jù)深度和廣度抓取網(wǎng)站目錄,然后抓取數(shù)據(jù)庫。
說完蜘蛛的話,問題來了,怎么領導蜘蛛?我們常用的方法是到搜索引擎的網(wǎng)站提交門戶網(wǎng)站提交自己的網(wǎng)站,這樣新網(wǎng)站就可以讓蜘蛛快速訪問并抓取記錄的數(shù)據(jù)到數(shù)據(jù)庫進行備份。
預處理:這一步是蜘蛛抓取數(shù)據(jù)后在數(shù)據(jù)庫中的排列?首先提取文本,然后分割單詞,清除停止詞,去除重復,后根據(jù)正向索引和反向索引實現(xiàn)我們看到的排名。
排名的計算方法是:處理搜索詞、數(shù)據(jù)庫匹配、初始數(shù)據(jù)選擇、相關性計算、過濾并調(diào)整到終排名。
至此,整套工作基本結(jié)束。我們看得很簡單。事實上,真相并不是我們所看到的。我們看到的只是外觀,因為我們不知道技術,但我們必須了解蜘蛛的抓取排名原理,這樣我們才能在未來的優(yōu)化中得心應手。