有數(shù)以萬億計的網(wǎng)頁被搜索引擎索引,用戶搜索的關(guān)鍵詞也非常龐大。如果每個用戶提交一個搜索請求,搜索引擎將以萬億個索引重新排列頁面,效率將非常低。根據(jù)2-8規(guī)則,80%的查詢集中在相同的20%的內(nèi)容上,實際的搜索引擎將關(guān)鍵字檢索結(jié)果存儲在緩存數(shù)據(jù)庫中。一旦其他用戶請求相同的查詢,他們就可以直接快速地返回結(jié)果。當然,為了保證數(shù)據(jù)的及時有效,cache數(shù)據(jù)庫中會有小的更新,而且大多數(shù)cache+小的更新機制都非常大,可以節(jié)省服務(wù)器資源,提高響應(yīng)速度。
下面詳細介紹了搜索引擎搜索頁面的自然排序,這也是歷史緩存庫的基礎(chǔ)和更新緩存的類似邏輯過程。決定網(wǎng)頁自然排名的因素主要有:關(guān)鍵詞相關(guān)性、鏈接相關(guān)性、網(wǎng)站權(quán)重、用戶體驗和檢測。
首先是網(wǎng)站主題的相關(guān)性匹配。比如某IT技術(shù)網(wǎng)站突然發(fā)豬飼料文章,對目標用戶體驗不好。第二,網(wǎng)頁相關(guān)性。網(wǎng)頁檢索是基于關(guān)鍵字匹配的。關(guān)鍵詞的特征代表了網(wǎng)頁描述的主題和內(nèi)容。主要特點如下。
(1) 頁面標題、關(guān)鍵字、說明頁面級功能。
(2) 關(guān)鍵詞密度強調(diào)內(nèi)容,一般2%-8%是合理的。
(3) 關(guān)鍵字出現(xiàn)的位置。關(guān)鍵詞應(yīng)該出現(xiàn)在文章的開頭。
Link是爬蟲捕獲網(wǎng)頁的鏈接,其重要性不言而喻。它是類似內(nèi)容的鏈接傳輸,非常有利于用戶體驗。搜索引擎采用鏈路信任傳輸機制,傳輸權(quán)重是排名的重要因素,因此站外鏈路的建設(shè)和站內(nèi)鏈路的建設(shè)具有很大的價值。
搜索引擎的根本目的是為用戶提供良好的體驗,主要包括:
(1) 畫面簡單,廣告干擾小。搜索引擎可以通過頁面結(jié)構(gòu)進行判斷。
(2) 響應(yīng)速度太慢,響應(yīng)速度太慢,不利于用戶體驗和爬蟲分析。
(3) 用戶點擊率、跳出率、訪問深度、停留時間等越來越受到重視,因為搜索引擎的目標是為客戶提供有價值的內(nèi)容,甚至是解決用戶的需求,而這些相關(guān)信息可以作為評價的重要依據(jù)。
權(quán)重是搜索引擎對每個網(wǎng)站的綜合評價,作為網(wǎng)站狀態(tài)的主要標志。權(quán)重高的網(wǎng)站在搜索引擎中排名。政府網(wǎng)站、有名行業(yè)站、新聞源站,甚至大品牌認證的官方網(wǎng)站都有選擇權(quán)和排名權(quán)。因此,會有個別小站發(fā)布的高原創(chuàng)作內(nèi)容,由有名大站轉(zhuǎn)發(fā),但他們認為大站是原創(chuàng)的。
新聞源是指符合搜索引擎新聞采集標準的新聞源,站內(nèi)信息優(yōu)先由搜索引擎采集,由網(wǎng)絡(luò)媒體轉(zhuǎn)載,作為網(wǎng)絡(luò)新聞的源媒體。新聞源具有“種子源”、收集快、轉(zhuǎn)載廣、具有一定的公信力和有名性等特點。
有了索引引擎,就有了吸引流量的優(yōu)化,有了優(yōu)化,這是一場永無止境的斗爭。搜索引擎需要防止大量垃圾信息干擾用戶,搜索結(jié)果應(yīng)盡量防止非法信息公開。發(fā)現(xiàn)有欺騙、違法行為的,給予相應(yīng)的處罰。