以上“搜索引擎優(yōu)化原理網頁蜘蛛”詳細介紹了蜘蛛的分類、抓取條目、抓取策略和更新策略。搜索引擎把頁面抓回,下一步是對頁面內容進行分析,主要包括確定頁面類型、提取頁面主題、去除頁面噪聲、去除停止詞、中文分詞、注冊統(tǒng)計、重新建立關鍵詞索引庫。
判斷頁面是普通頁面還是PDF、WPS、PPT、TXT等特殊頁面;區(qū)分文本、圖片、視頻等內容形式,識別頁面網站論壇、商場、視頻站、文本站等。
目前,搜索引擎基本不識別JS、AJAX、flash、圖像、視頻、幀和iframe框架結構的內容,主要是通過文本關鍵字抓取文本處理和搜索信息。提取網頁級的特征內容,如標題、關鍵字、主題等。這些特征在網頁內容相關性中占很高的比例。在正常情況下,它還指示網頁的主題。
剔除無關廣告、登錄框、版權公告等雜音內容,提取主題內容。這一部分不是很嚴謹,而且各個搜索引擎的處理也不一樣。一般推薦內容、錨文本、導航等還是很有價值的。
分詞是中文搜索引擎中一個獨到的步驟。搜索引擎需要識別哪些詞可以組合成詞。每個搜索引擎都有自己龐大的詞庫。根據詞庫匹配,對網頁內容進行分段,如“旅游景點推薦”可分為“旅游/景區(qū)/推薦”或“旅游景點/景區(qū)推薦”等結果。漢語分詞主要有兩種方法:基于詞典的匹配和基于統(tǒng)計的分詞。他們各有利弊。在實際應用中,他們混合使用了這種方法,不僅快速有效,而且可以識別新詞,消除歧義。
百度搜索引擎可以使用快照頁面查看輸入文本分為哪些關鍵字,如下所示
分詞的目的是理解網頁的內容。停止詞如“de”、“de”、“ah”和“Ba”將首先刪除,使頁面文本的主題內容更加突出。當然,虛詞也不是的,比如以“啊”為主題介紹單詞的發(fā)音、意義、用法等新華字典頁面,“啊”是主題關鍵詞。關鍵詞排名優(yōu)化是不斷跟蹤和分析搜索引擎條目和歷史數據。
分詞后,搜索引擎會統(tǒng)計每個單詞出現在頁面上的次數并計算密度,這樣搜索引擎就能識別出頁面內容的相關性。建議關鍵詞布局密度在2%-8%之間,過低容易被認定為相關性低的主題內容,過高則可能被認定為關鍵詞堆積,容易受到處罰。
內容相關性:除了網頁標題、關鍵字、deion和單詞密度外,H標記(H1標記也很重,一般用于文章標題,H2、H3標記也稍有效果,一般用于分段主題,H4之后就不起作用了),而用粗體標簽標注的內容顯然會比其他普通內容受到更多關注。此外,核心關鍵字出現在頁面的前面比后面好。錨文本鏈接相關性作為重要數據進行收集和分析。
搜索引擎喜歡原創(chuàng)內容,不喜歡很多重復的內容頁面。完成上述步驟后,他們可以識別頁面的內容功能并重新重復內容頁面。
經過上述處理,記錄了頁面關鍵字集,記錄了詞頻、位置、格式(H標簽、粗體、錨文本)等權重因子。搜索引擎創(chuàng)建頁面和關鍵字表的索引結構。該指標有兩種結構:正向指標結構和反向指標結構。在前向索引結構中,每個文件對應一個文件ID,文件的內容表示為一組關鍵字。
搜索引擎的用戶按關鍵字進行搜索,正索引不利于查詢效率,搜索引擎會把正索引變成倒索引。倒排索引結構是關鍵字到文件集的映射。用戶將僅檢索索引頁。
包含:只要能被搜索引擎蜘蛛抓取,經過分析,有價值的頁面就會被包含進去。
索引:搜索引擎已經包含了頁面,并且認為用戶有意義的會議內容,可能會創(chuàng)建索引,可能會有流量。網站排名優(yōu)化是基于網頁已被索引。
仙女工作室提醒大家,只要網站結構清晰,內容有價值,并且網站定期更新,那么站長平臺提交鏈接和外發(fā)鏈接,以提高搜索引擎對網站的收藏量和索引量,在2-7天內對主頁進行SEO優(yōu)化是非常有可能的。
百度蜘蛛抓取多少頁面并不是重要的,重要的是建立了多少頁面的索引庫。搜索引擎的索引數據庫是分層的。高質量的網頁將被分配到重要的索引數據庫中,普通網頁將保留在普通數據庫中,較差的網頁將被分配到低級數據庫中作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這也是一些網站的館藏量過高,但流量不理想的原因。
進入高質量索引庫的前提是對用戶的價值。包括但不限于:
事實上,互聯網上的大多數網站根本不被百度收錄。并不是百度沒有找到他們,而是在建立數據庫之前的篩選過程被過濾掉了。