喜歡SEO優(yōu)化的朋友可以關(guān)注一下小哦,或者有興趣建立一個網(wǎng)站的朋友。稍后,我會逐一告訴大家網(wǎng)站結(jié)構(gòu)和關(guān)鍵詞布局,TDK寫作,Dede后臺操作。請耐心地看一看。回到今天的主題,我將向您介紹搜索引擎抓取規(guī)則。我相信在你理解了原著之后,你會對TDK的布局和內(nèi)容寫作有所幫助。
小知識:蜘蛛抓取網(wǎng)站后,下一步就是對網(wǎng)站內(nèi)容進行處理。中間部分的計算稱為索引,后通過算法排序。
一個抽取文本-B中文分詞-C刪除停止詞-D刪除噪聲-e刪除重復(fù)內(nèi)容-f向前索引-G向后索引-H鏈接關(guān)系計算
提取文本:當(dāng)前搜索基于文本內(nèi)容。蜘蛛會抓取HTML文件的代碼,并刪除代碼中的標(biāo)記和程序,只留下文本內(nèi)容進行排名處理。
中文分詞:這里有一個簡單的介紹。分詞有兩種方法:1。基于字典匹配2。據(jù)統(tǒng)計,感興趣的朋友可以進一步了解百度。
刪除停止詞:簡而言之,刪除語氣詞,如:De,De,Mo,ah,ha,ah,詞內(nèi)。
消除噪音:此步驟只需刪除網(wǎng)站中沒有貢獻的內(nèi)容,如:版權(quán)公告文本、導(dǎo)航欄、廣告等,因為這些內(nèi)容只會在網(wǎng)站的主題中起分散作用。
刪除重復(fù)內(nèi)容:同一篇文章可能經(jīng)常出現(xiàn)在不同的網(wǎng)站上,而搜索引擎不喜歡這些內(nèi)容,所以這個過程稱為重復(fù)數(shù)據(jù)消除。當(dāng)很多人不了解搜索引擎的規(guī)則時,就不可能簡單地添加或減少一些單詞并發(fā)布內(nèi)容。
F正指數(shù):經(jīng)過文本提取、分詞、消噪和重復(fù)數(shù)據(jù)消除,我們可以得到反映網(wǎng)站內(nèi)容的單詞——單詞中的內(nèi)容。然后搜索引擎程序可以提取關(guān)鍵詞,根據(jù)分詞程序劃分的關(guān)鍵詞,將頁面變成一組關(guān)鍵詞,并在界面上記錄每個關(guān)鍵詞的數(shù)量和格式。
G倒排索引:例如,如果我們搜索關(guān)鍵字“1”,那么我們需要從索引數(shù)據(jù)庫中的文件中找到包含關(guān)鍵字“2”的文件,然后計算排名,因為這種計算不能滿足排名結(jié)果的實時返回,因此我們需要將正索引放入數(shù)據(jù)庫的數(shù)據(jù)列表索引中,重構(gòu)倒排索引,并將文件轉(zhuǎn)換為關(guān)鍵字模式-關(guān)鍵字到文件模式。
H-link關(guān)系計算:除了引起HTML捕獲的文件外,搜索還可以捕獲和索引各種基于文本的文件,如PDF、word、WPS、xls、TXT等,但就目前的技術(shù)而言,它無法捕獲圖像、視頻、flash等飛行文本內(nèi)容或腳本執(zhí)行文件。