被老板抱进办公室揉我胸|娇妻互换被高潮了三次|女人被添全过程A片添|巜被褥里的人妻HD中字|娇妻4P被八个男人伺候电影|被迫躺在调教椅上扩张在线视频

你知道搜索引擎是怎么工作的嗎?SEO需要看嗎

文章來(lái)源:優(yōu)幫云SEO 2021-07-28

從事SEO(SEO)工作的人可以比作搜索引擎的私人管家。作為一個(gè)合格的稱(chēng)職的管家,我們必須了解我們所服務(wù)的人的習(xí)慣、愛(ài)好和健康。

SEO服務(wù)的對(duì)象是搜索引擎。我們必須牢記它的操作規(guī)則、工作原則、習(xí)慣、優(yōu)點(diǎn)和缺點(diǎn)。多練習(xí),我們練習(xí)的越多,我們的經(jīng)驗(yàn)就越多。

搜索引擎是人創(chuàng)造的,所以是合理的。搜索引擎的工作過(guò)程包括三個(gè)部分:爬行、預(yù)處理和服務(wù)輸出。

1、 爬行抓斗:

爬行是搜索引擎蜘蛛從要抓取的地址庫(kù)中提取要抓取的URL,訪問(wèn)URL,并將讀取的HTML代碼存儲(chǔ)到數(shù)據(jù)庫(kù)中。Spider的抓取是像瀏覽器一樣打開(kāi)這個(gè)頁(yè)面,用戶的瀏覽器訪問(wèn)權(quán)限也會(huì)在服務(wù)器的原始日志中留下記錄。

爬行抓取是搜索引擎工作中的一個(gè)重要步驟,抓取所有需要抓取的地方進(jìn)行處理和分析,所以如果你在這部分抓取中犯了錯(cuò)誤,你以后就會(huì)完全癱瘓。

搜索引擎已經(jīng)預(yù)先處理了抓取的網(wǎng)頁(yè)。征集工作也要按照一定的規(guī)則進(jìn)行,基本上有以下兩個(gè)特點(diǎn):1。批量收集:收集互聯(lián)網(wǎng)上所有帶有鏈接的網(wǎng)頁(yè),大約需要幾個(gè)星期。缺點(diǎn)是增加了額外的帶寬消耗,及時(shí)性不高。2增量采集:是批量采集的技術(shù)升級(jí),***彌補(bǔ)了批量采集的不足。在原來(lái)的基礎(chǔ)上收集新的網(wǎng)頁(yè),更改自上次收集以來(lái)已更改的網(wǎng)頁(yè),并刪除重復(fù)和不存在的網(wǎng)頁(yè)。

2、 預(yù)處理:

搜索引擎蜘蛛抓取的原始頁(yè)面不能直接用于查詢(xún)排名。用戶輸入關(guān)鍵字后,也不可能直接返回排名結(jié)果。因此,必須對(duì)爬網(wǎng)的頁(yè)面進(jìn)行預(yù)處理,為最終的查詢(xún)排序做準(zhǔn)備。

當(dāng)搜索引擎獲取頁(yè)面的HTML代碼時(shí),它首先要做的是從HTML文件中刪除標(biāo)記和程序,并提取可用于排名處理的頁(yè)面文本內(nèi)容。

分詞是中文搜索引擎的一個(gè)獨(dú)特步驟。英語(yǔ)句子中單詞之間有空格。搜索引擎可以直接將句子分成一組單詞,而中文則不行。搜索引擎需要識(shí)別哪些詞將形成一個(gè)詞,哪些詞本身就是一個(gè)詞。例如,“空氣開(kāi)關(guān)”將分為“開(kāi)關(guān)”和“空氣”。

漢語(yǔ)分詞方法基本上有兩種:基于詞典匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法。

基于詞典的匹配方法是將一段待分析的漢字與預(yù)先建立的詞典中的一個(gè)詞條進(jìn)行匹配,從待分析的漢字串中掃描詞典中已有的詞條,然后匹配成功,或者分詞。根據(jù)掃描方向的不同,基于詞典的匹配方法可分為正向匹配和反向匹配。根據(jù)匹配長(zhǎng)度的優(yōu)先級(jí),可分為***匹配和最小匹配。當(dāng)掃描方向和掃描長(zhǎng)度混合時(shí),可以產(chǎn)生不同的方法,如正向***匹配和反向***匹配。詞典匹配方法計(jì)算簡(jiǎn)單,其準(zhǔn)確性在很大程度上取決于詞典的完整性和更新性。

基于統(tǒng)計(jì)的分詞方法是分析大量的文本詞,計(jì)算相鄰詞的統(tǒng)計(jì)頻率。相鄰詞出現(xiàn)得越多,就越有可能形成一個(gè)詞?;诮y(tǒng)計(jì)的方法的優(yōu)點(diǎn)是對(duì)生詞的反應(yīng)更快,消除了歧義。

基于詞典匹配和統(tǒng)計(jì)的分詞方法各有優(yōu)缺點(diǎn)。實(shí)際的分詞系統(tǒng)是這兩種方法的混合,具有快速、高效的特點(diǎn),能夠識(shí)別新詞和新詞,消除歧義。

無(wú)論在英語(yǔ)還是漢語(yǔ)中,都有一些頻繁出現(xiàn)但對(duì)內(nèi)容沒(méi)有影響的詞,如助詞如“得”、“地”、“啊”、“哈”,感嘆詞如“zhe”、“Yi”、“Que”,副詞或介詞。這樣的詞叫做停止詞。搜索引擎會(huì)在索引頁(yè)面前刪除這些停止詞,使索引數(shù)據(jù)主題更加突出,減少不必要的計(jì)算量。

大部分頁(yè)面仍然存在一些對(duì)頁(yè)面主題沒(méi)有貢獻(xiàn)的內(nèi)容,如版權(quán)聲明、導(dǎo)航欄、廣告等,這些塊屬于噪聲,只能在頁(yè)面主題中起到分散的作用。搜索引擎需要識(shí)別并消除這些噪聲,在排名時(shí)不要使用噪聲內(nèi)容。去噪的基本方法是根據(jù)HTML標(biāo)簽將頁(yè)面分塊,區(qū)分頁(yè)眉、導(dǎo)航、文本、頁(yè)腳、廣告等區(qū)域。網(wǎng)站上大量的重復(fù)塊往往屬于噪音。對(duì)頁(yè)面去噪后,剩下的就是頁(yè)面的主題內(nèi)容。

同一篇文章會(huì)被不同的網(wǎng)站使用,搜索引擎不喜歡這種重復(fù)的內(nèi)容。試想,如果用戶在前兩頁(yè)看到來(lái)自不同網(wǎng)站的同一篇文章,必然會(huì)導(dǎo)致用戶體驗(yàn)不佳。搜索引擎只想返回同一篇文章中的一篇,因此需要在索引之前識(shí)別并刪除重復(fù)的內(nèi)容。這個(gè)過(guò)程稱(chēng)為重復(fù)數(shù)據(jù)消除。

重復(fù)數(shù)據(jù)消除的基本方法是計(jì)算頁(yè)面特征關(guān)鍵字的指紋,即從頁(yè)面的主要內(nèi)容中選取***代表性的部分關(guān)鍵字(往往是最頻繁出現(xiàn)的關(guān)鍵字),然后計(jì)算這些關(guān)鍵字的數(shù)字指紋。這里的關(guān)鍵詞選擇是在分詞之后,停止去詞和去噪。一般情況下,選擇10個(gè)特征關(guān)鍵詞可以獲得較高的準(zhǔn)確率,而選擇更多的關(guān)鍵詞對(duì)準(zhǔn)確率的提高貢獻(xiàn)不大。

遠(yuǎn)期指數(shù)也可以簡(jiǎn)稱(chēng)為指數(shù)。在前五步之后,搜索引擎會(huì)得到一個(gè)獨(dú)特的字串,可以反映頁(yè)面的主要內(nèi)容。接下來(lái),搜索引擎可以提取關(guān)鍵詞,根據(jù)分詞程序進(jìn)行分詞,并將頁(yè)面轉(zhuǎn)化為一組關(guān)鍵詞。同時(shí),記錄頁(yè)面上每個(gè)關(guān)鍵詞的出現(xiàn)頻率、出現(xiàn)頻率、格式(如sub-ah title tag、bold、H tag、錨文本等)、位置等信息。這樣,每一頁(yè)都可以記錄為一組關(guān)鍵字,其中還記錄了每個(gè)關(guān)鍵字的詞頻、格式、位置等權(quán)重信息。

正向索引不能直接用于排名。假設(shè)用戶搜索關(guān)鍵字2(參見(jiàn)上圖)。如果只有一個(gè)正索引,排名程序需要掃描所有索引庫(kù)文件,找出包含關(guān)鍵字2的文件,然后計(jì)算相關(guān)性。這種計(jì)算量不能滿足實(shí)時(shí)回報(bào)排名結(jié)果的要求。

在對(duì)頁(yè)面內(nèi)容進(jìn)行爬網(wǎng)后,搜索引擎必須提前計(jì)算:頁(yè)面上的哪些鏈接指向哪些其他頁(yè)面,每個(gè)頁(yè)面上導(dǎo)入了哪些鏈接,鏈接使用的錨文本是什么,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。谷歌公關(guān)價(jià)值是這種鏈接關(guān)系的主要表現(xiàn)之一。其他搜索引擎也做類(lèi)似的計(jì)算,盡管他們不稱(chēng)之為PR值。

除了HTML文件外,搜索引擎通常還可以抓取和索引各種基于文本的文件類(lèi)型,例如PDF、word、WPS、xls、PPT、txt文件等。我們經(jīng)常在搜索結(jié)果中看到這些文件類(lèi)型。但是目前的搜索引擎不能處理圖片和視頻,只能處理flash、腳本和程序等非文本內(nèi)容。

在預(yù)處理階段,搜索引擎會(huì)對(duì)頁(yè)面內(nèi)容質(zhì)量、鏈接質(zhì)量等進(jìn)行判斷。近年來(lái),百度和谷歌推出的算法都是預(yù)先計(jì)算好的,然后再上網(wǎng),而不是實(shí)時(shí)計(jì)算。這里的質(zhì)量判斷包括很多因素,不局限于關(guān)鍵詞的提取和計(jì)算,也不局限于鏈接的數(shù)值計(jì)算。例如,頁(yè)面內(nèi)容的判斷可能包括用戶體驗(yàn)、頁(yè)面布局、廣告布局、語(yǔ)法、頁(yè)面打開(kāi)速度等,也可能涉及模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能等方法。

3、 服務(wù)輸出:

搜索引擎最終將跟蹤用戶的搜索輸出結(jié)果。這是我們看到的百度快照。在前面的搜索引擎綜合評(píng)價(jià)機(jī)制原理中,我們可以看到搜索引擎已經(jīng)做了初步的處理,然后根據(jù)用戶的實(shí)際搜索詞進(jìn)行具體的調(diào)整,然后輸出結(jié)果。

我們網(wǎng)站優(yōu)化的目的是提高關(guān)鍵字排名,那么如何才能快速提高關(guān)鍵字排名呢?現(xiàn)場(chǎng)SEO培訓(xùn)范靜認(rèn)為,可以在這部分內(nèi)容中找到一些答案。

搜索引擎還有另外一項(xiàng)工作,就是自身不斷的學(xué)習(xí)和改進(jìn),通過(guò)這種智能學(xué)習(xí),不斷完善規(guī)則,向搜索用戶展示更符合期望的搜索結(jié)果。

本文標(biāo)簽:seo引擎搜索
建水县| 汶川县| 东至县| 平和县| 和林格尔县| 黄浦区| 高雄市| 马山县| 海门市| 云南省| 玉山县| 高清| 偃师市| 维西| 临邑县| 永川市| 东丽区| 浮梁县| 黄龙县| 汕尾市| 洛隆县| 凤城市| 永城市| 喜德县| 称多县| 和平区| 阳高县| 兴安盟| 宁国市| 阜宁县| 麦盖提县| 宁武县| 南通市| 肃北| 同仁县| 临桂县| 平原县| 正蓝旗| 临桂县| 庆元县| 大同县|