被老板抱进办公室揉我胸|娇妻互换被高潮了三次|女人被添全过程A片添|巜被褥里的人妻HD中字|娇妻4P被八个男人伺候电影|被迫躺在调教椅上扩张在线视频

<dfn id="ul39z"></dfn>

<small id="ul39z"></small>

0571-88730320

當(dāng)前位置：首頁(yè)> SEO資訊> 營(yíng)銷(xiāo)推廣> 你知道搜索引擎是怎么工作的嗎？SEO需要看嗎

你知道搜索引擎是怎么工作的嗎？SEO需要看嗎

文章來(lái)源：優(yōu)幫云SEO 2021-07-28

從事SEO（SEO）工作的人可以比作搜索引擎的私人管家。作為一個(gè)合格的稱(chēng)職的管家，我們必須了解我們所服務(wù)的人的習(xí)慣、愛(ài)好和健康。

SEO服務(wù)的對(duì)象是搜索引擎。我們必須牢記它的操作規(guī)則、工作原則、習(xí)慣、優(yōu)點(diǎn)和缺點(diǎn)。多練習(xí)，我們練習(xí)的越多，我們的經(jīng)驗(yàn)就越多。

搜索引擎是人創(chuàng)造的，所以是合理的。搜索引擎的工作過(guò)程包括三個(gè)部分：爬行、預(yù)處理和服務(wù)輸出。

1、爬行抓斗：

爬行是搜索引擎蜘蛛從要抓取的地址庫(kù)中提取要抓取的URL，訪問(wèn)URL，并將讀取的HTML代碼存儲(chǔ)到數(shù)據(jù)庫(kù)中。Spider的抓取是像瀏覽器一樣打開(kāi)這個(gè)頁(yè)面，用戶的瀏覽器訪問(wèn)權(quán)限也會(huì)在服務(wù)器的原始日志中留下記錄。

爬行抓取是搜索引擎工作中的一個(gè)重要步驟，抓取所有需要抓取的地方進(jìn)行處理和分析，所以如果你在這部分抓取中犯了錯(cuò)誤，你以后就會(huì)完全癱瘓。

搜索引擎已經(jīng)預(yù)先處理了抓取的網(wǎng)頁(yè)。征集工作也要按照一定的規(guī)則進(jìn)行，基本上有以下兩個(gè)特點(diǎn)：1。批量收集：收集互聯(lián)網(wǎng)上所有帶有鏈接的網(wǎng)頁(yè)，大約需要幾個(gè)星期。缺點(diǎn)是增加了額外的帶寬消耗，及時(shí)性不高。2增量采集：是批量采集的技術(shù)升級(jí)，***彌補(bǔ)了批量采集的不足。在原來(lái)的基礎(chǔ)上收集新的網(wǎng)頁(yè)，更改自上次收集以來(lái)已更改的網(wǎng)頁(yè)，并刪除重復(fù)和不存在的網(wǎng)頁(yè)。

2、預(yù)處理：

搜索引擎蜘蛛抓取的原始頁(yè)面不能直接用于查詢(xún)排名。用戶輸入關(guān)鍵字后，也不可能直接返回排名結(jié)果。因此，必須對(duì)爬網(wǎng)的頁(yè)面進(jìn)行預(yù)處理，為最終的查詢(xún)排序做準(zhǔn)備。

當(dāng)搜索引擎獲取頁(yè)面的HTML代碼時(shí)，它首先要做的是從HTML文件中刪除標(biāo)記和程序，并提取可用于排名處理的頁(yè)面文本內(nèi)容。

分詞是中文搜索引擎的一個(gè)獨(dú)特步驟。英語(yǔ)句子中單詞之間有空格。搜索引擎可以直接將句子分成一組單詞，而中文則不行。搜索引擎需要識(shí)別哪些詞將形成一個(gè)詞，哪些詞本身就是一個(gè)詞。例如，“空氣開(kāi)關(guān)”將分為“開(kāi)關(guān)”和“空氣”。

漢語(yǔ)分詞方法基本上有兩種：基于詞典匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法。

基于詞典的匹配方法是將一段待分析的漢字與預(yù)先建立的詞典中的一個(gè)詞條進(jìn)行匹配，從待分析的漢字串中掃描詞典中已有的詞條，然后匹配成功，或者分詞。根據(jù)掃描方向的不同，基于詞典的匹配方法可分為正向匹配和反向匹配。根據(jù)匹配長(zhǎng)度的優(yōu)先級(jí)，可分為***匹配和最小匹配。當(dāng)掃描方向和掃描長(zhǎng)度混合時(shí)，可以產(chǎn)生不同的方法，如正向***匹配和反向***匹配。詞典匹配方法計(jì)算簡(jiǎn)單，其準(zhǔn)確性在很大程度上取決于詞典的完整性和更新性。

基于統(tǒng)計(jì)的分詞方法是分析大量的文本詞，計(jì)算相鄰詞的統(tǒng)計(jì)頻率。相鄰詞出現(xiàn)得越多，就越有可能形成一個(gè)詞?；诮y(tǒng)計(jì)的方法的優(yōu)點(diǎn)是對(duì)生詞的反應(yīng)更快，消除了歧義。

基于詞典匹配和統(tǒng)計(jì)的分詞方法各有優(yōu)缺點(diǎn)。實(shí)際的分詞系統(tǒng)是這兩種方法的混合，具有快速、高效的特點(diǎn)，能夠識(shí)別新詞和新詞，消除歧義。

無(wú)論在英語(yǔ)還是漢語(yǔ)中，都有一些頻繁出現(xiàn)但對(duì)內(nèi)容沒(méi)有影響的詞，如助詞如“得”、“地”、“啊”、“哈”，感嘆詞如“zhe”、“Yi”、“Que”，副詞或介詞。這樣的詞叫做停止詞。搜索引擎會(huì)在索引頁(yè)面前刪除這些停止詞，使索引數(shù)據(jù)主題更加突出，減少不必要的計(jì)算量。

大部分頁(yè)面仍然存在一些對(duì)頁(yè)面主題沒(méi)有貢獻(xiàn)的內(nèi)容，如版權(quán)聲明、導(dǎo)航欄、廣告等，這些塊屬于噪聲，只能在頁(yè)面主題中起到分散的作用。搜索引擎需要識(shí)別并消除這些噪聲，在排名時(shí)不要使用噪聲內(nèi)容。去噪的基本方法是根據(jù)HTML標(biāo)簽將頁(yè)面分塊，區(qū)分頁(yè)眉、導(dǎo)航、文本、頁(yè)腳、廣告等區(qū)域。網(wǎng)站上大量的重復(fù)塊往往屬于噪音。對(duì)頁(yè)面去噪后，剩下的就是頁(yè)面的主題內(nèi)容。

同一篇文章會(huì)被不同的網(wǎng)站使用，搜索引擎不喜歡這種重復(fù)的內(nèi)容。試想，如果用戶在前兩頁(yè)看到來(lái)自不同網(wǎng)站的同一篇文章，必然會(huì)導(dǎo)致用戶體驗(yàn)不佳。搜索引擎只想返回同一篇文章中的一篇，因此需要在索引之前識(shí)別并刪除重復(fù)的內(nèi)容。這個(gè)過(guò)程稱(chēng)為重復(fù)數(shù)據(jù)消除。

重復(fù)數(shù)據(jù)消除的基本方法是計(jì)算頁(yè)面特征關(guān)鍵字的指紋，即從頁(yè)面的主要內(nèi)容中選取***代表性的部分關(guān)鍵字（往往是最頻繁出現(xiàn)的關(guān)鍵字），然后計(jì)算這些關(guān)鍵字的數(shù)字指紋。這里的關(guān)鍵詞選擇是在分詞之后，停止去詞和去噪。一般情況下，選擇10個(gè)特征關(guān)鍵詞可以獲得較高的準(zhǔn)確率，而選擇更多的關(guān)鍵詞對(duì)準(zhǔn)確率的提高貢獻(xiàn)不大。

遠(yuǎn)期指數(shù)也可以簡(jiǎn)稱(chēng)為指數(shù)。在前五步之后，搜索引擎會(huì)得到一個(gè)獨(dú)特的字串，可以反映頁(yè)面的主要內(nèi)容。接下來(lái)，搜索引擎可以提取關(guān)鍵詞，根據(jù)分詞程序進(jìn)行分詞，并將頁(yè)面轉(zhuǎn)化為一組關(guān)鍵詞。同時(shí)，記錄頁(yè)面上每個(gè)關(guān)鍵詞的出現(xiàn)頻率、出現(xiàn)頻率、格式（如sub-ah title tag、bold、H tag、錨文本等）、位置等信息。這樣，每一頁(yè)都可以記錄為一組關(guān)鍵字，其中還記錄了每個(gè)關(guān)鍵字的詞頻、格式、位置等權(quán)重信息。

正向索引不能直接用于排名。假設(shè)用戶搜索關(guān)鍵字2（參見(jiàn)上圖）。如果只有一個(gè)正索引，排名程序需要掃描所有索引庫(kù)文件，找出包含關(guān)鍵字2的文件，然后計(jì)算相關(guān)性。這種計(jì)算量不能滿足實(shí)時(shí)回報(bào)排名結(jié)果的要求。

在對(duì)頁(yè)面內(nèi)容進(jìn)行爬網(wǎng)后，搜索引擎必須提前計(jì)算：頁(yè)面上的哪些鏈接指向哪些其他頁(yè)面，每個(gè)頁(yè)面上導(dǎo)入了哪些鏈接，鏈接使用的錨文本是什么，這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。谷歌公關(guān)價(jià)值是這種鏈接關(guān)系的主要表現(xiàn)之一。其他搜索引擎也做類(lèi)似的計(jì)算，盡管他們不稱(chēng)之為PR值。

除了HTML文件外，搜索引擎通常還可以抓取和索引各種基于文本的文件類(lèi)型，例如PDF、word、WPS、xls、PPT、txt文件等。我們經(jīng)常在搜索結(jié)果中看到這些文件類(lèi)型。但是目前的搜索引擎不能處理圖片和視頻，只能處理flash、腳本和程序等非文本內(nèi)容。

在預(yù)處理階段，搜索引擎會(huì)對(duì)頁(yè)面內(nèi)容質(zhì)量、鏈接質(zhì)量等進(jìn)行判斷。近年來(lái)，百度和谷歌推出的算法都是預(yù)先計(jì)算好的，然后再上網(wǎng)，而不是實(shí)時(shí)計(jì)算。這里的質(zhì)量判斷包括很多因素，不局限于關(guān)鍵詞的提取和計(jì)算，也不局限于鏈接的數(shù)值計(jì)算。例如，頁(yè)面內(nèi)容的判斷可能包括用戶體驗(yàn)、頁(yè)面布局、廣告布局、語(yǔ)法、頁(yè)面打開(kāi)速度等，也可能涉及模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能等方法。

3、服務(wù)輸出：

搜索引擎最終將跟蹤用戶的搜索輸出結(jié)果。這是我們看到的百度快照。在前面的搜索引擎綜合評(píng)價(jià)機(jī)制原理中，我們可以看到搜索引擎已經(jīng)做了初步的處理，然后根據(jù)用戶的實(shí)際搜索詞進(jìn)行具體的調(diào)整，然后輸出結(jié)果。

我們網(wǎng)站優(yōu)化的目的是提高關(guān)鍵字排名，那么如何才能快速提高關(guān)鍵字排名呢？現(xiàn)場(chǎng)SEO培訓(xùn)范靜認(rèn)為，可以在這部分內(nèi)容中找到一些答案。

搜索引擎還有另外一項(xiàng)工作，就是自身不斷的學(xué)習(xí)和改進(jìn)，通過(guò)這種智能學(xué)習(xí)，不斷完善規(guī)則，向搜索用戶展示更符合期望的搜索結(jié)果。

本文標(biāo)簽：seo引擎搜索

上一篇：seo搜索引擎關(guān)心什么 下一篇：SEO的四個(gè)關(guān)鍵時(shí)期

猜你感興趣的內(nèi)容

熱門(mén)精選

建水县| 汶川县| 东至县| 平和县| 和林格尔县| 黄浦区| 高雄市| 马山县| 海门市| 云南省| 玉山县| 高清| 偃师市| 维西| 临邑县| 永川市| 东丽区| 浮梁县| 黄龙县| 汕尾市| 洛隆县| 凤城市| 永城市| 喜德县| 称多县| 和平区| 阳高县| 兴安盟| 宁国市| 阜宁县| 麦盖提县| 宁武县| 南通市| 肃北| 同仁县| 临桂县| 平原县| 正蓝旗| 临桂县| 庆元县| 大同县|

<td id="vlkue"></td>