被老板抱进办公室揉我胸|娇妻互换被高潮了三次|女人被添全过程A片添|巜被褥里的人妻HD中字|娇妻4P被八个男人伺候电影|被迫躺在调教椅上扩张在线视频

【百度搜索信息來(lái)源原理】百度搜索引擎的工作原理

文章來(lái)源:優(yōu)幫云SEO 2020-01-17

作為搜索引擎優(yōu)化人員,必須了解搜索引擎的工作原理,包括頁(yè)面質(zhì)量白皮書、搜索引擎優(yōu)化指南。今天,我們分析了搜索引擎的整個(gè)工作原理過(guò)程。

搜索引擎的主要工作過(guò)程包括:捕獲、存儲(chǔ)、頁(yè)面分析、索引、檢索等。也就是說(shuō),通常描述抓取、過(guò)濾、記錄和排序流個(gè)過(guò)程。接下來(lái),我們將詳細(xì)解釋每個(gè)過(guò)程及其影響

1、搜索引擎捕獲

蜘蛛抓取系統(tǒng)是搜索引擎數(shù)據(jù)源的重要保證。如果將web理解為有向圖,那么spider的工作過(guò)程可以看作是有向圖的遍歷。從一些重要的種子url開始,通過(guò)頁(yè)面上的超鏈接關(guān)系,我們不斷地找到新的url并抓取它們以抓取盡可能多的有價(jià)值的頁(yè)面。

互聯(lián)網(wǎng)資源量巨大,這就要求抓取系統(tǒng)盡可能快捷地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取有價(jià)值的資源。

2、簡(jiǎn)要介紹百度支持的幾種返回碼:

1)常見(jiàn)的404代表“未找到”。它認(rèn)為網(wǎng)頁(yè)已失敗,將在庫(kù)中刪除。同時(shí),如果蜘蛛在短時(shí)間內(nèi)再次找到這個(gè)URL,它將不會(huì)抓取它;

2)503代表“服務(wù)不可用”,認(rèn)為網(wǎng)頁(yè)暫時(shí)不可訪問(wèn)。通常,網(wǎng)站暫時(shí)關(guān)閉,帶寬有限。

3)403代表“禁止”,認(rèn)為目前禁止訪問(wèn)網(wǎng)頁(yè)。如果是新的URL,蜘蛛不會(huì)臨時(shí)抓取,短時(shí)間內(nèi)會(huì)重復(fù)訪問(wèn);如果是包含的URL,則不會(huì)直接刪除,短時(shí)間內(nèi)會(huì)重復(fù)訪問(wèn)。如果網(wǎng)頁(yè)訪問(wèn)正常,則正常爬網(wǎng);如果仍然禁止訪問(wèn),則URL也將被視為無(wú)效鏈接并從庫(kù)中刪除。

4)301代表“movedpermanently”,認(rèn)為網(wǎng)頁(yè)被重定向到新的URL。在網(wǎng)站遷移、域名變更、網(wǎng)站改版等情況下,建議使用站長(zhǎng)平臺(tái)301返回碼和網(wǎng)站改版工具,減少改版造成的網(wǎng)站流量損失。

5)由于互聯(lián)網(wǎng)資源的巨大和快速變化,搜索引擎幾乎不可能捕獲所有的資源并保持合理更新的一致性。因此,需要抓取系統(tǒng)設(shè)計(jì)一套合理的抓取優(yōu)先級(jí)分配策略。主要包括:深度優(yōu)先穿越策略、寬度優(yōu)先穿越策略、公關(guān)優(yōu)先策略、反連鎖策略、社會(huì)共享引導(dǎo)策略等

6)蜘蛛在抓取的過(guò)程中,經(jīng)常會(huì)遇到所謂的“抓取黑洞”,或者面臨很多頁(yè)面質(zhì)量不高的問(wèn)題,這就要求抓取系統(tǒng)中還應(yīng)該設(shè)計(jì)一套完善的抓取反系統(tǒng)

7)網(wǎng)站更新頻率:更新越多更新越快,更新越少更新越慢,直接影響拜都斯皮德的訪問(wèn)頻率

8)網(wǎng)站更新質(zhì)量:隨著更新頻率的增加,只引起了Baiduspider的關(guān)注。拜都斯皮德對(duì)質(zhì)量有嚴(yán)格要求。如果網(wǎng)站每天更新的大量?jī)?nèi)容被Baiduspider評(píng)為低質(zhì)量頁(yè)面,那還是毫無(wú)意義的。

9)連接性:網(wǎng)站要安全穩(wěn)定,保持Baiduspider的暢通,經(jīng)常關(guān)上Baiduspider的門不是好事

10)站點(diǎn)評(píng)價(jià):百度搜索引擎對(duì)每個(gè)站點(diǎn)都有一個(gè)評(píng)價(jià),評(píng)價(jià)會(huì)根據(jù)站點(diǎn)情況而變化,這是百度搜索引擎對(duì)站點(diǎn)的一個(gè)基本評(píng)分

3、搜索引擎過(guò)濾垃圾內(nèi)容

1)、重復(fù)內(nèi)容網(wǎng)頁(yè):不需要百度在互聯(lián)網(wǎng)上包含現(xiàn)有內(nèi)容。

2)有些內(nèi)容使用百度蜘蛛無(wú)法解析的技術(shù),比如JS和Ajax。雖然用戶在訪問(wèn)時(shí)可以看到豐富的內(nèi)容,但仍然會(huì)被搜索引擎拋棄

3)加載速度慢的網(wǎng)頁(yè)也可以視為空的短網(wǎng)頁(yè)。請(qǐng)注意,廣告加載時(shí)間包含在網(wǎng)頁(yè)的總加載時(shí)間中。

4)很多沒(méi)有突出主題的網(wǎng)頁(yè)即使被搶走也會(huì)被丟棄。

5)各種過(guò)濾,如過(guò)濾掉死鏈、重復(fù)數(shù)據(jù)、垃圾結(jié)果等;

4、如何更好地納入和索引

1)哪些頁(yè)面可以進(jìn)入高質(zhì)量索引庫(kù)。事實(shí)上,總的原則是:對(duì)用戶的價(jià)值。包括但不限于:

2)時(shí)效性和有價(jià)值的頁(yè)面:在這種情況下,時(shí)效性和價(jià)值是并行的。一些網(wǎng)站為了制作時(shí)效性強(qiáng)的內(nèi)容頁(yè)面,做了大量的收集工作,結(jié)果出現(xiàn)了一堆毫無(wú)價(jià)值的頁(yè)面,百度不想看到這些頁(yè)面

3)內(nèi)容質(zhì)量高的專題頁(yè)面:專題頁(yè)面的內(nèi)容不一定是原創(chuàng)的,也就是說(shuō),它可以很好地將各方的內(nèi)容整合在一起,或者添加一些新鮮的內(nèi)容,比如意見(jiàn)和評(píng)論,給用戶提供更加豐富和全面的內(nèi)容。

4)高價(jià)值原創(chuàng)內(nèi)容頁(yè)面:百度將原創(chuàng)定義為一篇花費(fèi)一定成本、積累大量經(jīng)驗(yàn)的文章。別問(wèn)我們假原件是不是原件。

5)重要個(gè)人頁(yè)面:例如,科比在新浪微博上開設(shè)了一個(gè)賬戶。盡管他沒(méi)有頻繁更新,但對(duì)百度來(lái)說(shuō),這仍然是一個(gè)非常重要的頁(yè)面。

5、百度搜索引擎排名的影響因素

1)相關(guān)性:網(wǎng)頁(yè)內(nèi)容與用戶檢索要求的匹配程度,如網(wǎng)頁(yè)中包含的關(guān)鍵字個(gè)數(shù)和這些關(guān)鍵字的位置;外部網(wǎng)頁(yè)用來(lái)指向網(wǎng)頁(yè)的錨文本等

2)有名:用戶喜歡某些有名網(wǎng)站提供的內(nèi)容。因此,百度搜索引擎也相信高質(zhì)有名網(wǎng)站提供的內(nèi)容。

3)及時(shí)性:及時(shí)性結(jié)果指的是新的網(wǎng)頁(yè),網(wǎng)頁(yè)承載著新鮮的內(nèi)容。目前,時(shí)效性結(jié)果在搜索引擎中的地位越來(lái)越重要。

4)重要性:將web內(nèi)容與用戶的檢查需求相匹配的重要性或流行性

5)豐富性:看似簡(jiǎn)單,但卻是一個(gè)覆蓋面非常廣的命題??梢岳斫猓W(wǎng)頁(yè)內(nèi)容豐富,完全可以滿足用戶的需求;它不僅可以滿足用戶的單一需求,還可以滿足用戶的擴(kuò)展需求。

6、流行度:指網(wǎng)頁(yè)是否流行。

1)終排名,將能滿足用戶需求的結(jié)果排名在首位,包括有用信息如:網(wǎng)站整體評(píng)價(jià)、頁(yè)面質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配度、分散性、及時(shí)性等

2)整個(gè)過(guò)程就是搜索引擎抓取排名結(jié)果頁(yè)面的計(jì)算過(guò)程。當(dāng)然,影響排名的因素很多。這是網(wǎng)頁(yè)分析技術(shù),但是網(wǎng)站的總分是由每個(gè)網(wǎng)頁(yè)組成的,所以要優(yōu)化每個(gè)網(wǎng)頁(yè)的細(xì)節(jié),做好用戶體驗(yàn),提高網(wǎng)站的排名

本文標(biāo)簽:百度搜索信息來(lái)源原理
乌拉特后旗| 泽普县| 沙雅县| 闻喜县| 汽车| 镇宁| 辉县市| 兴义市| 吴桥县| 沾化县| 武定县| 南开区| 明星| 昭苏县| 米泉市| 察雅县| 留坝县| 固原市| 金塔县| 山西省| 锡林郭勒盟| 垣曲县| 和田市| 长沙县| 五台县| 平罗县| 象州县| 莱西市| 赣榆县| 金平| 尚志市| 长治市| 梁山县| 怀来县| 裕民县| 汨罗市| 乌拉特中旗| 武川县| 鹿泉市| 湛江市| 临泉县|