百度優(yōu)先考慮建設(shè)重要數(shù)據(jù)庫的原則。Baiduspider抓取多少頁并不是重要的,而是索引了多少頁,我們通常稱之為“構(gòu)建數(shù)據(jù)庫”。眾所周知,搜索引擎的索引數(shù)據(jù)庫是分層的,高質(zhì)量的網(wǎng)頁會被分配到重要的索引數(shù)據(jù)庫中,普通的網(wǎng)頁會留在普通的數(shù)據(jù)庫中,更差的網(wǎng)頁會被分配到低級的數(shù)據(jù)庫中作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這就解釋了為什么有些網(wǎng)站的館藏量太大,但流量并不理想。
所以,哪些頁面可以進入高質(zhì)量的索引庫。對于你的解釋,事實上,總的原則是:對用戶的價值。包括但不限于:
時效性和有價值的頁面:在這種情況下,時效性和價值是并行的。一些網(wǎng)站為了制作時效性強的內(nèi)容頁面,做了大量的收集工作,結(jié)果出現(xiàn)了一堆毫無價值的頁面,百度不想看到這些頁面
內(nèi)容質(zhì)量高的專題頁面:專題頁面的內(nèi)容不一定是原創(chuàng)的,也就是說,它可以很好地將各方的內(nèi)容整合在一起,或者添加一些新鮮的內(nèi)容,比如意見和評論,給用戶提供更加豐富和全面的內(nèi)容。
高價值原創(chuàng)內(nèi)容頁面:百度將原創(chuàng)定義為一篇花費一定成本、積累大量經(jīng)驗的文章。別問我們假原件是不是原件。四。重要個人頁面:這里只是一個例子??票仍谛吕宋⒉┥祥_了一個賬號,需要他不經(jīng)常更新,但對于百度來說,這仍然是一個非常重要的頁面。
哪些網(wǎng)頁不能內(nèi)置索引數(shù)據(jù)庫,將上述高質(zhì)網(wǎng)頁放入索引數(shù)據(jù)庫,其實大部分互聯(lián)網(wǎng)上的網(wǎng)站根本不被百度收錄。并不是百度沒有找到他們,而是在建立數(shù)據(jù)庫之前的篩選過程被過濾掉了。什么樣的網(wǎng)頁在初始階段被過濾掉
重復(fù)內(nèi)容網(wǎng)頁:不需要百度在互聯(lián)網(wǎng)上包含現(xiàn)有內(nèi)容。對于主內(nèi)容短而空的網(wǎng)頁,有些內(nèi)容使用了百度蜘蛛無法解析的技術(shù),如JS、AJAX等,雖然用戶在訪問時可以看到豐富的內(nèi)容,但仍然會被搜索引擎拋棄。加載速度慢的網(wǎng)頁也可以被視為短頁和空頁。注意廣告加載時間包含在網(wǎng)頁的總加載時間中。許多沒有被主體突出顯示的網(wǎng)頁即使被收回也會被丟棄。