爬行網(wǎng)頁只是一個(gè)圖像隱喻抓取網(wǎng)頁后,蜘蛛將提取文本中的URL、當(dāng)前網(wǎng)頁的權(quán)重值和其他信息
蜘蛛陷阱不是把蜘蛛留在車站,而是為了失控,蜘蛛會(huì)在蜘蛛被困的網(wǎng)頁集中收集無數(shù)無意義的url,并將它們放入爬行隊(duì)列如果網(wǎng)頁中的URL是無限的,則蜘蛛需要無限的爬網(wǎng)。
在Internet上,所捕獲的URL和網(wǎng)頁的內(nèi)容將發(fā)生變化,搜索引擎將確保某些網(wǎng)頁的更新但是,當(dāng)網(wǎng)頁內(nèi)容變化不大時(shí),只有包含的URL不會(huì)有太大的差異spider還將根據(jù)用戶體驗(yàn)、歷史更新頻率、頁面類型和頁面頻率等幾個(gè)方面來確定對(duì)包含的頁面重新爬網(wǎng)的頻率。
用戶體驗(yàn):用戶要求搜索引擎漲價(jià)后,相關(guān)搜索結(jié)果量很大對(duì)于用戶來說,準(zhǔn)確的搜索結(jié)果并不多大多數(shù)用戶會(huì)在前三頁找到他們需要的信息理論上,搜索和瀏覽網(wǎng)頁的次數(shù)越多,再次抓取的頻率就越高。
如果包含的網(wǎng)頁沒有變化,搜索引擎再次搜索的頻率就會(huì)降低,甚至不再被抓取Spider的***是更新web頁面上的主題內(nèi)容。
如果網(wǎng)頁類型不同,蜘蛛的更新頻率也會(huì)不同主頁和目錄頁是蜘蛛經(jīng)常訪問的頁面。
網(wǎng)頁的權(quán)重越大,蜘蛛的抓取頻率就越高比如:好123的主頁和普通網(wǎng)站的主頁,雖然好123的主頁長(zhǎng)期保持不變而普通企業(yè)網(wǎng)站偶爾更新,但好123的主頁百度快照是***的,而普通企業(yè)網(wǎng)站的主頁百度快照可能是一個(gè)月前或更長(zhǎng)時(shí)間這是網(wǎng)頁權(quán)重對(duì)蜘蛛捕捉頻率的具體影響然而,大多數(shù)蜘蛛也會(huì)根據(jù)不同的算法和影響因素抓取網(wǎng)頁為了提高網(wǎng)站的抓取頻率,我們一般會(huì)***增加高權(quán)重的網(wǎng)站鏈接,增加網(wǎng)頁更新頻率,并利用標(biāo)題和描述吸引點(diǎn)擊來提高排名優(yōu)秀的網(wǎng)站結(jié)構(gòu)也有利于蜘蛛捕捉當(dāng)蜘蛛突然發(fā)現(xiàn)包含的網(wǎng)頁被刪除時(shí),服務(wù)器返回404狀態(tài)碼,這也會(huì)在短時(shí)間內(nèi)增加抓取網(wǎng)站的頻率一些門戶網(wǎng)站習(xí)慣于在發(fā)送即時(shí)新聞標(biāo)題然后添加內(nèi)容的行為中增加點(diǎn)擊次數(shù)。
百度阿拉丁計(jì)劃:在黑暗的網(wǎng)絡(luò)中挖掘更多有價(jià)值的信息,讓更多的人受益這是具有獨(dú)到資源的網(wǎng)站的免費(fèi)流量來源不過,阿拉丁的商業(yè)內(nèi)容是付費(fèi)的網(wǎng)站管理員還可以制作他希望百度收錄的網(wǎng)頁的HTML或XML地圖它還可以交叉呈現(xiàn)網(wǎng)站想要包含的信息例如:屬性查詢分類。
分布式蜘蛛系統(tǒng)分配了區(qū)域抓取的范圍在其自身抓取范圍內(nèi)的url被捕獲在隊(duì)列中并等待被包含否則,它們將提交給上級(jí)服務(wù)器并分發(fā)給負(fù)責(zé)該區(qū)域的spider因此,大多數(shù)中小企業(yè)在分析網(wǎng)站日志時(shí),都會(huì)發(fā)現(xiàn)百度蜘蛛的IP地址往往相同,但不同網(wǎng)站的IP段不同。: