在web站點(diǎn)和webspider之間有很多種通信方式。一方面,讓網(wǎng)站管理員知道網(wǎng)絡(luò)蜘蛛從哪里來,他們做了什么。另一方面,它們還可以告訴網(wǎng)絡(luò)蜘蛛哪些頁面不應(yīng)該被爬網(wǎng),哪些頁面應(yīng)該被更新。
每一個(gè)蜘蛛網(wǎng)都有自己的名字,當(dāng)爬行網(wǎng)頁時(shí),它會(huì)把自己的身份標(biāo)到網(wǎng)站上。當(dāng)蜘蛛爬行一個(gè)網(wǎng)頁時(shí),它會(huì)發(fā)送一個(gè)請(qǐng)求。在這個(gè)請(qǐng)求中,一個(gè)名為user agent的字段用于標(biāo)識(shí)web spider的身份。
例如,Google webspider的logo是Google bot,Baidu spider是Baidu spider,Yahoo spider是inktomisrurp。
如果網(wǎng)站上有一個(gè)訪問日志,網(wǎng)站管理員就可以知道過去哪些搜索引擎蜘蛛,它們什么時(shí)候來的,以及它們讀取了多少數(shù)據(jù)。
如果網(wǎng)站管理員發(fā)現(xiàn)蜘蛛有問題,他或她可以通過蜘蛛的身份與它的所有者聯(lián)系。
例如,如果某些網(wǎng)站的可執(zhí)行和臨時(shí)文件目錄不希望被搜索引擎搜索,則站長可以將這些目錄定義為拒絕訪問的目錄。
當(dāng)網(wǎng)絡(luò)蜘蛛下載網(wǎng)頁時(shí),它將識(shí)別網(wǎng)頁的HTML代碼。在代碼部分,將有一個(gè)元徽標(biāo)。通過這些標(biāo)志,我們可以判斷網(wǎng)頁是否需要爬網(wǎng),網(wǎng)頁中的鏈接是否需要跟蹤。例如:這個(gè)頁面不需要被爬網(wǎng),但是頁面中的鏈接需要被跟蹤。
現(xiàn)在通用網(wǎng)站希望搜索引擎能更全面地捕捉到自己網(wǎng)站的網(wǎng)頁,因?yàn)檫@樣可以讓更多的訪問者通過搜索引擎找到這個(gè)網(wǎng)站。
為了更全面地捕捉本網(wǎng)站的網(wǎng)頁,站長可以建立一個(gè)網(wǎng)站地圖,即網(wǎng)站地圖。