這里我想解釋一個有些人會混淆的問題。為什么我要故意解釋上面文章和網(wǎng)頁的數(shù)量?這是因為文章的數(shù)量肯定不等于網(wǎng)頁的數(shù)量。然而,有些人在檢查錄音音量時忽略了這一常識。如果一個網(wǎng)站上的文章數(shù)量(或單個信息的數(shù)量)是300000,如果你去搜索引擎并使用站點和其他語法進行查詢,收錄量是290000,你會覺得你的收錄量幾乎相同,但實際情況可能更糟。
因為一個頁面將派生許多其他頁面。如果打開一個文章頁面并計算其中的URL,則仍有一些URL僅在當前頁面上可用,即從該頁面派生。URL對應(yīng)于一個頁面,因此網(wǎng)站上的頁面數(shù)是網(wǎng)站上信息量的幾倍,有時甚至十倍或二十倍。
因此,在查看這個“總體爬網(wǎng)”之前,您需要計算您的網(wǎng)站中可能包含的頁面數(shù)。您可以使用lynx online提取每種類型頁面上的URL。已知網(wǎng)頁的總數(shù),然后與“總爬網(wǎng)”進行比較,就可以知道數(shù)據(jù)是好是壞。我認為基本上,如果谷歌爬蟲抓取的頁面數(shù)量是網(wǎng)站頁面數(shù)量的兩倍以上,那么爬蟲數(shù)量就可以被認為是合格的,百度爬蟲需要更多。因為事實上,很多搶奪都是重復(fù)搶奪;此外,與前一天相比,每天都沒有多少新的頁面抓取。
這三個數(shù)據(jù):“訪問量”、“總停留時間”和“總抓取量”都是數(shù)字越高,對網(wǎng)站越有利,因此我們需要想出很多方法來改進它們。大多數(shù)時候,看它們的***值是沒有用的,但是看當前和過去的比較值。如果你每天都能跟蹤這些數(shù)據(jù)的變化,你就能發(fā)現(xiàn)有多少因素影響這些數(shù)據(jù)。
有時,當前數(shù)據(jù)的值不一定有意義,但長期跟蹤數(shù)據(jù)的變化可以發(fā)現(xiàn)有多少因素相互影響。
然后是“目錄抓取”的數(shù)據(jù):
此“目錄”抓取的數(shù)據(jù)是“抓取總量”的細分。網(wǎng)站必須有關(guān)鍵頁面和非關(guān)鍵頁面。這些數(shù)據(jù)可以讓您看到抓取的頁面類型更多,并及時進行一些調(diào)整。
然后是“頁面抓取”的數(shù)據(jù):
在“爬蟲IP排名”數(shù)據(jù)中,計算每個爬蟲IP的訪問狀態(tài):
如果你分析許多網(wǎng)站,你會發(fā)現(xiàn)爬蟲對某個站點的訪問將集中在特定時間的某個C段上。這是由搜索引擎的原理決定的。感興趣的朋友可以查詢相關(guān)書籍。要知道,有時可以使用此功能。
報表中有查詢IP地址的功能,可以查詢爬蟲IP是否為真。例如,上面紅色框中的IP是偽裝成谷歌爬蟲的收錄器。
此數(shù)據(jù)與上述所有數(shù)據(jù)相同。通過比較之前和之后,可以找到更多信息。
以下是關(guān)鍵字分析的數(shù)據(jù):
只要您的網(wǎng)站日志完整,使用日志拆分功能,此功能就相當于擁有一個數(shù)據(jù)倉庫。此時,瀏覽網(wǎng)站的數(shù)據(jù)是:只有你想不到它,沒有什么是它找不到的。
我還建議您拆分爬蟲的爬網(wǎng)路徑,拆分爬蟲IP的爬網(wǎng)路徑,觀察其爬網(wǎng)路徑,然后對應(yīng)網(wǎng)站上的URL,您可以了解爬蟲爬網(wǎng)的很多規(guī)律。
事實上,應(yīng)該開發(fā)一個日志合并功能,但是這個功能太簡單了。通常,我們可以通過在DOS中使用copy命令來解決此問題:
通過這種方式,你可以在一周、一個月甚至半年的時間內(nèi)對網(wǎng)站的日志進行合并和分析?!豆饽闟EO日志分析系統(tǒng)支持無限日志的分析,只要你有時間。
在“設(shè)置”-“性能設(shè)置”中,有兩個地方需要注意。一個是“蜘蛛計算間隔”,它表示蜘蛛沒有活動的時間,即使它離開。應(yīng)該注意的是,每次都應(yīng)該在同一時間進行比較分析,因為這里的時間會發(fā)生變化,爬行動物訪問次數(shù)的計算也會發(fā)生變化。二是“分析顯示項目數(shù)”?,F(xiàn)在,您可以定義要在報告中顯示的數(shù)據(jù)行數(shù)。默認情況下,只有5個項目。