網(wǎng)站維護人員,為了避免網(wǎng)站服務(wù)器的攻擊;SEO人員,為了確定搜索引擎爬蟲訪問網(wǎng)站的情況,不能避免分析網(wǎng)站日志。但我從網(wǎng)站日志中得到的原始數(shù)據(jù)總是一團亂麻。我們得到原始數(shù)據(jù)后該怎么辦?
登錄“FTP”帳戶,鏈接到網(wǎng)站數(shù)據(jù),并找到網(wǎng)站日志文件夾。(注意:通常,網(wǎng)站日志所在的文件夾與網(wǎng)站文件是同優(yōu)等別的文件夾,其中包含單詞log。只有少數(shù)情況下,站點日志文件夾位于站點根目錄下。)
打開文件夾并下載壓縮日志文件?。ㄏ螺d方法非常簡單。只需選擇該文件并將其直接拖動到計算機桌面,然后在左下角的下載目錄中瀏覽該文件,然后右鍵單擊“傳輸隊列!”)
提取下載的日志文件,然后將提取的文件的后綴更改為“TXT”
創(chuàng)建一個新的EXCEL表單并打開它!在頂部工具欄上找到數(shù)據(jù)工具
點擊“導(dǎo)入數(shù)據(jù)”,默認為“直接打開數(shù)據(jù)文件”,然后選擇“選擇數(shù)據(jù)源”。
默認“其他編碼”和“下一步”;
選擇“分隔符”和“下一步”;
選中所有選項,然后選擇“下一步”;
接下來,只需保留所需的數(shù)據(jù)項。刪除不必要的數(shù)據(jù)項?。ㄈ鐖D所示,僅保留數(shù)據(jù)分析所需的訪客IP、訪問文件、訪問狀態(tài)碼、訪客姓名四項數(shù)據(jù)。)
選擇一整列訪問者名稱,然后單擊“開始”列中的篩選工具
單擊“訪問者名稱”列頂部的三角形下拉按鈕;
取消“全選”,找到百度蜘蛛的訪客名稱,選擇并確認;
如圖所示,我們可以得到百度蜘蛛訪問網(wǎng)站的所有數(shù)據(jù)。
百度蜘蛛:百度蜘蛛谷歌爬蟲:谷歌機器人360爬蟲:360蜘蛛谷歌爬蟲:bingbot搜索爬蟲:sogounewsspider
也可以在服務(wù)器/主機管理面板中下載網(wǎng)站日志。百度訪問日志還需要區(qū)分真假蜘蛛,并不是所有蜘蛛都是真正的百度蜘蛛,比如站長工具虛擬蜘蛛。