摘要:要想進(jìn)行SEO,必須了解搜索引擎的工作原理,了解自己,了解他人,才能立于不敗之地。本文主要論述了搜索引擎的基本概念和工作原理。由于內(nèi)容龐大,分為兩部分。
現(xiàn)在互聯(lián)網(wǎng)上有上千億個(gè)網(wǎng)頁,它們存儲在不同的服務(wù)器上,分布在世界各地的數(shù)據(jù)中心和機(jī)房中。對于搜索引擎來說,幾乎不可能抓取所有的網(wǎng)頁在互聯(lián)網(wǎng)上。根據(jù)公布的數(shù)據(jù),容搜索引擎只抓取了總網(wǎng)頁數(shù)的40%左右。一方面,爬行技術(shù)存在一個(gè)瓶頸,無法遍歷所有網(wǎng)頁,許多網(wǎng)頁無法從其他網(wǎng)頁的鏈接中找到;另一個(gè)原因是存儲技術(shù)和處理技術(shù)的問題。如果每個(gè)頁面的平均大小為20K(包括圖片),則100億個(gè)網(wǎng)頁的容量為100倍;2000g字節(jié),即使可以存儲,下載也存在問題(根據(jù)機(jī)器下載的每秒20K的計(jì)算,需要下載340臺機(jī)器一年才能完成所有網(wǎng)頁的下載)。同時(shí),由于數(shù)據(jù)量大,搜索效率也會受到影響。因此,許多搜索引擎的web蜘蛛僅僅抓住了這些重要的網(wǎng)頁,而評價(jià)其重要性的主要依據(jù)是網(wǎng)頁的鏈接深度。
有人認(rèn)為,當(dāng)搜索引擎收到搜索請求時(shí),它會實(shí)時(shí)查詢世界上所有服務(wù)器的信息,并向用戶顯示查詢結(jié)果。這實(shí)際上是個(gè)誤會。如果搜索引擎這樣工作,那么可能需要數(shù)年時(shí)間才能通過查詢一條信息(不包括在此期間網(wǎng)頁的更改)獲得搜索結(jié)果。其實(shí),搜索引擎會提前訪問大量網(wǎng)站,并提前將這些頁面的部分信息存儲在自己的服務(wù)器上。這樣,當(dāng)用戶搜索時(shí),他們實(shí)際上在搜索引擎自己的服務(wù)器上查詢,就像我們在自己的計(jì)算機(jī)中查詢文件一樣。
搜索引擎是一項(xiàng)非常復(fù)雜的技術(shù),但其基本原理并不復(fù)雜,其基本技術(shù)包括爬行、索引、排序。