網(wǎng)站質(zhì)量和網(wǎng)頁質(zhì)量是SEO經(jīng)常提到的SEO術(shù)語。但具體來說,搜索引擎如何判斷網(wǎng)頁和網(wǎng)站的質(zhì)量,我相信大多數(shù)SEO并不理解。主要原因是這些算法是搜索引擎公司的核心機(jī)密,而搜索引擎公司很少披露任何關(guān)于這些算法的線索。然而,通過對搜索引擎原理和搜索引擎主流網(wǎng)頁質(zhì)量分析技術(shù)的研究。
基于網(wǎng)頁鏈接關(guān)系的分析方法,可以被更多網(wǎng)頁鏈接的流行網(wǎng)頁不僅是一個更重要的網(wǎng)頁,而且是一個高質(zhì)量的網(wǎng)頁。事實(shí)證明,這種方法更為成功。例如,谷歌的PageRank方法使用這種方式來對網(wǎng)頁進(jìn)行加權(quán)。
這種方法之所以有效,主要是因?yàn)榫W(wǎng)絡(luò)環(huán)境的特殊性??梢哉J(rèn)為,網(wǎng)絡(luò)上沒有全面的質(zhì)量控制,因此網(wǎng)頁不具備與出版環(huán)境類似的權(quán)威性評價特征(在出版環(huán)境中,相關(guān)文獻(xiàn)可以通過同行評審等方式被他人認(rèn)可,從而表現(xiàn)出高質(zhì)量),因此,網(wǎng)絡(luò)用戶需要使用其他方法來判斷網(wǎng)站的專業(yè)能力和可信度。其中,比較常用的方法是鏈接到網(wǎng)頁的人數(shù)和鏈接網(wǎng)頁的質(zhì)量。顯然,鏈接到網(wǎng)頁的人越多或鏈接網(wǎng)頁的質(zhì)量越高,就可以反映當(dāng)前網(wǎng)頁的質(zhì)量越高。例如,由大學(xué)、圖書館或有價值的網(wǎng)站鏈接的網(wǎng)站通常是一些高質(zhì)量的網(wǎng)站。同時,每個網(wǎng)頁也愿意與其他網(wǎng)頁建立鏈接關(guān)系,因?yàn)樵谌狈φw網(wǎng)頁質(zhì)量控制的情況下,網(wǎng)頁可以通過建立指向高質(zhì)量網(wǎng)頁的鏈接來顯示自己的內(nèi)容。另一方面,指向源網(wǎng)頁的鏈接希望獲得用戶對當(dāng)前網(wǎng)頁的認(rèn)可,這在一定程度上可以解釋網(wǎng)頁超鏈接在web環(huán)境中非常流行的原因。
然而,雖然該方法易于實(shí)現(xiàn),但許多搜索引擎系統(tǒng)都能提供基于網(wǎng)頁超鏈接關(guān)系的分析技術(shù),并將其應(yīng)用于網(wǎng)頁推薦服務(wù),但也存在許多問題。例如,以上評價標(biāo)準(zhǔn)都是基于一個基本前提,即具有大量鏈人的網(wǎng)頁,即流行網(wǎng)頁必須是高質(zhì)量的網(wǎng)頁。但是,也存在許多問題。例如,那些在搜索結(jié)果中排名較低的不受歡迎的網(wǎng)頁不太可能被用戶訪問;相反,那些非常受歡迎的網(wǎng)頁更容易被更多的用戶訪問,因?yàn)樗鼈儞碛懈嗟逆溔?,排名也更高,因此它們變得越來越受歡迎,并且能夠表現(xiàn)出更高的質(zhì)量狀態(tài),從而導(dǎo)致所謂的“富起來富起來”現(xiàn)象。這顯然是不公平的,特別是對于一些高質(zhì)量的現(xiàn)有網(wǎng)頁和一些新的高質(zhì)量網(wǎng)頁,這些網(wǎng)頁不太可能吸引太多的鏈接用戶。
此方法使用網(wǎng)站流量來評估網(wǎng)站的網(wǎng)頁質(zhì)量,例如Alexa。它通過網(wǎng)站流量之間的比較關(guān)系對網(wǎng)站進(jìn)行排名。同時,它也指鏈節(jié)點(diǎn)數(shù)和用戶評論數(shù)。然而,熱門主題的網(wǎng)站通常有更多的流量,因此Alexa不提供不同主題的網(wǎng)站排名,這仍然是不完整的。一些學(xué)者也提出了基于不同主題的網(wǎng)站流量排名方法,但主題范圍相對較廣。
由于上述方法的不足,一些學(xué)者提出,網(wǎng)頁質(zhì)量可以表示為隨機(jī)用戶尋找特定信息愿意訪問該網(wǎng)站網(wǎng)頁的概率,如主題實(shí)驗(yàn)系統(tǒng)。與基于網(wǎng)頁鏈接關(guān)系的評價指標(biāo)不同,該指標(biāo)基于一個假設(shè),即如果用戶在瀏覽后短時間內(nèi)建立了一個指向某個網(wǎng)頁的超鏈接,則可以認(rèn)為該網(wǎng)頁質(zhì)量高,因此所有網(wǎng)頁都可以向所有用戶顯示,通過了解用戶是否在短時間內(nèi)建立了與他們的超鏈接,我們可以計(jì)算用戶對他們的愛,并獲得網(wǎng)頁的質(zhì)量。顯然,盡管用戶構(gòu)建網(wǎng)頁超鏈接的行為不一定反映網(wǎng)頁的質(zhì)量,但如果面向大多數(shù)用戶,此統(tǒng)計(jì)摘要信息將客觀地指示網(wǎng)頁的質(zhì)量。因此,這種定義方法可以稱為基于用戶訪問模型的方法。
由于網(wǎng)頁質(zhì)量也與網(wǎng)頁本身的普及程度有關(guān),傳統(tǒng)的基于網(wǎng)頁鏈接關(guān)系的評價方法也間接地考慮了網(wǎng)頁質(zhì)量。網(wǎng)頁質(zhì)量是通過網(wǎng)頁的受歡迎程度來衡量的,網(wǎng)頁的受歡迎程度可以通過喜歡該網(wǎng)頁的用戶數(shù)量來確定,喜歡該網(wǎng)頁的用戶數(shù)量可以通過網(wǎng)頁中的鏈接數(shù)量來間接衡量,因此,鏈接的數(shù)量與網(wǎng)頁質(zhì)量指數(shù)成正比。然而,它為所有網(wǎng)頁提供了相同的面向用戶的機(jī)會,因此新網(wǎng)頁不可能比原來流行的網(wǎng)頁獲得更多的鏈人。從這個角度來看,傳統(tǒng)的基于網(wǎng)頁鏈接關(guān)系的評價方法仍然沒有充分考慮網(wǎng)頁的質(zhì)量。它只利用網(wǎng)頁在某一時間點(diǎn)上的鏈接關(guān)系進(jìn)行判斷。在基于用戶訪問模型的網(wǎng)頁質(zhì)量定義中,關(guān)注的是在短時間內(nèi)建立鏈接的特性,因此,必須測量動態(tài)時間間隔內(nèi)網(wǎng)頁鏈接關(guān)系的變化。換句話說,網(wǎng)頁流行度可以定義為用戶在某個時間點(diǎn)對網(wǎng)頁的喜愛程度,而網(wǎng)頁質(zhì)量則定義為用戶在單位時間內(nèi)找到網(wǎng)頁時對網(wǎng)頁的喜愛程度。
顯然,網(wǎng)頁質(zhì)量和網(wǎng)頁流行度之間存在正相關(guān)關(guān)系,但有一些因素會影響網(wǎng)頁被訪問的概率。網(wǎng)頁質(zhì)量可以看作是網(wǎng)頁的客觀指標(biāo),不會隨時間而改變。因此,在確定網(wǎng)頁質(zhì)量時,網(wǎng)頁的受歡迎程度主要取決于網(wǎng)頁被訪問的概率。
當(dāng)然,這個指標(biāo)的設(shè)計(jì)不能說沒有問題。它會產(chǎn)生話題偏見。例如,話題的流行度和質(zhì)量。一般來說,如果一個網(wǎng)頁的主題是一個更受歡迎的主題,那么這個網(wǎng)頁的質(zhì)量相對比那些只談?wù)撨^時主題的網(wǎng)頁要高。然而,從網(wǎng)頁質(zhì)量的角度來看,這似乎是正常的。畢竟,衡量網(wǎng)頁真實(shí)質(zhì)量的方法是考慮網(wǎng)頁主題的內(nèi)容。同時,搜索引擎通常將要排序的頁面限制在返回結(jié)果的小范圍內(nèi)。作為同一用戶查詢的返回結(jié)果,這些頁面在語義上基本相近,因此這些頁面質(zhì)量的相對大小仍然具有可比性。因此,在網(wǎng)絡(luò)信息搜索環(huán)境中,這種直接衡量網(wǎng)頁質(zhì)量的指標(biāo)更為適用。