首先,分詞:分詞是一個主要特征。無論我們輸入長句還是短語,搜索引擎都會對這些單詞進(jìn)行分段,并將這些搜索字符串劃分為基于單詞的關(guān)鍵字組合。只有這樣,我們才能更好地通過預(yù)處理的數(shù)據(jù)庫進(jìn)行查詢和比較,并將與這些詞匹配的所有詞返回給用戶。這種分詞的原理與頁面分詞的原理有些相似。
第二,停止語:我們在搜索時有很多主觀性。我們經(jīng)常在搜索詞中使用一些英語口語中的詞,但是這一次這些詞往往對要搜索的內(nèi)容沒有幫助,但是我們已經(jīng)形成了輸入這些詞的習(xí)慣,所以搜索引擎必須能夠停止這些詞,限度地保證搜索的準(zhǔn)確性和相關(guān)性。
第三,指令處理:通常我們會在搜索過程中輸入多個單詞。事實(shí)上,默認(rèn)情況下,搜索引擎會根據(jù)“和”使用多個默認(rèn)詞。例如,當(dāng)您搜索“減肥”和“網(wǎng)站”時,搜索引擎將默認(rèn)為我們輸入的“減肥網(wǎng)站”進(jìn)行處理。僅包含“減肥”或“網(wǎng)站”的內(nèi)容,理論上不會被退回,但在實(shí)踐中,包含一個詞的網(wǎng)站經(jīng)常出現(xiàn)。另外,我們還要處理各種搜索指令中的單詞,如加號、減號等。
第四,糾錯:大多數(shù)時候,我們的輸入會有錯誤。同音拼音較多,輸入錯誤是正常的。然而,如果搜索引擎不糾正錯誤,它會返回很多我們不想看到的結(jié)果。因此,有時即使輸入完整的拼寫,搜索引擎也會據(jù)此提示正確的中文。
第五,分類處理:不同的詞一般會有不同的處理,這是搜索引擎的一個特色功能。例如,當(dāng)我們搜索一般關(guān)鍵字時,大多數(shù)關(guān)鍵字會返回到網(wǎng)頁。當(dāng)我們搜索明星的名字時,會有很多綜合性的搜索結(jié)果,比如新聞、視頻和圖片。因此,搜索引擎應(yīng)該根據(jù)用戶的需求來判斷。該判斷在預(yù)處理階段進(jìn)行。
搜索引擎基本上是從這五個方面來處理搜索詞的。這里為您總結(jié):分詞、停詞、指令處理、糾錯和分類處理。雖然這與我們的網(wǎng)站沒有直接關(guān)系,但相信了解更多的基礎(chǔ)知識會產(chǎn)生間接影響。網(wǎng)站、用戶和搜索引擎三者合一,構(gòu)成了整個互聯(lián)網(wǎng)。也找出了許多原因。了解這些簡單的知識,可能會引發(fā)其他方面的思考和啟示。