在從網(wǎng)站優(yōu)化中自動(dòng)抽取描述的過(guò)程中,文本中的一些內(nèi)容和對(duì)象非常重要,這將直接影響摘要的質(zhì)量。例如,標(biāo)題中的關(guān)鍵詞、詞頻、詞位、句長(zhǎng)、句子結(jié)構(gòu)和排版特征在描述自動(dòng)生成過(guò)程中起著重要的作用,對(duì)摘要句的選擇和摘要的組織起著重要的作用。因此,有必要在市網(wǎng)站建設(shè)大會(huì)上對(duì)其進(jìn)行更多的分析。
詞頻是指單詞出現(xiàn)在文本中的頻率。Jcy強(qiáng)調(diào),具有標(biāo)引價(jià)值的詞往往是中頻詞,高頻詞是反映句子語(yǔ)法結(jié)構(gòu)的虛詞,低頻詞不適合作標(biāo)引詞。同樣,在摘要中起重要作用的詞也是高頻詞(重要詞),這些詞在整篇文章中屬于中頻詞。根據(jù)這些“中頻詞”的個(gè)數(shù),計(jì)算句子的權(quán)重來(lái)確定候選句子。
有許多短語(yǔ)(詞)用來(lái)擴(kuò)展反映課文內(nèi)容的摘要句。這樣的短語(yǔ)或單詞被稱(chēng)為指示語(yǔ)。這種指示語(yǔ)有以下幾種形式:“本文論述”、“本文目的”、“總結(jié)”等。因此,這些句子很有可能被選為網(wǎng)站建設(shè)的候選句。
不同位置的句子對(duì)文章和段落主題的貢獻(xiàn)是不同的。Jcy已經(jīng)做了一些研究。我們認(rèn)為段落的_句話(huà)是段落的主題句的概率是85%,段落末尾的句子的概率是7%。因此,這些位置的句子很可能會(huì)變成摘要句。在自動(dòng)文摘過(guò)程中,需要增加這些特殊位置的句子權(quán)重。
摘要是短小精悍的,也就是說(shuō),用簡(jiǎn)短的文字概括文章的主要內(nèi)容。因此,在選擇摘要句時(shí),應(yīng)選擇簡(jiǎn)潔短句,不宜選擇過(guò)長(zhǎng)的句子。
文本信息的標(biāo)題是文本內(nèi)容的重要體現(xiàn)。文本各個(gè)層次的標(biāo)題在不同程度上反映了文本所討論的主要內(nèi)容。因此,網(wǎng)站優(yōu)化服務(wù),標(biāo)題中的詞匯是摘要的重要素材,其中的關(guān)鍵詞往往與原文內(nèi)容和討論主題密切相關(guān)。去掉標(biāo)題中的虛詞后,剩下的關(guān)鍵詞可以作為抽象句中的“重要詞”。
文章中的句式多種多樣,如陳述句、疑問(wèn)句、感嘆句等,但文章主題的真實(shí)反映主要是陳述句,這也說(shuō)明文章摘要主要由陳述句構(gòu)成。因此,在選擇抽象句時(shí),應(yīng)盡量提取陳述句,避免疑問(wèn)句、感嘆句等句子形式進(jìn)入抽象句。
隨著網(wǎng)頁(yè)設(shè)計(jì)軟件的發(fā)展,對(duì)機(jī)讀文獻(xiàn)的排版格式也提出了更高的要求。編輯在確定一個(gè)詞或句子的權(quán)重時(shí),經(jīng)常使用特殊的格式來(lái)突出文學(xué)作品的主題內(nèi)容,如增加字體大小、改為粗體或特殊字體、添加下劃線(xiàn)、文本中心排列、標(biāo)記、增加縮進(jìn)、添加陰影、添加邊框、超鏈接等,我們應(yīng)該考慮這些特殊的格式特性,適當(dāng)增加權(quán)重。站點(diǎn)優(yōu)化對(duì)于整個(gè)SEO優(yōu)化項(xiàng)目來(lái)說(shuō),占有非常大的比例。外部環(huán)節(jié)只能在內(nèi)部?jī)?yōu)化的基礎(chǔ)上起到錦上添花的作用。網(wǎng)頁(yè)描述的優(yōu)化與網(wǎng)站優(yōu)化中的重要內(nèi)容