搜索引擎對(duì)關鍵字堆砌的識别

發(fā)布日期：2023-03-29

搜索引擎和搜索引擎優化(SEO)一直是一對(duì)矛盾，合理的優化有助于搜索引擎對(duì)網站内容的識别，有助于網站的推廣。然而有正面(miàn)，就有反面(miàn)，一些SEOers通過(guò)各種(zhǒng)欺騙手段來欺騙搜索引擎，以期達到增加頁面(miàn)收錄數和頁面(miàn)排名的目的。

早期的關鍵字堆砌SPAM作弊方式之一，是將(jiāng)中文詞庫中的單詞直接用軟件拼湊成(chéng)文章，這(zhè)樣(yàng)的文章沒(méi)有實際的意義，隻能(néng)給搜索引擎看。

那麼(me)對(duì)于這(zhè)樣(yàng)的文章，搜索引擎是通過(guò)什麼(me)方式來識别的呢?

我們知道(dào)，每個搜索引擎都(dōu)有網頁質量監控部門，對(duì)于百度等摻雜人工處理的搜索引擎而言，用戶發(fā)現這(zhè)樣(yàng)的網站，投訴到百度，百度直接封了這(zhè)個網站了事(shì)。但對(duì)于Google這(zhè)樣(yàng)的封站也是自動

處理的搜索引擎而言，對(duì)關鍵字堆砌作弊的識别就顯得更爲重要了。

對(duì)于關鍵字堆砌作弊方式的識别，搜索引擎一般采用統計分析的方法進(jìn)行。

搜索引擎首先將(jiāng)網頁進(jìn)行分詞，分詞完成(chéng)後(hòu)可以得到詞的數量N和文章長(cháng)度L，從大量文章的統計中發(fā)現文章的長(cháng)度L和詞的數量N兩(liǎng)個數字之間存在一定的分布關系，一般而言L/N界于4至8之間，均值大約在5-6之間。也就是說一篇長(cháng)度爲1000字節的文章中，應該有125-250個分詞，由于中文和英文的詞的組成(chéng)不一緻，因此在英文和中文中這(zhè)個比值的範圍會有所不同。如果搜索引擎發(fā)現L/N特别大，那麼(me)這(zhè)篇文章就存在就存在關鍵字堆砌現象了，如果L/N特别小，則可能(néng)是這(zhè)篇文章是由一些詞所組成(chéng)的沒(méi)有意義的文章。

進(jìn)一步，通過(guò)大量正常文章統計發(fā)現，文章中密度高的幾個關鍵字出現的次數之和與N/L存在一定的分布關系，搜索引擎就可以通過(guò)網頁中的分布與統計結果的分布圖進(jìn)行比較得出文章是否存在關鍵字堆砌的現象。

此外，搜索引擎還(hái)將(jiāng)從停止字的比例來判定文章是否爲自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或詞，如果文章中停止字的比例在正常的比例範圍之外，這(zhè)個網頁應提交到網頁質量監控部門審核。

當然，還(hái)有更多的算法可以對(duì)網頁與自然語言的文章進(jìn)行比較分析，以判别文章是否爲自然文章。

所謂魔高一尺、道(dào)高一丈，有些作弊者已經(jīng)放棄了單詞的組成(chéng)文章的作弊方式，而改用句子組成(chéng)文章的作弊方式，作弊者通過(guò)爬蟲或其它方式獲得網上文章的句子，并用軟件將(jiāng)數十篇文章的某幾句拼湊成(chéng)一篇文章。這(zhè)就需要搜索引擎做語義的分析來判斷是否作弊了，然而目前關于語義分析的研究還(hái)處于研究階段，

這(zhè)也是下一代智能(néng)搜索引擎的方向(xiàng)。

然而我們仍然不能(néng)將(jiāng)自動文章生成(chéng)一棍子打死，基于人工智能(néng)的文章生成(chéng)仍然是人類研究自身語言以及自身智能(néng)的一個重要方向(xiàng)。作弊與反作弊，將(jiāng)能(néng)促使人類對(duì)人工智能(néng)的研究。

本站聲明：本站部分資料來自網絡，隻爲學(xué)習和研究之用，并無盈利目的。原作者若有異議，請及時與本站聯系，我們將(jiāng)第一時間更正！

上一篇：一個網站是否會因爲關鍵字堆砌而受到懲罰？

下一篇：IIS基本概念