亚洲网站在线观看,久久爰www免费人成,特黄特色大片免费视频大全,天天干天天草天天,亚洲激情校园春色,青青草99热这里都是精品,欧美亚洲综合网

掌握自己熟知的 ? 探索未來(lái)需要的
當(dāng)前位置: 首頁(yè) >> seo優(yōu)化 >> 如何計(jì)算文章標(biāo)題和內(nèi)容相關(guān)度?

如何計(jì)算文章標(biāo)題和內(nèi)容相關(guān)度?

創(chuàng)建時(shí)間: 2020-07-04

如何計(jì)算文章標(biāo)題和內(nèi)容相關(guān)度?資深站長(zhǎng)都知道,搜索引擎每天在爬蟲的時(shí)候都是比較喜歡新鮮質(zhì)感的內(nèi)容,而且內(nèi)容與標(biāo)題要有較高的相關(guān)性,如果只是一味的標(biāo)題檔那是沒有效果的。搜索引擎是比厭煩這種東西的,它具有很高的智能性判斷,所以大家在以后的優(yōu)化過程中不用想著蒙混過關(guān),那是不可行的。

如果你不知道搜索引擎是如何計(jì)算文章與標(biāo)題相關(guān)度的,那希望這篇文章能對(duì)你有幫助,耐心的學(xué)起來(lái)吧。

如何計(jì)算文章標(biāo)題和內(nèi)容相關(guān)度


做一個(gè)審核相關(guān)度的功能

從seo出現(xiàn)以來(lái),一直有一個(gè)概念是整個(gè)seo優(yōu)化過程都需要知道的東西,那就是關(guān)鍵詞密度。很多的seo教程一直強(qiáng)調(diào)關(guān)鍵詞密度要在2%~8%之間是最好的,低于這個(gè)范圍就沒啥競(jìng)爭(zhēng)力,主題不集中;而高于這個(gè)值就會(huì)導(dǎo)致關(guān)鍵詞堆砌,優(yōu)化過度了,容易受到搜索引擎的打擊。

那是不是說明這個(gè)關(guān)鍵詞密度是計(jì)算主題相關(guān)度的一個(gè)重要指標(biāo)呢?但是這個(gè)關(guān)鍵詞的密度是完整的關(guān)鍵詞密度還是分詞后的關(guān)鍵詞密度呢?是正文部分的關(guān)鍵詞密度還是整個(gè)網(wǎng)頁(yè)文字內(nèi)容部分的關(guān)鍵詞密度呢?這個(gè)不好說,但是我們能從搜索結(jié)果里面的百度快照看出點(diǎn)啥來(lái)。






從搜索結(jié)果里面來(lái)看,其實(shí)是有分詞的,但是完整匹配的排名效果會(huì)更好。(這個(gè)顯然大伙都知道,哈哈) 于是就有很多做seo的,特別是做黑帽的,就直接往文章里面插入完整的關(guān)鍵詞,一般插入2-3次這樣,用以提高關(guān)鍵詞的密度和文章的相關(guān)性。

好了,這些都不是本文的關(guān)注點(diǎn),我們來(lái)看看如果要實(shí)現(xiàn)一個(gè)關(guān)鍵詞密度計(jì)算的程序應(yīng)該如何實(shí)現(xiàn)。

如何實(shí)現(xiàn)關(guān)鍵詞密度計(jì)算

首先說下算法實(shí)現(xiàn)過程

1、分別將關(guān)鍵詞和文章內(nèi)容進(jìn)行分析

2、統(tǒng)計(jì)文章中出現(xiàn)關(guān)鍵詞分詞結(jié)果的次數(shù)

3、用2的結(jié)果除以文章分詞后的總次數(shù)

4、優(yōu)化點(diǎn),可以先去除文章和關(guān)鍵詞中的停止詞之后再做計(jì)算,這樣可能更貼切一點(diǎn)。(留給大家實(shí)現(xiàn)了)


代碼


我拿了篇文章做了下計(jì)算,結(jié)果如下:

計(jì)算的文章地址:https://game.china.com/industry/focus/11118308/20200630/38421717.html



這篇文章的關(guān)鍵詞密度是11.4% 看起來(lái)有點(diǎn)優(yōu)化過度了?但實(shí)際上并沒有超出很多,而且目前這個(gè)是排名在第4的。而且我計(jì)算的只是正文內(nèi)容的關(guān)鍵詞密度。

當(dāng)然了,我這個(gè)也只是一種粗略的計(jì)算方式,相信搜索引擎會(huì)有更加完善的計(jì)算。大家如果感興趣可以自己試試哦。

那么這個(gè)關(guān)鍵詞密度是不是影響這個(gè)排名的重要因素呢?這個(gè)大家可以去驗(yàn)證一下,這個(gè)不是本文的主題哈。

回到正題,如果只是通過關(guān)鍵詞密度來(lái)計(jì)算文本的相關(guān)性似乎有點(diǎn)不太靠譜,還有沒有其它好的辦法來(lái)實(shí)現(xiàn)呢?這里我又想到了另外的一種思路:


另一種計(jì)算文章主題相關(guān)性的方法

思路如下:

1、將標(biāo)題和文章正文進(jìn)行分詞處理

2、利用TF_IDF算法提取出文章的N個(gè)核心詞語(yǔ),這里的N可以是一個(gè)固定的數(shù)值,比如10個(gè),也可以是動(dòng)態(tài)的數(shù)值,比如跟關(guān)鍵詞分詞后的個(gè)數(shù)一樣

3、去除標(biāo)題分詞中字?jǐn)?shù)少于2個(gè)字的,只有一個(gè)字的詞默認(rèn)就認(rèn)為文中是包含的。

4、將3中的結(jié)果進(jìn)行去重然后拿去跟2中的詞做對(duì)比,得到3沒有包含在2中的詞語(yǔ)

5、將4中沒有包含詞語(yǔ)的個(gè)數(shù)除以1中的總個(gè)數(shù),再用1減去計(jì)算值就得到相似度 具體代碼實(shí)現(xiàn)如下:

代碼

跟關(guān)鍵詞密度一起來(lái)作對(duì)比,運(yùn)行上次的文章,得到如下結(jié)果:



這里可以看到,關(guān)鍵詞密度是11.4%,而相似度是80%,看起來(lái)還是可以的。當(dāng)然了,沒有做大量的測(cè)試,感興趣的同學(xué)可以用下哦。

如果你有更好的方法或者idea歡迎留言一起探討學(xué)習(xí)。我這個(gè)方法是比較簡(jiǎn)單的。當(dāng)精度的要求沒那么高的時(shí)候,簡(jiǎn)單快速的方法是我們實(shí)現(xiàn)功能的首先。


完整代碼

article.txt 文件里面存放的就是該測(cè)試文章的純文本內(nèi)容


相關(guān)資訊
官方微信公平臺(tái)
地址:唐山市高新區(qū)衛(wèi)國(guó)北路1698號(hào)11層?
? ? ? ? ? ?唐山市路北區(qū)車站路169號(hào)
版權(quán)信息 ?唐山阿優(yōu)科技有限公司 ?ICP備: 冀ICP備18033322號(hào)-1? ? ? ? ? ? 冀公網(wǎng)安備 13024002000307號(hào)
微信咨詢
微信在線客服
7*10小時(shí)為您服務(wù)
QQ在線
歡迎QQ在線資訊
工作時(shí)間: 8:00 - 21:00
在線客服
在線客服
嘉义市| 若羌县| 丰原市| 保康县| 左贡县| 大名县| 冷水江市| 常州市| 阳城县| 鲜城| 石台县| 镶黄旗| 荆州市| 方城县| 扶余县| 收藏| 达孜县| 南汇区| 和田市| 泽库县| 镇赉县| 湟中县| 科技| 富平县| 濮阳市| 翁牛特旗| 亚东县| 兴宁市| 顺昌县| 浪卡子县| 柯坪县| 陈巴尔虎旗| 玉屏| 辰溪县| 岑溪市| 盐边县| 平乐县| 新营市| 扎兰屯市| 陵川县| 灵璧县|