当前位置:云好站网站目录 » 文章资讯 » 网站运营 » 文章详细

关于TF-IDF分词加权算法与关键词频率的原理分析!

网站运营 108

尽管搜索引擎对内容相关性的计算还是以TF-IDF为基础的,但并非是唯一的决定性因素。一般来说网页与用户搜索词相关度越高,那么该页面在搜索引擎结果中的排名也就越靠前。

我们都知道提升页面关键词密度有利于提升排名,那么对于SEO关键词密度背后的TF-IDF分词加权算法了解多少?尽管SEOer不需要对这些搜索技术如数家珍,但通过对技术原理的了解却能更好的理解SEO。

TF-IDF分词加权算法既然是搜索引擎判定网页内容的技术手段,那么SEOer能否依据技术原理进行网页关键词排名优化呢?该技术命名中TF即词频(Term Frequency)即就是关键词出现次数与整个页面词量的比值,IDF指逆文本频率指数(Inverse Document Frequency)为可被搜索展现的网页数量与包含关键词网页数量比值的对数(log)值。

关于TF-IDF分词加权算法与关键词频率的原理分析

TF-IDF分词加权算法仅仅搜索引擎判定网页内容的基础技术,而决定最终排名的因素还有网站整体权重、页面质量度、以及该页面链接资源等多个维度的因素。本文旨在解释TF-IDF分词加权算法,同时涉及到的数据不具有客观准确性,只是为了更好的举例说明做出的合理假设,帮助大家更好的理解“关键词密度”概念背后的技术原理。

01

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估关键词对于一个文件集或一个语料库中的某一份文件的重要程度。其中关键词的重要性随着出现次数的增多而成正比增加,但同时会随着该关键词在语料库中出现的频率成反比下降。即相同关键词内容的页面越多,则该关键词的重要性就越低。

上边的概念或许有点苦涩难懂,下边我们用举例的形式进行说明。比如在一千词量的网页中,“白皮松”“的”“价格”分别出现10次、35次、15次,那么词频分别为0.01、0.035、0.015,直接相加之后其和为0.06就是该网页与搜索词“白皮松的价值”之间相关性的一个简单度量。

02

这时候很多人就会发现“的”占据了58%的贡献,而该词对确定页面主题几乎不存在任何影响,所以在分词加权计算中应将此类词删除不计(应删除词),此时上述网页与搜索词“白皮松的价格”相关性数值为0.025,其中“白皮松”占比40%“价值”占比60%,在汉语中“价格”相对比较通用,而“白皮松”则更能对文章主体进行预测,所以就需要将通用词对相似度的贡献占比降低,因此引入了逆文本频率指数这一概念。

这里用SEO的思维理解就是可被用于搜索展现的网页数量,或者叫内容稀缺程度,如果一个关键词只在很少的网页中出现,我们就很容易通过该关键词找到目标页面。一般将可用于搜索展现的网页数量(语料库)记为D,包含关键词的页面数量记为d,IDF的值为lg(D/d)。如果假定可被搜索展现的网页数量为1亿(即将百度索引在库的中文网页数量记为1亿),当包含关键词“白皮松”的网页有2万时,其IDF=lg(1亿/2万)=lg5000=3.7,关键词“价格”出现在500万个页面中,其IDF=lg(1亿/500万)=lg20=1.3,而删除词“的”基本上在任何网页中都有出现,其IDF=lg(1亿/1亿)=0。此时该网页和搜索词“白皮松的价格”相关性TF-IDF值为0.0565,其中“白皮松”贡献了0.037,“的”贡献为0,而“价格”只贡献了0.0195,此时各分词对搜索词相关性权值贡献占比才符合常理。

03

无论百度还是谷歌又或者其他搜索引擎,TF-IDF虽然是比较基础的网页核心内容识别技术,但在搜索排名算法中也是比较小一部分。如果刻意提升关键词频率则会导致用户搜索体验降低,因此为了打击关键词恶意堆砌,各大搜索引擎又对TF值做了一定的限制。一般我们用2%-8%的关键词密度作为把控词频的量化标准,但也有人认为过于宽泛而提出安全词频以不超过15次为宜。不同的搜索引擎对关键词堆砌容忍程度不同,因此我们在内容建设过程中,做到恰当合理自然的出现关键词即可。

总结

在进行网站内容更新时,依然按照TF-IDF分词加权算法作为指导,但却不必用具体的数量关系作为衡量标准,更不必花很多时间精力去计算关键词密度是否合理。