• 注册
  • 发布
  • APP下载安卓
  • 注册
  • 查看作者
    • SEO排名的底层逻辑(什么是TF-IDF算法)

      本文语音阅读 播音源:Aiqi

      什么是TF-IDF

      百度百科是这样说的:

      “TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。”

      文章链接: 链接

      SEO排名的底层逻辑(什么是TF-IDF算法)

      大家看了定义之后跟我一样是懵的吧,为了便于大家理解,码迷举一个简单易懂的例子。

      假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?

      内容1: 水果有水果,水果,水果,水果,水果

      内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

      内容3: 蔬菜都很好吃,我最爱吃茄子了

      内容4: 苹果,梨子都是很好吃的水果

      内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

      相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。

      其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐。

      TF-IDF算法的计算步骤

      第1步:计算逆文档频率

      我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。

      分词后,各个单词的逆文档频率如下:

      水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

      SEO排名的底层逻辑(什么是TF-IDF算法)

      PS: IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),为了便于理解,这里做了精简。

      按照我们的直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,”水果、苹果”是本例中重要性最高的2个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。

      所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

      内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

      内容4: 苹果,梨子都是很好吃的水果

      内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

      第2步:计算词频(TF)

      我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中出现的次数越高,也说明这个词语对这篇文章更重要。回到本例,“水果”是我们的核心词,那么因为内容5中出现“水果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序结果如下

      内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)

      内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)

      内容4: 苹果,梨子都是很好吃的水果(第三名)

      内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)

      内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )

      以上是砍了又砍的TF-IDF算法简化解读版,真实的TFIDF算法比这个要正规复杂很多,这里只是让大家get到重点,这样目的就达到了。

      TF-IDF对SEO非常重要!非常重要!非常重要!

      重要的事情说三遍!

      我们可以看到,TFIDF算法,不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、360、google来说,TFIDF算法的出现屏蔽了一大批用关键词密度来获取排名的SEO小白,同时提升了搜索质量啊,真是一箭双雕。

      百度百科里面说了:“除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。”。意思是什么?你排名可以由下面的公式决定。文章得分=TFIDF得分+链接得分,百度搜索引擎在用TFIDF!!

      那么有人站出来问了,码迷啊,人家只是在百度百科里面说,百度也没有说用TFIDF算法啊,有本事亮出实锤来。好吧~咱往下接着看。

      首先,百度在用TFIDF算法

      百度专利中使用TFIDF的实锤,请查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》。搜索算法来去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有点不同,它是目前最核心的搜索算法之一。

      SEO排名的底层逻辑(什么是TF-IDF算法)

      其次,GOOGLE也用TFIDF算法

      google承认在搜索中使用的TFIDF算法:

      SEO排名的底层逻辑(什么是TF-IDF算法)

      最后,TFIDF得分占极高比重

      如果搜索引擎确定使用TF-IDF对网页内容作为评判质量的因子,那么这个比重有多大?码迷知道,现在的搜索引擎一般用如下的算法计算网站页面得分:score(页面得分) = TFIDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

      SEO排名的底层逻辑(什么是TF-IDF算法)

      大约在2G左右的谷歌搜索资料中,码迷做了人工智能训练,预测TFIDF分值大约占百度40%左右的权重,谷歌更是达到了50%。

      链接分,通过快排朋友透露,权重大约占百度20%左右,谷歌尚不清楚。

      用户体验得分(可以通过刷快排提高)的比率,百度在40%左右,Google则没有找到相关快排技术文档。

      所以说,在中国做SEO:

      排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。

      如何提高TF-IDF得分

      写内容 写内容 写内容

      SEO排名的底层逻辑(什么是TF-IDF算法)

      定位好目标核心搜索词,然后候选好3个左右的长尾关键词,定好你的网站标题。写好你的标题,然后按照标题认真写好你的SEO内容。白帽SEO同学可以搞原创,黑帽同学可以做采集做拼凑(此处省略几万字)。。。

    • 生成海报
    • 广东·深圳
    • 0
    • 0
    • 0
    • 112
    • 请登录之后再进行评论

      登录
      海报

      最新评论

      3天前
      […] can young men take viagra […]

      来自: SaaS平台官网如何策划?

      文武双全文武双全4天前
      赠送了礼物[比心]

      来自: 专访黄海钧:TOB品牌信任生长之路

      1星期前
      […] viagra 200mg tablets […]

      来自: SaaS平台官网如何策划?

      1星期前
      […] generic cialis cheap […]

      来自: SaaS平台官网如何策划?

      1星期前
      […] female cialis […]

      来自: SaaS平台官网如何策划?

      小助手小助手1个月前

      一般认为Web2.0(论坛、博客为代表)和Web3.0(社交平台、微博客为代表)的相继流行,UGC(User-generated Content,用户生产内容,也称UCC,User-created Content)功不可没。随着移动互联网的发展,网上内容的创作又被细分出PGC(Professionally-generated Content,专业生产内容,也称PPC,Professionally-produced Content)和OGC(Occupationally-generated Content,职业生产内容),甚至有UGC、PGC和OGC谁是主 流的讨论。

      这三者之间既有密切联系又有明显的区别。一个平台(网站)的PGC和UGC有交集,表明部分专业内容生产者,既是该平台的用户,也以专业身份(专家)贡献具有一定水平和质量的内容,如微博平台的意见领袖、科普作者和政务微博。PGC和OGC也有交集,表明一部分专业内容生产者既有专业身份(资质、学识),也以提供相应内容为职业(职务),如媒体平台的记者、编辑,既有新闻的专业背景,也以写稿为职业领取报酬。

      因此,UGC和PGC的区别,是有无专业的学识、资质,在所共享内容的领域具有一定的知识背景和工作资历。PGC和OGC的区别,相对容易,以是否领取相应报酬作为分界,PGC往往是出于“爱好”,义务的贡献自己的知识,形成内容;而OGC是以职业为前提,其创作内容属于职务行为。是否有非专业的OGC?

      从上图也看到UGC和OGC没有交集。在一个平台(网站)上,用户和提供商总是相对的,两者之间,既是该平台的用户也是该平台的提供商的角色可能有,但属于极少的群体。

      以OGC为代表的网站如各大新闻站点、视频网站,其内容均有内部自行创造和从外部花钱购入版权;以UGC为代表的网站如各大论坛、博客和微博客站点,其内容均由用户自行创作,管理人员只是协调和维护秩序;PGC则在这两种网站中都有身影,由于其既能共享高质量的内容,同时网站提供商又无需为此给付报酬,所以OGC站点和UGC站点都很欢迎PGC。

      显然,PGC是稀缺的,由于内容的生产是需要成本的(时间、人力和物料),不给付报酬恐难维继,而给付报酬的PGC则归属到OGC的范畴。无论是以内容提供见长的新闻站点、视频网站,还是以互动服务见长的社区、社交站点,都努力争取更多的PGC。

      或许PGC只是业界的一种错觉,根本上来看,PGC是UGC中的一部分,只是这部分内容相当精彩。互联网内容供应仍是泾渭分明的UGC和OGC。


      来自: 什么是UGC、PGC和OGC?

      。_819。_8192个月前

      卧槽!无奈本人没文化,一句卧槽行天下!

      来自: Wordpress添加iconfont彩色图标教程「小白专用教程」

      小助手小助手2个月前
      1. 在内容层面上不要按照行业来区分啦。因为单一行业,内容太少啦,如果你认为此路可行,就在内容中心,做分类,结构化内容。

      2. 若是做解决方案页面,可以从行业通电,解决方法,落地案例,行业资料下载进行策划!



      来自: SaaS平台官网如何策划?

      小助手小助手2个月前

      看看这篇研究文档https://www.funion.info/2482.html

      来自: 请问什么是元宇宙?

      小助手小助手3个月前

      666

      来自: 深度剖析|DTC情感营销三部曲

    • 赚金币
    • 发布
    • 飞优网小程序码 小程序扫码
    • 签到中心
      小黑屋
      举报中心
    • 单栏布局 侧栏位置:
      关闭窗口
      下载海报