今日头条进阶手册之消除重复

今日头条进阶手册之消除重复

ID:35208631

大小:21.08 KB

页数:12页

时间:2019-03-21

今日头条进阶手册之消除重复_第1页
今日头条进阶手册之消除重复_第2页
今日头条进阶手册之消除重复_第3页
今日头条进阶手册之消除重复_第4页
今日头条进阶手册之消除重复_第5页
资源描述:

《今日头条进阶手册之消除重复》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、今日头条取消重复篇头条号发布的内容,在通过审核和进入推荐系统之间,还有一道「难关」,那就是「消重机制」,数据表明,被「消重」是头条号所发布内容无推荐量的最常见的原因。一.什么是消重?我们都知道,在互联网上,同样的文章、图片、视频被多个媒体刊登,是很常见的情况。无论是网站,还是各种媒体平台上,原创内容除了原创来源之外,往往还会被很多其他媒体转载或复制。如果我们用搜索引擎搜索一篇内容,经常会得到多个网址。在过去,我们只要自己筛选和判断,哪个网址更权威,更有价值,再点击去访问就可以了。但是想象一下,如果这样的景象是出现在你今日头条的信息流里——系统连续给你推荐了几篇相似的内容

2、,会怎么样呢?你可能会觉得:为什么要给我推荐一样的内容呢?系统应该选择最好的那个来源,给我推荐一次就够了——如果我想看,看一篇就够了,如果我不想看,那么重复推荐也没有意义啊!没错,所以今日头条在推荐某篇内容之前,必须确定这篇内容:在系统里是否存在相同或者高度相似的内容?如果存在,那么这篇内容的来源是否是最权威、最有价值、最有可能是原创的来源呢?消重就是指对重复、相似、相关的文章进行分类和比对,使其不会同时或重复出现在用户信息流中的过程。头条号平台首先会通过消重机制来决定同样主题或内容的文章是否有机会被推荐给更多用户。二.消重的种种好处你可能会觉得,消重对原创发布者有利,

3、但对于那些善于发现和再加工优质内容的媒体不太有利,但是综合看来,我们觉得消重的好处是很多的,尤其对于用户来说:优化用户的体验。对用户来说,同样主题的文章看一篇就够了;鼓励原创!在文章相似的情况下,申明「原创」文章是后续获得推荐的重要指标;给更多内容以曝光机会。因为用户的兴趣是确定的,如果每次刷新都反复推荐类似的内容,你发布的其他内容不就没有曝光机会了吗?当然,总体来说,这是一个有利于原创者的机制,这也和头条号平台鼓励原创内容生产的目标一致。三.头条号算法中的消重过程如何判断两个内容是否相同呢?如果让人来判断,可能就要逐字逐句地把文章读完才能判断得出来。通过计算机这样去判

4、断当然也是可以的,不过,当每天需要处理的内容达到十多万篇次的时候,这么做即使对于计算机来也太麻烦了。有没有更简单的方法呢?有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的「身份证」也能起到类似的作用,对于图片、视频等信息形式,原理也是类似的。延伸阅读:注意:此处介绍的只是计算原理,并非实际发生的计算过程。信息的「身份证」,一种更常见的称呼是「信息指纹」,是计算机应用领域里经常用以判断信息重复性的方法。「信息指纹

5、」的计算方法有很多种,但原理是相似的:你可能知道,不管是中文、外文还是数字,在计算机系统里,实际上都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。简单来说,计算会对文本中出现的不同字符的信息指纹,结合它们各自在内容中出现的次数,反复进行算术运算,最终得到一篇内容的信息指纹。理论上说,如果运算足够多的次数,就会产生足够独一无二的数字结果。信息指纹的重

6、复概率有多低呢?假设我们通过上面的计算,得到一串128位的二进制数字,这在计算机系统里只需要占用很小的空间,但是根据「抽屉原理」,这样的数字重复一千八百亿次才能重复一次!这对于一般的信息消重来说,已经非常足够了。总而言之,相同文章具有不同信息指纹,或者不同文章具有相同信息指纹的概率都几乎是0,对于“消重”机制,不必担心误判,也不能心存侥幸!原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的。并且,相似的内容会具有相似的身份证。这是头条号的系统对内容进行消重的基础。每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进行比对。通常有以下几种不同的消重机

7、制:1.内容消重与「关键项」在计算一篇内容的「身份证」之后,基本上有两种情况。其一,这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一篇。对于内容发布者来说,这恐怕是最理想的情况了,这种情况下,在向读者推荐相同内容时,系统除了推荐这一篇外,别无选择。第二种就要复杂得多了,同时也是非常常见的情况:系统里存在多篇不同内容,都具有同一张身份证。这时,系统就需要从这些相同内容中选择一篇“关键项”向用户推荐。进行选择的最终目的是保证向用户推荐的内容来自更权威、更有可能是原创来源的头条号。如何判断哪个头条号更权威、更有可能是原创呢?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。