欢迎来到天天文库
浏览记录
ID:38697112
大小:162.00 KB
页数:7页
时间:2019-06-17
《实例解析关键词聚类的方法策略》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、实例解析关键词聚类的方法策略收藏到:1时间:2014-06-05 文章来源:马海祥博客 访问次数:388最近,马海祥接手了一个大型的网站,首先要做的就的对这个网站的流量来源进行分析,这其中最繁琐的莫过于对来源关键词的聚类整合了。所谓关键词聚类就是以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。所以,要想做好这类做关键词的聚类,就一定要有一些基础信息,基础数据作为背景。在此,我就
2、借助马海祥博客的平台跟大家实例解析关键词聚类的方法策略:1、百度商业词聚类模型现在对于一些医疗SEO来说看行业新闻,大家经常讨论一个话题就是百度医疗行业的收入贡献比是多少?,其实,爆个大料给大家,在2005年甚至2006年之前,百度自己都不掌握这类数据。当时百度有一个简单的客户分类,是客服提交的,然后我们看了一下消费的行业分布,结果显示超过50%属于其他分类,这个结果基本上就没法看了。然后我就琢磨,用商业词能不能直接聚类为行业,当时我在产品部门,合作反欺诈点击的工程师是张怀亭,这是个算法高手,他当年的毕业论文就是关联
3、规则和聚类算法,我就去请教他,他说了一堆,我大部分没听懂,但大概要点知道了一些,然后找他要了论文看了看,也没太看明白,凭借自己粗浅的理解我就动手了,然后这个还真做成了。我的出发点就是假设客户本身具有行业属性(如果这个假设不存在,那就没辙了),我认为每个客户提交的关键词,彼此是有关联的。某两个关键词如果同时被不同的客户提交,其关联性就会随之增加,这个是最基本的一个定义,叫做共同推举数,也是最容易算的一个值。但是仅仅依赖于共同推举数有一个问题,就是会导致很多词都和热门词关联,这是不合理的,我记得当时好像是某网上书城的推荐
4、购买那一栏,明显都是热门书籍,似乎也是基于共同推举数做的关联。问题1:A和B有50个共同推举,A和C有30个共同推举,但是B这个词是热门词,共有2000个客户提交;而C是冷门词,只有50个客户提交,请问A和B的关联度高还是A和C的关联度高?问题2:客户1提交了10000个词(类似阿里真的是这么提交的);客户2提交了20个词,客户1所提交的10000个词的彼此关联度和客户2之间提交的是否一致?考虑这两个问题,就需要做权值调整了,然后再计算词与词的关联值。那么,权值该怎么定呢?对于这个权值的设定做了一个程序,实现程序只用
5、了不到一个下午,然后跑一遍程序大约1个小时到2个小时(那时候百度的商业词还没那么多,客户也没现在呢么多,我的程序其实效率不够好)。然后我做了一个web展示界面,就是任意输入一个词,列出其关联词及关联值,目测坏案例,分析参数的问题,然后修改参数,再跑一遍。跑了n多遍,大约两三天时间,觉得结果差不多了,词与词的关联建立起来了,考虑第二步,聚类。(当时认识了很多奇葩的商业词,大开眼界,对互联网行业认识彻底改观,比如白小姐,黄大仙……,这个领域就不再说了)马海祥觉得聚类的做法就极为简单了,把每个行业的代表词(与很多词关联的)
6、抽取出来,当作核心词,然后基于词的关联,延展一级关联、二级关联、三级关联,比如A与B关联,B月C关联,C与D关联,计算彼此权值衰减,得出A与D的关联。尽可能把所有词聚合到核心词上,作成行业词表。最开始核心词我从库里挑与其他词关联度较高的有20多个,然后多级权值衰减也是假设的,然后跑一遍,看两个指标,第一、覆盖率是多少?第二、准确率如何?选取每个行业关联度最低的词(坏案例的密度较高,有些词会同时被两个行业核心词关联,但权值计算会出问题,导致被并入错误的行业)去看,选择没有被关联上的词去看,分析权值的问题,然后修改衰减参
7、数,增加核心词。这个程序我也是写了一个下午,但是调试权值和增加核心词,做了一个礼拜。然后,百度商业分析部终于可以推出,基于行业的收入报表。我自豪的说一句,百度做收入行业分布,是基于我的关键词分类算法开始的,当然,今天他们鸟枪换炮了,我的算法效率不够(初期还行,到更大的词规模和更多客户就不行了),覆盖率和准确度并不十分完美(坏案例还是一直存在的,不过尽可能控制在消费总额的10%内,对热门词比较准,但对一些长尾控制不住)。不过、我是在产品部门干的这个活,呵呵。后来,这个模型还用于智能起价,下面马海祥再说一下关于智能起价的
8、一些事。智能起价其实是百度一个失败的商业尝试,对业务的伤害非常大,但是初期的设计理念并没有大问题,百度当时基于关键词的竞价(当时的竞价模式非常简单,别跟我说现在百度的竞价模式不这样,我明白),对商业价值的挖掘是有缺陷的,比如一些超级热门词,3毛一个点击也是卖不掉的(比如电影,小游戏)。是不是可以便宜点卖呢?对一些非长尾关键词但是价值很高的词(具
此文档下载收益归作者所有