基于分类技术的blog用户兴趣挖掘

基于分类技术的blog用户兴趣挖掘

ID:22971096

大小:53.00 KB

页数:5页

时间:2018-11-02

基于分类技术的blog用户兴趣挖掘 _第1页
基于分类技术的blog用户兴趣挖掘 _第2页
基于分类技术的blog用户兴趣挖掘 _第3页
基于分类技术的blog用户兴趣挖掘 _第4页
基于分类技术的blog用户兴趣挖掘 _第5页
资源描述:

《基于分类技术的blog用户兴趣挖掘 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于分类技术的Blog用户兴趣挖掘  摘要:文章通过分析Blog用户兴趣挖掘的重要性,提出了一种基于文本分类技术的自动挖掘Blog用户兴趣的方法,帮助用户自动推荐相似兴趣的博客以及为用户提供个性化的搜索与浏览博客内容的服务。  关键词:Blog;内容挖掘;Blog搜索;中心向量法;kNN算法    1Blog技术介绍  Blog是ail、BBS、ICQ之后出现的第四种网络交流方式[1]。  中国互联网络信息中心(NIC)于2009年1月发布的《中国互联网络发展状况统计报告》中指出:2008年博客用户规模持续快速发展,截至2008年12月底,在中国2.98亿网民中,拥有博客的

2、网民比例达到54.3%,用户规模为1.62亿人。在用户规模增长的同时,中国博客的活跃度有所提高,半年内更新过博客的比重较2007年底提高了11.7%。博客数量的增长带来了用户聚集的规模效应。博客频道在各类型网站中成为标准配置,其中SNS元素的加入对博客用户的增长起到了推动作用。博客的影响力进一步加强[2]。  由此可见,Blog作为Web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点吸引着越来越多的网络用户,撰写和浏览Blog已经成为网络文化的流行热点,推动了Blog搜索服务的发展。  2Blog用户兴趣挖掘的研究意义  Blog相关研究可划分为Blog

3、定义与识别、内容挖掘、社区发现、重要性分析、Blog搜索和作弊Blog识别这6个主要方面[3],而Blog搜索是当前Blog研究的热点之一。但是,目前的Blog搜索服务大都是基于对用户输入关键词的匹配。这种搜索方式仅仅是传统Web搜索的延伸,搜索范围也受到用户所指定的关键词的限制,并没有突出Blog搜索的特殊性,也没有有效地利用博客内容的个性化、多元化等特征。  而事实上,博客中个性化的内容为我们提供了丰富的有价值的可以用来挖掘用户个性化特征的数据,不仅可以帮助我们理解博客用户的兴趣、意图,对其进行个性化的服务,还可以为具有不同信息需求的用户提供个性化的搜索与浏览博客空间中

4、的内容的服务。因此,研究Blog用户的兴趣挖掘技术对于Blog搜索服务的发展是十分重要的。  3构建Blog用户兴趣挖掘方法  该方法将兴趣挖掘的问题转化为对博客文章的文本分类问题,即利用文本分类技术来实现对主题信息的抽取,将一个博客内的文章分到事先定义好的兴趣类别中,如“体育健身”、“音乐”或“影视”等,然后综合所有文章的分类结果确定该博客的兴趣集合。  3.1定义兴趣类别  由于没有统一的兴趣分类方式,所以可通过自定义兴趣类别来构建兴趣类别体系,但要求体系中尽可能包含生活的各种兴趣,且要具有层次化的结构,见图1描述了层次结构中一个第一层的类别节点和其子类别的形式:  3

5、.2分类博客文章  用分类算法计算待分类的博客文章与各兴趣类别的关联度,关联度较高的类将被判定其归属于哪一兴趣类别。目前已有多种文本分类算法:中心向量法、k邻近算法、支持向量机、简单贝叶斯等。  中心向量法是根据算术平均为每类文本生成一个代表该类的中心向量,计算待分类文本与每类中心向量间的欧式距离,以距离最近的类作为待分类文本的类别。该方法分类速度快,但是,以向量空间距离作为分类标准将形成类球状类别分布,对于与多个类距离相近的文本,该算法的分类准确度将急剧下降[4]。  kNN算法,即k邻近算法,被普遍认为是分类准确度很高的算法。kNN算法的思想是:给一篇待识别的文章,系统

6、在训练集中找到最近的K个近邻,看这K个近邻中多数属于哪一类,就把待识别的文章归为哪一类。K近邻分类器在己分类文章中检索与待识别的文章最相似的文章,从而获得被测文章的类别[5]。kNN算法虽然具有很高的分类准确度,但是它没有训练过程,分类阶段要对所有训练样本进行相似度匹配,计算时间较长。  通过分析,笔者认为可以采用速度较快的中心向量法和准确性很高的kNN算法相结合的方式完成博客文章的分类。系统先采用中心向量法进行分类,对于超过预定义边界范围的待分类向量再采用kNN算法进行补充分类,以保证其分类准确性。因为在大多数情况下,中心向量法即可完成分类,所以该方式显著减少了分类算法的

7、平均计算时间。  3.3构建兴趣集合  当一个博客的所有文章被分类后,文章所属的兴趣类别被认为是博客的兴趣。然后,对兴趣进行整理和排序:根据每个兴趣出现的次数对兴趣进行排序,以兴趣出现次数的多少反应博客对兴趣感兴趣的程度。不同层次的兴趣单独计算。  用户兴趣的收集和挖掘可能会涉及到用户的隐私和安全问题,因此,在使用用户兴趣数据前要征得用户的同意,同时让用户积极参与,以获得更好的用户个性化服务。  4Blog用户兴趣挖掘的应用  4.1自动推荐相似兴趣的博客  对于给定的博客,利用推荐系统可以挖掘出博客用户的兴趣,然

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。