欢迎来到天天文库
浏览记录
ID:8184345
大小:302.00 KB
页数:10页
时间:2018-03-09
《基于图的微博广告识别 - 《厦门大学学报(自然科学 …》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、doi:10.6043/j.issn.0438-0479.201612030基于图的微博广告文本识别罗斌1*,唐红艳1,2,王志豪3,秦悦1,苏劲松1(1.厦门大学软件学院,福建厦门361005;2.北京大学软件与微电子学院,北京102600;3.厦门大学航空航天学院,福建厦门361005)摘要:微博作为当下最受欢迎的信息交流平台之一,已经迅速成为了社会化营销的重要工具。目前微博平台上充斥着大量的微博广告,因此有效的微博广告文本自动识别方法对于微博学术研究具有重要意义。针对微博广告文本识别问题,提出利用基于图的半监督的标签传播算法,指导计算机从大量的非
2、结构化的微博文本中自动识别出微博广告。通过对实验数据的评测,结果显示,当有标签样本较少时,基于图的半监督的标签传播算法能够获得比有监督的支持向量机和朴素贝叶斯算法更好的性能。收稿日期:2016-12-21录用日期:2017-05-27基金项目:国家自然科学基金(61303082);厦门大学大学生创新创业训练计划项目(2016Y1131)*通信作者:robin@xmu.edu.cn关键词:微博广告文本识别;半监督;标签传播算法中图分类号:TP391文献标志码:A微博(Micro-blog)是一个通过关注机制分享、传播、获取简短实时信息的广播式平台,由于其
3、特有的简洁性和便捷性,微博迅速成为了当下最受欢迎的信息交流平台之一。正因为其拥有广大的用户群体,并具有高效传播等特点,许多企业以微博为平台进行产品推广,产生了大量的微博广告文本。而这些数据充分反映了商家推介商品的信息,存在着“自动发送,信息重复率高,实效性强”的特点。然而,这些数据对于其它微博数据的分析,例如,用户的情感分析,兴趣爱好分析,社会舆情分析等并无太大用处,过多的微博广告文本反而影响了微博数据分析模型的准确率。如果能够事先识别并剔除微博广告文本,将有望进一步提高相应模型的性能。因而,如何准确地从海量微博文本数据中识别出微博文本广告,对于微博许
4、多研究都具有着重要意义。微博广告文本识别本质上是一个文本分类问题。文本分类的研究最早可追溯到20世纪50年代末期,这一时期主要是对文本分类理论的研究,如Luhn开创性地提出基于词频的文本自动分类方法;Maron和Kuhns提出概率标引模型等。到80年代,文本分类大多是采用知识工程的相关技术,根据专家规则手工建立分类器。这时的信息检索技术逐渐走向成熟,并为文本分类提供技术支撑,最著名的是SMART系统[1]。90年代后,统计和机器学习方法被引入到文本分类,分类器在自主学习后对文本进行自动分类,不再需要人工干预,准确率和查全率也得到了有效提高。目前国外对文
5、本自动分类的研究已经从实验性阶段进入到实用性阶段,并在邮件分类、电子会议等领域取得了较为广泛的应用[2]。文本分类发展到今天,相关技术日趋成熟,提出的算法也不计其数,其中比较经典的算法包括K最近邻(K-nearestneighbor,KNN)、朴素贝叶斯(naivebayes,NB)、支持向量机(supportvectormachine,SVM)以及决策树(decisiontree,DT)等等。近期,随着深度学习的快速发展,使用神经网络(neuralnetwork,NN)[3-5]来进行文本分类也成为一种常见的方法。这些算法多为监督式学习(superv
6、isedlearning)方法,即需要利用大量的已知类别的训练样本进行学习。然而,随着数据收集和存储技术的不断发展,收集大量无标签数据的过程日益简单,而对收集到的数据进行标记却相对困难,因为这一过程往往需要耗费大量的人力物力,有时甚至需要依赖于少数领域专家来完成。因此,利用大量的无标签数据来帮助提升在少量有标签数据上学到的模型在整个数据分布上的泛化能力的需求日益强烈,而传统的有监督式文本分类方法已经无法解决这一问题。因此,本文中提出利用基于图的半监督的标签传播算法(labelpropagationalgorithm,LPA),指导计算机从非结构化的微博
7、文本中自动识别出微博广告,实现当有标签样本不足时利用大量的无标签样本来改善学习性能。LPA首先需要构建一个微博广告文本识别的图模型,在这个图模型中,节点代表各个有标签和无标签的微博文本,边则表示对应两条微博文本之间的相似度。然后,节点的标签信息根据节点间的相似度在图模型中迭代传播,直到整个系统达到稳定状态。本文章节安排如下:首先对标签传播算法的基本理论进行简要介绍,其次建立一个基于图的微博广告文本识别模型,然后运用标签传播算法在该模型上进行自动的微博广告文本识别,并给出在实验数据上的实验结果和分析,最后与相关工作进行比较和总结。1LPA基本理论LPA是
8、由Zhu等[6]提出的一种基于图的半监督学习方法,它的基本思路是利用少量有标签节点的标签信息进
此文档下载收益归作者所有