基于LDA主题模型的标签传递算法_刘培奇.pdf

基于LDA主题模型的标签传递算法_刘培奇.pdf

ID:57772911

大小:388.38 KB

页数:5页

时间:2020-03-31

基于LDA主题模型的标签传递算法_刘培奇.pdf_第1页
基于LDA主题模型的标签传递算法_刘培奇.pdf_第2页
基于LDA主题模型的标签传递算法_刘培奇.pdf_第3页
基于LDA主题模型的标签传递算法_刘培奇.pdf_第4页
基于LDA主题模型的标签传递算法_刘培奇.pdf_第5页
资源描述:

《基于LDA主题模型的标签传递算法_刘培奇.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、JournalofComputerApplicationsISSN1001-90812012-02-01计算机应用,2012,32(2):403-406,410CODENJYIIDUhttp://www.joca.cn文章编号:1001-9081(2012)02-0403-04doi:10.3724/SP.J.1087.2012.00403基于LDA主题模型的标签传递算法*刘培奇,孙捷焓(西安建筑科技大学信息与控制工程学院,西安710055)(*通信作者电子邮箱peiqiliu@163.com)摘要:标签传递算法是一种半监督分类方法,由于该算法存在要求数据分类结果

2、符合流行假设、数据维数较高时计算复杂度高等问题,在文本分类中效果较差。针对这些问题,经过对LDA主题模型和标签传递算法原理及复杂度的分析,将两者结合,提出一种基于LDA主题模型的标签传递算法LPLDA。该算法用LDA主题模型中的主题表示文本数据,一方面使用LDA主题模型表示文本保证分类结果符合流行假设,另一方面有效减少标签传递算法相似度计算时间。经过实验证明,该算法在标记数据少于待测样本时,分类效果优于传统的有监督分类方法。关键词:LDA主题模型;标签传递算法;半监督学习;数据降维;流行假设中图分类号:TP181;TP391.4文献标志码:ALabelpropag

3、ationalgorithmbasedonLDAmodel*LIUPei-qi,SUNJie-han(SchoolofInformationandControlEngineering,Xi'anUniversityofArchitectureandTechnology,Xi'anShaanxi710055,China)Abstract:LabelPropagation(LP)algorithmisonekindofsemi-supervisedlearningmethods.However,itsperformanceintextclassificationisn

4、otgoodenough,becauseLPalgorithmdemandsmanifoldassumptionandithashighcomputationalcomplexityincalculatingthesimilarityofhighdimensiondata.AnewmethodwasproposedtocombineLatentDirichletAllocation(LDA)modelwithLPalgorithmtosolvetheaboveproblemsafteranalyzingtheirprinciplesandcomplexities.

5、ItrepresenteddocumentswithlatenttopicsinLDA.Ononehand,itreducesthedimensionofmatrixes;ontheotherhand,itcanhelpLDAmodelleadtotheclassificationresultswithmanifoldassumption.Theexperimentalresultsshowthatthenewmethodperformsbetterthantraditionalsupervisedtextclassificationmethodsintestin

6、gsetswhenlabeleddataislessthanunlabeleddata.Keywords:LatentDirichletAllocation(LDA)model;LabelPropagation(LP)algorithm;semi-supervisedlearning;dimensionalreduction;manifoldassumption[5][6]直推式学习方法,包括调和高斯场、局部和全局一致性、0引言[7][8]线性邻居传播等。本文使用Zhu等提出的一种简单的半监督分类方法可以利用大量无标签数据指导分类,在减标签传递算法对文本分类,该方

7、法采用径向基函数(Radial[1-4]少数据标注的同时提高分类效果。标签传递(LabelBasisFunction,RBF)核函数作为顶点间的相似度构建图,对Propagation,LP)算法通过在已标记和未标记数据间根据相似图中的所有顶点都进行连接。图中所有顶点根据概率转移矩度进行标签的传递进行半监督分类,当标签达到稳定时根据类阵进行标签传递,过程与随机游走相似,当标签达到稳定状态[5-8]别概率为未标记数据分配标签。将标签传递算法用于文后,未标记顶点选择标签矩阵中概率最大的类别标签。式[8]本分类,需要解决两个问题:1)文本数据的维数较高,标签传递(1)定义

8、了概率转移

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。