资源描述:
《基于LDA模型文档生成算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于LDA模型的文档生成算法2014年12月3基于LDA模型的文档生成算法李晨(西安电子科技大学电子工程学院,陕西西安710071)摘要:本文包含两部分内容,一部分是我们对LDA模型的理解,LDA模型的核心是对参数的估计,而估计过程用到了EM,variationalinference等方法对进行逼近,最后收敛得出学习结果。另一部分是在此基础上所做的文档生成模型,这个生成模型的核心是对参数的采样,我们利用Dirichlet分布与Gamma分布的关系先产生k个相互独立的服从Gamma分布的随机数,再利用=得出服从Dirichlet分布的,最后利用函数对各个主题和
2、单词进行采样,最终得出几篇文档,经分析,生成的文档具有一定的意义。关键词:LDA模型文档EM算法DocumentgenerationalgorithmbasedonLDAmodelChenLi(SchoolofElectronicEngineering,XidianUniv.,Xi’an710071,China;SchoolofElectronicEngineering,XidianUniv.,Xi’an710071,China;SchoolofElectronicEngineering,XidianUniv.,Xi’an710071,China)Abstr
3、act:Alongwithourcountryautomobileindustryandthedevelopmentofthehighway,greatlypromotedthemeridiantyremarketdemand,sothattheradialtyredevelopmentrapidly.Thepapermainlyintroducesthecharacteristicsoftheradialtyredevelopmentstatusandtrend,atthesametimeputsforwardthedevelopmentofchina’s
4、automobileradialtyreindustryapieceofadvice.Keywords:LDAStyleDocEMmaths基于LDA模型的文档生成算法2014年12月31引言LDA模型(LatentDirichletAllocation)是文本建模的一种方法,属于概率生成模型。LDA模型是由DavidM.Blei和MichaelI.Jordan等人在2003年提出的【1】。这个模型的提出是为了解决一些文档处理领域的问题,比如文章主题分类、文章检测、相似度分析、文本分段和文档检索等问题【2】。目前针对LDA扩展的研究工作非常多。其中有对参数的
5、扩展,比如Blei等人在2004年和2006年又相继提出树结构的层级LDA和相关主题模型(CTM),使得模型更接近数据的真实情况。还有面向特定任务的LDA模型,涉及分类、作者主题模型、词义消歧、引用链接分析、人名消歧、情感分析等更细化的任务【2】。在LDA模型中,由于涉及到概率的生成,所以当对分布函数的参数进行估计的时候,就需要使用到EM算法。EM算法(Expectation-MaximizationAlgorithm)是由Dempster等人于1977年提出,是一种用于对具有隐变量的概率模型进行极大似然估计的算法。该算法在自然语言处理方面已经有广泛的运用,
6、常见的诸如隐马尔科夫模型、高斯混合模型、k-均值算法、主成分分析等都可以用EM算法的思想来解释【2】。例如在LDA模型中,主题和单词的联合分布的似然函数的表达式无法写出来,但是可以用隐性变量表示出来,这时就可以使用EM算法来估计似然函数的参数。所谓隐性变量,说的是LDA的预测目标——主题分布,是训练集中不能直接观察到的量,是人(或模型)虚构出来的量,因此称之为潜在的(Latent)。目前,EM算法的发展和LDA模型紧密相连,比如Nallapati等人提出的并行变分EM算法,就用来对文档生成模型中的学习过程进行加速,以便应用于多处理器和分布式环境【2】。我们首
7、先根据前人的成果对LDA模型和EM算法进行了详细研究,并且接触了一些关于用LDA模型实现文档生成的MATLAB程序。之后,我们尝试着以LDA模型为基础,以数学软件MATLAB为工具,先进行参数估计并生成一个有关主题和单词分布的矩阵,然后以这个矩阵作为学习后的结果进行采样,优化,进而生成一篇文档。2LDA模型的原理2.1LDA学习过程在LDA学习过程中,有LDAGraphicalmodelrepresentation:Figure1 LDA学习模型几乎所有讨论LDA的文章都包括上面的这幅图。它代表的概率模型:pθ,z,ωα,β=pθαn=1Npznθpwnzn
8、,β(1)基于LDA模型的文档生成算法2014年12