融合文本内部特征与外部信息的主题模型研究

融合文本内部特征与外部信息的主题模型研究

ID:35096831

大小:5.28 MB

页数:50页

时间:2019-03-17

融合文本内部特征与外部信息的主题模型研究_第1页
融合文本内部特征与外部信息的主题模型研究_第2页
融合文本内部特征与外部信息的主题模型研究_第3页
融合文本内部特征与外部信息的主题模型研究_第4页
融合文本内部特征与外部信息的主题模型研究_第5页
资源描述:

《融合文本内部特征与外部信息的主题模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10589II学号13081200210003::密级:分类号緣邊大杳硕±学位论文题目:高虫合义本内部特征与外部信息的丰题横型研究作者;刘良选指导教师;黄梦醒教授专业;计算机科学与技术时间二〇—六年节月:ResearchonToicModelspCombininInternalFeatureandgExternalInformationofTextsAThesisSubmittedin

2、PartialFulfillmentoftheRequirementFortheMasterDegreeinCollegeofInformationScienceandTechnologyByL-xuaniuLiangervruan-xnSuiso:ProfMenp.HgiggMaor:ComuterScienceandTechnolojpgySubmittedtime:Ma2016y,海裔大学学位论文原创性齊明和使用授权说明

3、原创性声明本人郑靈声明:所亟交的学位论文,是本人在导师的指导下,独立迸巧研究工作巧取得的成果。陈文中已鐘注明引用的内容外,本论文不含任何其他个人或樂体己经发表或擁写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均己在文中ili^明満巧或禄明。本声明的法律结果由本人承担。?论文作者签名:妻坠日期:兴年月日刮/6乡对学位论文版巧使用授极说明本人完全了解海海大学关于牧集、傑存、使用学位论文的规定,即:学校有权媒留并向鹽家有关都口或机构送交论文的复印件巧电子版,允

4、许论文被査阅和借阅。学校巧獻为存在馆际合作关系兄弟高校巧户提供文献传递服务巧交换服务。本人授极海南大学可将本学位论文的全部或部分内容编入有关数搬難进行检索,可从采用影’汇编本学位论文印、缩印或扫描等复剌手段保存和。傑密絶文在解密后遽守此规定^。^J\论文作者签名悼挺二^曰舰:円期:n年身|/矣年乃/石女平如P0/""本人邑经认真阅读CALIS离校学位论文全文数据库发布窜程,同激将本人的""""学位论文提巧CALIS商校学位论文全文数搪库中全文发布,并可按奪程中

5、规^年定享受相关权益。同愈论义摇巧后滞盾;□半巧;□:□二巧发巧。、论文作者签名^导师签名?;一B期:年長月曰期会年月言/曰摘要随着信息技术的快速发展与广泛应用,包括网页、博客、新闻、书籍、微博和化交网络等形式在内的文本信息,!^数字化文本的形式出现其信息量W前。所未有的速度积累面对如此庞大而又急剧増长的文本数据,如何有效并且高一大挑战效地挖掘其中隐含的知识是当前计算化科学面临的。主题模型也称概率主题模型(Probab化Stic化picmodel),能提取大规模高

6、维稀疏的文本数据集中蕴含的统计规律并赋予其低维直观的语义层面的表达。通过主题模型提取的主题可为信息检索、分类、聚类[^及文本间相似性、相关性判断等应用提供基础性服务。主题模型被广泛应用于文本挖掘、文档自动摘要、情感分析W及图像处理等领域。latentDirichletallocationLDA)是最具潜在狄利克雷分配(,代表性的主题模型,当前主题模型的很多重要工作都是围绕着LDA进行修改或扩展。综合考虑文本内容本身的特点和外部信息,面向特定任务或提升模型建模效果为。目

7、标是重要的主题建模思路W上述改进模型的思路为基础,本文的主要研究工作如下:1、针对传统的基于多项分布的主题模型无法很好地刻画文档中词汇突发一种面向词汇突发的狄利现象的问题,综合考虑文本集固有的时间信息,提出克雷组合多项式连续时间主题模型。在NIPS会议论文集上的实验结果表明,该模型在预设主题数目较少的情况下具有明显的泛化性能提升(>1,并且可^有效地揭示文本集中潜在的主题演化趋势;2、针对短文本中固有的文本内容稀疏问题,在双词主题模型的基础上引入词向量提出了潜在特征-双词

8、主题模型。通过吉布斯采样实现模型参数的估计。在真实的数据集上的对比实验结果表明该模型能有效利用丰富的词向量信一息进一步缓解短文本的内容稀疏性问题,在主题致性方面获得显著提升,总体建模效果明显优于基准模型。:主题模型关键词,词汇突发,短文本,双词,吉布斯采样AbstractWiththerapiddevelopmentandwidelyapplicationofinformatio打technology

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。