欢迎来到天天文库
浏览记录
ID:34806695
大小:1.55 MB
页数:62页
时间:2019-03-11
《试析中文新闻报道的主题检测与追踪研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中山大学硕士学位论文中文新闻报道的主题检测与追踪研究专业名称计算机软件与理论学位申请人指导教师区良裔印鉴教授研究方向信息处理与数据挖掘答辩委员会主席(签名)答辩委员会委员(签名)n锄靛翌造幽二oo七年四月中文新闻报道的主题检测与追踪研究论文题目专业硕士生指导教师计算机软件与理论区良裔印鉴教授摘要本文主要研究了主题检测与追踪技术在中文新闻报道方面的应用。主题检测与追踪技术的研究始于1997年,是一门新兴的信息处理技术,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能、机器学习等多个领域,是一个跨学科跨领域的综合性课题,围绕着信息流当中的主题信息,进行检测、
2、跟踪、分析关联性等智能处理,最终目的是构建高效率、高准确度的实用信息追踪系统。在本文中,我们首先介绍了主题检测与追踪技术的相关概念,以及近年来的发展动向。然后,我们讨论了一种叫做LDA的语义模型,它是一种产生式模型,通过概率规则来表示主题信息。我们介绍了该模型和其他相关的TF-IDF、LSI、pLSI模型,比较了它们的基本思想以及差异。LDA模型主要引入了一个新的结构层:文集.主题层,通过Dirichlet分布来描述各个主题之间的分布情况,把样本数据的离散分布变为连续概率分布,因此能够有效平滑训练集数据之间的非系统性差异,克服之前几个模型当中存在的零概率问题。本文还
3、对LDA模型作了进一步的改进。改进模型主要利用了句子间可置换的这一性质,并且假定同一个句子当中的词语应该表达相同的主题。基于此项改进,我们还提出了基于VB.EM的近似算法来求解模型的推演问题和参数估值问题,并作出数学推导。最后,我们按照改进后的语义模型,开发了一个主题追踪的实验系统。我们在文中讨论了系统的结构以及处理流程。我们应用了新浪网上的中文新闻来测试我们系统的有效性,实验证明了我们的系统准确率和召回率达到了一个相对满意的水平。关键词:主题检测与追踪;信息抽取;数据挖掘;中文新闻报道:LDA第1页中文新闻报道的主题检测与追踪研究TitleMajorNamePmf
4、es80rAResearchofTopicDetectionandTrackinginChineseNewsReportsComputerSoftwareandTheoryOULiangyiProf.YINJianAbstractInthisthesis,wehavesomesuccessfultrialsonthetopicdetectionandtrackingresearchwithChinesenewsreports.TopicDetectionandTracking(shortforTDT)isabrand-newinformationprocessing
5、technologyappearedin1997.ItsresearchareacoversNaturalLanguageProcessing,InformationRetrieval,InformationFiltering,At-tificialIntelligenceandMachineLearning.Itisachallengea8allintercrossingsubject.TDTfocusesonthetopicalstructureinaninformationstream.andperformsintelligentprocessindetect
6、ion,tracking,linkanalyzing,andsoon.ThepurposeofTDTistoconstructaefficientinformationtrackingsystemwithhighprecision.WeintroducetheconceptofTDTandsummarizetheprogressinrecentyears.Then,wediscussetheLDAmodel—agenerativeprobabilisticlanguagemodelbasedontopicalstructure.Wecompareitsadvanta
7、gcandshortagewithotherrelativemodels—TF-IDF,LSI,pLSI.LDAmodelintroducesanewlayerinitsstructure,whichisbetweenthecorpusandthetopics.ItnsesDirichletdistributiontodescribethelayoutofthehiddentopics,whichmakesdiscretedataintoconsecutiveones,andbenefitstoavoidnon-systenmticdifferencesbyda
此文档下载收益归作者所有