欢迎来到天天文库
浏览记录
ID:34507151
大小:2.33 MB
页数:86页
时间:2019-03-07
《潜在语义分析理论及其在文本检索与聚类中的应用研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、上海大学硕士学位论文潜在语义分析理论及其在文本检索与聚类中的应用研究姓名:杨翠申请学位级别:硕士专业:情报学指导教师:山石20080101摘要潜在语义分析(LatentSemanticAnalysis,LSA)是一种自然语言信息提取和再现的理论方法,它的原理是通过对大量的文本集进行统计分析,从中提取出词语的上下文含义。它同向量空间模型类型类似,采用空间向量表示词汇和文本,并进行SVD分解,论文叙述了潜在语义分析的基本理论方法,然后通过实例说明LSA在信息检索中的应用,并通过分析结果中文本间、词汇间的相似度的变来说明LSA在信息分类中的重要意义。
2、本文对潜在语义分析模型进行了系统的研究,包括奇异值分解,通过数学中的奇异值分解来分析文本集中各个词汇之间,各个文本之间,文本与提问式之间的关系,同时本文研究和探讨了潜在语义分析模型在文本聚类中的具体应用和实现,包括文本间和词汇间的相似度的度量。本文对采用潜在语义分析模型的聚类效果进行了相应的研究分析,给出了聚类操作方法和试验结果,以及对实验结果的具体分析。关键词:信息检索;文本聚类;潜在语义分析;奇异值分解海人学硕Ij学位论文ABSTRACTLatentSemanticAnalysis(LSA)istheoryandmethodaboutext
3、ractingandrepresentinginformationofnaturelanguage,whichextractsthecontextual-usagemeaningofwordsbystatisticalcomputationsappliedtoalargecorpusoftext.LSAissimilartoVectorSpaceModel(VSM),representingtextualmaterialswithspacevector.ThispaperintroducestheapplicationofLSAinthefie
4、ldofinformationclassificationthoughasampleexample,intheexampleanalysisresult,showstheimportantmeaningofLSA.ThispaperresearchesanddiscussesthetheoryofLatentSemanticAnalysis,includesthetheoryofsinglevaluedecompose,byusingthetruncatedsingularvaluedecompositionLSACananalysisther
5、elationshipsbetweenthewords,thedocuments,andtheinquiryanddocumentinthecorpusoftext.InthispapertheauthordiscussestheapplicationofLatentSemanticAnalysisinChinesedocumentclusteringbasedonLatentSemanticAnalysis.ThesystemsupportsVectorSpaceModelandLatentSemanticAnalysis,presentst
6、hemeasureofclusterandtheresultofexperiment,analysistheresultofexperiment.Keywords:informationindex;documentclustering;latentsemanticanalysis;singularvaluedecompositionVl原创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的
7、说明并表示了谢意。签名:本论文使用授权说明Et期:竺塑、7本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。(保密的论文在解密后应遵守此规定)签名:—缉埠导师签名:兰垃日期:¨一J:海人学顾l:学位论义第一章绪论1.1引言众所周知,当今社会J下处于一个信息爆炸的时代,无论我们的工作还是生活都离不开对这些信息及时、高效的利用,因此探寻有效利用这些信息的方法成为一种趋势。随着计算机技术和信息技术的发展,尤其是万维网的广泛应用,人们可以获取的信息数量更是迅猛
8、增长。然而面对这些海量而繁杂的信息资源,基于计算机的智能处理技术成为提高效率的有效途径,在所有广泛应用的信息技术中,其中高效、准确的信息表示方式是各种
此文档下载收益归作者所有