基于潜在语义分析的中文概念检索研究

基于潜在语义分析的中文概念检索研究

ID:36422669

大小:6.52 MB

页数:142页

时间:2019-05-10

基于潜在语义分析的中文概念检索研究_第1页
基于潜在语义分析的中文概念检索研究_第2页
基于潜在语义分析的中文概念检索研究_第3页
基于潜在语义分析的中文概念检索研究_第4页
基于潜在语义分析的中文概念检索研究_第5页
资源描述:

《基于潜在语义分析的中文概念检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学博士学位论文基于潜在语义分析的中文概念检索研究姓名:刘云峰申请学位级别:博士专业:系统工程指导教师:齐欢20051028现选用不同的潜在语义空间维度实现不同概念粒度下文档聚类,获得较好的效果。另外,在研究LSA文档聚类中发现,采用文档自检索矩阵可以很好地抑制聚类中的孤立点,大大提高了聚类准确率。作为应用研究,还研究了LSA检索系统的两类难点问题:快速检索和语义布尔检索。响应时间是信息检索的重要评价指标,LSA检索模型无法直接采用传统的关键词索引方式达到快速检索的目的。基于对潜在语义空间维度特性的研究,提出

2、了“低维过滤”快速检索算法,减少了相关度计算量,达到快速排除非相关文档的目的。“压缩编码”快速检索算法将原LSA文档向量用近似的压缩编码表示,将压缩编码下各个维度所有可能相关度用快查表方式保存,从而避免了大量计算,“加权0-1编码”是比较典型的压缩编码方法。实验表明,将“压缩编码”和“低维过滤”两种算法结合使用,能够更快速地将目标文档锁定在更小的范围中。布尔表达式检索是实现用户个性化的复杂查询必需的功能,为此借鉴模糊检索模型研究了LSA语义布尔查询的特殊处理,在研究过程中还引入了数据场以及势、叠加势、等势线等概念作为

3、直观评价语义布尔检索算法的仿真手段。深入研究了LSA权重计算、维度特性等基础理论方法及其在IR应用中的快速检索和布尔检索两个难点问题。LSA是一门严重依赖实验的科学,研究过程中,开发了“中文潜在语义分析系统”作为实验平台,针对LSA的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。在中文概念检索领域,LSA具有广阔的应用前景,文中若干结论具有理论和实践上的指导意义。关键词:潜在语义分析,信息检索,权重计算,潜在语义空间维度特性,快速检索,语义布尔检索IIAbstr

4、actMostinformationonInternetisbasedontext.Theexplosivegrowthoftextinformationisagreatchallengetoinformationretrieval,makingitincreasinglydifficulttofindusefulinformationoninternetrapidlyandaccurately.Thereexistsuncertaintyinnaturallanguages,suchassynonymandpoly

5、seme.Therefore,thesameconceptcanbeexpressedindifferentways.ItiscalledtheAnomalousStateofKnowledge.Inthetraditionalinformationretrievalbasedonkeywordmatch,whatmatcharetheexplicitrepresentation,butnottheconceptstheyexpress.Itisnoteasyforuserstoexpresswhattheyreal

6、lywanttoretrievejustwithkeywordorkeywordchains.Muchworkhasbeendonetoretrievebasedonconcept(semantic),insteadofkeywordmatch.Therequestsofretrievalusersaredealtwithfromtheperspectiveofconcept.Asastatisticalmodelfornaturallanguage,LatentSemanticAnalysis(LSA)isknow

7、nasamethodforknowledgeacquisition,inductionandrepresentation.Comparedwithotherretrievalmodels,suchasconceptlibrarybasedorconceptnetwork,LSA-basedretrievalmodeliseasytocomputeandrequireslesshumanintervention.Latentsemanticspaceisestablishedbytruncatedsingularval

8、uedecomposition.Inthelatentsemanticspace,termsanddocumentsareprojectedontothedimensionalitiesthatrepresentlatentconcepts.Thenthesemanticrelationshipsamongtermsareabstractedt

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。