基于潜在语义分析的专利文本分类技术分析

基于潜在语义分析的专利文本分类技术分析

ID:28858776

大小:7.77 MB

页数:57页

时间:2018-12-14

基于潜在语义分析的专利文本分类技术分析_第1页
基于潜在语义分析的专利文本分类技术分析_第2页
基于潜在语义分析的专利文本分类技术分析_第3页
基于潜在语义分析的专利文本分类技术分析_第4页
基于潜在语义分析的专利文本分类技术分析_第5页
资源描述:

《基于潜在语义分析的专利文本分类技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、沈阳航空航天大学硕士学位论文摘要专利分类可以加快对专利文献的检索速度,方便对专利文献的管理,有着十分重要的作用。近几年,自然语言处理以及信息检索技术的发展,为解决专利分类任务提供了强大的方法论武器,如何根据专利分类任务的特殊性选择合理的解决方法成为提高分类系统性能的关键。大量研究表明,在专利分类任务中,数据稀疏问题一直是影响专利分类性能的主要障碍;除此之外,专利的类别体系是一个多层次的树形结构,同一父节点下的子类样本之间相似性较大,因此,加剧了专利的分类难度。本文针对专利的上述特点提出基于潜在语义分析的专利自动分类技术,它利用奇异值分解,把大量共现或相关的特征映射到潜在语义空间的同一维上,深

2、度挖掘出原始特征一文档矩阵的潜在关系;通过降维,把原始的高维空间投影到低维的语义空间,在保证原始特征文档矩阵最有效的语义关系的同时,尽可能地压缩了无效的、无关的噪声信息,从而保证了K维空间的丰富的语义特征,是一种有效解决数据稀疏问题的手段。针对分类任务的特殊性,本文结合专利文本的类别信息还提出基于类别信息指导的潜在语义分析优化方法,通过增强相同类内的特征共现程度获得更准确的潜在语义空间,使得相同类别专利文本之间的相似性更明显从而提高专利分类的性能。X本文基于NTCIR-8专利分类评测的平台,在美国专利语料上实现基于潜在语义分析的专利自动分类系统,并以基于共享最近邻的专利分类系统为参照,针对专

3、利分类任务中的主要问题和核心技术做了相关试验,并做了详细的试验结果分析,最终实现了可靠的专利自动分类系统。关键词:LSA;共享最近邻;BM25;专利分类AbstractPatentClassificationcanquickentheretrievalspeedofpatentdocumentsandfacilitatethemanagementofthem,SOitplaysanimportantrole.Inrecentyears,thedevelopmentofNatualLanguageProcessingandInformationRetrievaltechnologyprovid

4、esnewmethodologyforpatentclassificationtask,andhowtochooseareasonableresolutionbasedontheparticularityofpatentclassificationtaskisthekeytoimprovetheperformanceofclassificationsystem.Researchhasshownthatdatasparsityisalwaystheobstacleinfluencingtheperformanceofpatentclassification;besides,theclasssy

5、stemofpatentisamultilayertreestruct,andsamplesunderthesameparentnodeareverysimilartoeachother,SOpatentclassificationbecomesmoredifficult.Aimingattheabovecharacteristicsofpatent,thispaperpresentsaPatentAutomaticClassificationTechnologybasedonLatentSemanticAnalysis(LSA).ThistechnologyusesSingularValu

6、eDecompositiontodeeplyminethelatentrelationshipbetweentheoriginalcharacteristicsandthedocumentmatrixbymappingCO-occurrenceorinterrelatedcharacteristicsintothesamesemanticspace,andprojectstheoriginalhigh—dimensionspaceintolow—dimensionsemanticspacebyreducingdimensions,ensuringthemosteffectivesemanti

7、crelationbetweentheoriginalcharacteristicsandthedocumentmatrixandcompressingunusefulandunrelatednoiseinformationasmuchaspossible,therebyensuringtheabundantsemanticcharacteristicsink—dimensionalspace,SOitist

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。