欢迎来到天天文库
浏览记录
ID:28858776
大小:7.77 MB
页数:57页
时间:2018-12-14
《基于潜在语义分析的专利文本分类技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、沈阳航空航天大学硕士学位论文摘要专利分类可以加快对专利文献的检索速度,方便对专利文献的管理,有着十分重要的作用。近几年,自然语言处理以及信息检索技术的发展,为解决专利分类任务提供了强大的方法论武器,如何根据专利分类任务的特殊性选择合理的解决方法成为提高分类系统性能的关键。大量研究表明,在专利分类任务中,数据稀疏问题一直是影响专利分类性能的主要障碍;除此之外,专利的类别体系是一个多层次的树形结构,同一父节点下的子类样本之间相似性较大,因此,加剧了专利的分类难度。本文针对专利的上述特点提出基于潜在语义分析的专利自动分类技术,它利用奇异值分解,把大量共现或相关的特征映射到潜在语义空间的同一维上,深
2、度挖掘出原始特征一文档矩阵的潜在关系;通过降维,把原始的高维空间投影到低维的语义空间,在保证原始特征文档矩阵最有效的语义关系的同时,尽可能地压缩了无效的、无关的噪声信息,从而保证了K维空间的丰富的语义特征,是一种有效解决数据稀疏问题的手段。针对分类任务的特殊性,本文结合专利文本的类别信息还提出基于类别信息指导的潜在语义分析优化方法,通过增强相同类内的特征共现程度获得更准确的潜在语义空间,使得相同类别专利文本之间的相似性更明显从而提高专利分类的性能。X本文基于NTCIR-8专利分类评测的平台,在美国专利语料上实现基于潜在语义分析的专利自动分类系统,并以基于共享最近邻的专利分类系统为参照,针对专
3、利分类任务中的主要问题和核心技术做了相关试验,并做了详细的试验结果分析,最终实现了可靠的专利自动分类系统。关键词:LSA;共享最近邻;BM25;专利分类AbstractPatentClassificationcanquickentheretrievalspeedofpatentdocumentsandfacilitatethemanagementofthem,SOitplaysanimportantrole.Inrecentyears,thedevelopmentofNatualLanguageProcessingandInformationRetrievaltechnologyprovid
4、esnewmethodologyforpatentclassificationtask,andhowtochooseareasonableresolutionbasedontheparticularityofpatentclassificationtaskisthekeytoimprovetheperformanceofclassificationsystem.Researchhasshownthatdatasparsityisalwaystheobstacleinfluencingtheperformanceofpatentclassification;besides,theclasssy
5、stemofpatentisamultilayertreestruct,andsamplesunderthesameparentnodeareverysimilartoeachother,SOpatentclassificationbecomesmoredifficult.Aimingattheabovecharacteristicsofpatent,thispaperpresentsaPatentAutomaticClassificationTechnologybasedonLatentSemanticAnalysis(LSA).ThistechnologyusesSingularValu
6、eDecompositiontodeeplyminethelatentrelationshipbetweentheoriginalcharacteristicsandthedocumentmatrixbymappingCO-occurrenceorinterrelatedcharacteristicsintothesamesemanticspace,andprojectstheoriginalhigh—dimensionspaceintolow—dimensionsemanticspacebyreducingdimensions,ensuringthemosteffectivesemanti
7、crelationbetweentheoriginalcharacteristicsandthedocumentmatrixandcompressingunusefulandunrelatednoiseinformationasmuchaspossible,therebyensuringtheabundantsemanticcharacteristicsink—dimensionalspace,SOitist
此文档下载收益归作者所有