多策略融合专利术语自动抽取

多策略融合专利术语自动抽取

ID:37368631

大小:258.37 KB

页数:5页

时间:2019-05-21

多策略融合专利术语自动抽取_第1页
多策略融合专利术语自动抽取_第2页
多策略融合专利术语自动抽取_第3页
多策略融合专利术语自动抽取_第4页
多策略融合专利术语自动抽取_第5页
资源描述:

《多策略融合专利术语自动抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第32卷第2期计算机应用与软件Vol.32No.22015年2月ComputerApplicationsandSoftwareFeb.2015基于多策略融合的专利术语自动抽取周绍钧吕学强李卓都云程(北京信息科技大学网络文化与数字传播北京市重点实验室北京100101)摘要专利术语自动抽取是知识抽取与文本挖掘的关键环节。在构建专利文献停用词表以及提取特定规则的基础上,抽取候选专利术语;通过分析专利术语与其所在句子的关联关系、相邻专利术语之间的影响以及常识性词语对专利术语抽取的干扰,分别提出基于PageRank思想

2、的STRank权重计算方法、专利术语区别度计算方法以及知网义原信息降权方法,并融合上述方法对专利术语进行抽取。采用传感器领域的专利文献进行实验,在top-1400、top-1600级别上正确率为80.5%、79.7%,相对比CS+CC+CD方法分别提高了11.4%、9.5%。实验结果证明该多策略融合方法的有效性。关键词专利术语术语抽取PageRank术语区别度义原信息中图分类号TP391.1文献标识码ADOI:10.3969/j.issn.1000-386x.2015.02.007PATENTTERMAUTO

3、-EXTRACTIONBASEDONMULTI-STRATEGYINTEGRATIONZhouShaojunLüXueqiangLiZhuoDuYuncheng(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)AbstractPatenttermsauto-extractionplay

4、sanimportantroleinknowledgeextractionandtextmining.Inthispaperweextractcandidatepatenttermsonthebasisofconstructingthestop-wordsinventoryofpatentliteraturesandspecificrulesextraction.Throughanalysingtheassociatedrelationshipbetweenpatenttermsandthesentences

5、wheretheyare,theinfluencesbetweentheadjacentpatenttermsandtheinterferenceofgeneralwordsonpatenttermsextraction,weproposerespectivelythePageRankidea-basedSTRankweightcalculationalgorithm,thepatenttermsdistinctioncomputationtechniqueandtheweight-droppingmetho

6、dusingHownetsememeinformation,theabovemethodsarethenintegratedtoextractthepatentterms.Patentliteraturesofsensorfieldarechosenforexperiment,theprecisionsoftop-1400andtop-1600levelare80.5%and79.7%respectively,increasing11.4%and9.5%incontrasttotheresultofCS+CC

7、+CDmethod.Theexperimentalresultsprovetheeffectivenessofthismulti-strategyintegrationmethod.KeywordsPatenttermTermextractionPageRankTermdistinctionSememeinformation[7][8]方面的优点。刘豹等人以及赵延平等人基于条件随机场0引言的机器学习方法进行术语抽取,但其受标注语料的数据稀疏性[9]以及标注质量的影响。栗超提出了基于排序集成的自动术专利文献是当

8、前核心技术的载体,充分利用专利文献的核语识别方法,采用局部的Kemeny最优的方法处理术语识别问心技术对国家的经济、科技、民生的发展有着至关重要的作用。题,但是在实际系统中需要结合多个ATR算法,各个参数之间[10]作为专利文献中重要的组成部分,专利术语集中体现和承载了的调节存在较大的难度。陈宇等人通过建立专业的领域词[12]该学科领域的核心知识,专利术语的自动抽取对于科技信息传典并结合领域相关度进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。