专利摘要的信息抽取研究

专利摘要的信息抽取研究

ID:32353338

大小:1.87 MB

页数:76页

时间:2019-02-03

专利摘要的信息抽取研究_第1页
专利摘要的信息抽取研究_第2页
专利摘要的信息抽取研究_第3页
专利摘要的信息抽取研究_第4页
专利摘要的信息抽取研究_第5页
资源描述:

《专利摘要的信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、分类号密级UDC专利摘要的信息抽取研究余丰导师姓名(职称)朱东华(教授)答辩委员会主席李金林申请学科门类管理学论文答辩日期2006.6.25申请学位专业管理科学与工程2006年6月10日I专利摘要的信息抽取研究北京理工大学II摘要专利信息作为记载和传递各类科技成果的信息载体,其重要作用正日益显现出来,如何从专利中挖掘有用的技术信息成为人们关注的焦点。信息抽取作为一门应用性的语言处理技术,通过对文本的浅层分析,为快速准确地从海量信息源中提取出用户感兴趣的信息提供了可能。本文选择信息抽取技术在专利信息分析这个特殊领域进行了探索性研究,针对美国闪存技术专利设计了一个信息

2、抽取系统,从摘要信息中抽取出技术关键词,并探讨这个系统发展应用于专利全文信息抽取的可移植性。本文首先将美国闪存技术专利数据定制下载到本地;然后对专利数据进行预处理并导入数据库存储;第三步是进行以词性标注为核心的词法分析,得到专利摘要信息的标记序列;第四步是制定句法规则并运用线图分析算法和概率上下文无关算法进行句法分析;第五步是完成候选技术关键词的命名实体识别;最后将符合完整性和逻辑性的技术关键词填充到结果库中。本文有机的结合词典、规则和统计模型方法,针对隐马尔可夫标注算法进行了合理改进,并在此基础上进行了大量的人工指导和机器学习训练,在抽取结果处理上本文还提出了一

3、套技术关键词识别模型及其算法。实验结果表明,本文所设计的信息抽取系统召回率和准确率基本令人满意。关键词:专利信息信息抽取隐马尔可夫模型IIIABSTRACTAstheinformationcarrierofrecordingandtransmittingvariousScience&Technologyproductions,patentinformationhasbeengraduallyessentialincontemporaryresearch,andhowtoextractusefultechniqueinformationhasalreadybecam

4、ethehumansattractingfocus.Beinganappliedlanguageprocessingtechnique,informationextractionprovidesinterfacesforrapidandpreciseextractinginformationfromlargevolumeofinformationsourcesinwhichusersareinterested,bysuperficialanalysisontexts.Thisthesisgoesalongexploringresearchoninformation

5、extractionappliedinaspecialarea,patentinformationanalysis,designsaninformationextractionsystemforAmericanflashmemorypatentwhichextractstechnicalkeywordsfromabstract,anddiscussesthetransplantabilityofthissystemdevelopingandapplyingfulltextinformationextractionforpatent.Atfirst,thisarti

6、clemakesuseofsophisticatedinformationretrievaltechniquetocustomizeddownloadAmericanflashmemorypatent.Then,pretreatmentforpatentdataandloadingthepatentinformationblocksintodatabasewouldbeillustrated.Consequently,accidenceanalysisispresentedthatextractingthepatentabstracttofinishpartici

7、plesofdictionaryrulesandpartofspeechlabelbasedonHiddenMarkovModel(HMM)toobtainthesignsequenceofthepatentabstract.Bythefourthstep,ChartParsingAlgorithm(CPA)andStochasticContext-FreeGrammar(SCFG)areusedtoparsesyntaxandsyntaxrulesareconstituted.Finally,thepatenttechnicalkeywordswhichacco

8、rdswi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。