专利信息检索技术

专利信息检索技术

ID:46598919

大小:262.72 KB

页数:4页

时间:2019-11-26

专利信息检索技术_第1页
专利信息检索技术_第2页
专利信息检索技术_第3页
专利信息检索技术_第4页
资源描述:

《专利信息检索技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2010年8月沈阳航空工业学院学报Aug.2010第27卷第4期JournalofShenyangInstituteofAeronauticalEngineeringV01.27No.4文章编号:1007—1385(2010)04—0050一04专利信息检索技术白字1王裴岩1蔡东风1董燕举h2(1.沈阳航空航天大学知识工程研究中心,辽宁沈阳110136;2.沈阳航空航天大学计算机学院,辽宁沈阳110136)摘要:专利信息检索作为快速获取专利信息的主要手段,在专利信息应用过程中发挥重要作用。本文在分析当前专利信息检索涉及的关键技术的基础

2、上,进一步阐述了基于概念的专利信息检索技术。本文以对专利文献的内容分析为基础,按照文献中各部分的功能进行组织表示,对不同部分制定相应的特征选择策略。同时,对基于概念的专利信息检索技术中的两个关键问题即查询扩展和专利文献相似度计算方法进行了阐述。关键词:专利;信息检索;查询扩展;相似度计算中图分类号:TP391.1文献标识码:Adoi:10.3969/j.issn.1007—1385.2010.04.012专利文献是集技术情报、法律情报和经济情报于一体的实用知识载体,是极为重要的科技信息来源,长期以来一直受到研发者或企业经营者的重视⋯。

3、为加快专利信息化建设,促进专利信息的传播和有效利用,国家知识产权局制定全国专利工作计划。其目标之一在于面向全社会对专利信息资源的需求,提供为经济、科技、产业部门制定产业政策和科技发展战略、为企事业单位技术创新、为行政和司法部门执法进行专利信息检索的专利信息检索系统。目前,全文检索系统越来越广泛地应用于专利信息检索领域,然而,现有的专利检索系统普遍存在查全率和查准率低的问题。其原因在于,大多数的专利检索系统在全文检索功能上仍采用基于词匹配的方法。这种关键词机械式匹配的方式仅考虑到词语的外在字符表现形式,而没有涉及其表达的关键概念信息。也

4、就是说,仅在一个文档含有与查询完全相同的词汇时,它们才相关。关键词匹配检索模型往往基于上述基本假设,这种相关性匹配实际上是基于表层的匹配(Surface—BasedMatching)12]。然而,在人们使用的自然语言中,随着时间、地域、领域等因素的改变,同一概念可以用不同的语言表现形式来表达。因此即使对于同一概念的检索,不同的用户可能使用不同的关键词来查询。由于客观存在的对检索需求收稿El期:2010—05—03作者简介:白宇(1982一),男,内蒙古赤峰人,助教,主要研究方向:信息检索、知识管理,E—mail:nlpxiaobai@

5、yahoo.o哪。的表达差异,在文本检索过程中使用的关键词匹配方法,经常因匹配失败而得不到检索结果。例如当用户查询“计算机”和“电脑”两个词的时候其实是在查询同一件事情。而基于表层的匹配不可能检索到同一概念的多种语言表达形式。因此,词汇不匹配将导致系统的查全率降低。词语是概念的外在表现形式,一个概念可以使用不同的词语来表达,因此,把概念作为语言处理的基本单位将有利于解决当前检索系统中由于词不匹配导致的查全率低问题。另一方面,以关键字或关键字的组合作为检索入口的方式使使用者难以准确全面地表达检索意图【3J。为此一些学者提出了基于概念的专

6、利信息检索技术,其关键在于,通过计算用户查询与专利文献库中的专利文献之间概念距离,实现专利文献与用户查询的相似相关性排序,从而达到提高检索结果的查全率和查准率的目的。本文在分析当前专利信息检索涉及的关键技术的基础上,进一步阐述了基于概念的专利信息检索技术思想。包括专利文本的信息抽取技术,关键词扩展技术和基于概念的专利文献相似度计算等。1专利信息检索系统现状专利信息的计算机检索起始的年代比较晚。20世纪70年代,Derwent公司将专利信息做成了可在计算机上读取的数据,这就是专利信息计算机检索的雏形【4】。但由于数据量的庞大,检索的速度

7、第4期白宇等:专利信息检索技术5l非常之慢。1976年,该公司及时推出了联机检索服务,首先成为Orbit系统的信息提供商。目前,较为著名的国际联机检索系统有DIALOG、STN、QUESTL、ORBIT及D√m—STAR等。20世纪90年代以来,我国国家知识产权局开发了《中国专利文献检索数据库》和《中国专利全文光盘数据库》,它们在专利信息检索中发挥了极大的作用。国外影响较大的光盘数据库有美国MicroPatent公司出版的CAPS光盘、日本的JMSCD系列和PAl系列光盘、欧洲专利局1989年公开的ESPACE系列光盘等。1997年2

8、月IBM公司开始在互联网上提供专利信息服务,这标志着世界专利信息传播发生了根本性变化。1998年10月欧洲专利局开通esp@eenet网络数据库提供专利信息服务。目前许多国家的专利局或国际性专利组织开发了网上专利数据库,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。