基于Web的专利双语语料自动获取研究及实现

基于Web的专利双语语料自动获取研究及实现

ID:39117257

大小:702.94 KB

页数:7页

时间:2019-06-25

基于Web的专利双语语料自动获取研究及实现_第1页
基于Web的专利双语语料自动获取研究及实现_第2页
基于Web的专利双语语料自动获取研究及实现_第3页
基于Web的专利双语语料自动获取研究及实现_第4页
基于Web的专利双语语料自动获取研究及实现_第5页
资源描述:

《基于Web的专利双语语料自动获取研究及实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:基于Web的专利双语语料自动获取研究及实现———以esp@cenet数据库为例[J],现代图书情报技术,2009(9):57-63.总第183期2009年第9期基于Web的专利双语语料自动获取研究及实现———以esp@cenet数据库为例123吴琳魏星霍翠婷1(中国科学技术信息研究所北京100038)2(北京理工大学计算机学院北京100081)3(北京万方数据股份有限公司北京100038)【摘要】针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法。该方法利

2、用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库。【关键词】专利著录信息双语平行语料网页解析【分类号】TP391ResearchandImplementofAutomaticPatentBilingualCorpusExtractionfromWeb———Takingesp@cenetasanExample123WuLinWeiXingHuoCuiting1(InstituteofScientific&TechnicalInfo

3、rmationofChina,Beijing100038,China)2(SchoolofComputerScienceandTechnology,BeijingInstituteofTechnology,Beijing100081,China)3(WanfangDataCo.Ltd,Beijing100038,China)【Abstract】Thispaperintroducestheresearchofanavailablemethodtoautomaticallyextracthighqualitytranslationpairsf

4、rompatentdatabaseforpatentresources.ItanalyzesthefeaturesofURLstoextractdetailWebpagesofpatentdataforbatchdownloading,andthenusesregularexpressionmatchestoextractnecessaryinformationfromWebpagesthroughpageparsed.Atlast,itmakesbilingualparallelcorpusaftermergingdata.【Keywo

5、rds】PatentBibliographicinformationBilingualparallelcorpusPagesparsed1引言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(BilingualCorpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。双语语料是机收稿日期:2009-07-27收修改稿日期:2009-08-20本文系国家科技支撑计划基金项目“多语言信息服务环境关键技术研究与应用”(项目编号:2006BAH03B02)和“科技文献信息服务

6、系统应用示范”(项目编号:2006BAH03B06)的研究成果之一。XIANDAITUSHUQINBAOJISHU57情报分析与研究器翻译重要的数据支撑,语料越充分、越精确,机器翻方法,该方法利用专利资源和专利网站URL结构的特译的效果也越好。目前,双语平行句对在机器翻译和点,通过网页解析自动提取专利数据库中的所需信息。机器辅助翻译中已经得到越来越多的应用,它不仅可2专利信息源分析以提高机器翻译的质量,还可以加强机器辅助翻译中的人机交互。如今已经有很多关于双语语料的对齐技专利是受法律规范保护的发明创造,指一项发明术和双语平行语料的应用技术

7、的研究,但是关于如何创造向国家审批机关提出专利申请,经依法审查合格获取大规模双语平行句对的问题仍然困扰着很多研究后向专利申请人授予的在规定的时间内对该项发明创者,因为在现实中存在的关于中英文对照的加工好的造享有的专有权。电子资源确实很少,即使得到这样的电子资源,如果通Internet上有大量的免费专利数据库,包括文摘过人工逐条输入数据库,也将是一项庞大的工程,耗费型、全文型,有的还提供专利的法律状态信息。目前,大量人力、物力资源而且效率不高。因此,如何通过自已有不少机构(组织)通过Internet提供了专利查询服动化手段获取大量双语对译语

8、料已逐渐成为语料库研务,而由各国(地区)专利行政机构建立的Internet免究的热点。费服务网站则是其中的佼佼者,例如中国知识产权局、随着互联网的普及和发展,互联网已经成为人们美国专利商标局、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。