基于科技文献资源的跨语言信息检索系统研究

基于科技文献资源的跨语言信息检索系统研究

ID:39402672

大小:325.00 KB

页数:8页

时间:2019-07-02

基于科技文献资源的跨语言信息检索系统研究_第1页
基于科技文献资源的跨语言信息检索系统研究_第2页
基于科技文献资源的跨语言信息检索系统研究_第3页
基于科技文献资源的跨语言信息检索系统研究_第4页
基于科技文献资源的跨语言信息检索系统研究_第5页
资源描述:

《基于科技文献资源的跨语言信息检索系统研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于科技文献资源的跨语言信息检索系统研究*本文系科技部国家支撑计划项目(课题编号:2006BAH03B02)“科技文献信息服务系统关键技术研究及应用示范”和(项目号:2006BAH03B06)“科技文献信息服务系统应用示范”课题成果之一张金柱(中国科学技术信息研究所北京100038)[摘要]分析跨语言信息检索的现状,介绍和描述跨语言信息检索的主要问题,并针对万方数据和NSTL的现有资源,构建出基于科技文献的跨语言信息检索原型系统,此原型系统通过字典查询得到检索词翻译,应用Google在线翻译进行标题、摘要翻译,并预留中科院自动化所提供的翻译引擎扩展。跨语言信息检索

2、强调检索结果翻译的可读性,帮助用户理解基本大意,不刻意追求准确性,力求在应用过程中促进机器翻译技术的进步和发展,辅助科研。[关键词]跨语言信息检索,科技文献资源,可读性,跨库[分类号]TP311TP18TheResearchofCross-LanguageInformationRetrievalBasedonScientificandTechnicalLiteratureResourcesZhangJinzhu(InstituteofScientificandTechnicalInformationofChina,BeiJing100038,China)[Abst

3、ract]ThispaperanalysethestatusofCross-LanguageInformationRetrieval(CLIR)anddescribethemainissuesaboutCLIR.WeimplementaCLIRprotypesystembasedonScientificandTechnicalLiteratureResourcesofWanfangandNSTL.ThesystemgetsthekeywordtranslationbyqueryingdictionariesandusesGoogletranslatortodoti

4、tleandabstracttranslation,italsoreservesextensionforthetranslationenginofInstituteofAutomationChineseAcademyofScience.CLIRemphasizesthereadabilityofsearchresultsbutnotaccuracywhichhelpsusersunderstandthemainideasandimprovethedevelopmentofmachinetranslationinapplicationforresearch.[Key

5、words]Cross-LanguageInformationRetrieval,ScientificandTechnicalLiteratureResources,readability,crossdatabase1.引言随着互联网在全世界范围内的普及,网络信息和用户数量呈指数级增长,据调研公司GlobalReach统计,2001年来自美国的站点占全球站点总数的47%,德国占5%,日本占4%,2000年,英文用户占上网用户总数的52%,中文占5%,西班牙文占5%,而到了2005年,这一比例分别变为32%,21%和8%[1]。为解决从海量信息中查找所需信息的问题,

6、人们发展了信息检索技术。初期这个领域的研究者针对各自的母语或者网络上的主流语言(源语言,sourcelanguage)提出了各种信息检索方法,目前信息检索技术已经较好地解决单一语言的信息获取问题,其代表性技术——搜索引擎已经成为互联网的主流应用。但随着不同母语的人们交往日益密切,信息获取需求呈现国际化的特点,即人们迫切希望只需提交一种语言构造的查询,就能获得与此相关的多种语言(目标语言,targetlanguage)的信息,在科学研究、数字图书馆等领域,这种需求更为迫切。如果用户掌握多种语言,那么最直接的方法是用每一种语言构造查询提交给相应的搜索引擎查找相关信息,

7、然后人工把所有的结果汇总整理,这种方法无疑加重了用户的使用负担,浪费了很多时间,而且也不适用于没有掌握多种语言的用户,因此跨语言信息检索(CrossLanguageInformationRetrieval,CLIR)的研究应运而生,并受到越来越多的关注,它提供基于一种自然语言构造的查询搜索任意语言文档的方法,实现了一种语言描述的用户查询与不同语言书写的文本之间的匹配问题,跨越了语言界限,在源语言与目标语言之间建立沟通桥梁。上述为信息检索和查询翻译问题[2]。那么另外一个问题是,即使用户的查询被正确翻译到目标语言的查询,用户是否能无障碍的阅读返回的目标语言文本呢,或

8、者说能够简

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。