基于优化维汉双语词典的多语言信息检索系统

基于优化维汉双语词典的多语言信息检索系统

ID:26681544

大小:312.00 KB

页数:8页

时间:2018-11-28

基于优化维汉双语词典的多语言信息检索系统_第1页
基于优化维汉双语词典的多语言信息检索系统_第2页
基于优化维汉双语词典的多语言信息检索系统_第3页
基于优化维汉双语词典的多语言信息检索系统_第4页
基于优化维汉双语词典的多语言信息检索系统_第5页
资源描述:

《基于优化维汉双语词典的多语言信息检索系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于优化维汉双语词典的多语言信息检索系统倪耀群1,2,3倪耀群,1974,男,河南偃师,1中科院计算所博士生,2中国科学院研究生院,3解放军外国语学院讲师,许洪波1,谭婧霞3,唐慧丰3,程学旗1,孟丹1中国科学院计算技术研究所,北京,100190E-mail:niyaoqun@software.ict.ac.cn摘要:为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字

2、的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所I3Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如ئۇيغۇر网站)和单一语言检索(如维吾尔文网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询关键词出现最密集的窗口,加

3、标签并截断尾部残缺字符后显示,取得了较为满意的效果。关键词:老维文;多语言信息检索;双语词典AMultilingualInformationRetrievalSystemBasedonOptimizedUyghur-ChineseBilingualDictionaryYaoqunNi1,2,3,HongboXu1,JingxiaTan3,HuifengTang3,XueqiCheng1,DanMeng1InstituteofComputingTechnology,ChineseAcademyofSc

4、iences,Beijing,China,100190E-mail:niyaoqun@software.ict.ac.cnAbstract:InordertomaketheinformationexchangingandbilingualeducationconvinentforUyghurandChineseusers,theauthorusedoptimizedbilingualdictionarytoconstructanUyghur-ChineseCrossLanguageInformati

5、onRetrievalSystemwhichconsistsofindexbuilding,corsslanguageinformationretrievalandmultilingualabsctractparts.Intheindexbuildingpart,theauthorgatheredwebpagescontainedthetwolanguagesatfirst,thentransformedthemaincontentsofeverywebpageintoUTF-8formatands

6、egmentedthecontentsusingChinese-Uyghurcombinedwordlist,finallybuiltindexusingICTsoftwareI3Search(UTF-8edition).Thesecondpartwhichprovidedmultilingualandmonolingualretrievalwasimplementedbytranslatingquerykeywords.Multilingualretrievalismoreaccuratebutr

7、equestsforeignlanguageknowledgeoftheusers.Ontheotherhand,monolingualretrievalissimplerbyusingthebilingualdictionary,buttherearemanyconditionssuchaspolysemiesandsynonyms,bothofwhichmadeaccuracynotveryhigh.Mutillingualabsctractfoundthewindowwiththemaximu

8、mkeywordsdensityviaslidingalonginthemaincontentscharacterbycharacter,taggedthem,andtruncated.Soitgivesabetterresult.Keywords:Arabic-ScriptUyghur;MultilingualInformationRetrieval;BilingualDictionary1引言随着互联网的蓬勃发展,含有维吾尔文、汉文的网页大量涌现。这为汉文、维吾尔

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。