基于web数据的双语资源挖掘技术研究

基于web数据的双语资源挖掘技术研究

ID:33392622

大小:6.29 MB

页数:60页

时间:2019-02-25

基于web数据的双语资源挖掘技术研究_第1页
基于web数据的双语资源挖掘技术研究_第2页
基于web数据的双语资源挖掘技术研究_第3页
基于web数据的双语资源挖掘技术研究_第4页
基于web数据的双语资源挖掘技术研究_第5页
资源描述:

《基于web数据的双语资源挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC衡级公Ⅱ学位论文题目:基于Web数据的双语资源挖掘技术研究研究生姓名学科专业名称研究方向论文类型申请学位指导教师姓名指导教师职称指导教师单位论文提交日期论文答辩日期:罗阳:计算机软件与理论:知识工程与知识管理:基础研究:工学硕士:张桂平:教授:沈阳航空航天大学:2010年12月08日:2010年12月23日沈阳航空航天大学2011年01月\SHENYANGAEROSPACEUNIVERSITYTHESISFORMASTER’SDEGREETHERESEARCHOFMININGBILINGUALRESoURCESFROMWEBCandidate:YangL

2、uoSupervisor:GuipingZhangSpecialty:ComputerSoftwareandTheoryDate:January2011原创性声明本人郑重』占【咐:所呈交的学位论文是本人在导师的指导下独立完成的。除义中已经注I姐引刚的内容外,本论文小包含其他个人或集{本已经发表或撰写过的作。诮或成果,也小包含本人为获得其他学位而使_

3、_}】过的成果。对本文研究做山重要贞献的个人或集体均已在论文中进行了说明并袋示谢意。本声明的法律后果山本人承担。论文作者签名:、刃阳锄10年J2-月31日沈{眦宅航九人学顷L学位呛文摘要随着统汁力}土{l二II然谱,,处

4、理一l-的广泛J,VAIj.双语语半1库资埘{埘1:自然i序占处理研究的臣人价值已经甜到越术越多的认--r,尤其在机器翻洋、跨晤.j信息检索和烈语术浯翻泽等领域具钉小叫或缺f

5、{J重要作川。以互联叫为数据源挖掘双语资源司以有效解决传统人l构建语料库的规模不址,时效rl:、真实性、语种灵活性差等问题。现订的双晤资源挖掘技术l二耍针刘烈晤、r仃刚贞,从叶】提JI_(州I刚位置的互译资源。山于这类网页数量少.对齐模型复杂,本文挺H州对堆一双语刚页进行取语资源挖掘方法,通过介纠重点技术柬j*进双语资源挖*Im过样。水文提¨:了‘种基于联合策略的坝语刚页找啦方法。该方法通过启

6、发条件扩展搜索项、过滤不棚关M负,得到含有般}占信息的嘲贞,以频繁序列模式为特征,使用支持

7、fll皱WI对I叫Ⅱ{进行:分类.削断所得网负是否为烈浯网页。然后根捌双浯㈧页特点提⋯剐频繁序列模,℃和种子模式构建胤则阼,通过胤则匹配的方法提眦出取谱”段,州叫使J日ll:姚则文本9l槭度束度量一个无法与规则棚匹配的片段模式能甭作为J靶则如I八舰则肼:。返样_『以扩充胤则库,满足烈浯资源存在的多样性々特殊性要求。在烈语资源仙墩的过阳ll,考虑到语再的差异性,刑1‘难以通过编码区分的语占,:lJI

8、入语.;特抓,并7ii]lll取佑息时考虑晤寺特征的优先缎等【N素米完成双语资

9、源的城终抽墩。毋后,本文

10、}fJ建了“蟮下Web数栅的烈语资源挖掘系统”.唆系统不仅实现丁上述烈语资源挖捌方法,以町挑化的方式展示实验效果,史iI

11、

12、入了方便』=I]J1使HJ的查i小浏览刚死川户添』

13、¨、指定网址抓取以及种予选择等功能,成为完整的lIij川lJ户的使f_

14、i】程序。关键词:Web挖捌;烈沿资洲!;频繁序列模-℃:网页分类沈⋯航窀帆犬人学咂L学{々论文Abstt·actWitbthestatisticmethodwidespreadappliedinnaturelanguageprocessing,thegreatvaluebougiltbybili

15、ngualcorpusresourcesforthenaturelanguageprocessingresearchhasbeenapprovedbyi]loreandpeopleEspeciallyilltilefieldofmachinetranslationcross—languageinformationretrievalandbilingualtermstranslation,thebilblgualcorpusresourcesarealsoinlportantTominetbebilingualresourcesbyusingIntemetastile

16、datasourceCalle忤bctlvelvsolvetheproblemswhichappearintbetraditionalbilingualcorpusestablishmentprocessbyhandwork.suchaslackofscales,timeliness、realness.1anguageflexibility,etcTileexistingtechniquesforminingbilingualresourcesaremainlyincoBnectionwitbtheparallelbilingualwebpages,fi-omw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。