藏文网页摘要自动生成系统的研究

藏文网页摘要自动生成系统的研究

ID:33863186

大小:2.87 MB

页数:61页

时间:2019-03-01

藏文网页摘要自动生成系统的研究_第1页
藏文网页摘要自动生成系统的研究_第2页
藏文网页摘要自动生成系统的研究_第3页
藏文网页摘要自动生成系统的研究_第4页
藏文网页摘要自动生成系统的研究_第5页
资源描述:

《藏文网页摘要自动生成系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、མཚོ་སྔོན་མི་རིགས་སྔོབ་ཆེན་རབ་འབྱམས་པའི་མཐར་ཕིན་དཔྱད་རྔོམ།学位类别学号0501070902硕士学位论文藏文网页摘要自动生成系统的研究学位申请人姓名:更太加导师姓名及职称:安见才让教授专业名称:中国少数民族语言文学2012年5月26日万方数据རང་འགུལ་གིས་བྔོད་ཡིག་དྲ་བའི་བསྡུས་དྔོན་བསྡུ་ལེན་མ་ལག学位类别:计算机分类号:学号:0501070902密级:青海民族大学硕士学位论文藏文网页摘要自动生成

2、系统的研究学位申请人姓名:更太加导师姓名及职称:安见才让教授专业名称:中国少数民族语言文学答辩委员会(签名):II万方数据མཚོ་སྔོན་མི་རིགས་སྔོབ་ཆེན་རབ་འབྱམས་པའི་མཐར་ཕིན་དཔྱད་རྔོམ།中文摘要随着互联网时代的发展,如何有效地组织和分析藏文信息,提高藏文信息领域获取信息的效率,成为满足藏文信息领域人们需求的关键问题,这使得藏文网页自动摘要技术成为研究热点,其进步推动了相关技术的发展。藏文网页自动文摘是为了达到特定用户或任务要求,从信息源中提取重要

3、信息、生成精简版本的过程。目前,藏文网页自动摘要的研究面临冗余信息、压缩比大和文摘可读性差等问题。生成一篇好的文摘,不但需要对文档进行深入地分析,还需要有效的处理文摘句选择与排序。文摘句的选择决定了最终文摘的组成成分,文摘句的排序决定了文摘的可读性,这两者都直接影响生成文摘的质量。针对上述问题,本文从如下几个方面进行了研究:1.设计藏文网页爬虫。设计并实现了一个能够从互联网上爬取藏文网页的网络爬虫工具。2.藏文网页的预处理。设计出了能够识别藏文网页文本的净化工具,并重点研究了基于藏文词典、规则、

4、最大概率法和格助词相结合的藏文网页文本自动分词方法。3.藏文网页摘要的生成算法研究。研究并提出一种有效的藏文句子加权方法,根据句子权重的计算,生成了藏文网页的初始摘要,并对初始摘要进行平滑处理,使句子能够连贯。综上所述,本文主要贡献在于提出了有效的藏文网页摘要提取方法。该算法对于藏文网页摘要的提取具有较好的效率,在提取藏文网页时查准率和查全率都达到在80%以上,基本能够提取藏文网页文本的主要内容。关键词:藏文网页摘要;藏文分词;藏文特征词权重计算;藏文网页摘要的平滑处理I万方数据རང་འགུལ་

5、གིས་བྔོད་ཡིག་དྲ་བའི་བསྡུས་དྔོན་བསྡུ་ལེན་མ་ལགནང་དྔོན་གནད་བསྡུས།མི་ཤུགས་རྔོ་རེ་རླུང་གིས་འཚོ་བའི་གྔོ་ལ་ཡངས་པའི་ཁྔོན་འདིར་དྲ་རྒྱའི་ལག་རལ་འཕེལ་རྒྱས་སུ་སྔོང་བ་བསྟུན་ནས།བྔོད་ཁམས་སིའི་ཆ་འཕིན་སིག་འཛུགས་དང་དབྱེ་ཞིབ་བྱེད་ཚུལ།ཇི་ལྟར་ལས་ཆྔོད་ཡྔོད་པའི་སྔོ་ནས་ཆ་འཕི

6、ན་འཚོལ་སྡུད་བྱེད་པ་སྔོགས་ནི་བྔོད་རིགས་ཡྔོངས་ཀི་དགྔོས་མཁྔོའི་གནད་དུ་གྱུར་བས།ཀུན་གིས་རང་འགུལ་སྔོས་བྔོད་ཡིག་དྲ་བའི་བསྡུས་དྔོན་བསྡུ་ལེན་ལག་རལ་ལ་ཞིབ་འཇུག་བྱེད་པར་སྔོ་བའི་རེན་རེད།དེ་བཞིན་དུ་འབེལ་ལྡན་ལག་རལ་གི་འཕེལ་རྒྱས་ལ་སྐུལ་འདེད་བཏང་བ་རེད།རང་འགུལ་གིས་བྔོད

7、་ཡིག་དྲ་བའི་བསྡུས་དྔོན་བསྡུ་ལེན་ལག་རལ་ནི་ཆེད་བཙུགས་ཀི་མི་སེར་དང་བྱ་བའི་དགྔོས་མཁྔོ་སྔོགས་ཡྔོད་པའི་གང་ཟག་དག་གིས་ཆ་འཕིན་གི་གྔོང་ནས་གལ་ཆེ་ཞིང་གནད་འབྱིན་པའི་བར་འཕིན་དག་འཚོལ་བཤེར་བྱེད་པའི་གྔོ་རིམས་ཤིག་ཡིན།མིག་སར་རང་འགུལ་གིས་བྔོད་ཡིག་དྲ་བའི་བསྡུས་དྔོན་བསྡུ་

8、ལེན་ལག་རལ་ལ་ཡན་ལག་གི་ཆ་འཕིན་མང་པ་དང་།བྔོངས་ཆེ་བ།ཀྔོག་འདྔོན་རང་བཞིན་ཞན་པ་སྔོགས་ཀི་གནད་དྔོན་མང་ལ།གལ་ཏེ་ཅུང་ཆ་ཚང་བའི་ཆ་འཕིན་བསྡུས་དྔོན་ཞིག་འགྲུབ་པར་གཏིང་ཟབ་པའི་སྔོ་ནས་ཡིག་ཚགས་ལ་དབྱེ་ཞིབ་བྱེད་དགྔོས་པ་ལས་གཞན།ཕན་ནུས་དང་ལྡན་པའི་ལམ་ནས་ཡིག་ཚགས་ལ་གདམ་ཀ་དང་གྔོ་

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。