欢迎来到天天文库
浏览记录
ID:33508182
大小:3.47 MB
页数:69页
时间:2019-02-26
《基于web的藏文文本自动分类研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、青海民族大学硕士学位论文设计题目:基于web的藏文文本自动分类研究与实现姓名:叶西切忠学号:0501070905院系:计算机学院专业:中国少数民族语言文学研究方向:藏文信息处理及应用指导教师:安见才让教授青海民族大学研究生工作部2012年5月25日万方数据基于web的藏文文本自动分类研究与实现摘要随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,人们常对藏文网页按照其内容进行分类。目前,用传统的分
2、类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分
3、类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。关键词:藏文网页,自动分类,藏文分词,特征提取,分类算法;I万方数据Webཡི་བོད་ཡིག་ཡིག་ཚགས་རང་འགུལ་དབྱེ་འབྱེད་མ་ལག་གི་ཞིབ་འཇུག་དང་
4、མངོན་གྱུར།ནང་དོན་གནད་བསྡུས།དྱེ་ཡང་དྲ་རྒྱའི་ལག་རྩལ་གཏིང་ཟབ་ངང་འཕྱེལ་རྒྱས་དང་།བོད་ཡིག་དྲ་ཚིགས་མྱེད་པ་ནས་ཡོད་པ་ཡོད་པ་ནས་ཇྱེ་མང་དུ་སོང་ཞིང་།བོད་ཡིག་གི་བརྡ་འཕིན་ཐོན་ཁུངས་ཀྱང་སྐྱ་ཟད་སོ་སྡུག་གི་དུས་རབས་ནས་རྣམ་མང་ཕུན་ཚོགས་ཀྱི་གྲངས་ཚན་གི་དུས་རབས་སུ་ཕིན་མོད།རྒྱ་མཚོའི་གྲངས་ལ་
5、འཕ་བའི་བོད་ཡིག་ཆ་འཕིན་ཐོན་ཁུངས་ལས་མི་རྣམས་ཀྱིས་རང་རང་གི་འདོད་བོ་དང་འཚམ་པའི་བརྡ་འཕིན་ཞིག་བསྡུ་ལྱེན་བྱེད་རྒྱུ་ནི་ལས་ཚེགས་ཆྱེན་པོ་ཞིག་ཏུ་སྣང་ཕིན།དུས་རྒྱུན་བོད་ཡིག་གི་དྲ་ཚིགས་དག་ནང་དོན་ལ་གཞིགས་ནས་རིགས་དགར་གིན་ཡོད།མིག་སའི་སོལ་རྒྱུན་གི་ཡིག་ཚགས་དབྱེ་འབྱེད་བྱེད་ཐབས་དྱེར་ལས
6、་ཆོད་ཆྱེན་པོ་མྱེད་པས།ངྱེས་པར་རྩིས་འཕྲུལ་གིས་བོད་ཡིག་དྲ་ཚིགས་ཡིག་ཚགས་ལ་རང་འགུལ་གིས་དབྱེ་འབྱེད་བྱེད་པར་བསྱེན་དགོས་ཤིང་།རྩིས་འཕྲུལ་གིས་ཡིག་ཚགས་ལ་དབྱེ་འབྱེད་བས་ན་གཅིག་ནས་མིའི་རྩོལ་བ་དང་དངུལ་གི་འགྲོ་སོང་ཇྱེ་ཉུང་དུ་གཏོང་ཐུབ་པ་དང་།གིས་ནས་དྲ་ངོས་དབྱེ་འབྱེད་གི་ལས་ཆོད་དང་དག
7、་ཚད་ཀྱང་ཇྱེ་མཐོར་འགྲོ་ཐུབ་པས།མི་རྣམས་ཀྱིས་རྱེ་སྱེག་བ་བཞིན་པའི་བོད་ཡིག་དྲ་ཚིགས་ཡིག་ཚགས་དབྱེ་འབྱེད་ཀྱི་འདོད་བོ་དང་འཚམ་ཞིང་།ཁ་ཚ་དགོས་གཏུག་ཏུ་ཡོད་པའི་ཞིབ་འཇུག་བ་ཡུལ་ཞིག་ཏུའང་གྱུར་ཡོད་པ་ཡིན།རང་འགུལ་གིས་བོད་ཡིག་དྲ་ངོས་ཀྱི་ཡིག་ཚགས་དབྱེ་འབྱེད་བྱེད་པ་དྱེ་ནི་བོད་ཡིག་འཚོལ་བཤྱ
8、ེར་མ་ལག་དང་བོད་ཡིག་གྲངས་ཚན་དཔྱེ་མཛོད་ཁང་།བོད་ཡིག་པར་སྐྲུན་ཁང་སོགས་ཀྱི་ཁྱབ་ཁོངས་མ་ཟད།བོད་ཡིག་ཆ་འཕིན་ལག་རྩལ་སོགས་ཀྱི་བཞི་འཇུག་དང་འཕྱེལ་རྒྱས།བཀོལ་སོ
此文档下载收益归作者所有