西里尔蒙古文语料库收集研究

西里尔蒙古文语料库收集研究

ID:33237700

大小:138.00 KB

页数:7页

时间:2019-02-22

西里尔蒙古文语料库收集研究_第1页
西里尔蒙古文语料库收集研究_第2页
西里尔蒙古文语料库收集研究_第3页
西里尔蒙古文语料库收集研究_第4页
西里尔蒙古文语料库收集研究_第5页
资源描述:

《西里尔蒙古文语料库收集研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、西里尔蒙古文语料库收集研究-大学语文论文西里尔蒙古文语料库收集研究王春荣1王贵荣2霍日查3(1.内蒙古师范大学二连浩特国际学院,内蒙古二连浩特011100;2.内蒙古通辽市科左后旗阿都沁苏木财政所,内蒙古通辽028106;3.内蒙古通辽市科左后旗阿都沁苏木阿都沁中学,内蒙古通辽028106)[摘要]本文通过编写网络爬虫程序,从网上收集了西里尔蒙古文语料库,为后期的基于统计方法的西里尔蒙古文与其他语言机器翻译研究及检索研究奠定基础。[关键词]语料库收集;西里尔蒙古文;蒙古文[中图分类号]H53[文献标识码]A[文章编号]1672-8610(2016)04-0076

2、-03[作者简介]王春荣,女,内蒙古通辽市科左后旗人,内蒙古师范大学二连浩特国际学院助教,硕士,研究方向:自然语言信息处理。王贵荣,内蒙古通辽市科左后旗阿都沁苏木财政所。霍日查,内蒙古通辽市科左后旗阿都沁苏木阿都沁中学。语料库是以电子版形式保存的语言材料,是语言学研究及语言信息处理研究的重要数据来源,是统计机器翻译研究的基础。随着计算机技术及网络技术的发展,各语言信息都一定程度上都已数字化。这对语料库的收集提供了方便。语料库的收集方法有三个,分别是手工录入,使用电子文本以及扫描录入等。本文采用网上电子文本的利用方法。本文编写网络爬虫程序,并搜集一些西里尔蒙古文新

3、闻网,最后使用网络爬虫程序从这些网上读取内容,并解析子网址,再从子网址上读取内容,依次类推,解析的子网址不超过4层。最后将读取的内容整理校对,建立了西里尔蒙古文语料库。网络爬虫程序指的是根据宽度优先算法对指定网页页面完成读取及解析任务,同时抓取读取过程中获取的所有子网址,同时进行保存,此外,在互联网中,将子网址视作新入口,完成持续爬行动作,并对后台程序自动执行。目前,西里尔蒙古文研究方面,人们做过基于规则及基于词典的西里尔蒙古文一传统蒙古文转换研究并得到了一定成果。基于规则方法需要先总结归纳规则,而这些规则不能涵盖所有语言规则的,所以存在一定的局限性,而基于词典

4、方法停留在词的翻译上,不能翻译句子,所以考虑到了基于统计方法的西里尔蒙古文与其他语言间的翻译方法。而进行西里尔蒙古文与其他语言间的统计机器翻译,需要具备语料库基础。蒙古文有两种,一种是蒙古国使用的蒙古文,称为西里尔蒙古文,又称新蒙古文、基立尔文或者斯拉夫蒙古文,另一种是中国少数民族——蒙古族人使用的传统蒙古文,或老蒙古文。传统蒙古文是竖向显示的,而西里尔蒙古文是采用俄语字母书写的,是横向显示的。两个语言读法相同,写法及语法不同。由于这两种蒙古文使用地区、国家不同,所以同是蒙古文,但是其对齐语料库很少。中国和蒙古国是邻国,从国家政策上,加强对蒙古开放,建设向北开放

5、经济带,这一过程需要跨语言障碍,所以进行西里尔蒙古文研究、收集西里尔蒙古文单语语料库,再进一步建立西里尔蒙古文一传统蒙古文对齐语料库都是有必要的。二、收集语料库算法设计本文建设了3万句子规模的西里尔蒙古文单语语料库。收集思路:首先,用C#编写了网络爬虫程序。第二,使用网络爬虫程序,从一些新闻网、政府网上爬取网页文本,并合并到lnput.txt文件中。如果读取的文本中存在URL(子链接),则保存,并作为下一个爬取入口,继续爬取。URL(子链接)解析最多限制4层。第三,编写抽取西里尔蒙古文的程序,从input.txt文件中抽取西里尔蒙古文,放到output.txt文

6、件中。第四,将output.txt文件人工整理,按句子分开,将多余符号去掉,一个句子占用一行。(一)网络爬虫程序网络爬虫程序的算法是,首先找西里尔蒙古文网站。本文找出了http://www.solongonews.mn,http://sonin.mn/,ht-tp.//www.nso.mn/,http://www.num.edu.mn/,http://www.president.mn/,http://www.meds.gov.mn/,http://www.mne.mn/等网站,分别是苏龙嘎新闻网、新闻网、蒙古国民族统计局网、蒙古国国立大学、蒙古国总统网、蒙古国政

7、府网(文化、科学)、蒙古国政府网(环境、旅游等)等网站。第二,每得到一个网址,保存该网址页面内容,再获取该网页上面的子链接,并存储。第三,从子链接爬取内容。从子链接爬取内容时,先判断该子链接是否与之前爬取网址重复,如果不重复则从子链接的网址上获取网页内容,再获取该网址子链接(URL),并存储。第四,依次循环遍历,遍历的最多层次(lev-el)个数为4。第五,每个网址及其子链接对应的所有网页内容合并到input.txt文件中。网络爬虫程序流程图如图1所示。通过网络爬虫技术收集西里尔蒙古文网页内容之后,编写抽取西里尔蒙古文字符的程序,从input.txt文件中,抽取

8、西里尔蒙古文字符,保存到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。