欢迎来到天天文库
浏览记录
ID:35097588
大小:4.97 MB
页数:53页
时间:2019-03-17
《词典与统计相结合的傣文分词方法与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号jEai密级公开UDC编号《余九聲巧女研《4#僅伶题目词典与统计相结合的俸女分词芳法与实现TitleDailanguageSegmentationBasedonDie村onarvandStatistics‘学院(所、中心)信息学院专业名称电子与通信工程研巧生姓名李慧学号12014002386导师姓名杨鉴职称教授2016年5月论女独创性声明及使用授权本论文是作者在导师指导下取得的研巧成果。除了文中特别加W标注和致谢
2、的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,不存在勁窃或抄袭行为一。与作者同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢意。(现就论文的使用对云南大学授权如下:学校有权保留本论文含电子版),也可W采用影印、缩印或其他复制手段保存论文;学校有权公布论文的全部或部,可W将论文用于查阅或借阅服务分内容;学校有权向有关机构送交学位论文用于学术规范审查、社会监督或评奖;学校有权将学位论文的全部或部分内容录入有关数掘库用于检索服务。(内部或保密的论文在解密后应遵循
3、此规定):W《欠:导师签名:省日期研究生签名_Imm_巧要随着计算机及互联网应用的普及,人们对语音合成技术提出了更广泛的应用,需求。文本处理是语音合成系统的重要组成部分,与汉语文本类似在俸语文本,,中对于倦语语音合成系统而言,分,不存在自然分界符因此词是文本处理的重要环节,分词的效果将直接影响到语言合成的自然度。分词技术归纳起来有H种:基于理解的分词方法、基于词典的分词方法W及基于统计的分词方法。基于理解的方法是利用语法、语义!^1及语句信息等知识进行分词,比较难W实现。
4、基于词典的分词方法有很高的分词效率,但是不能够识别未登录词。而采用基于统计的分词方法对未登录词有很好的识别,但分词的准确度却很低。因此,在对未登录词有较好识别的前提下,提高俸语分词的准确度,本文采用了基于词典与统计相结合的方法,并进行深入的研究。论文的主要工作包括:(1)详细介绍了FMM、MMSEG化及基于条件随机场(CRF)的分词原理。(2)获取语料库,从网络上下载语料,对这些语料进行整理。然后构建词典,对込些俸语文本进行分词,首先是基于正向最大匹配算法(FMM)的分词,指出了其不能
5、消除歧义。为了弥补这个缺陷,我们使用了MMSEG的分词方法,为了能够消除歧义,MMSEG加入了四种歧义消除规则,然而MMSEG对于未登录词一些专:RF,不能够识别,又提出了基于MMSEGK的分词方法这种分词方法对与有名词、人名及地名有了很好的识别。(3)对实验结果进行了分析,并对对H种分词方法进行了评估,包括准确度和召回率。实验结果表明:使用MMSEG+CRF分词具有较高的准确率,其正确率达到了97,召回95.6,1.6,是可换满足俸语分词要求的,.7%率到达了F值为%并且合成出的
6、语音是具有较好的自然度。关键词:语音合成;俸语分词;最大正向匹配算法(FMM);MMSEG;条件随机场(CRF)IAbstractAbstractWi化也epopularityofcomputersandInternetapplications,peoplevoicesynthesistechnologymademorewideraneofapplicatio打s.Textrocessinisanimortantartgpgppofthese
7、echsnthesissstemandChinesetextsimilartotheDailanuaeversionspyy,gg,化erearenonaturaldelimiters,化erefbre,for化epurposesof化eDailanguagespeechsnthesissstemsementationisanimortantartof化xtrocessinsementationyy,,gpppggresultswilldi
8、rectlyafect也enaturalnessofspeechsyrUhesis.Wordsegmentationsummedupinthreeways:basedsegmentationmethodtod-understandictionarbasedwordsementation
此文档下载收益归作者所有