欢迎来到天天文库
浏览记录
ID:36765010
大小:8.02 MB
页数:156页
时间:2019-05-15
《基于生成性词库分词技术的汉语拼音自动转换研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要本文的研究目标是为上层语言应用,比如语音输出、拼音读物排版系统、对外汉语教学等,提供一个高效率、高准确度的把汉字文本自动转换成汉语拼音的算法。算法的核心是识别汉字的多音字。我们通过研究,发现只有在词处理层面才能较好地识别多音字。因此,我们第一步的工作是进行自动分词的研究,这个研究是建立在优化和完善湖南大学罗海清的生成性词库分词技术上的。通过扩充基本语素以及对应的前加语素和后加语素、增加专业名称和成语词表等研究,大幅度地提高了分词的准确度。第二步,在自动分词的基础上,我f门采集了GB2312字符集中所有的多音字和它们对应的词,设计算法把汉
2、字词转换成汉语拼音词,同时在程序中还对音变进行了处理。通过不断地试验,我们最终的汉字文本转汉语拼音程序能达到99%的准确度,基本满足了实际应用的需求。关键词:汉语拼音;汉语自动分词;中文信息处理;生成性词库ABSTRACTTheaimofthisdissertationistoproVi(1eanalgorithmofhighemciencyandaccuracywhichcall仃ansferChinesecharactertextintoChinesephoneticSystem(Pin如n)forupper1anguageuse.Th
3、eupperlang啦喀euseincludesspeechoutput,systemofreaderwithphoneticsylnb01s,theteacmngofChineseasaforeign1anguage.Thecofeofthealg嘶thmistoident毋Chinesepolyphone.P01yphonecanbewenidentifiedinwordprocessingthroughourresearch.Therefore,the6rststepofourresearchisautomaticsegmentati
4、on.TheresearchisbasedonoptiInization锄dinte酣tyofwordprocessingOfgenerationofthesaumsbyLuoHaiqinginHunanUniversi哆TheaccuracyofwordprocessingisimproVedbyextendillgbasic,preandpostmo印heme,addingresearchoftemlin0109yaJldidiomvocabula巧.ThesecondstepistocollectaUpolyphonesaJldthe
5、irrelatedwordsincharactersetGB2312,desi目algo]№to昀nS衙cha】嗽ter幽P吣,inand捌、析m洲chan萨inmep哟gramon山e弧isofautomaticsegmentation.Theaccuracyofmefinalpro铲am∞ansf.erringcharactertextintoPinyinis99%妇oughconstaJltexperiHlentations,whichcanmeettheneedsofpracticalapplication.KeyWords:The
6、ChinesePhoneticSystem;Chineseautomaticwordsegmentation;Chineseinf.onnationprocessing;GeneratiVeworddatabaseII2009年4月湖南师范大学学位论文原创性声明本人郑重声明:我呈交的学位论文,是本人在导师的指导下,独立进行研究工作取得的成果。除了正文中已经注明引用的内容以外,本论文不含有任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,都已经在文章中用明确方式标明。本人完全意识到本声明的法律结果由席叭新担靴
7、黻储麟:弘口卯夕年石肥日湖南师范大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,研究生在学校攻读学位期间论文工作的知识产权单位属于湖南师范大学。同意学校保留并且向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南师范大学可以把本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于(请在相应方框内打“/’)1.保密口,在⋯⋯年解密后适用本授权书。2.不保密口。作者签名:芳万日期:护吁年多月2/日导师签名:勃∥冢阚日期
8、:尸1年6月≥日156基于擞洼僻分词技术的汉语拼音自动转换研究l绪论1.1研究的内容和意义到2008年,《汉语拼音方案》公布已经50周年了。我们从社会生活的方方面面可以看到和感受
此文档下载收益归作者所有