欢迎来到天天文库
浏览记录
ID:35064086
大小:6.79 MB
页数:84页
时间:2019-03-17
《基于实例的中文分词系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、-化一^?抑'苦玄品革::,心马;--歲巧己进马巧苗;巧。^与巧瓦—"?‘v-.Vg'.^…一…-*%-■?"—-一?—'—?、-■—,/■?^.?一??-V??、;I二.^―一 ̄ ̄—一-W??—^Ty或?皆—"..,.'京忘拓^,?,—'if*wv,,-"w。,*■?.■'.v:r::;二二;:v二:^■>;…一…*__<.:_—.;.;.^'、’古进-’二;品芯:;:::^;1k:;f:^:;::::忠;:,二过…二巧尹 ̄.卓V.''?*’’'.^^£^5貫>。方忠试田,记^?^^另:;:::
2、;:::二^?門;,苗;門.:,巧歲蒜1ih,'.v,1illw"ir ̄r ̄j""^—''AW:S?!Si.?,.:::;己:^:立::;;::;;:-WVV*〇*Wl々AV;y>rsr>:ij打***A、iA?.,..毛i钟成*葦LOQINAUNFCHIVERSITYOFELECTRONICSCIENCEAN田TECHNO田Y专业学位硕±学位论文MASTERTHESISFORPROFESSIONALDEGREE:薄养,麵il謹靈議顯|纖》詞識%W慕嗎二.—讓-纖.
3、—1.;;::^气.处旅雜側—MBI觀;.—'‘嗎论二=.-*文题目基乎鴻例的中文分词系统设计与实现...专业—--———■■—'■■-*———学化类别工程硕丈?化学者号201322060524—姓名鄰宗萊:指导教-::W师汪支勇教授■■‘■違■,-..巧_■'?:.-,:一.—-,.-.^-- ̄-rJ,T.■=■占.-.....、;_.其-;:-'?;---山W.--:?.一二山.一r_r:-
4、._/分类号密级注1UDC学位论文基于实例的中文分词系统设计与实现(题名和副题名)郑宗荣(作者姓名)指导教师汪文勇教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称计算机技术提交论文日期2016.3.29论文答辩日期2016.6.15学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。DesignandImplementofAnExample-basedChineseWordSegmentationSystemAMasterThesisSubmittedtoUniversityo
5、fElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:ZHENGZongrongSupervisor:Prof.WANGWenyongSchool:SchoolofComputerScience&Engineering摘要摘要词语通常被认为是自然语言处理的最基本单位。不同于英语或者大部分的西方语言,在许多亚洲语言(如中文、日文、泰文)中,句子是由连续的字符串序列构成,词语间没有显式的间隔符(如空格)。因此,中文分词是中文自然语言处理必不可少的首要任务。所谓中文分词,就是把连续的中文文本划分为单词、
6、术语或者其它语言学单位的过程。只有这些基本的语言单位被正确地切分出来,才有可能进行后续的分析或者处理。现有的中文分词器已经达到很高的精确度。以SIGHAN的PKU语料库为例,?1测值已经超过95%[1,2]。然而这些最好的分词器大多依赖于庞大的训练数据、复杂的统计模型或者特定的语言模型,往往无法应用于不同的语言。目前仍然没有一种分词算法可以有效地刻画人类识别词语边界的能力。训练语料库是最好的分词参考,如何尽可能地利用训练语料库,从中尽可能多地提取出有用的分词信息是解决这个问题的关键。论文提出一种全新的基于实例的中文分词算法,在此基础上设计并实现了基于实例的中文分词系统。相比于已有分
7、词算法,该算法直接利用训练语料库进行分词。它不需要显式的分词词典,不需要事先的训练过程,也不依赖于任何语言知识,而是直接回到人类识别词语的方式上,因此可以应用于不同语言。由于语料库规模有限,不可避免存在数据稀疏问题,长句子容易丢失分词结果。因此,该算法首先将待分词句子划分为若干个长度为?的子句,称为?子句,然后对这些?子句进行两个阶段的处理:提出实例精确匹配方法在训练语料库直接找到?子句的分词结果,对于找不到匹配的?子句提出比例类推的分词方法,即先模糊匹配找到近似字符
此文档下载收益归作者所有