欢迎来到天天文库
浏览记录
ID:16105974
大小:524.00 KB
页数:42页
时间:2018-08-07
《计算机科学与技术毕业论文——汉语分词技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、兰州商学院本科生毕业论文(设计)论文(设计)题目:汉语分词技术初探学院、系:信息工程学院计算机科学与技术系专业(方向):计算机科学与技术年级、班:学生姓名:指导教师:2011年5月18日2声明 本人郑重声明:所呈交的毕业论文(设计)是本人在导师的指导下取得的成果。对本论文(设计)的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本毕业论文(设计)引起的法律结果完全由本人承担。本毕业论文(设计)成果归兰州商学院所有。 特此声明 毕业论文(设计)作者签名:年月日 汉语分词技术初探摘要所谓汉语分词,就是将中文语句中的词汇切分出来的过程
2、。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之问是没有空格的,因而必须采用某种技术将其分开。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构进行了介绍,最后说
3、了正向最大算法的实现及测试结果。[关键词]中文分词最大匹配分词词典自然语言处理37ABSTRACTChinesewordsegmentation,istocutthesentenceintheVocabularysub—outprocess.SincethewritinghabitsofChinese,Chinesesentencesymbolbetweenwordsisimplied.theEnglishwordshavethespacesbetweenthewords,Sothereiseasytoseparate.TheChinesewo
4、rdforeachsentence,thereisnospacebetweenwords,andthereforemustbesomekindoftechnologytoseparatesentence.Chinesesentencesegmentationalgorithmfromthe20thcentury,sincethe80’Shasbeenaresearchfocus,duetothecomplexityoftheChineselanguagehasbeeninastageofdevelopment.Segmentationofnat
5、urallanguageprocessingtechnologyasthebasiclink,butalsooneofthekeylinks,anditsdirectimpactonthequalityofthesubsequentprocessingstepsresults.Chinesewordsegmentationthefirststepinnaturallanguageprocessing,anditsimportancecannotbeignored.[KeyWords]ChineseWordSegmentation,Maximum
6、match,SegmentationDictionary,ChineseInformationProcessing37目录一、引言1二、中文分词简介3(一)中文分词的概念31、什么是中文分词32、中文分词的应用4(二)中文分词的目标51、准确性62、运行效率63、通用性64、适用性7(三)中文分词的基本问题71、分词规范82、歧义识别103、未登录词11三、基本中文分词算法12(一)中文分词算法介绍121、基于字符串匹配的分词算法122、基于理解的分词算法143、基于统计的分词算法14(二)根据具体应用使用合适的分词算法151、混合分词152、
7、基于字的切分法17四、中文分词词典17(一)词典的索引181、Hash索引182、Trie树18(二)常用词典结构191、有序线性词典结构192、基于整词二分的分词词典结构193、基于TRIE索引树的分词词典机制20五、正向最大匹配算法的实现21(一)正向最大匹配算法21(二)采用正向最大算法的分词程序设计24六、结论35参考文献36致 谢3737汉语分词技术初探一、引言在自然语言处理中,词是最小的能够独立活动的有意义的语言成分。我们知道,在英文文本中,单词之间是以空格作为自然分界符的。中文和英文比起来,有其自身的特点,就是中文以字为基本书写单
8、位,句子和段落通过分界符来划界,但是词语之间没有一个形式上分界符。也就是说,从形式上看,中文没有“词”这个单位。因此,进行中文的自然语言处理通常都是先
此文档下载收益归作者所有