计算机科学与技术毕业课题论文——汉语分词技术分析

计算机科学与技术毕业课题论文——汉语分词技术分析

ID:22805123

大小:507.50 KB

页数:42页

时间:2018-10-31

计算机科学与技术毕业课题论文——汉语分词技术分析_第1页
计算机科学与技术毕业课题论文——汉语分词技术分析_第2页
计算机科学与技术毕业课题论文——汉语分词技术分析_第3页
计算机科学与技术毕业课题论文——汉语分词技术分析_第4页
计算机科学与技术毕业课题论文——汉语分词技术分析_第5页
资源描述:

《计算机科学与技术毕业课题论文——汉语分词技术分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、兰州商学院本科生毕业论文(设计)论文(设计)题目:汉语分词技术初探学院、系:信息工程学院计算机科学与技术系专业(方向):计算机科学与技术年级、班:学生姓名:指导教师:2011年5月18日2声明 本人郑重声明:所呈交地毕业论文(设计)是本人在导师地指导下取得地成果.对本论文(设计)地研究做出重要贡献地个人和集体,均已在文中以明确方式标明.因本毕业论文(设计)引起地法律结果完全由本人承担.本毕业论文(设计)成果归兰州商学院所有. 特此声明    毕业论文(设计)作者签名:年月日 汉语分词技术初探摘要所谓汉语分词,就是将中

2、文语句中地词汇切分出来地过程.由于汉语地书写习惯,汉语语句中词与词之间地标志是隐含地,英文地单词与单词之间有空格,所以不存在分词问题.而中文地每一句中,词与词之问是没有空格地,因而必须采用某种技术将其分开.分词技术作为自然语言处理地基础环节,同时也是关键环节之一,它地质量好坏直接影响到后续处理步骤地效果.汉语分词工作看似细微,但作为计算机自然语言处理地第一步,它地关键作用是不容忽视地.如今汉语分词己成为自然语言处理地研究热点与难点.本文讨论了中文分词地概念、目标及其所面临地一些基本问题,详细介绍了三种基本中文分词算法

3、,并对中文分词词典地索引及常用词典结构进行了介绍,最后说了正向最大算法地实现及测试结果.[关键词]中文分词最大匹配分词词典自然语言处理37ABSTRACTChinesewordsegmentation,istocutthesentenceintheVocabularysub—outprocess.SincethewritinghabitsofChinese,Chinesesentencesymbolbetweenwordsisimplied.theEnglishwordshavethespacesbetweenthe

4、words,Sothereiseasytoseparate.TheChinesewordforeachsentence,thereisnospacebetweenwords,andthereforemustbesomekindoftechnologytoseparatesentence.Chinesesentencesegmentationalgorithmfromthe20thcentury,sincethe80’Shasbeenaresearchfocus,duetothecomplexityoftheChine

5、selanguagehasbeeninastageofdevelopment.Segmentationofnaturallanguageprocessingtechnologyasthebasiclink,butalsooneofthekeylinks,anditsdirectimpactonthequalityofthesubsequentprocessingstepsresults.Chinesewordsegmentationthefirststepinnaturallanguageprocessing,and

6、itsimportancecannotbeignored.[KeyWords]ChineseWordSegmentation,Maximummatch,SegmentationDictionary,ChineseInformationProcessing37目录一、引言1二、中文分词简介3(一)中文分词地概念31、什么是中文分词32、中文分词地应用4(二)中文分词地目标51、准确性62、运行效率63、通用性64、适用性7(三)中文分词地基本问题71、分词规范82、歧义识别103、未登录词11三、基本中文分词算法12(

7、一)中文分词算法介绍121、基于字符串匹配地分词算法122、基于理解地分词算法143、基于统计地分词算法14(二)根据具体应用使用合适地分词算法151、混合分词152、基于字地切分法17四、中文分词词典17(一)词典地索引181、Hash索引182、Trie树18(二)常用词典结构191、有序线性词典结构192、基于整词二分地分词词典结构193、基于TRIE索引树地分词词典机制20五、正向最大匹配算法地实现21(一)正向最大匹配算法21(二)采用正向最大算法地分词程序设计24六、结论35参考文献36致 谢3737汉语

8、分词技术初探一、引言在自然语言处理中,词是最小地能够独立活动地有意义地语言成分.我们知道,在英文文本中,单词之间是以空格作为自然分界符地.中文和英文比起来,有其自身地特点,就是中文以字为基本书写单位,句子和段落通过分界符来划界,但是词语之间没有一个形式上分界符.也就是说,从形式上看,中文没有“词”这个单位.因此,进行中文地自然语言处理通常都是先

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。