中文分词程序实验报告含源代码new

中文分词程序实验报告含源代码new

ID:34508984

大小:449.04 KB

页数:19页

时间:2019-03-07

中文分词程序实验报告含源代码new_第1页
中文分词程序实验报告含源代码new_第2页
中文分词程序实验报告含源代码new_第3页
中文分词程序实验报告含源代码new_第4页
中文分词程序实验报告含源代码new_第5页
资源描述:

《中文分词程序实验报告含源代码new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京邮电大学计算机学院《自然语言处理导论》中文分词实验报告姓名:许伟林学号:08211306指导教师: 郑岩日期:2010/12/221内容目录一、实验目的...............................................................3二、实验环境...............................................................3三、实验材料..............................................................

2、.3四、实验设计...............................................................3一、分词策略.............................................................3词典逆向最大匹配法...................................................4基于确定文法的分词法.................................................4二、程序设计.............

3、................................................4查找算法:哈希表查找.................................................4汉字编码格式:UTF-8...................................................5程序流程图............................................................6程序源代码....................................

4、........................8五、结果和性能分析........................................................16分词结果示例............................................................16性能分析................................................................17六、有待解决的问题.........................................

5、...............18七、实验总结..............................................................192一、实验目的了解中文分词的意义掌握中文分词的基本方法二、实验环境UBUNTU10.05GCCv4.4.3三、实验材料中文常用词词典《人民日报》1998年合订本四、实验设计一、分词策略据我的了解,目前较为成熟的中文分词方法主要有:1、词典正向最大匹配法2、词典逆向最大匹配法3、基于确定文法的分词法4、基于统计的分词方法一般认为,词典的逆向匹配法要优于正向匹配法。基于确定文

6、法和基于统计的方法作为自然语言处理的两个流派,各有千秋。3由于时间仓促,且水平有限,本程序只实现了第2种和第3种分词法,即词典逆向最大匹配法和基于确定文法的分词法。词典逆向最大匹配法词典逆向最大匹配法完成分词的大部分工作,设计思路是这样的:1、将词典的每个词条读入内存,最长是4字词,最短是1字词;2、从语料中读入一段(一行)文字,保存为字符串;3、如果字符串长度大于4个中文字符,则取字符串最右边的4个中文字符,作为候选词;否则取出整个字符串作为候选词;4、在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最左字,重复这步进行查找,直到候选词为1个中

7、文字符;5、将候选词从字符串中取出、删除,回到第3步直到字符串为空;6、回到第2步直到语料已读完。基于确定文法的分词法基于确定文法的分词法可以进行数字、西文、时间的分词,设计思路是这样的:1、增加一个词典,存储中文编码(全角)的大小写拉丁字母、中文小写数字、阿拉伯数字、数字单位(百、千、万、亿、兆)、小数点、百分号、除号;词类型记为[D1];2、增加一个词典,存储中文编码的时间单位,包括年、月、日、时、分、秒、点;词类型记为[D2];3、文法的正则表达式为[D1]*[D2]?。二、程序设计查找算法:哈希表查找除了分词结果的准确性,程序的性能也是至关重要的

8、。由于本程序采用了词典法来分词,执行过程需要检索大量数据,因此查找效率成为程序性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。