中文自动分词程序文档

ID：26473433

大小：82.00 KB

页数：4页

时间：2018-11-27

资源描述：

《中文自动分词程序文档》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、中文自动分词程序文档田硕张顺昌（软件所）汉语自动分词算法按照不同分类标准，可以分为基于规则、基于统计的分词方法和基于词典切分、无词典切分两种。本程序采用词典切分、基于规则的方法实现汉语自动分词。由于很难取得大规模的标注语料，所以我们没有采取基于统计的方法来做分词，而是采取基于词典的自动分词，依照词典newdict.txt（计算所自然语言处理平台下载）采用正向最大匹配算法对输入文件自动分隔处理，得到输出结果。而且效果还是不错的。本文第一部分主要介绍程序实现中的词典处理、正向最大匹配算法和自动分词的过程，第二部分程序的测评结果及分析，最后

2、大体介绍作业分工及使用方法。1．程序实现该程序按照特定的中文词典，来进行自动分词。其中使用的分词词典来源于计算所自然语言处理平台的共享词典，运用正向最大匹配算法，得到分词处理之后的输出结果。1.1词典处理对于字典的组织，经过简单的统计分析，我们发现汉语中双字的词占多数，所以该程序采用基于双字hash的分词词典机制[1]，其结构分为三级，前两级为索引。这样可以快速的定位待分词，可以明显的提高分词的效率。1)首字Hash索引首字Hash索引的每个单元包括三项内容:①关键字(2bytes):词的第一个汉字A;②是否为词(1bit):标示单个

3、首字A是否为词;③次字Hash索引指针(4bytes):指向以汉字A起始的所有词语的第二个汉字的索引。2)次字Hash索引(仅对能跟第一个字构成‘词或词的前缀’的字建立,与第一个字无关的汉字并无相应结点)次字Hash索引的每个单元也包括三项内容:①关键字(2bytes):词的第二个汉字B;②是否为词(1bit):标示双字串AB是否为词;③剩余字串组指针(4bytes):指向以双字串AB起始的所有词语的剩余字串有序数组。3)剩余字串组剩余字串组是以双字串AB起始的所有词语剩余字串的有序数组,每个单元包括两项内容:①剩余字串(不定长2nb

4、ytes):除去词的前两个字(A、B)后的剩余部分;②是否为词(n-1bit):标示从第一个汉字A至对应位置的子串是否也构成一个词。利用动态分配的内存空间存储。装载词典时动态申请内存空间，整个程序中都不会释放，直到程序退出。这样可以提高分词的效率。详细结构见下图：1.2正向最大匹配算法　　　　for(i=0;i

5、trlen(str[i].han_item)==(num-2))oldnum=num-2;elsenum=oldnum;if(oldnum>dis)dis=oldnum;}returndis;1.3分词处理流程a.载入分词词典b.建立双字hash结构c.读入待分词文件的一行，并调用处理函数标志分词位置。d.根据上步做出的分词标志分词，并将用空格分开的词写入到输出文件，转c直至待分词文件结束。e.从内存中卸载词典，释放内存，退出。2．测评我们用两篇中文文章（test1.txt、test2.txt,摘自kyxk.net文学版帖子）作为测试

6、用例，对该程序进行测评：正确率P=切分结果中正确词次数/评测语料中总词次数[3]对上面提到的两篇文章（分别为3KB和4KB）做了测试，平均正确率为：P=95.27%[注：]可能是字典的原因或者是测试集太小的缘故，正确率不是很高。再就是没考虑切分歧义的问题，但对于一般应用还是可以了。3．任务分工田硕（软件所200628015029025）主要完成了词典收集，论文整理，设计等准备工作和文档撰写等后续工作。张顺昌（软件所200628015029049）主要完成了双字hash结构的设计和代码实现部分，主要是用标准C来实现的，还包括最后测试部分

7、。4．程序运行方法程序最后输出为hanseg.exe,是在命令行下运行的，开发是在Windows下实现的。但采用的是标准C，所以可以很方便的移植到UNIX/Linux-like平台下面（只需重新编译一下即可）。其运行方法如下：C:>hanseginput_fileoutput_fileinput_file:待分词的输入文件output_file:分词结果输出文件。[注]:由于每次处理的是一个字符串，所以很容易从源代码中抽取一个能处理字符串的分词API。运行界面截图：开始输入界面：分词完成界面：[参考文献]1．一种中文分词词典新机制—

8、—双字哈希机制李庆虎清华大学20032．汉语自动分词词典机制的实验研究孙茂松清华大学19993．现代汉语自动分词评测技术研究刘开瑛1997

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

中文自动分词程序文档

中文自动分词程序文档

相关文章

相关标签