欢迎来到天天文库
浏览记录
ID:14841029
大小:86.00 KB
页数:7页
时间:2018-07-30
《中文分词入门之最大匹配法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文分词入门之最大匹配法发表于2009年01月12号由52nlp 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。 正向最大匹配
2、法算法如下所示:(注:以上最大匹配算法图来自于詹老师讲义) 逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子: 输入例句:S1=”计算语言学课程有意思”; 定义:最大词长MaxLen=5;S2=”“;分隔符=“/”; 假设存在词表:…,计算语言学,课程,意思,…; 最大逆向匹配分词算法过程如下: (1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”; (2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”; (3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”; (4)查词表,W不在词表中,将W最左边一个字去掉
3、,得到W=”意思” (5)查词表,“意思”在词表中,将W加入到S2中,S2=”意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”; (6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”; (7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”; (8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”; (9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”; (10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“/有/意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
4、 (11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”; (12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”; (13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”; (14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”; (15)查词表,“意思”在词表中,将W加入到S2中,S2=“课程/有/意思/”,并将W从S1中去掉,此时S1=”计算语言学”; (16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”; (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/课程/有/意思/”,并将W从
5、S1中去掉,此时S1=”"; (18)S1为空,输出S2作为分词结果,分词过程结束。相应程序示例: 准备文件:建立一个词表文件wordlexicon,格式如下 计算语言学 课程 意思 输入文件:test,格式如下 计算语言学课程有意思 编译后执行如下:SegWord.exetest 输出分词结果文件:SegmentResult.txt源代码如下://Dictionary.h#include#include#include#include#includeusingn
6、amespacestd;usingnamespacestdext;classCDictionary{public:CDictionary();//将词典文件读入并构造为一个哈希词典~CDictionary();intFindWord(stringw);//在哈希词典中查找词private:stringstrtmp;//读取词典的每一行stringword;//保存每个词hash_mapwordhash;//用于读取词典后的哈希hash_map::iteratorworditer;//typedefpairsipair
7、;};//将词典文件读入并构造为一个哈希词典CDictionary::CDictionary(){ifstreaminfile(“wordlexicon”);//打开词典if(!infile.is_open())//打开词典失败则退出程序{cerr<<"Unabletoopeninputfile:"<<"wordlexicon"<<"--bailingout!"<
此文档下载收益归作者所有