课程设计说明书--中文分词程序设计与实现

课程设计说明书--中文分词程序设计与实现

ID:35617779

大小:67.50 KB

页数:9页

时间:2019-04-02

课程设计说明书--中文分词程序设计与实现_第1页
课程设计说明书--中文分词程序设计与实现_第2页
课程设计说明书--中文分词程序设计与实现_第3页
课程设计说明书--中文分词程序设计与实现_第4页
课程设计说明书--中文分词程序设计与实现_第5页
资源描述:

《课程设计说明书--中文分词程序设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、辽宁科技大学课程设计说明书设计题目:中文分词程序设计与实现学院、系:装备制造学院专业班级:计算机09学生姓名:指导教师:成绩:2012年3月2日目录一.需求分析二.设计三.编码与调试四.结果分析五.参考文献六.总结七.附录(程序源代码)一.汉字字库汉字在计算机中存储以表形式存放,第一表常用字以拼音方式存放,汉字第二表次常用字,以第二表形式存放按笔画方式。#includeusingnamespacestd;intmain(){ofstreamout("out.txt");for(inti=0xb0;i<0xf8;i++){for(intj=0x

2、a1;j<0xff;j++)out<

3、词的规范。本文主要探讨分词的速度问题,通过实验对比和理论分析,说明我们所提出的算法是有效的。目前人们所提出的分词方法,在考虑效率问题时,通常在词典的组织方面进行某种调整,以适应相应的算法,如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中,或将词典按词条长度排序或按词频排序,其目的在于协调算法与数据结构,使之效率最高。客观地说,它们都在一定程度上提高了分词的效率。本文所介绍的是基于词典的最大向前匹配方法。而在数据结构方面,我们则是将词典组织成自动机形式。2数据结构与算法例如,在一般的词典中,词条的形式如下图所示:图1:一般分词词典的形式啊啊哈啊

4、呀啊哟阿阿爸阿斗阿尔巴尼亚阿飞阿富汗…在实际存储时,可以在词尾部分删除首字。这样做不仅节省了存储空间,更重要的是缩短了字符串比较的长度。对首字的检索都是基于哈希算法;有的对于词尾部分采用线性搜索,而有的则采用二分搜索。采用何种搜索算法应根据所用词典中每个首字下的词条数目确定,一般词条数较小时,二者无明显差异。这是由这两种算法本身的特性决定的。实际词典中许多首字下的词条数目很大,因此,采用二分搜索法较优。我们的实验结果也证实了这一点。两种方法在词典的组织方面是一致的,即如同普通词典一样,按照汉字的内码递增排序,并以词条的首字建立哈希索引。我们可以将同一首字下的所

5、有词条组织成一个子表结构,如下图所示。图2:词典的逻辑结构索引子表…饱私囊…华华民国华民族华人民共和国…中…假设:源文本source_text=“中华人民共和国成立于1949年。”分词结果=“中华人民共和国/成立/于/1949/年/。”分词过程为:1.从源文本source_text中取首字head_word=“中”,并设置已切分词汇segmented_word=head_word;2.从索引中查找该首字。若未找到,则暂将该字作为单字词输出;否则,将其后续字符加入临时变量tail_word=“华”;3.在以“中”为首字的子表中查找包含tail_word的词条;若

6、查到,则从source_text中取字,继续加入tail_word中,并继续在子表中查找。在此过程中,如果满足条件的词条等于当前的tail_word,则置segmented_word=head_word+tail_word;4.步骤3中的查找失败时,则以当前segmented_word中的字符串作为输出结果。算法2和算法3的处理思想是一致的,只是在上述第三步的查找中,算法2采用的是顺序查找,而算法3采用的是二分查找。在本例中,tail_word从“华”递增到“华人民共和国”的过程中,即使不计查找过程中的比较次数,tail_word与词典中的子表项“华”字比较了

7、1次,同“华人民共和国”比较了5次。其比较长度分别为2、4、6、8、10、12。“华”(segmented_word=“中华”)“华人”“华人民”“华人民共”“华人民共和”“华人民共和国”(segmented_word=“中华人民共和国”)显然,这种比较过程存在冗余的比较操作。例如,“人”字比较了5次,其中后4次的比较是多余的。因为字符串比较所需的时间同字符串的长度成正比,对于较长的词条,这种现象尤为突出。为了消除这种冗余操作,我们提出将词典的词尾部分以自动机的形式来组织。为此,我们将组成单词的每个字以一种链表节点的形式存储,其抽象数据结构的定义如下:stru

8、ctNode3{stringS;boo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。