算法课程设计---中文分词程序设计与实现

算法课程设计---中文分词程序设计与实现

ID:14370187

大小:201.50 KB

页数:14页

时间:2018-07-28

算法课程设计---中文分词程序设计与实现_第1页
算法课程设计---中文分词程序设计与实现_第2页
算法课程设计---中文分词程序设计与实现_第3页
算法课程设计---中文分词程序设计与实现_第4页
算法课程设计---中文分词程序设计与实现_第5页
资源描述:

《算法课程设计---中文分词程序设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、辽宁科技大学课程设计说明书设计题目:中文分词程序设计与实现学院、系:装备制造学院专业班级:计算机09(1)班学生姓名:高祥指导教师:迟呈英成绩:2012年3月2日目录一.需求分析随着国内互联网的迅猛发展,网络信息量急剧膨胀,如果完全由人工来整理如此繁多的信息,那是难以想象的工作量,同时也不现实的,如何有效、快速、准确的从大量的信息中找到我们所需要的信息,是摆在我们面前的一个重要和迫切的任务,为了解决这个难题,人们采用了中文分词技术,通过分词技术,就可以使得对海量信患的整理更准确更合理,使得检索结果更准

2、确,效率也会大幅度地提高。所谓中文分词,就是把一个汉语句子按照其中词的含义进行切分。随羞人们更深入熬研究,中文信息处理技术得到了广泛应用,并对中文分词技术的要求也越来越高。中文分词技术已经引起多方的关注,并成为中文信息处理的一个前沿课题l卜21。目前在自然语言处理技术中,中文处理技术远远落后于西文处理技术,许多西文的处理方法中文不能直接采用,就是因为中文必须进行分词处理。中文分词是其它中文信息处理的基础,搜索弓

3、擎只是中文分词的一个应用,其它应用比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动

4、校对、中文文献瘁全文检索等翻,都需要焉到分词。分词准确性对搜索弓

5、擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索弓l擎需要处理数以亿诗的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求,中文分词技术要想更好的服务予更多的产品,需要更多的专业队伍投入到研究中来,因此,中文分词的研究还是一个相当长的探索过程。目前中文分词得到了很多现实的应用,主要体现在在信息检索、同音字和多音字方面

6、的识别、文本校对、简体繁体的囱动转换、自动标引、自动文撬、视器翻译、语言文字研究、搜索弓

7、擎研究、自然语言理解和中文信息处哈尔滨]二程大学硕七学位论文理等方面M,也是中文智能计算技术发展的前提和基础。随着对中文分词技术关注度的不断提高,大量的学者都加入到了这一研究领域,使中文分词取得了丰硕的研究成果。近10年来,语言学界、人工智能领域和情报检索界的学者们,在中文分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决中文分词的方法,目前关于中文分词研究方法主要有三个方面,即基于字符串匹配的分词方法

8、、基于统计的分词方法和基于理解的分词方法。中文分词的研究,主要是从词层面进行的研究,这一问题很早就受到了广泛的关注。目前,各种分词系统也不断建立,分词系统在运行速度、准确度等方面已经具有了研究应用的价值,但是在句子中词该如何被界定,仍然是一个比较困难的问题,同时,在不同的应用领域由于应用需求的不同,需要达到的分词效果有很大区别。词的确切概念难以标准化,词的应用领域不同,使得分词规范难以统一,需要达到的分词效果也有很大区别。在这一长期的研究和实践过程中,分词规范、歧义字段处理和未登录词识别成为困扰我们的

9、主要技术难题,随着计算机技术和汉语语言研究的发展,中文分词技术将会有更大的突破。二.设计主要分为两大模块:一个建立一棵树,一个是查询。建树有三个层次,第一层一维数组,第二层是数组,用于二分查找使用,第三层是二叉树。查询分为直接查询第一层的一维数组,第二层用二分查找(第二层汉子相同的平均概率是26,一般第二字成词切相同),第三层直接顺序查找,以及查找句子中的数字和汉子标点。输出:(1)建树包括:以此字开头的词语有几个;在一维数组中的中位置;结束(2)查询包括输出每个词的首字。然后输出分词后的结果。输入语

10、句开始截取第一个字Len>2否Len>4否是第二层二分查找第三层直接顺序查找打印词语结束一.编码与调试因为字符串比较所需的时间同字符串的长度成正比,对于较长的词条,这种现象尤为突出。为了消除这种冗余操作,我们提出将词典的词尾部分以自动机的形式来组织。为此,我们将组成单词的每个字以一种链表节点的形式存储,其抽象数据结构的定义如下:structNode3{stringS;boolIsWord;Node3*L,*R;Node3(strings="",boolisWord=0,Node3*l=0,Node3*

11、r=0):S(s),IsWord(isWord),L(l),R(r){}};structNode2{stringS;boolIsWord;Node3*Child;Node2(strings="",boolisWord=0,Node3*child=0):S(s),IsWord(isWord),Child(child){}};structNode{stringS;vectorv;};vectorDic;intBinarySearch

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。