中文分词系统的设计与实现.pdf

中文分词系统的设计与实现.pdf

ID:56008663

大小:457.83 KB

页数:3页

时间:2020-06-19

中文分词系统的设计与实现.pdf_第1页
中文分词系统的设计与实现.pdf_第2页
中文分词系统的设计与实现.pdf_第3页
资源描述:

《中文分词系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第8期电脑开发与应用文章编号:1003—5850【2014)08—0003—03中文分词系统的设计与实现杜鸿舰,金晓燕,梁新昀,敖琳(大连民族学院计算机科学与工程学院,辽宁大连116605)摘要:介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。关键词:中文分词,正向最大匹配,逆向最大匹配中图分

2、类号:TP391文献标识码:ADesignandImplementationofChineseWordSegmentationSystemDUHong-jian,JINXiao-yan,LIANGXin—yun,AOLin(SchoolofComputerScienceandEngineering,DalianNationalitiesUniversity,Dalian116605,China)Abstract:TheChinesewordsegmentationalgorithmandtheMFCapplicationsarei

3、ntroducedinthispaperInChinesewordsegmentation,abidirectionalmaximummatchingalgorithmthatcombinesthenormalmaximummatchingalgorithmandreversemaximummatchingalgorithmisemployed.Insystemdesignsegmentation,MFCapplicationframeworkiSusedtorealizethevisualizationofthesystem.A

4、Chineseelectroniclexiconwhichcontainsmorethan44000entriesandabackgrounddatabasearesetupAnapplicationprogramthatcontainsChineseelectroniclexiconandChinesewordsegmentationfunctioniscompleted.Keywords:chinesewordsegmentation,forwardmaximummatching,reversemaximummatching,

5、lexicon没有分隔[21。在中文里,“词”和“词组”边界模糊。现代引言汉语的基本表达单元虽然为“词”,且以双字或者多字中文自动分词是实现搜索引擎信息检索的基础,词居多,但由于人们认识水平的不同,对词和短语的同时还是中、外文自动翻译、数据挖掘技术、自然语言边界很难去区分。处理等信息处理领域的基础环节,长期以来一直是人本文首先在对语料进行选取、加工的基础上,建立们研究的重点。分词词典,之后设计和制作出一个具有中文分词功能中文分词指的是将一个汉字序列切分成一个一的系统。词典的需求是为用户提供查词功能,本文在个单独的词。分词就是将连续

6、的字序列按照一定的实现上述功能的基础上为用户留出了通过词条查询规范重新组合成词序列的过程fl1,其作用是将用户输数据库的接口。在中文分词算法中,本文分别设计和入的中文语句或语段拆成若干汉语词汇。例如,用户实现了正向最大匹配和逆向最大匹配分词算法。输入语句“我是一个学生”,经分词系统处理后,该语1数据库句被分成“我\是\一个\学生”4个汉语词汇。之所以存在中文分词技术,是由于中文在基本文法上有其1.1数据库特殊性,以英文为代表的拉丁语系语言以空格作为天MicrosoftOficeAccess是微软把数据库引擎的图然的分隔符,而中文由

7、于继承自古代汉语,词语之间形用户界面和软件开发工具结合在一起的一个数据收稿日期:2014—05—21。修回日期:2014—06—19●基金项目:大连民族学院创新创业项目(X2013111)料作者简介:杜鸿舰,男,1993年生,本科在读,研究方向:多媒体信息处理。第27卷第8期电脑开发与应用(总0569)‘5·3分词系统分词系统实现了正向最大匹配算法和逆向最大匹配算法[51。正向最大匹配算法的思想:首先假设词库里由个字组成了最长的词,则每一次都要从句子最左边截取一个字符串,其长度为,把它与词库里词条依次进行匹配,若在词库中找到这个字

8、词,表明匹配成功,就把这个字符串从句子头上切分开来,作为一个独立的词。再从余下部分截取个字的字符串,重复上面过程,直到带分句子被切分完全为止。如果待匹配字符串在词库中找不到与它相同的词条,那么就从该字符串最右边删去一个字,用1个字长的字符串继续匹配

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。