欢迎来到天天文库
浏览记录
ID:54591740
大小:228.55 KB
页数:4页
时间:2020-05-02
《依据字符串匹配的中文分词模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第33卷第6期测绘科学与工程Vo1.33,No.62013年12月GeomaticsScienceandEngineeringDec.20l3依据字符串匹配的中文分词模型研究徐青信息工程大学地理空间信息学院,河南郑州,450052【摘要】中文分词是中文信息处理的基础和关键,对于海量信息的有效检索具有很重要的意义。本文基于一种字符串匹配的中文分词算法,设计并实现了一种中文自动分词模型。该模型在分词算法、歧义处理、未登录词识别和无用词过滤模块上分别进行了有效处理,形成了一个方便简单的分词流程。最后通过实验证明,基于该算法设计的模型有着较高的分词准确率。【
2、关键词】中文分词;字符串;模型;匹配;准确率【中图分类号】P283【文献标志码】AResearchonChineseWordSegmentationModelBasedonStringMatchingXuQingInstituteofGeospatialInformation,InformationEngineeringUniversity,Zhengzhou450052-ChinaAbstractChinesewordsegmentationisthefoundationandkeytotheChineseinformationprocessing
3、。anditisveryimportantforeffectiveretrievalofmassinformation.Basedonthewordsegmentationalgorithmofstringmatching-thispaperhasdesignedandimplementedanautomaticChinesewordsegmentationmode1.Themodeliseffectiveindevelopingsegmentationalgorithm,handlingambiguityprocessing,recognizing
4、unlistedwordandfilteringuselesswords.Ithasdevelopedasimplebutconvenientsegmentationprocess.Finally,theexperimentalresultsshowthatthemodelbasedonthealgorithmhasahigheraccuracyrate.KeywordsChinesewordsegmentation;string;model;matching;accuracyrate中文分词(ChineseWordSegmentation)指的1绪
5、论是将一个汉字序列切分成一个一个单独的词,分随着信息科学和数据技术的高速发展,人们词就是将连续的汉字序列按照一定的规范要求重通过各种方式收集、访问数据的能力大大增强,其新组合成为词序列的过程J。中文分词是中文信中Intemet已经成为了最大的信息采集平台。面息处理的基础和关键,是语义理解的一个重要环对浩如烟海的网络信息,如何利用计算机高效快节,它将组成语句的关键词提炼出来供语义分析捷地提取出用户需要的信息成为了人们一直思考使用。而在分词过程中,如何提高分词的准确率探索的问题。虽然一些常用的搜索引擎可以帮助和速度是需要我们考虑的问题。人们找到想要的信息
6、,但同时由于自然语言的多本文应用一种改进的正向最大匹配算法,构变,给计算机理解带来了巨大的困难,也给搜索引造了一种中文自动分词模型。首先通过自动分词擎的有效检索带来了众多困惑。中文分词是信息算法将待处理文本进行粗划分,其次对已经标注检索的关键技术之一,对于海量信息的处理有很词性的粗分结果分别进行歧义处理和未登录词识大的影响和帮助。别,形成候选集,再次通过无用词过滤模块去掉分收稿日期:2013—10一l1。作者简介:徐青(1982一),男,博士,主要从事数字地图制图与文本挖掘方面的研究。56徐青:依据字符串匹配的中文分词模型研究第6期词中包含的无用词,
7、最后利用词频统计工具有效的次数;N为语料库中字的个数;N为“AB”在一地整理出中文分词集合。通过实验证明,基于该起出现的次数。算法设计的模型对于提高分词准确率具有很重要提前设定一个阈值,如果Cab大于这个阈值,的作用。则可认为相邻的两个汉字A和B属于同一个词组,否则就不能切分为词。2中文分词算法3)基于知识理解的分词方法2.1中文分词算法分类基于知识理解的分词方法,主要是通过对句法、语法和语义的分析获得有关词、句子等的语法现有的分词算法大致可分为以下三大类:基和语义信息,结合上下文内容对词进行定界。这于字符串匹配的分词方法、基于统计的分词方法类方法需
8、要使用大量的汉语语言信息,让计算机和基于知识理解的分词方法。具有人类的理解能力去组织分词,由于难度较大,1)
此文档下载收益归作者所有