欢迎来到天天文库
浏览记录
ID:31397992
大小:107.00 KB
页数:6页
时间:2019-01-09
《基于中文分词算法的英语学习资源查询系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于中文分词算法的英语学习资源查询系统研究 摘要:针对人工智能在信息搜索领域的实际应用,本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略,结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明,用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。 关键词:中文分词算法;智能搜索;事例推理;英语学习 中图分类号:G633.4文献标志码:A文章编号:1674-9324(2014)38-0157-02 AStudyonInformationResourcesof
2、EnglishLearningInquiresSystemBasedonChineseWordSegmentationAlgorithm Abstract:AimingattheusageofArtificialintelligenceinthefieldofinformationsearch,thispaperhavingintroducedtheinformationresourcesofEnglishlearninginquiressystembasedonChinesewordsegmentationalgorithm.Thes
3、ystemhavingachievedintelligentsearchoftheEnglishlearningwhichthroughakindofChinesewordsegmentation’ssearchstrategyandcase-basedreasoningtechnology.Theresultsshowthatthissystemcangettheuserstogainsatisfyingresults. Keywords:Chinesewordsegmentationalgorithm;intelligent6sea
4、rch;Case-basedreasoning;Englishlearning; 一、引言 随着信息技术的迅速发展,英语学习信息资源成为中小学数字图书馆的重要组成部分,它的建设也已成为图书馆界研究的重要课题,其对中小学英语教学以及学生学习的辅助功能也愈来愈显著。然而经过长期的调查研究表明,中小学英语学习信息资源具有信息量大、内容繁杂、涉及面广等特点。很多学生甚至教师在应用的过程中,经常会遇到无从下手去查询相关信息的情况。针对这种情况,本文笔者将基于中文分词算法的搜索技术应用在海量英语学习资源的智能搜索过程中。 二、关键技术 1.中
5、文分词算法。中文分词就是把汉字字串序列切分成有意义的词串序列。如将句子“我是一名中学教师”进行分词,得到:“我/是/一名/中学/教师。”现有的中文分词算法有很多,根据其特点,可以分为基于字符串匹配的分词算法、基于统计的分词算法、基于理解的分词算法、基于路径的分词算法和基于语义的分词算法等。在这些分词算法中,实现最简单、使用最广泛、效率最高的是基于字符串匹配的中文分词算法,它是一种以词典为基础的方法,该算法按照一定的策略将待切分的汉字串与一个充分大的词库进行匹配,若找到某个词条,则匹配成功(识别出一个词)。基于字符串匹配的分词算法主要有以下
6、三种:①6最大正向匹配分词算法,简称MM法,如果假设Words为词库,Max表示词库中最大词条的长度,Str为待切分的汉字串,那么MM分词算法的基本思想是:首先,取Str中的前Max个汉字作为匹配字段,与Words中的词条进行匹配,若词库中存在这样一个词,则匹配成功,词条被切分出来;若词库中找不到这样一个词,则去掉匹配字段的最后一个字,将剩余的汉字串作为新的匹配字段,继续匹配;如此进行下去,直到匹配成功为止[1,2]。②最大逆向匹配分词算法,简称RMM法。它的基本思想与MM法相同,不同的是该方法从待切分汉字串的末尾开始处理,每次匹配不成功
7、时去掉最前面的一个汉字。③双向匹配分词算法,简称BM法,它是把MM法和RMM法相结合的一种方法。由于是双向扫描汉字串,所以可能会出现多种结果,这时,我们采用人工干预的方法来确定正确含义的字符串。例如,“提高成功的确定性”字符串在正向扫描时,切分结果为“提高/成功/的确/定性”,逆向扫描时,切分结果为“提高/成功/的/确定性”,显然我们需要的是逆向扫描的结果,只需人工选择一下即可。 本系统所用的分词算法就是双向匹配分词算法。 2.匹配度的计算方法。我们将问题字符串中关键词在检索结果字符串中的包含程度称为匹配度,其计算公式如下:M=(Q/
8、A)×100%。其中,M指匹配度,Q指关键词在检索结果中出现的个数,A指关键词个数。 3.事例推理原理。基于事例的推理(Case-basedReasoning,CBR)是机器学习的一种方法,
此文档下载收益归作者所有