欢迎来到天天文库
浏览记录
ID:39749611
大小:1.40 MB
页数:73页
时间:2019-07-10
《面向大规模信息检索的中文分词技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、面向大规模信息检索的中文分词技术研究王小飞指导教师:王斌前瞻研究中心2006-6-6提纲一、引言二、面向大规模中文信息检索的分词算法三、基于双数组Trie树优化算法的词典四、歧义消除五、未登录词识别六、查询扩展层面的覆盖歧义处理七、实验结果和分析八、总结一、引言研究意义信息检索简介中文分词简介常用评测指标研究意义分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切
2、分精度都不高。速度:每秒几十k~几M切分正确率:80%~98%研究意义针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。信息检索简介信息检索(InformationRetrieval,IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。用户接口文本操作查询操作标引检索排序数据库管理模块文本数据库索引检出文献查询用户回馈逻辑
3、视图用户需求逻辑视图倒排文档文本文本图1检索过程示意图中文分词简介和困难中文分词(ChineseWordSegmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。困难分词规范:词的概念和不同应用的切分要求分词算法:歧义消除和未登录词识别分词规范方面的困难汉语中词的界定“教育局长”:“教育/局长”?“教育局/长”?“教育/局/长”?核心词表如何收词?词的变形结构问题:“看/没/看见”,“相不相信”不同应用对词的切分规范要求不同输入法:“这是”、“每一”、“并不”、“不多”、“不在”、“就是”信息检索:“中
4、国/科学院”、“计算/语言学”分词算法上的困难切分歧义的消除交集型歧义(交叉歧义):“组合成”我们/小组/合成/氢气了;组合/成/分子;组合型歧义(覆盖歧义):“马上”他/从/马/上/下/来;我/马上/就/来/了;“学生会组织义演活动”:“学生/会/组织/义演/活动”or“学生会/组织/义演/活动”?分词算法上的困难未登录词识别命名实体:数词、人名、地名、机构名、译名、时间、货币缩略语和术语:“超女”、“非典”、“去离子水”新词:“酱紫”、“星盘”先识别已知词还是先识别未登录词先识别已知词:“内塔尼亚/胡说”先识别未登录词:“胜利取决/于勇/气”常用评测指标召回
5、率(Recall)分词:检索:准确率(Precision)分词:检索:常用评测指标TREC(TextRetrievalConference)的评测指标InterpolatedRecall-PrecisionAverages:用插值法计算在11个召回点(0.0~1.0)下相对的准确率。Averageprecision(non-interpolated):表示平均每篇相关文档被检索出来时的准确率。表示对于Queryj检索出的所有相关文档数,表示对于Queryj,在第i篇相关文档被检索出时总共检索出的结果文档数。常用评测指标TREC(TextRetrievalConf
6、erence)的评测指标Precision:在检索到x篇文档时的准确率。x为5、10、15、20到1000不等。例如Precision:At30docs(通常用P@30表示)的值为0.5784就是表示前30篇文档中检索的准确率是0.5784。R-Precision:一个查询检索到R篇文档时的准确率。R为该查询真正相关的文档数。如果一个查询的相关文档数为30,在检索系统检索出的前30篇文档中相关文档数为18,则该查询的R-Precision为18/30=0.6。二、面向大规模中文信息检索的分词算法分词方面的相关研究成果分词和大规模中文信息检索之间的关系探讨适用于大
7、规模中文信息检索的分词算法分词方面的相关研究成果基于词典和规则的方法基于大规模语料库的统计方法规则和统计结合的方法基于字的切分法基于词典和规则的方法最大匹配正向最大匹配、反向最大匹配和双向最大匹配实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。全切分利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。基于理解的分词算法模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段基于词典和规则的方法基于规则的消歧和未登录词识别规则消歧CONDITIONFIND(
8、R,NEXT,X){%X
此文档下载收益归作者所有