欢迎来到天天文库
浏览记录
ID:5983649
大小:397.50 KB
页数:29页
时间:2017-11-13
《中文分词词性标注系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中文自动分词系统IRSEG设计与实现高立琦王卓然2004.9.20大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测中文分词的意义和用途汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索…大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“
2、N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测IRSEG系统框架设计文本断句资源:词典资源,未登录词知识库等汉字原子切分构建分词有向图重叠词识别未登录词识别歧义字段处理搜索最优结果保留N个最优结果输出大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测数学模型与原理分析信道噪声模型设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。分词系统的任务是,找到一种切分结果W*,满足:根据贝叶斯公式:假设:一个词wi的出现概率以它前面
3、的词的出现没有关系(Unigram模型)则:为了实现上的方便,我们对上述公式取负对数,得到:数学模型与原理分析(续)构建分词有向图通过最短路径搜索,即得最优(概率最大)结果:结合/成/分子结合成分子大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测“N最短路径”算法设计N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利
4、用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点(有向无环图)明显减小了时间复杂度和空间复杂度“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞
5、0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre
6、00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.
7、10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valueP
8、re10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4
此文档下载收益归作者所有