信息处理论文

信息处理论文

ID:46364587

大小:92.00 KB

页数:7页

时间:2019-11-23

信息处理论文_第1页
信息处理论文_第2页
信息处理论文_第3页
信息处理论文_第4页
信息处理论文_第5页
资源描述:

《信息处理论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈中文信息处理中的汉语分词方法专业:计算机科学与技术班级:0804班姓名:武林学号:0909081820指导老师:王加阳日期:2011.11.6摘要:中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。在中文信息处理中,字只是处理的载体,而词才能表示信息,同时,中文文本是按句连写的,词间无间隙,所以在中文文本处理中,首先遇到的问题就是词的切分。词的切分根据方法依据的基准分别简要分析中文口动分词法和基于字标注的分词方法。其中,自动分词法乂包括基于词典的机械匹配分词方法、基于统计的分词

2、方法和基于理解的分词方法,因为第三种方法较复杂,故主耍分析前两种。字标注方法较自动分词方法平衡地看待词表词和未登录词的识别问题,分词效率有了很大的提高。关键词:中文信息处理自动分词字标注1.自动分词法41.1.基于词典的机械匹配的分词方法41.1.1.FMM算法描述⑴41.1.2.算法举例41.1.3.算法评价41...最少分词法5%1算法原理5%1算法举例5%1算法分析5i.基于统计的分词方法.51.1.3.算法原理51.1.4.算法分析52.字标注法62.7算法原理62.2算法举例62.3算法分析

3、6(1)口动分词法1.2.1.基于词典的机械匹配的分词方法这种方法是基于字符串匹配,它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典屮找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大或最长和最小或最短匹配;按照是否与词性标注过程和结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。下面以正向最人匹配(FMM)为例进行分析。FMM算法描述⑴假设词m为词典屮最长词的字数。

4、1.令匸0,当前指针指向输入字串的初始位置,执行下面的操作:2.计算当前指针到字串末端的字数(即未被切分字串的长度)n,讦n=0,转④。否则,令m二词典中最长单词的字数,讦*m,m=n;3.从当前指针起取m个汉字作为词,作如下判断:4.如果确实是词典中的词,在其后添加一个切分标志,并转iii;5.如果不是词典中的词且的长度大于1,将从右端去掉一个字,转③中的i步;否则(即长度等于1),则在后添加-•个切分标志,将作为单字词添加到词典中,执行iii;iii•根据③的长度修改指针的位置,如果指向字串末端,

5、转④,否则,匸i+1,返回②;6.输出切分结果,结束分词程序1丄2・算法举例设词典中最长单词的字数为7。输入字串:他是研究生物化学的。切分过程:他是研究生物化学的。他

6、

7、是研究生物化学的.P切分结果:他

8、

9、是

10、

11、研究生

12、

13、物化

14、

15、学

16、

17、的。7.算法评价优点:程序简单易行,开发周期短;仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源;弱点:切分歧义消解的能力羞;切分正确率不高,一般在95%左右。1.2.1.最少分词法121•算法原理1.相邻节点Z间建立有向边,边对应的词默认为(k二1,2,…

18、,n)。2.如果X、Y(0,边对应的词为肌3.重复上述步骤(2),直到没有新的路径(词序列)产生。4.从产生的所有路径中,选择路径最短的(词数最少的)作为最终分词结果。5.算法举例(1)输入字串:他只会诊断一般的疾病。_般1的丨的疾病。疾病。(6个词)(7个词)可能的输出:他1他只1会诊只会断1诊断一般最终结果:他I只会II诊断1一般11的1疾病。(2)输入字串:他说的确实在理。可能的输出:他I丨说丨I的丨I确实丨丨在理。(5个词)他丨丨说

19、

20、丨的确丨

21、实在丨丨理。(5个词)1.23算法分析优点:采用的原则(切分出來的词数最少)符合汉语自身规律,需要的语言资源(词表)也不多。弱点:对许多歧义字段难以区分,最短路径有多条时,选择最终的输出结果缺乏应有的标准。字串长度较大和选取的最短路径数增大时,长度和同的路径数急剧增加,选择最终正确的结果困难越来越越大。1.2.1.基于统计的分词方法1.3丄算法原理从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此与字相邻共现得频率或概率能够较好的反映成词

22、的可行度⑵。可以对预料屮相邻共现的各个字的组合的频率进行统计,计算它们的互现信息。计算汉字X和Y的互现信息公式为M(X,Y)=lg(P(X,Y)/P(X)P(Y))^中,P(X,Y)是汉字X,Y的相邻共现概率,P(X)、P(Y)分别是X、Y在语料中出现的频率。互现信息体现了汉字Z间结合的关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需耍切分词典。132•算法分析这种方法有一定的局限性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。