##==#!#$!$#!>###&>#*统计与词典相结合"> ##==#!#$!$#!>###&>#*统计与词典相结合" />
统计与词典相结合的领域自适应中文分词_张梅山.docx

统计与词典相结合的领域自适应中文分词_张梅山.docx

ID:59144755

大小:115.32 KB

页数:7页

时间:2020-10-30

统计与词典相结合的领域自适应中文分词_张梅山.docx_第1页
统计与词典相结合的领域自适应中文分词_张梅山.docx_第2页
统计与词典相结合的领域自适应中文分词_张梅山.docx_第3页
统计与词典相结合的领域自适应中文分词_张梅山.docx_第4页
统计与词典相结合的领域自适应中文分词_张梅山.docx_第5页
资源描述:

《统计与词典相结合的领域自适应中文分词_张梅山.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、卷年第月!第!"期中文信息学报!!!CDE8(FG!D,)’H(IJI!!H(,D8KFLHD(!A8D)IJJH(MN23B!"(2B!!#$!%K.-B!#$!文章编号"$##%>##==#!#$!$#!>###&>#*统计与词典相结合的领域自适应中文分词张梅山邓知龙车万翔刘挺社会计算与信息检索研究中心黑龙江哈尔滨!"哈尔滨工业大学计算机学院!!!%!摘#!!相比分词训练语料$要基于统计的中文分词方法由于训练语料领域的限制导致其领域自适应性能力较差$*###$领域词典的获取要容易许多而且能为分词提供丰富的领域信息该文通过将

2、词典信息以特征的方式融入到统计#)8,$%!统计模型中来实现领域自适应性实验表明这种方法显著提高了统计中文分词的领分词模型该文使用!%域自适应能力%当测试领域和训练领域相同时分词的,>/0.9Z-0值提升了当测试领域和训练领域不同时!分词的"值提升了"e!!e&&&,>/0.9Z-0领域自适应关键词中文分词%"F"LA%<$!!!!中图分类号)8,文献标识码0!;!!!3!!!!!,G<1212&*4*16*1847(,-)742-518*1,24/.,/5,G412’-4*1,2,.#!+12)6)!H,/-!&)0G)2*

3、4*1,2![’F(M!K049@.5!SI(M![@4325Q!)’I!:.5U4.5Q!GHE!L45Q"!8090.-T@!)0510-!P2-!J2T4.3!)2/RZ145Q!.5O!H5P2-/.1425!801-40.3’.-;45!H59141Z10!2P!L0T@5232QV!’.-;45!’04325Q^4.5Q!$*###$!)@45.$’<6*/48*M050-.3V91.14914T.3!/01@2O9!P2-!)@45090!:2-O!J0Q/051.1425!O25X1!@.!Q22O!O2

4、/.45!.O.R1.;4341V!2a45Q12!1@0!90TR4P4T!1-.4545Q!T2-RZ9BH5!R-.T14T0!O2/.45!O4T1425.-409!.-0!/2-0!0.943V!.T@40O!1@.5!@Z/.53V!.5521.10O#!$90Q/051.1425!T2-RZ9!.5O!41!T251.459!R3051V!2P!O2/.45!45P2-/.1425B:0!R-2R290!.5!.RR-2.T@!a@4T@!4510Q-.109O4T1425.-V45!P2-/.1425!45

5、12!91.14914T.3!/2O0394B0B)8,!/2O03!45!1@49!R.R0-12!-0.34?0!O2/.45!.O.R1425!P2-!)@45090:2-O!J0Q/051.1425BIUR0-4/051.3!-09Z319!9@2a!1@.1!2Z-!.RR-2.T@!@.!Q22O!O2/.45!.O.R1425B:@05!1@0!1091!T2-RZ949!4O0514T.3!12!1@0!O2/.45!2P!1-.4545Q!T2-RZ9!1@0!,>/0.9Z-0!.3Z0!45T-0.

6、909!!e&a@05!1091!T2-RZ9!49!45!.O4!PP0-051O2/.45!2P!1@0!1-.4545Q!T2-RZ9!1@0!,/0>.9Z-0!.3Z0!45T-0.909!"eB=)>,/-6")@45090a2-O901.1425&)8,&O2/.45.O.25;!!!Q/05!R14?!引言!中文分词是中文自然语言处理中最基本的!一个步骤非常多的研究者对它做了!很深入的研究也因此产生了很多"不同的分词方法这些方法大体上可以分为%两类基于词典匹配的方法和基于统计的方法基于词典的方法()利用词典

7、作为主要的资源$>!这类方法不需要考虑领域自适应性的问题它只需!但是这类方法不要有相关领域的高质量词典即可!%中文分词所面临的歧义性问题以及未能很好的解决!登录词问题()基于统计的方法%>"是近年来主流的分词方法%它采用已经切分好的分词语料作为主要的资源最!基于统计的终形成一个统计模型来进行分词解码!收稿日期!#$$>#<>!$!定稿日期!#$$>$!>!$国家自然科学基金资助项目国家重大项目点项目#基金项目"国家自然科学基金重"$&#$&""$$%%#$!"#&#%#<%&"%核高基重大专项#$&哈尔滨工业大学科研创新基金#

8、$&中央高!#$$FF#$F!#=!#$$[W#$#+!>##$>##$’HLB(J8H,B!##<#"<校基本科研业务费专项资金!&#’$!!!"#’$!!’HLB‘GD,B!#$##"+男硕士研究生主要研究#男博士研究生主要研究方向为自然语言处理邓知龙作者简介张梅山$%$

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。