中文分词模型的领域适应性方法

ID：33529516

大小：534.67 KB

页数：10页

时间：2019-02-26

资源描述：

《中文分词模型的领域适应性方法》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第３８卷第２期计算机学报Ｖｏｌ．３８Ｎｏ．２２０１５年２月ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＦｅｂ．２０１５中文分词模型的领域适应性方法韩冬煦常宝宝（北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室北京１００８７１）摘要字标注分词方法是当前中文分词领域中一种较为有效的分词方法．但因为受制于训练语料的领域和规模，该方法在领域适应性方面效果不佳，影响了该方法在应用系统中的实际应用．在文中，作者提出使用卡方统计量以及边界熵提升未登录词的处理能力，并结合自学习和协同学习策略进一步改善字标

2、注分词方法在领域适应性方面的性能．实验结果证实，文中提出的这些方法有效改善了分词方法的领域适应性．关键词卡方统计量；边界熵；领域适应性；自举算法；中文分词；社会计算；社交网络中图法分类号ＴＰ３９１犇犗犐号１０．３７２４／ＳＰ．Ｊ．１０１６．２０１５．００２７２犃狆狆狉狅犪犮犺犲狊狋狅犇狅犿犪犻狀犃犱犪狆狋犻狏犲犆犺犻狀犲狊犲犛犲犵犿犲狀狋犪狋犻狅狀犕狅犱犲犾ＨＡＮＤｏｎｇＸｕＣＨＡＮＧＢａｏＢａｏ（犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犆狅犿狆狌狋犪狋犻狅狀犪犾犔犻狀犵狌犻狊狋犻犮狊，犕犻狀犻狊狋狉狔狅犳犈犱狌犮犪狋

3、犻狅狀，犐狀狊狋犻狋狌狋犲狅犳犆狅犿狆狌狋犪狋犻狅狀犪犾犔犻狀犵狌犻狊狋犻犮狊，犛犮犺狅狅犾狅犳犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔，犘犲犽犻狀犵犝狀犻狏犲狉狊犻狋狔，犅犲犻犼犻狀犵１００８７１）犃犫狊狋狉犪犮狋ＣｈａｒａｃｔｅｒｂａｓｅｄｔａｇｇｉｎｇｍｅｔｈｏｄｉｓｃｕｒｒｅｎｔｌｙｏｎｅｏｆｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｓｉｎＣｈｉｎｅｓｅＷｏｒｄＳｅｇｍｅｎｔａｔｉｏｎ（ＣＷＳ）．Ｃｏｎｓｔｒａｉｎｅｄｂｙｄｏｍａｉｎａｎｄｓｉｚｅｏｆｔｈｅｔｒａｉｎｉｎｇｃｏｒｐｕｓ，ｔｈｉ

4、ｓｍｅｔｈｏｄｄｏｅｓｎ’ｔｗｏｒｋｗｅｌｌｉｎｄｏｍａｉｎａｄａｐｔａｂｉｌｉｔｙ，ａｆｆｅｃｔｉｎｇｉｔｓｕｓｅｉｎｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎ．ＴｈｉｓｐａｐｅｒｐｕｔｓｆｏｒｗａｒｄｕｓｉｎｇｃｈｉｓｑｕａｒｅｓｔａｔｉｓｔｉｃｓａｎｄｂｏｕｎｄａｒｙｅｎｔｒｏｐｙｔｏｅｎｈａｎｃｅｔｈｅｓｅｇｍｅｎｔａｔｉｏｎｍｅｔｈｏｄｉｎｈａｎｄｌｉｎｇｔｈｅＯｕｔＯｆＶｏｃａｂｕｌａｒｙｗｏｒｄｓ．Ｃｏｍｂｉｎｅｄｗｉｔｈｓｅｌｆｔｒａｉｎｉｎｇａｎｄｃｏｔｒａｉｎｉｎｇｓｔｒａｔｅｇｉｅｓ

5、，ｗｅｆｕｒｔｈｅｒｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｄｏｍａｉｎａｄａｐｔａｂｉｌｉｔｙｉｎＣＷＳ．Ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｗｉｔｈｔｈｅｕｓｅｏｆｔｈｅｓｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｓ，ｔｈｅｄｏｍａｉｎａｄａｐｔａｂｉｌｉｔｙｏｆＣＷＳｉｓｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｄ．犓犲狔狑狅狉犱狊ｃｈｉｓｑｕａｒｅｓｔａｔｉｓｔｉｃｓ；ｂｏｕｎｄａｒｙｅｎｔｒｏｐｙ；ｄｏｍａｉｎａｄａｐｔａｂｉｌｉｔｙ；ｂｏｏｔｓｔｒａｐｐｉｎｇｍｅｔｈｏｄ；ＣｈｉｎｅｓｅＷｏｒｄＳｅｇｍｅｎｔ

6、ａｔｉｏｎ（ＣＷＳ）；ｓｏｃｉａｌｃｏｍｐｕｔｉｎｇ；ｓｏｃｉａｌｎｅｔｗｏｒｋｓ不仅考虑了句子中词语出现的频率信息，同时也考１引言虑到词语与上下文的关系，具备较好的学习能力，对歧义词和未登录词（ＯｕｔＯｆＶｏｃａｂｕｌａｒｙ，ＯＯＶ）的识中文分词是中文文本处理的基础，具有十分重别有良好的效果，使得中文分词准确度比之前其他要的理论和应用意义．它是指将组成句子的汉字序方法有了很大的提升．列用分隔符加以区分，切分成一个个单独的词．在过中文分词方法中，有指导的字标注分词方法去的三十多年里，经过学者们的研究和探索，中

7、文分（Ｃｈａｒａｃｔｅｒｂａｓｅｄｔａｇｇｉｎｇａｐｐｒｏａｃｈ）［２］具有较好的词已取得了长足的进步，准确度获得了提升．特别是分词效果．该方法本身需要标注语料，一般在处理与在使用了机器学习和基于统计的方法后，中文分词训练语料同领域的语料时，分词效果较好．根据效果有了显著的进步［１］．基于统计的中文分词方法ＡＣＬＳＩＧＨＡＮ的评测数据，使用同一领域的测试收稿日期：２０１２１１２７；最终修改稿收到日期：２０１４１１２２．本课题得到国家自然科学基金（６０９７５０５４、６１２７３３１８）和国家社会科学基金（０

8、６ＢＹＹ０４８）资助．韩冬煦，男，１９８８年生，硕士研究生，主要研究方向为自然语言处理．Ｅｍａｉｌ：ｈａｎｄｘ＠ｐｋｕ．ｅｄｕ．ｃｎ；ｈｗｅｉｂｏ＠１２６．ｃｏｍ．常宝宝，男，１９７１年生，博士，副教授，主要研究方向为自然语言处理．２期韩冬煦等：中文分词模型的领域适应性方法２７３语料，有指导的分词方法的犉值可以高达０．９５①．学习在跨领域中文分词中的使用；第６节介绍实验

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

中文分词模型的领域适应性方法

中文分词模型的领域适应性方法

相关文章

相关标签