基于条件随机场的中文领域分词研究.pdf

基于条件随机场的中文领域分词研究.pdf

ID:48107831

大小:1.41 MB

页数:4页

时间:2019-11-26

基于条件随机场的中文领域分词研究.pdf_第1页
基于条件随机场的中文领域分词研究.pdf_第2页
基于条件随机场的中文领域分词研究.pdf_第3页
基于条件随机场的中文领域分词研究.pdf_第4页
资源描述:

《基于条件随机场的中文领域分词研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2016,52(15)97基于条件随机场的中文领域分词研究朱艳辉,刘璟,徐叶强,田海龙,马进ZHUYanhui,LIUJing,XUYeqiang,TIANHailong,MAJin湖南工业大学计算机与通信学院,湖南株洲412007SchoolofComputerandCommunication,HunanUniversityofTechnology,Zhuzhou,Hunan412007,ChinaZHUYanhui,LIUJing,XUYeqiang,e

2、tal.ChinesewordsegmentationresearchbasedonConditionalRandomField.ComputerEngineeringandApplications,2016,52(15):97-100.Abstract:AccordingtotheConditionalRandomFieldforChinesewordsegmentation,thefieldishardtoadaptive.AcombinationofCRFanddomaindictionaryisproposedtoimproveth

3、efieldadaptability,andforeliminatingambiguity,thispaperusesfixedwordcollocation,verbdictionaryandwordprobabilitybytheruleofwordformation.Theexperientalresultsshowthatthisapproachimprovestheaccuracyandadaptabilityofthewordsegmentation.Fvalueofthesegmenta-tionresultsincomput

4、erandmedicalfieldsisincreasedby7.6%and8.7%.Keywords:Chinesewordsegmentation;ConditionalRandomField(CRF);domainadaption;ambiguityresolution;domainsegmentation;reversedirectionalmaximummatchmethod摘要:针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率

5、消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果F值分别提升了7.6%和8.7%。关键词:中文分词;条件随机场;领域自适应;歧义消解;领域分词;逆向最大匹配算法文献标志码:A中图分类号:TP391.1doi:10.3778/j.issn.1002-8331.1512-02991引言一个训练语料,选择不同的模型来学习和解码。文献[5-6]随着信息技术的高速发展,越来越多的人在互联网建立条件随机场标记模型,分别引入字概率特征和领域上发表信息,也在网上获取信息,海量的文本数据,使

6、得知识,提高了分词的准确率,但是较多的自定义特征也文本信息的挖掘成为研究热点。而分词自然是中文信会影响到建模速度。文献[7]使用统计方法结合自学习息处理最重要的一个部分,它是信息抽取、智能问答、文和协同学习策略,改善分词自适应性,但统计方法非常本倾向性分析和信息检索等信息处理中最基础的工作,依赖训练语料的好坏,过大的训练语料又会造成计算量分词的效率与正确率对下一步工作的进行都有非常大过大,效率低,而且高质量的训练语料需要人工参与,耗的影响。费许多的时间和精力。(3)基于统计与词典相结合的方目前主要的分词方法有三种:(1)基于词典的分词法,文

7、献[8-9]分别引入汉语拼音表和词表,文献[10-11]方法,又叫机械分词方法,它是按照一定的策略将待分将词典作为一个内部的训练语料,这些方法对不同领域[1-3]的分词需要重新训练模型,并没有解决分词的自适应性的词与一个充分大的词典中的词条进行匹配,词典的方法需要高质量的词典支撑,对未登录词的识别和歧义问题。问题显然是力不从心。(2)基于统计的分词方法使中文本文首先通过条件随机场的基本特征模板和自己[4]分词效果有了显著的进步,采用已经切分好的词作为定义的特征得到一个初次分词结果,之后利用领域词典基金项目:国家自然科学基金(No.61170

8、102);国家社科基金资助项目(No.12BYY045);湖南省教育厅重点项目(No.15A049)。作者简介:朱艳辉(1968—),女,教授,CCF高级会员,研究领域为信息检索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。