欢迎来到天天文库
浏览记录
ID:55399959
大小:509.30 KB
页数:6页
时间:2020-05-15
《基于最近邻的主动学习分词方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第42卷第6期计算机科学Vo1.42No.62015年6月ComputerScienceJune2015基于最近邻的主动学习分词方法梁喜涛顾磊(南京邮电大学计算机学院南京210003)摘要分词是中文自然语言处理中的一项关键基础技术。为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法。使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器。最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并
2、与传统的基于不确定性的选择策略进行比较。实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率。关键词中文分词,主动学习,不确定性取样,最近邻规则中图法分类号TP311文献标识码ADOI10.11896/j.issn.1002—137X2015.6.048ActiveLearninginChineseWordSegmentationBasedOilNearestNeighborLIANGXi-taoGULei(SchoolofComput
3、erScience&Technology,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China)AbstractAsthebasisofChineseinformationprocessing,Chinesewordsegmentation(CWS)playsaveryimportantrole.Tosolvetheproblemsoflackingoftrainingsamplesandaccessingalargenumberofla
4、beledsampleslaboriously,afreshactivelearningmethodbasedonnearestneighborwasproposed.ThemethodadoptsCRFsasthebasicframe—workandusestheproposedactivelearningsamplingstrategytoselectthemostusefulinstancestoannotatefromalargenumberofunlabeledsamples.Nexttheannotat
5、edareputinstancesintothelabeledsetandthenthesegmenteristrainedbyusingthelabeledset.FinallythemethodwastestedinPKUcorpora,MSRcorporaandshanxiuniversitycor—pora,andcomparedwiththeuncertaintysamplingstrategy.Theexperimentresultshowsthatthefreshactivelearningselec
6、tionstrategycanselectmorevaluablesamples,reducethecostofmanualannotationeffectively,andimprovetheac—curacyofsegmentation.KeywordsChinesewordsegmentation,Activelearning,Uncertaintysampling,Nearestneighborrule中文分词是中文信息处理中的重要基础问题,在机器翻大,对SVM模型进行训练也需要大量时间。2004年,张健译
7、、信息检索、汉字识别、语音合成等诸多领域有着广泛应用。沛_5]提出了一种基于到超平面距离最近策略的ASvM算法,传统方法多基于人工词典和需要大规模标注语料的统计模每次迭代选取一个离SVM分类超平面最近的样本点,认为型,虽然已经取得了很大的成绩,但无论编写词典,还是标注它的类别最不确定,也最有可能被分错,信息量最大,所以它语料库,都需要大量人工劳动[1]。尽管表现较好的分词系统最有可能改变分类超平面的位置,而远离超平面的样本点对准确率能达到95~97,但一般都需要标注大规模语料来其位置的改善影响不大[6]。把主动学习
8、与SVM相结合可以对系统模型进行训练,而获取大量标注样本是一件非常费时高效利用未标注样本,建立最有价值的训练集,由此得到的分费力的工作。因此要达到正确率的要求,传统的监督学习方词器也能很好地继承SvM较强的泛化性能。2012年,法(即被动学习)需要付出很大的人工代价。机器学习中的主ShoushanLi等[7]提出了一种最小化数据获取代价的中文分动学习方法应运
此文档下载收益归作者所有