浅论基于主动学习的语料自动标注方法研究

浅论基于主动学习的语料自动标注方法研究

ID:35189726

大小:803.13 KB

页数:85页

时间:2019-03-21

浅论基于主动学习的语料自动标注方法研究_第1页
浅论基于主动学习的语料自动标注方法研究_第2页
浅论基于主动学习的语料自动标注方法研究_第3页
浅论基于主动学习的语料自动标注方法研究_第4页
浅论基于主动学习的语料自动标注方法研究_第5页
资源描述:

《浅论基于主动学习的语料自动标注方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、申请上海交通大学硕士学位论文基于主动学习的语料自动标注方法研究学校:上海交通大学院系:电子信息与电气工程学院计算机系学科专业:计算机应用技术研究方向:意见挖掘研究生:宋鸿彦导师:姚天昉上海交通大学电子信息与电气工程学院二〇一〇年一月ADissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofMasterofScienceResearchonActiveLearningBasedAutomaticCorpusAnnotationAuthor:HongyanSongSpecialty

2、:OpinionMiningAdvisor:Assoc.Prof.TianfangYaoSchoolofElectronic,InformationandElectricalEngineeringShanghaiJiaoTongUniversityJanuary,2010上海交通大学硕士学位论文基于主动学习的语料自动标注方法研究摘要意见挖掘是指针对主观性文本自动获取有用的意见信息和知识。汉语意见挖掘技术的研究需要汉语意见型主观性文本标注语料库的支持。由于汉语意见型主观性文本标注语料库包含了分词、词性、依存关系、语义、词概念、意见等大量信息,最后完

3、成的标注通常比较复杂。为了减轻标注人员的负担,提高标注的效率和精确度,减少标注的错误率,有必要开发一款自动标注工具协助标注人员的工作。本文实现了一个基于主动学习的汉语意见元素标注工具,可以自动识别句子中的主题、情感和意见持有者等意见元素。主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小,分类性能较好等特点。本文经过实验,证明了主动学习算法应用于意见元素识别的有效性,并提出了一个公式,综合主动学习分类器F值、训练时间、训练样例数量三个方面,对系统的总体性能进行衡量。关键词:意见挖掘,语料库,语料标注,主动学习,主题识别第I页Researc

4、honActiveLearningBasedAutomaticCorpusAnnotationABSTRACTOpinionMiningaimstoautomaticallyacquireusefulopinionedinformationandknowledgeinsubjectivetexts.ResearchofChineseOpinionedMiningrequiresthesupportoftheannotatedcorpusforChineseopinioned-subjectivetexts.Sincetheannotatedcor

5、pusforChineseopinioned-subjectivetextsincludesmuchinformationincludingwordsegmentation,part-of-speechtag,dependencyrelationship,wordmeaning,andopinion,thefinishedannotationsareusuallyverycomplicate.Torelievetheburdensofannotators,increasetheefficiencyandaccuracyofannotation,a

6、ndreducethepossibilityoffalseannotation,itisnecessarytodevelopanautomaticannotationtooltofacilitateannotators’work.ThispaperimplementsanactivelearningbasedannotationtoolforChineseopinionedelements.Itcanidentifytopic,sentiment,andopinionholderinasentenceautomatically.Activelea

7、rningalgorithmisfeaturedwithsmallertrainingsetsize,lessinfluencefromunbalancedtrainingdataandbetterclassificationperformancecomparingtoclassicallearningalgorithm.Thispaperexperimentallydemonstratedthevalidityofactivelearningalgorithmwhenusedforopinionedelementsidentificationa

8、ndproposedaformulaforoverallsystemperformanceevaluationwhichconsists

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。