欢迎来到天天文库
浏览记录
ID:35189726
大小:803.13 KB
页数:85页
时间:2019-03-21
《浅论基于主动学习的语料自动标注方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、申请上海交通大学硕士学位论文基于主动学习的语料自动标注方法研究学校:上海交通大学院系:电子信息与电气工程学院计算机系学科专业:计算机应用技术研究方向:意见挖掘研究生:宋鸿彦导师:姚天昉上海交通大学电子信息与电气工程学院二〇一〇年一月ADissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofMasterofScienceResearchonActiveLearningBasedAutomaticCorpusAnnotationAuthor:HongyanSongSpecialty
2、:OpinionMiningAdvisor:Assoc.Prof.TianfangYaoSchoolofElectronic,InformationandElectricalEngineeringShanghaiJiaoTongUniversityJanuary,2010上海交通大学硕士学位论文基于主动学习的语料自动标注方法研究摘要意见挖掘是指针对主观性文本自动获取有用的意见信息和知识。汉语意见挖掘技术的研究需要汉语意见型主观性文本标注语料库的支持。由于汉语意见型主观性文本标注语料库包含了分词、词性、依存关系、语义、词概念、意见等大量信息,最后完
3、成的标注通常比较复杂。为了减轻标注人员的负担,提高标注的效率和精确度,减少标注的错误率,有必要开发一款自动标注工具协助标注人员的工作。本文实现了一个基于主动学习的汉语意见元素标注工具,可以自动识别句子中的主题、情感和意见持有者等意见元素。主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小,分类性能较好等特点。本文经过实验,证明了主动学习算法应用于意见元素识别的有效性,并提出了一个公式,综合主动学习分类器F值、训练时间、训练样例数量三个方面,对系统的总体性能进行衡量。关键词:意见挖掘,语料库,语料标注,主动学习,主题识别第I页Researc
4、honActiveLearningBasedAutomaticCorpusAnnotationABSTRACTOpinionMiningaimstoautomaticallyacquireusefulopinionedinformationandknowledgeinsubjectivetexts.ResearchofChineseOpinionedMiningrequiresthesupportoftheannotatedcorpusforChineseopinioned-subjectivetexts.Sincetheannotatedcor
5、pusforChineseopinioned-subjectivetextsincludesmuchinformationincludingwordsegmentation,part-of-speechtag,dependencyrelationship,wordmeaning,andopinion,thefinishedannotationsareusuallyverycomplicate.Torelievetheburdensofannotators,increasetheefficiencyandaccuracyofannotation,a
6、ndreducethepossibilityoffalseannotation,itisnecessarytodevelopanautomaticannotationtooltofacilitateannotators’work.ThispaperimplementsanactivelearningbasedannotationtoolforChineseopinionedelements.Itcanidentifytopic,sentiment,andopinionholderinasentenceautomatically.Activelea
7、rningalgorithmisfeaturedwithsmallertrainingsetsize,lessinfluencefromunbalancedtrainingdataandbetterclassificationperformancecomparingtoclassicallearningalgorithm.Thispaperexperimentallydemonstratedthevalidityofactivelearningalgorithmwhenusedforopinionedelementsidentificationa
8、ndproposedaformulaforoverallsystemperformanceevaluationwhichconsists
此文档下载收益归作者所有