欢迎来到天天文库
浏览记录
ID:18670352
大小:374.00 KB
页数:9页
时间:2018-09-20
《64#-情感语料库的构建和分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大连外国语学院学士学位论文中文题目:情感语料库的构建和分析英文题目:ConstructionandAnalysisofEmotionalCorpus二级学院:俄语系学科、专业:阿拉伯语专业研究生:徐慧指导教师:曾磊副教授2011年11月情感语料库的构建和分析情感语料库的构建和分析*基金资助:国家自然科学基金资助项目(编号:60373095,60673039)和国家863高科技计划资助项目(编号:2006AA01Z151)。作者简介:徐琳宏,女,硕士生,研究方向为文本分类和文本倾向性识别;林鸿飞,男,博导,教授,研究方向为文本过滤,文本挖掘和
2、自然语言理解,hflin@dlut.edu.cn;徐琳宏,林鸿飞(大连理工大学计算机科学与工程系,大连116024)摘要:本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近四万句,一百万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。关键词:情感语料库;文本编码规范;一致性检查;情感迁移中图法分类号:T
3、P391文献标识符:AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Abstract:Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichinclud
4、edthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotional
5、corpusprovidesupportfortextaffectivecomputing.keywords:emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference1引言情感计算目前是人工智能领域的研究热点,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。然而要使训练的模型准确,容错能力强,就必须有大规模的情感语料支撑。情感语料库的构建和分析在国外,语料库的研究很早就已经开始了,也建设完成了许多大规模的语料库,如B
6、rown语料库等。汉语语料库的建设开始于20世纪80年代,现有的大规模语料有国家现代汉语语料库[1]、台湾中央研究院平衡语料库[2]、中港台汉语语料库[3]、北京大学和富士通公司共同制作的人民日报语料库[4]等。上述大规模语料库的建设在收集语料,制定标注规范和质量监控等方面积累了宝贵的经验。文本情感语料库的建设方面,目前已有的语料库包括Pang语料库[5],Whissell语料库[6],Berardinelli电影评论语料库[7],产品评论语料库[8]。汉语情感语料库标注方面的资源则较少,清华大学标注了部分旅游景点的描述的情感语料[9],用
7、来辅助语音合成的,但是规模也较小。总之,在国内情感计算刚刚兴起,这方面还没有比较大规模、权威的汉语文本情感语料库。大部分语料库的建设分为语料的收集和预处理、标注规范的制定,质量监控等几方面,下面的论文将分别阐述语料库建设的各个步骤。第2节概略的介绍了目前选择语料的类型和规模,第3节详细地介绍了情感语料库的标注体系,第4节介绍了语料建设中质量监控的方法,包括正确性和一致性检查的方法。第5节阐述了语料库的一些统计数据及应用,最后,第6节总结语料库的优点和不足,并进一步提出改进的措施。1语料的收集语料的收集工作,即选择合适的语料,做预处理,为语料
8、的标注提前做好准备。语料选择的方法关系到语料库的覆盖率,所谓覆盖是指语料在各个不同领域的分布或散布,这些不同领域通常是指由时间轴(反映时代特征)、空间轴(反映地域特征)、学科轴(
此文档下载收益归作者所有