资源描述:
《褒贬新词的自动发现算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、褒贬新词的自动发现算法研究*收稿日期:2007-06-20基金项目:国家973项目(2004CB318102)和河南省教育厅自然科学基金项目(2007520050)昝红英1,李鸥1,赵科2(1.郑州大学信息工程学院,河南郑州450052)(2.河南省焦作市技术监督局特种设备科检验所,河南焦作454100)摘要:基于内容的文本褒贬评价属于文本情感计算的研究范畴。由于目前国内外文本褒贬评价的主要方法是通过文中出现的褒贬词等特征进行计算的,因此褒贬词表是文本内容褒贬倾向计算的重要资源。目前褒贬词资源库的建设一般
2、是通过人工大量地浏览语料而抽取的,耗时耗力,且不便于资源和系统的移植。文中在已有基本褒贬词表资源的基础上,提出了一种利用连词或副词搭配等结构模板进行褒贬新词的自动发现算法,有效地提高了褒贬词库建设的效率,为文本内容的褒贬评价提供了资源自动构建的可行方法。关键词:情感计算;褒贬评价;褒贬词;结构模板中图分类号:TP391文献标识码:A文章编号:StudiesontheofAutomaticDetectionArithmeticforUnknownPolarWordsHongyingZan1,OuLi1,Ke
3、Zhao2(1.CollegesofInformationEngineering,ZhengzhouUniversity,Zhengzhou,450052,China)(2.,TheCheckingDepartmentoftheQualityTechnologySupervisingBureau,Jiaozuo,HenanProvince,454100,China)Abstract:Thepolarityestimatingbasedonthetextcontentisbelongtothefieldso
4、ftextaffectivecomputing.Bynowthemainmethodofthepolarityofthetextcontentisestimatedthroughthepolarwordsintext.Hence,thepolarwordslististheimportantresourcetothetextpolarityestimating.Usually,theconstructionofthepolarwordslistismanuallyextractedafterbrowsin
5、ghugeofcorpus.Thismethodisnotonlyhumanexpensingandtimeexpensing,butalsodifficulttotransplantthesystemtonewfields.Basedonthebasicknownpolarwordslist,thispaperhasputforwardakindofarithmeticonautomaticdetectionforunknownpolarwordsutilizingthephrasemodelofcon
6、junctionoradverbcollocations.Thearithmeticwillimprovetheefficiencyofthepolarwordslistconstruction,andwillprovideadoableapproachtotheautomaticresourceconstructionforthetextpolarityestimating.Keywords:affectivecomputing;polarityestimating;unknownpolarwords;
7、phrasemodel近年来,随着网络的发展,以Web网页形式出现的文本信息越来越多,文本内容的褒贬评价则成为了具有很大应用需求的研究方向之一。网络信息的海量性、动态性、时新性使得人们越来越依赖于网络信传媒,Web信息逐渐成为人们获取信息的主要途径。为了更快更准地浏览自己需要的网页信息,人们预先往往对某些关注的实体,比如人物、公司、产品等相关信息有语义内容的褒贬性倾向,希望得到更符合自己需求的信息。例如,某个名人的粉丝也许会更关心网上对其偶像的正面报道信息,以满足自己心理上需求;而某公司公关部门也许更关心
8、网上对本公司的负面报道信息,以及时做好预警处理准备。这些都涉及到文本内容的褒贬评价,而人工对网页内容进行褒贬评价,只适用于范围小、语料少的情况。面对海量的、动态的、时新的Web信息,则必须利用机器的自动评价。褒贬词表是文本内容自动褒贬评价最基本的资源,相关资源的构建如果单靠人工获取,是非常耗费人工的,特别是资源常常需要不断的更新和扩展,对人工来说则是一个灾难性工作。褒贬新词,即为原褒贬词表中没有的褒贬词,也称未登录褒贬词。本文