欢迎来到天天文库
浏览记录
ID:35039293
大小:5.55 MB
页数:62页
时间:2019-03-16
《中文微博观点句识别及要素抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、乂連禮^义聋DALIANUNIVERSITYOFTECHNOLOGY损±韋恆巧文MASTERALDISSERTATION3W6鐵中文微博观点句识別及要素抽取研究计算机应用技术作者姓名黄德根教授指导教师答辩曰期:__苗_!互_年_皆与硕±学位论文中文微博观点句识别及要素抽取研究TheResearchofOpinionSen化neeIdentificationandElementExtractioninChineseMicroBlo
2、gs作者姓名:王冠群学科、专业:计算机应用技术1学号:2309172指导教师:黄德根教授完成日期:2016年5月30日乂连巧义乂緣DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中己经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不一包含其他己申请学位或其他用途使用过的成果。与我同工作的同志对本研究
3、所做的贡献均&在论文中做了明确的说明并表示了谢意。。若有不实之处,本人愿意承担相关法律责任'词亦剧坛?学位论文题目:^寺游请鴻怎I秦抑乘良叩各^作者签名:日期;年月g日大连理工大学硕±学位论文摘要一微博作为种新兴的文体受到了广泛的关注,在国内外多个评测的推动下,关于微NLP一个热点,微博平台上存在海量的观点性文本博的情感分析研究己成为研究领域的,可通过对它们的分析,了解用户喜好,既有理论意义,又有使用价值。一本文面向中文微博这特殊文本,进行观点句识别及要素抽取研究,针对中文微博
4、的特点,寻找合适的情感分析方法。由于观点句识别是要素抽取的前提,为保证其准确率,,采用有监督的机器学习方法使用VM一S分类器结合元词形特征对微博进行情感分类。文中对比了多种特征表示方法-的分类性能,并利用信息增益减少特征集中的特征数目IDF。实验表明,TF的权值设定方法更适合于中文微博的情感分类任务,在使用的特征数目为特征总数的20%时,其最高准确率达到95.54%。同时,本文比较了不同特征表示方法在单子句微博和多子句微博上的分类效果,结果显示,离散表示法和分布方式的句子建模方法在多子句微博中的准确率
5、较高,而组合方式的句子建模方法更适用于单子句微博。在要素抽取方面,为了避免不同类别微博之间的相互干扰,首先利用LDA模型对语料进行主题分类,并确定每个类别的主题词;然后采用双层关联规则挖掘算法抽取其中的对象层及属性层候选频繁项集,在结构和语义两个层面上对频繁项集进行紧密度剪枝和可信度剪枝,;制定筛选和定界规则根据频繁项集获得每条微博的对象层及属性层要素使用词的位置信息和点互信息对应对象层和属性层要素,并通过观点句识别的结;果确定要素的情感倾向性,。实验数据采用第六届中文倾向性分析评测所发布的数据实01
6、4F.8验结果与2年评测的最好结果基本持平,值为233%,而对象层要素和属性层要素抽取结果均好于评测最好结果,F值分别为46、4。.66%6.48%关键词:情感分析SVM主题分类;特征表示;;;关联规则大连理工大学硕±学位论文The民e化archofOpinionSen化neeIdentificationandElementExtractioninChineseMicroBlosgAbs化actMicroblogsasanewStylehasreceived
7、widespreadattention.Underthedriveofmanyevaluationathomeandabroadtheresearchofsentimentanalsisaboutmicrobloshas,yg-becomeahotsotof.TinlattoftetthNLPhemicroblogpformhaslareamounoinionxepgggp,analsisofthemca打understanduserref
8、erencesandnotonlhastheoreticalsinificancebuty,,pygalsohasracticalvalue.pThisarticleisaimedatopinionsentenceide
此文档下载收益归作者所有