欢迎来到天天文库
浏览记录
ID:35059076
大小:3.15 MB
页数:67页
时间:2019-03-17
《基于web的事件检测与评价系统的研究分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP393论文编号:102871616-S057学科分类号:083500硕士学位论文基于Web的事件检测与评价系统的研究分析研究生姓名于渤海学科、专业软件工程研究方向计算机网络指导教师夏正友副教授南京航空航天大学研究生院计算机科学与技术学院二一六年一月NanjingUniversityofAeronauticsandAstronauticsTheGraduateSchoolCollegeofComputerScienceandTechnologyResearchandAnalysisofEventDetectiona
2、ndEvaluationSystembasedonWebAThesisinSoftwareEngineeringbybohaiYuAdvisedbyzhengyouXiaAssociateProfessorSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringJanurary,2016承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表
3、或撰写过的研究成果,也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)作者签名:日期:2016.3.28南京航空航天大学硕士学位论文摘要随着互联网的发展社交网络的流行,网络中存在海量用户数据,但是这些数据以半结构化形式呈现,目前新闻网站每天产生大量数据。提取出网络中有效数据并对事件的检测以及该事件中用户的态度分析成为热门研究问题。本文主要针对
4、中文网站及微博作为研究对象,实现在中文网站中快速获取有效数据并通过事件发现算法进行新事件检测,针对微博用户评论实现当前话题下用户态度分析。详细工作如下:(1)对于海量数据下半结构化网页数据快速提取有效文本内容,本文提出了基于博弈论的有效文本抽取算法。首先通过标签分块后形成博弈策略两个玩家寻找纳什均衡确定潜在文本块,实验表明本文提出方法优于基于DOM树分析算法和基于视觉分割算法,尤其在效率上。因此对于屏幕阅读等及时应用可以使用该方法。(2)本文提出了基于TextRank算法从文本中提取关键词作为特征向量。首先将文本进行分词操作,分词
5、后通过TextRank算法提取出权值较大的60个特征向量然后进行单遍聚类用以检测新事件。实验通过对比tf-idf方法发现效果优于tf-idf方法,说明TextRank在计算词语权重上更加合理。(3)本文提出了基于TextRank算法从文本中提取关键词作为候选词。首先通过TextRank算法提取出关键词然后提取评价对象与评价词,然后根据情感字典计算互信息后得出情感极性。实验通过对比最大熵句法分析法发现虽然在准确率上本文提出方法略低于最大熵句法分析法,但是时间效率上高于最大熵句法分析法。对于处理海量数据本算法具有很大优势。关键字:网页
6、解析,文本抽取,博弈论,事件检测,事件评价i基于Web的事件检测与评价系统的研究分析ABSTRACTWiththedevelopmentoftheInternet,thepopularityofsocialnetworks,therearealargeamountofuserdatainthenetwork.However,thedataaregenerallyintheformofsemi-structred,therearealargeamountofdataproductedbyNewswebsitsandsocialnet
7、worksineveryday.Extractingvaliddatafromthenetworkfordetectingoftheeventandevaluatingtheattitudeofusersintheeventbecomesahotproblemtoresearch.OurmainlyfocusesontheChinesewebsitesandmicroblogastheresearchobject,havingachievedextractvaliddataquickly.Thenusingeventdetecti
8、onalgorithmforneweventdetection.Analysisoftheusers’attitudetowardsthecurrenttopicofmicroblog.Detailsareasfollows:(1)Inordert
此文档下载收益归作者所有