欢迎来到天天文库
浏览记录
ID:31977241
大小:1.20 MB
页数:46页
时间:2019-01-29
《rss消息识别和rss网站行为特征的分析论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、』£盛奎迪厶:差亟:£望位迨塞生羔地璺中文摘要摘要:随着网络技术的巨大发展以及互联网使用肯的不断增加,互联网已经成为二E流的信息发布媒介之一。如何快速、准确地在网络中找到所需信息,并且以更加人性化的方式为用户提供服务成为了阿络技术研究的热点。Rss技术是近几年发展起来的在互联网上被f“泛采用的内容包装和投递协议,各种类别的信息通过RSs发送,被广泛应用于博客、新闻信息、个性化搜索、电予商务等各个领域。目6口对Rss的研究:E要集中在Rss技术在各个领域的应用,肘于大规模数据中Rss的识别方法,Rss网站的行为特征的研究还比较少。本文通过研究Rss协议规范及报文结构,提出了两种
2、从大规模的数据中i_}{别RSs应用数据的方法:根据HTTP请求报文中Request—uRL的内容进行识别、根据RSS响应报文第一个数据包的内容进行识别,结合上面}眄种方法尉RSs技术在校匦j网中的用户数量进行了统计。采用单机抓取Rss应用数据,研究了Rss网站的一些行为特征,重点分昕了网站输出的Rss文件更新的频度,更新的规模、Rss文件的冗余信息量以及流量等方面的特征,得出结论:Rss的“推送服务”机制存在浪费带宽的缺陷:网站RsS文件的更新频度和更新规模在很大程度上可以反映出频道的性质:用户通过调整RSS浏览器的订阅时间问隔可以有效节省带宽。关键词:RsS、XML、RS
3、sfeed、报文识别、数据分析、更新频度』E盛奎丝厶:羔塑£:差i!途奎△旦51&△£IABSTRACTABsTRAcT.withthehighdeVelopmentofIntemettechnologyandincreasingIntemetusers,theIntenlethasbecomeoneofmemainmediasofinfomlationissuing.MostnetworkresearchhasfocusedontechnoIo西estoc01lectValuableinfo肌ationontheIntemetandtoprovideuserwithmore
4、humankindservice.RSSprotocol,whichhasbeenproposedanddeVeIopedinrecentyears,iswidelyusedformessagepackaginganddeliVeringontheIntemet.ManyIntemetapplicationsuseRSStodeliverinfo咖ation,suchasblog,newswebsite,search,e—commercial卸dsoon.MostRSSresearchhasthusfhremphasizedRSStechnologyapplicationsi
5、ndiff打entfieIds.However'f色wresearchfocusonRSSpacketsorflowsidentificationandthebehaviorcharacteristicsofRSSwebsite.ThispaperanaIyzesRSSpmtocolsandpacketfbnTlatandpresentsMomethodologiestoidcnti黟RssappIicationtmmcf如mlarge—scaledata.ThestatisticofamountofRssusersinthecampusnctworkis西venbycomb
6、ining“Vomethodolo西es.OnereliesontheRequest—URLpayloadintheHTTPrequestmessagewhiIetheotherreliesonthepayIoadofthefirstpacketofRSSr印lymessage.Inpursu“ofthebehaviorchamcteristicsofRSSwebsite,weembarkonthemeasufementofRSStm币c,inparticularthe厅equencyandscaleofRSSnlesupdatin舀RSSfilesredundancyand
7、tm佑camount.Wefindthat:themechanismsofRSSpushseⅣicecausebaIldwidthwaste;the矗℃quencyandscaleofRSSfilesupdatingindicatethechamctefofthechannel;userscallsavebaIldwidfhbysettingalongerRSSexplorerupdatinginterval.KEYWORDS:RSS、XML、RSSfeed、MessageIdentification、
此文档下载收益归作者所有