欢迎来到天天文库
浏览记录
ID:8146599
大小:1.69 MB
页数:112页
时间:2018-03-07
《基于网络流量模式的网络社群》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于网络流量模式的网络社群发现与网站推荐系统WebCommunityMiningandWebSiteRecommendationSystembasedonNetflowrecordanalysis(申请清华大学工学硕士学位论文)培养单位:电子工程系学科:信息与通信工程研究生:贾明指导教师:李星教授二○○六年五月基于网络流量模式的网络社群发现与网站推荐系统贾明关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获
2、学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆报送可以公开的学位论文。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名:导师签名:日期:日期:摘要摘要随着万维网(WorldWideWeb)的飞速发展,人们对于网络的需求已经不仅仅是获取大量的信息,而
3、且需要这些信息是为自己量身定制。这种需求促成了网络上推荐系统的大量出现与成熟。但是,由于目前的推荐系统都需要用户对以往的项目做出评价,而大部分推荐系统可以依靠的历史信息过于稀少,这大大影响了推荐的准确度。网络能反映出人们在现实中的部分社会关系,因此,对于网络社群的研究也获得越来越多学者的关注。然而,目前人们只能依靠网页链接来获得网页集合的社群关系,这并不能直接反映用户的社群关系。本文利用教育网与公网接口路由器产生的Netflow流量数据,实现了对用户的网站推荐系统,并且利用网络社群在流量上的表现,实现了同
4、时对用户和网络的社群发现。在预处理系统中,通过端口及协议的过滤,IP地址的过滤与合并,,以及异常流量的去除,最终将流量数据转换为4种实用的评分指标。在对网络社群的研究中,论文首先证明了用户网络社群的存在。之后,论文使用K均值法,二分K均值法和反复聚类方法对用户与站点的集合进行聚类,从而生成网络社群。论文通过对模拟数据以及真实流量数据的测试,比较了三种算法在复杂度和聚类结果内部质量上的差异,并对结果进行了分析。试验结果表明,无论是算法复杂度还是聚类结果的内部质量,普通的K均值算法在本系统的应用中最有优势。由
5、于流量评分数据体现了用户对站点的兴趣程度,论文提出了基于流量评分的网站推荐系统。论文实现了六种推荐算法:随机站点推荐,以流量评分排序的网站推荐(贪心算法),基于最近邻的网站推荐,基于邻近IP的网站推荐,基于站点相似度的网站推荐,基于网络社群的网站推荐。通过对多种算法评价指标的比较,论文认为最适合本系统应用的是TopN准确度。通过一系列测试,论文将推荐系统参数以及各算法参数调整至能实现TopN准确度最大的情况,并在这种参数情况下对各个参数的TopN准确度做了比较。结果显示,基于最近邻居的推荐算法为最优算法,
6、可以达到50%的Top5准确度,并且在Top30以内的准确度都在40%以上。这样高的推荐准确度为实现本系统的应用奠定了良好的基础。关键词:Netflow流量数据流量预处理网络社群网站推荐IAbstractAbstractThefastdevelopmentofWorldWideWeb(WWW)improvespeople’sabilityoffindinginformationofinterest,aswellasaugmentstheneedoffilteringrequiredknowledgefro
7、mlargeamountofinformation.Thedemandofhavingthepersonalizedsearchtoolsexpeditestheresearchonrecommendationsystemwhichhasachievedgreatsuccessine-commerce.Therecommendationsystemsfacetheproblemofinformationscarcity,whichgreatlydebasetheperformanceofthesystem
8、s.Theusers’activitiesinWWWhaverevealedsomekindofsocialactivitiesandrelationsintherealworld.Thisphenomenonraisestheresearchinterestintheareaofwebcommunitymining,whichbasedonthelinkagebetweenwebpages.However,thiskindo
此文档下载收益归作者所有