欢迎来到天天文库
浏览记录
ID:35058922
大小:5.88 MB
页数:63页
时间:2019-03-17
《基于url模式的网页分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、夺国許違據若大赛UniversitofScienceandTech打yologyofChina硕±学位论文戀,,jiI基于U艮L模式^的巧巧分类论文题目算法研完;?‘朽錯铭作者姓名计算用故术学科专业刮贵全到教投^导师姓名二〇-六年A月完成时间牛笛科《我木乂#硕±学位论文#基于URL模式的网巧分类算法研究作者姓名;杨溢铭.学科专业:计算机应用技术导师姓名;刘贵全副教授—■完成时间::二〇六年五月^H::i|Universi
2、tfScyoienceandTechnologyofChina’Adissertationformastersdegree-PaResearchonURLtternBasedAlorithmforWebPaeggClassification’Au化orsName:YimingYangSecialit:ComuterAlicationTechnolopypppgy'Suervisor:Associ.Prof.GuiuanLiupqFinishedtime:May,2016
3、k■中国科学技术大学学位论文原创性声巧本人声明所單交的学位论文是本人在导师指导下进行研巧工作所取得的成,果,。除己特别加W标注和致谢的地方外论文中不包含任何他人已经发表或撰写过的研究成果一同工作的同志对本研究所做的贡献均己在论文中作了明确。巧我的说明。‘《.作者签名/:綠签字円期:,〇乂抑麵中国科学技术大学学位论文授权使用声明一作为申请学位的条件之,学位论文著作权拥有者授权中国科学技术大学拥目;有学位论文的部分使用权,P学校有权按巧关规定向国家有关部口或机构送交论文的复印件和电子版,可《,允许论文被査阅和借阅
4、W将学位论文编入中国学位论文全文数据库》等有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存一、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相致。保密的学位论文在解密后也遵守此规定。0公开□保密(年)作者签名;抑链J乏导师签名:疋t.(占签字日期:签字日期:I_____摘要巧要随着互联网和移动互联网的快速发展,如何高效地组织和管理海量的网页信一息越来越成为棘手的问题。网页分类研究作为Web挖掘的个基础步骤,在捜索引拳、主题爬虫和维护目录式网站等许多应用中均发挥着重要作用。基于内容的网
5、页分类技术大多从网页内容、超链接结构和邻居节点等信息中抽取出大量持征,然后使用有监督学习方法进行分类。而只基于URL的网页分类技术则仅基于网页URL信息进行分类。虽巧网页分类技术已经被大量研究过,但是已有方法过于依赖特征工程,训练所需时间代价较大,而且不能较好地处理数据中的噪音问题。另外,,现有方法未考虑増量学习情形该问题在训练数据流式产生的情景中尤为突出。,我们引入模式树的思想并加W改进在本文中,提出了UPCA算法。根据特レ定类型网页的训练集,通过模式树的构建巧模式规则的提取:A获得该类,我们可型网页URL所遵循的通用模式库
6、。模式库可W代表对应类型网页URL集合的结构特点。对于新来的网页,我们只需将网页URL和己得到的模式库匹配来判断网页是否属于该类型。另外,我们将模式树的构建改进为増量式,也就是训练数据分批到来时在已有模式树的基础上进行増量更新,从而达到无需每次都重新构建模式树的目标。并且文中给出了新増训练样本对键对应信息巧的影响范围。最后在真实数据集上的实验结果表明,UPCA算法在保证分类精度的前提下能显著提髙效率,而且我们提出的増量模式树算法可很好地处理训练数据流式产生的场景。关键词:URL模式网页分类W洗挖掘IIIAbs仔a
7、ctABSTRACTWkht;herapiddevelopmentof化eIrnemetandmobileIiUemet,itbecomesachalikiileng打gtastoorganzeandmanage化emassiveWebagesefeclvely.AsapfundamentalpariofWebmininWebeclassificationresearchlasanimortantg,pagpyproleinman巧ddsofWebmininsu
8、chassearchenine>
此文档下载收益归作者所有