欢迎来到天天文库
浏览记录
ID:23696826
大小:2.76 MB
页数:61页
时间:2018-11-09
《动态web广告的智能获取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文动态Web广告的智能获取技术研究RESEARCHONTECHNOLOGYOFRETRIEVING DYNAMICWEBADVERTISING INTELLIGENTLY梁微微哈尔滨工业大学2014年12月国内图书分类号:TP399学校代码:10213 国际图书分类号:621.3密级:公开工学硕士学位论文动态Web广告的智能获取技术研究硕士研究生:梁微微导师:叶允明教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2014年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP399U
2、.D.C:621.3DissertationfortheMasterDegreeinEngineeringRESEARCHONTECHNOLOGYOFRETRIEVING DYNAMICWEBADVERTISING INTELLIGENTLYCandidate:WeiweiLiangSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScience&TechnologyAffiliation:Shenz
3、henGraduateSchoolDateofDefence:December,2014Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着互联网和电子商务的发展,目前许多公司都通过Web广告来推广自己的产品,很多大型互联网公司的主要收入来源也来自于Web广告,因此目前对Web广告的研究越来越热门。为了研究互联网广告的投放机制,更加科学的投放广告,收集互联网上的广告就成为一项非常有意义的工作,但是,目前针对互联网广告资源采集的研究却没有什
4、么成果,因此,本文主要研究如何从海量的互联网资源中智能地获取尽可能多的Web广告资源。为了快速准确获取互联网中的广告,本文主要做了如下几个工作:首先,提出了一种基于DOM树构建的动态脚本解析算法,在建立页面DOM树的过程中,使用文中所设计的基于Rhino封装后的Javascript解析引擎,解析Web页面中的Javascript脚本,加载页面中的动态数据,最终得到加载完动态信息的完整页面。基于DOM树构建的解析算法在请求动态数据的时候进行了合理的资源分配,因此在解析速度方面比其它动态数据获取方式要快。在章节的最后,通过实验和其它的动态数
5、据获取方式进行了比较,实验证明,算法的速度比其它的方式快。然后,设计了基于页面块分类的Web广告资源定位算法,将页面中广告资源的定位问题转化为二分类问题,在页面分块的基础上,对页面中所有的块进行广告块分类,通过标记其中的广告块,最终实现了广告资源定位的功能。基于页面块分类的广告定位算法,使用页面中的URL串作为分类的特征,拥有分类速度快,准确度高等特点。在章节的后面,对比了几种常用的分类算法在广告定位上的效果,此外,还给出了基于决策树分类的广告定位算法在各种类型的网站上所表现出来的效果,实践证明,基于决策树的广告资源定位算法效果比其它的
6、算法的效果好。最后,实现了动态Web广告的智能获取系统,用系统的实际效果验证了本文所提方法的有效性。关键词:Web广告;Javascript解析;分类;页面分块-I-哈尔滨工业大学工学硕士学位论文AbstractWiththerapidlydevelopmentoftheInternetandelectroniccommerce,manycompaniespromotetheirproductsinwebadvertising.ManylargeInternetcompanies’majorincomesourcecomefromweb
7、advertising.Thestudyofwebadvertisingisincreasinglypopular.InordertostudytheInternetadvertisinganduseInternetresourcesmorescientific,collectingtheInternetadvertinghasbecomeascientifcwork.However,thereislittleachievementingettingInternetadvertisingfornow.Therefore,thisarti
8、clemainlyfocusonhowtoobtainwebadvertisingfromthehugeamountofInternetresourcesasmuchaspossible.Inorderto
此文档下载收益归作者所有