欢迎来到天天文库
浏览记录
ID:35181518
大小:2.15 MB
页数:62页
时间:2019-03-21
《搜索广告点击率预测中的冷启动问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文搜索广告点击率预测中的冷启动问题研究RESEARCHONCOLDSTARTPROBLEMINCLICK-THROUGHRATEPREDICTIONFORSEARCHADVERTISING邓丽芳哈尔滨工业大学2016年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文搜索广告点击率预测中的冷启动问题研究硕士研究生:邓丽芳导师:林磊副教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单
2、位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:004.9DissertationfortheMasterDegreeinEngineeringRESEARCHONCOLDSTARTPROBLEMINCLICK-THROUGHRATEPREDICTIONFORSEARCHADVERTISINGCandidate:DengLifangSupervisor:AssociateProf.LinLeiAcademicDegreeAppliedfor:MasterofEngine
3、eringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology摘要在线广告依托大数据的背景,作为一种新的广告形式应运而生,其中搜索广告占据整个在线广告市场的一半以上,而广告点击率预测则是关乎广告收入的关键技术。对于广告系统而言,每天都有大量
4、的广告进入广告库,对于展示次数丰富的老广告,可以利用充足的统计信息计算广告点击率,但对于刚刚进入广告库,缺乏足够展现次数的新广告和稀疏广告来说,则存在严重的冷启动(ColdStart)问题。广告点击率预测中的冷启动问题是指对于刚刚进入广告库的新广告和稀疏广告而言,由于缺乏足够的广告点击日志数据从而无法实现广告点击率的有效预测。本文以研究搜索广告中的冷启动问题为目标,具体包含以下三方面的研究内容。第一,广告大数据的处理。广告的日志数据十分庞大且复杂,因此,本文首先详细分析了广告日志中各个字段的具体含
5、义,在此基础上,对数据进行了统计分析和预处理,把握数据的整体分布情况,减弱一些无关的噪声数据对数据总体性能的影响。最后详细介绍了针对搜索广告冷启动问题使用的评价指标及相应算法。第二,高表现力特征的提取。当广告展现次数少时,新广告和稀疏广告的点击数据表现出的特性不太稳定,一些专门针对新广告和稀疏广告的点击率预测方法主要集中在浅层的基本特征上,并没有深入挖掘一些潜在的、抽象的信息。因此,针对新广告和稀疏广告统计数据不足的特点,我们提出了基于token的点击图特征,同时为了弥补人工经验进行特征组合的不足
6、,我们在基本特征的基础上通过GBDT(GradientBoostDecisionTree)模型生成了表现力更强的新特征。实验结果表明,我们提取的特征不仅能提高新广告和稀疏广告的点击率预测效果,同时也能改善老广告的点击率预测效果,很好的解决了搜索广告中的冷启动问题。第三,在线更新算法的研究。受时间和硬件的限制,传统的批量(batch)算法处理海量数据耗时且耗内存,因此本文使用了基于在线更新算法的模型进行点击率预测,并利用了Adaboost框架进行模型的融合。实验表明,在数据量大且数据稀疏的情况下预测
7、模型依然有优秀的性能表现。关键词:点击率预测;搜索广告;冷启动;点击图;在线学习-I-AbstractAsanewformofadvertising,onlineadvertisinghasbecomeoneofthemostimportantrevenuemodelsofnetworkmarketing.Searchadvertisingisthelargestandfastestgrowingformofonlineadvertising,ithasocupiedmorethanhalfoft
8、hewholeonlineadvertisingmarket.PredictingCTRisthemostcriticaltechnologyforsearchadvertising.ForadwithlargeclickhistoryitcanpredictCTRbyutilizingstatisticaldata.Butfornew/rareadshasseriouscoldstartissuebecauseoflackingofhistoricaldata.Thenew/ra
此文档下载收益归作者所有