欢迎来到天天文库
浏览记录
ID:35178350
大小:5.80 MB
页数:63页
时间:2019-03-20
《基于搜索数据的宏观指标预测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、乂玉豬大葦D化IANUNIVERSITYOFTECHNOLOGY破±享恆巧文MASTE民ALDISSERTATION幽基于捜索数据的宏观指标预测方法研究软件工程学科专业作者姓名李侧指导教师连远竖2016年6月2曰答辩日期.-.,■?-.,1一'.V1;,-,硕dr学位论文基于捜索数据的宏观指标预测方法研究ResearchonMacroIndexPredka村onBasedonSearchDa化作者姓名:李光明学科、专业:
2、软件工程学号:21317018指导教师:李凤岐完成日期;20化年03月07日夫么巧义丈#DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行巧究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人
3、愿意承担相关法律责任。学位论文题目;基于搜索数据的宏观指标预测方法研究。6作者签名:日期;茄年/月7日大连理工大学硕±学位论文摘要移动互联网的飞速发展迎来了数据爆炸的时代,搜索服务提供商也因此积累了多样的海量用户搜索行为数据,这些数据是时下社会热点的间接反馈,与宏观指标的定义不一。谋而合因此,研究种基于搜索数据的宏观指标分析方法成为可能,而且具有重要的科研和实际价值。Google公司的OFT(GoogleF山Trends)模型利用Google搜索数据对世界范围内的流感预测做出的重要贡献,印
4、证了搜索行为数据巨大的潜在价值。百度作为国内最大-M的搜索服务提供商,记录着丰富的用户搜索行为数据,利用这些数据,本文提出BSIP(MacroIndexPredicationbasedonBaiduSearches)模型,对宏观指标进行全程自动化地预测分析,同时规避了(类)GFT模型对专业领域知识的强依赖约束。在早期的预测模型中,为避免因漏掉重要特征导致模型失准,通常会选择把可能相关的特征全部引入到-。GALasso(Genetic模型,但由此引入的特征冗余风险,可能导致模型失效本文提出W&Adaptive
5、Lasso)方法为核也的特征选择模块,将传统的特征选择方法与人工智能的思想相结合,提供了解决高维小样本问题和过拟合问题的实用方案。连续数值的离散化处理是数据预处理中的重要环节,不仅能够简化后续学习过程,提升学习效率。然而,无监督情境中的离散化问题,因缺少类标签信息的辅助,成为离散化处理中亟待解决的难题。本文结合聚类思想和集成学习的思想,提出了KED(KmeansbasedEnsemblingDiscretization)方法为核也的无监督的数据离散化处理模块,能高效地完成离散化任务。-MBSIP模型能够集成搜索数
6、据预测宏观指标,对相关领域的类似工作具有重要参A-asso考价值,L方法和KED方法则分别为其提供了可用性和可扩展性的保障而G,并且两个算法可W作为模块单独使用,具有较强的灵活性。关键词:搜索数据;宏观指标预测;特征选择;离散化--1基于搜索数据的宏观指标预测方法研巧ResearchonMacroIndexPredicationBasedonSearchDataAbstractTheraiddevelomentofmobileInternetusherstheeraofdat
7、aexlosionsearchserviceppp,providersthereforehaveaccumulatedvastamountsofsearchdata,whichreflectssocialhot,andcoincideswithmacroindexes.Suchthatstudinamethodbasedonsearchdatato,ygredictmacroindexesbecomesossibleanditwill巧larescientific
8、andracticalvalue.pp,ggp,TheGFTGooleFlueTrendsmodelbased
此文档下载收益归作者所有