欢迎来到天天文库
浏览记录
ID:34233027
大小:3.07 MB
页数:81页
时间:2019-03-04
《基于数据挖掘的广告推荐系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP391论文编号:102871618-SZ016学科分类号:085211硕士学位论文基于数据挖掘的广告推荐系统的研究研究生姓名蒋丽专业类别工程硕士专业领域计算机技术指导教师薛善良副教授南京航空航天大学研究生院计算机科学与技术学院二О一八年三月NanjingUniversityofAeronauticsandAstronauticsTheGraduateSchoolCollegeofComputerScienceandTechnologyResearchonAdvertisementRecommendationSystemBasedon
2、DataMiningAThesisinComputerScienceandTechnologyByJiangLiAdvisedbyProfessorXueShanliangSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringMarch,2018南京航空航天大学全日制专业学位硕士学位论文摘要随着Internet的快速发展,网络中的无结构或半结构化的文本数据正在急剧增加。面对如此庞杂的数据,用户了解和处理数据的能力却维持不变,如何帮助用户对这些数据
3、进行有效的管理并帮助用户获取他们所需要的信息就显得尤为重要。这个问题涉及到文本挖掘的研究。文本挖掘是数据挖掘领域的一个分支,文本挖掘是从大量的文本集合或者语料库当中抽取事先未知的、可理解的、有潜在实用价值的模式和知识。文本挖掘又可以分为文本聚类挖掘和文本分类挖掘,本文将具体研究文本聚类挖掘,由于聚类不需要预先对文档进行手工标注类别等操作,可大大地减少手工整理文本的时间,从而提高了效率。因此,研究文本聚类具有非常重要的意义。首先,文章概述了数据挖掘的概念、功能、步骤以及聚类的概念,在介绍常用的一些聚类算法的基本思想及优缺点的基础上,阐述了选择K-Me
4、ans聚类算法对文本进行聚类的原因,分析了K-Means聚类算法的优缺点并针对其缺点进行了改进。针对原始K-Means聚类算法随机选取K个初始聚类中心的问题,提出一种改进的K-Means聚类算法,算法首先基于密度及聚类准则思想来选取K个初始聚类中心,然后再在选取的初始聚类中心上进行K-Means聚类。最后,用不同的数据集来验证改进后的K-Means聚类算法的准确性和稳定性,实验结果表明,改进后的K-Means聚类算法在准确性和稳定性上都比原始K-Means聚类算法提高不少。其次,文章概述了文本聚类挖掘中的具体步骤,给出了每一个步骤的具体思路。针对K
5、-Means聚类算法对聚类簇K值很敏感这一问题,提出一种改进的K-Means聚类算法,算法首先基于共现词原理计算词向量之间的相似性并根据相似性阈值将聚类样本划分为K+x个簇后结合密度及聚类准则思想来选取K+x个初始聚类中心,之后再在这K+x个初始聚类中心上使用K-Means聚类算法。用不同的文本数据来验证改进算法的准确性,实验证明,改进后的K-Means聚类算法有效地减小了算法对参数K的依赖。最后,给出了OFBiz电子商务平台中的广告推荐系统的总体设计以及模块设计,在OFBiz电子商务平台中实现了广告推荐系统,在该广告推荐系统中使用了改进后的K-M
6、eans聚类算法,通过该系统验证改进后的K-Means聚类算法的有效性。关键词:K-Means算法;初始聚类中心;密度;聚类准则;共现词;I基于数据挖掘的广告推荐系统的研究ABSTRACTWiththerapiddevelopmentoftheInternet,theunstructuredorsemi-structuredtextdatainthenetworkisincreasingdramatically.Facedwithsuchavastamountofdata,theabilityofusers’understandingandproc
7、essingdataremainsunchanged,itisparticularlyimportantthathelpusersmanagethesedataeffectivelyandhelpusersobtaintheinformationtheyneed.Thisquestionrelatestotheresearchoftextmining.Textminingisabranchinthefieldofdatamining,textminingextractstheunknown,understandableandpotentiallyu
8、sefulvaluesofthemodelsandknowledgefromalargecollectionsoftext
此文档下载收益归作者所有