欢迎来到天天文库
浏览记录
ID:13571087
大小:522.00 KB
页数:43页
时间:2018-07-23
《基于web数据挖掘的个性化推荐研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于web日志挖掘的个性化推荐方法研究第一章绪论1.1研究背景与意义1.2国内外研究现状1.3论文的内容安排本文各章节按如下组织方式:第一章介绍互联网背景,引出基于web日志挖掘的个性化推荐研究的意义,分析国内外web日志挖掘和个性化推荐研究现状。第二章首先概述数据挖掘的基本知识,然后重点描述数据挖掘的重要分支web数据挖掘,然后对web数据挖掘在个性化推荐中的应用从数据源,建模过程做了介绍,最后分析了目前主要个性化推荐算法的优缺点引出本文选择的模型马尔可夫预测模型。第三章提出本文研究的重点web日志挖掘,并
2、提出了基于web日志挖掘的一种框架设计,然后描述了各模块的功能和工作过程以及相互之间的协调工作。第四章介绍了马尔可夫模型的基本概念和三种基本马尔可夫模型,分析了三种模型的优缺点,提出改进的模型算法,分别从存储结构和构建过程上做了改进,分析改进模型的工作过程和相比较传统模型的优点。第五章通过实验对比用户模型生成时间,推荐生成时间,推荐准确度,证明了改进马尔可夫模型的可行性。第六章总结全文工作,指出本文不足的方面,并对接下来的工作提出展望。第二章web日志挖掘概述2.1数据挖掘数据挖掘就是从大量的,模糊的,无规律
3、的数据中,发现规律并提取出有价值的最终为人所利用的信息的非平凡过程。数据挖掘提取的信息是事先不为人所知的,因而所得信息具有未知性,有效性,实用性。数据挖掘由多个领域的理论和技术融合而成,包含数据库,人工智能,机器学习。现如今比较成熟的数据挖掘方法有关联分析,聚类分析,协同过滤等。以客户为中心的企业可以利用数据挖掘做好决策分析和用户管理。2.1.1数据挖掘的一般过程简单来说,我们可以把它大分为:确定对象,数据收集,数据预处理,数据挖掘阶段以及应用阶段。1.确定挖掘对象:定义清晰的挖掘对象,认清数据挖掘的目标是数
4、据挖掘的第一步。数据挖掘的最后结果往往是不可预测的,但是要解决的问题应该是有预见性的、有目标的。在数据挖掘的第一步中,有时还需要用户提供一些先验知识。这些先验知识可能是用户的业务领域知识或是以前数据挖掘所得到的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能会提出新的问题;可能会尝试用其他的方法来检验数据,在数据的子集上展开研究。2.数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出”,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参加。因此,领域问题的数据收集好之后,和目
5、标信息相关的属性也选择好了。3.数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应该在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转换成合适的形式。例如,在某些情况下,将数据转换成向量形式。另外,为了寻找更多重要的特征和减少数据挖掘步骤的负担,我们可以将数据从一个高维空间转换到一个低维空间。4.数据挖掘:数据挖掘步骤主要是根据数据建立模型。我们可以在这个步骤使用各种数据挖掘算法和技术。然而,对于特定的任务,
6、需要选择正确合适的算法,来解决相应的问题。5.应用阶段:在数据挖掘得到合适的模型之后应用到实例中,应用模型对未知的数据进行预测。2.1.2数据挖掘的算法模型分类从处理过程,功能模型,应用方向等不同的角度可以把数据挖掘分为不同的类别,在此我们以功能模型划分,可以把数据挖掘分为以下类型:1.关联模型关联模型的用途是发现事物之间的关系总结称规则为人所用,预测哪些事情将一起发生。例如超市中客户在购买A的同时,会有k的概率购买B,即A=>B(关联规则),k为该关联的置信度。2.序列模型序列模型与关联模型类似,也是描述事
7、物之间的相关性,但是序列模型建立在时间的基础上,描述的是一段时间内可能发生的事情,例如客户在购买A后,隔一段时间,会购买B(序列分析)。3.聚类模型聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。例如:a.一些特定症状的聚集可能预示了一个特定的疾病;b.租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对
8、每个不同的聚集,回答问题,可能效果更好。4.分类模型分类模型首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例如:a.信用卡申请者,分类为低、中、高风险;b.故障诊断:采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。值得注意的是类的个数是确定的,预先定义好的。5.
此文档下载收益归作者所有