web数据挖掘考试重点.doc

web数据挖掘考试重点.doc

ID:55304101

大小:27.00 KB

页数:5页

时间:2020-05-09

web数据挖掘考试重点.doc_第1页
web数据挖掘考试重点.doc_第2页
web数据挖掘考试重点.doc_第3页
web数据挖掘考试重点.doc_第4页
web数据挖掘考试重点.doc_第5页
资源描述:

《web数据挖掘考试重点.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、填空或简答:1. 数据、信息和知识是广义数据表现的不同形式。2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型6. 粗略地说,知识发现软件或工具的发展经历了

2、独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。8. 从使用的主要技术上看,可以把分类方法归结为四种类型:a)               基于距离的分类方法b)              决策树分类方法c)              贝叶斯分类方法d)              规则归纳方法9. 关联规则挖掘问题可以划分成两个子问题:a)               发现频繁项目集:

3、通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。b)              生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。10.  数据挖掘是相关学科充分发展的基础上被提出和发展的。主要的相关技术:数据库等信息技术的发展统计学深入应用人工智能技术的研究和应用11.  衡量关联规则挖掘结果的有效性:应该从多种综合角度来考虑:a准确性:挖掘出的规则必须反映数据的实际情况。b实用性:挖掘出的规则必须是简洁可用的。c新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。12. 

4、 约束的常见类型有:单调性约束;反单调性约束;可转变的约束;简洁性约束.13.  根据规则中涉及到的层次,多层次关联规则可以分为:同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规14.  按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。划分法:基于一定标准构建数据的划分。属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。层次法:对给定数

5、据对象集合进行层次的分解。密度法:基于数据对象的相连密度评价。网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。15.  类间距离的度量主要有:最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。最长距离法:定义两个类中最远的两个元素间的距离为类间距离。中心法:定义两类的两个中心间的距离为类间距离。类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平方和。16.  层次聚类方法具体可分为:凝聚的层次

6、聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。17.  文本挖掘(TD)的方式和目标是多种多样的,基本层次有:关键词检索:最简单的方式,它和传统的搜索技术类似。挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在

7、一个更到层次上进行抽象和整理。自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。18. 在web访问挖掘中常用的技术:                                                            路径分析路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。关联规则发现使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。序列模式发现在时间戳有序的事务集中,序列模式的发现就是指找到那些如

8、“一些项跟随另一个项”这样的内部事务模式。分类发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。聚类可以从WebUsage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。