基于web数据挖掘的信息智能过滤技术研析

基于web数据挖掘的信息智能过滤技术研析

ID:33320023

大小:2.33 MB

页数:67页

时间:2019-02-24

基于web数据挖掘的信息智能过滤技术研析_第1页
基于web数据挖掘的信息智能过滤技术研析_第2页
基于web数据挖掘的信息智能过滤技术研析_第3页
基于web数据挖掘的信息智能过滤技术研析_第4页
基于web数据挖掘的信息智能过滤技术研析_第5页
资源描述:

《基于web数据挖掘的信息智能过滤技术研析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、两北I。业入学硕

2、_=学位论文——基于Web数据挖掘的信息智能过滤技术研究经济安全和社会安全密切相关,是我国信息化进程中具有重大战略意义的问题。它综合性强,涉及面广,又是高技术领域的一个制高点,应该引起高度重视,力争使我国的信息安全建设提高到国际一流水准。基于Web数据挖掘的信息智能过滤系统是黑客监控系统中的必不可少的一部分.通过对智能过滤系统的研究能使黑客监控系统更加完整,开发出国内自主产权的黑客监控系统,对我国加强网络安全建设,推动政治、经济、贸易、军事等敏感领域信息化的发展,都具有十分重要的意义。黑客监控系统作为入侵检测系统的强化手段,定位在

3、高级网络安全性。在Internet迅速普及的今天,黑窖监控系统既可以很好地保护政府网、军用网这样的敏感网络,也可用于商业网、教育网、金融网等各种网络。作为入侵检测系统的强化手段,尤其适用于大型Intranet。从Internet发展前景看,黑客监控系统拥有很高的应用价值和良好的市场前景。此外,由于黑客监控技术是计算枫科学的一个新兴领域,国夕卜在这方面的研究资料与经验也并不十分丰富,因此我国若能及早开展研究,借机缩短与国外领先科技的差距,是十分必要的。§1.2数据挖掘技术综述1.2。1数据挖掘的定义数据采集和存储技术的进步导致庞大的数据库日益增多。这

4、已经发生在人类耕耘的几乎所有领域,从普遍的领域(如超市业务、信用卡使用记录、电话呼llU清单以及政府部门的数据统计)到专业应用领域(如天体图像、医疗记录、大量的网址等)。从这些数据中提取出对数据库拥有价值的信息,也随着时代的变迁使得人们对这个问题的兴趣在不断增长,而且已经形成了致力于这个任务的一门学科,称为数据挖掘(datamining)。数据挖掘的定义从产生至今有很多不同的版本,其中最为大家所公认的是:数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,其目的是发现未知的关系和以数据拥有者可以理解的并对其有价值的新颖的方式来总结数据。其中,数

5、据是用来描述事物的信息集合,新颖则是因为经过数据挖掘提取出的模式必须是全新的。模式是否新颖可以通过两个途径来衡量:第一是通过对比当前得到的数据和以前的数据或期望得到的数据之间的比较来判断该模式的新颖程度;第二是通过对比发现的模式和已有的模式之间的关系来判断。第一章绪论数据挖掘的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。数据挖掘不同于以往知识获取技术,其特点是获取的知识是人们易于理解的,如“If<条件>,Then<结论>”的形式。因此数据挖掘过程也是一个人机交互、螺旋式上升的过程。数据挖

6、掘的人机交互环境框图如图1.1所示:图1.1数据挖掘的人机交互环境上图描述了数据挖掘过程的人机交互环境,数据挖掘工具从数据库中抽取有用的信息,由可视化工具表达给用户。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要实现以下五类功能:1、自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及

7、认定对指定事件最可能作出反应的群体。2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。3、聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术及其要点是

8、,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。4、概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗吴

9、{:!『北1二业

10、;^==学硕}j学位论文——基十Web数据挖掘的信息智能过滤技术研究传算法等。5、偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括

11、很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。