基于数据挖掘的信息过滤系统的设计与实现

基于数据挖掘的信息过滤系统的设计与实现

ID:33405894

大小:1.39 MB

页数:54页

时间:2019-02-25

基于数据挖掘的信息过滤系统的设计与实现_第1页
基于数据挖掘的信息过滤系统的设计与实现_第2页
基于数据挖掘的信息过滤系统的设计与实现_第3页
基于数据挖掘的信息过滤系统的设计与实现_第4页
基于数据挖掘的信息过滤系统的设计与实现_第5页
资源描述:

《基于数据挖掘的信息过滤系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东师范大学硕士学位论文基于数据挖掘的信息过滤系统的设计与实现姓名:宋宝亚申请学位级别:硕士专业:计算机软件与理论指导教师:刘培玉20060520摘要互联网Internet的高速发展,已经使其成为覆盖范围最广、规模最大的信息网络。但是,在网络时代,人们在充分享受信息共享所带来的便利的同时,也不可避免的受到了“垃圾信息”、“有毒信息”的困扰,如何帮助人们在面对庞大的数据海洋时能够去其糟粕、取其精华,成为网络研究领域的一个重要问题。本文所设计的信息过滤系统,主要针对的是网络上的主机所接收到的Web数据,主要的研究工作如下:1.对现有的信息过滤技术进行了探讨分析。本文首先阐述了信息过滤技术的发展

2、历程以及研究现状,介绍了其中主要的关键技术。分析了目前各种信息过滤模型所存在的不足,如过滤准确率差、处理速度慢、灵活性差等。2.对信息过滤系统的样本库提出了优化方案。对于一个信息过滤系统,组织一个完整、可靠、准确的信息样本库上其主要任务之一。因此,本文提出,使用数据挖掘中的聚类分析方法,对样本库进行自动组织、自动分类,减轻系统管理负担,提高运行效率。3.对信息过滤系统的文本归类过程进行了优化。信息过滤的最终目的是确定源信息的性质,以决定是否将其拦截。因此,过滤系统的另一个核心任务就是对比源信息与信息样本。本文提出,将对比过程划分为两个阶段,即确定主题阶段和确定性质阶段。收到源信息后,首先采

3、用数据挖掘中的贝叶斯分类方法确定其主题,然后采用KNN文本分类方法确定其性质。通过这种策略,分阶段的处理收到的源信息,提高系统准确性和灵活性。4.建立基于数据挖掘技术的信息过滤系统框架并进行了设计和实现。以数据挖掘技术和网络信息处理的相关核心技术为基础,提出一种分层次、分策略的网络信息过滤系统框架,给出了该框架的结构。当前,对网络数据的过滤主要是针对web、网络寻呼机等网络应用。因此,本文设计了一种在传输层和应用层分别进行信息过滤的方案,并采用诸如WinsockSPI等相关技术进行了实现。实验表明,该系统能够根据用户的策略,在指定范围或级别下有效的过滤主机所接收到的网络信息。在正确性、可靠

4、性以及过滤效率等方面,有着良好的表现。关键词:信息过滤数据挖掘WinsockSPI聚类分析分类号:TP309lIAbstraetAbstractInternethasdevelopedrapidlyduringthepastyearsanditbecomesthelargestinformationnetaroundtheworld.ButwhenpeoplesharetheconveniencebroughtbyInternet.theharmfulinformationanddatacomesalong诵ththeonesbeneficial.Sothequestionthathoww

5、ecangettheprimepartfromtheabundantdatabasecomestoasandit’sbecomingoneoftheimportantdomaininthenet-techresearch.ThemaintaskoftheInfo-FilteringsystemistopurifythedatapacketfromthewebsitesintheIntemet.AndmostoftheWebsitesorganizetheirdatabythesemi-structuredHtmlpage.Sothisarticlefocusesontheapproache

6、stocheckthewebdatafromInteract.Itcontainsthepointsbelow:1.Theintroductiontothecurrenttechniqueofinformationfiltering.First,itexpoundthedevelopmentofinformationfilteringandthepivotaltechnique.Thearticlealsolistssomedefectsofthecurrentinformationfilteringsystemincludesthebadveracity,thelowrate,theba

7、dagilityandsoon.2.Bringingthenewschemeforward.oneofthemostimportanttaskoftheinformationfilteringsystemistoestablishacorrect,reliableandexactwarehousewhichcontainsthesamples.Thisarticlemakesaschemewhichleadthesyst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。