试析基于web内容挖掘的网页分类与过滤研究与应用

试析基于web内容挖掘的网页分类与过滤研究与应用

ID:34829896

大小:1.66 MB

页数:66页

时间:2019-03-12

试析基于web内容挖掘的网页分类与过滤研究与应用_第1页
试析基于web内容挖掘的网页分类与过滤研究与应用_第2页
试析基于web内容挖掘的网页分类与过滤研究与应用_第3页
试析基于web内容挖掘的网页分类与过滤研究与应用_第4页
试析基于web内容挖掘的网页分类与过滤研究与应用_第5页
资源描述:

《试析基于web内容挖掘的网页分类与过滤研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学硕士学位论文基于Web内容挖掘的网页分类与过滤研究与应用姓名:彭希鸿申请学位级别:硕士专业:计算机应用技术指导教师:费洪晓20030301硕士学位论文摘要万维网(w珊)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂丽庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从硼w上发现他们感兴趣的资源。已经成为一个迫切需要解决的课题。根据中南大学校园信息港建设目标,我们设计和开发了CSUIItWD(中南大学信息港Web挖掘)系统。通过CSUIItWD对那些感兴趣的网页进行采集、过滤处理后,

2、自动按主题归类,在中南大学信息港网站发布。CSUItr嗣D补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUII{WD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术避行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。CSUIl4W1)由CsuRobot执行弼页数据的采集,CsuRobot是

3、一个类似予网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词润题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。最后对本文的工作进行了总结,并确定了以后进一步研究方向。关键字:数据挖掘,Web挖掘,分词,分类,网络机器入堡主堂垡堡苎AbstractCurrently.WWWistreme

4、ndouswideglobalinformationalservicecenter,Whichinvolvesinnews,financeandeconomics,ad,commerce,culture,educationandotherinformationservice.ManyusersfeeltheirsabilitynotequaltotheirsambitionwhentheyfacecomplexhugeWWW.Howtohelpusersfindtheir’sbeinginterestedinresourceshasbeenacryforso

5、lvedtask.TheauthorhasdesignedanddevelopedCSUIHWDsystembasingonCentralSouthUniversitycampusinformationharbor’sconstructingaim.ByusingCSUIHWDtogatherwebpagesonwebsitewhichusersareinterestedin,afterfittertheseswebpages,classthemautomaticallybasedonthedefinedtopics,thendistributethesec

6、lassedwebpagesonCSU(CentralSouthUniversity)webportal.ByCSUIHWD,supplyingCSUwebportalwithadditionalresources,greatlyutilizingresourceininternet,andlayingastabilefoundationforfurtherconstructingChineseintelligentsearchengine.Thispaperfirstlyintroducessomedataminingandwebmining’sbasec

7、oncepts,waysandtechniques,expoundswhatisdataminingandwebmining,whyneedsmining,andmining’sadvantage.Atthesametime,thispaperalsointroduceswebpagesclassing-·filteringtechniqueandCSUIHWDsystemprototype·Thenstudyingthekeytechniqueofwebpagescontentclassingmining,Gatheringwebpagesdata,seg

8、mentationandbuildingclassi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。