欢迎来到天天文库
浏览记录
ID:34829896
大小:1.66 MB
页数:66页
时间:2019-03-12
《试析基于web内容挖掘的网页分类与过滤研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文基于Web内容挖掘的网页分类与过滤研究与应用姓名:彭希鸿申请学位级别:硕士专业:计算机应用技术指导教师:费洪晓20030301硕士学位论文摘要万维网(w珊)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂丽庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从硼w上发现他们感兴趣的资源。已经成为一个迫切需要解决的课题。根据中南大学校园信息港建设目标,我们设计和开发了CSUIItWD(中南大学信息港Web挖掘)系统。通过CSUIItWD对那些感兴趣的网页进行采集、过滤处理后,
2、自动按主题归类,在中南大学信息港网站发布。CSUItr嗣D补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUII{WD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术避行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。CSUIl4W1)由CsuRobot执行弼页数据的采集,CsuRobot是
3、一个类似予网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词润题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。最后对本文的工作进行了总结,并确定了以后进一步研究方向。关键字:数据挖掘,Web挖掘,分词,分类,网络机器入堡主堂垡堡苎AbstractCurrently.WWWistreme
4、ndouswideglobalinformationalservicecenter,Whichinvolvesinnews,financeandeconomics,ad,commerce,culture,educationandotherinformationservice.ManyusersfeeltheirsabilitynotequaltotheirsambitionwhentheyfacecomplexhugeWWW.Howtohelpusersfindtheir’sbeinginterestedinresourceshasbeenacryforso
5、lvedtask.TheauthorhasdesignedanddevelopedCSUIHWDsystembasingonCentralSouthUniversitycampusinformationharbor’sconstructingaim.ByusingCSUIHWDtogatherwebpagesonwebsitewhichusersareinterestedin,afterfittertheseswebpages,classthemautomaticallybasedonthedefinedtopics,thendistributethesec
6、lassedwebpagesonCSU(CentralSouthUniversity)webportal.ByCSUIHWD,supplyingCSUwebportalwithadditionalresources,greatlyutilizingresourceininternet,andlayingastabilefoundationforfurtherconstructingChineseintelligentsearchengine.Thispaperfirstlyintroducessomedataminingandwebmining’sbasec
7、oncepts,waysandtechniques,expoundswhatisdataminingandwebmining,whyneedsmining,andmining’sadvantage.Atthesametime,thispaperalsointroduceswebpagesclassing-·filteringtechniqueandCSUIHWDsystemprototype·Thenstudyingthekeytechniqueofwebpagescontentclassingmining,Gatheringwebpagesdata,seg
8、mentationandbuildingclassi
此文档下载收益归作者所有