欢迎来到天天文库
浏览记录
ID:33545921
大小:517.18 KB
页数:73页
时间:2019-02-27
《一个基于web挖掘的信息获取系统设计及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文一个基于Web挖掘的信息获取系统设计及实现姓名:潘静申请学位级别:硕士专业:@指导教师:饶若楠;张保稳20041201上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现上海交通大学学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果除文中已经注明引用的内容外本论文不包含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明本人完全意识到本声明的法律结果由本人承担学位论文作者签名潘静日期2005年1月13日2上海交通大学工程硕士学位论文一个基于W
2、eb挖掘的信息获取系统设计及实现上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文保密在年解密后适用本授权书本学位论文属于不保密请在以上方框内打学位论文作者签名潘静指导教师签名饶若楠日期2005年1月13日日期2005年1月13日3上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现一个基于Web挖掘的信息获取系统设计及实现
3、摘要Internet的迅速发展使之成全球信息传递与共享的日益重要和最具潜力的资源人们迫切需要找到这样的工具,能够从Web上快速有效的发现资源,发现隐含的规律性内容,提高在Web上检索信息利用信息的效率本文以某单位内部网站中新闻子系统的改造项目为背景该子系统是基于Web挖掘的信息获取系统其任务就是从指定的网站上搜索相关文档把符合系统标准的文档存入本地数据库再把这些文档按一定的分类方法标识为不同的类别并为内部员工提供查询浏览的服务原系统的实现方式比较简单因而导致所抓取Web文档的准确率较低对于所获取文档的分类以人工分类为主代价比较高因此提高Web文档获取的准确率以及对文档自动进行分
4、类/聚类是该子系统的主要目标本文对实现系统所需要的技术进行了深入的探讨文章的主要内容包括l简要介绍了数据挖掘和Web挖掘的历史发展技术分类以及目前状况l深入研究了从Internet上自动获取Web文档的技术以及如何处理Web文档的数据并对一些算法进行改进以符合实4上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现际系统的需求l研究并讨论了如何在已获取的Web文档中进一步进行挖掘的相关技术包括分类/聚类的一些算法l结合实际的项目选择了部分上述所研究的方法将它们应用到系统的设计中并给出了部分的实现以及它们的实验结果[关键词]Web文本挖掘,搜索引擎,文本预处理,
5、文本分类,文本聚类5上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现DESIGNANDREALIZATIONOFANINFORMATIONRETRIEVALSYSTEMBASEDONWEBMININGABSTRACTInternethasbecamethemostimportantandpotentialresourcefortransmissionandshareofglobalinformation.BecausetremendousandheteromorphicWebinformationcontainsalargenumberofpotentia
6、llyusefulknowledge,peopleareurgenttofindsuchtools,whichcoulddiscoverresourcesfromWebquicklyandefficientlyandcouldfindregularcontentswhichwerehiddeninthem.Withthesetools,theefficiencyofinformation,retrievationandutilizationcouldbepromoted.Thispaperisbasedonarebuiltprojectofanewssubsysteminthe
7、intranetofacompany.ThesubsystemisaretrievalinformationsystembasedonWebMining.AnditsmaintaskistosearchforrelateddocumentsfromspecifiedWebsites.Aftergettingdocumentsinaccordancewithsystemstandards,thesubsystemputsthemintodifferentclassesandthenprovid
此文档下载收益归作者所有