欢迎来到天天文库
浏览记录
ID:33473963
大小:981.77 KB
页数:74页
时间:2019-02-26
《一个基于web挖掘的信息获取系统设计及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文一个基于Web挖掘的信息获取系统设计及实现姓名:潘静申请学位级别:硕士专业:@指导教师:饶若楠;张保稳20041201上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现上海交通大学学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果除文中已经注明引用的内容外本论文不包含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明本人完全意识到本声明的法律结果由本人
2、承担 学位论文作者签名潘静2日期2005年 1 月 13日上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文保密在 年解密后适用本授权书 本学位论文属于
3、 不保密请在以上方框内打 学位论文作者签名 潘 静 指导教师签名饶若楠 日期2005年 1 月 13日 日期3 2005年 1月 13日上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现一个基于Web挖掘的信息获取系统设计及实现摘要Internet的迅速发展使之成全球信息传递与共享的日益重要和最具潜力的资源人们迫切需要找到这样的工具, 能够从Web 上快速有效的发现资源, 发现隐含的规律性内容, 提高在Web上检
4、索信息利用信息的效率 本文以某单位内部网站中新闻子系统的改造项目为背景该子系统是基于Web挖掘的信息获取系统其任务就是从指定的网站上搜索相关文档把符合系统标准的文档存入本地数据库再把这些文档按一定的分类方法标识为不同的类别并为内部员工提供查询浏览的服务原系统的实现方式比较简单因而导致所抓取Web文档的准确率较低对于所获取文档的分类以人工分类为主代价比较高因此提高Web文档获取的准确率以及对文档自动进行分类/聚类是该子系统的主要目标 本文对实现系统所需要的技术进行了深入的探讨文章的主要内容包括
5、 l简要介绍了数据挖掘和Web挖掘的历史发展技术分类以及目前状况 l深入研究了从Internet上自动获取Web文档的技术以及如何处理Web文档的数据并对一些算法进行改进以符合实4上海交通大学工程硕士学位论文际系统的需求 一个基于Web挖掘的信息获取系统设计及实现l研究并讨论了如何在已获取的Web文档中进一步进行挖掘的相关技术包括分类/聚类的一些算法 l结合实际的项目选择了部分上述所研究的方法将它们应用到系统的设计中并给出了部分的实现以及它们的实验结果 [关键词] Web文本挖掘,
6、搜索引擎,文本预处理,文本分类,文本聚类 5上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现DESIGNANDREALIZATIONOFANINFORMATIONRETRIEVALSYSTEMBASEDONWEBMININGABSTRACTInternet has became the most important and potential resource for transmission and share of global inform
7、ation . Because tremendous and heteromorphic Web information contains a large number of potentially useful knowledge, people are urgent to find such tools, which could discover resources from Web quickly and efficiently and could find regular contents
8、which were hidden in them . With these tools, the efficiency of information , retrievation and utilization could be promoted. This paper is based on a rebuilt project of a news subsystem in the intranet of a company. The subsystem is a
此文档下载收益归作者所有