一个基于web挖掘的信息获取系统设计及实现

一个基于web挖掘的信息获取系统设计及实现

ID:33473963

大小:981.77 KB

页数:74页

时间:2019-02-26

一个基于web挖掘的信息获取系统设计及实现_第1页
一个基于web挖掘的信息获取系统设计及实现_第2页
一个基于web挖掘的信息获取系统设计及实现_第3页
一个基于web挖掘的信息获取系统设计及实现_第4页
一个基于web挖掘的信息获取系统设计及实现_第5页
资源描述:

《一个基于web挖掘的信息获取系统设计及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学硕士学位论文一个基于Web挖掘的信息获取系统设计及实现姓名:潘静申请学位级别:硕士专业:@指导教师:饶若楠;张保稳20041201上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现上海交通大学学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果除文中已经注明引用的内容外本论文不包含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明本人完全意识到本声明的法律结果由本人

2、承担 学位论文作者签名潘静2日期2005年 1 月 13日上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文保密在   年解密后适用本授权书  本学位论文属于       

3、             不保密请在以上方框内打  学位论文作者签名 潘 静       指导教师签名饶若楠 日期2005年 1 月 13日       日期3 2005年 1月 13日上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现一个基于Web挖掘的信息获取系统设计及实现摘要Internet的迅速发展使之成全球信息传递与共享的日益重要和最具潜力的资源人们迫切需要找到这样的工具, 能够从Web 上快速有效的发现资源, 发现隐含的规律性内容, 提高在Web上检

4、索信息利用信息的效率 本文以某单位内部网站中新闻子系统的改造项目为背景该子系统是基于Web挖掘的信息获取系统其任务就是从指定的网站上搜索相关文档把符合系统标准的文档存入本地数据库再把这些文档按一定的分类方法标识为不同的类别并为内部员工提供查询浏览的服务原系统的实现方式比较简单因而导致所抓取Web文档的准确率较低对于所获取文档的分类以人工分类为主代价比较高因此提高Web文档获取的准确率以及对文档自动进行分类/聚类是该子系统的主要目标 本文对实现系统所需要的技术进行了深入的探讨文章的主要内容包括

5、 l简要介绍了数据挖掘和Web挖掘的历史发展技术分类以及目前状况 l深入研究了从Internet上自动获取Web文档的技术以及如何处理Web文档的数据并对一些算法进行改进以符合实4上海交通大学工程硕士学位论文际系统的需求 一个基于Web挖掘的信息获取系统设计及实现l研究并讨论了如何在已获取的Web文档中进一步进行挖掘的相关技术包括分类/聚类的一些算法 l结合实际的项目选择了部分上述所研究的方法将它们应用到系统的设计中并给出了部分的实现以及它们的实验结果  [关键词] Web文本挖掘,

6、搜索引擎,文本预处理,文本分类,文本聚类                5上海交通大学工程硕士学位论文一个基于Web挖掘的信息获取系统设计及实现DESIGNANDREALIZATIONOFANINFORMATIONRETRIEVALSYSTEMBASEDONWEBMININGABSTRACTInternet has became the most important and potential resource for transmission and share of global inform

7、ation . Because tremendous and heteromorphic Web information contains a large number of potentially useful knowledge, people are urgent to find such tools, which could discover resources from Web quickly and efficiently and could find regular contents 

8、which were hidden in them . With these tools, the efficiency of information , retrievation and utilization could be promoted. This paper is based on a rebuilt project of a news subsystem in the intranet of a company. The subsystem is a 

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。