欢迎来到天天文库
浏览记录
ID:34271027
大小:269.50 KB
页数:55页
时间:2019-03-04
《基于主题的web信息采集技术研究精选》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于主题的Web信息采集技术研究目 录第一章 引言……………………………………………………………………………….11.1背景...11.2本文安排...2第二章 Web信息采集概述………………………………………………………………42.1Web信息采集系统的基本原理...42.2Web信息采集系统的基本结构...42.3Web信息采集面临的主要困难和相应的技术手段:62.4采集系统实例...8第三章 Web信息采集的研究现状………………………………………………….....113.1基于整个Web的信息采集...113.2增量式Web信息采集:123.3基于主题的Web信息采集
2、:123.4基于用户个性化的Web信息采集...133.5基于Agent的信息采集...143.6迁移的信息采集...153.7基于元搜索的信息采集:153.8小结...15第四章 基于主题的Web信息采集基本问题研究………………………………… ...174.1基于主题的Web信息采集的定义...174.2基于主题的Web信息采集的优点...174.3基于主题的Web信息采集的分类...184.4主题页面在Web上的分布特征...194.5相关性判别算法研究...21第五章 基于主题的Web信息采集系统模型及我们的对策……………………… ...375.1系统模型...3
3、75.2模型中的关键问题及我们的策略...37第六章 主题选择………………………………………………………………………...416.1主题的定义...416.2主题分类目录...416.3Web上的主题分类目录的特点...426.4主题选择策略...42第七章 Spider采集……………………………………………………………………447.1Spider的系统模型...447.2采集算法及实现...45第八章 页面分析……………………………………………………………………...…498.1HTML语法分析...498.2页面中正文的提取...498.3页面中链接的提取...508.
4、4页面中标题的提取...51第九章 URL、页面与主题的相关性判定…………………………………………...…5291URL与主题的相关性判定——IPageRank算法...539.2页面与主题的相关性判定——向量空间模型算法...56第十章 系统的实现与总结…………………………………………………………...…5810.1系统实现情况...5810.2系统测试结果...58103进一步的工作...6210.4结论...62参考文献 …………………………………………………………………………………...64致 谢 ………………………………………………………………………………
5、…...68作者简介……………………………………………………………………………………69 第一章 引言1.1背景随着Internet/Intranet的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的WWW(WorldWideWeb)技术,以其直观、方便的使
6、用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。截止到2000年7月,Internet上的网页数量就已经超过21亿,上网用户超过3亿,而且网页还在以每天700万的速度增加[徐泽平2001]。这给人们的生活提供了丰富的资源。然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需要的信息。因而基于WWW的网上信息的采集、发布和相关的信息处理日益成为人们关注的焦点。为此,人们发展
7、了以Web搜索引擎为主的检索服务。为了解决网上信息检索的难题,人们在信息检索领域进行了大量的研究,开发了各种搜索引擎(如Google、Yahoo)。这些搜索引擎通常使用一个或多个采集器从Internet上收集各种数据(如WWW、FTP、Email、News),然后在本地服务器上为这些数据建立索引,当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息[Bowman1994]。作为这些搜索引擎的基础和组成部分,Web信息采集正发挥着举足
此文档下载收益归作者所有