搜索研究论文-聚类系数,小世界,交通,网络搜索

搜索研究论文-聚类系数,小世界,交通,网络搜索

ID:22294023

大小:53.50 KB

页数:10页

时间:2018-10-28

搜索研究论文-聚类系数,小世界,交通,网络搜索_第1页
搜索研究论文-聚类系数,小世界,交通,网络搜索_第2页
搜索研究论文-聚类系数,小世界,交通,网络搜索_第3页
搜索研究论文-聚类系数,小世界,交通,网络搜索_第4页
搜索研究论文-聚类系数,小世界,交通,网络搜索_第5页
资源描述:

《搜索研究论文-聚类系数,小世界,交通,网络搜索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、搜索研究论文-聚类系数,小世界,交通,网络搜索聚类系数,小世界,交通,网络搜索1网络论坛分析为了整合多个论坛中的信息就需要对多个论坛的信息进行分析并抽象出共同的特征。目前,绝大数论坛都是由板块和帖子构成,即若干主题相关的帖子聚合形成板块,若干板块聚合构成论坛。每个论坛中的帖子地址和板块地址都具有相同的URL地址格式。帖子的URL地址显示了该帖子的内容;而板块的URL地址显示的是帖子标题列表,由于一个板块具有多个帖子,所以往往要划分为多个页面来显示,所以这里的板块URL地址是第一页,通过翻页地址可以链接到该板块的下一页。以“采购经理人论坛”网站为例,帖子的

2、URL地址格式如下:/?mod=viewthreadtid={articlEid}extra=page%3D{nextPage?Id}。其中{articleld}是帖子的数字编号,{nextPageld}是翻页地址的数字编号,即当前板块的页面编号。板块的URL地址的格式如下:/?mod=forumdisplayfid={boardid}。其中{boardid}是板块的数字编号。板块翻页URL地址的格式如下:/?mod=forumdisplayfid={boardld}page={nextPageld},这里的{boardld}是板块的数字编号而,{nex

3、tPageld}是板块的页面编号。因此,本文认为一个论坛可以通过论坛名称、论坛首页地址、板块地址格式、帖子地址格式、板块翻页地址格式等来描述,从论坛首页地址出发可以找出所有与板块地址格式相匹配的板块地址,再从板块地址出发就可以找到所有与帖子地址格式相匹配的帖子地址,最后由帖子地址即可以得到帖子所包含的信息。2论坛爬虫设计论坛爬虫分析论坛爬虫的主要任务是从某个论坛的首页地址出发下载该论坛的所有帖子。它涉及到的三个实体类分别为:论坛实体、板块实体和帖子实体,与之对应的JavaBean对象分别为:SiteBean、BoardBean、ArticleBean,具

4、体分析如下:SiteBean是对论坛基本信息的封装,其属性包括论坛名称、论坛地址、板块地址格式、帖子地址格式、翻页地址格式。在数据库中使用Sitelnfo数据表来存放SiteBean实体类。BoardBean是对板块信息的封装,其属性包含了板块编号、板块名称、板块地址、帖子列表、论坛地址。这里的articleList是一个数据类型为LinkedList的集合。在数据库中使用Boardlnfo数据表来存放BoardBean实体类。ArticleBean是对帖子信息的封装,其属性包括帖子地址、帖子标题、帖子编号、发表时间、保存时间、帖子标识、所属板块、所属论

5、坛。其中visitedFlag字段表示帖子的处理状态,当visitedFlag=O时表示当前的帖子是新帖子但还未被保存;当visitedFlag==l是表示帖子已经被保存但是还没有被转化为XML文档;当visitedFlag==2时表示该帖子已经加入到索引中处理完毕;当visitedFlag==-l时,表示该帖子的处理失败。在数据库中使用ArticleInfo数据表来存放ArticleBean实体类。论坛爬虫还用到两个非常重要的工具类DownLoader类和HtmlPage类。其中DownLoader类借助于提供的Http协议访问功能,接收一个URL地址

6、作为输入参数,下载该URL地址所对应的网页文件,并将该网页内容封装成HtmlPage类。HtmlPage类则借助于提供的HTML文件解析功能从HTML文件中提取出所需要的内容。HtmlPage类的extractBoardUrl方法以SiteBean对象的boardUr1属性作为板块地址格式,从论坛首页中提取出论坛的板块地址放入BoardBean对象的articleList属性中。抓取板块地址一般而言,论坛的所有板块地址都包含在论坛的首页中,论坛爬虫通过读取论坛首页并匹配板块URL地址格式,可以获取该论坛的板块地址列表。抓取论坛板块地址的过程如图1所示。图

7、1抓取论坛板块地址抓取新帖地址通过读取每个板块的首页地址并匹配帖子URL地址格式及翻页URL地址格式可以获取该板块的所有帖子地址列表。抓取帖子的具体过程如图2所示。在抓取帖子的过程中,为了提高程序运行的效率,在发现新帖后先将新帖的地址保存到Articleinfo数据表中,并将visitedFlag设置为0,等待下载程序的进一步处理。图2抓取论坛中的帖子下载贴子下载程序的功能是将网络论坛中的帖子以html文件的格式保存在本地文件系统中,首先从Articlelnfo数据表中读取所有visit?edFlag==O的记录,并封装成ArticleBean实体类;再

8、使用DownLoader类下载ArticleBean所对应的网页并保存到本地文件

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。