欢迎来到天天文库
浏览记录
ID:24191785
大小:53.00 KB
页数:4页
时间:2018-11-13
《关于主题搜索引擎下爬取技术探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、关于主题搜索引擎下爬取技术探究-->第一章绪论1.1论文背景随着互联网的迅速发展,网络对我们的影响已经越来越大。网络信息资源的急剧增长使得越来越多的信息涌到人们的面前,而搜索引擎便成为帮助人们从浩瀚的信息海洋中获取自己想要信息的有效工具和一种举足轻重的网络应用手段。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。作为搜索引擎的基础和组成部分,网络爬虫正发挥着举足轻重的作用。网络爬虫影响着搜索引擎的查准率(precision)和查全率(recal
2、l),决定了搜索引擎数据容量的大小,而直接影响搜索引擎返回结果页面中死链的个数。随着应用的深化和技术的发展,网络爬虫也越来越多的应用于站点结构分析、页面有效性分析、的FocusedCrawler等等。国内的研究与国外相比还处于一个初步发展阶段,主要侧重于整个系统功能的实现,在领域主题搜索上研究的层次还很浅,如:STIP系统、南京大学的IDCTS北大天网主题搜索。3.3实验分析.........32-333.3.1实验数据和分类.........323.3.2评测标准.........32-333.3.3实验结果.....
3、....333.4本章小结.........33-35第四章基于动态隧道技术.........35-464.1主题爬行算法.........35-374.1.1基于内容分析的爬行.........35-364.1.2基于链接分析的爬行.........36-374.1.3两类爬行算法.........374.2主题漂移问题的.........37-394.2.1BFS算法的改进.........37-384.2.2新算法中的链接.........38-394.3主题孤岛问题分析.........39-454.3.1主题孤
4、岛问题.........39-404.3.2现有爬行算法.........40-424.3.3解决主题孤岛.........42-45-->>4.4本章小结.........45-46第五章主题爬虫设计.........46-605.1Nutch简要分析.........46-485.1.1Nutch结构.........46-475.1.2Nutch工作流程.........47-485.2主题搜索引擎设计.........48-535.2.1系统总体框架.........485.2.2系统主要模块.........4
5、8-505.2.3系统实现方案.........50-535.3实验平台与运行环境.........53-545.3.1系统部署.........535.3.2运行环境.........53-545.4系统测试与分析.........54-595.4.1测试方案.........54-555.4.2测试结果.........55-595.5本章小结.........59-60结论基于对主题搜索引擎中爬虫的爬取技术的研究,本文采用新的网页去噪算法和爬行算法,在Inter上实现了一个爬取军事类网站页面的主题爬虫系统,并有效提
6、升了主题搜索引擎的性能。总结论文的工作,主要包括了以下五个方面:1)分析了当前国内外主题搜索引擎的研究现状,指出了目前国内在研究主题搜索引擎的核心主题爬行算法上主要存在的问题与不足。2)系统研究了通用搜索引擎和主题搜索引擎的结构和工作原理,总结了主题爬虫所采用的各种爬行算法的优缺点。其中对两种典型的爬行算法一FishSearch和PageRank做出了详尽介绍。3)在对网页文本表示等理论分析的基础上,提出了一种基十标签属性的网页去噪算法,并以聚类分析实验验证了本算法的有效性。
此文档下载收益归作者所有