基于web挖掘的主题搜索引擎网页抓取策略的研究

基于web挖掘的主题搜索引擎网页抓取策略的研究

ID:20850655

大小:2.11 MB

页数:39页

时间:2018-10-17

基于web挖掘的主题搜索引擎网页抓取策略的研究_第1页
基于web挖掘的主题搜索引擎网页抓取策略的研究_第2页
基于web挖掘的主题搜索引擎网页抓取策略的研究_第3页
基于web挖掘的主题搜索引擎网页抓取策略的研究_第4页
基于web挖掘的主题搜索引擎网页抓取策略的研究_第5页
资源描述:

《基于web挖掘的主题搜索引擎网页抓取策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据浙江工业大学硕士学位论文基于Web挖掘的主题搜索引擎网络抓取策略的研究上抓取商品信息,然后把这些商品信息整合起来,方便用户的查询。优酷的搜库网是全球最大的中文付费信息搜索引擎,主要用于视频搜索。搜库网专门针对企业和机构用户提供信息定制服务、集团帐号管理服务。它汇集了各大视频网站的信息,把一个统一的视频检索接口呈现在用户面前。邹志华等人(2006)设计了一个基于wap站点的爬虫系统。该系统能够自主访问wap站点,主要功能是对网页上的内容进行分析,对页面中的文字进行判断。尹江等人(2008)主要探讨了如何对网络爬虫进行效率的优化,他们通过各

2、种数据分析改进了爬虫的搜索策略,并在这个基础上设计并实现了一个全新的爬虫系统。夏诏杰等人(2009)研究了一个关于化学领域的主题爬虫系统。该系统主要运用机器学习算法中的分类器,遍历了一个化学资源网站,然后对整个网站中的资料进行训练和学习。经过最后的实验对比,验证了基于机器学习算法的主题爬虫在爬行的查全率和查准率相比于一般的算法有明显的优势。在国外,对于主题搜索引擎的研究比较深入,有代表性的系统也很多。Elsevier科学公司的Scirus系统是目前全世界影响最大的科学技术主题搜索引擎。它以统一的搜索模式面向用户提供检索服务,力求全面深入地收集科

3、学领域内的信息。它主要利用自身的资源来整合网上拥有科学价值的资源,汇集了很多科学信息。主要包括了科技报告、会议论文、科学论文、专业文献等。Researchlndex系统是NFC研究所建设的一个学术论文数字图书馆,它是基于自动索引机制的。它是计算机科学领域的一个重要检索工具,涉及语音识别、机器学习、元搜索引擎、人脸识别、神经网络等,对检索PDF文件格式的学术论文非常方便,CBP项目是美国国家科学数字图书馆的重要项目。它主要通过机器创建大规模的在线数字图书馆,试图证明资源在某一主题上自主建设的可能性。即使用户输入的主题关键词很少,系统也能将有用的信

4、息呈现在用户面前。BurnerM等人(1997)提出了IntemetArchivd系统。在该系统中,每台计算机中的爬虫同时爬行多个站点,而同一站点下的资源将会被分配到同一台计算机进行抓取。系统首先从本地计算机上得到相应的列表,然后使用异步IO方式对网页进行请求,最后对其中URL进行下载。该URL的存储位置也是由抓取的计算机所决定的。Diligenti等人(2000)研究并实现了一种基于上下文图的主题爬虫系统。该系统的特点是利用构建的上下文图来计算当前网页与目标网页之间的距离,距离的远近决定了链接优先级。Aggarwal等人(2001)在人工智能

5、技术的基础上实现了一个主题爬虫系统。它利用设定好的分类器来引导主题爬虫,从而进行在线增量的自主学习。在搜索万方数据浙江工业大学硕士学位论文基于Web的主题搜索引擎网络抓取策略的研究过程中,系统具有很好的适应性,在系统预先指定的函数的指引下,爬虫会在自主学习的基础上不断地自动爬取相关网页。BoldiP等人(2004)提出了UbiCrawler分布式爬虫系统。该系统拥有良好的可移植性和可扩展性。它对故障处理能力较高,对错误有较高容忍度。LeeHsin-Tsang等人(2008)提出了IRLBOT主题爬虫系统。该系统可扩展性极强,主要用于处理大量数据

6、的抓取工作,可以对数以亿计的网页进行爬取。1.4本文研究的主要内容本文主要研究主题网络爬虫相关的搜索策略、主题相关性的判定算法、网络资源的挖掘方法、网页文本的提取解析等,在学习了主题型搜索引擎设计思想的基础上,着重研究主题搜索引擎中的搜索算法、网络主题爬虫的设计,并针对Best.First搜索算法中不足,提出了改进的搜索算法,对网络爬虫在搜索过程中的“贪婪程度”进行控制,将非贪婪策略和分布式算法引入网络爬虫的链接选择机制,以避免网络爬虫过早陷入Web搜索空间中局部最优子空间的陷阱,在页面的查全率上作进一步的改进,提高搜索结果的准确率和召回率。主

7、要的难点有:(1)中文搜索引擎的分词技术。中文分词涉及到具体的语义环境。同一句子在不同的上下文环境中,可能有不同的切分形式。如何更好的消除歧义也是尚待解决的难点。(2)传统搜索算法中经常遇到的“主题漂移”问题和“隧道穿越”问题。“主题漂移”是指随着抓取得到的资源与主题越来越不相关,发生了漂移。“隧道穿越"是指通过与主题不相关的资源发现相关资源的过程。这两个问题经常影响到搜索引擎的查全率和查准率。尽可能得使传统Best.First搜索算法得出的“局部最优解"尽量变成“全局最优解”。网络爬虫在搜索时如何权衡“立即回报"价值和“未来回报”的关系,获得

8、最大的“综合价值”是本文研究的重点。1.5本文的组织结构第一章,绪论。首先介绍主题搜索引擎的主题网页抓取策略的研究背景和意义,对其国内外研究现状进行了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。