人工智能实验报告:主题爬虫设计与实现

人工智能实验报告:主题爬虫设计与实现

ID:5405982

大小:281.86 KB

页数:16页

时间:2017-12-10

人工智能实验报告:主题爬虫设计与实现_第1页
人工智能实验报告:主题爬虫设计与实现_第2页
人工智能实验报告:主题爬虫设计与实现_第3页
人工智能实验报告:主题爬虫设计与实现_第4页
人工智能实验报告:主题爬虫设计与实现_第5页
资源描述:

《人工智能实验报告:主题爬虫设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、成绩北京航空航天大学人工智能实验报告:主题爬虫设计与实现学院浙江工业大学交换生专业方向计算机科学与技术学生姓名指导教师北京航空航天大学计算机学院2014年6月主题爬虫的设计与实现一、引言互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具,但是这些通用性搜索引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果,包含大量用户不关心的网页。所以需要一个能基于主题搜索的,满足特定需求的网络爬虫。为了解决上述问题

2、,参照成功的网络爬虫模式,对网络爬虫进行研究,提供满足特定搜索需求的网络爬虫。二、实验设计1.实验要求1)可以进行多线程进行抓取;2)可以进行面向主题进行抓取;3)可以分辨重复的的网页内容;4)可以计算主题相关性;5)可以处理网络延时等待的处理;1.实验环境配置1)系统硬件环境:LENOVO-G470IntelCore(TM)i3-2330M@2.20GHz2)操作系统环境:Windows8.1专业版3)实验配置环境:JavaSEDevelopmentKit7Update45;EclipseKepler;MySQLServe

3、r5.6;2.实验方案设计1)广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于主题爬虫中,基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。2)深度

4、优先搜索策略深度优先搜索策略是一种在开发网络爬虫早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。当不再有其他超链可选择时,说明搜索已经结束。3)最佳优先搜索策略最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将

5、最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。1)主题相关度建模–向量空间模型向量空间模型是由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学[1]。向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点,通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。对于任一文档,我们可以把它表示为如下t

6、维向量的形式:其中,向量分量代表第i个标引词在文档中所具有的权重,t为系统中标引词的总数。在布尔模型中,的取值范围是;在向量空间模型中,由于采用“部分匹配”策略,的取值范围是一个连续的实数区间[0,1]。在检索的前处理中,一篇文档中会标引出多个不同的标引词,而这些标引词对表达该篇文档主题的能力往往是不同的。也就是说,每个标引词应该具有不同的权值。如何计算文档向量中每个标引词的权值,不仅关系到文档向量的形成,也关系到后续的检索匹配结果。  标引词权重的大小主要依赖其在不同环境中的出现频率统计信息,相应的权重就分成局部权重和全局

7、权重。  局部权重(LocalWeight)是按第i个标引词在第j篇文档中的出现频率计算的权重。它以提高查全率为目的,对在文档中频繁出现的标引项给予较大的权重。全局权重(GlobalWeight)则是按第i个标引词在整个系统文档集合中的分布确定的权重。它以提高查准率为目的,对在许多文档中都出现的标引项给予较低的权重,而对仅在特定文档中出现频次较高的标引项给予较大的权重。计算全局权重的典型方法就是逆文档频率IDF(InverseDocumentFrequency)加权法:其中,N为系统文档总数,为系统中含有标引词的文档数。向量

8、间相似程度的度量方法有内积法(InnerProduct)、Dice法(DiceCoefficient)、Jaccard法(JaccardCoefficient)和余弦法(CosineCoefficient)。  较常用的度量方法是提问向量和文档向量间的内积法,其计算公式如下:  其中,是检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。