信息资源整合平台_爬虫

信息资源整合平台_爬虫

ID:39614801

大小:54.00 KB

页数:14页

时间:2019-07-07

信息资源整合平台_爬虫_第1页
信息资源整合平台_爬虫_第2页
信息资源整合平台_爬虫_第3页
信息资源整合平台_爬虫_第4页
信息资源整合平台_爬虫_第5页
资源描述:

《信息资源整合平台_爬虫》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、信息资源整合平台二期开发应用解决方案V3.0拟制人______________________审核人______________________文档修改记录版本号拟制/修改内容拟制/修改人日期3.0拟制方案设计初稿2015-06-151概述为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。为满足需求对如下栏目进行调整:l网站管理l爬取资源规则l资源分类规则l搜索配置管理l搜索引擎l文件类型管理l资源搜索服务(爬虫)l资源订阅管理2功能模块2.1网站管理为了解决爬虫对FTP站点的爬取资源问题,

2、系统对FTP站点管理及维护。2.1.1FTP站点类型???1.1.1FTP站点管理FTP站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:lFTP站点名称lFTP站点类型l站点属性l是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)l站点地址(Web站点为URL、FTP站点为IP地址)l站点端口l站点账号l账号密码l站点说明FTP站点信息管理模块具体包括以下功能点:l新增FTP站点l修改FTP站点l删除FTP站点l查询FTP站点(按照站点名称、属性、类型进行条件查询)1.1.2FTP资源管理FTP资源信息管理面向管理员提供全系统范围

3、内资源的管理与维护功能。资源包括以下基本信息:l资源名称(文件名,含文件类型)l资源类型l原始地址l获取时间l资源大小l资源说明l资源路径资源信息管理模块具体包括以下功能点:l查询资源(按照资源名称、类型、站点及来源进行条件查询)l上传资源l修改资源信息l删除资源l下载资源1.1模块自定义显示管理为了便于在系统首页灵活切换模块显示,系统实现如下管理:1.1.1资源类别管理资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:l添加资源类别l删除资源类别l修改资源类别l修改资源排列l资源查看资源类别主要显示信息:l资源类别父级l资源名称l资源是否在首页显示1.1

4、.1首页主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:l展示栏目模块l展示资源下载排行l展示文件类型模块l查询资源主要显示内容:l资源名称l获取资源时间l资源分类l资源文件类型1.1搜索引擎不清楚1.2资源搜索服务(爬虫)为提高资源搜索服务的速度及准确进行如下调整:1.2.1资源信息乱码为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。1.2.2资源文件重复为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别

5、,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。1.2.3爬取网站二级域名识别爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。1.1.1对FTP站点的爬取管理员通过FTP站点管理对FTP站点的地址、用户名、密码及端口的定义,实现对FTP站点的资源进行爬取。1.1.2对Web站点穿插FTP站点的资源链接爬取爬虫程序分为WEB站点和FTP站点,但实际中WEB站点中穿插着FTP链接的资源,为了满足爬取WEB站点

6、时也能下载FTP站点资源信息的需求。爬虫爬取WEB站点能切换到FTP站点的资源爬取。1.1.3获取资源信息不下载资源文件爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。1.1.4对在线视频资源的识别爬虫主要识别A标签中Href链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。1.1.5对JS资源的识别爬虫不能识别JS命令,为了解决该问题,虫爬系统通过搜索配置添加JS命令及Js参数名称,实现查找资源链接,解决

7、对JS资源识别。1.1搜索配置管理搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS资源爬取问题。主要功能有:l添加搜索配置l删除搜索配置l修改搜索配置l查看搜索配置每一条搜索配置主要显示内容:l站点名称l站点地址l在线视频链接参数lJS命令lJS参数1(参数2,参数3…)1.2爬取资源规则为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。