欢迎来到天天文库
浏览记录
ID:33625667
大小:197.98 KB
页数:14页
时间:2019-02-27
《新闻采集(用户需求)》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、实用标准新闻采集发布系统---需求文档精彩文档实用标准目录1引言31.1编写目的31.2项目背景31.3术语说明32项目概述32.1软件的一般描述32.2软件的功能42.2.1功能架构42.2.2功能特点42.2.3功能描述52.3用户特征和水平72.4运行环境72.5条件与限制82.5.1开发工具与技术83功能需求83.1功能划分83.2功能描述93.2.1运行管理93.2.2信息管理93.2.3统计报表93.2.3系统管理94外接接口需求104.1用户界面104.2硬件接口104.3软件接口104.4通信接口104.5故障处理105性能需求115.1数据精确度1
2、15.2 时间特性115.3 适应性116其他需求117数据描述11精彩文档实用标准7.1静态数据117.2动态数据117.3数据库描述117.4数据字典127.5数据采集128附录121引言1.1编写目的信息的自动获取,信息的更新需要大量的人力来完成,而信息自动发布系统能够自动从互联网上获取新的信息,节省了运营的人力成本;丰富IPTV的内容,根据调查,用户最希望IPTV提供的功能是信息浏览(63%)和视音频点播(73%),信息自动发布系统给IPTV提供了信息资讯的内容;互联网上有各种各样的信息资源,但都是根据pc浏览器设计的。而电视上网有各种终端,浏览器各不相同,
3、分辨率不同,支持html、javascript的能力也不同。因此互联网上的内容无法很好的在IPTV的各种终端上显示,需要对互联网上的内容重新组织、编排。1.2项目背景基于现有IPTV平台以及企业信息化应用平台新闻咨询信息全有人工采集,其弊端表现为:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV平台与企业信息化平台)等。基于以上存在的问题,由中国电信成都分公司IPTV项目组发起,由上海帕科软件科技有限公司开发。1.3术语说明IPTV(InternetProtocolTelevision)网络电视 精彩文档实用标准2项目概述2.1软件的
4、一般描述通过新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。本系统对目标网站进行信息自动抓取,支持RSS新闻采集和HTML新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。2.2软件的功能2.2.1功能架构系统功能架构如下图所示:系统主要包括三个模块1.采集引擎模块2.后台管理模块3.门户模块(接口模块)精彩文档实用
5、标准2.2.2功能特点Ø用户对每类信息自定义来源与分类Ø可以下载图片与各类文件,如PDF,Flash等Ø需支持命令行和纯服务格式,可以Windows任务计划器配合,定期抽取目标网站Ø需支持记录HASHCODE等唯一索引,避免相同信息重复入库Ø需支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除Ø需支持多页面文章内容自动抽取与合并Ø数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合Ø需支持数据库表结构完全自定义,充分利用现有系统Ø需支持多个栏目的信息采集可用同一配置一对多处理Ø需提供基于Web的在线内容编辑,可以方便灵活
6、的进行内容调整和预览Ø需保证信息的完整性与准确性,绝不会出现乱码Ø需提供基于XSLT的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面Ø需支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等2.2.3功能描述2.2.3.1新闻采集引擎新闻采集引擎需包括RSS新闻采集和HTML新闻采集两个关键模块,分别负责从两种协议进行采集分析。系统采用基于LUA自定义脚本的方式,提供高效和可维护的信息采集。2.2.3.2新闻采集管理后台2.2.3.2.1新闻科目管理新闻科目管理对所有的新闻进行科目定义,如财
7、经频道、国际新闻、国内新闻等内容。新闻科目支持无限分级,从而可以提供更加人性化的导航和分类。精彩文档实用标准2.2.3.2.2新闻来源管理新闻来源管理对新闻的出处进行管理、如新浪网、上海热线、网易、搜狐等。从而方便统计和管理。新闻来源管理实现新闻来源的添加、删除、更改等功能。2.2.3.2.3新闻采集点管理新闻采集点按照新闻来源导航,提供对各个采集分析点的管理,采集点的内容一般呈现为列表数据,访问为HTML页面内容或者RSS内容,新闻采集点可以设置以下信息Ø采集地址Ø采集类型Ø采集时间间隔Ø分析规则Ø列表分析规则Ø新闻内容分析规则等信息2.2.3.2.4新闻内容
此文档下载收益归作者所有