媒立方项目的大大数据平台2018.12.30forcj

媒立方项目的大大数据平台2018.12.30forcj

ID:29185161

大小:38.61 KB

页数:10页

时间:2018-12-17

媒立方项目的大大数据平台2018.12.30forcj_第1页
媒立方项目的大大数据平台2018.12.30forcj_第2页
媒立方项目的大大数据平台2018.12.30forcj_第3页
媒立方项目的大大数据平台2018.12.30forcj_第4页
媒立方项目的大大数据平台2018.12.30forcj_第5页
资源描述:

《媒立方项目的大大数据平台2018.12.30forcj》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、媒立方项目(大数据平台)技术指标项目概述媒立方项目分为大数据平台和传播服务平台两部分,通过利用大数据的技术和计算框架,形成基于全网重点内容的数据仓库以及集团用户阅读行为数据库,并在此基础上进一步发展出适应传统媒体和新媒体融合发展的智能大数据服务体系;同时通过整合打通报刊、网站、APP、微博、微信等的采编发布体系,结合智能大数据服务体系,最终形成适应传统媒体和互联网媒体融合发展的内容生产传播服务平台。项目目标媒立方项目(大数据平台)由内容资源库、用户阅读行为数据库、智能分析服务系统三个部分构成。本项目要求实现对集团媒体资源、国内重要媒体数

2、据资源和UGC资源的统一整合,运用先进的大数据计算存储能力、自然语言分析以及机器学习等技术,建立一个完整的、专业的、易扩展、易管理、规范的内容资源库系统;同时收集集团内容产品线上用户的阅读行为,形成基于集团用户通行证标识体系和基于匿名用户的用户阅读行为数据库;最后基于内容资源库和用户阅读行为数据库形成包含多种服务的智能分析服务系统,融合在各类媒体形态的内容创作、发布、传播、评估等环节中;该平台相应的服务功能需同时具备满足集团媒体业务系统和外部机构用户的两类服务能力。项目需求内容资源库内容资源库负责收集集团媒体生产数据、互联网媒体发布的数

3、据、部分UGC的数据以及相关内容的用户反馈互动数据;经过人工和自动的数据清洗后,形成基于内容可靠性分类、地域分类、舆论场分类这三个维度划分开的内容标签体系;并将在此基础上将内容进行领域划分和主题层次的抽取;为智能分析服务系统提供数据来源和相关支撑。系统包含以下关键需求,请根据需求设计详细方案,如有必要,可以通过原型展现相关设计思路:采集和迁移1、设计稳定合理的全局采集对象列表遍历方案设计稳定高效的国内互联网采集对象遍历方案,用以找出最适合的相关数据资源对象初始列表;同时具备足够的操作性和维护性方便后期的动态列表维护等工作;其中省内遍历颗

4、粒度需要达到县市一级,全国颗粒度以综合领域和垂直领域影响力代表性的采集对象为目标。2、设计稳定的数据采集和入库方案依据采购方认可的全网遍历出的媒体源列表(300万新浪微博账号——100万全局账号和200万浙江活跃、10万微信公众账号、5000个网站论坛、1000个数字报刊、10个移动新闻APP客户端、定向主流微视频网站、定向专业图片类网站、定向百度贴吧内容、集团内部生产相关数据等)进行多维度数据的采集(除内容和内容相关参数之外,微博还应包含人物关注关系数据、局部账号的转发评论数据等;微信还应包含阅读量、点赞量等;网站、数字报刊以及移动新

5、闻app包含所属频道等;集团内部生产相关数据还需要依据内部生产流程和外部传播过程拿到所有除以上维度外的其他数据)、清洗和入库。其中数字报刊的图片、部分定向数据来源的图片、集团内部生产相关数据富媒体元素需采集到本地,其余媒体类型的富媒体元素只需采集相关链接;基于以上采集和入库时间(见下文性能要求中的描述)的要求,设计合理稳定高效的数据采集方案,确保数据快速稳定的进入内容资源库。数据加工1、数据加工服务设计三轮数据加工服务体系,将非结构化数据通过大数据技术和自然语义分析完成结构化处理。首轮ETL通过一定的人工参与达到如下目标:按照数据来源新

6、闻可靠性(政经党媒、商业媒体、机构自媒体、一般UGC)、地域性(省份地区、省内县市)、舆论立场(官方媒体立场、商业机构立场、草根网民立场)三个维度进行数据分类;第二轮ETL依据采集的数据和自然语义分析自动完成领域分类的目标:参照新闻门户网站频道财经、体育、娱乐、汽车、房产、旅游等这个层次的颗粒度;第三轮ETL通过利用深度神经网络和相关大数据计算自动完成文章主题层次的抽取(在领域基础上进一步细分);通过以上三轮ETL,完成将非结构化的内容数据标签化处理,形成结构化的特征抽取,为后续进一步大数据分析奠定基础。其它要求1、数据管理中心根据以上

7、内容资源库的需求建立面向管理员使用的数据管理中心;实现数据的报警、监控、审计、安全、维护等管理功能;需考虑移动端使用场景的需求。2、性能要求数据采集入库时效性要求总体采用分级约定的原则,核心层级的采集目标需实现分钟级实时性响应,其余层级的约定参考如下:集团内部生产相关数据实时采集;内部新闻线索(96068新闻爆料)分钟级别数据同步;微信公号、网站、论坛等平均20分钟以内;数字报刊60分钟以内;新浪微博100万全国重点用户平均15分钟以内和省内活跃用户平均60分钟;数据计算要求:满足PB级别数据量的离线大数据计算要求;内容仓库的访问并发要

8、求:不低于5000用户。3、便捷性和扩展性要求设计合理的架构满足后期数据源扩展、数据分类扩充、ETL过程变化等引起的平台迭代需求。4、数据安全性要求设计合理的数据安全性架构方案,融合体现在硬件架构的方案中;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。