基于hadoop的电信大数据平台安全研究

基于hadoop的电信大数据平台安全研究

ID:31359254

大小:106.50 KB

页数:6页

时间:2019-01-09

基于hadoop的电信大数据平台安全研究_第1页
基于hadoop的电信大数据平台安全研究_第2页
基于hadoop的电信大数据平台安全研究_第3页
基于hadoop的电信大数据平台安全研究_第4页
基于hadoop的电信大数据平台安全研究_第5页
资源描述:

《基于hadoop的电信大数据平台安全研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的电信大数据平台安全研究  【摘要】以BAT为代表的互联网公司及OTT企业对电信运营商传统业务的冲击,传统电信运营商收入和业务发展增速放缓,产业结构升级面临关键窗口机遇期,对大数据的运营能力直接关系着企业今后的发展。由于电信数据特有的真实性、敏感性,数据安全已成为制约大数据运营和发展的关键因素。论文在介绍了电信运营商如何采用Hadoop构建大数据平台支撑大数据运营的基础上,给出了一种保障数据安全的解决方案。  【关键词】大数据;电信运营商;数据安全;Hadoop  1引言  随着移动互联网的兴起,以BAT

2、为代表的互联网公司和OTT企业对电信运营商传统业务的冲击越来越大,产业结构升级面临关键窗口机遇期,通过大数据技术可以有效提升精准营销水平和客户感知,对大数据的运营能力直接关系着运营商今后的发展。  由于电信数据特有的真实性、敏感性,数据安全已成为制约运营商运用大数据的关键因素。本文在介绍了运营商如何采用Hadoop构建大数据平台支撑大数据运营的基础上,给出了一种保障数据安全的解决方案。  2电信大数据的特点  电信运营商拥有大量网络侧、用户侧的数据,具有非常高的商业价值。电信大数据具备几个明显的特点。6  (1)真实性、

3、敏感性。电信运营商拥有海量用户真实的信息,这类数据属于敏感数据,必须保证数据安全。  (2)数据量大。用户每时每刻都在产生大量的通话、短信、流量、业务等数据,同时网络侧也在时刻产生大量数据,数据量在TB级别。  (3)数据种类多。电信运营商拥有海量结构化的业务数据,海量半结构化的网络数据,海量非结构化的图片、语音、视频数据,数据种类繁多。  (4)商业价值高。通过对电信大数据进行整体的分析和挖掘,提取出有价值的部分应用于提升精准营销水平、提升客户感知、提升数据服务能力等方面,提升企业竞争力。  (5)低密度。大数据具备低

4、密度这一特性,只有经由审慎的挖掘,才会解析得来实用特性的潜在信息,供应最佳价值。  3大数据平台面临的数据安全挑战  随着大数据时代的到来,电信运营商都在从网络侧、业务侧搜集大量的数据进行分析,并且基于分析的结果做出决策。由于电信数据特有的真实性、敏感性,数据安全保护已成为衡量运营商大数据运营能力的关键因素。  基于Hadoop的大数据平台常见的安全隐患有几点:(1)如何强制所有接入大数据平台的客户端上的用户及应用进行验证;(2)如何确保服务不是流氓服务冒充的;(3)如何实现基于属性的访问控制或基于角色的访问控制;(4)

5、怎么才能将大数据平台跟已有的企业安全服务集成到一起;(5)如何控制谁被授权可以访问、修改和停止MapReduce作业;(6)如何加密静态数据。6  4基于Hadoop的安全大数据平台设计  采用开源软件Hadoop+Hive+Impala+Kerberos+Sentry架构构建电信大数据平台,提供海量数据的存储、计算服务,服务电信大数据运营。其中,Hadoop负责整个大数据平台数据的存储和资源的管理,Hive适合于长时间的批处理查询分析,Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验

6、证想法的大数据分析工具,选择Kerberos作为Hadoop的认证机制,通过Sentry可以在用户操纵Hive和Impala时进行安全控制。  保障Hadoop数据安全主要包括七个部分:数据保护措施、网络安全、系统安全、存储安全、计算引擎设计、授权中心、客户端。  4.1数据保护措施  在数据入大数据平台之前,明确数据隐私保护策略,充分考虑企业的隐私政策、相关行业规定及政府法规等因素,明确企业中需要进行安全保护的数据,同时根据数据的敏感程度进行安全等级划分。对于已经存储在大数据平台中的数据,需要全面梳理和核实是否有安全系

7、数高的敏感数据。明确业务分析是否需要访问纳入安全保护的数据,或此类数据“脱敏”后能否使用。然后选择合适的敏感信息遮挡和加密等矫正技术。  4.2网络安全  考虑到大数据的安全问题,大数据平台采用环形网络拓扑结构部署在企业的DCN网中,采用万兆防火墙进行访问控制,只有经过授权的用户才可以访问。  4.3系统安全6  采用开源集群监控工具Ganglia进行大数据平台的系统性能指标采集。采用开源网络监视工具Nagios进行大数据平台告警。  4.4存储安全  采用NameNode主备的配置,主备节点可以在不影响业务使用的情况下

8、1~2秒内完成自动切换,避免单点故障问题。数据保存3个副本,分散存储在大数据平台的不同节点上。选择合适的加密算法采用大数据技术进行数据加密。NameNode元数据定时备份到备份服务器上面,同时配置大数据平台垃圾回收站,确保数据可以在一定时间内可以恢复。  4.5计算引擎设计  采用统一资源调度框架YARN进行大数据平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。