新华网云计算方案

新华网云计算方案

ID:82889431

大小:2.38 MB

页数:239页

时间:2023-09-24

上传者:灯火阑珊2019
新华网云计算方案_第1页
新华网云计算方案_第2页
新华网云计算方案_第3页
新华网云计算方案_第4页
新华网云计算方案_第5页
新华网云计算方案_第6页
新华网云计算方案_第7页
新华网云计算方案_第8页
新华网云计算方案_第9页
新华网云计算方案_第10页
资源描述:

《新华网云计算方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

新华网云计算数据中心建设方案浪潮集团互联网行业部2016年7月版本创建时间更新内容创建人V201607257月25日李伟V201608058月5日1、修改了3.3.1总体架构设计李伟

12、修改了3.8PAAS平台方案设计总体设计;3、修改了3.9大数据方案设计;4、修改了3.10云应用方案设计;5、增加了3.6存储方案设计増加统一存储资源规划设计;6、修改了3.12.3系统安全(操作系统、数据库系统)7、增加了3.7网络资源规划;8、增加了7.5网络虚拟化选型;

21项目服务总体架构描述81.1系统现状与分析81.1.1现状分析81.2系统总体需求91.2.1业务需求101.2.2功能需求121.2.3性能需求161.2.4安全需求161.2.5关键技术需求202需求分析212.1计算资源分析212.2存储资源分析222.3资源管理分析242.4PAAS平台分析242.5大数据分析252.6安全分析252.7现有设备分析283总体方案设计313.1建设目标313.2建设原则313.3总体方案设计333.3.1总体架构设计333.3.2总体功能设计343.4资源池分区规划363.4.1资源池分区逻辑架构363.4.2容量性能测算38

33.1计算资源规划设计393.1.1计算资源池化设计39

43.5.3计算资源部署设计453.5.4服务器利旧分析533.6存储资源规划设计543.6.1全新分布式对称架构563.6.2安全的数据冗余策略583.6.3缓存加速技术603.6.4远程复制功能613.6.5新建分布式存储系统容量性能计算分析613.7资源管理规划设计713.7.1云平台部署973.7.2虚拟化对接983.7.3物理机对接983.7.4Ceph对接993.7.5AD域对接993.7.6公有云对接1003.8PAAS平台方案设计1013.8.1弹性运行环境1023.8.2基础服务1043.8.3中间件服务1103.8.4开发/测试/生产环境统ー管理1153.8.5管理中心1153.8.6第三方服务接入适配器1173.8.7开放服务接口1183.9大数据方案设计错误床定义书签。3.9.1分布式计算引擎错误!未定义书签。3.9.2分布式并行数据库错误!未定义书签。3.9.3分布式内存数据库服务错误侏定义书签。3.9.4流式计算服务错误味定义书签。3.9.5分布式消息总线服务错误抹定义书签。

53.6云应用方案118

63.6.1云应用建设错误!未定义书签。3.6.2已建系统上云迁移错误味定义书签。3.7安全方案设计1323.7.1安全域戈リ分1393.7.2网络安全1393.7.3系统安全(操作系统、数据库系统)1413.7.4平台安全(虚拟化系统、云管理平台)1453.7.5数据生命周期安全1483.7.6应用安全1503.7.7API接口安全1524公有云方案设计1534.1京东云简介1534.2京东基础云服务简介1534.3京东基础云产品功能列表1544.3.1弹性计算1544.3.2网络1554.3.3负载均衡1554.3.4存储1564.3.5云数据库1564.3.6云缓存1574.3.7CDN1574.3.8云安全1574.4京东数据云整体架构1584.5京东数据云产品功能列表1601.1.1数据迁移1611.1.2DBUS1621.1.3云存储/云数据库1631.1.4数据计算平台163

71.1.1数千エ坊1661.1.7万象1724.6京东数据云产品核心优势1734.7京东公有云与浪潮云管平台对接方案1745运维管理方案设计1765.1系统管理1765.2资源管理1765.3混合云管理1775.4业务管理1815.5智能监控1815.5.1多维度资源监控与管理设计1815.5.2业务监控和故障分析设计1825.5.3分布式监控架构设计1845.6运维管理1865.6.1多租户管理1865.6.2角色权限访问控制1875.6.3自动化运维1885.7安全管理1895.7.1威胁情报分析1905.7.2安全审计1916运营管理方案设计1966.!云月艮务交付1966.2计费管理设计1967产品选型1997.1服务器选型1997.1.1资源分类1997.1.2配置方案2107.1.3推荐配置2117.2存储选型2137.3安全设备选型2147.4虚拟化选型2157.4.1虚拟化技术原理215

87.4.3InCloudSphere4.0旗舰版简介2187.4.4推荐配置2237.5云管理平台选型2237.6PAAS平台选型2297.7大数据选型2317.8配置总表错误味定义书签。7.8.1虚拟化服务器报价错误侏定义书签。7.8.2大数据服务器报价错误味定义书签。7.8.3PaaS服务器报价错误味定义书签。7.8.4存储报价错误味定义书签。7.8.5安全设备报价错误侏定义书签。7.8.6私有云报价错误!未定义书签。7.8.7PASS平台报价错误抹定义书签。7.8.8大数据报价错误味定义书签。7.8.9合计错误!未定义书签。8方案总结2368.1运营效率2368.2服务水平2368.3数据中心的绿色节能2378.4如何专注自身业务2378.5总体拥有成本(TC〇)2378.6可靠性2378.7扩展性2388.8管壬里,性238

9项目服务总体架构描述1.1系统现状与分析1.1.1现状分析IT资源类型特点描述数量小计WEB前端服务器例如nginx,openresty服务器。易耗CPU,内存需求小,对磁盘大小及性能要求不高。需要挂载glusterfs,NAS存储。需要放在DMZ区86缓存服务器例如vanish服务器。除了对内存需求较大,对其他资源需要不多。需要放在DMZ区。84中间件服务器例如weblogic、tomcat等应用服务器。对cpu要求不高,内存需要偏大,对磁盘空间及性能要求不高。有些需要挂载glusterfs,NAS存储,有些不需要挂载。放在内网区域即可。215应用服务器例如图片工具、消息队列等。通常对cpu,内存,磁盘没有特别需求,需求可大可小,对磁盘性能要求不高。放在内网区域即可。411数据库服务器1型例如mysql、orak)e对cpu、内存、磁盘性能、网卡性能都需要较多资源。对磁盘大小需求不多。有些需要挂载glusterfs,NAS存储,有些不需要挂载。放在内网区域即可。139数据库服务器2型例如redis、mongodb除了对内存需求较多之外,对其他资源需求不多。放在内网区域即可。155存储服务器1型例如glusterfs,fastdfs,通常需要多组服务器做分布式存储,用于NAS、对象存储。对磁盘性能、磁盘大小要求较高。放在内网区域即可。10存储服务器2型例如华为fushionstorage6800等中高端第三方存储设备,用于提供NAS、SAN存储。4网络设备出口路由器:华为NE20E-S16核心、汇聚交换机:华为S12700、华为S12800系列接入交换机:华为S572058

10负载均衡设备例如F5,A10等第三方硬件负载均衡设备14安全设备主要是一些外围边界型软硬件设备4PC物理机总计1600虚拟机总计1000操作系统总计2600新华网当前系统架构如下图所示,各业务系统的IT资源及管理都相对孤立,没有统一的资源管理平台体系。LinuxWindows关・任务目前新华网的IT发展概况是:主要基于IDC机房建设,多使用物理硬件,部分使用kvm虚拟化,具备资源管理、监控与部署能力,并初步具备ー些运维自动化能力,但在资源整合云化、高效智能化、流程服务化等诸多方面需要弥补加强。随着未来业务的高速发展与IT环境的复杂多变,这将对我们IT资源的协调与管控能力带来巨大挑战。因此我们有必要对云计算进行调研与落地实施,从总体架构体系层面提高IT环境的管理能力。1.1系统总体需求

111.1.1业务需求新华网业务系统符合主流网站架构,如下图所示示例:如前文所述,各个业务系统对应的主要IT资源如下分类:>前端服务器>缓存服务器>中间件服务器>应用服务器>数据库服务器>存储服务器>网络设备

12>负载均衡设备>安全设备根据前文所述的我网业务现状,对这些业务功能属性进行分类,得出如下几类业务,并根据各类业务系统的特点提出对云平台的需求如下:>技术支撑类业务需要云平台进行资源整合与优化,兼容及抹平硬件多样性差异,将各类平台资源(如计算资源,存储资源,网络及安全资源)进行统ー整合,统一管理,统ー调配。>基础业务类需要云平台提供良好的应用类资源环境,例如大数据平台环境,消息系统平台,中间件系统等平台环境(提供包括例如系统、接口、库包、地址等)。能够很好地支持业务基础类资源环境的调配和编排,能够快速灵活地部署以及流程控制。>报道支撑类业务需要云平台提供较好地高可靠,高可用架构,有力保障报道支撑类系统平台的稳定可用。在高并发、突发异常访问压カ下,云平台能够针对此类系统进行快速的资源伸缩,平滑的系统迁移。>社交应用类业务需要云平台对此类平台进行快速灵活地资源伸缩,能够有效抵抗DDos等恶意攻击,能够灵活有效地做好IT安全的查、防、控。需要云平台的资源能够在私有云与公有云之间进行有效、平滑的迁移。>运营服务类业务需要云平台在提供常规的IT资源的情况下,能够有力保障系统的内外安全。并能提供的相关必要的组件、API接口(如短信接口、支付接口)。>应急定制开发类业务需要云平台具有高效地资源分配与自助能力,具有良好地多用户资源隔离控制功能,具有丰富灵活地系统资源组件及调配能力。需要云平台的资源能够在私有云与公有云之间进行有效、平滑的迁移。

13>基础设施类业务系统需要能够很好的兼容并利用现有IDC基础设施资源(包括例如商业存储、网络安全设备、堡垒机、负载均衡设备),能够很好地兼容并利用现有的各类运维管理系统。>大数据业务系统针对大数据服务,由于其技术架构具有大批量、数据量大、吞吐量大的特点,因此计算资源需要有较强的横向扩展能力、容错能力,对本地磁盘容量以及网络带宽的要求非常高,建议采用配置大容量本地硬盘的机架式服务器作为计算资源。1.1.1功能需求1.1.1.1架构及虚拟化功能需求>平台架构虚拟化平台采用裸金属架构充分利用IntelVT和AMD-V的硬件虚拟化技术,支持!ntel扩展页表技术;可以直接安装在服务器硬件设备上,可以直接管理硬件资源。需保障后续产品的连续性;并具备在后续根据业务需要进行定制开发的能力。具有友好易用的管理(界面)工具。>资源池化与集中管理实现计算资源池化、存储资源池化、网络资源池化,并对池化资源进行统一管理,功能强大与稳定。具备良好的横向扩展能力和软硬件兼容性。>集群功能虚拟化软件支持多级集群,支持部分服务器组成物理集群,并在物理集群中将ー些同型号的服务器组成HA资源集群,以便于服务器的统一管理。>资源在线调整提供虚拟机资源在线动态调整,根据实际需要修改虚拟机的属性,包括vCPU个数、内存大小、硬盘数量和网卡个数。122.2管理功能需求为了便于应用服务器的虚拟化系统运维管理,满足日常维护、监控的要求,虚拟

14化管理需要提供以下功能:>基本功能虚拟化管理系统是ー款基于云计算解决方案的产品维护系统,需要提供系统监控、资源管理和系统配置管理三大部分组成。支持包括逻辑拓扑监控、告警与事件管理、系统监控、虚拟资源管理、系统配置、用户管理、操作日志查询和License信息管理等功能。>开放接口虚拟化软件须提供开放的API接口,封装底层云资源的统ー操作,便于上层管理平台统ー调度管理。>硬件自动发现服务器与运维管理系统连通后,虚拟化软件支持自动发现服务器的配置信息,包括:名称,位置,管理IP,BIOS,CPU主频、个数,内存大小,硬盘容量,网卡个数,网ロ个数。>生命周期管理支持虚拟机生命周期管理,包括创建虚拟机,销毁虚拟机,虚拟机的日常操作,迁移虚拟机,修复虚拟机,虚拟机快照,虚拟机资源调整。支持指定一个或多个虚拟机,可以启动/唤醒、安全重启、强制重启、休眠、安全关闭、强制关闭虚拟机。>权限管理支持管理员角色的增、删、改、查功能。管理员可以通过角色定义出不同的权限组合,方便在维护过程中对不同用户授予不同的权限。支持管理员分权分域的管理:支持创建不同的域,然后将集群和域关联,并分配给不同的管理员,从而实现资源的分域管理。在分配管理员权限的时候,可以配置不同的权限,限制管理员只能在允许的域内进行允许的操作。>拓扑管理支持统一拓扑图,提供一个拓扑界面呈现全系统的所有资源信息。可以了解计算、存储、网络以及虚拟资源的逻辑视图。获取硬件资源(计算硬件、存储硬件、网络硬件)、应用部署情况(例如,数据库服务器部署在哪台虚拟机上,虚拟机位于哪台主机上)、虚拟机属性。拓扑节点支持与告警关联,支持呈现对象当前的监控状态。

15>监控管理监控管理支持对云资源(计算资源,存储资源,虚拟资源)使用情况以及当前状态进行集中全面监控。监控管理支持将历史监控数据导出来。对于系统的软硬件资源可以通过仪盘表的视图方式呈现。支持对集群、物理服务器、虚拟机的实时监控。>应用自动化部署支持应用自动化部署,用户可以通过已发布的模板进行应用的自动部署,系统支持ー键式部署,用户通过简单的系统提示可以非常方便的部署自己的应用。支持服务编排与服务调配相关功能,能够提供良好的多租户管理,资源编排管理与自助化服务。3.2.2.3.兼容性与扩展性功能需求应用服务器、存储、操作系统来自不同厂家,虚拟化软件兼容性与扩展性需要满足:虚拟化平台支持主流设备厂商提供的X86服务器,支持基于业界标准的IPMI接口的硬件设备。虚拟化平台支持主流设备厂商提供的IPSAN、FCSAN存储设备。虚拟机平台支持主流的X86架构的操作系统,包括WindowsServer2003/2008R2及以上版本服务器操作系统,WindowsXP>Windows7操作系统,Redhat、SUSE、CentOS,中标麒麟、Ubuntu、Fedora等多个发行版本的Linux操作系统。对于新添加的物理服务器后,该服务器能被虚拟机管理平台自动发现,并加入到统ー管理的虚拟化资源池中使用。升级物理服务器的配置后(如增加CPU、内存等资源的数量后),能够自动发现并将新增的资源加入到统一管理的虚拟化资源池中,统ー调配使用。支持平滑增加存储设备、磁盘框,磁盘,并加入到统ー管理的存储虚拟化资源池中使用。1.2.2.3可靠性功能需求>冗余备份恢复为了保障业务的连续性,虚拟化软件关键的管理节点/服务器支持做到主备冗余,支持管理节点的管理数据定期自动备份,以便出现重大事故导致管理数据丢失时,可以利用备份的数据进行恢复。支持实时监控所有软件进程状态,重启状态异常的进程。>冷热迁移支持手工/自动虚拟机HA功能,把虚拟机从故障的服务器上迁移至正常的服务器。

16支持虚拟机热迁移功能;可以在不停机的状态下,手工或自动地实现VM在集群之内的不同物理机之间迁移,保障业务连续性。支持存储热迁移功能:支持虚拟机正常运行时,虚拟机的卷迁移至其他存储单元中,可以在存储虚拟化管理下的同一个存储设备内、不同存储设备之间进行迁移。支持存储冷迁移功能:支持虚拟机关机情况下,虚拟机的卷迁移至其他存储单元中,可以在存储虚拟化管理下的同一个存储设备内、不同存储设备之间进行迁移。>资源复用支持资源复用功能。可以自动根据可设置的条件将这台虚拟机的部分内存、CPU等资源释放出去归还到虚拟资源池,以供系统再分配给其它虚拟机使用。>路径冗余服务器和存储设备之间支持配置多条冗余的路径。1.2.3性能需求>虚拟机性能要求支持开源的X86虚拟化技术,虚拟机相对于同规格物理机,性能损耗应小于10-20%支持云主机秒级创建和批量部署每台虚拟机能够支持2000并发连接>存储性能要求磁盘类型性能盘单盘最高6000IOPS和170MB/SI/O吞吐量容量盘提供500IOPS和48MB/SI/O吞吐量云主机磁盘能提供1500IOPS和80MB/S吞吐量>网络性能要求云主机网络类型带宽(Mpbs)基础网络1000统一虚拟网络子网600

171.2.3安全需求(一)云平台外层防护需求1.通过硬件防火墙设备制定有效的边界访问控制策略,防火墙本身并具备防病毒和!PS等安全防御模块;2.能够对DOS攻击力量进行清洗,并将安全流量引回到网络中;3.未知威胁检测能够发现大量未知威胁,对本地网络中的流量进行全量检测和记录,所有网络行为都将以标准化的格式保存,并结合发现的威胁情报对网内已经发生和正在发生的未知威胁进行发现;4.网络流量分析监控对网络流量和主机性能进行实时分析和监控云平台整体服务质量;5.综合审计进行主机、数据库等审计,实现审计范围覆盖到服务器和重要客户端上的每个操作系统用户和数据库用户6.VPN«实现安全外网用户登录和安全的数据加密传输;7.堡垒机对系统运维人员进行授权访问限制和统一密码托管,对运维操作进行记录和审计。8.漏扫实现主机系统和web应用的漏洞扫描,并能生成报表和给出解决建议;(二)云平台内部防护需求1.实现云内部边界重塑,确保各业务系统重新树立安全边界,在安全边界处实施安全防护措施,对外界信息进行业务隔离,当本域发生安全问题以及外界发生安全问题时,保证不影响其他业务系统的运行,同时也能够不受其他业务系统的影响,稳定、安全、高效的持续运行;2.实现云平台中的逻辑隔离区域,在根据区域和应用不同划分多个VxLAN,不同VxLAN之间通过访问控制规划信息流向,隔离广播,限制不是必需的和非法的访问;3.实现软件定义安全资源,为了保证云计算弹性扩展、灵活调度、按需分配的特点,需要建立安全资源池,保证安全资源池不能成为云环境下的单点故障,保证安全资源池符合云计算的特性,能够弹性扩展、按需分配、灵活调整,保证安全资源池能够被统一管理,并在管理平台发生故障时,能够不影响安全资源的具体工作,保证业务系统的安全运行。

181.提供安全资源池依托云平台安全管理软件和硬件服务器实现。统一部署管理运行安全资源,根据业务的安全需求,按需部署安全防护设备与安全检测设备。安全资源池根据防护类型,可以分成串行安全资源池与旁路安全资源池。2.实现串行防护能力系统,通常指防火墙、!PS,WAF等设备,通过虚拟化建设,将其迁移到云环境中来,让其更符合云计算特点,更好的为云环境服务。3.实现旁路防护能力系统,通常指IDS审计、病毒防护中心、日志分析中心等设备,通过虚拟化建设,也将其迁移到云环境中来,让其更符合云计算特点,更好的为云环境服务。4.实现虚拟镜像管理节点,该组件部署在业务系统的宿主机上,与旁路安全资源池分离,但它是旁路安全资源池的数据引流者、提供者,通过它的相关工作,最终实现云内的流量检测与审计。5.实现在每台宿主机上部署虚拟镜像管理节点,通过该管理节点实现对虚拟交换机上的数据进行镜像、监控、引流等操作,通过相关配置操作,将数据内容发送到旁路安全资源池的IDS、网络审计等检测能力提供者,由他们完成具体功能的实现和具体问题的检测与告警。6.虚拟镜像管理节点应至少实现对虚拟交换机的数据镜像、对虚拟交换机的镜像引流、对镜像数据统计、分析、对镜像数据的管理、控制等功能。7.实现虚拟桌面安全病毒防御功能。以轻代理,单点集中查杀,避免反病毒风暴:本地引擎加载实例个数可设定,并发查杀任务数可调控:集中管理机制,优化查杀效率,避免重复查杀;配合私有云引擎和可开关的公有云引擎,有效提高查杀カ;提供对安全虚拟机专有病毒防护;8.实现云环境内的安全问题进行统ー监控,统ー管理,对安全策略进行统ー配置与调整,建立统ー的安全资源管理监控运维平台。当发生安全问题时,能够提供告警信息,明确说明告警的设备以及与之相关业务系统,并提供基于业务视角的整体安全监控,展示业务域之间的访问、流量、告警、安全防护状态等信息。9.实现安全资源管理监控运维平台的可视化展现层:提供人机交互界面,可视化的对安全进行智能化、自动化管理;10.的安全业务应用:为已创建的安全域提供安全设备所支持的应用服务,包括

19如:安全域资产状态监控、边界流量行为分析、旁路安全功能管理入口、串行安全功能管理入口等;1.实现安全资源管理监控运维平台的安全域边界安全管理:基于虚拟化资产、虚拟网络拓扑和安全资源的信息提供对安全域边界安全策略的统一管配;2.实现安全资源管理监控运维平台的安全资源池管理:提供对安全资源池和连接在安全资源池上的安全设备的管理功能;3.实现安全资源管理监控运维平台的虚拟化环境管控代理:提供从虚拟化环境获取信息和修改虚拟化环境配置的功能;4.实现安全资源管理监控运维平台的安全域边界流量管控代理:将安全域边界对应的安全策略转换为流量管控命令,通过SDN控制器、导流虚拟机等导流设备的控制接口统一下发。5.实现向安全资源管理监控运维平台提供安全域安全检测和防护设备(应用)的统ー管理接口,可以让用户在已创建的安全域上选择需要配置的安全设备(应用),并以安全域为管理对象,提供统ー的安全管理和配置入口。6.实现云安全资源管理监控运维平台通过对云管理中心的实时事件监测,为安全管理人员提供可视化的安全域边界物理拓扑变化(如虚拟机创建、挂起、迁移或其它网络配置变化等)预警,并可根据策略提供自动化的或交互式的响应处理。7.安全资源管理监控运维平台至少实现创建容器的资源控制策略、调整容器的资源控制策略、创建虚拟安全资源、创建虚拟安全资源的冗余措施、虚拟安全资源的冗余部署、安全资源的集群化等。(三)云安全应用需求1.实现云平台对新华网内部运维人员以及外部租用用户的虚拟安全防火墙的策略服务。在云系统中各业务系统之间、云平台和其他系统之间使用防火墙策略进行隔离,根据业务实际需求开放相应端口。可查看防火墙日志进行审计等。2.实现云平台对新华网内部运维人员以及外部租用用户的安全登录服务。管理员在运维审计系统中配置用户和相应权限,用户通过运维审计系统登录仅能登录授权的

20服务器,同时可配置策略禁止用户使用某些命令,在用户使用中或登录后,可对用户操作进行审计,自动切断进行非法操作的用户连接。1.实现云平台对新华网内部运维人员以及外部租用用户的主机系统漏洞扫描服务。按照客户需求,定时或手动对主机系统进行漏洞扫描,发现操作系统中的安全漏洞,并划分不同等级,以报表形式呈现给用户。2.实现云平台对新华网内部运维人员以及外部租用用户的系统补丁服务。根据官方推出的操作系统补丁服务,根据客户选择方式,针对客户操作系统,推荐部分补丁或者自动进行安装升级,以实现安全更新或者功能更新。实现云平台对新华网内部运维人员以及外部租用用户的虚拟桌面杀毒服务。针对有桌面虚拟化需求的用户,提供底层的安全杀毒服务,保护虚拟桌面的安全,为用户提供良好的使用体验。1.2.5关键技术需求1、云平台需要解决已有服务器如何利旧与兼容性问题。2、新华网已有一些商业第三方集中存储(SAN/NAS),也有开源分布式存储(glusterfsjastdfs),因此云平台需要考虑如何利旧与兼容现有存储环境。3、云平台需要统一管理公有云和私有云,需要混合云内部平滑对接。4、云平台需要支持多租户,对于不同区域资源做到灵活划分与安全隔离。5、云平台需要统ー的运维及运营管理平台。具备成本分摊、运营监控及统计、安全审计、流程工单、资源编排与调配等功能。6、云平台具有良好扩容机制,能够灵活方便地进行平台扩展与扩容。2需求分析2.1计算资源分析目前新华网业务的主要虚拟化的配置如下:IT资源类型建议云虚拟环境虚机需求数量vcpu内存内)本地磁盘(G)WEB前端服务器1010100172缓存服务器432100168

21中间件服务器616200430应用服务器48200822数据库服务器1型832200278数据库服务器2型432200310虚机资源汇总2180所需物理机数量预估210台通过对上述各个类型的业务对云平台的需求分析,未来的云平台将达到如下承载目标:>日常运营业务需要逐步迁移到云平台系统中,以获得更好的系统环境支撑。>未来新上线业务系统需要部署到云平台中。以更好地管理和支撑新业务新华网云计算平台需求系统。>对于业务变更需求需要快速灵活地相应、具有很好地扩展伸缩机制。>对业务系统需要有很好地安全防护机制、同时避免对业务系统资源的大量消耗。>对业务系统要有良好的应急灾备机制,有力保障业务系统的高可用、高可靠。>对业务系统从创建到回收整个生命周期有很好地流程管控、运行监控、统计分析、经济核算机制。>能够很好地映射当前!DC环境基础设施环境,并充分融合兼容当前IDC环境。如负载均衡,中间件、数据库、大数据等环境能够很好地部署映射到云平台中。

222.1存储资源分析目前新华网存储需求如下:IT资源类型特点描述WEB前端服务器易耗CPU»内存需求小,对磁盘大小及性能要求不高。需要挂载glusterfs,NAS存储。需要放在DMZ区缓存服务器除了对内存需求较大,对其他资源需要不多。需要放在DMZ区。中间件服务器对cpu要求不高,内存需要偏大,对磁盘空间及性能要求不高。有些需要挂载glusterfs,NAS存储,有些不需要挂载。应用服务器通常对cpu,内存,磁盘没有特别需求,需求可大可小,对磁盘性能要求不高。关系型数据库服务器对cpu、内存、磁盘性能、网卡性能都需要较多资源。对磁盘大小需求不多。有些挂载glusterfs,NAS存储,有些不需要挂载。非关系型数据库服务器除了对内存需求较多之外,对其他资源需求不多。中低端存储通常需要多组服务器做分布式存储,用于NAS、对象存储。对磁盘性能、磁盘大小要求较高。高端存储中高端第三方存储设备,用于提供NAS、SAN存储。针对新华网目前的需求,针对每ー项需求给出分析针对需求的第1、2点,目前存储容量基本已经饱和,集群增加节点已经超过了当前Fastdfs和GlusterDFS的扩展能力,增加容量难度较大。FastDFS是ー款轻量级的分布式存储,理论上对容量扩展是支持的,在线添加节点即可,但是实际上在目前新华网扩容是较为困难的,因为运维压カ大,且数据重新平衡速度极慢,严重影响了存储系统性能。第3点,当前FastDFS和GlusterDFS在开源社区已经逐渐淡出主流文件系统范畴,运维和技术的更新难以得到保障。而目前开源的存储主要面向对象存储如ceph和lustre等为主,并且专业的分布式存储系统已经相当成熟,在开源架构的基础上自主研发了更多的高级功能和针对性的调优。第4点,客户运维工程师当前主要精力在于业务端保障,而针对开源分布式文件系统如FastDFS和ClusterDFS是没有太多精力去保障运维和更新技术。急需ー套强壮的,易维护的专业存储系统来满足当前业务压カ大,不断扩展的需求。第5点,当前新华网存储资源相对独立分散,集群之间难以做到资源整合统ー,故运维难度大,且使用起来不方便。后期新华网的存储空间将进行池化,对分布式nas层存储做统一管控和部署,

23资源按照用户所需进行配额管理,无需担心底层存储空间划分等。并且新系统可以和老系统做复制和数据迁移功能,业务逐渐在2017年开始割接,完成新老存储平台切换。针对第6点,目前文件系统数据多采用双副本或者三副本方式存储,存储容量占用较多,空间浪费较大。目前分布式存储系统主要保护数据的方式是副本,但是保证数据冗余的同时存储空间也面临了巨大的浪费,目前纠删码方式的数据保护可以为存储数据带来可靠性保护,同时也能节省大量的存储空间。第7点,当前客户目录文件管理相对难度较大,一旦打开目录,直接卡死,原因是目录文件过大,已经超过了文件系统承受的文件数范围内。Gluster或者FastDFS的架构决定了小文件数量增多后遍历目录的时间会非常的长,目前采用元数据与数据分离的对象存储架构能够优化这ー情况,针对小文件性能进行提升。

24客户,6ACDN服务器负釵均衛F5LVS等反向代理服务器防火墙应用集群服务器图片服务器文件服务器致括阵服务器分砧式。M族GG»g“SFattOfS上图为目前新华网业务端系统拓扑示意图,图片、音频、视频等非结构化数据都存储在分布式存储系统GlusterFS和FastDFS上,针对以上涉及问题,进行了较为细致的分析。综上,目前新华网存储系统面临系统运维难度大,管理相对复杂,数据量增长速度已经超过了目前存储系统扩展能力,针对小文件的压カ没有更好的应对方式,数据多以副本形式存储,容量浪费较大,同时缺乏对接云平台和大数据分析等接口API等问题。2.1资源管理分析新华网前期已采购大量IDC设备,涉及的厂家比较复杂,初步具备一些运维自动化功能,但在资源整合云化、高效智能化、流程服务化等诸多方面需要弥补增加。根据用户业务类型,针对技术支撑类、基础业务类、报道支撑类、社交应用类、运营服务类、应急定制开发类等业务类型需要统ー的云管理平台进行管控运维,需要云平台提供高可用、高并发的稳定架构,并且能够进行高效的资源分配与字服务编排,考虑到与共有云的对接,云平台能够很好地管理混合云架构,实现私有云与公有云的资源迁移。2.2PAAS平台分析目前新华网应用系统多采用传统封闭开发架构搭建,存在信息孤岛、建设标准不统ー、交付周期长、重复建设、成本居高不下等诸多建设问题,形成应用与运行支撑环境难以分割的状态,并且缺乏系统与支撑环境弹性伸缩能力,造成了运维管理门槛高、运

25维成本高居不下、对各应用建设厂商依赖性强的严重问题;同时如何快速应对“互联网+”带来的用户量和数据量激增也对新华网信息化建设提出了新挑战。2.1大数据分析目前新华网实现了系统所涉及到的业务数据、人员数据、单位数据等结构化及部分半结构化数据的存储与管理,但仍存在不足之处。一方面采用传统文件方式存储,存在性能和安全隐患;再ー方面,尚未有效开展部门内外部业务数据、社会协作部门信息数据及互联网数据等采集与整合,不利于大数据分析、挖掘与有效利用,阻碍了数据应用创新及专题分析。考虑到新华网现有数据处理的困惑和未来对大数据分析挖掘能力的需求,新华网需搭建一个能支撑数据全生命周期建设的大数据平台,为新华网提供从数据采集、存储、计算、分析到服务应用的能力支撑,满足新华网大数据处理及应用创新需求。2.2安全分析随着云计算的迅速崛起,云安全也越来越备受业界的重视。云安全联盟CSA发布的《2016年十二大云安全威胁》报告给出了十二种云安全的严重威胁:数据泄露、凭证被盗和身份验证如同虚设、界面和API被黑、系统漏洞利用、账户劫持、恶意内部人士、APT寄生虫、永久的数据丢失、调查不足、云服务滥用、拒绝服务(Dos)攻击、共享技术,共享危险。这些威胁主要发生在企业用户在进行数据存储和业务交互过程中,绝大多数的云安全严重威胁都与数据安全相关。可见,数据安全对于云计算安全面言是不可回避的问题,必须在信息安全管理体系标准(ISO27001)下采用体系化建设思想、多层次的安全技术来保障云用户的数据安全。同时,使信息化安全建设满足等级保护、分级保护、SOX、企业内部控制基本规范等法律法规的要求。结合当前国内外云计算发展及新闻网络媒体系统安全的现状,分析新华网云安全建设目前所面临的主要风险,如下:(-)新华网的安全现状新华网在建设初期考虑了包括负载均衡(例如F5,A10等第三方硬件负载均衡设备)和外围边界型的安全产品(主要是一些外围边界型软硬件设备),但是无法满足多架构云平台的建设现状,在整体安全建设架构中存在一定的滞后性。并且,部分边界网络设备可以依然进行利旧使用,但是其服务时间需要进行延长。本方案在结合当前云计

26算发展现状前提下,对新华网原有安全进行调整或完善。(二)云外层基础建设需求新华网云安全建设仍离不开外层传统的安全防护需求,如防火墙、IPS、防DDOS攻击、VPN、漏洞扫描等防护设备,对来自云平台外层的网络攻击行为采取及时地发现、检测、隔离、阻断等安全措施,部署物理隔离、逻辑隔离(防火墙)、入侵检测/防御、漏洞扫描、运维监控类安全保护设备,使新华网系统与网络系统避免遭受不必要的攻击。同时,对设备的单点故障、线路单链路故障、网络数据传输风险等安全因素都需要加以考虑。主机软件系统的安全需求:对于网络设备、安全保护设备、应用系统、服务器系统等缺乏操作系统升级、安全优化增强、补丁扫描、管理和修复等相关措施,这些操作系统存在弱点漏洞,容易被非法分子利用攻击,造成重大损失。(三)云平台内部需求分析在新华网云平台安全方面,确保云平台的自身健壮性、高可用性,以及避免云平台资源滥用是方案建设的根本需要,同时,还应实现云平台的业务隔离、区域隔离,以及对资源池的安全防护和审计等。因此安全需求包括:ー是云PMI设施缺失问题。目前局域网授权技术,难以支持云用户身份管理和业务授权需求。二是云应用数据资源的所有者和管理者分开导致所有权和控制权分离,“两头管理”出问题后如何界定职责。三是全程应用访问控制问题。目前局域网单点访问控制技术,难以支持以应用服务为中心的网络层、计算层、程序层的全程信息流管控和追责需求。四是高稳定高性能支持问题。云应用服务的性能和稳定性要求极高,当前缺乏能够与上层应用、下层虚拟计算资源联动的高性能负载均衡安全产品。五是数据安全问题。2016年度,国际云安全联盟提出十二大云安全威胁均与数据安全相关。尤为关注:数据丢失,数据泄漏,数据更改,内部人员越权看数据、偷数据、毁数据等。传统数据安全手段不支持新的云数据安全需求,原因是:均从单点考虑,无法满足以数据安全为中心的全程式信息流追责和管控的安全需求;涉密数据管控面向用户端数据防泄露,不支持云端数据防泄露;数据库安全加固不支持非结构化数据库和高性能文件系统等安全加固;数据容灾备份不支持海量

27大数据双活备份。鉴于此,可利用云数据集中模式特点,解决传统难以解决的安全问题;跨域数据交互问题、涉密数据集中管控和手持警务终端丢失问题。(四)云安全应用与运维需求通过对新华网云安全应用和运维的了解,云平台环境的复杂度、海量数据和高度虚拟化动态性使得云平台安全管理更为复杂,带来了新的安全管理挑战,如下所述;一是系统安全管理。系统安全管理要做到以下:1)漏洞、补丁及配置管理,以上成为维护云平台系统安全的必须手段:2)高效的入侵检测和事件响应;3)人员安全管理,需要采用基于权限的访问控制和细粒度的分权管理策略。二是安全审计。除了传统审计之外,云平台还面临新的安全审计挑战,审计的难度在于需要为大量不同的多租户提供审计管理,以及在云平台大数据量、模糊边界、复用资源环境下的取证。(五)公有云与私有云衔接安全需求新华网采用混合云在实现成本节约与数据安全兼顾的同时,诸多潜在的风险也逐渐浮出水面,这也是当前混合云所面临的巨大挑战。从安全角度出发,在混合云解决方案的搭建中,云架构师需要跨数据中心的冗余来减缓单ー数据中心宕机的影响,而缺少冗余对混合云而言可能是极其严重的安全风险。除此之外,私有云构架的SLA、管理员在混合云风险管理上的经验缺失、私有云与公有云上共同工作的安全控制都可能酿成混合云潜在的安全隐患。新华网如何确保他们的混合云环境是安全的并保持高性能运行是其核心安全需求,具体如下:ー是建立硬件防护、软件预防以及事后追踪的复合式云安全机制,并为用户提供全软件式的安全保障机制,使客户能够更灵活且无限扩展地使用混合云产品。二是建立了强大的数据中心监控体系以实时监控数据中心的运行状态,保证混合云的使用安全,极大程度上缓解了混合云在安全层面以及技术层面的潜在风险。三是根据新华网的企业规模及行业特性,为其提供全栈式的定制服务。打造完美契合新华网需求的混合云解决方案,实现公有云与私有云的全方位部署。2.1现有设备分析目前新华网的主要服务器配置:

28服务器型号配置数量DELLR730DellR730配置2颗IntelXeonE5-2620v32.4GHz6核处理器:配置内存!28GB;6块希捷300GB10KRPMSAS热插拔硬盘;独立硬件RAID卡,1GBNV缓存;4个Intel千兆网口;集成iDRACEnterprise远程管理卡;冗余热插拔电源;导轨及电源线;7年原厂?x24X4小时专业技术支持浪潮SA5112M4浪潮SA5112M4配置2颗IntelXeonE5-2620v32.4GHz6核处理器;配置内存64GB:6块希捷600GB10KRPMSAS热插拔硬盘;2208raid卡RAID卡,1GBNV缓存;4个Inte!千兆网口;集成远程管理卡;冗余热插拔电源:导轨及电源线;7年原厂7x24X4小时专业技术支持深信服AD-5000深信服AD-5000负载均衡设备四核CPU,系统内存8GB6个GE电ロ,4个千兆光口,4个多模千兆光纤模块;配置2个万兆光口冗余电源5年全免费质保服务,提供7X24X4小时响应,提供7X4小时上门服务

29HPDL380Gien92*E52630V3/8*16GB/8*300GBSAS10K/4端口千兆网卡/500W电源120HPDL380Gien92*E52630V3/4*16GB/2*480GBSATASSD+6*1TB12GSAS7.2K2.5/4端口千兆网卡/500W电源100DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,6块热插拔2.5寸IT7.2KSAS希捷硬盘和2块2.5寸480G固态硬盘;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端ロ千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品5年原厂售后服务。100DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔2.5寸300G10KSAS希捷硬盘:128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端ロ千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品6年原厂售后服务。30DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔3.5寸4T7.2KSAS希捷硬盘,2块7.2K2.5寸SAS1TB;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端ロ千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品7年原厂售后服务。100DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸Itb后置;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端ロ千兆Intel1350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品8年原厂售后服务。50DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸1TB后置;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID20

30卡2GB缓存,4端口千兆新华网云计算平台需求221nteIi350网卡,SFP+万兆Intel网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品9年原厂售后服务。SureSaveUA-5000DSureSaveUA-5000D双控制器每个控制器缓存为48GB配置48块900GlOKrpm2.5寸SAS磁盘配置8个8Gb主机接口,千兆以太网端口数量为4个5年全免费质保服务,7X24X4小时响应,7X4小时上门服务

313总体方案设计3.1建设目标综上所述,此次云平台建设的需求及目标概括如下:统筹规划、整合现在技术系统资源,全面打造可持续提供基础设施、平台和应用三种服务形式的云计算平台。实现资源的按需分配、按需扩展,实现系统从粗放型分散建设向集约型云计算模式转变,最终形成统ー的以“信息集成、资源共享”为特色的云计算管理平台和云计算服务平台。1、可以实现将新华网的硬件资源重新进行统一管理、统一分配、统一部署、统ー监控和统ー运维。实现业务系统硬件资源的ー键式分配,缩短系统搭建周期。2、完成云平台的分区分层分级设计和建设,实现不同区域资源规划和安全隔离,实现云运营、云管理、云运维、云安全、云应用等模块的标准化、流程化、可视化。3、实现自建云计算平台与公有云的资源共享和融合,通过对自建云计算平台和公有云进行统一管理,实现资源和服务之间的互通、动态调度、必要数据的相互备份3.2建设原则基于实际需求,本着科学、经济合理的完成本次项目任务,并满足长远规划的要求,在本方案总体设计中,必须充分考虑和遵循以下原则:>实用性云平台建设满足项目实际需求,符合业界及公司IT战略规划。通过该云平台建设,以期实现对IT资源的整合与云化,提升IT资源的管理能力与IT服务能力,更好地支撑公司业务运营与未来发展。>先进及成熟性云计算平台应采用成熟的、具有国内外先进水平的,并符合云计算发展趋势的技术、软件、设备及服务。同时,积极吸纳业界先进成熟的科技成果,能够及时更新、升级,确保平台能力和应用能力与时俱进,以保证系统平台具有较长的生命力和扩展能力。>髙可用及髙可靠性

32云计算平台应支持容错、自恢复、髙可扩展,允许应用系统从不可避免的硬件、软件错误中恢复,确保应用系统的正常运行和数据存储的高可靠。云计算平台应提供远程、跨节点的容灾机制,保证业务连续性。>用户体验及可维护性应具有一个统ー良好的运营流程及功能。具有例如多租户管理、成本分摊、运营管理、分析统计等运营流程功能。应具有良好的用户体验,系统在设计上要充分考虑到用户的直观感受,保证给用户带来良好的使用体验与观看体验。云平台设计应做到流程合理,功能完善,操作简单直观,维护管理方便。其工作流程和操作环节应直观、简洁,工作实际的需求髙度结合,切实提髙工作效率,提升用户体验,降低运营成本。>经济性合理的性能价格比是系统设计中应当考虑的重要内容。因此,系统产品在兼顾良好功能性能的基础上应要考虑经济性,既要考虑系统当前初建成本,也应考虑系统的未来长期运行成本,避免未来投入巨大,或者推到重来的更大成本。>兼容及扩展性云计算平台应兼容业界通用的服务器,主流的操作系统,第三方存储,虚拟化软件,以及应用程序。云计算平台的资源能够快速、弹性和自动化地供应,从而提供持续的云服务能力。云计算平台应提供大规模、分布式集群的管控能力,通过增加物理设备,实现总体网络资源、计算/存储资源、内存资源和数据库资源的自动扩展。云计算平台应考虑到业务未来发展的需要,提供良好地横向扩展能力,即根据业务、管理要求,跨机房、跨地区增加云计算节点,能够很好解决技术或者法律许可限制。根据实际情况,该云平台应支持混合云部署模式,本地专有云部署核心业务关键数据,同时也可以灵活地将业务部署到公有云上,以公有云的安全体系提高安全等级,充分利用公有云抗攻击、多出口、灵活随需取用等优势。>开放性应用支撑平台和应用系统在设计时,考虑未来各个系统(己建,正建和将建的系统)能够在云平台上进行互联互通,能够灵活的迁移,保证系统能与其它系统进行快速、顺利的信息交换,便于系统扩展和升级。系统应提供开放式和标准化的API接ロ,

33可便捷和第三方系统对接。能够统ー的管理公有云与私有云,并且能够很好的调配公有云与私有云之间的资源,能做到云资源平滑迁移与互备。>安全性安全性包括两个方面,ー个是安全:主要指防止外部对网络的攻击和入侵;另ー个是保密:主要指防止网络内部信息的泄漏。云计算平台安全设计应按照云服务的使用范围以及层次,提供相应的云服务安全体系,并与安全防护体系、安全运维体系相结合,形成完整的云计算平台防护体系。3.1总体方案设计3.1.1总体架构设计内网区总体架构设计拓扑新华网方案私有云建设分为内网区和DMZ区,两者之间物理隔离。内网区中包括Regionl和Region2,Region!通过部署Docker与公有云对接,Region2包括计算服务区、存储服务区以及大数据服务区。计算服务区根据用户实际业务需求包括中间件服务区,对CPU要求不高,内存需要偏大,对磁盘空间及性能要求不高,本次建设采用双路服务器搭建环境,后端挂载glusterfs,NAS存储。存储服务区包括现有存储FAS300〇、FAS8020两台,5500V3,6800V3,其中一台FAS8020和6800V3共剩余380TB可用空间,另外一台FAS8020用于音视频的nas存储使用,空间剩余3TB,不建议整合。两台FAS3000用于存放归档数据,定期删除,不建议整合。5500V3存储oracle数据库,剩余空间不足10%,不建议利旧。本次方案将FAS8020和6800V3

34通过虚拟化网关方式统一整合,统ー资源调配,已经映射的卷和挂载的目录不进行修改,不影响业务,剩余的空间可以直接把存储空间以逻辑卷方式映射给虚拟化网关,通过虚拟化网关二次映射,对外提供统一的存储资源,完成异构存储空间整合。应用服务区对cpu,内存,磁盘没有特别需求,采用双路服务器搭建,后端连接共享存储。关系型数据库服务器对cpu、内存、磁盘性能、网卡性能需要较多,配置高资源的虚拟机来搭建。后端挂载glusterfs,NAS存储。非关系型数据库内存需求量比较大,配置大内存的虚拟机。计算服务区除了本次需要部署的虚拟化资源,还包括前期购置的物理环境,本次方案建设将原有的10组RAC数据库统ー纳管到云平台中。大数据服务区包括分布式环境和分布式数据仓库。大数据服务主要提供大数据处理和存储的服务。提供从GB到PB级数据在高并发访问、数据查询和分析处理等不同应用场景大数据处理的能力,解决新华网业务的复杂性、多样性、数据量大等问题,可以快速搭建大数据处理环境,简化大数据使用的门槛。DMZ区包括web前端服务区和缓存服务区。Web前端服务区易耗CPU,内存需求小,对磁盘大小及性能要求不高,后端挂载glusterfs或NAS存储。缓存服务区对内存需求较大,本次方案配置大内存的虚拟机。3.1.1总体功能设计

35SAAS安全管理服务开放接口a开放服务:噥あ放«QKsmnamaw数据税目数ゼ可や服务列裏PAAS•弾性云主机・负我均衡K务工对象储服务云应用引擎数据库服务消息队列霰务分布式爆存物理资源池Docke资源池基础环境适配计算服务存储服务网络服务安全服务IAAS•朝»资源池・•物理资源池计算资源存储资源网络资源安全资源功能架构图基础设施管理平台(IAAS)包括内网区和DMZ区的机房配套建设,以及以服务器、网络、存储及其虚拟化、资源池、云管理、现有资源利旧等为主的基础设施建设。计算、存储、网络等组成内网建设的基础设施,通过云管理平台实现云资源管理,提供资源池化、VDC服务、自动伸缩服务、全局调度服务、云主机、高性能存储块、自助服务等功能。基础支撑层根据按需提供服务的自助管理基础架构汇集基础资源,通过对底层服务器、存储资源虚拟化聚合部署,利用海量数据存储系统,配合基础设施平台管理软件,实现新华网基础支撑层建设。大数据管理平台(PAAS)是对新华网大数据应用的平台和环境支撑,通过构建统ー应用开发测试环境服务和大数据服务特征具备海量数据存储、处理与挖掘分析的大数据处理平台,为新华网各项云应用、协作服务以及社会民生服务,提供统ー开发、运行和管理接口。应用开发测试环境服务提供动态环境构建、消息引擎、分布式队列、任务调度等服务,主要建设开放式数据中间件、处理中间件、服务中间件、开发工具包等服务模型,支持多种开发框架、编程语言、基础服务的灵活选择,在技术层面上形成具有选择性和扩展性的生态体系,允许对开发框架、基础服务或架构进行扩展和集成,从而为开发扩展功能,提供更加完善的应用支持环境。大数据处理平台,整合了关系数据库、分布式数据文件系统、NoSQL型数据库、内存数据库、SQL查询引擎、大数据分析等存储分析工具工具等,并向上提供开发接口,为新华网构建一个安全,海量计算与存储资源的大数据处理平台,方便前端应用使用。数据服务层(DAAS)。数据资源库通过数据整合的方式抽取海量结构化和非结构化

36数据,构建了存储全量数据的数据仓库,并在此之上通过二次抽取和关联建立的基础数据资源库和各类应用服务资源库;数据资源库通过数据资源目录和数据标准化等方式实现全局资源的台账管理和共享服务:数据服务以服务的形式封装了数据比对、数据查询、数据搜索、数据统计等多类基础服务,并通过服务目录、服务注册、服务请求、服务监控等方式形成全局的服务资源台账:资源服务总线基于SOA思想构建,提供了一套完善的资源服务体系,为服务资源调用提供总线支持。应用服务层(SAAS)直接为用户提供各类应用服务。应用服务层提供了几类基于云中丰富数据资源和髙性能计算资源所建立的服务的基础性的大数据应用服务,包括云搜索、云挖掘等。在此基础上,为了更好地服务新华网云建设,需要建立云安全和云运营两套支撑体系。其中云安全保障体系设计遵照相关安全规范和信息系统安全性相关的法律法规。从物理设施安全、网络安全、主机安全、应用安全、虚拟化安全、数据保护、用户管理和安全管理等几个方面入手,为用户制定对应的安全措施,为新华网云体系建设提供安全保障。建设新华网云运营管理体系是在基础设施运维管理系统的基础上,完善已有功能,建设由运营管理、服务保障、资源池自动化、IT服务管理、基础设施管理等的几大模块组成的新华网云建设统一管理平台。运维管理系统所涉及的监控、检测等工作与整个系统和网络、应用的运行效率密切相关,安全性较髙,所使用的系统设备需单独配置,并应设置在专门网段,实行单独的访问控制机制。3.1资源池分区规划3.1.1资源池分区逻辑架构新华网云计算数据中心逻辑架构分为基础设施层、虚拟资源池、物理资源池、Docker资源池、安全管理区和运维管理区组成。逻辑架构图如下图所示:

37资源池逻辑架构图基础设施:基础硬件设备,包括服务器、存储、网络,以及云数据中心所需的机房运行环境等设备,是整个云数据中心的物理承载实体。虚拟资源池:包含虚拟化软件与云计算管理平台。虚拟化软件实现基础设施层服务器、网络、存储等硬件资源抽象,形成不同集群的计算资源池、存储资源池,通过虚拟化HA、vMotion等功能实现云中心硬件资源的高可用、在线运维和资源动态调度等。云计算管理平台整合云数据中心所有资源池,形成统一的云数据中心资源平台,根据组织用户和个人用户需求和特点,通过业务流程审批,以虚拟数据中心(VDC)或云主机等方式提供相应级别的虚拟化资源、数据库资源等给组织用户或个人用户。并对物理和虚拟的设备、应用系统等进行监控、部署、管理、调度和控制。物理资源池:物理资源池主要提供两项服务,ー组由SUN小机承载ORACLERACK数据库集群,另一组X86服务器承载大数据架构,形成数据挖掘平台。Docker资源池:用来构建数据库、中间件、以及开发测试PAAS平台,与公有云进行对接,实现私有云与公有云的资源的平滑迁移和资源统ー管理,形成新华网的混合云架构。公有云区:提供公有云的弹性计算、云存储、云数据库、云开发平台、云安全网络等资源,并与私有云进行对接,形成混合云资源管理。服务交付:新华网云数据中心可以提供的云服务,包括虚拟数据中心(VDC)、云服务器、负载均衡、防火墙、虚拟专用网络(VPC)、云容灾、迁移等云服务。安全体系:为新华网云数据中心提供用户、应用、网络等全方位安全体系。用户安全包括用户认证、访问控制和单点登录等;应用安全包括敏感数据保护、病毒防护、流量监控等;网络安全包括VPN、

38防火墙、策略管理等。运维体系:运维体系支撑云数据中心正常运行,主要包括交付、监控和运维等。交付包含应用、数据、资源的交付;监控包含应用、数据、资源的监控;运维包含容量规划、生命周期和问题分析等。新华网云数据中心解决方案采用先进的融合数据中心设计理念,最大幅度提高云数据中心SLA水平,兼容现有云数据中心业务和基础软硬件设施,降低数据中心TCO,实现快速部署、弹性扩展和绿色节能。3.1.1容量性能测算根据资源的使用类型,以及不同资源区的虚拟机的配置,计算出所需的总的计算资源、存储资源的需求量。3.1.1.1虚拟主机资源需求按照虚拟CPU与物理CPU的整合比为1:1,每台物理服务器CPU可用量为80%计算,内存整合比也为1:1,可用容量为80%。物理服务器内存(GB)=虚拟内存(GB)/0.8物理服务器总CPU=vCPU・虚拟机数量/〇.8IT资源类型建议云虚拟环境虚机需求数量物理服务器资源总量vCPU内存(G)本地磁盘(G)CPU内存(G)存储容量WEB前端区10101001722150215017200缓存服务区432100168840672016800中间件区6162004303225860086000应用服务区4820082241108220164400数据库1型区83220027827801112055600数据库2型区43220031015501240062000虚机资源汇总000所需物理机数量预估218342.2PAAS平台及大数据主机资源需求大数据主要使用物理服务器。提供整个新华网数据的挖掘和数据清洗。所需体量根据需求大约100台物理服务器。

39运行Docker环境需要支撑200个应用规模,根据Docker环境架构大约需要16台物理服务器规模。3.4.2.3存储资源需求存储阵列提供NAS存储,为所有数据库以及中间件服务器使用,对于数据的顺序读写性能较好,根据调研数据,存储阵列的总需求量为:1PB容量。3.5计算资源规划设计3.5.1计算资源池化设计计算资源池化主要是针对X86系统的虚拟化技术,它可以将X86系统转变成通用的共享硬件基础架构,原先多台服务器完成的工作可以整合到少数服务器完成。摆脱了竖井式的结构,服务器物理硬件、操作系统和应用以松耦合的方式联结,实现计算资源的重新组合与交付。进行计算资源池的建设主要通过服务器虚拟化技术来实现,虚拟化通过把服务器计算资源抽象化、池化和自动化来实现资源的自由调配和充分利用,它可以使资源充分利用,并按需调配。当数据中心的服务器需要升级或维护的时候,通过虚拟机迁移技术可以把服务器上的虚拟机在工作状态迁移到另一个主机,始终保持业务的连续性。服务器虚拟化大大增加了数据中心的灵活性和IT的敏捷性,减少管理的复杂度和!T响应时间。

40兔衽为衛网络接入计算资源池规划拓扑图3.5.1.1网络区域划分根据新华网云数据中心网络设计要求,主要分为内网区、DMZ区、互联网区,内网区与其他区域物理隔离,保障数据安全。互联网区与DMZ区实现逻辑隔离,实现网络划分。3.5.1.2物理资源池物理资源池主要分为两个方面,ー个提供数据库1型的oracleRAC集群使用,另ー个提供大数据部署使用;3.5.1.3虚拟化资源池虚拟化资源池主要提供七大资源,分别为:数据库1型为oracle、mysql等数据库使用;数据库2型为缓存数据库使用;PAAS平台主要以Docker形式提供业务容器,与公有云进行对接;中间件区为weblogic、tomcat等中间件服务;应用服务区提供目前的图片处理、消息队列等;WEB前端区为Nginx、Apatch服务,提供WEB访问;缓存服务区主要提高业务访问速度;互联网区与PAAS平台对接,形成混合云架构,可以实现资源的互通和管理;3.5.2虚拟化功能方案设计在新华网云数据中心建设中,将采用虚拟化软件进行计算资源池建设,构建统ー的数据系统中心,实现物理资源池的动态共享,提高资源利用率:减少物理资源的数量,简化IT

41架构的物理分布,虚拟化平台管理平台同时管理物理环境和虚拟环境,简化管理员日常运维工作,降低管理成本;能够根据不断变化的业务发展的需求,快速的部署资源,灵活的响应新业务的资源请求;通过虚拟服务器高可用性,在物理服务器发生故障的情况下,能够保证业务系统可持续的提供服务。3.5.1.1服务器虚拟化硬件配置要求由于运行在服务器虚拟化环境的服务器既有Windows也有Linux»对于资源池中的服务器配置最小要求如下:资源类型配置要求备注CPU64位并支持IntelVT或AMD-V技术内存最小16G内存XenServer消耗700M左右,剩余分配给虚拟服务器使用网卡在FC存储环境下建议4个IGigabit/Full-DupleX网ロ在IP-SAN或NAS存储环境下建议6个IGigabit/Full-Duplex网ロFC存储环境下:!块用于XenCenter管理及备份!块用于虚拟机提供的对外服务2块用于容错IP-SAN或NAS存储环境下:!块用于XenCenter管理及备份2块用于存储网络!块用于虚拟机提供的对外服务2块用于容错硬盘2x72GB15,000rpmSAS硬盘,RAID-1双硬盘配置成RAID-1,只用于安装XenServer

42存储HBA或iSCSI所有的虚拟机镜像文件(VirtualDiskImage)都保存在远程共享存储中以支持XenMotion和HA352.2服务器虚拟化功能分析企业级性能和可扩展性“裸机”运行服务器虚拟化软件直接运行在服务器硬件上,而不是运行在单独的宿主操作系统上,因此能提供最佳的性能和可扩展性。硬件虚拟化协助利用Intel和AMD处理器的最新硬件虚拟化技术实现高性能,甚至在运行不具备虚拟化优化功能的操作系统时也同样能提供这些好处。服务器虚拟化工具捆绑式I/O的增强功能帮助Windows及Linux虚拟机优化硬盘和网络性能。本地64位架构64位Xen系统管理程序的设计原则是支持32位和64位虚拟机,从而支持更多种类的工作负载例如MicrosoftExchange和MicrosoftSQL服务器等64位工作负载所需的大量内存。SMP虚拟机在每个虚拟机内支持多达16个虚拟CPU以部署处理器密集型应用,如消息中间件和数据库服务器,并充分利用了多核处理的高性能。每个虚拟机196GB系统内存针对内存密集型工作负载提供服务器级虚拟内存容量。增强的性能最大支持系统1TB内存,160个逻辑CPU,每服务器16块物理网卡,SR-I0V对NetScalerVPXandPVS的支持。轻松部署和安装灵活的产品安装程序可以通过CD安装,或者使用基于PXE的网络引导,还可以使用带有远程CD或者ISO访问能力的服务管理进行安装。轻松的虚拟机部署使用CD或DVD、ISO镜像或者可网络访问的文件都可以安装Windows及Linux虚拟机。虚拟机可转换为复制安装的模板。广泛的硬件支持利用标准的Linux设备驱动程序和优化的虚拟机驱动程序为广泛的设备提供支持,而无需以牺牲性能为代价。广泛的本地存储支持支持广泛的本地存储方案,包括IDE、SATA、SCS!和SAS«集中的安装介质池建立支持NFS或CIFS协议的共享空间,统ー放置虚机安装介质,支持远程的介质安装。灵活的共享基础架构CPU颗粒化控制可将虚拟机指定在某几个CPU上运行,指定占用CPU核的份额,指定CPU占用的优先级支持异构CPU的虚拟化资源池在异构CPU的虚拟化资源池中实现在线迁移和HA,支持NUMA技术。

43服务器和存储资源的统一管理将多个服务器和连接的共享存储作为统一的资源池进行管理,基于资源需求和业务优先级实现了虚拟机的灵活部署。通过Motion实现实时迁移可以将虚拟机从一台服务器迁移到另一台服务器来实现零宕机时间的服务器维护,而不会导致业务中断。系统管理员能够移动应用以充分利用可用的计算能力。在线存储迁移StorageMotion在线地将虚拟机的磁盘从ー个存储迁移到另ー个存储,存储类型支持Local,DAS,iSCSI,FC»还可以支持跨资源池StorageMotion。基于资源池的配置可以在资源池级别自动配置和应用常用的设置,简化了重新配置过程。按需部署虚拟机模板可以将虚拟机转化为模板,在服务器或资源池上对多个类似的系统进行快速配置。釆用本地或者NFS文件存储,就可以在几秒钟内克隆出新的虚拟机。导入/导出可以通过输出方式远程使用虚拟机,还可以对虚拟机进行存档,通过输入方式使其作为灾难恢复站点。P2V工具可以将Windows操作系统从物理系统迁移到虚拟机上。虚拟机迁移工具帮助物理服务器工作负载(操作系统、应用和配置)向虚拟基础架构的转换,实现了从物理机向虚拟机的轻松过渡,支持VHD,OVF,VMFS等格式。克隆支持快速克隆和全拷贝克隆两种方式复制虚拟机。动态的虚拟化资源调整虚机资源调整支持Linux系统的CPU、虚拟网卡及虚拟磁盘资源增加,支持Windows系统的虚拟网卡及虚拟磁盘的资源增加,支持CPU、DISK及网络的QOS。动态内存控制通过设定虚拟机内存动态使用的上下限,结合虚拟机静态设置值,动态的管理和调配内存。本地保护及业务连续性自动的高可用性资源池可以配置自动的高可用性保护功能。这样,故障主机上的虚拟机可根据优先级和资源可用性在另一台物理服务器上自动重启运行。容错支持多VCPU大内存(2G以上)虚拟机容错配置,实现零宕机服务切换,(与MarathoneverRun集成)灾难恢复通过集成灾难恢复功能iD和远程SAN存储复制的集成式灾难恢复功能。可将整个资源池快速迁移到另ー个物理站点,并保障业务的持续运行,其间只会出现短暂中断。冗余网络冗余网络链路(经由NIC连接)通过支持active/active模式的NIC聚合、允许充分利用所有可用带宽,并同时维护冗余链路,可确保业务的连续运行和网络可靠性。磁盘快照及内存快照支持基于磁盘的快照和冋滚,同时也支持基于内存的快照及冋滚技术来保证交易的完整性。在原快照的基础上,还支持多分支的连续快照以最大限度的保证业务连续。强大的存储管理功能

44共享的iSCSI和NFSNAS存储与IP网连接的存储可以作为共享池来配置,硬盘资源可以从该共享池分配给虚拟机,使存储基础架构的利用率最高。专用的光纤通道和iSCSI网络存储中央SAN存储资源可以分布在多个服务器上。优化的File-Backed虚拟硬盘储存在专用文件系统或NFSNAS存储上的虚拟机使用经实践检验的MicrosoftVHD格式,实现了精简配置和快速克隆的透明接入。集成式多路径支持可在虚拟化管理平台中配置的光纤通道和iSCSI多路径I/O支持能力,确保可为光纤通道或iSCSI提供冗余存储链路,防止服务中断。本地存储服务适配器管理接口界面(包括NetAppDataOntap和DellEqualLogic适配器)自动访问各种经优化的存储服务,包括快速克隆、瘦配置、屏幕快照和副本删除等。高级存储管理StorageLink通过SMI直接管理存储,并通过带外的快照、克隆、Thinprovisioning等存储技术快速实现数据拷贝,提髙了存储利用性能,简化了存储的管理。StorageLink通过即用即分配的方式保证空间的有效利用。大存储LUN支持支持2T以上的单个存储LUN作为虚拟机存储空间SANBoot支持SAN启动,并支持多路径下的SAN启动。内置的HBA支持支持内置的BrocadeHBA卡驱动和FCOE,支持多HBA卡。髙效安全的虚拟网络虚拟网卡(NIC)每个虚拟机可以配置一个或多个虚拟网卡,虚拟网卡各有其自身的IP和MAC地址。虚拟机看起来就如同网络上的独立物理系统。虚拟交换机虚拟网卡可以与实现网络隔离的虚拟交换机连接。每个虚拟交换机都能通过物理网卡连接到物理网络上,或者也可将其配置为全虚拟网络,为专用虚拟机到虚拟机的流量提供与内存相媲美的速度。分布式交换机通过分布式交换机,用户可统ー创建和管理一个多租户、隔离的和灵活的网络,并为虚机提供ー个安全和基于状态迁移的环境,对虚拟化网络端口具有无限的支持,根据虚拟机和物理资源的使用可任意增加虚拟端口的数量VLAN支持虚拟机可以与单独的VLAN绑定,从而将虚拟机之间的流量与其它物理服务器的流量相隔离,降低网络负载,提髙安全性和简化重新配置过程。虚拟网络安全控制可实现在无VLAN设置的条件下,控制在同一物理主机上和不同物理主机运行的虚拟机之间的各种协议的访问,支持虚拟化环境下的RSPAN,支持IDS/IPS的连接,虚拟交换机管理端的失效不影响分布式交换机的运行。虚拟网络监控和流量管理支持netflow在虚拟化环境下的流量分析,查看并监控虚拟网络资源的使用情况,并以仪表盘,数据报表和实施数据及图线的方式监控虚拟网卡、物理网卡、虚拟交换机的流量、协议及应用的流量使用,支持对网络资源的QOS控制服务器虚拟化管理无单点故障的简单易用的虚拟化管理使用统一的管理工具进行管理,且虚拟化管理端的失效不影响虚拟化平台的运行,包括如虚拟机的迁移、对ISCSI存储的配置,分布式交换机运行等。

45全VM生命周期管理系统管理员可以在任何地点安全地创建、启动、终止、重新启动、暂停、恢复、迁移和卸载虚拟机,以及重启和关闭物理服务器。性能监控和趋势分析通过资源池全新的持久性能统计数据,可对虚拟机性能和服务器总体性能进行实时的监控和图形化趋势分析,包括CPU、内存、磁盘I/O和网络I/O。资源管理虚拟化管理平台提供轻松的服务质量控制,允许配置CPU、内存、硬盘和网络I/O的使用优先级和限制条件。灵活的控制台支持系统管理员可以通过内置的图形界面或本地WindowsRDP协议连接到Windows虚拟机,并直接从虚拟化管理平台接入Linux虚拟机的图形与文本控制台。配置和故障提醒针对配置的潜在性不利更改以及主机故障,虚拟化管理平台提供了电子邮件和虚拟化管理平台提醒功能。安全管理基于角色的访问控制及审计基于角色的访问权限设置和分配,可与AD集成统ー用户的管理。基于角色的行为审计生成用户行为审计报告,审核用户行为的合法性。3.5.3计算资源部署设计3.5.3.I命名规范虚拟数据中心命名规范虚拟数据中心(vDC)界定了组织能够使用资源的范围,组织管理员可将vDC资源分配给组织内用户。虚拟数据中心管理包括创建、导入,修改配置等操作。vDC可以包含不同类型的虚拟化资源,以及分配给不同组织使用。vDC的命名需根据组织、资源命名:组织备注资源备注集群命名规范集群主要为物理主机分组,以便为虚拟主机提供HA、DRS管理。集群的命名主要根据资源类型分组,软件技术,虚拟化的类型,以相同配置的服务器建立集群配置较为方

46便;资源组软件技术虚拟化类型备注物理主机命名物理主机安装虚拟化系统。物理主机命名主要根据资源类型进行分组,软件技术,由于采用不同的虚拟化类型,同时物理服务器的位置也是提高运维的ー种方式。物理主机的命名要考虑资源类型、虚拟化类型、物理服务器位置;资源组软件技术虚拟化类型位置备注虚拟主机命名虚拟机主机的命名考虑资源类型、软件技术、虚拟化类型;资源组软件技术虚拟化类型备注353.2虚拟主机规划>整体规划主要由两部分组成,一部分为管理区,一部分为资源区。>虚拟主机配置规划虚拟主机规划主要考虑虚拟化技术,以及承载相关业务所提供的计算、存储、网络性能。IT资源类型建议云虚拟环境虚机需求数量主机资源需求特点vCPU内存(G)本地磁盘(G)WEB前端区1010100172整体资源消耗不高,对于CPU和网络有中度需求,内存需求较小,对于磁盘容量和I〇要求很小。缓存服务区432100168CPU需求较低,内存容量需求较高,对网络小包转发能力要求较高。

47中间件区616200430整体资源消耗适中,对于CPU、网络要求不高,对内存要求高,对于磁盘容量和IO要求很小。应用服务区48200822各方面资源比较均衡数据库1型区832200278CPU和内存需求相对较高,需要非常好的磁盘I。性能。数据库2型区432200310CPU需求较低,内存容量需求较高,对网络小包转发能力要求较高。353.2虚拟机管理主机虚拟化软件一般都提供虚拟机创建、虚拟化配置、虚拟机迁移、虚拟机扩容等基础管理功能。⑴虚拟机创建可以使用手工、虚拟机中克隆、从模板创建或部署模板等多种方法创建虚拟机,并将其部署到资源池。手工创建虚拟机需手工安装操作系统;模板是ー个“主映像”,通常包含一个客户操作系统、ー组应用程序和一套特定的虚拟机配置,通过模板部署虚拟机是ー种快速、简便并具有可扩展性的虚拟机创建方法。创建单个虚拟机后,可安装客户机操作系统和相关工具,虚拟机开启后,即可进行虚拟机配置。(2)虚拟机配置在虚拟机创建过程中或在创建虚拟机并安装客户机操作系统之后,可以添加或配置大部分虚拟机属性,配置虚拟机并更改在创建虚拟机时所选的几乎所有特性,可以配置硬件、选项和资源三种类型的虚拟机属性。硬件,查看现有硬件配置并添加或移除硬件。一方面,由于虚拟机运行所在的主机以及客户机操作系统不支持或没有虚拟机化管理软件的许可证,都会导致无法为虚拟机增加硬件设备;另一方面,PC!和SIO虚拟硬件设备都是虚拟主板的一部分,无法进行配置或移除。选项,查看和配置虚拟机属性。虚拟机选项定义ー系列虚拟机属性,如虚拟机名称以及使用客户机操作系统的虚拟机行为,可以利用管理工具对这些属性进行修改。资源,配置CPU、内存和磁盘。可以添加、更改或配置这些资源,以提高

48虚拟机性能。在虚拟机创建期间或安装客户机操作系统之后,可以设置大部分的资源参数。⑶虚拟机迁移虚拟机的迁移分为冷迁移和热迁移两种。冷迁移指在虚拟机停机的情况下进行的迁移。在迁移之前将虚拟机暂停,如果共享存储,则只拷贝系统状态至目的主机,最后在目的主机重建虚拟机状态,恢复执行。如果使用本地存储,则需要同时拷贝虚拟机镜像和状态到目的主机。这种方式的迁移是ー个文件通过网络进行复制的过程,迁移过程需要停止虚拟机的运行。从客户端角度看,有明确的一段服务不可用的时间。热迁移是指在保证虚拟机上服务正常运行的同时,虚拟机在不同的物理主机之间进行迁移,其逻辑步骤与冷迁移几乎完全一致。不同的是,为了保证迁移过程中虚拟机服务的可用性,迁移过程仅有非常短暂的停机时间。迁移的前面阶段,服务在源主机运行,当迁移进行到ー定阶段,目的主机已经具备了运行系统的必须资源,经过ー个非常短暂的切换,源主机将控制权转移到目的主机,服务在目的主机上继续运行。对于服务本身而言,由于切换的时间非常短暂,用户感觉不到服务的中断,因而迁移过程对用户是透明的。(4)虚拟机扩容虚拟机的扩容是虚拟机的资源不能满足应用的需求时,对虚拟机的CPU、内存、磁盘等进行扩充。虚拟机智能扩容:基于用户策略自动对虚拟机的资源进行扩容(减容)。通过监控虚拟机上资源(CPU、内存和存储介质)的使用情况,预警系统发现某个虚拟机违反设定的预警条件,则启动虚拟机扩容机制。扩容策略:预警系统根据预先设定的阈值来自动监控虚拟机的CPU,内存和存储介质的使用率,当超过阈值后,自动为虚拟机增加资源。353.4物理主机规划配置规划根据7.产品选型的配置方案得出,计算资源池共需要服务器318台物理服务器,所有服务器的数量如下:

49用途数量(台)Web前端区17缓存服务区27中间件区34应用服务区32数据库1型区44数据库2型区48大数据区100PAAS平台区16管理区1(虚拟机)353.4集群架构设计3.5.3.5.1集群设计原则集群是云资源的载体,是资源池的组成单位。通过集群管理实现为不同用户提供不同等级的资源服务,扩充或缩减资源池容量,可重新导入资源池的新增集群,也可暂停在某些集群上新建虚拟数据中心及应用服务,可查看集群内的主机及所挂载存储的信息。建议按计算密集型、I/O密集型、网络密集型和低负载等类型:

50类型数量备注计算密集型单集群主机数量W16台1/。密集型单集群主机数量OLAP/OLTPDBく4台顺序レ。10W8台随机I/O10く4网络密集型单集群主机数量单宿主机内VM通信频繁W16跨主机集群通信〈8台低负载APP单集群主机数量<20台对于技术架构建议考虑:类型数量备注GFS2、GlusterFS32台,但是超过20台性能下降W20台〇CFS2集群性能较好,理论可以支持256个节点W16台CEFS理论无上限W16台NASW32台3.5.3.5.2资源需求原则根据资源的种类和对资源需求特点,可以划分为不同的资源类型。

51IT资源类型主机资源需求特点资源类型WEB前端区整体资源消耗不高,对于CPU和网络有中度需求,内存需求较小,对于磁盘容量和I0要求很小。计算密集型+网络密集型缓存服务区CPU需求较低,内存容量需求较高,对网络小包转发能力要求较高。计算密集型+网络密集型中间件区整体资源消耗适中,对于CPU、网络要求不高,对内存要求高,对于磁盘容量和I0要求很小。计算密集型应用服务区各方面资源比较均衡计算密集型数据库1型区CPU和内存需求相对较高,需要非常好的磁盘I〇性能。计算密集型+顺序I/O数据库2型区CPU需求较低,内存容量需求较高,对网络小包转发能力要求较高。计算密集型大数据区CPU要求低,需要大内存,对磁盘存储空间要求较高,但对磁盘的随机I0能力要求不高。计算密集型+1/〇密集型PAAS平台区各方面资源比较均衡计算密集型运营运维管理区对CPU、内存要求较高,对于磁盘容量有要求,网络要求适中计算密集型根据集群设计原则,以及对于每个分区资源需求的特点,得出每个资源区可以划分的集群的数量;分区资源类型虚拟机数量(台)集群数量(个)物理机数量(台)WEB前端区计算密集型+网络密集型17222

52缓存服务区计算密集型+网络密集型16821中间件区计算密集型43027应用服务区计算密集型82252数据库1型区计算密集型+顺序I/O27835数据库2型区计算密集型31020大数据区计算密集型+顺序I/O100PAAS平台区计算密集型16运营运维管理区计算密集型1353.6物理服务器管理为保证虚拟机运行稳定、高效,需要对服务器进行配置。服务器包括BIOS设置、内存和I/O设置。(1)BIOS设置VirtualizationTechnologyYesTurboModeYesNodeInterleavingNoVT-x,AMD-V,EPT,RVIYesCIEHaltStateNoPower-SavingNoVirusWarningNoHyperthreadingYesVideoBIOSCacheableNoWakeOnLANYesExecuteDisableYes

53VideoBIOSShadowableNoVideoRAMCacheableNoOn-BoardAudioヽModemヽFirewireヽSerialPorts>ParallelPorts>GamePortNo(2)内存设置使用EPT(扩展页表)访问MemoryManagementUnit»实现将客户机操作系统直接翻译物理机地址;同时为保证虚拟机管理器的正常运行,预留足够的物理内存。(3)I/O设置启用VT-d、IOMMU,实现I/O硬件辅助虚拟化,让虚拟机能够直接访问硬件。3.5.4服务器利旧分析由于新华网现有X86服务器品牌众多,服务器配置参差不齐。为保证虚拟机运行稳定、高效,提出以下对服务器在资源池中利用原则。服务器型号配置利用原则HPDL380Gien92*E52630V3/16GB/300GBSAS10K/4端口千兆网卡/500W电源可用于WEB服务器、缓存服务器使用HPDL380Gien92*E52630V3/16GB/480GBSATASSD+1TB12GSAS7.2K2.5/4端口千兆网卡/500W电源可用于数据库1型区使用DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,6块热插拔2.5寸IT7.2KSAS希捷硬盘和2块2.5寸480G固态硬盘:128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡I块,整件产品5年原厂售后服务。可用于数据库1型区使用DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔2.5寸300G10KSAS希捷硬盘;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端ロ千兆Inteli350网卡,热插WEB服务器、缓存服务器使用

54拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品6年原厂售后服务。DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔3.5寸4T7.2KSAS希捷硬盘,2块7.2K2.5寸SAS1TB;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡I块,整件产品7年原厂售后服务。开发测试类使用DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸Itb后置;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品8年原厂售后服务。分布式存储、大数据使用DELLR7302U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸1TB后置:128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆新华网云计算平台需求22Inteli350网卡,SFP+万兆Intel网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品9年原厂售后服务。分布式存储、大数据使用3.6存储资源规划设计根据目前新华网需求情况,针对现有环境,本次新华网云计算平台将采用专业分布式存储系统作为新平台建设的NAS、对象池使用,结合多副本、纠删码保护方式,客户端、标准NAS、对象等多协议支持方式,提供完善的数据存储服务。

55目前新华网的八大应用系统共享数据服务,未来将逐渐从FastDFS、Gluster上迁移到新平台存储上,存储池将使用扩展性更强,稳定性和安全性更高的分布式存储系统。新改造后的系统架构如下图拓扑CDN服务器负版均曲F51VS等反向代理甩务A防火・应用集群“务方用片服务器文件服务叁数据除魁分爲新・应用・务at分布式“他集群GlusterFSFastDFS新・分布K存储拿”在内网增加专业分布式存储系统,考虑到前文提及的新华网目前存储池资源的问题,新增专业分布式存储系统的设计应将会如下技术问题:第一,目前新华网的实际存储容量已经达到400多TB使用空间,新系统承担着未来业务逐渐迁移新平台的责任,故新建设系统应满足未来至少5年的容量和性能需求,随着数据量爆炸式指数型增长,故新存储系统满足PB级容量存储需求,弹性能力强,横向扩展性优异,在线添加删除节点速度快,增加节点后应能够进行快速重新分布数据的能力。第二,新建设的存储池可以进行方便的运维工作,符合当前分布式存储技术的先进性建设需求,底层采用弹性的对象存储,解决之前新华网文件数量大,目录层级多,小文件性能低等需求,通过〇SD对象方式进行数据与元数据的分离模式,加速文件读写速度,针对未来的网盘应用,和块数据访问,要求新存储系统支持多种基本存储协议,融合SAN、NAS、对象等多协议访问需求。第三,新建设的存储系统应满足快速故障恢复,自我治愈等能力,要求具有强壮的恢复能力,数据每TB恢复时间至少满足80min"B,并且可以手动或者自动的限制自我修复时对系统应用的性能占用,进行手动或者自动的QOS限制。第四,新建设的存储系统应采用全分布式的对称架构,区别于前几年火热的Lustre或者Gluster

56等文件系统,全分布式对称架构能够解决热点数据在某一节点的瓶颈,根据负载均衡策略进行真正的全负载均衡数据服务,消除热点接口。第五,新存储系统要具备高速内部互联互通网络,支持旧、万兆等网络负载模式,对外也可以提供千兆、万兆、旧等网络模式,为新华网未来升级网络,做好提前的准备。第六,新存储系统要满足节省物理资源为目标,对于重要数据采用多副本方式保存数据,对于冷数据可以采用纠删码的方式进行存取,节省空间。第七,新存储系统应当提供自动分层能力,加速小文件应用访问的性能,根据文件的访问热度进行策略的数据迁移,支持配置ー定数量的SSD等高速磁盘提升高速磁盘池性能,冷数据采用SAS或者NLSAS进行存取,充分利用磁盘介质的性能。根据上述设计要求,存储系统的拓扑架构如下:内部互联万兆交换机3.6.1全新分布式对称架构新华网新建设存储平台采用开放的X86架构为硬件平台,每台X86服务器作为分布式存储的ー个节点,每个节点所承担的责任完全相同,数据完全打散的存放数据和元

57数据,不再需要独立的元数据服务器,每个节点都可以提供对外的数据访问,消除热节点,减少性能瓶颈,针对数据业务网络和存储系统内部互联网络采用独立的架构,消除网络带宽复用带来的性能开销损耗,对外保留原有新华网的千兆网络架构,对内提供高速的万兆光纤网络互联方式,对外提供图片、音频、视频、网页等非结构化数据的服务。NFSCIFS应用层硬件节点层NodeNodeNodeNodeNodeNodeNodeNodeNodeNode[寸寸・日$卜・小土§トナマ$ヨ卜モ王H卜**青寸|司扌中电トヨ号王マi丹H卜王王丹・ロロジu・ヤニャ曰・ぶヤ・ゴ・eBエ寸ニイヤe•工・ロセエrft•r・ヤヤueNodeNodeNodeNodeNodeNodeNodeNodeNodeNode新存储系统底层采用先进的对象存储系统,对象存储体系结构有三个主要组成部分;对象(objects),包含数据以及附加属性信息,这些信息能使数据自治和自我管理基于对象的存储设备(OSD),比磁盘驱动器更加智能,它能存储对象并服务于对象,而不是简单的将数据放到其扇区和磁道上一个分布式文件系统(DFS),它与节点集成在ー起,接受来自操作系统的POSIX文件系统命令和数据,直接寻址OSD,并将对象(objects)跨多个OSD条带化分布,如下图所示,新系统以每个硬盘为ー个对象,整个集群组成对象池,对象存储系统的优势是可被许多客户端可靠和共享的访问,同时可将数据路径和控制路径分离,达到可扩展的数据访问性能。这种以对象为底层的分布式存储系统的扩展性会随着系统节点的增加线性增长,满足新华网将来的数据增长需求,并且扩展速度很快,只需分钟级即可完成一个节点的部署,数据重新分布速度更快。同时新存储架构采用元数据服务集群的方式来满足海量文件数量的存储需求以及海量文件数量带来的元数据性能需求,这种架构可支撑百亿级别文件的快速检索需求。元数据服务散布于每个存储节点,无需单独配置硬件节点。每个

58节点都是元数据服务器,同时也是数据服务器。分布式存储系统可以使用SATA硬盘和SAS硬盘保存数据,并在节点中配置了SSD硬盘保存元数据(也可作为缓存),以提升数据读取、系统元数据访问和小文件访问的性能。在元数据可靠性保护方面,要求分布式文件系统的元数据,采用的是副本的存储方式,元数据副本数量默认设置为2份,可设置为3份,为元数据提供高度的可靠性保护。3.6.1安全的数据冗余策略针对存储系统的数据安全,新建存储系统要求具备副本和纠删码两种针对分布式存储系统的数据保护策略。副本冗余保护模式:就是将客户端的数据保存多份,如果数据丢失后,可用副本修复丢失的数据。要求新建存储系统支持不同的数据设置不同副本数量:支持不同目录设置不同的副本数量;支持副本数据在线调整等功能。

59纠删码技术:用来对数据做一定的冗余来增加系统的可靠性,将要存储的数据切分为K块,然后通过编码算法计算出M个校验块,利用(K+M)个数据块中的任意K个就能够恢复原始数据。通过对纠删规则的设定,可以控制存储开销的大小,有效提髙存储利用率,要求新购置存储系统至少支持3个纠删码冗余数据分片,保证单个集群满足三个节点损坏业务不停止,数据不丢失。节点1ラ融节点3也就是当某个节点损坏时或者某个磁盘损坏时,系统都会自动的进行数据恢复,并且可设定数据恢复速度,不影响系统的应用,保证数据存储的安全性。以下图为例,每份数据都会被切片写入存储不同节点当中,当某个节点损坏或者某块硬盘损坏时,数据可以通过其他节点的数据块和校验块进行快速自愈。

60Server2DIMF-l"すDisk5Server33.6.1缓存加速技术综合考虑性能、容量、易失性、成本因素存储系统目前多采用SSD及HDD介质做数据存储。如果全部用SSD来存储所有数据,成本费用将会非常高。相反,如果全部用HDD来存储所有数据,成本虽然很低,但是某些场景下的性能却难以达到性能需求。当前专业分布式存储已经具备多模态缓存加速技术,其根本特征在于可根据对髙性能存储设备的不同应用目的而选择不同的规则。新华网新购置存储要求支持持三种缓存加速模式:读加速、写加速和读写加速。首先,存储系统启动后,会通过系统负载判断进行数据的智能迁移以确保高性能存储层有足够的存储空间,其次,缓存加速功能允许为不同等级的存储层配置为不同数据保护模式,要求在副本池和纠删码池同时支持缓存加速功能。在缓存加速层中,主要存储热点数据,如当前用户频繁访问的数据,会被系统的热度表记录下来,判断热度时间比对,找到热点数据,同时配置该加速层为副本模式,由于副本数据是直接读写,无需计算过程,具有明显的访问效率优势。新华网业务容量需求大,在容量存储层,主要存储冷数据或者近线数据,推荐配置为纠删码模式,具有明显的容量利用率优势,适合保存长期不用的数据或者访问很少的数据。

61Totalcapacity=harddriveTotalcapacity=harddriveTotalcapacity=harddriveHDDStorageSSDStorage3.6.1远程复制功能为了满足未来新华网容灾建设需求,新购置存储应具备远程复制功能,远程复制,是为了达到数据保护或数据灾难恢复的目的,复制数据到远程位置的设备。可根据管理员指定的周期性时间策略,进行目录间数据的异步复制,通过远程复制功能实现存储集群间的数据同步,完成数据容灾,保证数据中心级的容灾。同时新存储系统将能够提供S3、HDFS、Swift等接口协议,方便新华网未来对接云平台、对象、大数据分析等开放接口。3.6.2新建分布式存储系统容量性能计算分析当前新华网存储容量GlusterFS和FastDFS等共计约400TB左右的实际使用空间,新购置存储要求满足未来五年的容量,预计500TB左右的可用空间,按照前面对当前主流市场的存储进行调研结果看,采用副本和纠删码池混合存储方式更有效的节省空间,降低资源损耗,同时要求系统支持副本池和纠删码池的自动调节或者手动配额管理。为了保证存储的节能和空间利用,建议采用4U36盘位的存储节点(X86服务器),作为集群单元,每个节点配置1块SSD作为性能加速使用,其余35块作为数据盘使用存储业务数据。分布式存储系统内部互通互联选用万兆交换机光口链接方式,性能、延

62迟都有极大的提升,每个节点配置两个万兆光口,两个千兆网口,ー个千兆管理网口。由于分布式存储系统有副本和纠删码两种存储池共同存在,所以对于存储容量计算也是弹性的,若存储系统没有进行相对应存储池的配额管理,那么整个分布式系统就会被看做ー个大存储池,而纠删码池和副本池会分配掉大存储池的空间,这两个池是随着所需容量灵活调配的。按照新华网目前现有数据和增长情况看,选用8台4U36盘位节点组成集群,每个节点SSD作为分层加速磁盘,其余35块选用4TBNL-SAS磁盘,整体裸容量达到4TB*35*8*0.93=1041.6TB=1PB裸容量,如果是双副本情况下,容量将达到500TB左右实际有效可用空间;对于纠删码保护方式,采用4+2的节点故障域计算方式,可用容量将达到66%,可用容量达到687.06TB,并且可以保证两个节点损坏数据不丢失,业务不中断,单节点内磁盘损坏直接自动修复(只要有剩余空间)。根据目前市场主流分布式存储产品性能对比,整体分布式存储系统在连续读写场景下,单节点最高性能应达到1GB/S以上,8节点整体性能可达到5GB/S以上带宽,近线性提升。3.6.1统一存储资源规划设计当前新华网统一存储环境相对简单,目前现有存储FAS3000、FAS8020两台,5500V3、6800V3,其中一台FAS8020和6800V3剩余380TB空间,FAS8020用于音视频的nas存储使用,空间剩余3TB,基本没有可用空间,同时两台FAS3000用于存放归档数据,定期删除,暂不进入整合之中,5500V3用于。racle数据库,剩余空间不足10%,所以剩余一台FAS8020和一台6800V3使用,将通过虚拟化网关方式统ー整合,目的是对剩余空间做整合,统ー资源调配,并且已经映射的卷和挂载的目录不进行修改,不影响业务,而剩余的空间可以直接把存储空间以逻辑卷方式映射给虚拟化网关,通过虚拟化网关二次映射,对外提供统一的存储资源,完成异构存储空间整合,总体统一存储架构图如下图所示。

63新存储剰余数据空ヨ整合)3.6.1.1存储虚拟化解决方案介绍虚拟存储是ー种具有智能结构的系统,它将允许新华网当前统一存储以透明有效的方式在磁盘和磁带上存储数据,统ー管理磁盘空间,使得企业的存储系统能够容纳更多的数据,也使得更多的用户可以共享同一个系统。在虚拟存储环境下,无论后端物理存储是什么设备,服务器及其应用系统看到的都是其物理设备的逻辑映像。即使物理存储发生变化,这种逻辑映像也不会改变,系统管理员不必再关心后端存储,只需专注于管理存储空间,所有的存储管理操作,例如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等都比以前容易的多,存储管理变得轻松简单。在虚拟存储环境下,存储对用户来说将变得透明,用户可以不必关心存储设备的功能差别、容量大小、设备类型和制造商如何,所有的设备将被统一管理,而且具备统ー的功能如快照、自动精简、远程灾备等。虚拟化引擎为带内管理产品,采用模块化的结构,支持多节点集群扩展,每个节点有大的缓存和高性能的处理器,位于存储和主机之间,可以把不同存储设备组成一个大型的存储池,其中的若干存储设备以ー个统ー逻辑设备存在,可以被系统中所有服务器访问,防止出现存储设备的信息孤岛。虚拟存储控制设备有多个数据通路与存储设备连接,多个存储设备并发工作,同时主机也可以有多条数据通路同虚拟引擎,多条路径并发工作。可以做到共享不同厂家存储设备,实现统ー管理、远程灾备、本地的快闪备份及在线数据迁移等功能,真正的实现不同存储之间的块级别的共享。

643.662虚拟化引擎介绍存储虚拟化引擎采用带内方式进行存储虚拟化,虚拟化引擎是ー个集群系统,由多个节点组成。一套系统至少由2个节点组成,最大支持扩展至8个节点集群,为前端主机提供10服务。在ー个虚拟化引擎系统里,存储子系统中的ー个或多个存储单元被映射为虚拟化网关内部的存储单元MDisk,一个或多个MDisk可以被虚拟化为ー个存储资源池(pool),所有的存储资源池对后端的都有节点均可见。存储资源池按照一定的分配策略(如条带、镜像、顺序)分配虚拟的存储单元,叫做VDisk。网关的2个节点以VDsik为单位为Host提供LUN映射(LUN-Mapping)服务,使得Host可通过HBAナ访问别提供LUN映射服务的VDisko虚拟化的关系如下图所示:存储子系统\T>isklMDiskl□□0图1MDisk与Vdisk的关系存储系统コ.日

65图2加入虚拟化网关后加速对存储子系统的访问I。3.662虚拟化网关的工作原理(-)不同级别虚拟化系统设计思想正如以上所述,在存储子系统与主机之间引入虚拟化网关后,主机所有的I/O必然要经过网关内部,相当于虚拟化网关要接管从主机过来的所有I/O0要做到这一点,网关内部必须实现ー个虚拟层,使得主机仿佛可以直接访问真正的物理存储系统。这个虚拟层的实现依赖于存储虚拟化技术。存储虚拟化的基本概念是将实际的物理存储实体与存储的逻辑表示分离开来,应用服务器只与分配给它们虚拟卷打交道,而不用关心其数据是在哪个物理存储实体上。为实现存储虚拟层,虚拟化网关借鉴了已有的存储虚拟化技术:>存储子系统级别的虚拟化存储子系统级别的虚拟化,使用HBA卡(HostBusAdapter)连接磁盘柜,通过HBA卡驱动,物理磁盘被映射为系统中的sda、sdb、sdc等SCSI磁盘块设备,块设备上层的虚拟化原理上和主机级别子系统块设备的虚拟化类似。>网络级别的存储虚拟化网络级别的存储虚拟化分两种:带外(OutofBand)和带内(InBand)。如下图所示是带外(〇utofBand)存储虚拟化的一种方式,存储子系统通过SAN使得3个不

66同类别的操作系统在元数据服务器(MetadataServer)的锁(Lock)机制控制下共用存储子系统中的3个存储单元。在每个Host上,3个存储单元被虚拟化为ー个条带组,使得各个Host可以采用统ー的条带策略控制各自的I/O行为。Stx^>eGroif)000图3网络级别带外存储虚拟化图4网络级别带内存储虚拟化带内(In-Band)的方式实际上是通过数据通道(DataPath)上的虚拟化软件,把呈现在SAN中一个或多个存储子系统的存储单元虚拟化成另外一种方式的虚拟存储单元,

67称为VDisks。如下图所示是属于带内(In-Band)存储虚拟化。目前网关使用带内的虚拟化方式,也就是说,虚拟化引擎把主机级别的虚拟化实现在SAN的网络层次上实现。(-)虚拟化原理传统的SAN网络中,每种存储系统都自成一体,就像一个个独立的孤岛,无法构成一片统一的大陆。网关相当于整个SAN网络的控制器,它将整个SAN中的各种存储设备整合成一个巨大的存储池,充分利用存储资源和按需分配存储空间、性能和功能,满足新华网未来的发展方向。异构虚拟化的工作原理是把异构的存储阵列映射到引擎,通过引擎的虚拟化功能,把异构存储阵列整合为一个统ー的存储资源池。SAN阵列提供的是大量的Disks或LUNs映射给虚拟化引擎后即MDisk,一个MDisk来自于后端SAN磁盘阵列的ー个RAID阵列。应用服务器端看不到MDisk,看到的是MDisk通过虚拟化引擎按照一定的策略虚拟化化整合后的虚拟(逻辑)卷即VDisk。ー个或多个MDisk被放到存储资源池中(storagepool),资源池根据Host需要被划分为16MB-8192MB大小的逻辑块,由虚拟化引擎提供给Hosto被映射给主机服务器的虚拟卷来自于一个存储资源池,如果是镜像卷则来自于两个存储资源池。ー个MDisk的容量上限是1PB,集群系统最大支持4096个MDisko实体存储FCHDD000005SATAHDD图5虚拟化原理虚拟化网关实现了虚拟存储层的功能,将存储智能加入到SAN的网络中。现在新华网可以按照应用不断变化的需求来分配存储,而不再受制于存储子系统设备在功能和性能上的限制。同时

68网关又是ー个SAN网络的中心管理控制点,而且它对服务器的操作系统和存储子系统是透明的。(三)虚拟化网关的可靠性和可用性本次新华网项目网关采用了RAS的设计思想:通过冗余组件使系统具有极高的可靠性,可用性以及高服务性,采用高可靠、高可用及搞服务架构,在现有SAN冗余环境中加入虚拟化引擎,利用现有的SAN冗余链路作为节点通信通道。加入引擎后的系统没有破坏现有SAN拓扑,并且所有网关节点看到统ー的存储资源集合。>高度冗余的部件由于引擎是一个集群系统,当中的每个部件都有对应的冗余部件,例如,节点与节点之间互为备份,前端FC主机端口之间可以互为备份。后端FC端ロ之间也可以互为备份,整个系统没有单一的故障点:具有非常高的可靠性。>缓存同步保证数据一致性在引擎的ー对节点中,当ー个节点出现故障时,通过这个节点的所有!/O就会切换到另外一个节点;为了使节点中的Cache数据在出现故障时不丢失,该节点在正常工作时会把每个!/O的Cache数据同步到另外一个节点的Cache中,使得同一个I/OGroup里的2个节点维护着相同的Cache元数据,如下图所示。因此,在某个节点出现故障时,能够保证100%的数据完整性。3.662同构和异构存储资源存储虚拟化引擎,它屏蔽了各种所支持的存储子系统的差别,对Host提供的I/O服务均以统一的存储单元Vdisk为单位。这种特征有利于提高存储系统的利用率,并且可进行集中管理。虚拟化引擎的加入并不影响现有SAN环境的拓扑,它只是把自己连接到光纤交换机上。通过一定的配置操作,能够检测到各种存储子系统中的存储单元,并且把这些存储单元映射成一个个的MDiskSo每一个节点都看到统ー的Mdisks集合。使用这些Mdisks创建统ー的存储资源池,并从资源池中划分虚拟卷空间给主机使用。通过光纤交换机的Zone划分,主机只能识别到二次映射的虚拟卷。因此,该技术屏蔽了各种存储子系统的差别。同构异构的存储资源带来很多的好处:>统一管理存储资源

69虚拟化引擎能够对接入的存储子系统进行监控,并提供自动报警机制。例如A存储子系统中的一个磁盘出现故障,能够检查到它,并通过SNMP报告给管理终端,管理终端通过邮件或者电话通知管理员。因此,网关页成为了一个集中管理点,统ー了存储资源的管理;否则,用户必须安装不同厂商的存储子系统管理软件。>可实现不同存储系统中的容灾备份和数据迁移在没有加入虚拟化引擎之前,企业中的数据可能存放在不同厂商存储子系统中。企业必须要使用各个厂商存储子系统的容灾备份策略来防止企业数据丢失,而且,不同存储子系统之间不能实现实时的互为容灾备份,这给企业带来很多不便,尤其在企业数据变得越来越关键和庞大的时候。更重要的是,由于没有统ー的容灾备份策略,企业往往需要在不同时刻,不同时间,投入越来越多的成本保证企业数据不丢失。使用了虚拟化后,企业中的数据采用了统ー的容灾备份策略,因为虚拟化引擎提供的数据镜像功能使得不同厂商之间可以轻松地实现实时的容灾备份以及数据迁移,同时与其他厂商的容灾备份策略兼容。>自动服务质量管理机制(QoS)许多存储子系统ー样,提供了有效的QoS(QualityofService)机制。QoS是ー种保证和控制主机I/O流量和带宽的机制。例如,ー个140MB每秒的影像流必须精确地以140MB每秒的传输率传输到存储中,否则,影像文件会无法使用。可通过QoS机制,使得对主机的I/Q可以得到严格的控制。在ー个SAN的共享环境中,通过使用QoS机制,可以防止ー些应用程序过多地占用共享带宽,从而保证了需要髙带宽服务的应用程序正常工作。3.662无缝接入用户现有环境将虚拟化引擎接入到光纤交换机中,预先设置好交换机Zone〇将新存储设备或者新华网原有的处处接入到交换机上。修改原有存储设备OceanStor6800V3新卷的映射关系,将原有存储设备直接映射给前端Host改为映射到虚拟化引擎层:做RAID划LUN,并将磁盘映射到虚拟化引擎上。这样虚拟化引擎层,能看到原有存储和新加入存储映射过来的磁盘,即MDisko将一个或多个MDisk按照一定的策略虚拟化成一个或多个统ー的资源池,即Poo!〇根据前端Host

70的需求不同,在资源池中划分不同大小的虚拟卷(VDisk)映射给Host使用。虚拟逻辑卷支持设置为ThickLun、ThinLun,compressLun等多种Lun。并且支持各种lun之间相互转换。比如,可以将一个标准lun在线转变成自动精简lun,从而使用自动精简功能,按需在线预分配虚拟存储空间,并设定容量空间阈值,当空间使用达到阈值时,自动报警提示,再按需增加容量空间。3.662方案价值基于虚拟化引擎的虚拟化异构整合方案,兼容和整合现有新华网的存储设备FAS8020和华为6800V3,对剩余空间进行统一管理,精简部署,简化数据中心管理复杂度,降低用户投入成本和管理复杂度。其卷镜像功能、远程镜像功能等,提高数据的安全性和业务的连续性;自动精简、在线压缩、自动分层等功能,从整体上提髙数据中心资源的使用效率。具体如下:整合现有Netapp和华为存储资源,实现存储容量共享,提升利用率>通过单ー界面实现统ー管理,而无需考虑不同品牌的设备供应商,可以提升管理员工作效率;>可实施层级存储,使低端存储系统也能应用到数据中心,提升性价比;>可以使企业灵活地购买存储容量。仅其ー个集群可以管理的容量。虚拟成本最低,管理简单便捷>不需要另购交换机与改造现有的网络,只需部署虚拟化引擎到现有的SAN网络即可:>一体化的存储管理,降低了系统的复杂性,可节省管理成本。模块化设计,以集群方式进行扩展,可适应企业规模逐步扩张的需求>增强系统可用性,减少因存储导致的宕机给业务带来的损失;>虚拟磁盘镜像,使在存储系统间进行数据迁移时,无需中断应用程序,可实现灵活升级信息管理架构;>统ー的平台,使得即使在异构存储环境中也能轻松实现容灾;>有效避免了信息孤岛,实现统ー管理和24*7小时信息高可用,轻松支持企业的决策;>打破特定物理存储系统的限制的虚拟化技术,让企业动态的响应市场需求,

71从而轻松、快速的拓展业务;基于虚拟卷镜像的数据髙可用,有效保障用户数据安全性和业务连续性存储卷镜像技术,能够实现跨异构存储设备的数据实时一致,两份数据都可用,一旦任意存储设备出现故障,可实现存储资源的在线切换,避免业务长时间停滞;>基于统ー资源池的一体化存储管理,虚拟化引擎具备异构存储整合管理功能,统ー资源池对外提供服务,有效的把数据中心里的存储资源整合到ー起,提髙资源流动性,防止资源利用不均衡;>具备快照、卷复制等功能,保障人为误操作、病毒攻击以及逻辑错误导致数据损坏时,可快速实现数据回滚,提高数据可靠性。3.7网络资源规划3.7.1设计原则软件定义网络东西向流量网络方案设计,应遵循以下原则:就近原则:流量尽量不要跨集群,跨区,以免消耗东西向带宽。自治原则:同一虚拟化平台的流量尽量在该区集群内流动。同时,将控制平面与网络平面相分离。3.7.2物理网络规划设计在不同的用户环境中,物理数据中心网络在数据中心中使用的网络拓扑不同。分层网络设计可提供数据中心网络所需的高可用性和可扩展性。软件定义网络的重要目标之一是提供虚拟网络到物理网络的抽象化处理。物理结构必须提供具有以下特点的可靠IP传输。♦简单♦可扩展♦高带宽♦容错♦提供QoS

72新华网云计算数据中心项目进行软件定义网络规划时,应充分考虑了上述这些设计准则。方案中“访问层交换机”、“架顶式(ToR)交换机”和“分支交换机”这几个术语可以互换。分支交换机通常位于机架内,为该机架内的服务器提供网络访问。“聚合层”和“主干层”(用于有效提供机架之间的连接)这两个术语是指网络中聚合所有访问交换机的位置。Aggregation/SpineAccess/Leaf

73图:分支-主干拓扑3.7.2.I简单组成数据中心内的整体结构的交换机的配置必须简单。无论交换机位于何处,诸如AAA、SNMP,SYSLOG.NTP等常规或全局配置都应该逐行复制。下面是数据中心结构设计连接方式的主要示例。>分支交换机面向机架内的服务器的端口应具有最低配置。下图是分支节点的简要的物理和逻辑表示图。Hypervizor3卬>0,99.1^5/26DGW:>0.99X1K>M.U$/2«IO.77.1JS/MDGW:W.66.1.1GW:10.77X1キMOvMotkon图:分支节点的简要的物理和逻辑表示图假定服务器具有多个相同速度的接口,则可以使用链路聚合。其中两个重要选项是基于负载的绑定(其路由基于虚拟网络适配器负载)以及基于!EEE802.3ad标准的链路聚合控制协议(LACP)o使用绑定选项可最好地利用可用带宽,同时还可提供可应对应对链路故障的髙可靠性。通常,801.Q主干用于支持少量VLAN:例如VXLAN安全加密链路、管理存储流量等。交换机分别针对每个VLAN终止和提供默认网关功能:即,它为每个VLAN提供ー个交换机虚拟接口(SVI)o从ToR交换机或分支交换机到聚合或主干层的上行链路是点对点路由链路。不允许在上行链路中使用VLAN中继,甚至对于单个VLAN也不行。将在分支和主干交换机之间配置动态路由协议(例如OSPF、ISIS、BGP)»机架中的每个ToR交换机都会通报几个前缀,通常是ー个VLAN或ー个子网ー个前缀。进而,它将根据从其他ToR交换机收到的前缀计算等成本路径。

74SpineLeaf图:分支和主干交换机之间的第3层连接>主干交换机主干交换机只有连接到分支交换机的接口,所有接口均配置为点对点路由链路,能有效充当分支交换机的点对点上行链路的“另一端”。Spine图:主干交换机接口主干交换机之间通常不需要链路。如果主干交换机和分支交换机之间的链路出现故障,路由协议将确保不会将受影响机架的流量引到已与该机架断开连接的主干交换机。3.7.2.2可扩展与扩展能力有关的因素包括结构中支持的机架数量、数据中心中任何两个机架之间存在的带宽、分支交换机在与另一机架通信时可以选择的路径数量,等等。结构中支持的机架数量由所有主干交换机中的可用端口总数以及可接受的超额预订比率确定。更多详细信息,请参见“高带宽”ー节。不同的机架可能托管不同类型的基础架构。例如,可能存在包含文件服务器或其他存储系统的机架。从其性质上看,此类机架可能会比数据中心中的其他机架吸引或

75输出更多流量。此外,与用于连接到外部环境的边缘机架不同,计算机架(即,托管包含工作负载或虚拟机的虚拟化管理程序的机架)的流量级别可能具有不同的带宽要求。为了满足不同的带宽要求,链路速度以及链路数量会有所不同。可以针对每个机架做出调整,而不影响主干交换机或分支交换机的任何体系结构。图:分支一主干拓扑中的计算、基础架构和边缘机架设计与主干交换机之间的链路的数量确定了从此机架到其他机架的流量可以选择的路径的数量。由于任何两个机架之间的跃点数是一致的,因此可以利用等成本多路径(ECMP)策略。假定服务器输出的流量带有TCP或UDP标头,则每个通信流都可能会发生四处传输流量的现象。3.723高带宽在主干ー分支交换机拓扑中,如果发生超额预订,则通常发生在ー个位置,即分支交换机。计算方式非常简单:可供连接到给定分支交换机的所有服务器使用的总带宽量除以聚合的上行链路带宽量就是超额预订比率。例如,20台各具有一个10Gb以太网(10GbE)端口的服务器可产生最多200Gbps的带宽。假定有8个10GbE上行链路链接到主干,即总共80Gbps,则超额预订比率是2.5:1。

76图:分支-主干拓扑的超额预订示例如上ー节所述,根据机架的功能,可以通过调配更多或更少上行链路,向机架提供更多或更少带宽。换句话说,每个机架的超额预订级别可能不同。从体系结构的角度看,必须遵循一条规则:从分支交换机到每个主干交换机的上行链路数量必须相同;即,到主干交换机A有两条上行链路,而到主干交换机B、C和D只有一条上行链路,这样的设计欠佳,因为将会有“更多”流量通过主干交换机A发送到分支交换机,从而可能产生热点。372.4容错环境越大,构成整体结构的交换机就越多,数据中心交换结构的一个组件出现故障的可能性也越大。应构建具有恢复能力的结构的理由是,它可以承受单个链路或服务器故障,而不会产生大范围影响。

77图:分支一主干拓扑中的链路故障情景例如,如果一个主干交换机出现故障,机架之间的流量将继续通过剩余的主干交换机在第3层结构中路由。对于第3层结构,路由协议可确保只能选择剩余的路径。此外,由于可以安装两个以上的主干交换机,因此可以减少主干交换机故障所产生的影响。图:主干交换机故障情景及其对带宽的影响支持多路径的结构可处理服务器或链路故障,从而减少手动执行网络维护或操作的需要。如果必须对结构交换机进行软件升级,则可以通过更改路由协议指标使节点平稳地退出使用;通过该交换机的流量很快就会从该交换机抽离出来,从而释放交换机以便进行维护。根据主干的宽度(即,聚合或主干层中有多少台交换机),其余交换机必须承担的额外负载不像聚合层中只有两台交换机时那么多。

783.725差异化服务一服务质量虚拟化环境必须跨交换基础架构传送各种类型的流量,包括租户、存储和管理流量。每种流量都具有不同的特征,对物理交换基础架构也有不同的要求。虽然管理流量通常较少,但它对于控制物理和虚拟网络状态却至关重要。IP存储流量通常较多,并且一般位于数据中心内。云运营商可能会为租户提供各种级别的服务。整个结构中不同租户的流量具有不同的服务质量(QoS)值。图:服务质量(QoS)标记对于虚拟化环境,虚拟化管理程序会显示可信边界,这意味着它会为不同的流量类型设置相应的QoS值。在这种情况下,物理交换基础架构应该“信任”这些值。不需要在面向服务器的分支交换机端口上重新分级。如果物理交换基础架构中存在拥塞点,将检查QoS值,以确定应如何设定流量的顺序或优先级,并且可能需要丢弃流物理交换基础架构中支持两种类型的QoS配置;ー种在第2层处理,另ー种在第3层或IP层处理。第2层QoS有时称为“服务等级”,第3层QoS称为"DSCP标记”。在VMwarevSphere5.5版中,服务等级和DSCP标记均受支持,用户可以基于流量类型或数据包分类方法标记流量。当虚拟机连接到基于VXLAN的逻辑交换机或网络时,来自内部数据包标头的QoS值将被复制到VXLAN封装的标头。这使外部物理网络能够基于外部标头中的标记设定流量的优先级。3.7.1NSX方案设计基于可扩展的网络结构实施软件定义网络。软件定义网络主要包含三个方面:分

79离、重现和自动化。要实现所需效率,这三个方面全都非常重要,其中“分离”是简化和扩展物理基础架构的关键。软件定义网络解决方案只能按照可扩展结构提供的方式使用连接选项,具体说就是,软件定义网络解决方案不能使VLAN超出交换基础架构内单个机架的范围。在构建新环境时,选择允许未来增长的体系结构很有必要。此处讨论的方法适用于从小规模开始逐步扩展为大规模、同时在整体上仍然保留相同体系结构的部署。此类部署的指导原则是,软件定义网络解决方案并不意味着VLAN能超出单个机架的范围。尽管这似乎是ー个很简单的要求,但它却对物理交换基础架构的构建方式和扩展方式具有广泛影响。我们按照如上这些指导原则为新华网进行软件定义网络规划,为其数据中心划分了以下三种不同类型的机架。♦计算♦边缘♦基础架构图:数据中心设计ー访问层中的第3层3.7.3.I计算机架计算机架是基础架构内承载租户虚拟机的部分。它们应该具有以下设计特征:

80♦与现有网络互操作♦对于新部署或重新设计情形•应该不需要对虚拟机使用VLAN•应该不需要VLAN来扩展到计算机架之外♦提供可重复的机架设计虚拟化管理程序通常会输出三种或更多种类型的流量。下面我们来了解VXLAN、管理、vSpherevMotion和存储流量。VXLAN流量是一种新型流量,携带所有虚拟机通信数据并将其封装在UDP帧中。下面一节将讨论虚拟化管理程序如何连接到外部网络以及通常如何配置这些不同类型的流量。373.2连接虚拟化管理程序机架中的服务器通过许多1Gb以太网(1GbE)接口或数量有限的10GbE接口连接到访问层交换机。

81我们可以通过VLAN将不同的流量类型隔离,从而实现明确的分离以便于进行IP寻址。将为各种VMkernel网卡分配不同的VLAN和IP地址。每个VLAN都在分支交换机处终止,因此分支交换机将为每个VLAN提供第3层接口。此类接口也称为SVI或RVL10.66.1.25/26DGW:10.66.1.1SNUOU&SVLANTrunk(802.1Q)vMotion1O.77.U5/26GW:10.77.1.1VXLANvSphereHost(ESXI)Storage10.99.1.25/26DGW:10.99.1.1SNVTAoueds图:机架中的主机和分支交换机配置由于虚拟化管理程序可以有多个路由接口,因此我们将详细介绍如何配置它们。可以通过DHCP为不同的VMkernel网卡分配不同的网关,或者也可以静态分配IP地址。选择静态分配方式时,只能配置ー个默认网关。这需要进行静态路由配置,管理网络VMkernel网卡不需要静态路由配置,但其他VMkernel网卡则需要。现在,我们来更详细地介绍一些主机流量类型。>VXLAN流量使用VXLAN完成对vSphere主机的软件定义网络准备工作后,在这些主机上将支持ー种新的流量类型。连接到基于VXLAN的逻辑第2层网络之一的虚拟机将使用这种类型的流量进行通信。来自虚拟机的流量将被封装成VXLAN流量并发送出去。外部物理结构从不检测虚拟机IP和MAC地址。将使用虚拟安全加密链路端点(VTEP)IP地址在结构中传输该帧。如果使用VXLAN,安全加密链路将由VTEP启动和终止。在同一数据中心中的虚拟机之间传输的流量通常称为东西向流量。对于这种类型的流量,源和目标VTEP都位于计算机架内的虚拟化管理程序中。例如,离开数据中心的流量将在租户虚拟机和NSX边缘之间传输。这种流量称为南北向流量。

82VXLAN配置需要一个NSXvSwitcho由于VDS可以跨越数百个虚拟化管理程序,它可能会延伸到单个分支交换机的范围之外。因此,主机VTEP即使处于同一VDS上也必须能够位于不同的子网中。基于单个VDS的设计的其中一项要求是为VXLAN传输网络定义单个VLAN。>管理流量管理流量可以分为两种类型:ー种流量流入和流出主机上的管理VMkernel接ロ;另一种流量是各种NSX组件之间的通信流量。通过主机的管理VMkernel接口传送的流量包括vCenterServer与主机之间的通信流量以及与其他管理工具(如NSXManager)之间的通信流量。NSX组件之间的通信包括活动和备用边缘设备之间的信号检测。管理流量只在数据中心内传输。单个VDS可以跨在单个分支交换机之外部署的多个虚拟化管理程序。因为没有任何VLAN可以超出分支交换机的范围,因此参与通用VDS的虚拟化管理程序的管理接口将位于单独的子网中。>vSpherevMotion流量在vSpherevMotion迁移过程中,正在运行的虚拟机的状态将通过网络传输到另一台主机。将使用每台主机上的vSpherevMotionVMkernel接口传输此虚拟机状态。将为主机上的每个vSpherevMotionVMkernel接口分配ー个IP地址。同时进行的虚拟机vSpherevMotion迁移操作的数量根据物理网卡的速度决定。在10GbE网卡上,可以同时执行8个vSpherevMotion迁移操作。为方便支持起见,建议将VMkernel接口安排在同一子网中。不过,在使用访问层中的第3层为实施软件定义网络而设计网络时,用户可以为vSpherevMotionVMkernel接口选择不同机架中的不同子网。对于日常支持,建议用户遵循RPQ过程,以便VMware验证设计。除非涉及到跨不同站点的远距离vSpherevMotion迁移,否则vSpherevMotion流量主要存在于数据中心内。与管理VMkernel接ロー样,根据主机所在的机架,该主机上的vSpherevMotionVMkernel接口将位于单独的子网中。>存储流量VMkernel接口用于提供共享或非直连式存储等功能。通常,我们是指存储可以通过IP连接(例如,NAS或iSCSI)而非FC或FCoE进行连接。从IP寻址的角度看,适用于管理流量的规则也适用于存储VMkernel接口。机架内的服务器的存储VMkernel接口(即,连接到分支交换机的接口)属于同一子网。不过此子网不能超出此分支交换机的范围。因此,位于不同机架中的主机的存储VMkerne!接口IP将位于不同的子网中。

833.73.3边缘机架在覆盖环境和物理基础架构之间进行桥接时,将加强与物理基础架构的交互。下面是边缘机架提供的主要功能。♦提供与物理网络的传入和传出连接♦与物理环境中的VLAN连接♦承载集中式物理服务如果流量没有封装在VXLAN中(例如,没有在边缘使用NAT),租户特定的寻址将向物理基础架构公开。如果是第3层边缘,覆盖环境中的IP地址将向物理结构公开。这些情况下的指导原则是将VXLAN(覆盖)流量与未封装(本机)流量分隔开。如下图所示,VXLAN流量到达数据中心内部以太网交换基础架构。本机流量遍历面向WAN或Internet的专用交换和路由基础架构,并与数据中心内部网络完全分离。

84图:VXLAN流量和数据中心内部以太网交换基础架构为了保持隔离,可以将NSXEdge虚拟机放置在边缘机架中,并假定NSXEdge至少有一个本机接口。为了实现路由和高可用性,必须分别检查两种类型的接ロ:覆盖和本机。故障切换机制基于“活动ー备用”模型,在检测到活动边缘故障后,备用边缘将接管活动边缘。在此情况下,边缘会终止所有逻辑网络并在物理和逻辑环境之间提供ー个第3层跃点。根据具体使用情形,用户可以决定采用NAT还是静态路由选项来提供与外部网络的连接。

85WANInternetい軍Ipoix.y.x2/=Edge+TenantAEdge1StaticrouteActiveVirtualMachineEdge«TenantAStandbyVirtualMachineStaticroutepointingtotheedgex.y.z.2IPaddress图:高可用性一“活动ー备用"边缘拓扑如果边缘发生故障,备用边缘将接管故障边缘,并采用以前的活动边缘的外部IP地址。为了通知上游基础架构(即,可能会使边缘和第一个物理路由器相互连接的第2层交换机),将发送一条GARP消息。若要让该机制发挥作用,VLAN必须在边缘机架之间扩展。连接VXLAN端点的安全加密链路接口不必扩展任何VLAN。故障切换前,虚拟化管理程序的VTEP将流量发送至承载该边缘的虚拟化管理程序的VTEPo故障切换后,该流量将发送至承载新的活动边缘的虚拟化管理程序的VTEP。

86图:活动边缘故障373.4基础架构机架基础架构机架承载管理组件,包括vCenterServer,NSXManager,NSXController,CMP和其他与共享!P存储相关的组件。基础架构的这一部分不包含任何租户特定的寻址,这一点非常重要。如果带宽密集型基础架构服务(例如,基于IP的存储)位于这些机架中,这些机架的带宽将可以动态扩展。373.5.5VLAN配(置正如前面所述,每个计算机架都有四个不同的子网来分别支持四种不同类型的流量:租户、管理、vSpherevMotion和存储流量。在本节中,我们将讨论如何使用vSphere主机配置文件方法自动完成向每种流量类型的VMkernel网卡配置IP地址的过程。用户可以使用主机配置文件功能来创建一个参考主机,它具有在整个部署中共享的属性。确定该主机并执行所需的示例配置后,即可基于该主机创建主机配置文件并将其应用于部署中的其他主机。使用这种方法,用户可以快速配置大量主机。在讨论如何在配置整个计算机架期间使用主机配置文件方法之前,我们先了解ー下机架中的主机上所需的示例配置类型。如图17所示,每个机架中都提供同一组VLAN(4个):存储、

87vSpherevMotion、VXLAN,管理。下面是每台主机所需的部分配置:♦相应子网或VLAN中每种流量类型的vmknicIP配置♦每个子网的静态路由配置,用于处理路由到相应网关的适当流量静态路由是必需的,因为VMwareESXi主机上的ー个TCP或IP堆栈支持会将默认网关配置数量限制为ー个。例如,在机架1中,主机1具有以下vmknic配置:♦IP地址为10.66.1.10的存储vmknic♦IP地址为10.77.1.10的vSpherevMotionvmknic♦IP地址为10.88.1.10的VXLANvmknic♦IP地址为10.99.1.10的管理vmknic主机1上的默认网关配置位于管理vmknic子网10.99.1.0/26中。为了向其他子网提供适当路由支持,将在准备主机1的过程中配置以下静态路由:♦存储网络路由一esxclinetworkiprouteipv4add-n10.66.0.0/26-g10.66.1.1♦vSpherevMotion网络路由-esxclinetworkiprouteipv4add-n10.77.0.0/26-g10.77.1.1配置完机架1的主机1后,将创建一个主机配置文件,随后将此配置文件应用于机架中的其他主机。将配置文件应用于主机后,将创建新vmknic并添加静态路由,以简化部署。在vSphereAutoDeploy环境中,PXE引导基础架构连同AutoDeploy服务器和vCenterServer支持主机引导过程,并帮助自动执行ESXi主机的部署和升级。

88图:主机基础架构流量类型和IP地址分配IPADDRESSMANAGEMENTANDVLANs,FunctionGlobalVLANIDIPAddressStorage6610.66.R_id.x/26vMotion7710.77.RJd.x/26VXLAN/VTEP8810.88.R_id.x/26Management9910.99.R_id.x/26表:IP地址管理和VLAN373.6多层边缘和多层应用设计注意事项经典的多层计算体系结构具有逻辑上分离的多项功能,每项功能在资源访问、数据分离和安全性方面都有不同的要求。经典的三层体系结构通常包含一个表示层、ー个应用或数据访问层和一个数据库层。应允许应用层与数据库层通信,而外部用户只能访问表示层,该层通常是ー个基于Web的服务。为遵守数据访问策略,建议的解决方案是部署一个包含两层的边缘设计。内部边缘在由不同的逻辑网络表示的表示层、数据库层和应用层之间实现VXLAN到VXLAN之间的东西向流量。外部边缘将表现层与外部环境相连以提供传入和传出流量。特定虚拟网络内的通信使虚拟机能够

89跨越多个机架,以实现计算机架基础架构的最佳利用率。在当前阶段,逻辑网络只能跨单个vCenter域。下图显示了此体系结构的逻辑元素的位置。图:多层应用中逻辑元素位置的两种选项最好将外部边缘实际放置在边缘机架中。内部边缘可以集中放置在边缘机架中,也可以分布于Web和应用计算资源所在的计算机架中。3.73.7逻辑交换在设置NSX系统时,控制器集群、UWA和VTEP都是由NSXManager创建并部署。当这些模块部署完毕,通过NSXManager可以定义创建逻辑交换网络的范围(aTransportZone),在ー个TransportZone里我们可以添加X86主机集群Cluster0举例说明:一个数据中心里有10个cluster,我们可以定义ー个transportzone,添加10个cluster到这个Zone里,既当我们设置ー个逻辑交换网络时,该网络可以横跨整个数据中心。下图是新华网的NSX部署网络架构,边界网关可以安置在EdgeRack用于连接广域网和其他外部网络。WANInternet

90图:机架中的逻辑交换组件>逻辑交换寻址在具有多个租户的大型云环境或具有多个组织和应用的大企业中,IP地址管理是ー项关键任务。在本节中我们将重点讨论对逻辑交换机上部署的虚拟机的IP地址管理。创建的每个逻辑交换机都是ー个单独的第2层广播域,它可以使用专用IP空间或公共IP空间与一个单独的子网相关联。根据是使用专用IP空间还是公共IP空间向逻辑网络分配地址,用户必须在NSXEdge服务路由器上选择使用NAT还是非NAT选项。因此,IP地址分配取决于虚拟机是通过NAT还是非NAT配置连接到逻辑交换机。我们将分别查看下面两种部署的示例:♦使用Edge服务路由器的NAT服务♦不使用Edge服务路由器的NAT服务1)使用网络地址转换在组织的IP地址空间有限的部署中,将使用NAT来提供从专用IP空间到有限的公共IP地址的地址转换。通过利用Edge服务路由器,用户可允许各个租户创建他们自己的专用IP地址池,这些地址最终将映射到Edge服务路由器外部接口的可公开路由的外部IP地址。

91下图显示了一个三层应用部署,其中每ー层的虚拟机都连接到单独的逻辑交换机。Web、应用和数据库逻辑交换机连接到Edge服务路由器的三个内部接口。Edge服务路由器的外部接口通过外部数据中心路由器连接到InternetoExternal1«21W.1M.3VLANWeb10JBJ0.1010JQ.10.1010J0.10.1110J0.10.121020.201010.202011NetworksEdgeServicesRouterPerimeterNSX图:NSXEdge服务路由器上的NAT和DHCP配置下面是NSXEdge服务路由器的配置详情:Web、应用和数据库逻辑交换机连接到NSXEdge服务路由器的内部接口。♦NSXEdge服务路由器的上行链路接口连接到位于子网192.168.100.0/24内的VLAN端口组。♦通过提供IP地址池在该内部接口上启用DHCP服务例如,10.20:10.10至リ10.20:10.50。♦vCloudNetworkingandSecurityEdge网关的外部接口上的NAT配置使逻辑交换机上的虚拟机能够与外部网络中的设备通信。仅当请求是由连接到Edge服务路由器的内部接口的虚拟机发起时,オ允许这种通信。如果需要支持重叠IP和MAC地址,则建议对每个租户使用ー个Edge服务路由器。下图显示了具有两个租户和两个单独的NSXEdge服务路由器的重叠IP地址

92部署,不同租户的VM可以使用相同的IP地址,甚至不同租户的MAC地址也可以重复。根据新华网数据中心的实际情况,采用此种设计方式。ExternalNetworksVLAN30UplinkX3Tenant2WebLogicalSwitchNSXEdgeServicesRouterAppLogtcai|D8LogicalSvm时图:重叠IP和MAC地址2)不使用网络地址转换不受可路由IP地址限制的组织、有虚拟机使用公共IP地址的组织或者不想部署NAT的组织可以使用NSX平台提供的静态和动态路由功能。在NSX平台中支持两种不同模式的逻辑路由。ー种称为分布式路由,另ー种称为集中式路由。分布式路由为东西向流量提供更高的吞吐量和性能,而集中式路由则处理南北向流量。3.7.3.8逻辑路由利用分布式路由与集中式路由可以灵活的部署路由网络。NSXforvSpher支持以下两种组合。>物理路由器作为分布式路由的下一跳网关如下图所示,ー个组织托管多个应用,并希望在不同的应用层之间提供连接,同时还希望能够连接到外部网络。在该拓扑中,由单独的逻辑交换机为特定层中的虚拟机提供第2层网络连接。分布式逻辑路由配置允许两个不同层上的虚拟机相互通信。同样,逻辑路由器上的动态路由协议支持允许与下ー跃点物理路由器交换路由。这进而使外部用户能够访问连接到数据中心中的逻辑交换机的应用。在这种拓扑中,东西向和南北向路由决策以分布式方式在虚拟化管理程序级别做

93出。分布式路由连接不同的逻辑交换网络,实现东西向通信,分布式路由与物理下ー跳路由器间运行动态路由,连接南北向路由。在这个网络架构下,每个hypervisor路由表处理所有流向的路由通信。图:用作下ー跃点的物理路由器>NSXEdge作为分布式路由的下ー跳网关在需要支持多租户的网络中,每个租户的网络属性是不同的,既不同的架构,不同的网络服务。在这种需求下,NSXEdge配合分布式路由方式很好的解决了多租户网络需求。在存在多个租户的环境中,每个租户对隔离的逻辑网络和其他网络服务(如负载平衡、防火墙和VPN等)的数量可能有不同的要求。在此类部署中,NSXEdge服务路由器可提供网络服务功能以及动态路由协议支持。下图是新华网的路由规划设计示意图,两个租户通过NSXEdge服务路由器连接到外部网络。每个租户都有各自的逻辑路由器实例在租户内提供路由功能。此外,租户的逻辑路由器与NSXEdge服务路由器之间的动态路由协议配置允许租户虚拟机连接到外部网络,NSXEdge可以启用HA来实现高可用。在这种拓扑中,东西向流量路由通过虚拟化管理程序中的分布式路由器处理,南北向流量则流经NSXEdge服务路由器。

94图:NSXEdge服务路由器用作下ー跃点,并且还提供网络服务>髙扩展性的多租户网络此外,新华网可以利用NSX可以scale-out地部署多租户云网络,如图所示,左侧显示由NSXEdge提供服务的九个租户,右侧显示由Edge提供服务的另外九个租户,客户可以按需动态部署Edge以及LR来满足动态水平扩展的需求,他们可以轻松地再调配ー个NSXEdge来为更多租户提供服务。

95ExternalNetwork金Tenant1..Tenant9Tenant10..Tenant19AppLo9caibwttcnAppu>g>caioe109c«Iツ晶ムム〇二rキ占[うSb匚uvaoLogicaiS«MchNSXEdgeServiceGateway令VXLAN5021toVXLAN5029图27.可扩展拓扑3.7.3.9逻辑负载均衡负载平衡是NSX中提供的另一项网络服务,该服务可跨多个服务器分配工作负载,并实现应用的高可用性。图:NSX负载平衡>部署方式当前环境下负载处于中等水平,建议为WEB及其它应用服务器配置两组虚拟设备来提供负载均衡服务,为两组虚拟设备启用HA服务,每ー组由一主一备两台虚拟机提供服务,虚拟设备有三种尺寸(紧凑型256M内存占用,标准型1G内存占用,大型8G内存占用),建议采用标准型,这样总的开销为4颗vCPU,4GvRAM,1GB磁盘空间。

96>管理方式NSX的负载均衡功能可通过集成于vCenter的管理界面来管理,也可以通过浏览器直接登录NSXManager,即NSX的管理服务器来进行管理,操作简便。OHCPMATFirewallStaticRoutingVPNLoadBalancerPoolServersWluaiServersVirtualserverisahighlyscalableandhighlyavailableserverbuitonaduMrorrealserverscaledmembers.ThearchitectureofserverdusterisMytransparenttotenants,andmetenantsinteractwiththedustersystemastfnwereonlyaangleNgh-pvtormancevirtualserver图:NSX负栽平衡>服务策略首先创建服务器池,需要为每ー种类型的服务创建一个服务器池,然后将提供该类型服务的各服务器加入池中。并为每个池创建与之对应的虚拟服务器条目。服务类型前期主要是WEB服务,服务协议为HTTP或HTTPS。NSX共提供四种负载均衡算法:IP哈希(基于客户机地址)、最小连接(基于会话数量)、交替(基于服务器权重即处理能力)和URI(基于访问的WEB地址),根据当前情况,我们建议采用交替(Round_Robin)算法。并根据池中各服务器的处理能力高低设置合理的权重。NSX提供三种健康检测方法:HTTP、SSL和TCP,对于WEB服务来说,可选择HTTP或SSL(用于HTTPS协议),对于非WEB服务器,应采用基于TCP会话的可用性检测方法。NSX提供三种会话保持机制选项:无、Cookie或SessionID,建议对HTTP服务采用Cookie的方式,对HTTPS服务则采用SessionID的方式。以保证来自一个客户端的服务请求始终被重定向到特定的服务器(在服务可用的前提下)。

97NSX负载平衡服务扩展能力非常强,可支持要求非常严苛的应用。每个NSXEdge均可扩展至:♦吞吐量:9Gbps♦并发连接数:100万♦每秒新连接数:13.1万这些数据完全可以满足新华网云数据中心的需求。3.8资源管理规划设计3.8.1云平台部署用户环境分为内网区和DMZ区,为保证内部数据安全,本次方案中租户端节点部署在DMZ区,方便AD用户直接访问租户端,进行业务的申请及资源调用,考虑到双网隔离,租户端建议部署在物理机上,物理机配置如下:ISM节点详细说明服务器硬件处理器随部署拓扑决定,至少4核网卡至少2块网卡硬盘无要求内存随部署拓扑决定,至少4G内存网络管理网、业务网主控节点部署在内网区,本次方案中部署在虚拟机上,主机配置如下:主控节点配置详细说明硬件配置处理器随部署拓扑决定,至少8核网卡至少2块网卡硬盘大容量,最好上TB内存随部署拓扑决定,至少16GB内存网络管理网

983.8.1虚拟化对接新华网前期已部署KVM虚拟化,采用烟囱式管理方式,给后期的运维管理带来困难,本次新增虚拟化设备,包括web前端服务区、缓存服务区、中间件服务区、应用服务区以及数据库服务区,大量虚拟化设备以及不同的虚拟化平台需要统一管理。云管理平台通过调用底层虚拟化平台的控制中心实现对虚拟资源的统一管理。可以管理的虚拟化平台包括VMwareVsphere>InCloudSphere企业版与旗舰版、IBMHMC^FusionCompute^XenServer>Openstack等,可以实现的操作包括虚拟机的生命周期管理、迁移、高可用设置等。3.8.2物理机对接用户先期采购大量物理设备,包括服务器、存储、网络和安全等,设备厂商不ー,包括Dell、华为和浪潮等,本次方案建设将所有物理设备进行统一管理。起始员資总视四お点视图北昜瓷團ヘ向卜视困吉警富理忖就菅酒ヘ系操配置・工2掖崎餉更监控的对象的74t资翻诿分布费海吉,。慄,ヨ右,.tt*SUMfiWR例"河23,001M21117201272Mm72«此现・无・”・逐□且碓201P-14201P-21云平台能够监控到当前计算机CPU、内存、硬盘等的利用率,可以查看网络流量、

99磁盘I/O、进程数;实现对Linux/Unix以及Windows操作系统的监控,查看当前的进程与服务信息;支持对Tomcat、IIS、Apache等应用服务器,以及SQLServer、MySqLOracle等数据库服务器的监控。在系统硬件、负载出现异常时触发报警,提醒用户及时维护问题设备;对基础软硬件资源的CPU、内存、硬盘等的负载和网络流量进行长期的统计分析,为髙层次的资源调度提供决策依据。通过对监控数据的分析,对云数据中心资源管理系统的其他高级功能(如负载均衡、故障恢复等)进行数据支持,有效保证应用的连续性及快速响应。3.8.1Ceph对接云平台通过调用虚拟化管理中心可以监管底层虚拟资源,虚拟化平台通过在domO部署ceph软件将存储挂载到虚拟机上,实现对Ceph的管理,云平台调用虚拟化管理中心将存储挂载到云平台的虚拟机上。DomODomUDomUDomUYeeSANServiceDomUDomUDomUHypervisorSCSI控制器SSDISSDIHDDIHDD[HDDCPURAMCPURAM3.8.2AD域对接新华网拥有大量的AD信息,为方便维护用户信息,将用户信息导入云管理平台,AD用户以组织用户的身份登录平台,可以进行资源的管理及申请。的LDAF

1003.8.1公有云对接在私有云与公有云之间,部署混合云连接器软件。私有云和公有云各自为政,分别管理自身的资源。当有迁移需求时,以混合云连接器为媒介,进行云间迁移。迁移从实现上,分为冷迁移和热迁移两大类。从公有云迁移到私有云与从私有云迁移到公有云方向不同,但技术实现原理基本一致,下面仅以私有云迁移到公有云为例,进行描述。•冷迁移,即云主机关机迁移。该类迁移的可靠性较高。当私有云迁移到公有云时,将私有云环境下的虚拟机关机后,以数据复制的方式,将虚拟机磁盘文件进行导出,转换为通用的OVF(OVA)模板格式文件。通过!nCloudManager的混合云连接器,可将导出的OVF(OVA)模板导入到公有云环境。由于私有云和公有云的网络环境存在差异,云主机开机后,需要重新配置IP地址,进而完成云主机的迁移。•热迁移,即云主机开机迁移。热迁移由于开机操作,相比冷迁移,可靠性相对降低,而且迁移时间更加依赖网络带宽。当私有云迁移到公有云时,首先在公有云部署ー个无系统的云主机。如下图,InCloudManager混合云连接器提供分区分发服务,首先将私有云虚拟机的分区数据复制到连接器后端存储,然后以PXE分发的方式,将数据分发到公有云主机中。分发完成后,将私有云虚拟机关机,业务完成迁移。

101源虚拟机存储混合云连接器分目的云主机应用虚拟机应用软件系统软件虚拟机集群应用虚拟机应用虚拟机3.8PAAS平台方案设计随着大数据时代来临,数据量指数级增长,原来不相关的数据在汇聚后,可能会迸发出无数的新需求,应用的数量也急剧增多。物联网/互联网+的发展,应用对于高并发、高可靠、可弹性伸缩的需求越来越高(例如,前一段时间Azure的宕机,让某充电充企业的车联网无法使用,公交车停运)。另外,用户可能需求建设一个保密可控的私有云,也希望有多地多中心的落地模式,还希望在业务髙峰期开启弹性公有云。这些要求传统应用架构是无法满足的,我们需向互联网分布式的云架构转变。

102ilQ应用0彝中间件51大数据数据彫胀需求多变运维复杂物联网ノ互联网+高可用高并发印单性多环境混合ア混合有•跨云迁移私有云公有云开发运维一体化新华网PaaS平台建设应提供云中间件与云应用的自动化部署、弹性调度、服务化管理、运行监控以及开发交付等功能,支撑新华网应用整合及创新。PaaS平台应包括弹性运行环境、基于云计算和分布式技术的中间件服务以及开放服务接口,为各种规模和各种类型的云应用,提供松耦合、高效和高可用、高度可伸展、安全可靠等特性的应用支撑环境。3.8.1弹性运行环境弹性运行环境提供一个完整的、可扩展的运行时环境,可扩展到最现代的框架或在Linux上运行的语言。部署的应用程序享受内置的服务,并可以通过服务代理或现有的用户提供服务自动绑定到新数据服务。具备以下功能:・平台支持在VMWarevSphere或是vCloud或Openstack等laaS平台之上运行:・具备功能模块自动化部署、更新和一键横向与纵向扩展的功能;・具备可视化的资源管理中心;・平台内置负载均衡和DNS、自动化健康管理、日志和审计等功能;・提供良好的架构来支持主流的应用程序开放框架,如JavaSpring等。弹性运行环境采用业内兼容性最好、使用范围最广、解决方案最成熟的基础框架作为内核进行构建,支持多租户、自动化运维以及跨云部署。同时支持多种开发框架、编程语言、应用服务以及多种云部署环境的灵活选择,为整个平台的弹性运行以及laaS对接提供支撑。3.9.1.1laaS对接框架平台提供ー套与laaS对接的标准,称为基础设施适配接口。通过基础设施适

103配,可以实现与底层不同laaS平台的对接,支持VMWarevSphere或是vCloud,支持〇penStack等。对于其他laaS,提供南向接口,并通过适配层实现与其他laaS的对接。平台内置众多可用于生产的虚拟机模板、运行包和配置文件,包括应用引擎、关系数据库等。平台支持弹性的伸缩laaS资源。当计算资源不足时,会自动扩展虚拟机;当虚拟机闲置时,也会自动释放虚拟机。平台提供可视化的工具,对laaS进行管理,以实现平台内核组件及内置中间件的ー键式安装部署、弹性扩容、故障恢复等;通过调用laaS接口、模板复制等方式实现,以降低管理大规模的PaaS集群的门槛。3.9.1ユ弹性运行框架CaaS平台提供用于应用运行的弹性框架,帮助用户快速构建分布式的微内核应用运行容器集群,帮助用户从传统架构向云架构迁移,降低用户使用和维护Web中间件集群的成本。平台使用容器等技术提供多租户的应用运行和隔离机制。容器指能够承载程序运行的计算、存储、网络资源的有机集合,它可以是虚拟机或者Docker容器。以下Docker容器管理的总体架构。

104Docker容器管理基于Swarmapi和Dockerapi,提供完整的、一体化的管理功能。包括swarm集群部署、容器管理、磁盘管理、网络管理、规格管理、容器调度、镜像管理及容器监控,能够适配laaS的接入接口,为平台的服务提供底层资源。3.9.1基础服务基础服务通过调用底层laaS环境的服务接口,对外提供基础服务能力,为应用和其他服务提供基础的计算和存储能力。基础服务支持高可用、高并发、可伸缩的计算环境。基础服务包括弹性云主机服务、对象存储服务和负载均衡服务。(一)云主机云主机服务可提供一种获取方式简单高效、处理能力弹性可伸缩的计算服务。可以实现根据期望的硬件配置、操作系统和网络配置,创建一台或多台云主机,帮助用户快速搭建安全稳定的应用环境,提升运维效率,降低IT成本,从而更专注于业务的开发和创新。云主机服务提供弹性虚拟计算环境,可灵活定义服务规格,支持基于负载的水平扩展,真正实现云主机全生命周期的管控。

1051:cpu平均值>80%2:增加2台云主机1:cpu平均值<30%2:减少2台云主机上图是弹性云主机水平伸缩的示意图。平台监控程序实时获取服务器的运行状态,当监控程序发现资源使用达到过特定的阈值时,将触发云主机相应的伸缩任务。例如,当服务器的CPU使用率超过80%,将自动创建新的云主机,云主机将与模板保持一致,从而自动分担其他主机的任务,降低整体负载;当cpu利用率小于30%时,监控将触发云主机收缩任务,减少正在运行的云主机,从而提高整个虚拟化环境的资源利用率。主要功能:1.提供多种服务实例规格提供丰富的服务实例规格,满足各种业务需求。每种规格都具有不同的CPU、内存、带宽和存储参数,例如:可以基于SSD提供高IOPS的配置规格,满足对10要求比较高的业务需求;基于性能更高的CPU提供高计算能力的规格,满足高并发业务处理的需求场景。2.提供云主机的生命周期管理

106提供包含云主机的创建、开启、关闭、重启、暂停、恢复和删除等的全生命周期管理,并能够通过监控等手段配合,确保全周期内资源的合理利用。1.提供云主机的快照功能,实现云主机的备份功能支持手动和自动方式对系统盘、磁盘数据生成快照,通过快照回滚可以快速恢复快照生成时间点的数据状态。同时,备份数据存放在共享存储之上,增强了快照存储的安全性。2.提供云主机相关指标的监控和告警功能支持以数据表格和图表方式展示云主机的CPU利用率、CPU运行时间、磁盘读取和网络流量等指标的监控情况;并支持针对相关指标的阈值告警功能。3.提供丰富的镜像资源,并支持自定义镜像、快照镜像和共享镜像镜像(Image)是云主机实例的模板,一般包括操作系统和预装的软件。云主机服务提供多种内置镜像,例如;Windows>centos.Ubuntu>Debian等。并支持用户创建自定义镜像,将云主机的快照转化为镜像,将自己的镜像共享给其他用户等。4.提供弹性伸缩组功能,实现云主机实例数根据业务需求弹性增减弹性伸缩组提供根据用户的业务需求和策略,自动调整组内云主机数量的管理功能。使用弹性伸缩组,可以保证环境运行所需的云主机数量:在需求高峰期,弹性伸缩组可以自动增加云主机实例数,以保证性能不受影响;在需求低谷期,弹性伸缩组会减少云主机的实例数,以降低成本。5.提供云硬盘功能,系统盘和数据盘分离云硬盘是ー种可用性和可靠性都非常高的存储卷,用户可在配额范围内创建自己的云硬盘,用作云主机实例的启动分区或作为标准块储存设备附加在运行的云主机

107实例上。云硬盘支持SSD硬盘、普通硬盘两种模式,SSD硬盘能够提供更高的lOPSo1.提供网络和IP地址池管理功能提供了简单的网络隔离和IP地址资源池功能,可以实现对云主机群进行子网划分和对IP地址的高效利用。(二)对象存储对象存储服务提供了一种海量、安全和高可靠的对象存储服务,支持存储容量和吞吐能力的弹性扩展,适用于海量非结构化数据存储、备份等业务场景。云存储服务提供服务使用、管理、恢复、容灾的全套解决方案,免去用户采购、部署、优化、维护专用存储设备的成本。SwiftAPI如上图所示,对象存储采用多Server架构提供高可用,其中AuthServer提供认证系统;AccountService,ContainerService,〇bjectService将账户数据、容器数据以及文件描述性数据(名称、类型、元数据等)存储在数据库中:〇bjectService根据存储策略调用相应的Driver将对象内容存储到存储后端(ClusterFS.NFS等)。支持多个存储后端共同存在。主要功能:

1081.存储容器管理对象存储服务通过存储容器(Bucket)来进行对象的存储和管理,用户可以创建一个或多个容器,按照不同的存储内容、用途或文件类型等来对文件进行分别存储和管理。并可对容器进行配置修改、规格调整和删除等管理操作。2.权限管理容器访问权限可以分为公开和私密两种。公开:存储对象没有权限限制,只要提供有效的URL,就可以进行对容器内的对象的读、写、删除、拷贝、移动等操作。私密:对这ー类存储对象进行操作时需要提供正确的URL以及Token(Token是云存储服务对账户名及密码进行认证后生成的在一段时间内有效的字符串)オ有权限进行读、写、删除、拷贝、移动等操作。3.多种存储对象上传下载支持多种类型存储对象的上传下载,例如图片、音频、视频、视频流、文本、日志、数据库、二进制等。支持断点下载。支持分片上传。大文件上传时会自动对文件进行分片,按片上传,上传过程出现中断时,已经上传完成的部分不必重新上传。支持流式追加。针对流式文件支持流式追加,并可以在追加过程中进行读取操作。4.存储对象版本管理支持保存同一存储对象的多个历史版本,以便实现重要文件的恢复功能。5.文件浏览式WEB控制台

109提供可视化的文件浏览式管理控制台,用户可以通过浏览器方便实现存储对象的批量上传/下载、检索、管理等操作。1.可视化监控及告警支持以数据表格和图表方式展示存储容器的使用量、存储对象数等。并支持针对相关指标的阈值告警功能。2.行为审计记录用户对存储对象的操作时间、操作来源、操作对象等,方便用户行为日志分析以及存储对象变更历史追溯。(三)负载均衡服务负载均衡服务提供负载均衡,是对多台云服务器进行流量分发的负载均衡服务。负载均衡服务可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性,提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。ServerLoadBalanceLoadBalancerListenerJ\1Listener2~I~BackendServer3BackendBackendServer]Server2

110主要功能:1.负载均衡实例管理支持软件负载均衡集群服务,通过创建单独的均衡实例,提供专业化的负载均衡服务,确保负载均衡的高可用。2.支持4层和7层的负载协议提供4层(TCP/UDP协议)和7层(HTTP/HTTPS协议)的负载均衡服务,可以根据自己后端业务的种类,采用不同的协议进行负载。3.创建管理监听器每个负载均衡实例,可以创建多个不同端口的负载,满足不同业务的负载均衡功能。监听器可以选择多种负载均衡的策略,提供轮询、最小连接数、源地址等多种转发规则,满足不同业务场景的要求。4.后端服务器管理提供后端服务器健康检查功能,将状态不好的后端服务器从负载队列中踢除,当后端服务器恢复后,自动加入到负载队列中。对于ー些特殊的应用,提供回话保持功能,比如http的负载,可以提供session黏连功能。3.9.3中间件服务中间件服务提供标准的服务接入机制以实现中间件的服务化,实现中间件的统一管理和交付,后期新华网建设的新型应用均不用单独采购相关中间件,直接申请相关中间件服务即可,主要包括云应用引擎、关系数据库、分布式缓存、消息队列。(-)应用引擎云应用引擎服务提供ー个完整的、可伸缩的运行时环境,支持多种框架、语言、运行时环境及应用服务,使开发人员能够快速进行应用程序的部署和扩展,无需过多关注基础架构问题。主要功能:・支持多种运行环境,包括Java、Python,Go、Nodejs、PHP等,支持多种业界标准开发框架;

111・支持通过容器实现安全的应用运行环境;・支持应用实例的水平弹性伸缩,根据实例负载(例如CPU)实现应用实例的手动和动态扩展;・提供负载均衡能力,应支持HTTP协议;・支持在线动态进行应用域名的创建、绑定、变更等操作;・提供HTTPSession共享能力;・支持应用的资源调整,包括内存和存储空间;・负责应用日志的收集,开发人员利用日志信息监控应用运行状况。(二)关系数据库关系数据库服务可提供ー种稳定可靠、可弹性伸缩的在线数据库服务。可以使用户摆脱数据库管理和运维的繁琐工作,实现在云环境中轻松设置、操作和扩展关系数据库,从而专注于应用程序和业务。关系数据库服务支持MySQL(MariaDB)等多种数据库引擎,提供了数据库使用、管理、监控、备份、恢复、容灾等方面的全套解决方案。主要功能:1.资源隔离的服务实例管理关系数据库服务中的服务实例是独立的数据库集群,独占CPU、内存和磁盘10。关系数据库服务允许用户创建属于自己的服务实例,并可对每个服务实例进行启停、配置修改、规格调整和删除等管理操作。2.针对服务实例的多账号管理为了区分不同的数据权限和业务职责,关系数据库服务中的每个服务实例都允许配备ー个或多个账号。用户可在自己的服务实例内对账号进行创建及管理,ー个账号可以关联(只读/读写)ー个或多个数据库。3.用户可自主控制、操作方便的数据库管理允许用户在自己的服务实例内自主创建和管理数据库,支持通过可视化界面对数据库参数进行设置。同一个实例内的所有数据库共享该实例下的资源(CPU、内存、存储、连接数)。4.多策略的备份机制和便捷的备份过程支持自动备份和手动备份、逻辑备份和物理备份,全量备份和增量备份等多种

112备份策略,并支持便捷的操作过程。•自动备份,依据设定的备份策略进行自动备份,备份策略包括备份开始时间(开始执行备份的时间)、备份周期(每周几执行备份)、备份保留时间(过了备份保留时间,备份文件会自动被清除掉)。•手动备份,是用户手动触发备份操作的备份,根据需要,用户随时可以执行备份操作。按照备份文件类型分为逻辑备份和物理备份。•逻辑备份,是指备份文件类型是SQL的备份,文件内部全部是SQL语句。•物理备份,是指直接备份数据库的数据文件和日志文件的备份方式。1.可视化的便捷数据恢复机制允许用户通过可视化界面和便捷的操作过程完成数据恢复的繁琐工作。2.详细的日志记录提供数据库错误日志和SQL执行明细日志(例如SQL语句、连接IP、连接账号、耗时、返回记录数)等日志信息。3.可视化监控及报警开发者可以通过可视化界面查看资源使用情况,包括存储使用率、内存使用率、CPU使用率、数据库实例平均每秒钟的输入流量、数据库实例平均每秒钟的输出流量、平均每秒SQL语句的执行次数、平均每秒事务数、当前活跃连接数、当前总连接数、数据库实例每秒I〇请求次数等。支持针对服务实例配置阈值报警策略(包括配置临界值和报警联系人),当CPU、内存、存储、数据库连接数超过指定值时,关系数据库服务会发送报警消息给指定联系人。(三)分布式缓存分布式缓存服务可为用户提供分布式、高性能、高可用的Key-Value缓存服务,用于缓解对后端关系型数据库的访问压カ,增强业务的并发处理性能。同时,分布式缓存服务也提供数据持久化功能,在保障高性能的同时兼顾用户的数据安全。分布式缓存服务还提供了数据、管理、监控、备份、恢复、伸缩、容灾等方面的全套解决方案,方便用户对服务实例进行使用和维护。主要功能:1.资源隔离的服务实例管理

113分布式缓存服务中的服务实例是独立的缓存集群,集群中的每个节点独享CPU、内存和磁盘10。分布式缓存服务允许用户创建属于自己的服务实例,并可对每个服务实例进行启停、配置修改、规格调整和删除等管理操作。1.可选择的IP白名单功能当需要对服务实例限制访问时,用户可以启用IP白名单功能,只有列示在白名单中的IPオ允许连接服务实例。2.用户自主定义服务配置允许用户修改分布式缓存服务服务实例的配置文件,如数据持久化间隔、过期数据清理策略等。提供友好的可视化界面,方便用户根据自身需求对服务实例进行个性化定制。3.缓存数据持久化和事务控制分布式缓存服务服务实例可以周期性的对缓存数据进行持久化,当实例重启或故障恢复后,缓存可以快速恢复到正常工作状态而无须重新预热。同时分布式缓存服务服务支持简单的事务控制,事务是ー个单独的隔离操作,事务中所有的操作都会序列化按顺序执行。用户可以利用数据持久化和事务功能,将分布式缓存服务服务实例作为NoSQL数据库来使用。4.资源及服务性能指标监控及告警功能支持以数据表格和图表方式展示资源的使用情况,如:存储使用率、内存使用率、CPU使用率等;以及服务性能指标,如:连接活跃数、命中数、命中率、缓存使用情况等。并支持针对相关指标的阈值告警功能。5.详细的服务实例日志提供服务运行日志并支持日志导出功能,用户可以通过日志分析定位相关错误。(四)消息队列消息队列服务可提供ー种对稳定可靠、可弹性伸缩的在线消息队列服务。可以使用户不用自己去管理维护消息队列,只关注于如何使用消息队列进行应用程序的解耦,提升应用性能,保证业务数据的最终一致性。消息队列服务更适合用在实时的对可靠性要求比较高的消息传递上。主要功能:1.资源隔离的服务实例管理

114消息队列服务中的服务实例是独立的消息队列集群,独占CPU、内存和磁盘10。用户可以根据业务需求选择不同的规格进行创建,创建完成实例后,可以对实例进行启停、配置修改、规格调整和删除等操作。1.针对服务实例的命名空间和多账号管理为了方便业务管理,服务实例中提供了虚拟主机(VH0ST)概念,可以对服务实例资源再进行命名空间隔离。用户可以在自己的服务实例内,创建和管理VH0ST。每个VH0ST下可以创建一个或多个队列。用户也可以在自己的服务实例中创建不同的账号,ー个账号可以关联ー个或多个VHOSTo2.队列管理用户可以通过队列管理功能完成队列创建、队列删除、清空队列、发布消息和获取消息等操作;另外,也可以实时监控队列自身状态信息、队列中消息的统计信息及消息处理速率信息等。3.可视化监控和阈值告警支持以数据表格和图表方式展示资源使用情况,包括:内存使用率、CPU使用率、服务实例进程、队列连接数等;并支持针对相关指标的阈值告警功能。4.服务实例的在线扩容服务实例可以根据负载的情况,进行集群的在线扩容。添加新节点之后,新节点会接收生产者发送的消息,同时master节点的消息被不断消费,直至master节点上的队列的消息的内容和新加入节点的内容一致时,集群完成同步。3.9.4开发/测试/生产环境统一管理云海IOP使用容器技术构建多云亲和环境,提供开发/测试/生产环境统一管理功能,帮助开发团队建立DevOps体系,实现应用自动化部署、升级、上线、运维监控的全应用生命周期管理,实现开发测试平台自动化,自动分配资源,降低运维成本,实现敏捷开发,帮助企业实现跨数据中心应用管理和开发运维一体化。3.9.5管理中心管理中心提供自动化部署及运维监控功能,支持大规模分布式集群环境下组件的管

115控,实现各类组件的可视化快速安装、运维管理和实时监控,提供并封装底层组件的服务开放接口,对各类资源进行协同和调度,用以降低运维成本,提升平台的稳定性和管控能力。管理中心功能主要包括部署管理、监控管理、服务管理、应用管理等功能。(-)部署管理部署管理主要提供各个组件的安装部署功能。具备以下功能:・自动化部署平台服务,包括分布式缓存、消息队列、关系数据库等;・支持在部署时自定义各组件的实例数;・支持部署组件时选择HA模式;・支持服务监控,显示各服务各组件的CPU占用、内存、硬盘、缓存的使用情况;・部署成功后提供各服务各组件的IP地址及认证信息,包括虚机的用户名密码以及组件各功能的认证信息,方便查询;・整体平台具有web界面的向导方式进行安装,升级和维护,最简化运维人员的工作;・支持多版本的操作系统。(二)监控管理提供平台运行环境健康检查及服务监控等功能。具备如下功能:・通过JMX和mbeans等协议实现全方位的监控功能;・提供应用、平台、服务的健康检查功能,具有可视化界面、API和命令行等访问途径;・支持应用日志集中展现,通过标准的syslog协议集中导出到其他专业日志管理平台,进行综合展现与管理,以便于缺陷跟踪;・平台要支持不同资源的定额分配,不同的组织架构可以分配不同的资源额度,比如内存、存储空间等。在进行应用部署和弹性伸缩的时候不能突破资源额度;・平台本身的系统信息,如资源使用状况,繁忙层度等系统自身的KPI参数能够通过JMX协议导出至监控平台,实现系统本身的监控和日常运维;・支持服务监控,显示各服务各组件的CPU占用、内存、硬盘、缓存的使用情况。(三)服务管理提供平台服务及应用生命周期管理等功能。

116具备如下功能:・支持第三方服务通过平台的服务框架注册到平台中;・支持将服务绑定给应用,服务绑定后应用才能访问服务;・服务和应用可以按照项目进行划分,以项目为单位进行资源隔离;・服务的资源不足时,能够在后台管理控制台上进行服务资源的扩展,且扩容的过程需要达到高度的自动化,实现无人工干预;・提供平台服务市场,平台添加的服务能够显示在市场中,并作为模板供应用管理员进行实例化;・整体平台具有web界面,进行应用和服务的管理,例如服务创建、应用生命周期管理等。(四)应用管理提供用来帮助管理组织、空间、用户以及应用的界面化工具。具有应用上传、用户权限分配、服务申请绑定、多租户资源隔离等功能。具备如卜一功能:・提供应用的管理工具,来动态组装和配置ー个完整的运行时环境;・系统可以依据应用来搜索、下载和配置相应的依赖库,而不需要对每个运行环境进行配置;・支持多种编程语言,比如Java、Go、Python、ruby等;・支持应用实例的手动和动态的弹性扩展;・支持服务绑定;・支持应用的多实例和负载均衡;・支持应用的多租户,提供多层次的资源隔离;・提供基于RBAC的用户权限控制。3.9.6第三方服务接入适配器平台通过提供相关的服务接入适配器(ServiceBroker),实现传统业务应用运行时需要依赖的第三方服务(如。racle数据库、weblogic以及MQ等中间件)与基础框架的无缝适配对接及信息传递,满足不同业务需求。・数据库方面

117对于数据库如Oracle等可继续采用原有集群部署模式,可以通过PaaS平台提供的ServiceBroker接入并提供数据库实例服务。例如,在提供服务能力方面,Oracle12C可通过提供不同的实例提供服务,其他版本以创建新用户的方式提供服务。・消息中间件及服务总线方面对于商业化消息中间件如MQ或服务总线如ESB等,可以继续采取原有方式部署,通过PaaS平台提供的ServiceBroker接入机制,对外提供队列服务。・Web应用中间件方面对于商业化Web应用中间件如Weblogic等,可以通过PaaS平台提供的buildpack定制开发实现商业化Web应用中间件的接入。接入后的商业化Web应用中间件与平台本身提供的Tomcat同样具有分布式部署及动态可扩展能力。3.9.y开放服务接口平台通过〇penAPI、管理控制台以及命令行等不同方式把各类组件服务化为不同的开放云服务,为新华网新型应用的开发提供统ー的支持和调度管理。3.10大数据方案设计大数据方案设计应考虑新华网现有业务需求以及满足新华网发展需要,应提供大数据全生命周期服务。提供从GB到PB级数据在高并发访问、数据查询和分析处理等不同应用场景大数据处理的能力,解决新华网业务的复杂性、多样性、数据量大等问题,可以快速搭建大数据处理环境,简化大数据使用的门槛。

118数据预处理数据分发数据处理(计算)YARN近时计算SparkMPP离线计算Hive流式计算服务&应用服务中心雌检索云应用服务应用电茴社交数据同步工具分布式消息总线例APP数据仓库(存储)雌演练用户图像行为分析上图为新华网大数据处理的核心流程,其中虚线包括的部分即为新华网大数据建设的核心组成部分。本部分前后串联,打通了数据的入口和出口,为新华网大数据架构提供了全栈支撑。为不断扩展数据共享范围,首先应考虑数据源的范围尽量大,这里将数据源分为内部数据源、社会数据源和互联网数据源,内部数据源更多指新华网内部现有的业务数据和已有数据仓库数据模型,社会数据指第三方社会数据(如工商、公安数据)和上下级或兄弟企业数据,互联网数据(电商数据、社交数据)等。数据的类型不仅限于结构化数据,还包括半结构化数据和非结构化数据。各类数据源利用数据同步工具进行数据统ー抽取后,通过数据总线进行分发调配。常规而言,全部数据都应在大数据存储库中进行初步沉淀,因此首先可将大数据存储库中看做全量数据库,同时大数据存储库具备准实时的批量数据处理能力,对全量数据进行批量处理,并提供对海量数据的高并发、短查询,类似于企业内的“数据百度”式应用能力。批量数据的计算结果、算法模型等高价值密度数据,会统ー在分布式并行数据仓库中按照传统的数据仓库架构进行管理,以便通过通用的SQL标准进行访问,减少数据利用成本,同时利用MPP

119的分布式特性,极大增强了数据仓库的存储容量和响应速度。当遇到实时性要求极高的应用场景,比如滚动大屏、实时预警等,则可将关键数据加载到快数据库中,利用分布式缓存,对数据并发和响应速度进行内存级加速。对于非结构化数据和半结构化数据,会在查询引擎中建立文件索引,以完善对非结构化数据的利用,对于无纸化办公、电子档案等类型的非结构化数据应用提供支撑。数据处理分为数据预处理和数据处理,数据预处理利用流式计算架构,对数据总线中的流入数据进行预处理后,再入库存储。数据处理可通过实时、近时、离线等方式,配合各类计算模型对数据进行加工处理,并与数据仓库ー起,实现新华网各类数据服务和管理诉求,铸成后端服务和应用的数据支撑基础。基于平台提供的大数据全生命周期服务能力,可进行相关的数据服务及数据应用开发及创新,丰富新华网应用建设,挖掘数据深层价值,更好的为用户服务。为满足以上需求,本次建设将重点建设以下内容:3.9.1数据同步工具3.9.1.1SqoopSqoop是ー个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。3.10.12FlumeFlume是ー个分布式、高可靠、高可用的日志收集系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到ー个中心化的数据存储系统中。

120•收集、聚合事件流数据的分布式框架;•声明式配置,可以动态更新配置;•提供上下文路由功能;•支持负载均衡和故障转移;•完全的可扩展。具备特性1.高可靠性数据传输高可靠性。2.可恢复性具备数据可恢复性。3.功能可扩展性用户可以根据需要添加自己的Source,Channel或者Sink。。4.无中心节点不需要master节点和对Zookeeper的依赖,配置文件简单化。3.10.2分布式消息总线服务分布式消息总线服务可提供ー种高吞吐量、可容错、分布式、弹性伸缩的消息总线服务,具备成为全局统ー数据管道的能力,各个业务系统都可以向其发送数据或者从中获取数据。可以支撑海量的、活跃的流式数据场景,可以为实时应用程序提供低延时数据传输,可以对数据进行缓冲或持久化。分布式消息总线服务提供了消息总线环境准备、使用、管理、监控等方面的全套解决方案。

1211.资源隔离的服务实例管理分布式消息总线服务中的服务实例是独立的集群,独占CPU、内存和磁盘。。允许用户创建属于自己的服务实例,并可对每个服务实例进行启停、配置修改、规格调整和删除等管理操作。2.队列管理允许用户在自己的服务实例内自主创建和管理消息队列、设置不同分区策略和分区数、设置消息的存活时间,对消息队列的生命周期进行灵活管理。同时可对消息队列进行监控,包括:分区分布情况、副本分布情况等。3.消费策略管理提供不同的消息消费策略,允许用户自主选择。消息消费策略有以下几种:a.最多一次:在消息的有效期内,消息最多有一次被成功消费,有可能不消费。b,最少一次:在消息的有效期内,消息最少会有一次被成功消费,有可能重复消费。c.仅一次:确保在消息的有效期内,消息有且仅有一次被成功消费,既不会重复消费,也不会不消费。4.可选择的IP白名单策略当需要对服务实例限制访问时,用户可以启用!P白名单功能,只有列示在白名单中的IPオ允许连接服务实例。5.在线动态伸缩支持集群的动态伸缩,允许用户在线动态增加节点或减少节点,不会对服务产生影响。6.可视化监控及阈值告警

122支持以数据表格和图表方式展示资源使用情况,包括:存储使用率、内存使用率、CPU使用率等;并支持针对相关指标的阈值告警功能。1.提供详细的日志记录提供服务集群的系统日志和服务场景中各种用户角色的审计日志等。2.集群数据多备份保证高可用采用分布式高可用集群架构,自身具备自动备份机制,只要集群中有一个节点正常,就可以保证数据的完整。3.10.2流式计算服务流式计算服务可提供一种分布式的、可靠的、容错的针对大规模流式数据处理的服务。可以使用户可以从各种数据来源中连续捕获和存储TB级以上数据,进行实时分析、在线机器学习、信息流处理、连续性的计算、分布式RPC(通过网络调用远程计算任务)、ETL(数据抽取、转换和加载)等各种操作。流式计算服务提供了计算任务分解、执行、管理、监控、优化等全套解决方案。

123supervisoc上图为流数据计算服务部署架构,Storm的master是nimbus,Slaver是supervisor,主从节点之间依靠Zookeeper连接协调。主要功能:1.资源隔离的服务实例管理流式计算服务中的服务实例是独立的流式计算集群,包含了一整套的Storm组件。每个服务实例独占CPU、内存和磁盘10。用户无需关心集群的搭建和运维,仅需简单的几步操作,即可成功搭建Storm集群并运行流式计算任务。用户可以创建属于自己的服务实例,并可对每个服务实例进行启停、配置修改、规格调整和删除等管理操作。2.可视化集群配置管理为用户提供统一的可视化集群配置管理功能,方便用户修改集群配置。3.任务管理提供可视化界面对作业任务进行管理,包括任务的创建、启动、停止以及任务状态和各项指标监控等。支持远程过程调用,后台计算节点可以接受客户端的RPC请求,将该请求发送至流式计算任务中,并将计算结果返回到客户端。4.数据安全管理提供包括用户认证、用户权限(服务组件使用权限)等在内的一系列安全机制。集群在响应用户请求时,对用户身份进行认证;同时校验用户是否有权限使用该服务组件。

1241.可视化集群监控及告警支持以数据表格和图表方式展示物理资源的使用情况,如:存储使用率、内存使用率、CPU使用率等;以及组件节点的运行状态、连接数等。并支持针对相关指标的阈值告警功能。2.事务性流式计算服务提供给了直观便利的接口,可以严格按照数据流的顺序进行数据处理。满足对消息处理有着极其严格要求的场景,例如实时计算某个用户的成交笔数,要求结果完全精确。3.多语言兼容性可以在流式计算服务之上使用各种编程语言,默认支持Clojure、Java、Ruby和Python,用户可按需添加自己习惯语言。4.高容错和可靠性流式计算服务会管理工作进程和节点的故障。将故障节点的任务迁移至正常节点,并保证数据的可靠性。流式计算服务能够保证每个数据流至少被处理一次,保证数据不丢失,确保了数据的可靠性。3.10.4分布式计算引擎分布式计算引擎可提供ー种针对海量(TB/PB级)数据、实时性要求不高的分布式处理服务。可以使用户能够轻松跨越大数据分布式计算环境搭建、运维的技术门槛和繁琐工作,直接专注于数据分析、数据挖掘、商业智能等应用场景。分布式计算服务包含了大数据非实时处理的主流技术组件,如Hadoop、HBase、Spark,Hive、Pig、Oozie,Hue等,提供了从自动化部署运维、性能优化、资源隔离、资源调度、数据计算任务执行及跟踪等全套解决方案。

125HiveMahout数据仓库数据挖掘Solr搜索引擎HBase列式数据库MapReduce分布式计算框架SparkGraph一c图计算農SparkSQL交互式计算墨Sparks-ream-ng流式计算墨Yarn分布式资源调度Zookeeper分布式协作服务HDFS分布式文件系统主要功能:1.兼容Hadoop开源主流版本基于开源Hadoop生态体系,提供Zookeeper、HDFS>丫am、MapReduce>Spark、Hbase、Hive、Mahout、Hue等开源组件,兼容主流的Hadoop版本。2.支持资源隔离的服务实例管理分布式计算服务中的服务实例是独立的海量数据分布式并行计算集群,包含Hadoop、HBase、Spark>Hive、Pig、Oozie、Hue等开源大数据生态中的主流技术组件。每个服务实例独占CPU、内存和磁盘10。用户无需关心集群的搭建和运维,仅需简单的几步操作,即可开始数据的分析和挖掘任务。分布式计算服务允许用户创建属于自己的服务实例,并可对每个服务实例进行启停、配置修改、规格调整和删除等管理操作。3.可视化集群配置管理为用户提供统一的可视化集群配置管理功能,方便用户修改集群配置。4.多类型作业管理支持多种作业类型,包括离线处理作业、关系型分析査询作业、机器学习作业、图处理作业等。提供可视化界面对作业任务进行管理,包括任务创建、执行、状态和各项指标

126监控、在线调试、数据预览等。1.数据安全管理提供包括用户认证、用户权限(数据访问权限、服务组件使用权限)和数据加密等在内的一系列安全机制。集群在响应用户请求时,对用户身份进行认证;同时校验用户是否有权限访问数据以及是否有权限使用该服务组件。另外,分布式计算服务服务还可以对服务中的数据进行加密,确保数据安全。2.可视化集群监控及告警支持以数据表格和图表方式展示物理资源的使用情况,如存储使用率、内存使用率、CPU使用率等,以及组件节点的运行状态、连接数等。并支持针对相关指标的阈值告警功能。3.任务编排的工作流管理提供工作流程管理功能,用户可以对计算任务进行编排,安排任务执行计划、执行顺序等,从整体上提升数据自动化计算处理能力。4.资源调度分布式计算服务可对服务实例中各个作业任务,根据其优先级、资源使用限制自动进行调度,同时还可以设置多种资源调度算法,满足不同场景的多任务资源调度。3.10.4分布式并行数据库分布式并行数据库服务是一个分布式数据库软件,其可以管理和处理分布在多个不同主机上的海量数据。具有完全无共享的MPP计算架构,关系型数据库平台;支持行式和列式存储,支持标准ANSISQL92、99、2003的标准:基于エ业标准服务器架构,有利于保证客户的投资保护;与传统数据库之间存在非常好的可迁移性。功能如下:

127大规模并行数据库将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架构支持扩展到数百个节点。2、按列、行混合的存储和执行大规模并行数据库支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方式。基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。3、数据库内压缩大规模并行数据库的数据库内压缩利用业界领先的压缩技术来提高性能并大幅缩小存储数据所需的空间,可以将占用的磁盘空间缩小到原来的1ハ〇到1/3,并相应地提高I/O性能。4、多层次的容错能力大规模并行数据库包含多层次容错和冗余能力,该功能保证整个数据仓库系统在遇到硬件、软件的故障的情况下,仍能继续运行。大规模并行数据库的容错功能提供了智能故障检测和快速在线差异恢复,实现超过200个节点的大规模集群。5、在线系统扩容大规模并行数据库可以在系统中增加节点服务器即可增加存储容量,处理性能和加载性能。当系统扩展时,数据仓库保持在线,并且完全可用,扩展进程在后台运行。增加节点服务器,性能和容量线性增加。6、负载管理大规模并行数据库具有系统资源管控能力,并且可控制给各个查询分配各自系统资源。允许管理员指派资源队列,从而管理数据仓库的队列进入执行情况,运行的查询的优先级可以随时调整。大规模并行数据库基于MPPScatter/Gather流技术的髙性能并行加载功能,加载速度随着节点线性增加,可达到每机架每小时10TB以上。

1288、完全遵从SQL最新标准和SQL2003OLAP扩展标准大规模并行数据库遵从SQL-92,SQL-99,至SQL2003标准,并包括SQL20030LAP扩展项。所有SQL查询都可以实现并行执行。大规模并行数据库对SQL语言包括其〇LAP扩展标准,都可以实现并行执行。全面支持SQL2003〇LAP标准,包括Window函数、Rollup、Cube等等。10、髙级分析函数大规模并行数据库提供了用于进行高级数据库内分析的分析函数(t-statistics,p-values和NaiveBayes)。这些函数提供了变量选择所需的指标,从而提高了回归模型的质量,并增强了理解和分析边界情况的能力。11、数据库性能监视工具大规模并行数据库提供性能监视工具,以帮助用户分析系统性能,通过收集这些指标,用户可以查明故障原因,并将硬件问题与软件问题分离。3.10.6内存数据库内存数据库(即快数据库)是一个弹性伸缩的、提供事务支持的基于内存的分布式海量数据处理系统,用于构建和加速需要超高速数据交互的、具有高度可扩展能カ的应用系统,具备SQL读写能力,支持多地多中心级的广域网集群部署。内存数据库服务可以提升数十倍的数据访问速度。内存数据库服务提供了可视化的监控工具。内存数据库服务不是IO密集型的中间件,支持生产环境下在虚拟机上部署运行,在平台上可以快速的申请ー个内存数据库服务实例,内存数据库服务也支持基于物理机的部署。因存储结构的变化和冗余存储的需要,内存数据库服务运行所需内存容量约为源数据容量的10倍.。

129常用的数据存储数据也可以备份通过云计算平台虚拟化技术,将若干X86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。分布式集群中保存了多份数据,任何一台机器故障,其它机器上还有备份数据,因此通常不用担心数据丢失,而且有磁盘数据作为持久化存储。内存数据库服务支持把内存数据持久化到各种传统的关系数据库、Hadoop库和其它文件系统中。主要特性:1、分布式数据存储架构内存数据库服务整体采用Shared-Nothing无共享架构,支持满足高性能灾备和双活要求的部署策略,包括点对点(peertopeer)、客户端/服务端(Client/Server,多集群(multipleclusters)三种模式。内存数据库服务支持灵活的Region(数据对象集或者可理解为表)分布式处理,同一Region数据(可理解为ー个表的数据)可以整集多点同步或切割后不同点保存,并支持数据实时再平衡(rebalance),既数据分割保存后若加入新的空闲服务器,数据可以在不重启服务的情况下重新切割和平衡数据,从而达到真正的数据在线动态延展。内存数据库服务支持数据的在线备份,支持具有持续性的高可用性和容错性,各个分散的数据点可以配置ー个或多个基于内存的热备数据点,当主数据点宕机的情况下,其中一个热备点就会提升为主数据点,同时可以继续在空闲机器上创建备份点,从而达到数据的持续的可用性。数据可以通过配置同步或异步地持续化到本地硬盘,或者到指定的数据库或文件中。内存数据库服务的客户端可以将最常用数据缓存ー个备份于本地,进ー步加快效能。内存数据库服务支持数据全内存和部分内存策略,通过配置可以将数据全部加载到内存,或者通过淘汰非频繁使用数据策略(LRU)来保证将尽可能多的热点数据保存于内存中达到成本效益最大化。

130内存数据库服务内置资源优化器用以降低JAVAGC所带来的延迟,服务器可配置超过40GB内存的Javaheapsize。内存数据库服务支持基于用户和角色的数据访问,支持数据的传输渠道SSL加密。2、支持SQL的多类型数据存取内存数据库服务支持key-value的简单协议,也支持复杂数据对象和关系存储,支持类SQL的查询语言。内存数据库服务支持本地或分布式事务处理,借助于SpringFramework事务管理功能集成,使得编写和支持事务性企业应用程序变得快速、安全、可靠和可扩展。3、多重数据传输和数据处理机制内存数据库服务支持可动态植入运行节点的类存储过程功能。内存数据库服务支持将需要关联处理的数据使用同一个计算机进程来处理,避免数据网络传输和数据序列化等带来的延迟。内存数据库服务支持Map-Reduce模型的并行查询,同一查询命令可并行发送到各Cache点(M叩),结果集自动在客户端汇合(Reduce)〇

131内存数据库服务支持事件监听处理机制,数据节点可以根据数据的增、删、改和过期等事件来触发其他的业务逻辑。内存数据库服务支持类消息队列处理机制,客户端可以在数据节点设定数据条件,当满足条件的数据出现时,会自动向客户端推送,类似于消息队列的Queue或Topic机制。内存数据库服务支持增量的数据传输,数据同步可以选择只将变化的部分同步。4、可视化管理工具内存数据库服务应提供WEBU!可视化控制面板,可提供正在运行的系统视图,可以图形方式监控性能和查看有用的统计信息,可以在线使用SQL查询浏览数据,可以控制集群的启动/停止,查看群集配置、部署架构等信息。3.11云应用方案新华网云应用建设,将重点放在基于平台开放服务能力研发的新应用建设,建设ー批高可用、高可靠、分布式的互联网应用,满足日益增长的业务需求和创新需求,同时兼顾老应用的建设,逐步适度迁移到平台之上,接受平台统一管理和运维,减少成本,增强系统的稳定性和弹性,全面建设新华网应用生态。・应用・逐步苗换接入云化应用已有应用虚拟化继续运行统ー用户认证、统ー应用展示、统ー运维管理现有业务改造基础服务大数据服务中间件服务创新应用基础服务大数据服务中间件服务

1323.11.1云应用建设共性和基础性信息管理系统由新华网信息部门统ー规划、统ー实施。各基层部门可以在大框架下开发个性化的应用软件。云应用基于云平台的开放框架、服务能力及标准规范进行开发建设。云应用生态环境按照高起点设计、主体先行的思路,强化基础资源、数据服务及应用的各项能力,为各阶层服务。基于平台建设的创新应用生态,是“双创“和‘‘互联网+”的具体效果体现。新华网云应用PaaS曇基础婁云主机服务对象存储服务负载均衡服务ManageAPI中间件集群模板+编排云应用引擎关系数据库消息队列服务商店CPI(基础环境适配器)PIA基础环境资源大数据聾Hadoop/Spark服务NoSQL服务ServiceBrokerj*CloudFoundrySwarm容器模板内存数据库服务MPP数据库服务度成块深剿模大数据多租户婁ManageAPIPMPMemDBHadoopT1II大数・理ハ现尸集群I大数据集群在技术层面上,通过PaaS平台将基础环境资源、大数据中间件等模块打通,通过基础环境适配器调用laaS层基础环境资源,对外提供基础服务,通过外部服务接入适配器(ServiceBroker)接入大数据中间件,对外提供多租户大数据服务,另外平台内置了丰富的中间件服务。以下以关系数据库服务(RDS)为例说明开发人员如何调用服务。

133创新型应用依托于云平台提供的计算、存储、网络、中间件、大数据处理等各类能力和数据资源服务,天然具备分布式、弹性伸缩、高并发访问、数据连通共享等云化和互联网化特性,满足日益增多的个性化、多元化、及时性高的需求。同时平台对各类应用提供完善的管理机制,进ー步提升应用的运维监控级别。在标准层面上,生态中的创新型应用是在新华网云平台标准框架和开发规范的统一指导下,由不同开发商进行建设,极大简化和完善应用程序的开发、交付过程。在体系建设层面上,云应用生态体系建设是ー个不断深化的过程,不可能一撮而就。在云平台的先进技术和理念基础上,需要形成配套的综合保障长效机制,逐步建立起一套与形势发展相适应的创新模式,同时整合业务专家、信息化服务开发商、应用开发商等共同参与,形成“政策保障到位、人员配备完善、配套机制成熟、技术手段先进”的完整闭环共赢体系。3.11.1已建系统上云迁移云平台的建设要兼顾已经建设的应用系统,解决好已建应用系统迁移上云的问题。3.11.1.1迁移对象与原则迁移上云重点考虑应用系统所处阶段(运行期、维护期)、技术先进性(先进、落后)、迁移业务影响度(大、小)以及应用上云改造成本(高、低)等因素,做到逐步迁移、适度迁移。

134新华网云平台按应用上云的难度,划分为3层,分为初级云、中级云、高级云,应用上云迁移时要充分考虑,选取合适的云层次,适度迁移。云层次技术路线场景高级云1).应用运行环境运行在云平台提供的应用容器中,且使用了其他应用中间件服务;2).应用数据同步至云平台;3).利用云平台提供的大数据处理引擎,完成了高级数据分析功能4).使用了云平台的数据服务,且发布数据服务;数据分析型应用,如:综查类应用、BI应用中级云1).应用运行时使用了云平台提供的应用引擎中间件服务;2).应用数据能同步到云平台基础资源库;3).使用了云平台提供的数据服务;业务部门条线应用,事务处理、数据分析混合型。初级云1).使用了云平台提供的云主机服务;2).应用迁移到云平台虚拟化环境;己建系统,桌面应用的后端•新华网统ー应用:对于新华网统ー要求建设的应用,可借助云平台的能力适当优化,提高应用高并发、高可用能力;对无法变动的应用,可以利用云平台的统ー监控、管理提高应用的稳定性。•本地自建应用:各类应用原则上都需要运行在云平台计算平台上,老应用按照平台标准及规范进行云化改造。但是对于采用老技术开发,但是运转良好、改造难度大的应用可以区别对待,可等这类应用系统生命周期结束,再按照云平台要求重新开发。3.11.2.2迁移内容迁移内容主要完成环境迁移、数据整合、服务管控、应用接入及信息推送等方

135面的工作。需要根据迁移原则有选择的选择迁移内容,做到平滑迁移上云。・环境迁移平台基于云计算大数据的开放服务,提供web类应用正常运行所需的环境能力,主要包括提供基础资源的弹性扩展、按需分配及资源调度等基础服务能力;提供数据库、消息等中间件以及应用容器等应用服务能力。梳理已建应用系统,有序实施环境迁移。环境迁移需要考虑资源整合和设备利旧问题,可以根据设备情况添加到laaS层,CPU、内存可用的设备统ー纳入计算池、存储统ー纳入存储池。・数据整合制定数据管理办法,借助平台提供的数据采集、组织、存储与计算能力,抽取、清洗、转换已建业务应用系统的数据资源,整合并形成统一信息资源管理。・服务管控制定服务注册、发布和使用的标准规范,借助平台提供的服务接入、认证、授权、编排、路由及监控等能力,梳理已建应用系统的服务,逐步纳入统一服务管控,形成服务商店并实现统ー的对外服务发布、共享与运维管理。・应用接入

136制定应用开发、接入及接口的标准规范,借助平台提供的应用接入、审核及监控等能力,梳理已建应用系统,逐步实施纵向解耦、应用碎片化与轻量化适应性改造形成应用商店并实现应用的统ー接入与运维管控。・信息推送基于平台以用户为中心的门户能力,梳理已建应用系统数据交换及信息共享需求,横向打穿并实现统ー的信息推送。3.11.2.3迁移步骤迁移步骤主要涉及应用调研、改造设计、测试、应用割接及日常维护等环节,大致示意如下:达成意向操作步骤输出结果1.详细週研应用系焼现状•应用web运行环境、数据库、其他中间件运行情况,包括应用性能、最大访问数、数握量、数据库情况、应用开发培吉、开发港架、服芬善配置等:•应用部署焉要的其他岳础设施情况,网络、服务器、后方设备(加空狗.GPU加速セ)等.1.应用上云可行性报告•迁移风隆•兑明:•应用所需资源列衰;•应用迁移改造方案(应用开发整架、数甕屋、中间件、待殡设备等改造).注意:应用需要的关系库数据库,尽量通过平台统一整合起来,如能整合只需要衿数据同步到资源库.2.順化应用迁移方案,搭建开发测试环境•根措应用上云可行性报告细化应用改造方案,预测应用改造工作量、预估所需资源:•耳于平台申请所需公务資源:•耳于平台搭建开发测甑境.3.応用功益・性备•差容性测试«耳于应用弓学及其他强务.将应用部審到平な上;•应用数据迁移测试(如应用使用的数据库运转良好,可将其纳入到云环境中,春要在迁移方案白笔定数撻左屬性),选取部分数据测试.・出4.应用割翟、第由切換•在备应用切割方案,王要禰定切换时间、老成用停机时间、上下游依限应用通知:•应用,eb§器.数克客、其他依赖中间件,完全适应平台服务誉换,开始应用割接:2.确定应用改造方案,进入改造受程•生成应用改造方贵:•核算迁移成本(浪潮、ISV、应用开发商),确定资源投入(人力、设备)、工期、工作计划(分工);•搭建完成开发测试环墳,进入代码改造阶段.3.应用功能、性能.箱容性测试版告•应用功能测斌、五台兼容性测试宛成:•云上应用符合性能指标,进行应用生产条件部•应用所需籾B库中间件満足应用〇LTP、OLAP功能要求,数据迁移方言确定・应用冽接成功•云上应用对用户提供服务,老应用下或成功:•应用进入日常维护.版本发布、应用运行情况监控等开发商通过平台功能完成・3.12安全方案设计新媒体云在安全防护方面,应结合新媒体云模块化思路,按照事前防护、事中监控、事后审计的安全防护策略,建立纵深网络安全防御机制,提髙新媒体云的安全性、健壮性,以及服务连续性和稳定性。设计时要考虑以下几个方面:

1371、合理划分安全区域,突出重点:根据云系统应用功能、用户访问特性、安全等级等要求部署多个区域,然后根据系统的应用和安全级别采取合适的安全策略,确保重点区域、关键云业务系统安全;2、立体协防:围绕安全域的防护需要考虑在各个层次上立体防守,包括在物理链路、网络、主机系统、应用等层次。同时,在部署安全域防护体系的时候,要综合运用身份鉴别、访问控制、检测审计、链路冗余、主机加固等各种安全功能实现协防。3、统一安全监管:实现策略的统一部署,安全事件的集中监控、预警和处置。4、留存日志用于事后审计:通过将各网络设备、安全设备的日志留存到大数据服务器,用于事后事故调查追根溯源。根据设计的需要,云平台安全的总体建设如下图所示:租户安全・考租户隔黑即》A认证即访冋S1M租户行为审计等保合规物・安金网络安全・化安全1»8安全应用安全G户安全应用行为审计应用防火埴安ぎ£务应用攻击防护应用可用性业务应用监控租户数据!©私金■安全・努平台提供多层次的纵深安全防护功能,包括:物理安全、网络安全、云平台安全、系统安全、应用安全与数据安全等,通过提供全局的安全服务保障新媒体下的云安全建设。同时为云租户提供接入认证、访问控制,以及行为审计等,全方位保证云租户的安全性。该云平台建设方案满足国家信息安全等级保护三级测评的要求。3.12.1安全域划分对新媒体云网络池的安全域划分,应以业务的重要性和信息的敏感性为导向,充分考虑新媒体云系统生命周期内从网络系统规划设计、部署、维护管理到运营全过程中的所有因素,安全域划分的基本原则包括以下几条:1、业务保障原则:进行安全域划分的根本目标是能够更好地保障网络上承载的

138云业务。在保证安全的同时,还要保障云业务的正常运行和运行效率。2、结构简化原则:安全域划分的直接目的和效果是要将整个网络变得更加简单,简单的网络结构便于设计防护体系。因此,安全域划分并不是粒度越细越好,安全域数量过多过杂反而可能导致安全域的管理过于复杂,实际操作过于困难。3、生命周期原则:对于安全域的划分和布防不仅要考虑静态设计,还要考虑不断的变化。根据以上原则,并结合目前新华网云计算规划,初步将新媒体云网络池划分为“核心交换区”、“内部交换区”、“运维中心区”、“安全服务中心区”,随着新媒体云建设不断完善、应用不断上线,还可根据应用的重要级别划分不同的安全子域。3.12.1网络安全(1)网络访问控制新媒体云平台采用多层防御,以帮助保护网络边界面临的外部攻击。在云网络中,只允许被授权的服务和协议传输,未经授权的数据包将被自动丢弃。云网络安全策略包括以下内容:①控制网络流量和边界,使用行业标准的网络ACL技术对网络进行隔离;②网络ACL策略的管理包括变更管理、同行业审计和自动测试;③通过自定义的前端服务器定向所有外部流量的路由,可帮助检测和禁止恶意的请求;④建立内部流量汇聚点,帮助更好的监控。在新媒体云核心交换机部署防火墙、入侵防御、防毒墙、安全应用交付、流控与分析。防火墙主要做安全域的隔离,根据不同的权限配置访问控制策略;入侵防御对4-7层的数据进行深度解析与防御:防毒墙主要从网络边界入手,切断病毒传播途径,实现网关级的病毒过滤控制;3.12.2DDoS攻击防御防DDoS清洗服务可帮助云用户抵御各类基于网络层、传输层及应用层的各种DDoS

139攻击(包括CC、SYNFlood,UDPFlood,UDPDNSQueryFlood,(M)StreamFlood、ICMPFlood、HTTPGetFlood等所有DDoS攻击方式),并实时短信通知用户网站防御状态。防DDoS清洗服务由恶意流量检测中心、安全策略调度中心和恶意流量清洗中心组成,三个中心均采用分布式结构。依托云计算架构的髙弹性和大冗余特点,防DDoS清洗服务实现了服务稳定、防御精准。(3)威胁情报分析对未知威胁进行检测,对本地网络中的流量进行全量检测和记录,所有网络行为都将以标准化的格式保存,并结合发现的威胁情报对网内已经发生和正在发生的未知威胁进行发现。(4)流量监控流控与分析模块对数据流量进行深度的分析与控制,提供数据流量分析报表,实现基于用户、IP地址、业务、链路质量、业务服务质量的统计与分析,为今后的业务规划提供数据支撑。(5)VPN安全外网用户登录和安全的数据加密传输对外网用户的可信接入进行身份认证、数据加密、角色授权和访问审计等,保护网内部服务器资源的可用性,保障正常业务可控的访问。(6)多链路负载均衡新华网用户比较多,为了更好的实现用户无论是访问联通资源还是电信资源,都可以从正确的线路进行访问,解决了从内到外的不同运营商网络之间的互访瓶颈。(7)全局负载均衡新华网建设有两个数据中心,需要将用户的访问请求分配给合理的数据中心进行处理,选择合适的链路进行导流,从而保障了访问的速度与质量,解决外部用户访问内部服务器时所遇到的不同ISP的访问瓶颈。3.12.3系统安全(操作系统、数据库系统)基于对新华网云安全中系统的考虑,运用双重安全机制的身份验证和访问控制列表的方式对访问者进行控制是一种有效的防止黑客破坏系统及数据库的方式。

1401.操作系统安全为了加强信息安全纵深防御体系建设,提升和简化服务器主机系统的安全部署,浪潮独辟蹊径,在信息安全技术领域引入操作系统内核加固理念,并成功研发了“浪潮主机安全增强系统”系列产品,简称浪潮SSR。浪潮SSR主要采用了强制访问控制、三权分立、文件粉碎、完整性检测等关键防护技术,保证主机的系统安全。关键技术1)强制访问控制强制访问控制(MAC)是“强加”给访问主体的,即系统强制主体服从访问控制政策。强制访问控制的主要特征是对主体及其所控制的客体(例如:进程、文件、段、设备)指定安全策略,系统通过比较主体和客体的安全策略来决定一个主体是否能够访问某个客体,用户的程序不能改变他自己及任何其它客体的安全策略,从而系统可以防止非法访问。浪潮SSR中定义的主体为用户、进程,客体为文件、进程、执行程序等,通过对主体和客体设置安全策略和安全标签,约定主体到客体的访问规则并形成一张访问控制列表(ACL)。每一次系统用户和进程访问文件、进程、网络等客体时,通过Hook

141和kernelextension等技术,拦截系统到内核层的访问,并将访问与ACL进行比较,拒绝不符合的访问,如下图:内核级访问系统界面用户级操作或命令A核内用户级操作或命令内核级rVI*マ册络务SR注网IK护S保件程户我文进帐自A—访冋控制列表访问系统界面贸统制埋面港系梱管界内件程存件文过内硬图SSR安全内核模型图2)三权分立技术浪潮SSR的''三权分立”技术是通过在内核层实现的强制访问控制和软件自身实现的分权管理,将原主机中“ー权独大”的管理员账户(administrator/root)的权限剥离为系统管理员、安全管理员和审计管理员三种角色,其中系统管理员为主机中原有账户,用于管理系统和访问文件、执行业务等,但这些账户的行为将受到安全策略的约束,即使管理员账户也无法逾越:安全管理员角色为SSR内建角色,用于配置安全策略和安全功能的启用,不能读取文件、操纵系统进程;审计管理员也为SSR内建角色,用于操作日志的和违规日志的审计,监督安全管理员和审计管理员的行为,也不能读取文件和操纵系统进程。这三个角色相互独立,又互相制约,有效规避了传统应用场景中管理员账户权限过大的问题。3)文件粉碎技术删除文件或者重新格式化磁盘并不会将数据从磁盘上真正删除,多数情况下只是将文件的节点从文件系统中摘除,而文件的真实数据还在磁盘中,通过一定技术手段便可以将这些数据从文件系统中恢复。浪潮SSR采用多次覆盖文件块儿的方式,对要删除的文件进行反豆擦写,防止文件数据再次被恢复。目前擦写算法支持普通模式和古特曼模式,普通模式高效快捷,而古特曼模式更加安全和彻底。4)完整性检测技术完整性检测技术是将要检测的文件的基本信息,包括文件大小、创建时间、修改时间、访问时间和文件的内容摘要等,进行哈希以后形成文件的“指纹”,定期扫描这些文件并与“指纹”进行比较,检查这些文件是否发生变化,发生了什么变化。ー旦发现文发生变化,告知用户并提示变化的内容。

142主要特性1)核心防护在操作系统内核层实现文件、注册表、进程、服务、网络等对象的强制访问控制,可配置针对以上对象不同的访问策略来保护系统和应用资源,即使是系统管理员也不能破坏被保护的资源。2)辅助防护对文件和服务进行完整性检测,并可设置定期检测项目,当发现文件或者服务篡改时进行报警并发现哪些文件发生改变。3)扩展防护SSR采用可执行程序保护、系统资源监控和报警、网络限制、磁盘配额限制、增强型身份认证、身份鉴别强化、文件擦除/粉碎、用户使用痕迹清理等功能实现对主机系统的扩展防护功能。审计功能1)违规日志审计记录系统内的所有违反强制访问控制策略的事件,并提供日志的查询、清空、导出、日志分析功能。2)操作日志审计记录管理员对SSR的所有操作事件如登陆、功能停用等,并提供日志的查询、删除、备份和导出。3)关键事件报警提供管理员可配置的时间报警机制,即:一定时间内产生阈值条数的日志就触发告警。当管理员设定的事件被触发时,通过邮件的形式向管理员发出通知。4)报警邮箱管理管理员对违规日志或者系统资源告警日志等设置过报警之后,再进行设置报警邮箱,在记录报警日志就会往设置好的邮箱里发送ー份报警邮件,让用户及时了解系统的状态。5)统计报表统计报表,对当前集中管理平台中收集到的日志进行基本的分类统计,按照不同的元素对日志进行数量对比呈现,便于用户直观的了解当前系统的运行情况。管理功能1)统一管理机制在ー个SSR集中管理平台可以同时对多个系统的SSR客户端进行管理和维护,且SSR

143可开放接口给第三方管理平台集成,实现与不同产品间管理的融合。2)双因子身份认证在尊重传统的身份认证的前提下,运用硬件USB-KEY和密码分别对安全管理员及审计管理员进行双重身份认证。具有安全可靠性,为数据提供机密性、完整性、有效性提供保证。3)灵活多样的策略模板提供经过验证的分等级的安全策略模板,全面保护系统,方便易用,降低用户的使用难度。4)策略分发为了实现便捷的策略配置管理,统ー配置客户端服务器的安全策略,实现对系统安全策略的统集中分发配置。具体功能为:制定统一的管理策略、实现统一的分发管理。5)维护模式当用户担心自己配置的策略是否会影响系统和应用时,可开启此功能,此时SSR将只记录违规的日志而不进行阻止,便于管理员在不造成业务中断的情况下调整策略。6)状态监控状态监控通过FLASH示图形式显示当前管理平台中管理的服务器信息。单击进入之后,管理平台以网络拓扑形式方式显示所有已经在管的服务器信息,包括操作系统类型,IP,CPU以及内存信息。7)服务器管理服务器管理功能用于自动发现已经安装了SSR客户端的服务器,只有在此功能模块中加入的服务器才能进行管理,所有已经发现并加入管理的服务器,オ可以进行策略配置,安全审计等功能。8)用户管理用户管理用于添加集中管理平台的用户,并可以针对不同用户分配不同服务器的管理权限。9)基于Web的集中管理界面用户可以通过lE/Firefox等网页浏览器以安全的Web方式实现对浪潮SSR多个客户端的管理管理和配置。管理界面还内置多种安全策略模板,可方便的分发到各个主机的客户端中,降低维护人员的技术难度和管理复杂度。1.数据库审计系统数据库审计系统可以获知哪些对象被访问或改变,何时何人进行非法访问。将用户操作数据库的所有记录存储在审计日志(AuditLog)中,它对将来出现问题时可以方

144便调查和分析有重要的作用。启用云数据库的审计功能,能够在数据丢失或者被盗前,对可疑的活动进行识别。另外通过可信的第三方进行审核,也可以发现数据库和云环境的脆弱性。从软件工程的角度上看,审计方式是安全的数据库系统不可缺少的一部分,也是数据库系统的最后一道重要的安全防线。1)对数据库的访问,必须经过防火墙的细粒度访问控制;2)根据规则策略的设定,对髙危访问语句与行为进行阻断:3)内置数据库虚拟补丁,对攻击数据库的行为进行检测;4)主动对SQL注入或缓冲区溢出等漏洞进行防御。3.12.3平台安全(虚拟化系统、云管理平台)通过对新媒体云平台安全现状和风险的分析,总体方案将从以下几个方面进行设计:(1)云平台基础建设1)新媒体云平台基于安全的浪潮操作系统。生产服务器安装标准的操作系统,并负责操作系统升级和安全补丁安装。2)防IP/MAC/ARP欺骗;在传统网络里,ip/mac/arp欺骗一直是局域网面临的严峻考验。通过ip/mac/arp欺骗,黑客可以扰乱网络环境,窃听网络机密。新媒体云平台通过宿主机上的网络底层技术机制,彻底解决了这些问题:在宿主机数据链路层隔离由云服务器向外发起的异常协议访问并阻断云服务器arp/mac欺骗,在宿主机网络层防止云服务器ip欺骗。3)恶意主机检测:新媒体云平台在物理服务器上部署了主机入侵检测模块,可以及时发现物理服务器被入侵成为恶意主机的情况。4)安全组防火墙/VPC:云平台使用安全组防火墙和VPC(VirtualPrivateCloud虚拟专有域)两种安全功能,来提供与传统H・环境下VLAN隔离相同强度的网络隔离手段。同一安全组内的不同云服务器可相互访问,不同安全组的云服务器不可相互访问。VPC使用SDN(软件自定义网络)技术,提供更贴近传统网络安全域划分的安全控制手段。(2)虚拟化系统安全采用分布式部署方式,在新媒体云内部所有服务器的虚拟机上安装“软安全池

145—主机安全加固系统”。通过软安全池对内部计算机资源进行安全加固、病毒防护。主机安全加固组件采用人工加固和服务器安全加固产品相关结合的方式对新媒体云服务器和虚拟机实施安全优化加固,阻塞系统安全漏洞、提高系统安全自我防护能力,保障云服务器系统安全水平达到安全业务需求。不会因为已知系统安全漏洞引发安全事故,使其满足等级保护合规要求。服务器安全加固基于先进的ROST(ReinforcementOperatingSystemTechnique)技术理论从系统层对操作系统进行安全加固,主要原理是通过对文件、目录、进程、注册表和服务的强制访问控制,有效的制约和分散原有系统管理员的权限,综合对文件和服务的完整性检测、Web过滤防护和防缓冲区溢出等功能,能够把普通的操作系统从体系上升级,使其符合国家信息安全等级保护服务器操作系统安全的三级标准。其原理如图所示:

146自主访问控制通用内核模型用户级访问控制列表使用SSR后的安全内核模型用户级操作或命令系统系统内核级」L内核〇文件系统〇过程控制I〇内存管理I[〇硬件界面J服务器安全加固原理访问系统界面统制理面系控管界件程存件文过内硬核内ノ访问控制,签名认!i,日我保护不同于防火墙、IDS等作用在网络层的安全产品,服务器安全加固是作用在系统层对网络核心的服务器操作系统进行安全加固,保护系统中重要数据和应用的安全,从根本上免疫目前各种针对操作系统的攻击行为,能彻底防止病毒、蠕虫、黑客攻击等对操作系统和数据库的破坏。注:人工加固包括:1)补丁更新:操作系统(Ubuntu>RedHat、CentOS.Windows等)、数据库管理系统(Oracle.MySql等)、虚拟机监控器(VMwareEsxi、vCenter等)、Hadoop等。2)安全配置:账户安全、服务端口等。(3)云管理平台安全根据新华网的云管理平台建设需求,我们提出了一套整体的云管理平台安全规划:通过云管理平台加强Web安全、虚拟化安全、数据安全、访问控制、安全审计、和多租户资源安全隔离等方面的安全控制功能。

147集成第三方安全模块,支持底层无代理防护,实现从操作系统到应用层面的三层防御,最大程度保障数据中心的安全性,帮助用户构建安全可控的云数据中心。支持跨域多数据中心管理,单ー数据中心可管理5000+服务器,20000+虚拟机,10000+用户,1000+组织。三权分立安全对于安全要求高的客户,支持部署安全、管理、审计三权分立的系统管理员结构。超级管理员可以在各自的云海系统中给用户授权不同的角色,在三权分立模式下,则为安全管理员授权用户角色。登录认证:实现了账号统一管理、统ー认证;实现了多种认证数据源对接,支持本地认证、LDAP认证,以及支持4A单点登陆:其他安全建设如下:资源域中的用户、角色、资源等安全隔离;提供租户组织管理功能;支持自定义角色:账号统ー管理、支持多角色赋权、支持LDAP用户管理;提供精确的操作日志记录;邮件服务器、短信网关、登陆黑名单、序列号等功能;多数据中心管理。3.12.3数据生命周期安全(1)数据安全生命周期:新媒体云平台依据数据的生命周期和虚拟化技术特点,构建从数据访问、数据传输、数据存储到数据销毁各环节的云端数据安全框架。数据访问:用户访问云端资源需通过控制台进行日常操作和运维,用户与云产

148品对应关系采用对称加密对实现身份抗抵赖。运维人员对新媒体云平台的运维操作均需通过静态密码结合动态令牌实现双因素认证,操作权限需经过多层安全审批并进行命令级规则固化,违规操作实时审计报警。数据传输:针对用户个人账户数据和云端生产数据两种不同的数据对象,分别从客户端到云端、云端各服务间、云服务到云服务控制系统三个层次进行传输控制。云端存储支持服务器端加密并支持客户端密钥加密数据后云端存储。数据存储:所有云端生产数据不论使用何种云服务均采用碎片化分布式离散技术保存,数据被分割成许多数据片段后遵循随机算法分散存储在不同机架上,并且每个数据片段会存储多个副本。云服务控制系统依据不同用户ID隔离其云端数据,云存储依据客户对称加密对进行云端存储空间访问权限控制,保证云端存储数据的最小授权访问。数据销毁:新媒体云平台采用清零手段在用户要求删除数据或设备在弃置、转售前将其所有数据彻底删除。针对云计算环境下因大量硬盘委外维修或服务器报废可能导致的数据失窃风险,数据中心全面贯彻替换磁盘每盘必消、消磁记录每盘可查、消磁视频每天可溯的标准作业流程,强化磁盘消磁作业视频监控策略,聚焦监控操作的防抵赖性和视频监控记录保存的完整性。(2)数据库防火墙:通过在RDS服务集群前端部署数据库防火墙,提供如下防护功能:•SQL注入攻击检测•SQL权限提升溢出攻击检测•数据库连接CC攻击检测•SQL资源耗尽攻击检测数据库审计:记录所有对RDS服务的数据库操作。3.12.6应用安全(1)Web应用防火墙Web应用防火墙(WAF)由WAF引擎中心、运营监控中心以及云用户控制中心组成,依托云计算架构,具备髙弹性、大冗余特点,能够根据接入网站的多少和访问量级进行WAF集群的弹性扩容,提供全面的WEB安全防御和“Oday”漏洞24小时快速响应服务。

149(2)网站安全漏洞检测网站WEB漏洞检测:该功能聚焦在对构建在云服务器上网站的WEB漏洞发现,检测的漏洞类型覆盖〇WASP、WASC,CNVD分类,系统支持恶意篡改检测,支持Web2.0、AJAX、各种脚本语言、PHP、ASP、.NET和Java等环境,支持复杂字符编码、chunk,gzip,deflate等压缩方式、多种认证方式(Basic、NTLM、Cookie.SSL等),支持代理、HTTPS、DNS绑定扫描等,支持流行的百余种第三方建站系统独有漏洞扫描、同时,通过规则组对最新Web漏洞的持续跟踪和分析,进ー步保障了产品检测能力的及时性和全面性。网站木马检测:在检测技术上通过对HTML和javascript引擎解密恶意代码,同特征库匹配识别,同时支持通过模拟浏览器访问页面分析恶意行为,发现未知木马。网站后门检测:网站后门是植入网站的一段代码,运行在web段,通常隐蔽性较好,管理员较难实时发现,植入后门的网站会被窃取网站信息,甚至丢失网站控制权,同时会侵害网站用户的隐私信息,给网站造成不可挽回的损失。后门检测通过扫描访问URL实时发现网站后门,并以短信或邮件的方式通知用户(可选),用户可登录云盾控制台查看网站后门隶属的云服务器及后门URL等信息,以便及时删除后门消除隐患。(3)平台应用髙可用云平台高可用性对于新媒体云持续稳定地运行至关重要,一旦出现故障,将影响整个新媒体云的各类应用。因此,本方案从三个方面来设计云平台的高用性方案,ー是在云平台前部署硬件高性能安全应用交付系统,提供云平台的负载能力,二是对内部DNS服务器进行手工加固,以及部署IPS设备来检测和过滤来自网络层的攻击,三是加强云平台自身安全性的设计,如关键组件进行分布式部署,并且需要部署到不同的物理服务器,避免出现单点故障。安全应用交付系统部署在云平台CloudFoundry组件的前端,以便对其中的多个Router进行负载。应用交付系统:负责对云平台中的多个Router进行负载均衡和应用加速,并提供商业化报表分析,详细了解警员访问新媒体云的业务情况。同时,建议将CloudFoundry中的多个Router部署到不同的物理服务器中,防止因服务器故障导致无法访问新媒体云服务。

1501)4-7层负载均衡基于4-7层的IP和内容调度,使管理员可以根据用户请求的内容来分配到PaaS平台中的不同的Router上,如图6所示。如基于DNS、HTTP包头等负载技术让管理员根据DNS和用户请求的内容来分配到不同的Router±!云平台应用系统中,静态资源可以位于ー个单独的服务器组,当发生对该类资源请求时,会话就被重定向到其中某个服务器,这样就保证用户请求分配的多元化和个性化,为管理人员提供更多分配策略和机制。7层的应用交付支持内存缓存、安全压缩以及针对HTTP包头和响应内容的个性化修改。2)服务器健康状况检查通过对应用健康状况的全面监控,应用交付设备可实时地发现故障服务器,并及时将用户的访问请求切换到其他正常服务器之上,实现多台服务器之间冗余。从而保证关键云平台业务应用的稳定性,不会由于某台服务器故障,造成云平台业务应用的局部访问中断。3)应用加速应用交付设备内容缓存技术将应用服务器中的ー些经常被用户访问的热点内容缓存在设备的内存中。当客户端访问这些内容时,负载均衡设备截获客户端请求,从缓存中读取客户端需要的内容并将这些内容直接返回给客户端。由于是直接从内存中读取,这种技术能够提高网络用户的访问速度,并大大减轻后端服务器的负载情况。在具体方案实施中,在用户和云平台间部署2台双热备的应用交付设备。(4)中间件安全服务中间件安全和设计规范:一方面对传入到服务中间件接口的数据进行全面的合法性分析,包括数据类型、数据长度、协议合法性等等,并对其中潜在的攻击进行阻断;另一方面通过编制中间件安全设计规范,在设计中间件时同步考虑安全措施,提高了中间件自身的安全性。3.12.6API接口安全API接口的本质在于将基础设施类的服务升级抽象成为可应用化的接口,为用户提供开发和部署平台,建立应用程序。

1514公有云方案设计4.1京东云简介京东云是京东集团旗下的云计算服务,拥有全球领先的云计算技术和服务模式。依托京东在云计算、大数据、物联网和移动互联网方面的多年技术积淀,致カ于打造社会化的云平台,向全社会提供稳定、安全、便捷的专业云服务。互联网+服务Al电商云相互融合,打通企业核心价值链平台支建PaaSlaaS弹性计茸资源池计算资源存储资源网络资源项目组织与协同云运回支间体系云安全保障体系云标准规范体系脳务市场ERPCRMOA丄电商应用J行业应用]流程Z协作工其他…基础云平台_云主机云存储云数据库负载均衡_路由器一子网ー镜像_云安全图4-1京东云产品架构4.2京东基础云服务简介京东基础云服务解决方案,提供资源池、云主机、子网、路由器、云数据库、云存储、负载均衡以及云安全等ー系列全面完整的云服务,并打造专业的云服务体系和高效稳定的it资源管理,以极具性价比的价格提供可靠的n・服务,通过多项行业权威认证,始终着力于提升运维效率,降低it成本,让客户可以更专注于核心业务的发展。•更灵活便捷:全球第一家无需重启即可实现云主机计算能力秒级升降的云服务。

152•更安全可靠:使用业界领先的SDN技术,提供10〇%网络隔离。比公有云更安全简单易用一键创建“私有云”服务弹性伸缩实时调整云主机CPU、内存、带宽.无需重启快速便捷秒级创建云主机,动态调控资源池依托京东技术与数据中心,提供公有云专业服务•更独立可控:计算资源用户独占,资源分配自主定义。比私有云更便捷图4-2京东基础云简介4.1京东基础云产品功能列表4.1.1弹性计算1、云主机云主机是运行在京东云下的虚拟机,用户可以根据实际需求选择创建不同CPU及内存配置的云主机。特性:・支持秒级重启,缩短业务中断时长。・支持使用镜像快速生成相同环境配置及应用部署的云主机,提升运维效率。・按需自由配置云主机的CPU、内存配置等,合理分配资源。・支持云主机系统盘及数据盘整体备份,保证备份统一性新增。2、镜像分为官方镜像、私有镜像和共享镜像,可以根据镜像创建云主机。特性:・京东云提供多种操作系统的多个版本,保证常用且稳定。

153・允许用户创建私有镜像,满足个性化需求。・用户可以将私有镜像共享给其他用户,共享共用。4.3.2网络1、子网一个自定义网络,不同用户的子网间10〇%隔离,确保私有网络环境。特性:・不同用户的子网间实现完全隔离,保证网络安全。・基于路由器实现用户多子网互联。2、路由器路由器用于多个子网互联,将多个子网绑定到同一个路由器下,形成一个局域网,另外还可以实现公网访问。若有需要可以为路由器下子网提供VPN接入。特性:・ー个路由器下可以绑定多个子网,这些子网可以互联,子网中的所有云主机可以相互访问。・路由器默认分配ー个公网网关IP,结合子网内资源所绑定的公网IP实现资源公网访问。3、公网IP弹性的互联网IP地址,为不同资源提供公网访问的能力。特性:・公网IP与账户关联,通过绑定/解绑操作快速实现资源间公网访问能力迁移。・免费为用户提供最高2G的DDoS防护。4.3.3负载均衡将大并发流量分发到多台云主机,调整资源利用情况,消除由于单台云主机故障对系统的影响,提高系统服务能力和可用性。特性:・通过简单设置即可实现强大稳定的负载均衡服务,提升业务对外服务能力。・通过健康检查,自动检测并隔离不可用的云主机,保证业务连续性。

154・提供4层(TCP协议)和7层(HTTP及HTTPS协议)的负载均衡服务。・提供基于公网IP的DDoS防护以及七层Web防护,多层安全防护策略提升业务有效性。4.3.4存储1、云硬盘云硬盘为用户提供稳定的存储空间,可单独使用也可组合使用,以满足用户不同需求场景。特性:・云硬盘内数据有多重实时副本,保证数据安全可靠,可用性高。・删除云主机时,挂载的云硬盘自动卸载,数据完整保留。・支持手动备份和自动备份,自动备份时间可由用户自定义。・支持云硬盘随时挂载到云主机或从云主机卸载,灵活选择。2、云存储通过大规模分布式存储集群提供的文件存储服务,实现对数据的统一管理。特性:・使用京东自行研发的存储和CDN技术,保证稳定、高可用的服务,并可通过智能调度实现自动故障恢复。・支持服务端加密技术,并具有数据隔离、访问控制功能,有效防止用户信息和用户数据资源泄露。・提供PB级海量存储空间,用户理论上可以使用无限大小的空间,无需担心存储空间成为业务爆发性增长的瓶颈。・按需使用存储空间,帮助用户节约存储成本,更经济地存储和管理数据资源。4.3.5云数据库京东云数据库服务,支持MySQL协议下5.6和5.7版本,提供备份及根据备份和时间点创建新数据库等功能,保障数据安全。特性:・采用京东私有云数据库架构,读写速度更快,性能更佳。■提供账号管理、库管理功能,使云数据库管理更加简单便捷。・每天为用户自动备份数据库数据,支持用户创建手动备份,保障数据安全。

1554.3.6云缓存基于Redis协议的在线缓存服务,支持多种数据类型,满足不同业务场特性:・数据安全隔离,主从双节点保障用户业务持续性。・创建后即可用,实现业务快速部署。4.3.7CDN内容分发网络(ContentDeliveryNetwork),通过互联网互相连接的电脑网络系统,利用最靠近每位用户的服务器,更快、更可靠地将图片及其他文件发送给用户。特性:■忽略网络物理距离和运营商差异,解决Internet网络拥挤的状况,提高用户访问网站的响应速度。■CDN系统能够实时地根据各节点的连接、负载状况,将用户的请求导向离用户最近的CDN节点上。■CDN系统根据网络流量和各节点的负载状况,实现请求分流,显著降低DDoS攻击对网站的影响。4.3.8云安全1、防火墙加强路由器和子网内云主机的安全性,依据实际情况自定义防火墙规则,绑定到路由器立即生效。2、监控报警对资源进行实时监控,并设置相应的报警规则,规则在被触发的同时会将相关告警信息发送给通知联系人。特性:・自定义报警规则,并且随时可以对已存在的监控报警进行监控规则调整,即时生效。・监控规则触发的第一时间会给通知列表联系人发出报警。・提供短信、邮件等多渠道报警方式,确保用户获取告警信息。

1563、DDoS基础防护DDoS基础防御为您提供抵御大流量DDoS攻击的能力,可根据业务需求设置清洗触发值,全力为您的业务安全保驾护航。特性:・秒级应对攻击,清洗迅速,保障业务的正常运行。・支持实时修改清洗触发值,灵活应对业务需求。・实时监控攻击状况,缩短黑洞时长,最快恢复业务。4.4京东数据云整体架构京东数据云系统依托京东公有云稳定强大的IAAS底层服务系统,将公有云云存储、云数据库等基础设施作为数据存储层。京东数据云面向客户提供包括数据采集、数据清洗、数据存储、数据挖掘分析、数据开放集成、数据交易等云服务,依托京东稳定且安全的基础云服务,结合京东大数据的技术能力,解决客户自身数据多元化应用需求,实现对数据的高效利用。

157环境数据质检数据征信数据金融数据电商数据其他…mg交易数据交易平台万象数据报告API第三方数据mg集成mg分析mg存储mg•Bi集数据集成半台API平API网开发套HTifflイレ第三方台关件J现化工具数据分析(实时、离线、潦式)mg可视化平台数据清数据建计算平数千エRK0住洗模台坊B组件数据交换平台ー左修云数据Hadoo数据迁自动部な仔师库p集群移署数据收集平台DBUS历史数据/的1gホ仔实时日志文件侬市场数据流咨询服务数据专家解决方案OoODo数据治理图4-3京东数据云整体架构数据收集平台ーー为数据传输存储提供保障数据收集平台可将各种数据源的海量数据安全、准确的采集到云存储、云数据库中。可实现数据的上传、下载、断点续传等功能,为数据的安全、准确传输提供了保障。数据交换平台ーー为数据交换共享提供通道数据交换平台由云数据库,元数据管理,数据交换引擎,统ー数据服务等组成,可实现数据的自动提取与转换,为不同数据库、不同数据格式之间,进行数据交换共享而提供的通道。数据分析平台ーー为数据发展提供基石数据分析平台是ー种安全、稳定的大数据处理服务,提供实时处理、离线查询及流式分析计算框架,支持海量数据(TB/PB级)跨数据源监控管理,帮助客户快速

158实现各类数据采集通路、搭建统ー数据中心底层,是大数据向前阔步发展的基石。数据可视化平台ーー为数据可用提供利器可视化分析平台是ー种针对海量数据的联机分析处理(OLAP)服务,提供数据分析全流程工具组件,支持图形拖拽、所见即所得的数据操作方式,帮助客户更准确更便捷地分析大数据背后更大的问题,是客户大数据从模糊概念到清晰使用的利器。数据集成平台ーー为数据开放提供快车数据集成平台是数据及系统集成的基础设施,支持将云端应用及数据通过简单、快速地配置转化为API,同时提供安全独立的数据门户以及统一管控的开发者中心,帮助客户实现平台化数据共享,掌握数据使用情况,是客户大数据开放平台的ー辆快车。数据交易平台——为数据增值提供场地数据交易平台为数据提供方、数据需求方、数据服务方等构建的综合性数据交易平台。提供服务商管理后台,支持数据提供方快速发布出售数据或服务,提供数据交易商城,为数据增值提供场地,进ー步促进数据流通。4.4京东数据云产品功能列表京东数据云在数据处理的各个环节提供全链路大数据产品。

159图4-4数据云产品功能架构4.6.1数据迁移数据迁移(DataTransmissionService,简称DTS)是京东云对外提供的稳定、高效的数据传输服务,可快速、定期地在京东云存储、数据集群等数据源间批量移动数据。1、产品功能产品ー级功能功能简介数据迁移批量数据传输快速定时完成京东云存储、数据集群等数据源间的批量数据传输。2、产品特性•高效管道资源按需分配、高速度髙吞吐能力•灵活自定义调度任务、多数据源间传输界面化操作快速便捷、同步支持SDK及CLI

160管道资源按需分配高速度高吞吐能力界面化操作快速便捷同步支持SDK及CU图4-5数据迁移产品特性3、核心模块创建管道模块,用户可根据数据来源及数据目的地定性创建数据搬运的管道。从本地、云存储、云主机等多端到多端的数据迁移。查看管道模块,用户可实时管理数据迁移任务,通过执行、终止等多项操作,启动数据传输服务管道或停止数据传输服务管道,管理数据的走向。4.6.2DBUSDBUS是数据计算平台内建的从用户本地到云环境数据计算平台之间进行数据上传、下载的工具产品。1、产品功能产品ー级功能功能简介DBUS数据上传工具提供dbusupload命令,上传本地文件到云环境数据计算平台对应的数据库表。

161数据下载工具提供dbusdownload命令,下载云环境数据计算平台指定数据库表到本地文件。断点续传在同步数据发生失败时,dbus记录失败断点,从断点处继续同步。自动切分大文件按照指定大小,将大文件切分为多个小文件进行同步4.6.3云存储/云数据库京东云laaS产品提供的云存储、云数据库产品,可用于用户数据的存储、归档,也可以用于结果数据的存放、与用户已有应用进行集成。京东云DaaS产品提供的数据迁移产品,可用于在云存储/云数据库与数据计算平台之间进行数据同步和交换。4.6.4数据计算平台数据计算平台(DataComputingService,简称:DCS)是ー个全托管、低使用成本的PB级数据仓库产品。使用数据分析人员熟悉的SQL语言即可开展大规模数据处理与分析工作,而用户仅需对实际使用进行付费。

162雌MonitorHDFSKAFKARDBMSResourceManagerRealTimeAdHocJobSchedulerModelingDdtaFlow计算控制层<=>图4-6数据计算平台框架图1、产品功能产品ー级功能功能简介数据计算平台工作台功能引导界面以及提供对计算资源使用情况关键指标的展示数据表管理数据库/数据表的管理(新建、管理、删除、表结构查询、表数据预览等)数据加载提供从客户本地、云存储加载数据到计算服务平台SQL查询支持使用SQL对数据进行处理分析以及结果查询、下载。提供即系查询/批处理计算引擎以适应不同计算场景。作业调度部署并执行作业(修改/删除/开启/终止/日志查询)数据下载从计算服务平台将表中数据下载到客户本地自定义函数计算服务平台为开发者提供JAVA版本的自定义函数UDF功能,通过上传自定义函数的JAR包,开发者能够实现定制化的分析能力

163授权管理支持对京东云用户进行数据授权(授权/修改/收回),实现数据共享SDK提供SDK开发包供开发者利用数据计算平台的数据计算服务,嵌入自身应用CLI客户端提供命令行CLI客户端用户访问工具的下载,方便用户操作使用2、产品特性•秒级响应・TB/PB级数据量・高吞吐高并发・秒级耗时实时展示・跨数据源混合计算•灵活易用a开箱即用・完全托管・可自由切换计算框架・多种访问接口•安全可靠■集群多维实时监控■数据物理隔离TB/PB级数据量高吞吐高并发秒级耗时实时展示跨数据源混合计算安全可靠集群多维实时监控数据物理隔离秒级响应开箱即用自由切换计算框架多种访问接口

164图4-7计算平台产品特性3、核心模块数据存储层,DCS采用HDFS/RDBMS/KAFKA/JFS进行数据存储,满足用户不同数据来源的需求。计算控制层,DCS采用Presto/Hive多种计算框架,充分满足用户即席查询和批处理的应用场景,同时京东提供了一套完备的资源监控与管理系统,用户可以实时查看计算、网络、存储等资源的使用状况,从而可以指导用户进行相关资源的调整,从而达到充分合理的利用。实际应用层,DCS面向用户提供数据建模、即席查询、批处理、任务调度、资源管理、集群监控全方位服务。在数据建模模块,用户可进行建库、建表、数据加载、数据管理等操作。在这个模块,用户可直接将生产环境中的数据导入计算集群,进行洞察分析:在查询管理模块,用户可灵活切换即席查询引擎或批处理引擎完成计算,分析后的结果可回归至实际生产环境,应用于决策分析或生产报表;在任务调度模块,用户可触发定时性和周期性任务,使用更灵活。4.6.5数千エ坊数千エ坊(DataFun,简称:DF)通过拖拽、所见即所得的数据操作方式,对海量数据进行可视化分析,底层引擎支持ANSISQL,并提供ODBC/JDBC驱动无缝集成BI工具,使用户轻松上手大数据处理。

165服务层数据预处理基础架构HDFS图4-8数千工坊架构图1、产品功能产品ー级功能功能简介数千エ坊数据表连接DCS的数据源,可以基于已经连接的数据源创建数据模型数据模型已经创建的数据模型列表,可以对模型进行启用、禁用、构建等操作工作表对创建的数据模型,以拖拽形势进行查询及图表展现,并保存工作表数据故事对已经保存的工作表进行图表展示,制作报表。

166我的工作表保存已经制作的“工作表”,并可以重新编辑我的数据故事保存已经制作的“数据故事”,并可以预览和重新编辑2、产品特性•操作简单方便通过自动及手动拖拽方式对数据进行所见即所得的可视化处理,低门槛成就数据分析,轻松掌握数据分析利器。•多维数据模型支持多维度数据模型创建,轻松自定义数据处理逻辑,为业务方向提供依据。•极速海量数据分析通过配置多维数据模型,支持百亿级数据超低延迟处理,实现大多数查询亚秒级返回,适应高并发的交互式分析场景。•丰富可视化效果支持丰富的数据可视化图表效果,智能推荐个性化报表展示方案操作间单方便WIM疮拽方式进行所见即所得的数据处理,低门槛成就数据分忻,羟松掌握数据分忻利齧.图4-9数千エ坊产品特性极速海量数据支持百亿级数据超イ疏迟处理,适应高并发的交互式分析场鼠3、核心模块

167图4-10数千エ坊核心模块流程图从数据源处理、分析到制作数据故事的交互式报表,京东数千エ坊为用户提供交互优化的操作界面。底层引擎支持ANSISQL,并提供〇DBC/JDBC驱动。在使用数千エ坊过程中,用户可以选择以行列多样的布局形式拖放制作数据故事报表。在产品内部,用户可以选择多重布局组件用于存放“控件”。包括:行列布局、TAB页。为考虑用户进行报表交互,数千工坊提供控件组件包括:文本、过滤器、时间、查询条件等用于交互操作;支持图表组件包括:表格、柱形图、折线图、饼图、油量表、雷达图等以图表的形式展示数据;支持数据故事报表在编辑界面、预览界面和阅读界面的不同展示和处理。图表组件数据支持来自工作表的数据,并根据数据特征进行图表样式的智能推荐;支持按照数据集的维度与计量进行OLAP查询;支持数据的钻取功能,灵活分析数据。4.6.6API网关API网关(APIGatewayService,简称AGS)是京东云对外提供的安全、稳定、便捷的数据及系统开放集成服务,可将京东云上部署的应用及数据简单、快速地转化为API,同时可搭建独立的数据开放门户、开发者中心以及统ー管理后台,吸引开发者通过调取API开发相应业务应用,进而打造自己的业务生态。其中包含网关(Gateway),鉴权(Oauth)>集成(APIMenager)、开发者中心(DEV)以及内容管理系统(CMS)等功能模块,且通过组件化、多租户、自动部署等特点进行实现,根据自身业务场景配置即可使用。

168IIPAAS-toolIPAAS-serviceIPAAS-core图4-11AP!网关架构图1、产品功能产品ー级功能功能简介API网关创建API接口通过简单的参数配置,零代码实现数据库或web服务API搭建独立开放门户通过云服务器部署以及CMS系统,搭建专属数据开放门户自动实现数据网关多租户形式实现各自独立的数据网关,自定义网关域名数据调用身份鉴权通过0auth2.0实现数据所有者的用户鉴权及身份验证

169自动生成APISDK自动生成已发布API的源码包及编译包,提高应用开发效率开发者监控&管理统ー管理后台,实现开发者信息及其调用行为监控管理2、产品特性•安全B用户鉴权身份验证・签名防止请求篡改・调用权限审核把控•独立・集成数据独享存储・开放门户单独部署・自定义域名及门户•便捷・自动实现主机部署・零代码配置化操作・自动实现接口SDK•灵活■多种集成业务场景■功能模块按需配置■支持多数据源集成安全用户鉴权身份验证签8防止请求更改调用权限亩樹e控自动实酶零代码配置化操作自动实现接DSDK

170图4-12AP!网关产品特性3、核心模块系统配置模块,是为了方便您在使用数据集成(DIS)之前根据自身业务对Gateway,Oauth、APIMenager,DEV以及CMS等功能模块进行设置。用户无需分别理解并选择各个模块,只需在第一步选择适合自身业务的应用场景,按照相应的引导进行设置即可。数据集成模块可以让您在功能模块配置完成后根据业务需求将数据或服务转化为API开放出去,目前数据集成(DIS)支持WebService及云数据库两种数据源。WebService集成以http协议为核心,通过简单的参数配置及URL连接,即可实现SaaS应用的集成开放。云数据库集成以JDBC连接为核心,通过简单的SQL查询及参数配置,即可实现data数据的集成开放。在运营管理模块,您即可以对第三方开发者以及其调用进行管理。目前数据集成(DIS)支持用户管理、应用管理、SDK下载以及文档管理。您可以自由审核开发者权限,判定是否允许第三方开发者调取您的API。您也可以查看开发者创建的应用信息,包括应用名称、状态以及所属用户等。4.6.T万象万象(JDDataMall,简称:JDM):是京东云出品的综合性数据交易平台;提供丰富全面的金融、征信学籍、电商消费者画像、行业薪酬、企业名录等数据。1、产品功能万象平台本身不使用任何数据,而是主要帮助数据提供方、数据需求方进行数据对接,帮助企业解决数据孤岛的问题,从而提升企业运营效率。平台本身会对接多维度的丰富数据,保证数据的安全性与接入效率,是企业数据输出与流入的最佳渠

171道。与此同时,万象平台还提供企业与企业之间数据互联服务,解决客户内部资源多系统之间的整合问题。2、产品优势数据的接入方式以API的形式接入,通过数据交易的形式实现买卖双方的价值。同时平台提供ー系列的交易流程和管理流程,充分满足客户所需,打造数据交易市场的流畅性。万象平台的数据产品丰富,覆盖品类数据多样,其中平台主推的金融行业的相关数据,现已覆盖包括个人和企业征信报告,黑名单数据,失信数据等,此类数据给互联网金融企业带来巨大的需求满足,同时也增强了数据的变现能力和价值。3、核心模块is咱理平台万象差台dataplus.jd.comwxlinkjd.com数据开发・V京据分析•务・需求方数据上传报告上传模型工具计费设置...店铺管理订单管理结算中心运营分析&监控K务生态■据集成商数据合作离商城平台・数据市场・API+分析工具+数据报告I■114.6京东数据云产品核心优势京东数据云的核心优势概述为以下六点:•服务托管,用户省心・平台托管模式让用户无需自行部署软硬件环境・集群性能由京东统ー进行监控和运维管理•数据安全、权限可靠■物理隔离、沙箱环境保证数据安全

172・健全的用户权限体系,保证安全•海量数据、极速分析・支持PB级数据批量处理・支持高吞吐量、高并发量;秒级运算耗时•便捷易用、灵活配置・数据集成,数据自由流转,定时调度■平台自由配置,动态扩容、收缩•数据开放、品类丰富■简单设置即可开放API接口,数据即时开放・数据市场支持数据需求方和提供方自由交易•权威的行业数据专家依托京东电商平台背景,为用户提供广告促销、个性化信息展示、日志点击流、搜索优化等咨询服务;并可提供数据挖掘服。4.7京东公有云与浪潮云管平台对接方案京东公有云可以通过API对接入浪潮云管平台,作为浪潮云管平台的ー个资源池的形式展现。根据实际业务需求,对接方式可以分为两种:•浪潮云管平台逻辑纳管京东公有云资源浪潮云管平台通过京东公有云的开放API,将京东公有云租户VPC资源接入浪潮云管平台。逻辑上统ー调度公有云资源以及私有云资源。方案优势在于,方案实现简单、成本低。仅需通过京东公有云API即可实现对接。而不足之处在于,京东公有云资源与私有云资源网络上相互隔离,不能充分利用公有云的资源及弹性优势。•浪潮云管平台纳管并协同调度私有云及京东公有云资源浪潮云管平台通过京东公有云的开放API,将京东公有云租户VPC资源接入浪潮云管平台。并且将私有云与京东公有云租户VPC通过公有云提供的VPN服务(或自建专线)网络互通,实现资源上的整体统ー调度。

173方案的优势在于,实现京东公有云资源与私有云资源的网络互通,真正实现资源的统ー调度,最大程度的发挥京东公有云的资源及弹性优势。充分利用如公有云存储、CDN、防DDOS等等优势资源。而方案的不足在于方案的实现根据网络打通的方式不同,会有成本上的较大差异。图4-14京东公有云与浪潮云管平台对接方案

1745运维管理方案设计5.1系统管理根据新华网IDC实际情况,分为不同的域,各个域之间物理隔离,互不干扰。机房系统管理员将域信息导入到云平台上,可对该域下的资源进行统一管理。系统管理员对导入的域信息设置角色并对每个角色赋予权利。机房管理员可以赋予的角色包括超级管理员、域管理员、组织管理员以及组织用户。系统管理员也可对整个平台的日志进行管理与设置。设置的参数包括时间、操作IP、资源域等信息,并对日志生命周期进行管理,在系统设置中,对系统的邮件系统、语言、短信系统进行设置和测试。5.2资源管理新华网在长期的信息化建设中,已经积累了很多不同技术路线,不同架构,不同品牌的硬件产品ーー服务器、小型机、存储、网络设备,部署了各种各样的应用,并且已部署KVM等多种虚拟化环境。数据中心内积累了大量的软硬件资源,本次方案将数据中心内种类繁多的硬件资源、异构的虚拟化系统和不同的业务应用进行统一管理,使用云平台中的资源管理模块来实现。云平台提供的云资源调度与管理模块实现对数据中心各类异构物理资源和虚拟

175资源的综合运维管理:支持各大厂商的服务器、存储、网络设备,IBMPower小型机等系列等硬件产品统ー监控;支持VMwarevSphere、浪潮InCloudSphere>CitrixXenServer、OpenStacksPowerM等不同厂商的虚拟化环境统一管理。实现基础资源根据业务需求弹性扩展、动态流转;实现资源的按需获取、按量计费。实现对云数据中心服务器等硬件资源,数据库、web服务等软件资源以及虚拟化平台的监控管理;通过自助服务门户,组织可轻松创建自己的虚拟数据中心,组织或组织用户可快速搭建业务平台,使云数据中心具备对外提供服务及运维能力,实现云数据中心资源服务化。云平台可管理的云资源包括虚拟控制中心、集群、主机、虚拟数据中心、虚拟机、网络、存储、模板等。inClou為震度トヲ^7^«36^心平匂■业务管理计费雪现O1智健监控运缠营理系统営理O10。5〇〇1adminQ所有域•。"VStyle起始页ス资源笞通|云服务@エ資理書理1MAMB分為maww?»ゆ%,q*MIM|中心•蜡娟雨••*a机£弹▼期應・三・M投制中心黛群•OHfl•0里多操作み等・加VACPU/修■,イMaOB99主机2骑目线计eM22048100212...1蝮aiOGS1002124-MH防機中。*《f»据中心手枝鹏系援e2*■220481007M1陵原10681«?1C8M3-勒DU中。MM2ヤei«22048100212-1怦拉100810021215-RAA民HZ榻中心*时我市RI8*ez*22048100212..1H>tt50B1002.1221-NttB對BU!中心7isiMm捌22048100212...1鏤»10GB10021231-I4HB易R機中しifitniQ%0jE*■卡2204810073s1後翼7008100212X-van0m機中心堂管種341022048100731..1儘"1006-S(9S32獨中C«・碑価时次号内KQZ*MB220481002.12.11¢tt10081002.12”-nasMふ号触穗中む貫,冏歩勃学仲定钿MT220481007M1住”10GB192(M208*"易・镇中心系统管理员导入已搭建好的虚拟数据中心,云平台自动同步集群信息,做统一监控管理。针对集群可以做高可用操作,主机的生命周期管理,虚拟机的创建于管理,存储的导入与挂载,并可以将虚拟机生成模板,包括虚拟机模板、应用服务模板等。5.1混合云管理众所周知,公有云具有低成本,标准化,按需付费,弹性扩展,快速部署,快速交付等特点;私有云具有服务、位置、规则可控,硬件加速,配置优化,自主可控等特色。为了最大程度的共同发挥私有云与公有云的优势,InCloudManager云管理平台提供异构混合云环境的统一管理、调度、运维、监控、安全与资源自服务等功能。

176云资源管理云服务管理计用计费租户接入〇业务审批云安全InQoudManager统一用户私有云视图公有云视图集群IVDCI主机I虚机・网络云存储云网络虚拟化适配器云间连接器公有云适配器VC・ICS■HMC■XenServerBAT云京东云如上图,在基础设施层面,按照云化环境的类型,划分为私有云视图和公有云视图两大类。其中:>在私有云视图下,基于虚拟化适配器,将包含诸如浪潮InCloudSphere,VMwarevSphere、思杰XenServer、IBMHMC、OpenStackKVM等异构的虚拟化环境进行统ーAPI接口适配,向上层业务层提供集群、虚拟数据中心、宿主机、虚拟机、虚拟网络、虚拟存储等逻辑概念,抽象虚拟计算池、虚拟存储池、虚拟网络池等资源;>在公有云视图下,基于公有云适配器,调用各厂商公有云AP!接口,如阿里云、百度云、京东云等。将公有云资源进行统ー抽象,想上层业务层提供云主机、云存储、云网络等逻辑概念,抽象基于公有云环境的虚拟资源;>在公有云与私有云之间,自主研发云间连接器,用于实现私有云与公有云间资源的迁移、调度、备份等扩展增值服务;>InCloudManager采用内部的组织用户体系结构,将资源与所有者间的关系进行统ー纳管。基于混合云资源,上层提供统ー的云资源管理、云服务管理、计量计费、业务审批、安全管控等服务。>云资源管理功能,对整个混合云环境的虚拟资源进行操作,包括虚拟机与云主机的生命周期管理,私有云与公有云环境下计算、存储、网络资源的统ー运维、调度、管理、分配等;

177>云服务管理功能,通过服务目录的发布与订阅机制,将云主机、云硬盘、对象存储、虚拟网络、防火墙、负载均衡器、安全设备等资源以自助式服务的方式提供给组织、租户,实现云化环境服务的整体交付;>计量计费功能,以CPU、内存、硬盘、网卡等粒度,记录各组织、租户的资源使用情况,进行定时计费、自动扣费、自助缴费,并针对私有云资源和公有云资源的不同特点,定制计费策略与个性化套餐;>业务审批功能,形成以资源为中心的定制化业务流程。可根据实际需求,针对不同的资源定义不同的业务申请审批流程。当资源申请时,申请信息自动通过邮件或短信方式通知审批者;审批通过后,资源自动创建分发并通知申请者;>安全管控功能,为租户提供云化安全服务,包括东西向隔离、南北向防护、安全审计、应用防护、主机加固等业务层面的防护,和全量备份、增量备份、自动化备份、数据防篡改、完整性检测等数据层面的防护。>提供管理员接入门户,供管理人员管理、运维、分配资源;提供租户接入门户,供租户自助获取与使用混合云资源。2、云间迁移GUI界面云服务门户ISM大数据云管理门户ICM云服务云管理云存储云桌面负载均衡Incloud计算池云安全Incloud存储池混合云适配器云资源管理运堆自动化故障管理监控管理计・计费流程审批第三方网管_Incloud网络池vSphereXenServerPowerVMicsOpenstack计算I存储I网络混合云连接器京东ZX开放接口/RestAPI雌计算存储和数据库大规横计茸安全与管理应用服务同城数据中心同城数据中心异地数据中心上图以京东云为例,详细描述了具体的实现架构方案。在私有云与公有云之间,部署混合云连接器软件。在一般情况下,私有云和公有云各自为政,分别管理自身的资源。当有迁移需求时,以混合云连接器为媒介,进行云间迁移。

178迁移从实现上,分为冷迁移和热迁移两大类。从公有云迁移到私有云与从私有云迁移到公有云方向不同,但技术实现原理基本一致,下面仅以私有云迁移到公有云为例,进行描述。>冷迁移,即云主机关机迁移。该类迁移的可靠性较高。当私有云迁移到公有云时,将私有云环境下的虚拟机关机后,以数据复制的方式,将虚拟机磁盘文件进行导出,转换为通用的OVF(OVA)模板格式文件。通过InCloudManager的混合云连接器,可将导出的OVF(OVA)模板导入到公有云环境。由于私有云和公有云的网络环境存在差异,云主机开机后,需要重新配置IP地址,进而完成云主机的迁移。>热迁移,即云主机开机迁移。热迁移由于开机操作,相比冷迁移,可靠性相对降低,而且迁移时间更加依赖网络带宽。当私有云迁移到公有云时,首先在公有云部署ー个无系统的云主机。如下图,InCloudManager混合云连接器提供分区分发服务,首先将私有云虚拟机的分区数据复制到连接器后端存储,然后的あ点儼辞^■・後应用软件系统软件...应用集群•目的云主]・应用虚拟机・应用软件H系统软件ル:•••遊・虚拟机集群0

1795.4业务管理基于新华网用户对业务自动化运维的需求,云管理平台实现审批流程节点、节点类型和角色类型及其之间相互联系的自定义逻辑处理。用户自定义和配置审批流程涉及的参与角色、审批环节和处理逻辑,实现了业务流程的自定义化处理,高效的集成在整个云数据中心管理平台中。•业务审批模块使得云管理平台中的资源能够更加合理的被分配,保证资源分配的有效性与及时性。•当用户申请某类资源的时候,会按事先配置的流程进行流转,会及时通过邮件的方式通知上级审批人进行审批。流程自定义创建,修改,非常灵活,在流程上的审批节点可以是ー层审批,也可以是层层审批,一直到最终资源的分配,并通过邮件通知申请人。«云平台实现的业务审批包括:申请虚拟数据中心、申请网络、申请修改虚拟数据中心、申请虚拟路由器、申请卷空间、申请添加虚拟机、申请修改虚拟机、申请云物理机、申请回收云物理机、申请云盘空间等。inClou》•・页云货am現云•务业务営理,随能监在!stmi0]010Os〇〇。斯Ml-。•.Styte-蔡銳富理@北斋青强北舞am北务,曬管理へ业粘附増加业务流程去程名資ヌ耀昌博市,備・,計・ナ・一マ样质:'申(»晶6田3申110支日申・.々加般机・演修方・枢机マ桎节&中ホtw*串・三ー。伶£yamMt・,,-BAi业务审批流程的电子化提高了工作效率,并且随时可查已申请的历史记录,使管理员对整个云平台的运维管理更加方便。5.5智能监控5.5.1多维度资源监控与管理设计监管管理必须提供全面、统ー、多维度的管理监控子系统,可以管理监控数据中心各类海量异构资源,包括服务器、存储、网络等硬件资源,各种操作系统、数据库、中间

180件等软件资源;并且能够自动发现并修复系统故障;监控管理子系统可监控大规模数据中心,支持分布式部署,支持异构平台,具备丰富的监控项类型,包括;CPU使用率、CPU负载率、内存使用率、网络流量、磁盘空间使用率、磁盘I/O,进程数等。支持对Linux/Unix服务器以及Windows服务器的监控。支持通过对监控数据的分析,对云资源管理平台的其他高级功能进行数据支持,进行负载均衡,保证应用的连续性及快速响应。支持根据之前某段时间的监测,提供预测值,提前对系统进行维护,防止意外情况的发生。支持节能管理,通过配置节能策略,对数据中心进行智能能耗控制。其设计的总体架构如下图所示;监控管理总体架构监控管理子系统应充分考虑系统扩展性、性能、稳定等因素,具备:分布式监控架构、插件化适配层、主/被动轮询检测、资源类型可扩展、智能的业务监控和故障分析、全面的硬件监控等功能。5.5.1业务监控和故障分析设计

181支持根据业务所包含资源的关联关系生成直观的业务拓扑,可更加直观的进行业务监控。支持以业务中的资源集合为单位进行智能的业务监控和健康状况分析,实时进行业务根本故障原因告警。支持对数据中心全面的监控,支持服务器、存储、网络、操作系统、中间件、数据库、业务应用七大监控类别,根据业务所包含资源的关联关系生成直观的业务拓扑。支持对监控数据进行智能的分析、预测,结合成熟的故障分析策略,实现对故障的准确分析。fiE»83故廣分析策略支持故障分析支持业务审批模块,提高新华网云数据中心操作系统中的资源能够更加合理的被分配,保证资源分配的有效性与及时性。支持自动消息推送,当用户申请某类资源的时候,会按事先配置的流程进行流转,会及时通过邮件的方式通知上级审批人进行审批。支持可定义流程,包括创建,修改,在流程上的审批节点可以是ー层审批,也可以是层层审批,一直到最终资源的分配,并通过邮件通知申请人。

182支持随时可查已申请的历史记录,使管理员对整个云数据中心操作系统的运维管理更加方便。5.5.1分布式监控架构设计分布式监控架构支持监控管理子系统根据其管理的服务器节点规模,智能的增加数据处理与采集层的组件个数,并使每个组件只服务于特定数量的服务器采集处理,该特定数量是根据单线程在不影响系统性能,能够采集处理的最大服务器数。可以保证监控的性能和扩展性。支持统一管理分布在不同地域、不同数据中心的云资源,解决跨数据中心管理困局。支持域管理,可以将多个数据中心直接加入到云管理平台进行统一管理,也可以将多个云管理平台通过多数据中心部署方式,管理和同步不同数据中心云资源。支持基于监控数据生成仪表盘、告警、报表等信息。如下图所示:ォ储合・■Htitabiui100212tMOSO/OO?10021X293"SkvoLISOJ1108219^10CMDM_Pana_toa212J2/T*rJ-»MMNAM1M*n■ZZ2014-07X11193B51■4rtN*>«

183基・僖星«ロ!!:9査源状去:正常0f雪キ〇二卷&吿aモ此・〇吉瞥俄・我UO3M71O51切M9M6140405/U0421S505資麟里•・裾・邮堂1•*■,…分布式监控架构支持对数据中心全面的监控,支持服务器、存储、网络、操作系统、中间件、数据库、业务应用七大监控类别,根据业务所包含资源的关联关系生成直观的业务拓扑。

184官产硒5业?5税里吊扑利25SS5住委告建冬统8法分布r»新育资逓(46)向(诉军台(46)囹,イ.・拟控制中心(1)囹・.第帚(2)»主机(3)田谢牌据中心33)用4废拟机(21)aル存依⑹♦學麗芬ヨ(。)♦*«ジ关・应用主机(0)♦114、sm(o)s・网珞设黄く。)而・布»1(0)E印・作系统9)♦鱼似资源9)・必揖序(。)04ysql5.0(0)QOradelOg(O)0SqlServer2OO8(O)闺0V3bf«务(0)■(j^ack(O)出・刀片藤努m(。)主机西但制中心刍丽怡誓,聂さ称ipteatSSM售W3I闻•・破王丸172J72.1ユljf9b_.172.172.1.21S.»*S2015*12-0806:42:38Ilh32m32sStSBMhA£tfL172.172.1.22_d7c.172.172.1.22县阴隼民2015-12-071534:1826Mom52s资源视图所有接入产品分布、信息、报警故障告警(告警、故障趋势信息、资产信息、警告信息统计表)明确告警的趋势,及时进行维护操作5.5运维管理5.5.1多租户管理用户管理体系使各个用户职责权限清晰分明,系统功能划分简洁高效,系统管理员

185把有限的权限下放给组织管理员,使其可更好的维护管理基础设施,避免因繁琐的用户资源申请导致云管平台的服务效率低下。>系统管理员侧重基础设施层面的物理资源管理与整合。>组织管理员侧重虚拟VDC,虚拟网络,虚拟存储层面上的虚拟资源管理与整合,向系统管理员申请虚拟资源映射的物理资源,并负责根据用户申请分配虚拟资源。>普通用户侧重于通过自助服务门户按需索取资源的功能。自助服务系统portal灵活用户管理体系酒数中管平台云云据心理厶U5.6.2角色权限访问控制

186云管平台的角色控制是在RBAC的基础上的,首先由默认角色和自定义角色为主线,进行权限级别的控制。自定义角色是以组织管理员角色为基础权限集合,通过权限分配“树”的勾选,实现所有可选权限的有效控制和细粒度的分配。同时,也实现了权限和角色多对多的控制和操作。>不同角色,不同权限分配,多对多前台页面通过对表JSON数据快速引导计算,把权限序列加载到页面树状结构中。根据不通的角色类型,可以引导出不通的权限集合树。通过对权限的勾选,可以实现对不同橘色进行权限定义、修改、删除和查询及重定义。RBAC示意图云管平台的默认角色分为系统管理员、组织用户、组织管理员。系统管理员负责数据中心的所有资源的管理监控和分配。组织用户是具体的资源的实际应用者。组织管理员是对组织内所有资源的持有者。可以向系统管理员申请资源,也可以把当前的资源下放给组织用户。>RestApi接口与权限“多对ー”角色与权限多对多对应之后,RestApi的接口通过配置文件也与权限形成多对一的对应,并把对应关系以关系对应的形式放置在权限认证组件内存中。由此,对于不同的用户发送的请求,我们通过其角色所拥有的权限,同时对照权限所对应的Api集合,实现对权限的细粒度的精确的控制。对于非法的请求,以及危机网络安全的黑客攻击,具有防范效果。云管平台通过接口对应监控机制,做到安全同时有效的细粒度的角色权限访问控制。角色分配

1875.6.2自动化运维>支持大规模和小系统;胜任任意数量服务器,无需复杂配置

188>支持并行执行:安全的加密和解析协议;最小化使用网络和负载>构建在成熟技术之上:ZeroMQ处理消息;AES加密;msgpack通信,更快更轻>使用web客户端与标准化API>支持快速、灵活、可扩展:支持Master级联和Returner自动化运维UICoober物理资源远程操作配置管理监控告警5.7安全管理针对新华网云平台的安全管理,需要实现对云平台的实时监控、分析设备状态和安全状况,提供集中分析与审计平台,并能够提供清晰全面的统计报告。通过集中的策略管理,简化多台设备安全策略部署工作,节省维护成本。采取的安全管理具体的方式如下:5.7.1威胁情报分析通过对新华网云平台的'‘态势感知”,涵盖主机、应用、网络、人员四个方面,过程可以分为:事前(预判)、事中(防护)、事后(取证分析)三个阶段;进入事

189态感知界面,展现的是安全总览,这里可以了解到最新威胁、、最新情报、资产告警等信息,为安全管理人员提供了一个全局视角,让管理人员能够以最短的时间、最快的速度掌握所有的资产威胁和安全状况;出现告警的时候可以在第一时间掌握告警次数、告警主机ip、告警时间、告警简要描述、告警类型相关信息。事前预判;管理员可以对资产信息;资产IP、资产所属分组、操作系统、系统软件以及上线应用列表、对应的云服务器IP、使用的开发组件进行统计,系统搜集第三方漏洞平台讯息,及时了解运用程序的最新出现的安全漏洞。事中防护:系统可以对访问者进行识别;是正常访问、恶意访问还是爬虫访问,及时发现潜在的安全风险。应用漏洞中可以查看应用组件分布和应用漏洞分布,及时发现上线应用存在的安全威胁。事后取证分析:我们发现系统还具备“能监控、能记录”的特点。利用网络回溯分析系统,能够把用户所有产生的数据都保存下来,进行历史纪录,如有问题就可以追溯分析,实现实时监测和智能化取证。虽然安全威胁情报以威胁预判为主,但这一功能并不鸡肋,一方面可以完整记录安全事件的全过程,另一方面也为取证带来方便。系统根据网络边界流量以及主机日志,第一时间发现攻击者对应用进行SQL注入、XSS攻击、代码/命令执行、本地文件包含、远程文件包含、脚本木马、上传漏洞、路径遍历、拒绝服务、越权访问、CSRF等常见WEB攻击,并自动提取出攻击时间、被攻击应用、攻击特征、请求方式、攻击类型、攻击者IP等信息。为安全管理人员的及时处置带来全面的信息。

1905.7.1安全审计云平台的安全审计是针对传统安全管理的ー种重大变革。为了加强对新媒体云平台数据中心的集中管理和审计,包括对各种安全产品(防火墙、入侵检测、漏洞扫描、防病毒)、各种网络设备(交换机、路由器)、应用系统、数据库系统、服务器系统,针对设备的运行状态监控、性能监控、安全策略、管理配置、弱点漏洞、故障诊断、运行日志、安全事件、应急响应等,实现对整个云平台的实时审计,一旦发生异常情况能快速定位问题,查找问题原因,从而制定合理的解决方案。通过对新华网云平台安全现状和风险的分析,总体方案将从管理员、开发人员集中管控,云平台高可用性和性能提升等方面来进行设计,如图:管理员、VMC开发人员浏览器(用户)STS上!yginDNS服务器日志池在具体方案实施中,将在管理员/开发人员和云平台之间部署2台双机热备的堡垒机。•云平台运维集中管控新媒体云部署了堡垒机,在管理员或开发人员登录云平台时,应将其请求先通过堡垒机,由堡垒机进行统ー的身份认证、授权和安全审计。这样可以避免由于认证方式弱、安全审计不足等风险对云平台的影响。

191管理员业务DB管理员管理员数据管理员OS管理员安全管理员审计管理员运维人员管控系统②管理员行为异常审计管理员操作审计日志帐户集中ロ令/凭证定期更新集中授权荔问控制(liS资源接0・金库双人共管/操作监控4类库数建!HBaseHDFSOraIceMySQL[UbuntuCentOS*露庵及・鬣:支湾ヤ台ー1)集中管理,降低管理成本传统的数据中心管理方式,存在运维管理人员与设备账号ー对多、多对ー的问题,首先是运维人员、设备账号数量众多造成管理复杂,其次,当数据中心增加设备时,需要建立一套新的账号管理系统,可扩展性差。而通过堡垒机的集中账号管理,可以实现对数据中心账号信息进行标准化管理,能够为数据中心各设备资源提供基础的用户信息源,并保证各设备资源的运维用户信息唯一性和同步更新。2)单点登录,提高运维管理效率通过堡垒机对运维管理人员进行资源授权后,运维管理人员登录系统,即可看到自己管理的所有软硬件资源。由于资源授权具体到设备资源的账号、密码,因此,运维管理人员只需点击资源列表中相应的资源项即可管理设备,无需再次输入账号、密码,极大的提高了运维管理效率。3)多种安全策略相结合,提高云平台访问安全堡垒机拥有完善的安全访问策略,可以通过添加IP地址策略限制运维管理人员登录系统的IP地址;可以设置运维管理人员可访问系统的工作时间段策略;也可以设置运维管理人员访问设备资源时的命令策略,禁用高危系统命令,并发送邮件告警:还可以设置二次授权,对运维管理人员操作云平台关键操作时进行登录审批。通过一系列的安全访问策略,保证客户数据中心设备资源的安全访问和管理。4)全面的安全审计体系,方便监控、审计用户行为针对字符终端和图形终端访问,堡垒机提供了事中审计和事后审计两种审计模式。事中审计可以方便审计管理员实时监控运维用户的操作,一旦发现高危操作,可以及时阻断用户的访问连接;事后审计可以提供完整的运维用户操作录像、命令记录等内容,完整再现运维用户的操作过程。另外,系统提供的报表功能,可以更加形象

192化地展示用户访问、管理操作等记录,这些都为数据中心提供了非常完善的审计体系。将所有IT资产账号、密码和运维人员账号进行统ー、集中管理,避免账号共用、乱用、被盗用等现象。双因子认证;动态令牌:RSA、VASCO,动联:SMS短信、RADIUS、AD域。运维人员只能使用最小的账号进行资源访问;另外单点登录使资产账号密码对运维人员不可见,提高账号安全性。对运维过程进行实时监控、阻断:事后回放、记录;生成相关的运维报表。实现多级管理、机构授权管理的分布式部署方式。・云平台数据库审计通过数据库审计系统对数据库进行操作审计,根据基本要求记录用户行为,资源状况等,审计记录包括事件的日期、时间、类型、主体标识、客体标识和结果,并保护好审计结果,同时能够生成审计报表。监控监控数据库系统的占用资源(包括CPU、内存、磁盘)情况:监控数据库连接用户的情况,以及执行的数据库操作;监控数据库事务及锁等待的情况;监控最频繁使用的SQL语句;监控Oracle、DB2等数据库裸设备的使用情况;应对Oracle、DB2等数据库参数进行实时监控,包括以下参数;数据库内表空间的读写次数、数据库表空间的利用情况、数据文件或数据设备的读写次数、数据库碎片的情况、数据库日志空间或回滚段使用情况、数据库锁使用情况、数据库配置信息、数据库内存配置信息、数据库内表空间的信息、数据库工作的状态。访问控制对数据库的访问,必须经过防火墙的细粒度访问控制。阻断攻击根据规则策略的设定,对高危访问语句与行为进行阻断。攻击检测内置数据库虚拟补丁,对攻击数据库的行为进行检测。特征检测

193主动对SQL注入或缓冲区溢出等漏洞进行防御。字段加密有选择性的对用户最重要、最敏感的数据进行字段级别的加密。•云平台主机加固SSR-pForOS云数据中心安全加固系统集中管理平台策典分发资源监控日志收集资产管理风险分析数据处理与分析模块物理机物理机物理机通过主机加固软件实现对主机访问控制的配置,包括:功能启用、特权用户权限分离、默认账号和口令的修改,无用账号的清除等;通过安全加固措施制定严格用户权限策略,保证账号、口令等符合安全策略;对管理员进行分级权限控制,并根据最小权限原则仅授予管理用户所需的最小权限。对重要信息(文件、数据库等)进行标记,并设定访问控制策略进行访问控制,实现强制访问控制。实现基于WindowsServer、旧MAIX、LinuxServer等操作系统的主机管理。实现对主机设备的故障管理,包括告警类型和级别的定制、故障发现、故障告警的处理;实现对主机设备的性能管理,包括性能数据的采集、处理、分析等。主机性能数据:主机CPU管理、主机内存管理、主机磁盘管理、主机I/O性能管理、主机文件系统管理、主机进程管理、主机日志管理、主机当前连接用户。主机告警数据故障告警:主机状态;关键进程状态(可定制)。性能阀值告警:CPU使用率阀值告警;内存的使用率阀值告警;1/〇使用阀值告

194警;文件系统使用比率;进程状态;进程的规模。主机配置数据,包括:主机名、主机地址、主机厂商、主机CPU个数、主机CPU型号、主机内存大小、主机操作系统版本、内置硬盘的大小、系统网络接口数、系统网络接口IP地址、系统网络接口物理地址、文件系统的总空间。对操作系统进行安全加固的软件,以客户端的形式在操作系统上运行,有效防御外部黑客对操作系统的攻击,以及预防来自内网攻击的风险,安装完主机加固软件的操作系统可以达到国家等级保护主机安全的三级要求,满足合规性。防御核心模块为“安全内核”+”访问控制列表”,只认为列表中行为是合法的、可信的操作,否则拒绝。保护操作系统系统资源(文件、进程、注册表、账户、服务)免受已知未知病毒木马的攻击,防止服务器关键业务、数据被恶意篡改。通过白名单机制免疫系统层已知、未知或新的病毒、木马等对核心文件、数据的攻击行为,避免因系统漏洞以及软件漏洞带来的系统安全隐患。

1956运营管理方案设计6.1云服务交付针对应急开发类业务,需要云平台具有高效的资源分配和自助能力,具有丰富灵活的系统资源组件及调配能力。云平台可以交付的云服务包括:云主机、云桌面、云物理机、云存储、负载均衡等。软件仓库可实现数据库、web应用、中间件等服务的快速交付;业务上线时间由原来的几周、几天,缩短为几分钟,大大提高数据中心的服务水平。云平台对业务系统提出的建设需求做到快速响应、快速部署,大量减轻运维负担,部署更新工作时间由原来数天或数星期缩短为只需几分钟即可完成。在云平台环境下,通过将已有的虚拟机保存为模板,可以快速在一台或多台物理服务器上部署与该虚拟机相同的虚拟机,部署过后的虚拟机拥有与模板虚拟机相同的硬件配置和相同的应用软件部署。该过程可以在多台物理服务器上同时进行,降低部署时间。用户只需要根据运行环境需求(如操作系统、中间件、数据库、应用)选择相应的系统ISO镜像、虚拟机模板或vAPP模板,云平台会自动、快速完成安装、部署和配置工作。在系统出现服务器宕机、负载变化等情况下,无需IT人员参与,只需要再次选择相应的系统ISO镜像、vAPP模板或虚拟机模板即可快速实现业务连续性和负载均衡。6.2计费管理设计计费管理设计需要实现的体系结构分为业务逻辑层、业务支撑层与数据支撑层。支持各个分层间接口松耦合,在计费系统实现上能够简单灵活易维护;支持在计费业务上针对组织等级、资源等级、优惠信息、单价等信息进行建模,能够精确合理的计费各类IT资源,如CPU,内存,存储等,形成了精细化的计费管理系统;支持实时的资源使用情况统计,让用户精确掌控自身资源的使用情况,帮助IT部门实现由成本中心向价值中心的角色转变;支持自定义计量计费策略,对象包括计算资源(CPU、内存)、存储资源(容量)和网

196络资源(带宽、网卡等):计费管理应采用即付即用的计费策略模型,即使用多少计算多少的方式对租户使用的云资源进行计费,根据筛选的计费信息,资源单价、折扣率等计算租户使用的云资源账单,及时出账,以方便租户账单查询。同时,支持账单产生后要求在ー个可容忍的时间内进行销账,对于余额低的租户,及时提醒用户进行充值。数据支撑计费张务吿・理欠费处理短信告警邮件告警计费体系结构信息统计在计费管理模块设计中,管理端和用户端有不同的交互界面。管理端可进行资源单价、计费等级、组织余额等信息进行查询设置,另可设置欠费提醒方式及余额提醒等人性化服务:

197计费管理

1987产品选型7.1服务器选型7.1.1资源分类根据业务对资源的需求类型,可以将资源分为:IT资源类型计算性能内存容量存储容量存储性能网络带宽资源类型WEB前端区中低低低屮资源均衡型缓存服务区低高低低高中间件区中『カ低低屮应用服务区中中中中中数据库1型区高I島高高屮|〇密集型数据库2型区低高低低高资源均衡型PAAS平台中中中中中大数据区低高高中中存储容量型分布式存储区中中高中中7.1.1.1资源均衡型资源均衡型主要提供Web服务器、中间件服务以及缓存服务使用,此类应用功能特点包括提供web服务、负载均衡,响应并发的客户端HTML页面请求,处理页面中的脚本,这就需要服务端处理大量网络并发连接会话请求并及时响应。Web服务不仅要求高IOPS,同时还要确保IOPS的线性升级和业务发展过程中OLTP的稳定性。此外,在工作负载为核心的n•环境下,提高生命周期的管理效率,同时降低耗能和占地空间,以及对新应用开发部署、应用扩展的需求,也对web服务器提出了挑战。现在的Web系统面对的并发连接数在近几年呈现指数增长,高并发成为了一种常态。新华网WEB集群采用分布式文件系统虚拟化,由若干计算节点和分布式文件系统组成,虚拟机使用

199计算节点的计算、内存、网络资源。从资源需求上看,整体资源消耗不高,对于CPU和网络有中度需求,内存需求较小,对于磁盘容量和10要求很小。从稳定性上看,由于采用的是虚拟化集群方式,在业务层面做了冗余,单台服务器的稳定性要求为中。从管理角度来看,监控管理不仅包括虚拟化环境的管理,同时还包括整个服务器生命周期的管理运维、设备的远程管理、能源的智能管理以及设备本身的SLA管理。所以硬件服务器必须要独立的管理ロ,完全开放支持SNMP/IPMI协议,兼容以监控插件为核心的大规模、细粒度、高精度的监控平台因此在新华网资源均衡型应用上,我们建议配置如下:SA5212M42*E5-2630v3*2/16G*8/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨由于采用的是集群虚拟化,所以我们推荐高性价比的E5-2630V3CPU,同时为了保证vCPU/内存满足虚拟化应用,建议用128G内存。为了保证推荐机型满足虚拟化应用,对CPU和内存进行测试,测试结果1—sysbench:

200[root@localhostsysbench-0.5]#sysbenchーーtest=memoryrunsysbench0.5:multi-threadedsystemevaluationbenchmarkoptions:0andwillbeignoredRunningthetestwithfollowingNumberofthreads:1RandomnumbergeneratorseedisThreadsstarted!Operationsperformed:104857600(3267549.89ops/sec)102400.00MBtransferred(3190.97MB/sec)32.0906sTestexecutionsummary:totaltime:totalnumberofevents:104857600totaltimetakenbyeventexecution:25.8269sper-requeststatistics:min:0.00msavg:0.00msmax:0.03msapprox.95percentile:0.00msThreadsfairness:104857600.0000/0.0025.8269/0.00events(avg/stddev):executiontime(avg/stddev):测试结果2-stream:内存性能FunctionBestRateMB/sAvgtimeMintimeMaxtimeCopy:30885.180.04260.04140.0433Scale:32630.580.04020.03920.0422Add:40852.780.04770.0470.0483Triad:39199.680.04950.0490.0501磁盘测试:此类应用对整机硬盘容量要求较低,对硬盘的10性能要求适中。针对此应用,对硬盘做如下推荐:SATASSD、2.5寸10k转速SAS硬盘。硬盘性能对比:

20110KSAS与15KSAS性能对比45040035030025020015010050010kSAS15kSAS15KSAS与SATASSD性能对比硬盘性能分析:SSD具有出众的优势,在随机读写性能上SSD的IOPS是15kSAS硬盘的170倍,带宽上是为SAS硬盘2倍以上。SAS硬盘,10k转速的硬盘随机读写性能比15k硬盘性能低25%左右,但

202是在顺序读写上仅比15k硬盘低13%»硬盘功耗对比:功耗(W)硬盘功耗分析:SSD由于使用芯片作为存储介质,本身没有机械摩擦的影响,功耗相对传统硬盘有明显下降。机械硬盘的功耗取决于硬盘转速,15k硬盘为保障其随机读写性能,エ作功耗高出10k硬盘40%,按照服务器平均三年的使用寿命看,每块硬盘的耗电量比10k多出55度,配置ーー共配置了ハ块15KSAS硬盘,比10K硬盘多出耗电量高达440度/台,导致整体TCO的提升。硬盘价格对比分析:价格对比

203以10kSAS硬盘的单GB价格为基准价格,15k硬盘价格高出10k硬盘50%〇SATASSD比15k硬盘高出15%左右。随着SSD芯片技术发展,3Dnand技术的成熟,其价格会在今年进ー步大幅度下降,后续成本可达到与15kSAS持平的水准。结论:根据上述分析和其他视频直播平台选型经验,建议在web服务器的选择上使用10kSAS即可满足大多数I〇需求,流量较大的业务,推荐使用SATASSDo15kSAS在性价比上比另外两种硬盘低,全球出货量呈现递减的趋势,除希捷之外的其他厂商会停止供货,后期供货和维护成为问题。7.1.1.1I。密集型10密集型主要体现在数据库应用,其功能特点包括处理数据存储、查询、检索等,满足并发性、事务性。数据库应用会产生大量的随机读写操作,需要大容量的系统内存作为缓存确保其发挥性能优势,且对于磁盘的读写极为频繁,可以通过配置SSD固态盘使IOPS性能提升、延迟降低。通过读写分离及分库分表实现横向扩展。

204从资源需求角度看,数据库服务器CPU和内存需求相对较高,需要非常好的I〇性能。从稳定性角度来说,数据库系统应用有大量处理要求、需要长期运行,这就要求硬件服务器具有很高的冗余技术。不仅要考虑服务器单个节点的可靠性或稳定性,而且要考虑服务器与相关辅助系统之间连接的整体可靠性从扩展角度来说,数据库需要服务器能够在相应时间对其自身根据业务发展的需要进行相应的升级,如:CPU型号升级、内存扩大、硬盘扩大、更换网卡、增加终端数目、外接磁盘阵列或与其他服务器组成对集中数据的并发访问的集群系统等,为了满足以上需求需要服务器具备高扩展能力。从管理角度来说,服务器既是核心又是系统整体中的ー个节点部分,尤其随着节点数目的增加需要对服务器进行有效的管理维护。这需要服务器的软硬件对标准的管理系统支持,尤其是其上的操作系统,也包括一些协议的开放支持。因此在数据库应用上,我们建议配置如下:SA5212M42*E5-2630v3*2/16G*16/2*NVME800GBSSD/板载四千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨数据库需要频繁的计算和访问,通过配置SSD固态盘使!OPS性能和延迟有了质的飞跃。

205NVMePoweringPCIeSSDsintotheDataCenterDataCenterSSDUnitsbyInterfaceDataCenterSSDtotalGBbyInterface?O17?O17SATABSASSATAISAS从发展趋势图可以看出,SATASSD在最近几年仍然是市场的主流,PCIeSSD将会成为今后数据中心的应用趋势,而SASSSD受限于成本和必须搭载SAS/RAID控制器使用的限制,其市场份额将会被逐步蚕食。性能对比:IOPS对比

206BMps(MB/s)性能对比30002500200015001000500128KSR128KSW400GBSASSSD480GBSATASSDPCIeSSD性能分析:1)读写性能:SATASSD作为市场上的主流SSD,在写性能上和SASSSD相差无几,由于SASSSD采用全双工模式,读性能上会有成倍的1]升。PCIeSSD采用直连主板的方式,在!O性能上避免了在中间涮书过程中出现瓶颈,同时又更低的延迟。2)IO瓶颈评估:另外,现在主流市场采用SATA接口的6Gb/s的SSD,原因一是硬件成本相对SAS接口的固态硬盘低,原因二是使用大量12Gb/s接口的硬盘会在RAID卡端产生瓶颈。SASSSD由于采用SAS接口,必须使用SAS卡或RAID卡才能够使用,而现在市场上的SAS卡的接口最多做到8通道12Gb/s,也就是说,使用8块以上的12Gb/s接口速率的硬盘就会达到RAID卡的IO瓶颈,后续的投入性价比相对较低。配置ニ当中,使用2块SAS盘做系统盘,配置8块12Gb/s接口的SASSSD做数据盘必然会在RAID卡端产生IO瓶颈,这样ー来会造成系统性能或数据盘读写性能的降低。而PCIeSSD采用直连主板的方式,避免了在RAID卡端出现的瓶颈,能够充分发挥其性能。3)针对应用特点选择:针对数据库采用小数据块读写的特点,业界使用的基本为SATASSD,并未出现IO瓶颈。对IO需求较大的场景使用性能出众的PCIeSSD。

207价格对比分析:价格对比以SATASSD为基准,对比三种硬盘每GB的价格,可以发现SASSSD和PCIeSSD的价格持平,是SATASSD价格的四倍。结论:数据库应用上,对小数据块读写要求比较高。针对该特点和成本考虑,在数据库服务器上做以下两种推荐:1.对成本要求比较高,性能需求不严格的业务,采用SATASSD满足。SATA性能上是SASSSD的一半,但是价格只有其1/4左右,在大多数客户的选择中是主流,能够满足80%的业务需求。2.对性能要求更高的业务,选择和SASSSD价格基本持平的PCIeSSD,性能是SASSSD的三倍以上。SASSSD的市场在逐步被蚕食,且属于小众部件,选择更为大众的SATASSD和PCIeSSD完全能够满足性能需求,并且在供货和后期维护上更加便捷。

2087.1.1.3存储容量型分布式存储和大数据本身意味着用多标准存储技术来处理数据。大数据可能由TB级信息组成,既包括结构化数据以及非结构化数据,如文件、图片等数据。此外,由于涉及大量的运行日志、部件状态、生产链运营、环境变量等数据由于缺乏索引或者其他组织结构,可能由很多不同文件类型组成,数据增长速度较快,对数据存储的要求较高。大数据体量巨大数据量可以到PB级别,需要大容量、高性能的存储技术,算法也需要最优化。从资源需求角度来看,大数据应用对CPU、内存、网络吞吐需求相对一般,对磁盘容量要求较高,磁盘10能力要求一般。从稳定性角度来说,大数据应用创建多个数据块副本,然后将其分布在整个集群内的节点中。从管理角度来说,大数据平台由标准化硬件(服务器和内部服务器存储)组成集群,并行处理大数据请求。随着规模的扩大需要对服务器进行有效的管理维护。大数据应用采用的多是大容量硬盘,由于在软件层面进行了多副本设计,所以建议硬盘直连的方式。SA5212M42*E5-2630v3/16G*8/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(1G)/双电/导轨因此在大数据应用上,我们建议配置如下:2*E5-2630v3/16G*8/3*800GBSATASSD2.5/板载双千兆+l*intel外212M4插双万兆/LSI9361(1G)/双电/导轨由于采用的是直连模式,磁盘10性能是关注的重点。实测性能结果为:顺序读BSIOPSBandwidth(MB/s)顺序写BSIOPSBandwidth(MB/s)4k145575582.3044k140535562.1438k1375531074.78k1393021088.464k902405640.464k958605991.3随机读BSIOPSBandwidth(MB/s)随机写BSIOPSBandwidth(MB/s)4k24469.78414k18197.1058k242719.428k173113.8564k2197140.63864k62740.1317.1.2配置方案根据资源的分类,总结出四中资源类型,每种资源类型都有了基本的配置模型,但是根据实际每种资源的需求有所不同,故需要针对性的进行服务器配置。

2097.1.2.1容量统计IT资源类型建议云虚拟环境虚机需求数量物理服务器资源总量vCPU内存(G)本地磁盘(G)CPU内存(G)存储容量WEB前端区10101001722150215017200缓存服务区432100168840672016800中间件区6162004303225860086000应用服务区4820082241108220164400数据库1型区83220027827801112055600数据库2型区43220031015501240062000虚机资源汇总000所需物理机数量预估2187.1.2.2配置计算因vCPU与物理CPU没有固定的整合比(2:1、4:1都属正常),而内存的使用量接近真实物理服务器的内存使用量,所以在计算服务器数量计算方面以内存计算容量为主要参考依据。>WEB前端区为资源均衡型,CPU要求不高,服务器配置如下:SA5212M42*E5-2630v3*2/16G*8/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按CPU计算:2150/32=服务器数量67台;按内存计算:2150ハ28=服务器数量台。因内存的使用率更接近实际使用量,故服务器数量为17台;>缓存服务区为资源均衡型,内存要求高,服务器配置如下:SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按照CPU计算:840/32=服务器数量27台,按内存计算:6720/256=服务器数量27台。因此服务器数量为27台;>中间件区为资源均衡型,主要对内存要求量大,服务器配置如下:

210SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按照CPU计算:3225/32=服务器数量100台,按照内存计算:8600/256=34台。因此服务器数量为34台:>应用服务器区为资源均衡型,所有资源要求比较均衡,服务器配置如下:SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按照CPU计算:4110/32=服务器数量128台,按照内存计算:8220/256=32台。因此服务器数量为32台;>数据库1型为IO密集型,各方面要求都高,服务器配置如下:SA5212M42*E5-2630v3*2/16G*16/2*NVME800GBSSD+8*IntelS3510480GSSD/板载四千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按照CPU计算:2780/32=服务器数量87台,按照内存计算:11120/256=44台。因此服务器数量为44台;>数据库2型为资源均衡型,内存要求高,服务器配置如下:SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨按照CPU计算:1550/32=服务器数量48台,按内存计算:12400/256=服务器数量48台。因此服务器数量为48台;HP服务器48台7.1.3推荐配置

211用途型号配置数量(台)Web前端区SA5212M42*E5-2630v3*2/16G*8/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨17缓存服务区SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI936M2G)/双电/导轨27中间件区SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨34应用服务区SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LS19361(2G)/双电/导轨32数据库1型区SA5212M42*E5-2630v3*2/16G*16/2*NVME800GBSSD/板载四千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨44数据库2型区SA5212M42*E5-2630v3*2/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI9361(2G)/双电/导轨48合计202利旧方案:Web前端区HPDL380Gien92*E52630V3/8*16GB/8*300GBSAS10K/4端口千兆网卡/500W电源17缓存服务区HPDL380Gien92*E52630V3/16*16GB/8*300GBSAS10K/4端口千兆网卡/500W电源27中间件区HPDL380Gien92*E52630V3/16*16GB/8*300GBSAS10K/4端口千兆网卡/500W电源34应用服务区HPDL380Gien92*E52630V3/16*16GB/8*300GBSAS10K/4端□千兆网卡/500W电源32数据库1型区HPDL380Gien92*E52630V3/16*16GB/2*480GBSATASSD+6*1TB12GSAS7.2K2.5/4端口千兆网卡/500W电源44数据库2型区R73ODell服务器4型2U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸Itb后置:128GB(16X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli35O网卡,热插拔冗余电源,单电源功48

212率495,内置iDRACExpress设备远程管理控制卡1块,整件产品8年原厂售后服务。配件1656条DDR42133MHzRDIMMsECC内存474块・800GBSATASSD2.588块・NVME800GBSSD合计HP:154台Dell:48台7.2存储选型选型依据:新华网目前存储数据较大,对功耗、空间都有较高要求,故本次存储系统采用较高密度的41136盘位存储节点。节点间内部互联选用万兆光口交换机,对外提供服务依然采用新华网现有千兆网络。分布式存储系统配置表名称分布式存储系统控制器(节点)8个节点高速缓存每个节点128GB高速缓存硬盘配置每个节点1块480GBSSD,35块4TBNL-SAS磁盘主机接口每个节点双千兆、双万兆光口、千兆管理ロ

213分布式文件系统分布式存储软件系统,包括负载均衡、缓存加速功能、QOS、配额等功能模块或者软件接口提供HDFS、S3、Swift等接口提供存储系统内部网络设备万兆交换机一台,配齐所需的光口模块和光纤线7.2安全设备选型推荐配置:产品类别产品项商品配置描述数量浪潮主机安全增强系统负载均衡产品SSR集群版支持InCloudSpherexXenServer>KVM,5个license节点授权40含ー个hypervisor节点授权2服务提供1次现场实施、技术培训、用户应用联调,及一年系统故障技术支持服务。1SSA3000-10G吞吐量10G,四层新建350K,七层新建500K,标配8RJ45电ロ,4个千兆光口(不含光模块)标配冗余电源,剩余1个扩展槽位,扩展槽可插4电、4光、8电、8光、4万兆2SSA4000-15G吞吐量15,四层新建500K,七层新建800K,标配8RJ45电ロ,8个千兆光口,4万兆光口,(不含光模块),标配冗余电源4SSA5000-30G吞吐量30G,四层新建900K,七层新建900K,无标配网口标配冗余电源2专业安装服务包提供1次现场实施、技术培训、用户应用联调,及三年系统故障技术支持服务,如果不选择此包则不提供安装实施服务;18RJ45电ロ扩展模块(四组Bypass)18光口模块14万兆光口模块1SFP光模块(千兆光)4SFP+光模块(万兆光)4运维安全管控系统SSCSSC-19001U机架式定制化平台,内存8G,硬盘1TB,8个千兆电ロ,单电,导轨可管理节点数:标配:100,最大可扩展至:5001

214SSC-29001U机架式定制化平台,内存16G,硬盘1TB*2,8个千兆电ロ,4个千兆光口,双电,导轨可管理节点数:标配:200,最大可扩展至:8002SSC-39001U机架式定制化平台,内存32G,硬件1TB*2,8个千兆电ロ,4个千兆光口,4个万兆光口,双电,导轨可管理节点数:标配:300,最大可扩展至:10004管理节点授权扩容用于SSC1900/2900/3900授权管理节点数量的扩容,包含50个管理节点授权48SSC服务专业安装服务包(提供1次现场实施、技术培训、用户应用联调,及三年系统故障技术支持服务,如果不选择此包则不提供安装实施服务:1数据库安全审计系统SDPSDP20001U,16G内存,1T硬盘・2,单电源,8个电ロ+4光ロ,SQL处理能力40000条/秒,日志存储70亿条4设备数据发现4数据库状态监控4数据库漏洞扫描4SDP服务专业安装服务包提供1次现场实施、技术培训、用户应用联调,及三年系统故障技术支持服务,如果不选择此包则不提供安装实施服务;17.2虚拟化选型7.2.1虚拟化技术原理虚拟化是ー个抽象层,它将物理硬件与操作系统分开,从而提供更高的IT资源利用率和灵活性。虚拟化技术可以实现具有不同操作系统的多个虚拟机在同一物理机上独立并行运行。每个虚拟机都有自己的ー套虚拟硬件(例如RAM、CPU、网卡等),可以在这些硬件中加载操作系统和应用程序。通过采用服务器虚拟化技术,将服务器进行虚拟化资源整合,将原有冗余的物理服务器削减,将分散的资源集中,从而减少原有服务器数量,提高服务器的利用率。目前,服务器主机虚拟化技术主要可分为X86服务器虚拟化技术和小型机虚拟化技术两类。7.2.2X86服务器虚拟化目前X86平台虚拟化领域主要产品有VMwareヽKVM、Hyper-V,CitrixXen«虚拟化软件的成熟度、核心架构、容纳能力、高可用性、兼容性至关重要,下面就几类产品进行对比。

215(1)产品成熟度VMware成立于!998年,在1999年推出第一代虚拟化产品Workstation1.0;2001年发布的VMwareInfrastructure1.0是业界第一个数据中心级的虚拟化平台产品,至今已经发展到VMwarevSphere6.〇〇VMware在2003年首先在虚拟化平台中加入多项企业级功能,例如虚拟机在线迁移、自动负载均衡、高可用性等等。目前VMware也是在生产环境中使用得最多的虚拟化平台,全球超过13万企业客户。KVM作为一个开源的技术自出现,就受到厂商的大力推广。红帽一直将KVM作为虚拟化战略的一部分,2009年年底发布了红帽企业版Linux5.4,继续大力推行这种转型,鼓励用户使用KVM为其首选的虚拟化平台。2011年,随着新版操作系统RedHatEnterpriseLinux6的发布,红帽完全放弃了以开源Xen为虚拟化平台的思路,开始支持KVM作为hypervisor。KVM作为ー个快速成长的Linux虚拟化技术,已经获得了许多厂商的支持,如Canonical、Novell等。Canonical公司的Ubuntu服务器版操作系统是第一个提供全功能的KVM虚拟化栈的主要Linux发行版。Microsoft的虚拟化产品来自2004年收购的Connectix公司,随后推出VirtualServer产品,最近升级为Hyper-V,并集成到了Windows2008内。Citrix的虚拟化产品来自于2007年收购的XenSource公司。Xen是Linux平台上的ー个虚拟化开源项目,目前业界有非常多的Xen版本,例如Novell和RedHat都在各自的Linux中预置了Xen,但各种版本之间并不兼容。XenSource是众多Xen版本中的ー个分支,2002年发布第一代产品,2007年发布虚拟机在线迁移功能。Citrix并没公布XenServer的全球客户数量,但是XenSource被收购前曾公布有500个企业客户。⑵核心架构X86服务器虚拟化技术可分为全虚拟化技术和半虚拟化技术。全虚拟化技术是指虚拟机模拟了完整的底层硬件,包括处理器、物理内存、时钟、外设等,使得为原始硬件设计的操作系统或其它系统软件完全不做任何修改就可以在虚拟机中运行。操作系统与真实硬件之间的交互可以看成是通过ー个预先规定的硬件接口进行的。全虚拟化虚拟机监视器(VirtualMachineMonitor,VMM)以完整模拟硬件的方式提供全部接口(同时还必须模拟特权指令的执行过程)。为了提供性能,全虚拟化技术需要使用CPU硬件虚拟化特性(如IntelVT或AMDVT),目前主流的全虚拟化技术实现包括VMwareKVM、Hyper-V等。

216半虚拟化技术是通过修改客户机操作系统(虚拟机中运行的操作系统,也称为GuestOS)部分访问特权状态的代码以便直接与虚拟机监视器(VMM)交互的技术。在半虚拟化虚拟机中,部分硬件接口以软件的形式提供给客户机操作系统,可以通过VMM提供给GuestOS的直接调用的方式来提供。目前最有代表性的半虚拟化技术实现是Xen,Xen需要使用经过定制的客户机操作系统,但是操作系统原厂商对经过定制的客户机操作系统不提供服务支持,这是应用Xen虚拟化技术的最大风险。(3)容纳能力大部分X86平台的应用对内存需求较大,但对处理器消耗不多。虚拟机的内存能否动态共享,将决定同等配置的硬件可以允许的虚拟机总数。部分X86虚拟化技术(如VMware)有内存动态共享技术,通常可以做到2:1的内存超量利用,因此同样的32GB服务器可以支撑超过30个虚拟机。但是,在同一物理服务器上创建过量的虚拟机,会严重影响虚拟机的网路I/O、磁盘I/O性能,因此,在实际使用中,不建议过量分配物理内容。(4)高可用性X86虚拟机的高可用性主要体现在虚拟机的在线迁移、负载均衡以及服务器宕机后的自动转移。ヽ虚拟化技术功能对比VMwareKVMHyper-VXen虚拟机在线迁移(无停机)(1有有有

217ヽ7%虚拟化技术功能对比、、、、VMwareKVMHyper-VXen自动负载均衡有有有有宕机后的自动转移(有短暂停机)仃有利用MSCS有宕机后的自动转移(无停机)有有有有在线的存储迁移(无停机)有有有有由上表可见,MicrosoftHyper-V虚拟化技术基本没有对高可用的考虑;VMware和KVM所有高可用功能都不依赖第三方软件,而且能在包括FC-SAN/IP-SAN的各种外部存储环境中实现;(5)兼容性兼容性的对比包括对硬件的兼容性,以及对虚拟机OS的支持能力。7'、、X86虚拟化技术功能对比ヽ、VMwareKVMHyper-VXen支持32位的服务器是是否是支持64位的服务器是是是是支持有虚拟化指令的处理器(Intel-VT,AMD-V)是是是是支持所有Windows是是部分支持。不支持Windows2000/NT及更早的OS是支持所有Linux是是只支持SUSE10是支持其他OS,如SCO、Solarisx86是是否否7.2.1InCloudSphere4.0旗舰版简介InCloudSphere4.0旗舰版是ー套企业级开放式服务器虚拟化解决方案,可以将静态、复杂的IT

218环境转变为动态、易于管理的虚拟数据中心,从而大大降低数据中心成本。同时,它可以提供先进的管理功能,实现虚拟数据中心的集成和自动化,而成本远远低于其它解决方案。InCloudSphere4.0旗舰版是ー套完整的虚拟化基础架构解决方案,包括具有实时迁移功能的64位系统管理程序、功能全面的管理控制台,以及将应用和服务器从物理环境迁移到虚拟环境所需的各种工具。InCloudSphere4.0旗舰版允许企业创建和管理满足需求数量的服务器和虚拟机(VM),而且可以在同一管理控制台(iCenter)上安全管理。InCloudSphere4.0旗舰版基于Xen开源设计,是ー种具有高可靠性、可用性和安全性的虚拟化平台,能够提供与本地应用不相上下的性能和无与伦比的虚拟机密度。InCloudSphere4.0旗舰版允许通过一个直观的向导驱动工具轻松完成服务器、存储和网络设置,真正实现"TenMinutestoXen(10分钟实现虚拟化)”的目标。客户使用InCloudSphere4.0旗舰版可以创建高性能、可扩展、可管理、灵活的虚拟服务器基础架构,而且可以通过它提供自动、无人值守和云就绪的虚拟数据中心服务。InCloud卽here4.0旗舰版的主要特性包括:>高可用性如果在虚拟机、Hypervisor或服务器层发生故障,InCloudSphere4.0旗舰版可以自动重启虚拟机。自动重启功能可以帮助管理员保护所有的虚拟化应用,并为企业带来更高的可用性。>内存优化InCloudSphere4.0旗舰版允许主机服务器上的虚拟机共享闲置的服务器内存,从而降低成本,改进应用性能和保护功能。>分布式虚拟交换InCloudSphere4.0旗舰版内包含一些用于创建多租户、相互隔离和特别灵活的网络Fabric的工具,可安全的帮助虚拟机进行状态迁移。>基于角色的管理InCloudSphere4.0旗舰版基于角色的管理功能采用一种包含不同权限级别的分层访问结构,可增强安全性,分配对InCloudSphere4.0旗舰版资源池的访问、控制和使用权限。>iCenter管理控制台iCenter通过ー个界面即可提供所有的虚拟机监控、管理和常规管理功能,使IT员工可以从ー个安装在任何Windows桌面上的集中、可用性极高的管理控制台,轻松管理数百个虚拟机。>iMotion

219iMotion允许将运行的虚拟机迁移到新主机上,而不需要中断应用运行或停机,因此可消除计划内停机。7.4.3.1hypervisor架构InCloudSphere4.0旗舰版的体系架构如图1-1所示:InCloudSphere4.0体系架构对图!~1中InCloudSphere4.0旗舰版体系架构中的不同组件详细介绍如下:ControlDomain(或称为Domain0)是ー个Linux虚拟机,对硬件而言,具有比访客操作系统更高的优先级。ControlDomain管理所有来宾VM的网络和存储I/O,而且由于它使用的是Linux设备驱动程序,所以能广泛支持各种物理设备。Xen虚拟机管理程序(Hypervisor)是运行于硬件上的ー个软件薄层。Xen提供ー个允许每台物理服务器运行ー台或多台“虚拟服务器”的抽象层,有效地将OS及其应用程序与底层硬件分离开来。硬件层包含物理服务器组件(包括内存、CPU和磁盘驱动器)Linux虚拟机包括半虚拟化内核和驱动程序。通过ControlDomain访问存储和网络资源,通过硬件上的Xen访问CPU和内存。Windows虚拟机使用半虚拟化驱动程序通过ControlDomain访问存储和网络资源。Xen在设计上充分利用IntelVT和AMD-V处理器虚拟化技术,使用硬件虚拟化技术可提高Windows内核的性能,而无需使用传统的仿真技术。在InCloudSphere中虚拟机与硬件的所有交互都是通过Domain0控制域进行管理的,这个控制域本身就是ー个在系统管理程序上运行的具有特别权限的虚拟机。!nCloudSphereDomain0如图IT左上所示,Domain0运行经过优化Linux实例。对管理员而言,尤为重要的是Domain〇作为整个InCloud

220Sphere系统的一部分,不需要额外的安装或管理。Domain0使InCloudSphere能够利用标准开源Linux设备驱动程序,从而可提供非常广泛的硬件支持。InCloudSphere结合了半虚拟化和硬件辅助虚拟化的优点,允许访客操作系统在虚拟化硬件上运行。操作系统和虚拟化平台之间的这种协作可帮助开发者开发更便捷的系统管理程序,同时最大程度地优化系统性能。Linux系统是针对Xen进行半虚拟化的首款操作系统。目前InCloudSphere能够支持多种Linux版本的半虚拟化,包括RedHat、Novel1>SUSE、Debian、Oracle以及CentOS。对于不能完全实现半虚拟化的访客操作系统,如Windows,InCloudSphere可以利用现在Intel和AMD处理器(Intel-VT和AMD-V)中包含的硬件虚拟化辅助技术来实现其虚拟化。7432整体管理构架整体架构如图1-2所示:

221资一泄心一iCenter国国B0S国国3国国据II区国iCenteriCenter架构图InCloudSphere4.0旗舰版中引入了资源池的概念。您可以借助资源池将多台虚拟化服务器作为单个实体进行管理。只需在一个位置执行认证,而不需要登录到所有的服务器。所有的服务器共享通用的网络和存储框架,从而方便使用自动VM放置和iMotion等功能。资源池采用主/从服务器管理模型,并会将所有池配置数据复制到所有从属服务器上。这种配置可确保在主服务器发生故障时不会引起任何致命的故障(例如主服务器宕机导致整个作业系统瘫痪)。iCenter作为图形化的管理控制台来集中管理服务器、虚拟机和资源。iCenter可以连接到多个服务器和资源池,多个Client也可以连接到同一个资源池。7.433旗舰版系统特色>存储集成存储是服务器虚拟化部署中最重要的考虑因素之一。InCloudSphere4.0旗舰版支持在本地磁盘、逐CSI、基于光纤通道的存储区域网络(SAN)或网络附加存储(NAS)设备上存储虚拟机。平台的高级功能,如实时迁移和高可用性,均要求采用SAN或NAS。InCloud卽here4.0旗舰版以原始存储作为自己的存储系统。例如,通过基于文件的共享存储系统,如NFS,InCloudSphereVM可以直接使用微软的虚拟硬盘(VHD)格式进行存储。而如果采用基于文件块的存储系统,如iSCSI或光纤通道SAN,InCloudSphere4.0旗舰版能够使用开放逻辑卷管理器(LVM)标准扩展VHD,实现卷管理。>高可用性如果运行虚拟机的主机意外发生故障,高可用性使虚拟机能够在另一台物理主机上重启。这样可

222以缩短停机时间,而且不需要管理员干预。InCloudSphere4.0旗舰版具有高可用性特性,可提供精细的策略来管理主机发生故障后特定虚拟机的行为。>虚拟机负载管理虚拟机负载管理有几个重要的方面,首先负载管理能够确保虚拟机在最合适处理VM负载的主机上启动。此外还能管理在一个主机服务器池内运行的虚拟机。最后虚拟机负载管理允许关闭未使用的服务器以节省电カ降低成本。InCloudSphere4.0旗舰版具有负载均衡功能,能够从Hypervisor层捕获数据,如CPU、内存、硬盘I/O和网络I/O,从而为合理确定虚拟机所在主机的最初位置和后续位置提供指导。负载平衡可支持性能优化和密度优化。性能优化能够保证维持最低的性能阈值,而密度优化将虚拟机安装到最少数量的主机上以降低功耗。>系统维护InCloudSphere需要定期维护,进行软件升级和补丁安装。由于InCloudSphere能提供实时迁移功能,因此对系统管理程序执行补丁和升级不会造成任何虚拟机停机。同时通过完善的升级解决方案,做到数据保护,业务应用保护,将升级过程对业务应用及数据安全的影响降到最低。并可在用户IT经验不足或缺少IT人手的情况下,提供专业的工程师上门服务,支持产品的升级和维护。7.4.4推荐配置软件配置:商品类别版本数量备注ICS(InCloudSphere)旗舰版4.0404按照CPU数量授权7.5网络虚拟化选型7.5.1基本组件NSX聚集了四个基本模块:数据转发平面、控制平面、管理平面和应用平面,如下图所示。

223应用平面NSX管理器管理平面•自服务门户•vCAC,vCD,Openstack,Cloudstack,自定义门户•单点配置•RESTAPI和用户界面•高可用控制平面运行态NSX控制器NSXEdge©•将虚拟网络与物理网络解耦•独立于数据路径•高可用髙可用虚拟机服务于南北向流量的数据面板路由和高级服务数据平面NSXvSwitch智能网络边界线速性能6)n+図ン廚VDS/OVSVXLANDistributedFirewallLogicalRouter虚拟化层扩展模块图:NSX基本组件>数据转发平面NSX数据转发平面由NSXvSwitch组成。NSXforvSphere中的vSwitch基于vSphereDistributedSwitch(VDS)(或用于非ESXi虚拟化管理程序的OpenvSwitch),还包括其他组件,可提供丰富的服务。附加NSX组件包括在虚拟化管理程序内核中运行的用于提供分布式路由、分布式防火墙等服务并实现VXLAN桥接功能的内核模块(V旧)。NSXvSwitch(基于VDS或OVS)可对物理网络进行抽象化处理并在虚拟化管理程序中提供访问级别的交换。它对软件定义网络至关重要,因为它可实现独立于物理构造的逻辑网络(例如VLAN)〇vSwitch的ー些优势如下所示。♦利用VXLAN、STT、GRE等协议以及集中式网络配置支持覆盖网络。覆盖网络可实现以下功能:•在现有物理基础架构上创建一个覆盖现有IP网络的灵活的逻辑层2(第2层),而无需重新设计任何数据中心网络•配置通信(东西向和南北向),同时让租户之间保持相互隔离

224•应用工作负载和虚拟机独立于覆盖网络,并且就像连接到物理第2层网络ー样运行♦NSXvSwitch有利于实现虚拟化管理程序的大规模扩展。♦端口镜像、NetFlow/IPFIX,配置备份和还原、网络运行状况检查、QoS和LACP等多种功能可在虚拟网络内提供ー个全面的流量管理、监控和故障排除工具包。此外,数据平面还包含网关设备,这些设备可提供从逻辑网络空间(VXLAN)到物理网络(VLAN)的第2层桥接,可将虚拟网络VXLAN连接到非虚拟主机、远程站点和外部网络VLAN。网关设备通常是NSXEdge虚拟设备。NSXEdge提供第2层、第3层、外围防火墙、负载平衡和SSLVPN、DHCP等其他服务。NSX网关服务提供一个进出软件定义的数据中心的安全路径,网关节点可以部署为Active/ActiveHA对,提供IP路由、NAT、防火墙、VPN和负载均衡服务,用于保护和控制一个或多个NSX虚拟网络的南北向的流量。有些NSX内的应用程序可能需要连接数据中心内的非虚拟化主机上的服务,比如IP存储。对于这种需求,NSX提供了L2网关服务,专用L2网关节点的HApair、或合作伙伴的ToR交换机,能够在NSX虚拟网络和物理VLAN之间做桥接。Edge的L2网关服务也能放置于远程站点,将远程VLAN与一个NSX虚拟网络桥接,用于虚机跨书记中心二层互相访问。♦虚拟网络到物理网络的第2层桥接功能也可以由支持解封VXLAN流量的功能的物理网络交换机实现。>控制平面这是ー组高可用的、可横向扩展的X86系统集群,负责以编程的方式跨越整个架构部署虚拟网络。控制器集群接收来自管理平台的API请求,计算虚拟网络拓扑,主动编程hypervisorvsw计ch和网关,赋予适当的实时配置和转发状态。随着计算环境的动态变更,控制器集群更新必要的组件,使虚拟网络状态与虚拟计算状态保持在同步状态。NSX控制器集群提供ー个逻辑上集中,但物理上分布的控制层。高可用集群中的每一台X86机器共享所有所需工作量的等量部分,为任何丢失的集群节点提供即刻备份的容量。当虚拟网络需要扩展时,可按需向集群添加节点,任意节点丢失不会影响转发平面的数据转发。NSX控制器集群对所有用NSX调配的网络服务和虚拟机都具有可见能力。有了

225这样的权威认知,NSX控制器集群能够抢先编程所有NSX组件,实现虚拟网络拓扑。在针对vSphere优化的环境里,控制器与VDS一起实现multicastfree的VXLAN功能,另外VDR分布式路由的转发信息也是由控制平面生成分发给各个X86上的转发模块。NSX控制器集群完全是带外的,不参与处理数据包转发。NSX控制板在NSXController中运行。在采用VDS的vSphere优化环境中,控制器可实现自由多播VXLAN以及VDR等元素的控制板编程。在多虚拟化管理程序环境中,控制器节点对vSw计ch转发板进行编程。无论是哪种情况,控制器都只是控制板的一部分,不会有任何数据板流量通过它传递。控制器节点还部署在具有奇数个成员的集群中,以实现高可用性和可扩展性。控制器节点发生任何故障都不会对数据板流量造成任何影响。>NSX管理平面:NSX管理器NSX管理器提供了一个基于WEB的、用户交互友好的GUI管理仪表板,用于系统安装、管理和排错。系统管理员可以查看所有NSX组件和虚拟网络元素(逻辑交换机、逻辑路由器、网关,等等)的日志以及连接状态。NSX管理器提供RESTAPI与各种外部平台接口。就像虚拟机ー样,NSX管理器可以为虚拟网络做完整快照,用于备份、还原、自省和归档。NSX管理平面由NSXManager构建。NSXManager在vSphere环境中为NSX提供单个配置点和RESTAPI入口点。>应用平面NSX的应用可以直接通过NSX管理器UI驱动。在vSphere环境中,可通过vSphereWebU!本身使用。通常,在软件定义网络中,终端用户与其云管理平台联系在ー起,以部署应用。NSX通过RESTAPI提供ー组丰富的集成功能,几乎可集成到任何CMP»还可通过VMwarevCloudAutomationCenter,vCloudDirector以及具有用于NSX的Neutron插件的〇penStack,获得开箱即用的集成功能。7.5.2工作原理与服务器虚拟化的计算模式相似,NSX软件定义网络方法允许数据中心操作员将物理网络视为透明容量池,可以根据需要使用和改变用途。虚拟机是ー个软件容器,可以为应用提供逻辑CPU、内存和存储,虚拟网络与之相似,也是ー个软件容器,可以为连接的

226工作负载提供逻辑网络组件,包括逻辑交换机、路由器、防火墙、负载平衡器、VPN及其他组件。NSX利用底层物理网络作为简单的数据包转发底板,以编程方式创建、调配和管理虚拟网络。网络服务以编程方式分发到每个虚拟机,与底层网络硬件或拓扑无关,因此工作负载可以动态添加或移动,虚拟机连接的所有网络和安全服务不管在数据中心的什么位置都会随之移动,NSX的工作原理如下。1)与物理网络硬件完全脱离关系NSX软件定义网络在任何物理网络硬件的上一层工作,支持任何服务器虚拟化管理程序平台。它对物理网络的唯一要求是必须提供IP传输,它对底层硬件或虚拟化管理程序无任何依赖。NSX网关允许将旧式VLAN和物理主机映射到虚拟网络。2)在软件中重现物理网络模型NSX在每个虚拟网络中的软件中重现整个网络环境、L2、L3、L4-L7网络服务。NSX为L2-L7服务提供分布式逻辑体系结构,包括逻辑交换机、路由器、防火墙、负载平衡器和VPN。这些逻辑网络服务在部署虚拟机时以编程方式调配,并且随着虚拟机移动而移动。现有应用无需修改即可运行,并且虚拟网络与物理网络连接之间看不到任何差异。3)自动化

227NSX提供了基于REST的API,允许云计算管理平台自动交付网络服务。网络调配过去需要数天或数周完成,现在只需要数秒钟即可完成。由于网络服务现在通过虚拟网络交付给应用,因此无须对物理网络设备再进行手动配置。NSXServiceComposer提供了一种自动使用服务的方式,并且可以使用逻辑策略映射到虚拟机。客户可以将策略分配给虚拟机组,并且随着组中添加的虚拟机越来越多,政策会自动应用于虚拟机。客户可以构建高级工作流,自动完成安全性、合规性和网络调配,包括负载平衡和防火墙规则。4)可延展性NSX提供了可插入其他供应商服务的平台。集成式软件和硬件合作伙伴产品丰富多样,包括网络网关服务、应用交付服务和网络安全平台以及安全服务等。5)高可用性ComputeMgmtandControlEdgeRackNSX组件的高可用NSX在控制器、管理器、Edge、交换机等多个层面提供了多组件的高可用机制,这使得NSX完全可以应用于生产环境,如下图所示。•NSX控制器:集群,主机级高可用,数据面板分离。•NSX管理器:存储高可用和配置备份,不保存运行态数据.•NSXEdge:成对虚拟机,活动状态同步,主机级别高可用.•NSXvSwitch:分布式架构,影响范围只限于故障主机.•主机失败:虚拟机会被迁移到其它主机,NSX组件继续提供服务励按践•将管理组件,控制组件和Edge虚拟设备部署于集群之中.NSX完全可以应用于生产网络图:NSX组件的高可用

2287.6云管理平台选型

229商品类别商品名称商品配置描述云海0S厶・海OS云平台云海OSV4.0基础版云海OS云平台基础版软件授权,每25个VM1个授权,即1个授权可使云平台管理25个VM。基础版内容包括:系统管理;系统安全增强;云资源管理等。云海OSV4.0标准版云海OS云平台标准版软件授权,每25个VM1个授权,即1个授权可使云平台管理25个VM。标准版内容包括;系统管理;系统安全增强;云资源管理;业务流程管理;计量计费等。云海OSV4.0旗舰版云海OS云平台高级版软件授权,每25个VM1个授权,即1个授权可使云平台管理25个VM。髙级版内容包括;系统管理;系统安全增强;云资源管理;业务流程管理;计量计费;应用监控与智能分析等。短信猫云海OS云平台短信告警物理配件,每一套系统1个授权。7.6PAAS平台选型平台服务采用浪潮云海IOP产品进行PaaS层的内核构建,云海IOP采用Cloudfoundry作为主要框架,并内嵌了Docker引擎,主要用于构建弹性运行环境、中间件服务和管理中心等。当前在山东GA云作为核心PaaS平台运行超过200中小应用,可以实现故障自动修复、自动负载均衡和自动弹性伸缩,运维人员不超过2个。产品架构如下:

230"公应用商店次开发者中心燈平台管理应用管理心中间件服务H・既m消息队列分布式缓存服务管理C弹曄用境a多租户①资源隔离△髙可用’Z弹性扩展6虚拟化适配接口外部服务适配接口浪潮云海IOP可以非常便捷的安装在vSphere/vCenter,OpenStack等虚拟化环境之上,只需要提供访问人口和计算资源。ー套环境所需计算资源建议如下:CPU:不少于60Core(基础框架+50个应用实例,增量为每应用ハCore)内存:不少于400GB(基础框架+50应用实例,增量为每应用バGB)硬盘:不少于1TB要运行200+应用实例需要4套基础框架,每套基础框架需要4台如下配置的物理服务器软件配置:产品类别产品项数量

231浪潮云海PAAS平台浪潮云海IOP产品200业务推荐方案:PAAS平台集群SA5212M42*E5-2630v3/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI936K1G)/双电/导轨16利旧方案:PAAS平台集群R73ODell服务器5型2U机架式服务器,带可调节机架安装导轨,2颗!ntelXeonE5-2630v3CPU,12块热插拔3.5寸4T7.2KSAS希捷硬盘和2块2.5寸1TB后置;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆!ntel850网卡,SFP+万兆Intel网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡I块,整件产品9年原厂售后服务。16配件增加128条DDR42133MHzRDIMMsECC内存增加48块・800GBSATASSD2.57.6大数据选型大数据服务采用独立部署的浪潮云海!nsight产品构建,并通过云海IOP的服务接入适配器接入到PaaS平台中,对外统ー交付服务实例。

232应用系统层里询应用1比对应用搜索应用!!続计应用数据資源管理系统數餐房管理数据嚴务管理數得标准元数落數据分析エ口DataHubRPentahoInsightHD分布式计算引擎InsightMPP,、んい44-イー^/v4<=]ri=InsightMemDB数据集成数据访问后操作并仃数据库内存数据库数据釆隹SqoopKafkaFlumeWebHdfs批处理MapReuceTezSQLNoSql2搜索HivePhoenix$10rm501rSparkSqlHbase资源调度YARN分方式文付系焼HDFS内存・本SparkPig管理认证翁计敢話怖RangerKerberosEncryption巨理ManagerZookeeperHueN在线扩展髙吞吐低延时并行加载B高并发编排在线线性扩展计划OozieSQL兼容混合存储跨广域网分布数据存储1云海Insight是包含分布式计算引擎HD(Hadoop发行版)、分布式并行数据库MPP和内存数据库MemDB等产品的产品族,提供从GB到PB级数据在高并发访问、数据查询和分析处理等不同应用场景大数据处理的能力,帮助客户轻松构建数据采集、数据存储、数据处理、数据应用开发的整个数据生命周期管理体系,快速搭建大数据处理平台。・分布式计算引擎HD是ー个Hadoop发行版,提供企业级的大数据处理环境,无缝集成了Hadoop生态中大量工具,提供海量数据存储、查询、分析和挖掘能力;・分布式并行数据库MPP是ー个企业级的大规模并行处理关系型数据库,支持行存储和列存储,提供PB级别数据量的即席查询能力;・内存数据库MemDB是ー个弹性伸缩的、提供事务支持的内存数据库,具备SQL读写能力,支持多地多中心级的广域网集群部署,用于构建和加速需要超高速数据交互的、具有高度可扩展能力的应用系统。浪潮云海!nsight产品部署需根据新华网大数据处理场景需求及数据量来进行评估,配置出最佳方案,以便发挥大数据服务的最大价值。软件配置:

233产品类别产品项数量浪潮云海大数据平台浪潮云海!nsight系列产品100节点推荐方案:用途型号配置数量(台)分布式计算引擎(管理节点)SA5212M42*E5-2630v3/16G*8/3*800GBSATASSD2.5/板载双千兆+l*inte!外插双万兆/LSI936M1G)/双电/导轨3分布式计算引擎(数据节点)SA5212M42*E5-2630v3/16G*8/2*NVME800GBSSD/板载双千兆+l*intel外插双万兆/LSI9361(1G)/双电/导轨80分布式并行数据库(管理节点)NF8480M44*E7-4809V3/16G*32/3*800GBSATASSD2.51・双口千兆+l*intel外插双万兆/LSI9361(2G)/800W白金电源・42分布式并行数据库(数据节点)NF5280M42*E5-2630v3/16G*16/2*NVME800GBSSD/板载双千兆+l*intel外插双万兆/2*LSI9361(1G)/双电/导轨6分布式并行数据库(内存节点)SA5212M42*E5-2630v3/16G*16/3*800GBSATASSD2.5/板载双千兆+l*intel外插双万兆/LSI936M1G)/双电/导轨9利旧方案:分布式计算引擎(管理节点)R73ODell服务器2型2U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔2.5寸300G10KSAS希捷硬盘:128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,双端口万兆网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品6年原厂售后服务。3每台增加1・双口双万兆网卡

234分布式计算引擎(数据节点)R730Dell服务器3型2U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔3.5寸4T7.2KSAS希捷硬盘,2块7.2K2.5寸SAS1TB;128GB(8X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli35O网卡,双端口万兆,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品7年原厂售后服务。80每台增加I・双口双万兆网卡分布式并行数据库(管理节点)NF8480M44*E7-4809V3/16G*32/4*SAS600G10k1・双口千兆+1・双口万兆/800W白金电源・42分布式并行数据库(数据节点)R730Dell服务器2型2U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,16块热插拔2.5寸1.2T10KSAS希捷硬盘;256GB(16X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡1块,整件产品6年原厂售后服务。6每台增加12*2.51.2T10KSAS、8*16G内存+双口万兆网卡分布式并行数据库(内存节点)R73ODell服务器2型2U机架式服务器,带可调节机架安装导轨,2颗IntelXeonE5-2630v3CPU,8块热插拔2.5寸300GI0KSAS希捷硬盘;256GB(16X16GB)DDR42133MHzRDIMMsECC内存,PERCH730PRAID卡2GB缓存,4端口千兆Inteli350网卡,双端口万兆网卡,热插拔冗余电源,单电源功率495,内置iDRACExpress设备远程管理控制卡I块,整件产品6年原厂售后服务。9每台增加I・双口双万兆网卡8条16G内存

235配件内存:15*8=120条DDR42133MHzRDIMMsECC内存网卡:98・双口万兆网卡硬盘:966*800GBSATASSD2.5172*NVME800GBSSD合计浪潮:2台、DELL服务器2型:18台、DELL服务器3型:80

2368方案总结方案中虚拟化软件采用浪潮云海OS云平台管理系统与大数据Insight系统,国产自主研发,并具备当下最主流先进的虚拟化功能。云管理平台部分采用浪潮云海OSV4.0«全自主知识产权,突破了云数据中心资源管理、调度、多资源池融合等多项核心技术,实现了真正的安全可控。云海I0P构建弹性运行环境、中间件服务和管理中心,无缝对接公有云资源,实现混合云数据中心数据的通讯和统一管理。云海大数据Insight系统帮助企业轻松构建数据采集、数据存储、数据处理、数据应用开发的整个数据生命周期管理体系,快速搭建大数据处理平台。8.1运营效率通过云海OS平台实现系统的搭建与部署,大大提高运营效率。其工作效率的提升不是以百分之多少来衡量的,而是几倍甚至数十倍的提升。传统的ー个操作系统的准备物理环境可能需要几个小时甚至几天,而虚拟化的环境只需要十几分钟。事实上,只需要人工的几个鼠标点击。其余的时间都是系统自动工作而不需要人工的干预。最快的时候,搭建一个数百操作系统的应用人工也只需要配置十几分钟。虚拟层会自动的根据模版生成你需要的工作环境。8.2服务水平云计算环境可以很容易的帮助企业建立业务和IT资源之间的关系,使各种应用和企业的苛刻的业务条件能ーー对应。从整个数据中心的视图来看,云数据中心管理平台可以将所有的物理服务器作为ー个大的资源池进行统ー的管理,并可以按需的自动进行所有运算资源的人工或自动调度。因为所有的硬件资源与客户的应用及操作系统隔离,今后不论是物理主机的更换还是存储的升级,均可以实现应用的零宕机。也许以前的维护需要几天甚至几周的时间变更管理准备。但现在这个时间被大大的缩减甚至不需要了,我们所有的资源都可以无中断的按需扩容。

2378.1开发运维一体化云平台帮助开发团队建立开发运维(DevOps)一体化体系,改变传统开发周期长、运维低效等被动局面,实现应用自动化部署、升级、上线、运维监控的全应用生命周期管理,实现开发测试平台自动化,自动资源分配,降低运维成本,实现敏捷开发。8.2数据中心的绿色节能云平台的节能控制功能,能够根据业务负载,自动调整虚拟资源在物理资源上的分布,实现物理资源的动态伸缩,有效降低数据中心的能耗,实现数据中心的绿色低碳和节能环保。8.3实现在线扩容云平台具备多层次的容错、自动检测和自动恢复机制,保证系统安全可用;支持集群在线扩展,可实现数据存储、加载和査询性能的线性增长。8.4如何专注自身业务云平台使得普通用户无需自行构建数据中心,即可在线申请并使用数据中心的资源,减少了固定资产的投资,使其专注于自身业务,确保企业的核心竞争力。8.5总体拥有成本(TCO)许多应用均在未得到资源充分利用的独立物理服务器上运行,造成投资浪费。借助浪潮虚拟化解决方案,ー个硬件平台可以运行不同操作系统的多个任务,其中每个任务均在自己的隔离区(VM)内运行,并共享对硬件资源的访问。8.6可靠性虚拟化技术将大大提高了业务系统的服务可用性。在实施虚拟化技术之前,如果运行虚拟系统的服务器发生硬件故障,我们只需要将备份好的配置文件和虚拟硬盘镜像文件还原到新的服务器上,并恢复最近一次数据备份,就可以恢复系统的正常使用。

2388.1扩展性本方案充分考虑用户对未来业务扩展的需求,从性能和容量等方面预留充分的扩展空间。8.2管理性通过将整个系统作统一的规划和部署,通过有效的服务器,实现服务器的远程管理、故障预警和状态监控,降低管理工作强度,提升管理效率。采用服务器高级管理模块,搭配服务器套件,具备KVM-0VER-IP功能,提供全面的远程系统监测、维护、管理、控制功能,确保系统管理轻松自如,降低高昂的IT架构维护成本。8.3专业化服务大数据应用开发、环境构建技术难度大、开发成本高,我们提供具备丰富的云计算平台落地及大数据应用开发经验,可以为客户提供落地方法论、技术支持、开发指导等专业化服务。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭