车联网大数据平台架构设计

车联网大数据平台架构设计

ID:15313491

大小:181.44 KB

页数:6页

时间:2018-08-02

车联网大数据平台架构设计_第1页
车联网大数据平台架构设计_第2页
车联网大数据平台架构设计_第3页
车联网大数据平台架构设计_第4页
车联网大数据平台架构设计_第5页
资源描述:

《车联网大数据平台架构设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、www.hirian.com车联网大数据平台架构设计-软硬件选型1.软件选型建议1.1    数据传输处理并发链接的传统方式为:为每个链接创建一个线程并由该线程负责所有的数据处理业务逻辑。这种方式的好处在于代码简单明了,逻辑清晰。而由于操作系统的限制,每台服务器可以处理的线程数是有限的,因为线程对CPU的处理器的竞争将使系统整体性能下降。随着线程数变大,系统处理延时逐渐变大。此外,当某链接中没有数据传输时,线程不会被释放,浪费系统资源。为解决上述问题,可使用基于NIO的技术。1.1.1    NettyNetty是当下最为流行的JavaNIO框架。Netty框架中使用了两组线程:se

2、lectors与workers。其中Selectors专门负责client端(列车车载设备)链接的建立并轮询监听哪个链接有数据传输的请求。针对某链接的数据传输请求,相关selector会任意挑选一个闲置的worker线程处理该请求。处理结束后,worker自动将状态置回‘空闲’以便再次被调用。两组线程的最大线程数均需根据服务器CPU处理器核数进行配置。另外,netty内置了大量worker功能可以协助程序员轻松解决TCP粘包,二进制转消息等复杂问题。1.1.2    IBMMessageSightMessageSight是IBM的一款软硬一体的商业产品。其极限处理能力可达百万clie

3、nt并发,每秒可进行千万次消息处理。1.2    数据预处理1.2.1    流式数据处理对于流式数据的处理不能用传统的方式先持久化存储再读取分析,因为大量的磁盘IO操作将使数据处理时效性大打折扣。流式数据处理工具的基本原理为将数据切割成定长的窗口并对窗口内的数据在内存中快速完成处理。值得注意的是,数据分析的结论也可以被应用于流式数据处理的过程中,即可完成模式预判等功能还可以对数据分析的结论进行验证。1.2.1.1    Stormwww.hirian.comStorm是被应用最为广泛的开源产品中,其允许用户自定义数据处理的工作流(Storm术语为Topology),并部署在Hado

4、op集群之上使之具备批量、交互式以及实时数据处理的能力。用户可使用任意变成语言定义工作流。1.2.1.2    IBMStreamsIBM的Streams产品是目前市面上性能最可靠的流式数据处理工具。不同于其他基于Java的开源项目,Streams是用C++开发的,性能也远远高于其他流式数据处理的工具。另外IBM还提供了各种数据处理算法插件,包括:曲线拟合、傅立叶变换、GPS距离等。1.2.2    数据推送为了实现推送技术,传统的技术是采用‘请求-响应式’轮询策略。轮询是在特定的的时间间隔(如每1秒),由浏览器对服务器发出请求,然后由服务器返回最新的数据给客户端的浏览器。这种传统的

5、模式带来很明显的缺点,即浏览器需要不断的向服务器发出请求,然而HTTPrequest的header是非常长的,里面包含的数据可能只是一个很小的值,这样会占用很多的带宽和服务器资源。面对这种状况,HTML5定义了WebSockets协议,能更好的节省服务器资源和带宽并达到实时通讯。应用Websockets技术,服务器可以通过一个双工通道主动推送数据至客户端浏览器。1.3    数据存储1.3.1    车载终端数据自2006年以来,基于Google提出的MapReduce编程模型以及分布式文件系统的开源项目Hadoop,得到了分布式计算领域的广泛关注,近年来更是几乎成为了大数据行业的标

6、准框架。众多国际互联网公司如Yahoo!、Twitter、Facebook、Google、阿里巴巴等均开源发布了大量基于Hadoop框架的软件,从而使得此框架拥有其他大数据工具所不具备的软件生态圈。2013年底,Hadoop2发布,新一代的计算框架YARN在兼容MapReduce之外,使得其他第三方计算工具可以更便捷的与HDFS整合。同时HDFS也增加了HA(高可用)等新功能。www.hirian.comCloudera是一家美国的Hadoop软件发行商,其CDH提供了企业级的服务支持,超过50%的Hadoop开源项目贡献来自于Cloudera的工程师。恒润科技目前使用的是Cloud

7、era的CDH5。数据存入HDFS中时,Hadoop会自动将数据切分为block并均匀分布的存储在集群的各个数据节点。读取数据时,往往通过MapReduce的方式将数据汇总并提取。这种方式非常适用于对海量数据(eg.100GB+)进行检索或分析的场景。这是因为,首先海量数据很难用单机进行处理,因为大量数据需要先加载至内存;其次因为MapReduce(或基于YARN的其他计算方式)可以充分利用整个集群中的计算资源,任务的执行效率远远快于单机。而对于交互应答及

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。