基于大数据的桥梁监测信息分类技术研究

基于大数据的桥梁监测信息分类技术研究

ID:25379153

大小:62.00 KB

页数:12页

时间:2018-11-20

基于大数据的桥梁监测信息分类技术研究_第1页
基于大数据的桥梁监测信息分类技术研究_第2页
基于大数据的桥梁监测信息分类技术研究_第3页
基于大数据的桥梁监测信息分类技术研究_第4页
基于大数据的桥梁监测信息分类技术研究_第5页
资源描述:

《基于大数据的桥梁监测信息分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于大数据的桥梁监测信息分类技术研究梅文涵1杨建喜2(1武汉轻工大学数学与计算机学院湖北武汉4300232重庆交通大学重庆400074)摘要:针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩

2、尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。.jyqkap/Reduce,以其高容错性、高伸缩性等优点允许用户将Hadoop部署在大量廉价的硬件上,人们可以充分利用集群的存储和高速运算能力,完成海量数据的处理,其中包括海量文本数据的分类问题。分类算法是一种重要的数据挖掘算法,该模型通过对海量样本数据进行训练能把未知类别的样本映射到给定类别中的某一个,以此判别桥梁状态所属类别,K近邻(K-NearestNeighbo

3、r,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。云计算提供的海量数据存储和分布式计算能力在数据挖掘以及相关领域中是一种非常受青睐并且有效的方法,结合大数据技术和数据挖掘算法—KNN文本分类算法进行桥梁健康监测,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,使用分布式文件系统HadoopDistributedFilesystem来存储

4、原始文档(已分类的数据)和待分类文档(监测数据),将文件读写和分布式并行计算框架MapReduce相结合实现KNN文本分类,将监测点的监测数据分到已有的工况中,并据此判断监测点属于何种工况,以便采取相关措施对桥梁进行维护,以此来探索基于大数据技术的桥梁监测分析处理的方法。1大数据及其应用平台“大数据”是一个体量很大,数据类别多样的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理,主要具有数据体量巨大;①数据类别大;②数据来自多种数据源,囊括了半结构化和非结构化数据;③数据处理速度快,在数据量非常庞大的情况下,也能够做到

5、数据的实时处理;④数据价值密度低,价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”并通过对海量数据进行分析获得有价值的数据成为目前大数据背景下亟待解决的难题。Hadoop是Apache软件基金会旗下的一个开源分布式计算平台及分布式处理的软件框架,主要用来处理大量数据,它实现了MapReduce一样的编程模式和框架,能在由大量计算机组成的集群中运行海量数据并进行分布式计算。处理的海量数据能达到PB级别(1PB=1024TB),并可以让应用程序在上千个节点中进行分布式处理。以Hadoop分布式文件系统(H

6、DFS,HadoopDistributedFilesystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。MapReduce是大规模数据(

7、TB级)计算的利器,Map和Reduce是它的主要思想,于函数式编程语言,Map负责将数据打散,Reduce负责对数据进行聚集。它的流程如图1所示。2K近邻文本分类算法K近邻(K-NearestNeighbor,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。根据加权距离和判断测试样本所属的类别的具体过程如下:假设给定有m个训练样本集D,每个样本具有n个

8、属性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第几个训练样本。(1)设定k的值,k最近邻的数量;(2)把测试样本表示成测试文本向量X(ω

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。