欢迎来到天天文库
浏览记录
ID:22446213
大小:2.94 MB
页数:258页
时间:2018-10-29
《三七大数据平台技术解决方案报告书-v1.0》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、word资料下载可编辑三七数据大数据技术解决方案北京三七数据技术有限公司2017年7月31日专业技术资料word资料下载可编辑目录1概述62面临的挑战62.1数据采集102.2数据清洗102.3数据存储122.4数据并行处理122.5数据分析122.6可视化122.7传统解决方案的分析123相关技术的研究123.1参考模型框架123.2数据采集123.2.1结构化数据的采集123.2.2半结构化数据的采集123.2.3非结构化文本数据中信息的抽取153.3数据清洗和数据质量的保证153.3.1数据质量的概念及分类153.3
2、.2数据清洗的原理183.3.3单数据源中的数据清洗203.4数据的集成和融合373.4.1多数据源集成问题的分类38专业技术资料word资料下载可编辑3.4.2数据标准化的研究403.4.3数据集成的流程413.4.4多数据源中重复实体的清理413.4.5数据不一致性问题的研究433.5数据的存储和处理433.5.1并行和分布式处理理论433.5.2并行RDBMS473.5.3Hadoop493.5.4Hadoop扩展和优化533.5.5NoSQL583.5.6查询优化1103.6大数据中的数据挖掘1123.6.1传统数
3、据挖掘概述1123.6.2大数据时代数据挖掘发展新趋势1203.6.3WEB数据挖掘1243.6.4超数据集成挖掘方法与技术研究1533.6.5数据挖掘网格技术1863.7大规模机器学习2083.7.1机器学习概述2093.7.2扩展机器学习的必要性2113.7.3面临的挑战2133.7.4概率图模型214专业技术资料word资料下载可编辑3.7.5集成学习2153.8可视化和可视化分析2253.8.1概述2253.8.2可视化技术2253.8.3可视化分析2273.8.4文本的可视化分析2283.8.5网络可视化分析23
4、03.8.6移动轨迹数据的可视化分析2303.8.7交互式可视化分析2303.9数据溯源技术的研究2303.9.1概述2313.9.2模式级数据的溯源2323.9.3实例级数据的溯源2323.9.4数据溯源应用的分类2333.9.5未来研究方向2343.10同步技术的研究2353.10.1概述2353.10.2通信程序2353.10.3数据库复制技术2393.10.4ETL技术2423.10.5事务处理2443.10.6XML技术246专业技术资料word资料下载可编辑3.11数据共享技术2483.12安全技术的研究249
5、3.12.1安全风险分析2493.12.2安全技术需求2503.12.3身份认证与密匙协商2513.12.4访问控制技术2513.12.5入侵检测技术2523.13隐私保护技术的研究2533.13.1概述2533.13.2隐私保护的技术手段2543.13.3匿名技术研究2564总体技术解决方案2584.1总体描述2584.2功能框架2584.3技术架构2584.3.1数据采集层2584.3.2数据管理层2584.3.3数据分析层2584.3.4数据展示层2584.3.5数据应用层2584.4与传统数据解决方案对比2585实
6、施方案设计和建议258专业技术资料word资料下载可编辑1概述(主要是描述大数据的定义,大数据的特点,大数据的来源,大数据的行业趋势,大数据的应用。可以把行业研究报告的总结放在这里)2面临的挑战大数据分析面临巨大的挑战,以下我们从5方面来讨论:l异构性和非完整性当用户使用信息时,可以容忍大量的异构性。实际上,自然语言的丰富性和微妙可以提供有价值的深度。然而,机器分析通常希望是同构的数据,无法理解自然语言的微妙之处。所以,通过机器进行数据分析的第一步就是必须仔细地定义数据结构。很多的数据分析系统都要求好的数据结构。少一些的结
7、构化设计对于一些目的可能更加有效,但是计算机系统的有效性则有赖于多个数据的大小和结构的一致性。半结构化数据的有效表示,访问和分析需要更加进一步的工作。即便是在数据清洗和错误纠正之后,数据还可能是不完整的和错误的。在数据分析得过程中应该有效地管理这种不完整性以及这些错误。这是一个非常大的挑战。近期关于概率数据或者不确定数据的管理也许可以在这方面取得一些进展。l数据的大小专业技术资料word资料下载可编辑任何人对大数据的第一个想法就是它的大小。多年来,对大数据并且快速增长的数据的管理一直是很具有挑战的问题。在过去,这些挑战都是
8、通过更快的处理器来应对的。但是现在我们面临的一个基本的事实是,数据量的增长速度超过了CPU速率的增长速度。首先,在过去5年,处理器技术已经有了巨大的转变,根据摩尔定理处理器的主频每18个月就会翻倍,现在因为功率和散热的限制,单个处理器的主频基本上停滞不前了,业界都在通过多核技术来生产处理器。在过去,大型
此文档下载收益归作者所有