基于贝叶斯算法的分布式存储计算平台

基于贝叶斯算法的分布式存储计算平台

ID:42482388

大小:2.45 MB

页数:73页

时间:2019-09-15

基于贝叶斯算法的分布式存储计算平台_第1页
基于贝叶斯算法的分布式存储计算平台_第2页
基于贝叶斯算法的分布式存储计算平台_第3页
基于贝叶斯算法的分布式存储计算平台_第4页
基于贝叶斯算法的分布式存储计算平台_第5页
资源描述:

《基于贝叶斯算法的分布式存储计算平台》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于贝叶斯算法的分布式存储计算平台ADistributedStorageandComputingPlatformbasedonBayesianAlgorithm工程领域:软件工程作者姓名:谢杭伦指导教师:孟昭鹏教授企业导师:丁健天津大学软件学院2017年11月万方数据万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何

2、贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日万方数据万方数据中文摘要数据挖掘已经成为大数据时代下数据处理、文本分类、数据研究不可或缺的一项标准工具

3、。通常,为了实现数据挖掘的目标,必须配合数据爬取、数据存储、数据分析等各种手段。然而在实现数据挖掘目标的各个阶段的实际工作中,不管是数据爬取,还是数据存储,或是数据分析,都存在来自各个方面的难点或痛点。数据爬取:数据难以被大量获取,数据集分散不好归并;数据存储:形式单一,单机存储有数据丢失的风险,数据量大时速度缓慢;数据分析:爬取的数据普遍存在脏数据,在没有区分脏数据和可用数据的前提下,数据挖掘的结果千差万别,需要过滤一些内容。本课题旨在为传统的数据挖掘过程提出一种通用的解决方法和手段,提供数据爬取、数据存储、数据分类整合平台或框架,

4、以此尽可能规避在数据爬取、数据存储和数据分类这三个环节的风险:在数据爬取过程中,解决信息数据没有统一的来源、数据集分散不好整合的痛点;在数据存储过程中,解决存储速度缓慢的痛点;在数据分类的过程中,解决脏数据误差的痛点。本课题通过在数据爬取环节选择webcollector爬虫框架,最大限度地保证爬取到的数据的实时性;在数据存储环节,用codis+redis集群的分布式网络存储系统进行数据实时存储,使数据存储过程具有充分的安全性和可靠性,同时提高了数据存取的效率;在数据分析环节,数据经过贝叶斯分类器后,能够解决脏数据过多的问题,最大程度地

5、保持了数据的纯粹性和可用性。实验原型的评估展示出了本课题提出的框架在功能上能够完成数据挖掘的要求,相比传统的数据挖掘模型,其在性能上实现了时间的低消耗,达到了预期。关键词:数据挖掘;爬虫;分布式存储;贝叶斯原理;数据分类I万方数据II万方数据ABSTRACTDatamininghasbecomeanindispensablestandardtoolfordataprocessing,textcategorizationanddataresearchintheeraofbigdata.Usually,inordertoachieveth

6、egoalofdatamining,wemustcooperatewithdatacrawling,datastorage,dataanalysisandothermeans.However,therearesomedifficultiesorpainpointsfromallaspectsinthepracticalworkofallstagesofdatamining,whetheritisdatacrawling,datastorageordataanalysis.DataCrawling:Thereisnouniformsou

7、rceofdatainvarioussystemsofthecurrentInternet,andthedatasetsarenotdecentralizedandmergedwell.Datastorage:asingleformandasinglemachinehavetheriskofdatalosswhenstoringlargeamountsofdata.DataAnalysis:ClimbingDirtydataiscommonlyfoundindata.Thepurposeofthisprojectistopropose

8、acommonsolutionandmethodforthetraditionaldataminingprocessandtoprovideaplatformorframeworkfordatacrawling,data

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。