面向大数据的关键字检索算法研究及优化

面向大数据的关键字检索算法研究及优化

ID:35102062

大小:2.64 MB

页数:71页

时间:2019-03-17

面向大数据的关键字检索算法研究及优化_第1页
面向大数据的关键字检索算法研究及优化_第2页
面向大数据的关键字检索算法研究及优化_第3页
面向大数据的关键字检索算法研究及优化_第4页
面向大数据的关键字检索算法研究及优化_第5页
资源描述:

《面向大数据的关键字检索算法研究及优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:O236论文编号:HBLG2016-165UDC:密级:公开硕士学位论文面向大数据的关键字检索算法研究及优化作者姓名:王师学科名称:数学研究方向:云计算理论及应用学习单位:华北理工大学学制:2.5年提交日期:2015年11月27日申请学位类别:理学硕士导师姓名:陈学斌教授单位:华北理工大学理学院论文评阅人:赵军辉教授单位:北京交通大学阎红灿教授单位:华北理工大学论文答辩日期:2016年01月13日答辩委员会主席:刘保相教授关键词:大数据;存储模型;并行分类;关键字检索;算法优化唐山华北理工大学2016年03月ResearchandOptimizationonKey

2、wordRetrievalAlgorithmforBigDataDissertationSubmittedtoNorthChinaUniversityofScienceandTechnologyinpartialfulfillmentoftherequirementforthedegreeofMasterofSciencebyWangShi(Mathematics)Supervisor:ProfessorChenXuebinMarch,2016独创性说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的

3、地方夕h论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得一华北理工大学W外其他教育机构的学位或证书所使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。论文作者签名:主日期;如年/月,多日关于论文使用授权的说明艮本人完全了解华北理工大学有关保留、使用学位论文的规定,P;已获学位的研究生必须按学校规定提交学位论文,学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可W将学位论文的全部或、检索和交流。部分内容采用影印、缩印或编入有关数据库进行公开作者和导师同意论文公开及网上交流的

4、时间:/口自授予学位之日起□自年月日起作者签名:iK)不导师签备>^/^'(;《年/^f多日签字日期;年月矣日签子日期摘要摘要针对传统检索模型在检索上存在的数据冗余、模糊匹配、检索结果差等缺点,结合当前研究热点,论述异构数据集成、冗余数据排除、高效数据分类、关键字检索等模型与方法,旨在大数据环境下,充分利用传统技术与虚拟化技术、Map-Reduce并行框架模型、改进向量空间检索模型等技术相结合优化存储模型、改进分类算法以及优化检索算法,进而提高算法运算效率,为用户提供一套集数据存储、数据分类、数据检索于一体的大数据检索基础平台。以关键字检索算法

5、作为研究对象,主要研究内容为:首先,为了更好地对数据检索提供良好的数据存储基础,研究数据模型的设计与优化,并在云计算环境下研讨设计数据存储模型,文件块的数据更新算法设计,以及云存储的故障恢复机制等。第二,为了达到准确地对不同数据的检索要求,在原有分类算法的基础上提出了并行分类混合算法(PCHA算法),该算法利用邻近分类算法适合处理属性多、数据大的分类问题的优势,引入Map-Reduce并行框架与其融合设计,优化并提升原有分类算法的建模预测能力和分类识别率。第三,研讨传统检索算法并提出无序关键字检索算法(DKRA算法),该算法利用向量检索模型计算方便、复杂度低等优点,引入K-D

6、矩阵构造及相似度等计算方法设计检索算法,并与计算关键字序列权重得到相关数据相似度的计算方法做比较,从而体现DKRA算法在计算效率上的优势。最后,在DKRA算法的基础上提出了有序关键字检索算法(OKRA算法),该算法利用检索关键字的有序性,给出了关键字检索步长、总体检索步长、相关数据检索步长、总体相关数据检索步长、位置匹配度的计算公式等的定义,在计算相似度中引入位置匹配度解决了由于检索关键字顺序组合造成的检索错误率问题,利用该算法可以过滤掉较差无关数据,降低数据集遍历所耗时长,提高了相关检索数据的返回质量。图20幅;表8个;参59篇。关键词:大数据;存储模型;并行分类;关键字检

7、索;算法优化分类号:O236-I-华北理工大学硕士学位论文AbstractTosolvetheproblemsofthetraditionalretrievalmodelindataretrieval,suchasdataredundancy,fuzzinessofmatching,andlackofeffectiveresults,thethesiscombineswithcurrentresearchhotspotsincludingexpoundmodelandmethodofheterogene

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。