欢迎来到天天文库
浏览记录
ID:35102062
大小:2.64 MB
页数:71页
时间:2019-03-17
《面向大数据的关键字检索算法研究及优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:O236论文编号:HBLG2016-165UDC:密级:公开硕士学位论文面向大数据的关键字检索算法研究及优化作者姓名:王师学科名称:数学研究方向:云计算理论及应用学习单位:华北理工大学学制:2.5年提交日期:2015年11月27日申请学位类别:理学硕士导师姓名:陈学斌教授单位:华北理工大学理学院论文评阅人:赵军辉教授单位:北京交通大学阎红灿教授单位:华北理工大学论文答辩日期:2016年01月13日答辩委员会主席:刘保相教授关键词:大数据;存储模型;并行分类;关键字检索;算法优化唐山华北理工大学2016年03月ResearchandOptimizationonKey
2、wordRetrievalAlgorithmforBigDataDissertationSubmittedtoNorthChinaUniversityofScienceandTechnologyinpartialfulfillmentoftherequirementforthedegreeofMasterofSciencebyWangShi(Mathematics)Supervisor:ProfessorChenXuebinMarch,2016独创性说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的
3、地方夕h论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得一华北理工大学W外其他教育机构的学位或证书所使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。论文作者签名:主日期;如年/月,多日关于论文使用授权的说明艮本人完全了解华北理工大学有关保留、使用学位论文的规定,P;已获学位的研究生必须按学校规定提交学位论文,学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可W将学位论文的全部或、检索和交流。部分内容采用影印、缩印或编入有关数据库进行公开作者和导师同意论文公开及网上交流的
4、时间:/口自授予学位之日起□自年月日起作者签名:iK)不导师签备>^/^'(;《年/^f多日签字日期;年月矣日签子日期摘要摘要针对传统检索模型在检索上存在的数据冗余、模糊匹配、检索结果差等缺点,结合当前研究热点,论述异构数据集成、冗余数据排除、高效数据分类、关键字检索等模型与方法,旨在大数据环境下,充分利用传统技术与虚拟化技术、Map-Reduce并行框架模型、改进向量空间检索模型等技术相结合优化存储模型、改进分类算法以及优化检索算法,进而提高算法运算效率,为用户提供一套集数据存储、数据分类、数据检索于一体的大数据检索基础平台。以关键字检索算法
5、作为研究对象,主要研究内容为:首先,为了更好地对数据检索提供良好的数据存储基础,研究数据模型的设计与优化,并在云计算环境下研讨设计数据存储模型,文件块的数据更新算法设计,以及云存储的故障恢复机制等。第二,为了达到准确地对不同数据的检索要求,在原有分类算法的基础上提出了并行分类混合算法(PCHA算法),该算法利用邻近分类算法适合处理属性多、数据大的分类问题的优势,引入Map-Reduce并行框架与其融合设计,优化并提升原有分类算法的建模预测能力和分类识别率。第三,研讨传统检索算法并提出无序关键字检索算法(DKRA算法),该算法利用向量检索模型计算方便、复杂度低等优点,引入K-D
6、矩阵构造及相似度等计算方法设计检索算法,并与计算关键字序列权重得到相关数据相似度的计算方法做比较,从而体现DKRA算法在计算效率上的优势。最后,在DKRA算法的基础上提出了有序关键字检索算法(OKRA算法),该算法利用检索关键字的有序性,给出了关键字检索步长、总体检索步长、相关数据检索步长、总体相关数据检索步长、位置匹配度的计算公式等的定义,在计算相似度中引入位置匹配度解决了由于检索关键字顺序组合造成的检索错误率问题,利用该算法可以过滤掉较差无关数据,降低数据集遍历所耗时长,提高了相关检索数据的返回质量。图20幅;表8个;参59篇。关键词:大数据;存储模型;并行分类;关键字检
7、索;算法优化分类号:O236-I-华北理工大学硕士学位论文AbstractTosolvetheproblemsofthetraditionalretrievalmodelindataretrieval,suchasdataredundancy,fuzzinessofmatching,andlackofeffectiveresults,thethesiscombineswithcurrentresearchhotspotsincludingexpoundmodelandmethodofheterogene
此文档下载收益归作者所有