欢迎来到天天文库
浏览记录
ID:35056933
大小:3.08 MB
页数:64页
时间:2019-03-17
《基于hadoop的web用户访问偏好分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、-谋'"二r子巧V游:辦漫I、’.:‘下'人言、、'^-'’产―:!.分类号:会.,:吗.密复.L..bJ;.沒,’、.;’:'’'-.如-放一、'、三v一'於沪:苗—T扛?%兴鱗?的..."'??、..???、;-.,:?-、誦NUNIVBRTYOFNANCEAVUv.?;N:、h■SIFlltoECCmOM脚:^?,>UA;巧^'知-、、‘.\:.v::於:.心4.箱妓-?心嶺\極嫁1,於:機酔霸纖議爾?'.,..托;^.V:,处;碱
2、的島辦?y!焉\.礎簽,"'?.:售|賴基于Hadoop的web用户访问偏好分类硏究种S^'二、S:.宝,V销心.社.、记..新辨..:V慕獅■■■*''VW?s?,;5V-.,…_《____一…::茲姓;V:狂互锋、鮮,:,於抑;’、新/导:r师_^.流亮齡二:二誓>、雜緣^‘"’'^、’’。...f:X、;成為:考有、,,七:w.矜早银—'?:201520163K.年5月^.X\鮮哉义起止时间年月,鑛.、
3、;、"'啤冷.:、^.};\户如气黎,.徘学位论文原创性声明行研声明;本人所呈交的学位论文,是本人在导师的指导下,独立进究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本论文不含任何其文他个人或集体已经发表或撰写过的作品成果。对本的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本人完全意识到本声明的法律结果由本人承担。论文作者签名;日期:年主月进曰学位论文版权使用授权书本人完全了解云南财经大学有关保留、使用学位论文的规定,即;学校有权保留并
4、向国家有关部口或机构送交论文和论文电子版,允许学位可论文被查阅或借阅;学校可公布学位论文的全部或部分内容,1^^采用影印、缩印或其它复制手段保存、汇编、发表学位论文;授权学校将学位论文的全文或部分内容编入、提供有关数据库进行检索。(保密的学位论文在解密后遵循此规定)S论文作者签名:芝导师签名^ ̄日期:年J月巧日日期:八年J月摘要随着互联网的快速发展,数据信息呈指数级增长,分类算法在大规模数据面前面临着巨大的挑战。当前,国内外的学者对分类模型与算法的研究主要集中在
5、提高其分类的正确率以及时间空间复杂度上,然而在面对大规模数据,主要问题是海量数据的存储和分类计算,传统的方法已经不能满足需求。因此研究如何快速并且高效的对海量数据进行分类具有重要意义。本文基于Hadoop分布式计算平台,针对传统朴素贝叶斯算法权重计算的缺陷,提出一种改进的加权朴素贝叶斯算法,并运用在统计Web用户访问偏好上。首先介绍了课题的研究背景和意义以及国内外研究现状;然后介绍了课题涉及的相关技术,包括文本分类过程中的预处理、模型表示、特征词选择、特征权重计算,贝叶斯理论以及朴素贝叶斯分类算法,H
6、adoop分布式计算平台的相关技术,主要包括HDFS分布式存储和MapReduce分布式计算。然后,基于Hadoop平台提出一种针对中英文的分词算法,在分词过程中引入Lucene,并通过统计法对歧义处理。针对Hadoop平台处理小文件缓慢的缺陷,实现了一种将若干小文本合并成一个大文件的输入格式,实验证明自定义的输入格式能很好处理小文件输入。针对传统的朴素贝叶斯分类算法权重计算存在的缺陷,提出一种改进的加权朴素贝叶斯分类算法,并在Hadoop平台通过5个MapReduce过程来实现,在Hadoop平台下
7、,使用8237条数据作为数据集进行实验,实验表明改进的加权朴素贝叶斯分类算法在宏平均和微平均F1值上都有很好的效果。最后,通过研究的并行分词技术以及改进的朴素贝叶斯分类算法,对web用户访问的页面内容进行分类,并通过Pig统计分析其偏好。对运营商实现精准营销具有一定商业价值。关键词:Hadoop;朴素贝叶斯算法;Lucene;歧义处理IAbstractWiththerapiddevelopmentofInternet,theinformationontheInternetgrowingexponent
8、ially,theclassificationalgorithmisfacinghugechallengesinfrontofthelarge-scaledata.Atpresent,theresearchofclassificationmodelandalgorithmmainlyfocusedonimprovingtheclassificationaccuracyandthecomplexityoftimeandspace.,However,with
此文档下载收益归作者所有