基于hadoop的web用户访问偏好分类研究

基于hadoop的web用户访问偏好分类研究

ID:35056933

大小:3.08 MB

页数:64页

时间:2019-03-17

基于hadoop的web用户访问偏好分类研究_第1页
基于hadoop的web用户访问偏好分类研究_第2页
基于hadoop的web用户访问偏好分类研究_第3页
基于hadoop的web用户访问偏好分类研究_第4页
基于hadoop的web用户访问偏好分类研究_第5页
资源描述:

《基于hadoop的web用户访问偏好分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-谋'"二r子巧V游:辦漫I、’.:‘下'人言、、'^-'’产―:!.分类号:会.,:吗.密复.L..bJ;.沒,’、.;’:'’'-.如-放一、'、三v一'於沪:苗—T扛?%兴鱗?的..."'??、..???、;-.,:?-、誦NUNIVBRTYOFNANCEAVUv.?;N:、h■SIFlltoECCmOM脚:^?,>UA;巧^'知-、、‘.\:.v::於:.心4.箱妓-?心嶺\極嫁1,於:機酔霸纖議爾?'.,..托;^.V:,处;碱

2、的島辦?y!焉\.礎簽,"'?.:售|賴基于Hadoop的web用户访问偏好分类硏究种S^'二、S:.宝,V销心.社.、记..新辨..:V慕獅■■■*''VW?s?,;5V-.,…_《____一…::茲姓;V:狂互锋、鮮,:,於抑;’、新/导:r师_^.流亮齡二:二誓>、雜緣^‘"’'^、’’。...f:X、;成為:考有、,,七:w.矜早银—'?:201520163K.年5月^.X\鮮哉义起止时间年月,鑛.、

3、;、"'啤冷.:、^.};\户如气黎,.徘学位论文原创性声明行研声明;本人所呈交的学位论文,是本人在导师的指导下,独立进究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本论文不含任何其文他个人或集体已经发表或撰写过的作品成果。对本的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本人完全意识到本声明的法律结果由本人承担。论文作者签名;日期:年主月进曰学位论文版权使用授权书本人完全了解云南财经大学有关保留、使用学位论文的规定,即;学校有权保留并

4、向国家有关部口或机构送交论文和论文电子版,允许学位可论文被查阅或借阅;学校可公布学位论文的全部或部分内容,1^^采用影印、缩印或其它复制手段保存、汇编、发表学位论文;授权学校将学位论文的全文或部分内容编入、提供有关数据库进行检索。(保密的学位论文在解密后遵循此规定)S论文作者签名:芝导师签名^ ̄日期:年J月巧日日期:八年J月摘要随着互联网的快速发展,数据信息呈指数级增长,分类算法在大规模数据面前面临着巨大的挑战。当前,国内外的学者对分类模型与算法的研究主要集中在

5、提高其分类的正确率以及时间空间复杂度上,然而在面对大规模数据,主要问题是海量数据的存储和分类计算,传统的方法已经不能满足需求。因此研究如何快速并且高效的对海量数据进行分类具有重要意义。本文基于Hadoop分布式计算平台,针对传统朴素贝叶斯算法权重计算的缺陷,提出一种改进的加权朴素贝叶斯算法,并运用在统计Web用户访问偏好上。首先介绍了课题的研究背景和意义以及国内外研究现状;然后介绍了课题涉及的相关技术,包括文本分类过程中的预处理、模型表示、特征词选择、特征权重计算,贝叶斯理论以及朴素贝叶斯分类算法,H

6、adoop分布式计算平台的相关技术,主要包括HDFS分布式存储和MapReduce分布式计算。然后,基于Hadoop平台提出一种针对中英文的分词算法,在分词过程中引入Lucene,并通过统计法对歧义处理。针对Hadoop平台处理小文件缓慢的缺陷,实现了一种将若干小文本合并成一个大文件的输入格式,实验证明自定义的输入格式能很好处理小文件输入。针对传统的朴素贝叶斯分类算法权重计算存在的缺陷,提出一种改进的加权朴素贝叶斯分类算法,并在Hadoop平台通过5个MapReduce过程来实现,在Hadoop平台下

7、,使用8237条数据作为数据集进行实验,实验表明改进的加权朴素贝叶斯分类算法在宏平均和微平均F1值上都有很好的效果。最后,通过研究的并行分词技术以及改进的朴素贝叶斯分类算法,对web用户访问的页面内容进行分类,并通过Pig统计分析其偏好。对运营商实现精准营销具有一定商业价值。关键词:Hadoop;朴素贝叶斯算法;Lucene;歧义处理IAbstractWiththerapiddevelopmentofInternet,theinformationontheInternetgrowingexponent

8、ially,theclassificationalgorithmisfacinghugechallengesinfrontofthelarge-scaledata.Atpresent,theresearchofclassificationmodelandalgorithmmainlyfocusedonimprovingtheclassificationaccuracyandthecomplexityoftimeandspace.,However,with

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。