基于关键词相似度的web用户挖掘研究与实现

基于关键词相似度的web用户挖掘研究与实现

ID:12070515

大小:162.50 KB

页数:42页

时间:2018-07-15

基于关键词相似度的web用户挖掘研究与实现_第1页
基于关键词相似度的web用户挖掘研究与实现_第2页
基于关键词相似度的web用户挖掘研究与实现_第3页
基于关键词相似度的web用户挖掘研究与实现_第4页
基于关键词相似度的web用户挖掘研究与实现_第5页
资源描述:

《基于关键词相似度的web用户挖掘研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于关键词相似度的Web用户挖掘研究与实现ComputerScienceandApplication计算机科学与应用,2013,3,232-238//dx.doi.org/10.12677/csa.2013.34040PublishedOnlineJuly2013(//.hanspub.org/journal/csa.html)TheStudyandImplementationofWebUserMiningSystemBasedontheSimilarityofWords*ChengxiaLiu1,2

2、,FeiyingWu21ComputerSchool,BeijingUniversityofPostsandTelecommunications,Beijing2ComputerSchool,BeijingInformationandTechnologyUniversity,BeijingReceived:May13th,2013;revised:May27th,2013;accepted:Jun.5th,2013Copyright??2013ChengxiaLiu,FeiyingWu.Thisisa

3、nopenaccessarticledistributedundertheCreativeCommonsAttributionLicense,whichpermitsunrestricteduse,distribution,andreproductioninanymedium,providedtheoriginalworkisproperlycited.Abstract:Nowadays,aswebminingisextremelyprevalent,itiseasytocollecthugeamou

4、ntsofdatabuttofigureoutwhichmaterialsareusefultoanalyzeafterde-noisingismoreimportant.Thisarticlediscusseshowtousetheresultofuser’ssearchingkeywordsclusteringasthelabeloftheclientforoperationalanalyststoreferto.Thesimilaritybetweenisolatedwordsiscalcula

5、tedbyturningthewordsemanticdistancebasedonworldknowledgeorclassificationsystem.Thenthesimilaritybetweenclients(keywordsets)isdefinedastheEuclideandistanceofasimilaritymatrixconstitutedbythesimilaritiesbetweenkeywordsetswhichdeterminedbywordfrequencyandw

6、ordweight.The“depmix”packagewhichbasedontheHiddenMarkovModelin“R”softwareisusedastheclusteringalgorithmandtheuserclusteringresultisdisplayedatlastusingtherealdataoftheusersofasearchengine.Keywords:TheSimilarityofWords;TheSimilarityBetweenClients(Keyword

7、Sets);UserClustering基于关键词相似度的Web用户挖掘研究与实现*刘城霞1,2,吴菲滢21北京邮电大学计算机学院,北京2北京信息科技大学计算机学院,北京收稿日期:2013年5月13日;修回日期:2013年5月27日;录用日期:2013年6月5日摘要:在Web挖掘极度盛行的今天,收集大量网络数据已经不是问题,而如何在海量数据中抽取去噪后的有用数据成为要解决的关键问题。本文研究将网站用户的搜索关键词分析聚类,作为用户的兴趣、爱好标签,以供运营分析人员参考。文中根据世界知识或分类体系计算词

8、语语义距离后转化为词语相似度的方法,将词语间距离依据词频、词权重等因子加工计算出关键词集合间相似度矩阵后,用欧式距离表示其关键字集的相似度;之后聚类算法利用现有R软件中开源算法包——基于隐马尔科夫模型的depmix算法包进行的用户聚类算法。最终用某搜索引擎用户的真实数据,经过数据去噪后所得实验数据进行聚类,并于前台展示聚类及用户周边相关结果。关键词:词语相似度;关键词集合相似度;用户聚类1.引言近些年来互联网行业飞速发展,机构、团体和个人越来越多地依赖互

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。