基于web挖掘技术的网页分类研究论文

基于web挖掘技术的网页分类研究论文

ID:26074515

大小:323.00 KB

页数:40页

时间:2018-11-24

基于web挖掘技术的网页分类研究论文_第1页
基于web挖掘技术的网页分类研究论文_第2页
基于web挖掘技术的网页分类研究论文_第3页
基于web挖掘技术的网页分类研究论文_第4页
基于web挖掘技术的网页分类研究论文_第5页
资源描述:

《基于web挖掘技术的网页分类研究论文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要随着计算机硬件存储能力和软件环境的不断提高,万维网(WorldWideWeb)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。近年来Web2.0的话题在各界都引起了广泛地讨论,网络上Web2.0相关主题的

2、应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如:维基(Wikis),博客(Blogs),和社会化书签网站,如Dil.QQ.US和Flickr。社会化标签服务不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。本文主要做了以下几方面工作。1.用户娱乐意向挖掘。理解用户在线活动的目标和意向为信息提供者带来很大帮助。本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。实验结果表明,出现

3、频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。2.社会化书签的特点及表示。标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。3.基于社会化标签网页分类。在社会化标签环境下,通常用户根据同一类的标签所标注的网页属于同一类。相应的,用户对同一类网页标注时,所用的标签是同一类的。因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。构建对网页局部文本、网页标签和虚拟文档进行分类的模型。通过实验证实了社会化书签对网页分类的

4、作用,基于虚拟文档的分类算法取得了满意的效果。关键词:社会化标签,娱乐意向,元数据,网页分类,虚拟文档Abstract随着计算机硬件存储能力和软件环境的不断提高,万维网(WorldWideWeb)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根据用户浏览网页时是否

5、有参与娱乐活动的意向来摆放娱乐产品。近年来Web2.0的话题在各界都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如:维基(Wikis),博客(Blogs),和社会化书签网站,如Dil.QQ.US和Flickr。社会化标签服务不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。本文主要做了以下几方面工作。Withthedevelopmentofcomputerhardwareandsoftwareenvironmentofs

6、toragecapacitycontinuestoimprove,theworldwideweb(WorldWideWeb)dataexpansionmakespeoplehavethedataandresourcesincreasing,structureoftheworldwidewebhasbecomemorecomplex.TheWorldWideWebdata,heterogeneousanddistributedmassofchallengesfortheresearchinthisfield.Inrecentyears,Webmininghasattractedmuchatt

7、entionininformationindustry,themainreasonisthemassivedatacanusetheworldwideweb,andtheneedtotransformthesedataintousefulinformationandknowledge.Theuseronlineactivitypotentialtargetisdiverse.Aimandintentionundersta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。