基于web挖掘技术的网页分类研究

基于web挖掘技术的网页分类研究

ID:33297263

大小:3.86 MB

页数:68页

时间:2019-02-23

基于web挖掘技术的网页分类研究_第1页
基于web挖掘技术的网页分类研究_第2页
基于web挖掘技术的网页分类研究_第3页
基于web挖掘技术的网页分类研究_第4页
基于web挖掘技术的网页分类研究_第5页
资源描述:

《基于web挖掘技术的网页分类研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、扬州大学硕士学位论文基于Web挖掘技术的网页分类研究姓名:徐法艳申请学位级别:硕士专业:计算机应用技术指导教师:沈洁2008050166徐法艳:基于wreb挖掘技术的网页分类研究扬州大学学位论文原创性声明和版权使用授权书学位论文原创性声明本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名:徐弦仡签字日期:2口6

2、g年多月1日学位论文版权使用授权书本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅。本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。学位论文作者签名:侩蜴艳导师签名:签字日期:2口pg年多月1日签字日期:似年二月f日徐法艳:基于web挖掘技

3、术的网页分类研究捅姜随着计算机硬件存储能力和软件环境的不断提高,万维网(WorldWideWeb)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的

4、意向来摆放娱乐产品。近年来Web2.0的话题都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如:维基(wikis),博客(Blogs),和社会资源共享系统。社会化标签服务,如Del.icio.us和Flickr,不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。本文主要做了以下几方面工作。1.用户娱乐憨挖掘。理解用用户在线活动的目标和意向为信

5、息提供者带来很大帮助。本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。实验结果表明,出现频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。2.社会化书签的特点及表示。标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。3.基于社会化标签网页分类。在社会化标

6、签环境下,通常用户根据同一类的标签所标注的网页属于同一类。相应的,用户对同一类网页标注时,所用的标签是同一类的。因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。构建对网页局部文本、网页标签和虚拟文档进2扬州大学硕士学垡笙塞行分类的模型。通过实验证实了社会化书签对网页分类的作用,基于虚拟文档的分类算法取得了满意的效果。关键词:Web挖掘,社会化标签,娱乐意向,网页分类,虚拟文档徐法艳:基于web挖掘技术的网页分类研究AbstractWiththeimproVementofcomputerhardw

7、arestoragecapacityandsoftwareenVironment,dataexpansionofWorldWideWebmakesdataandresourceownedbypeopleincrease,thestructureofWorldWideWebbecomesmorecomplextoo.Thecharacteristicssuchasthemassone,theHeterogeneousoneanddistributiVeoneposechallengestothisarea.Re

8、centlyWebmininghasattractedmuchattentionininformationindustry.Thereasonforthissituationisthatworldwidedatacanbeused,itisnecessaryforustotransformdatatousefulinformationandknowledge.Thegoalsofuseronline

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。