欢迎来到天天文库
浏览记录
ID:32968758
大小:5.22 MB
页数:170页
时间:2019-02-18
《多关系异构对象web挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学博士学位论文多关系异构对象Web挖掘研究姓名:薛贵荣申请学位级别:博士专业:计算机应用技术指导教师:俞勇20060701申请上海交通大学博士学位论文上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。⋯一躲窃掘日期:伊“年7月;日申请上海交通大
2、学博士学位论文薛贵荣上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在一年解密后适用本授权书。本学位论文属于
3、不保密囱。(请在以上方框内打“4”)⋯姗躲饬嘶⋯~:舒日期:俨3年夕月多日日期2如‘年7月》日申请上海交通大学博士学位论文摘要万维网(W
4、orldWideWeb)随着近十年来的迅猛发展,已经成为一个巨大而复杂的信息空间。当用户面对这样快速增长的信息空间时,往往感觉到“信息过载”。面对这样的问题,Web挖掘技术应运而生.该技术结合信息检索,数据挖掘以及知识管理等技术,帮助用户快速的查找和管理所需要的信息。针对研究对象的不同,目前Web挖掘技术有三大研究方向:Web内容挖掘、Web结构挖掘以及Web使用挖掘。随着用户对Web上信息的进一步使用,在基本的Web内容数据的基础上衍生出了其他类型的数据。比如:用户的网站浏览数据,用户查询日志数据以及用
5、户评价数据等。在这些数据中包含了多种对象,其中包括用户、查询词,所点击浏览的页面等。并且这些对象不仅包含自身的性质,也同时与其他不同的对象之间存在多种关联关系。我们称之为:多关系异构对象。这种多关系异构对象数据包含了大量有价值的信息,充分利用这些信息能有效的提高用户对Web信息获取的满意度、提高信息的利用率。当前的Web挖掘研究并没有涉及该种复杂数据的挖掘问题。由于该数据数量巨大但关联关系很稀疏,使得对该种数据的挖掘成为非常巨大的挑战。本课题通过拓宽当前Web挖掘对象的范围,提出了多关系异构对象挖掘研究来
6、解决这些问题。在该研究中,我们相应的提出了多关系异构对象内容挖掘、多关系异构对象结构挖掘以及多关系异构对象使用挖掘的概念,并针对每个类别提出了一系列的挖掘算法并进行了体系化的理论研究工作。本课题的研究提出了以下创新性的理论:1.多关系异构对象的潜在语义分析。考虑到对象本身的内容信息以及与之关联的对象信息,我们提出一种概率潜在语义分析模型来统一内容信息以及关系信息获得更好的聚类效果。2.基于迭代的互增强算法。在信任网络传播理论下,对象的类信息以及同构对象的相似度信息可以被迭代的传播到与之相关联的对象中去。3
7、.基于耗散热传导模型的链接分析算法。传统的PageRank算法不能在复杂的基于层次的链接结构图上进行分析。为了解决这个问题,我们首次提出一种基于耗散热传导的层次化链接分析算法。该算法不仅考虑链接结构,同时也考虑到链接结构图的层次信息。4.解决数据稀疏性问题的数据平滑算法。数据稀疏性问题是协同过滤中一个非常重要的问题。为了填补数据中缺失的值,我们利用聚类信息来平滑数据稀疏性问题。通过聚类信息,我们可以将利用类信息来填充个体缺失的信息。5.用户语言模型研究。我们创新地提出一个基于统计语言模型的用户个性申请上海
8、交通大学博士学位论文化模型,其集成个体、团体以及全部用户的模型来提供更准确用户模型,同时解决用户个人信息稀疏性问题。其中,全部用户的模型来平滑个体模型中没有出现的词,同时将用户聚类,利用聚类用户的行为来平滑个体中缺失的信息。6.存储与模型统一的协同过滤理论。基于存储的协同过滤面临数据稀疏以及耗时等问题而基于模型的协同过滤丢失了用户的个性的多样性,我们提出一个新型的协同过滤模型,其集成基于存储的协同过滤与基于模型的协同过滤为一体来提供更好的推荐。这些理论贯穿了多关系异构对象挖掘的三个方向。本课题研究的大量实
9、验结果也表明我们提出的算法是可行有效的。其中提出的很多算法也被应用到国家自然科学项目中。关键词:多关系异构对象,Web挖掘,迭代互增强,数据稀疏,降维,数据平滑。申请上海交通大学博士学位论文摘要ABSTRACTWiththerapidgrowthofWbrldWideWeb,WebhasbecA3meaveryhugeandcomplexinformationdatabase.Whenfacingsuchdatabase,th
此文档下载收益归作者所有