鉴于基于上下文的统计关系学习研究

鉴于基于上下文的统计关系学习研究

ID:35145860

大小:8.02 MB

页数:212页

时间:2019-03-20

鉴于基于上下文的统计关系学习研究_第1页
鉴于基于上下文的统计关系学习研究_第2页
鉴于基于上下文的统计关系学习研究_第3页
鉴于基于上下文的统计关系学习研究_第4页
鉴于基于上下文的统计关系学习研究_第5页
资源描述:

《鉴于基于上下文的统计关系学习研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学院计算技术研究所博士学位论文基于上下文的统计关系学习研究姓名:田永鸿申请学位级别:博士专业:计算机应用技术指导教师:高文20050601摘要统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是独立且同分布的。然而在现实世界中存在着大量的半结构化关系数据,如超文本、Web网页f网站)、Web图像、数字图书、教育资源等,这些数据集合由不同类型的数据对象组成,数据对象本身具有复杂的内部结构,同时不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。传统的统计学习方法忽略了数据对象间的关系结构,而这些语义信息却有助于使学习算法

2、具有更好的性能。因此本论文研究的中心内容就是如何在统计机器学习中明确地利用数据实例间的关系信息来构建健壮的学习模型。本论文采用的主要方法论是上下文建模与分析。在研究中,上下文被定义为使得目标对象具有唯一的和可理解的语义的关联对象和其他影响因素的集合;相应地,上下文依赖关系则是传达了明确语义相关的“关系”。论文在对上下文分析和建模、统计关系学习等两方面的研究现状进行全面综述的基础上,以不同的应用问题为背景,开展了基于上下文分析的统计关系学习方法的研究。创新和研究成果如下:第一,提出了基于多粒度语义模型的Web站点挖掘方法。Web站点可以看作是一种具

3、有复杂结构的超文本文档。论文用多粒度树来作为站点的描述模型,同时提出四种上下文模型来刻画树中结点间的主题相关关系。在此基础上,论文采用隐Markov树作为树结构的统计模型,研究了两阶段分类和多粒度分类等两个Web站点分类算法,以期通过利用结点间的上下文依赖关系来优化分类性能。同时,还利用两阶段文本去噪程序和基于熵的页面树动态剪枝策略来减少网页下载开销并进一步提高分类准确率。实验结果表明,多粒度语义模型能有效地刻画复杂对象内部的上下文依赖关系,而相应的分类算法能在较少的时间开销内达到较高的站点分类准确率。第二,通过扩展依赖网络模型,提出了一种上下文

4、依赖网络模型(CDN)来刻画链接结构中的上下文主题依赖关系。在各种现实的链接关系数据(如w曲)中,噪声链接或不相关“关系”是普遍存在的。为刻画这种复杂的链接规律性,CDN模型用链接特征和互信息来定量刻画链接对象问的上下文依赖关系,并利用一个简单但有效的上下文优化方法来优化对象的关系近邻,从而有效地减少噪声链接信息对分类过程的影响。CDN模型具有对链接特征的选择能力,易于适应不同的内容模型,并比传统的DN具有更简单的参数估计。实验结果表明,CDN模型在噪声数据集上具有较好的健壮性,并能为链接对象的属性提供较好的预测。第三,提出了链接语义核来刻画链接

5、对象之问的语义关系。特别地,将链接图中的语义相关关系看作一种扩散过程,提出了一种“语义扩散核”,并在核空问利用特征分解来获得潜在链接语义核。在此基础上描述了两类基于链接语义核的算法,即核化上下文依赖网络(KCDN)来进行协作分类,以及基于链接语义核的相关页发现算法。论文在皋于.1。下文的统计关系学习研究:摘要w曲KB和CORA12执行协作分类实验,以及在wTl0G上执行相关页发现实验,从而验证了链接语义核的表达能力。为更有效地计算在大数据量下的链接语义核,我们还提出了一种基于块的链按语义核计算方法BlockKemel。实验表明,BlockKeme

6、l算法能在大数据量下具有良好的可扩展性。第四,提出了在线社会网络的影响力模型及其增量学习算法。此模型用隐Markov模型(HMM)来建模交互用户的状态序列及其相应的行为,并基于影响模型(ⅡⅥ)理论来建模用户之间在线群体交互行为的交互动力学。为满足应用问题中增量模型学习的需要,还提出基于梯度的方法来进行模型参数的增量训练。在线社会网络的影响力模型研究可以在协作过滤、信息推荐、群体决策、在线病毒式行销等方面都有广泛的应用。第五,基于视觉、文本、链接信息,研究并实现了基于多上下文模型的Web图像的语义分类系统ConWic。在ConWic中,图像的相关文

7、本建模为图像的多模态上下文,而与目标图像相链接的相关图像则建模为其链接上下文。在此基础上ConWic系统利用跨模态相关分析来刻画不同模态特征空间的语义相关模式,利用链接相关模型来刻画Web图像因链接关系而具有的语义相关关系。实验结果表明,当利用单一模态的特征信息时,Web图像的分类效果往往不能达至U较理想的要求,而综合利用视觉、文本和链接信息则有助于改进Web图像的分类性能。关键词:统计关系学习、上下文模型、多粒度挖掘、上下文依赖网络、链接语义核、影响模型AbstractResearchonContext-BasedStatisticalRela

8、tionalLeamingTianYonghong(ComputerApplication)SupervisedByGaoWenThev

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。