主题驱动的web资源发现研究模型、算法及应用

主题驱动的web资源发现研究模型、算法及应用

ID:35130330

大小:982.61 KB

页数:139页

时间:2019-03-19

主题驱动的web资源发现研究模型、算法及应用_第1页
主题驱动的web资源发现研究模型、算法及应用_第2页
主题驱动的web资源发现研究模型、算法及应用_第3页
主题驱动的web资源发现研究模型、算法及应用_第4页
主题驱动的web资源发现研究模型、算法及应用_第5页
资源描述:

《主题驱动的web资源发现研究模型、算法及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学博士学位论文主题驱动的Web资源发现研究:模型、算法及应用姓名:叶允明申请学位级别:博士专业:计算机系统结构指导教师:马范援20040301申请上海交通大学博士学位论文主题驱动的Web资源发现研究:模型算法及应用摘要万维网信息的爆炸性增长使Web已经成为世界上最大的信息库面对这个海量异构半结构化的信息库Web用户经常发现要查找到所需的信息需要耗费大量的精力甚至难以找到造成了信息过载知识匮乏的问题为了解决这个问题在Web信息检索领域产生了一个新的研究课题即主题驱动的Web资源发现它的基

2、本思想可以概括为根据用户定义的目标主题以智能化的主题爬虫从Web上收集主题相关的页面集然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析最后以方便有效的检索方式满足用户的信息检索需求它的理论和技术基础主要包括机器学习信息检索概率统计理论和Web新技术在很多应用领域例如基于Web的行业分析在线商业竞争分析和自动构建专题数字图书馆等主题驱动的Web资源发现系统都富有应用前景与现有的Web搜索引擎可以形成良好的互补本文首先介绍了主题驱动的Web资源发现的一些基本概念和主要的研究内容然后对

3、其中的三个关键问题进行了深入的研究包括主题爬虫模型和算法基于超文本分类的页面过滤以及页面评价算法为了验证本文提出的模型和算法的有效性我们设计并实现了一个实验平台iSurfer一个主题驱动的Web资源发现系统在该平台上我们进行了大量的对比实验实验结果证明了本文提出的模型和算法的有效性本文的贡献和创新性工作主要体现在以下几个方面1.首先在分析了现有主题爬虫由于缺少增量学习能力而影响系统性能的基础上本文提出了基于增量学习的主题爬虫模型使页面分类器和超链接评价器具有增量学习能力从而改进了现有的主题爬虫的

4、体系结构使主题爬虫在爬行过程中能进行在线学习具有更强的自适应性能快速优化其爬行策略i申请上海交通大学博士学位论文2.基于增量学习模型本文提出了三个主题爬虫算法LocalPulse算法LinkPulse算法和增量Q-Learning算法其中LocalPulse算法和LinkPulse算法充分利用Web页面的多特征特性以提高超链接评价的准确性和稳定性LinkPulse算法改进了LocalPulse算法的贪心策略而增量Q-Learning算法是基于增强学习思想的LinkPulse算法和增量Q-Lear

5、ning算法在学习时考虑到了长远回报问题因此不容易陷入局部最优具有更好的性能我们通过大量的对比实验证明了这些算法与现有的主题爬虫算法相比具有优越性说明了增量学习对于提高主题爬虫的收获率是非常有效的3.Web页面过滤是主题驱动的Web资源发现的一个重要研究问题本文首先将Web页面过滤问题转化为超文本分类问题然后提出了基于分类器集成的超文本分类方法MR-Ensemble该方法针对现有文本分类方法中没有充分利用超文本的多特征特性的不足之处将样本重构方法与多分类器的非构造性集成方法相结合起来通过多个分类

6、器挖掘训练样本集的不同侧面的特征信息使各个分类器可以形成优势互补从而提高超文本分类的精度和鲁棒性我们通过大量的对比实验证明了该方法的有效性4.页面评价是主题驱动的Web资源发现的另一个重要问题本文首先分析了基于内容的页面评价算法以及经典的超链接评价算法指出了它们无法将内容信息与超链接信息进行有机结合的缺点提出了一个基于多特征关联的Web页面评价算法MFCRank该算法对PageRank算法的随机图遍历模型进行改进提出了JCR随机图遍历模型从而使超链接分析能综合考虑Web页面的内容与超链接特征信息

7、并通过MFCRank值的定义将在线的内容分析技术和离线的超链接分析技术结合起来使页面评价更加客观准确我们通过实验证明了MFCRank算法比PageRank算法以及我们已有的算法CALA具有更高的查准率5.设计并实现了一个主题驱动的Web资源发现系统iSurfer它具有跨平台高可扩展等特性实现了Web信息的收集存储组织分析和检索功能该系统在很多应用领域包括基于Web的行业分析在线商业竞争分析和自动构建专题数ii申请上海交通大学博士学位论文字图书馆等都富有应用前景能够为用户提供快速有效的Web信息检

8、索手段关键字Web信息检索主题爬虫Web页面过滤超文本分类分类器集成页面评价超链接分析iii申请上海交通大学博士学位论文TOPIC-DRIVENWEBRESOURCEDISCOVERY:MODELS,ALGORITHMSANDAPPLICATIONSABSTRACTWiththeexplosivegrowthofonlineinformationresources,theWebhasbecomethemostenormousinformationrepositorytodate.Confront

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。