试析基于web日志挖掘的智能信息检索研究

试析基于web日志挖掘的智能信息检索研究

ID:35130704

大小:1.50 MB

页数:119页

时间:2019-03-19

试析基于web日志挖掘的智能信息检索研究_第1页
试析基于web日志挖掘的智能信息检索研究_第2页
试析基于web日志挖掘的智能信息检索研究_第3页
试析基于web日志挖掘的智能信息检索研究_第4页
试析基于web日志挖掘的智能信息检索研究_第5页
资源描述:

《试析基于web日志挖掘的智能信息检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博士学位论文基于Web日志挖掘的智能信息检索研究RESEARCHOFINTELLIGENTINFORMATIONRETRIEVALBASEDONWEBLOGSMINING朱鲲鹏2009年9月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学博士学位论文基于Web日志挖掘的智能信息检索研究博士研究生:朱鲲鹏导师:王晓龙教授申请学位:工学博士学科:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2009年9月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.

2、2U.D.C:681.37DissertationfortheDoctoralDegreeinEngineeringRESEARCHOFINTELLIGENTINFORMATIONRETRIEVALBASEDONWEBLOGSMININGCandidate:ZhukunpengSupervisor:Prof.WangXiaolongAcademicDegreeAppliedfor:DoctorofEngineeringSpeciality:ComputerApplicationTechnologyAffiliation:S

3、choolofComputerScienceandTechnologyDateofDefence:September,2009Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。基于Web日志挖掘的智能信息检索旨在通过对Web

4、信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了

5、深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分:首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。其次

6、,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。-I-哈尔滨工业大学工学博士学位论文再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的

7、检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。最后,对面向检索兴趣的用户

8、聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。