欢迎来到天天文库
浏览记录
ID:33783054
大小:1.63 MB
页数:44页
时间:2019-03-01
《基于web数据挖掘的面向领域高性能信息检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、贵州大学硕士学位论文基于Web数据挖掘的面向领域高性能信息检索研究姓名:杨滋荣申请学位级别:硕士专业:计算机软件与理论指导教师:许道云20080401基于Web数据挖掘的面向领域高性能信息检索研究摘要随着Internet/Web技术的快速普及和迅猛发展,WwW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于,因特网信息使川技术的发展往往跟不上因特网信息的增长,搜索引擎可以为人们查找与关键词相关的文档,但返回的结果往往是文档数量太多而命中率不高。
2、传统搜索引擎技术满足了人们一定的需要,但由丁其通川的性质,仍然不能满足不同背景、不同目的和不同时期的川户个性化的需求。基于Web挖掘的高性能信息检索就是针对这个问题而提出来的。研究的目标在于充分利川川户的个性化信息,通过刚户兴趣制导或丰富查询模式等灵活手段米采集Web信息,充分利川网络信息,从而提高奇渤的准确度,提高了检索质量,并满足,}J户的特定查询需求。本文首先对Web挖掘技术利搜索引擎技术进行了分析,同时对其-_I:作原理和数据挖掘中的聚类分析技术进行了较为深入的分折。由于高性能的个性化信息检索的前提
3、是挖掘刚户的访问特点并对用户进行分类,用户的访问行为是存放在Web日志中,Web日志数据需要进行预处理,才能川于州户兴趣的挖掘。冈此论文深入讨论页面过滤和用户访问路径等问题,使Web日志预处理l:作更加完善。本文通过深入研究检索系统如何更快速抓取更多高质越网页,如何进行网页文档索引,如何为州户提供高性能的检索服务后,重点闻绕检索效率和检索效果这两个最基本的{旨标,,从索引创建和检索过榭详细分析高效检索系统的相关基本实现技术。在此基础上提出根据Web页面网页所在的位置,挖掘出网页在网站中的层次类别信息,通过这
4、些信息进行动态聚类,为.Hj户提供一种动态的目录聚类夯询服务:并针对单个川户以往搜索记录进行分析,推测川户的搜索偏好,并对该川户进行夯询建模,然后根据用户查询模型产生该类川户的访问模式。最后,本文对作者所做的:I:作进行了j
5、:1纳,总结,并讨论了将米进一步的研究方向。关键词:Web数据挖掘,信息检索,个性化服务,Web日志,预处理,聚类,访问行为StudyofFields—orientedHighQualityInformationRetrievalBasedonWebDataMiningAbstract
6、Intoday'sinformationworld,thetechnologyofInternet/webiSinitsfulIbloom,andtheinformationfromWWWcontinuetogrow.Findingthecontentwhichtheusersarerealinterestinhasbecomethefocalpointoforganizationsandspecialistsintherelatedfields.Thesearchenginecouldfindoutthe
7、documentswhichhavesomerelationtothekeywords.However,therearetoomanyresultsandtheprecisionratioisnottohigh.Thetraditionalsearchenginetechnologyhasadaptedtopeople’Scertainneeds,butbecauseit’Scommonalityitcannotsatisfytherequirementsofusers’personalitydemands
8、withdifferentbackground,differentpurposesanddifferenttime.Andthepurposeofresearchistofullyutilizetheuser’spersonalinformationthroughtheflexiblemeans,suchasinterestshomingmechanismofuserordiverseofretrievalschemestocollecttheinformationfromWeb,and而akefullus
9、eofnetworkinformation,thenimprovingtheaccuracyofinqu.itiesandimprovethequalityoftheretrieval,andtomeetthedemandforspecificusers.FirstlythispaperanalysisthesearchenginetechnologyandWebdataminingtechnology,andt
此文档下载收益归作者所有