资源描述:
《Web搜索中的数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web搜索中的数据挖掘技术研究Web搜索中的数据挖掘技术研究耿桦李媛(南京大学计算机软件新技术国家重点实验室计算机科学2005Voi.32N9.4朱炜潘金贵南京大学多媒体技术研究所南京210093)摘要www已经成为世界上最大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研完热点.web挖掘也已经成为数据挖掘中相对成熟的一个分支.本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述.文章首先对目前流行的Web内容挖掘方面的常用技术进行了研完分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型.接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用
2、户使用挖掘相结合,应用于开发智能型搜索引擎的趋势.关键词web挖掘,超链,超文本,PageRank,HITS,搜索引擎AResearchofDataMiningTechnologiesonWebSearchGENGHuaLIYuanZHUWeiPANJin-Gui(StateKeyLaboratoryforNovelSoftwareTechnologyofNanjingUniversity,MultimediaTechnologyInstituteofNanjingUniversity,Nanjing210093)AbstractWWWiSnOWthelargestdistributedi
3、nformationsystemintheworld,andhowtOfindusefulinformationisalwaysahottopicforresearchers.Webmininghasbecomeanimportantbranchofdatamining.ThispapermainlydiscussesminingtechnologiesusedinWebsearching.ThepaperbeginswithtalkingaboutpopulartechnologiesinWebcontentmining,andthenfocusesonalgorithmsandmode
4、lsonWebstructuremining.ThenWebusageminingisbrieflydiscussed.IntheendtheauthoradvancesthatthetechnologiesinWebcontentmining,WebstructureminingandWebusageminingwillbecombinedtOdevelopintelligentsearchengines.KeywordsWebmining,Hyperlink,Hypertext,PageRank,HITS,Searchengine1引言随着互联网的日益盛行,Web搜索成了研究和应用的热
5、点.Web搜索工具有两类:分类目录和搜索引擎.采用分类目录的搜索系统,比如Yahoo,利用树结构组织网页文档.文档预先通过手工分类,每个文档都对应树的节点.这种分类目录使用方便,效果也很好.但采用人工操作,更新慢,且覆盖面小.传统的搜索引擎比如Lycos和AltaVista也取得了一定的成功,它们采用信息检索领域的文本分析技术,利用用户提交的关键字去计算数据库中网页的相关度,然后返回相关网页.但它们仍会返回大量网页,而用户想得到的仅仅是少数相关性最好,最权威的网页,他们没有耐心也不可能去遍历搜索引擎返回的成百上千个网页.基于内容的分析方法还有一个明显的缺陷:很多查询主题上的权威网页本身并不
6、包含查询关键字[6].比如对于查询searchengine,权威站点Yahoo和In.foseek的主页上找不到这两个关键词,故Yahoo和Infoseek就不会出现在搜索结果中.因此有关学者又提出了超链分析技术以优化搜索结果,其中最具代表性的就是PageRank[1和HITS[算法.随着网络信息资源的急剧增长,人们对搜索引擎的要求也越来越高.进行有关用户行为的挖掘有利于发现用户的兴趣[1,使得搜索结果更具针对性.利用数据挖掘中的关联规则挖掘还能发现相关网页.这些技术的综合使用,使得搜索引擎往智能化方向发展.本文拟就Web搜索领域运用的Web挖掘技术进行研究分析,并做出总结.文章的第2节分
7、析超文本环境中应用广泛的内容分析技术;第3节对超文本结构挖掘的主流技术HITS和PageRank算法进行比较分析,并研究一些改进模型;第4节简述用户行为的挖掘和关联规则挖掘技术在这方面的应用;最后总结上述技术在构建新型智能搜索引擎方面的应用.2Web内容挖掘2.1文本模型和超文本模型Web内容挖掘源于传统的文本内容挖掘.在传统的信息检索领域,文档用向量空间模型(VSM)来表示[1.对于一篇普通文档,首先利用一些句法规则和