Web搜索中的数据挖掘技术研究

Web搜索中的数据挖掘技术研究

ID:41371065

大小:79.50 KB

页数:18页

时间:2019-08-23

Web搜索中的数据挖掘技术研究_第1页
Web搜索中的数据挖掘技术研究_第2页
Web搜索中的数据挖掘技术研究_第3页
Web搜索中的数据挖掘技术研究_第4页
Web搜索中的数据挖掘技术研究_第5页
资源描述:

《Web搜索中的数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web搜索中的数据挖掘技术研究Web搜索中的数据挖掘技术研究耿桦李媛(南京大学计算机软件新技术国家重点实验室计算机科学2005Voi.32N9.4朱炜潘金贵南京大学多媒体技术研究所南京210093)摘要www已经成为世界上最大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研完热点.web挖掘也已经成为数据挖掘中相对成熟的一个分支.本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述.文章首先对目前流行的Web内容挖掘方面的常用技术进行了研完分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型.接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用

2、户使用挖掘相结合,应用于开发智能型搜索引擎的趋势.关键词web挖掘,超链,超文本,PageRank,HITS,搜索引擎AResearchofDataMiningTechnologiesonWebSearchGENGHuaLIYuanZHUWeiPANJin-Gui(StateKeyLaboratoryforNovelSoftwareTechnologyofNanjingUniversity,MultimediaTechnologyInstituteofNanjingUniversity,Nanjing210093)AbstractWWWiSnOWthelargestdistributedi

3、nformationsystemintheworld,andhowtOfindusefulinformationisalwaysahottopicforresearchers.Webmininghasbecomeanimportantbranchofdatamining.ThispapermainlydiscussesminingtechnologiesusedinWebsearching.ThepaperbeginswithtalkingaboutpopulartechnologiesinWebcontentmining,andthenfocusesonalgorithmsandmode

4、lsonWebstructuremining.ThenWebusageminingisbrieflydiscussed.IntheendtheauthoradvancesthatthetechnologiesinWebcontentmining,WebstructureminingandWebusageminingwillbecombinedtOdevelopintelligentsearchengines.KeywordsWebmining,Hyperlink,Hypertext,PageRank,HITS,Searchengine1引言随着互联网的日益盛行,Web搜索成了研究和应用的热

5、点.Web搜索工具有两类:分类目录和搜索引擎.采用分类目录的搜索系统,比如Yahoo,利用树结构组织网页文档.文档预先通过手工分类,每个文档都对应树的节点.这种分类目录使用方便,效果也很好.但采用人工操作,更新慢,且覆盖面小.传统的搜索引擎比如Lycos和AltaVista也取得了一定的成功,它们采用信息检索领域的文本分析技术,利用用户提交的关键字去计算数据库中网页的相关度,然后返回相关网页.但它们仍会返回大量网页,而用户想得到的仅仅是少数相关性最好,最权威的网页,他们没有耐心也不可能去遍历搜索引擎返回的成百上千个网页.基于内容的分析方法还有一个明显的缺陷:很多查询主题上的权威网页本身并不

6、包含查询关键字[6].比如对于查询searchengine,权威站点Yahoo和In.foseek的主页上找不到这两个关键词,故Yahoo和Infoseek就不会出现在搜索结果中.因此有关学者又提出了超链分析技术以优化搜索结果,其中最具代表性的就是PageRank[1和HITS[算法.随着网络信息资源的急剧增长,人们对搜索引擎的要求也越来越高.进行有关用户行为的挖掘有利于发现用户的兴趣[1,使得搜索结果更具针对性.利用数据挖掘中的关联规则挖掘还能发现相关网页.这些技术的综合使用,使得搜索引擎往智能化方向发展.本文拟就Web搜索领域运用的Web挖掘技术进行研究分析,并做出总结.文章的第2节分

7、析超文本环境中应用广泛的内容分析技术;第3节对超文本结构挖掘的主流技术HITS和PageRank算法进行比较分析,并研究一些改进模型;第4节简述用户行为的挖掘和关联规则挖掘技术在这方面的应用;最后总结上述技术在构建新型智能搜索引擎方面的应用.2Web内容挖掘2.1文本模型和超文本模型Web内容挖掘源于传统的文本内容挖掘.在传统的信息检索领域,文档用向量空间模型(VSM)来表示[1.对于一篇普通文档,首先利用一些句法规则和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。