基于HMM的主题垂直搜索引擎技术研究.pdf

基于HMM的主题垂直搜索引擎技术研究.pdf

ID:55974121

大小:2.27 MB

页数:3页

时间:2020-03-24

基于HMM的主题垂直搜索引擎技术研究.pdf_第1页
基于HMM的主题垂直搜索引擎技术研究.pdf_第2页
基于HMM的主题垂直搜索引擎技术研究.pdf_第3页
资源描述:

《基于HMM的主题垂直搜索引擎技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机应用《自动化技术与应用》2014年第33卷第10期ComPuterADDlications基于HHH的主题垂直搜索引擎技术研究★张弛(陕西国防工业职业技术学院,陕西西安7l0300)摘要:计算机网络技术的飞速发展,对于搜索引擎技术也提出了更高的要求。文章主要以垂直搜索引擎的主题网页抓取策略为研究内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应用方法不仅分析了网页内容,还考虑网页上下文链接距离结构,在一定程度上提高了主题页面抓取的精度。关键字:HMM;垂直搜索引擎;主题页面;中图分类号:TP391.3文献标识码:A文章编号

2、:l0O37241(2Ol4)100037—03TheTechnologiesofVerticalSearchEnginesBasedonHMMZHANGChi(Shaar]asdtut~ofTechnology,xi’all710300China)Abstract:Withthedevelopmentofcomputernetwo~’ktechnology,thesearchenginetechnologyputsforwardhigherrequirements.ThispaperresearchesonhowtoimprovetheaccuracyandeficiencyofWebp

3、agecrawlingstrategiesofverticalsearchengineintroduceshiddenMarkovmodel,anddiscussesthemodelspecificapplicationstrategyandprocess.ThemethodofapplicationofthemodelnotonlyanalyzesWebpagecontent,butalsoconsidersthecontextWebpagelinkdistance,toacertainextent,improvestheaccuracyoftopicwebpages.Keywords:

4、HMM;verticalsearchengines;themeofthepage·一,f一-Jjij如图1所示,网页抓取技术是搜索引擎的重要组成部1.1网络爬旦j系~士c-lq士*aJ分,搜索引擎能够从网页采集资源信息主要靠爬虫的工作。网络爬行是指搜索引擎从网络上查找并搜集网页1.2基于Hr.viI~、‘。h。u~,J,enM刮<0vMode!阮马,的过程,其目标是尽可能快速、有效,多量的搜集与用习炙模型j的主题页面抓壤策臣各提出誊景户需求相关的有用网页及网页间的链接结构。网络爬目前通用的抓取策略各有其不足,基于超链图评价虫,是在HTTP协议访问标准下,跟随网络链接遍历网的方法存在“主题漂

5、移”的问题li,通常认为,在爬行主络空间信息的程序⋯。一个典型网络爬虫体系结构主要题网页页面抓取过程中,与主题内容相关的网页就包含由五个模块组成,待爬行URLs队列(URLsFrontier),着指向相关主题网页的链接。然而这一认知忽略的事DNS解析器,爬行模块,解析模块,是否爬行判断模块【引。实是,互联网中同样存在这样一种情况:爬虫接触的一级页面可能看似不包含给定主题,但其二级页面中却有可能包含与给定主题相关度极高的内容或链接,这样就造成了一些主题爬虫丢失了抓取更多主题相关网页的机会。而启发式主题网页抓取策略同样存在“主题近视”的缺点【引,即在距离页面集较近时搜索性能良好,一图1网络爬虫

6、体系结构旦页面信息缺失全局性布局则无法完全完整表现web整个信息出现“近视”问题。基于此,提出了一种基于基金项目:网编课程项目教学应用平台开发(编号GfY11—05)HMM的主题网页抓取技术。收稿El期:2014—07—01《自动化技术与应用2014年第33卷第10期计算机应用ComputerApplications2HMM在主题网页抓取中的应用关则将该网页页面保存至主题网页库中。具体抓取流2.1基于HMM的主题网页抓取策略程如图3所示。HMM模型,是马尔科夫链的一种,因为其状态不能HMM模型系统主要由用户浏览模式学习模块和主直接观察,所以叫做“隐”马尔科夫模型。它事实上是题爬行模块两大模

7、块组成,具体描述如下:由具有一定状态数的隐马尔科夫链和显示随机函数集构成的【41,如图2所示。近年来HMM的应用范围非常广泛,而这里主要应用HMM的学习特征,通过训练,在了解用户浏览习惯的基础上,返回令其满意的主题相关页面信息。M~kov链状态序列随机过程砚察值亭列(A)f81图4用户浏览模式图2隐马尔科夫模型的组成示意图Q3依图2所示,构建基于HMM的主题网页抓取模型:Q2入=(S,0,A,B,丌)隐含状态S:S={Q

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。