一种基于网站特征识别的搜索引擎排序算法

一种基于网站特征识别的搜索引擎排序算法

ID:33878166

大小:412.32 KB

页数:8页

时间:2019-02-28

一种基于网站特征识别的搜索引擎排序算法_第1页
一种基于网站特征识别的搜索引擎排序算法_第2页
一种基于网站特征识别的搜索引擎排序算法_第3页
一种基于网站特征识别的搜索引擎排序算法_第4页
一种基于网站特征识别的搜索引擎排序算法_第5页
资源描述:

《一种基于网站特征识别的搜索引擎排序算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、一种基于网站特征识别的搜索引擎排序算法郭鸿志陈清才康永燕王晓龙哈尔滨工业大学深圳研究生院广东深刀一口山网】摘要结果排序是搜索引擎系统中非常重要的一环,目前的抖眸方法大多只考虑网页内容和网页间的链接结,而忽略了网页作为网站组成部分这一重要属性本文在现有排序算法的基础上引入网站特征,提出了构一种基于网站特征识别的搜索引擎排序算法实验表明,在保持查全率不变的情况下,使用新的排序算法的系统在平均排序倒数加仄天和查准率两项指标上均有明显提高,算法是有效可行的。关拍询知移明及务,搜索引攀网站特征提取,结果排序水知七,,,,,的石加把山比氏

2、一劝幼田陀加,理卯即川匕幻刀凡诵即比川训眠朽凡忧田免咖茂讲咖咖小此司,龙仄尺产加胡跳闭爬成旧引言,场触,互。近年来随着计算书左用的普及和技术的发展联网信息量呈现出爆炸性地增长面对如此海量的信息,用户如何从中找到自己感兴趣的内容变得越来越困难,在这种情况下,信息检索、搜索引擎、问答系统等技术均取得了快速的发展。搜索引擎领域更是涌现出、别、、田℃。物】等一批优秀的商业系统为用户提供信息服务然而考虑到互联网信息的规模,仅仅通过为用户返回一定数量的结果提供信息服务是远远不够的,用户更加“,,一,关心的是自己需要的信息和对自己有用的信息

3、知识因此在信息服务的基础上我们提出了本文支持项目专题目标导向类项目,基于的智能搜索引擎,项目编号国家自然科学基金面上项目,多元网络架构中异构信息的采集与检索技术研究,项目编号国家自然科学,问答式信息检索的理论与方法研究,重点项目项目编号作者简介郭鸿志,男,,,主要研究方向人,,。年生博士研究生工智能信息检索搜索引擎陈清才,男,年生,博士,副教授,主要研究方向语音处理、自动文摘、信息检索、数据挖掘。康永燕,女,年生,硕士研究生,主要研究方向信息检索王晓龙男,年生,,,,主要研究方向、、博士教授博士生导师网络信息处理人工智能自然语

4、言处理、生物信息学、声图文智能计算、商业智能等这里的知识,主要指的是用户需要的信息和对用户有用的信息。©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net,“”、。,知棚及务的概念卞人肉搜索在线问答系统正是这样的例子对于搜索引擎而言知棚及务提出了更高的要求,这体现在智能检索方式、返回结果排序准确性、个性化的查询及结果呈现方式、结果在线聚类、分类检索等各个方面。,一。结果排序作为搜索引擎中重要的一

5、环直受到广泛的关注网页排序算法方面的研究文章很多,其中一部分是基于传统信息检索技术的,例如向量空间模型,从众。、扩展布尔模型川、概率模型、等还有一部分基于网页链接结构分析、权重分,,析的比较有影响力的有年仪回提出的吃毗【以及年的幻悦呢。,,等人提出的印昭算法【习然而无论是基于传统信息检索技术的网页排序算法还是后来的堪孙吐、,。,川铭都忽略了网页作为网站一部分的属性传统意义上网络由两部分组成网页以及链接,分别对应了网络的内容和结构部分上述研究正是针对网络的内容和结构,设计了。,,不同的排序算法最近几年来越来越多的研究者意识到网站

6、同样是网络的组成部分并且在其。,,中扮演重要的角色与单个网页相比网站有时可以提供更多的语义信息【首先同一站点、,,的网页通常在内容页面布局以及链接等方面具有很高的相似性其次从拓扑学的观点相比,不同网站的网页链接集合同一站点的网页链接结构通常具有更高的密集度根据【刀中数据显,,,示左右本文在传统排序算法的基础上引入网站特征提出了一种基于网站特征识别。,,的搜索引擎排序算法在平台的实验结果证明引入网站特征的结果封脾结果相对原系统在查全率保持不变的前提,。下查准率得到了明显提高本文按照如下方式组织第二部分集中讨论平台的系统框架第三部

7、分简要介绍特征提取方面的研究概况,并对文中的一些概念进行了形式化定义,之后重点讨论了网站特征提取算法第四部分,,提把网站特征引入到搜索引擎排序中出了一种基于网站特征识别的搜索引擎排序算法第五部分对基于网站特征识别的搜索引擎排序算法进行了测试,与原有系统进行了纵向对比,并针对评价结果进行分析第六部分进行总结,对未来工作进行了展望。系统概述为了更好地研究搜索引擎技术,为用户提供知识服务,哈尔滨工业大学深圳研究生院搭建、、了自己的搜索引擎平台份产刃泌沉泣咖搜索引擎的爬虫网页去重净化、、,。肠索引检索排序各个部分均独立实现拥有独立知识

8、产权本文正是在叮搜索引擎平台的,,。基础上把网站特征引入到搜索排序算法提出了一种新的结果排序算法平台的系统框架如图所示,处理流程如下网络爬虫巧四喊从互联网上抓取原始网页,存储到并行文件系统、,,、中吸网页净化去重模块对原始网页库中的网页进行净化去重处理③对净化网页库,,建立倒

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。