基于相关查询的搜索引擎查询自动分类研究

基于相关查询的搜索引擎查询自动分类研究

ID:39402649

大小:138.50 KB

页数:6页

时间:2019-07-02

基于相关查询的搜索引擎查询自动分类研究_第1页
基于相关查询的搜索引擎查询自动分类研究_第2页
基于相关查询的搜索引擎查询自动分类研究_第3页
基于相关查询的搜索引擎查询自动分类研究_第4页
基于相关查询的搜索引擎查询自动分类研究_第5页
资源描述:

《基于相关查询的搜索引擎查询自动分类研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于相关查询的搜索引擎查询自动分类研究周二翠(安徽大学管理学院合肥230039)寇广增(农业部农村合作经济经营管理总站北京100026)夏晨曦(北京市科学技术情报研究所北京10004)[摘要]如何准确理解用户提交的查询成为搜索引擎面临的一个难题,对查询进行自动分类是尝试解决问题的一种方法。我们提出基于相关查询对查询进行自动分类的方法。首先介绍此方法的设计思路和流程,同时对关键处理步骤进行说明,然后选择“百度风云榜”的数据作为测试集进行测试验证,查准率可达到71.74%,最后分析和总结方法不足之处以及下一步研究计划。[关键词]查询;相关查询;自动分类;搜索引擎;

2、[分类号]TP391AutomaticClassificationofWebQueriesUsingRelatedQueriesZhouEr’cui(ManagementSchool,AnhuiUniversity,Hefei230039,China)KouGuangzeng(CentralStationofAdministrationonRuralCooperativeEconomy,MinistryofAgriculture,Beijing100026,China)XiaChenxi(BeijingScienceandTechnologyInformati

3、onInstitute,Beijing100048,China)[Abstract]Accurateunderstandingofuserquerieshasbecomingthebottleneckinwebsearchsystems.Automaticclassificationofwebqueriesisamethodforthisproblem.Wetrytouserelatedqueriestoclassifywebqueries.Wefirstgivethedesignideaandprocessesofthismethod,andthenintr

4、oducethekeysteps.Intestsection,weselect“BaiduFengYunBang”astestdatasetsandtheprecisioncanreach71.74%.Finallydiscusssomeshortcomingsandthefurtherstudyforthiswork.[Keywords]webqueries;relatedqueries;automaticclassification;searchengine;1引言搜索引擎已经成为人们获取信息的基础应用,中国网民的使用率高达68.0%[1]。然而如何准确理

5、解用户提交的查询(Query)成为搜索引擎面临的一个难题[2],尤其是中文搜索引擎。根据数据分析,中文用户提交的中文查询平均长度为1.85个词[3],少于英文搜索引擎的英文平均查询长度(2.35)[4],这表明中文搜索引擎需要对查询进行更细致的分析。对查询进行自动分类是尝试解决此问题的一种方法,它有助于提高搜索引擎的准确率和用户体验,而且可以促进定向广告投放、竞价排名等商业应用的发展。国内外对于查询自动分类有很多尝试,主要从两个方面展开:分类体系和分类方法。Border认为查询任务决定了查询需求,并最终反映到查询上,那么查询任务可以分为三类:导航类、信息类和事

6、务类[5]。当用户的查询目标明确,比如通过查询“搜狐”希望检索出“搜狐网”的网站地址,此类行为称为导航类。当用户没有明确的目标,只是希望了解相关信息,比如检索“姚明受伤”,则称为信息类。而事务类是用户希望查找解决某个问题的相关信息,比如软件下载、计算机杀毒。Rose等将此分类体系进一步细化,将信息类和事务类划分成多个子类别[6]。Liu等在分析大规模搜索引擎日志时,则将信息类和事务类搜索合并,从而达到更高的准确率[7]。同时,根据内容也可以对查询进行自动分类,比如KDDCUP2005预定义了67个类别,Shen等基于同义词和统计关系构建分类器,将查询映射到这些

7、类别中[8]。在类别预先定义的情况下,可以利用规则过滤、机器学习等方法,根据链接关系、查询与链接的映射关系等进行分类映射。在类别不明确的情况下,可以通过对检索结果聚类达到分类目的。Beeferman等将查询和URL看作图的节点,为查询和URL之间建立双向图,如果某个查询对应点击了某个URL,则为这两个节点增加一条无向边,根据节点的相似性,采用递归算法依次对查询和URL节点分别合并[9]。还有通过搜索引擎日志数据挖掘对查询进行自动分类,比如Fonseca等采用关联规则算法[10]。相关查询是搜索引擎为了提高服务质量和用户体验,把枯燥繁琐的查询过程变得更为快捷,提

8、出“查询建议(Query/TermSu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。