【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf

【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf

ID:32022816

大小:2.01 MB

页数:51页

时间:2019-01-30

【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf_第1页
【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf_第2页
【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf_第3页
【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf_第4页
【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf_第5页
资源描述:

《【硕士论文】中外主流搜索引擎中文网页检索能力比较研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、硕士学位论文摘要摘要背景:随着搜索技术的不断进步,中文搜索市场竞争愈来愈激烈,Yahoo、MSN也加入中文搜索竞争的行列,国内著名的门户网站也在不断的选择搜索技术提供商。目前,为国内门户网站提供搜索技术的专业搜索引擎主要有百度、,中国搜索和Google。目的:通过中外主流搜索引擎百度、中国搜索和Google对中文网页检索,比较搜索结果,分析中外主流搜索引擎命中网页的能力、去重能力、网页更新能力和相对查准率,找出国内主流搜索引擎的不足,为搜索引擎的发展提出一些参考意见和建这。一癌危方法:使用检索提问式测试中外搜索引擎中文网页的检索

2、能力,并使用统计学的方法进行检验。结果:中国搜索的命中网页数是处理后的、并非直接进行搜索的,不具有可比性。Google命中网页总数为23487条,平均2610条,百度33425条、3714条。中国搜索的结果中却只有HTML文档,无PDF文档、PPT文档、DOC文档、PS文档等。百度与Google的去重i类聚能力分别为0.757、0.654,但却不能肯定百度对中文网页的去重能力超过了Google,因为去重、类聚能力还包括了类聚能力。因无法得到中国搜索未经处理的命中网页数,故其去重、类聚能力无从得知。Google、百度及中国搜索虽都

3、对命中结果作了相应处理,但网页重复现象依然存在。它们的重复率分别是3.81%、5.64%、10.4%。Google、百度与中国搜索更新周期分别为15天左右、7天、8天,最近一天更新的中文网页分别为62篇、52篇、33篇,分别占1.23%、1.12%、0.53%,但经卡方检验,尚不能认为Google与百度最近一天的网页更新能力有显著差异,却与中国搜索有显著差异。前30条处理后的命中记录中,重复或无用的信息中国搜索共1lO条,百度共101条,Google共91条,出现在前10条记录中Google与百度的几乎相当,中国搜索的最多(33

4、条),11—20条中百度与中国搜索相差无几,Google最少(24条),出现在21-30条记录中的则都是42条。Google、百度和中国搜索的相对查准率分别为0.449、0.433、0,399,但经t检验,尚不能认为百度、中国搜索的相对查准率比Google低。Google、百度和中国搜索在高级搜索和个性设置中都提供了一些硕士学位论文摘要个性化的服务功能,并各具特色。结论:百度在中文网页的搜索量上超过了Google,并且百度和中国搜索对甲文的理解要比国外的Google好,但中国搜索缺乏对PDF文档、PPT文档、DOC文档等的收录;

5、国内搜索引擎的去重能力仍然比国外搜索引擎逊色:百度与中国搜索的更新周期比Google短,最近一天更新网页的能力百度与Google也没有显著的差异,但中国搜索最近一天更新网页的能力明显低于Google;虽然国内搜索引擎百度、中国搜索的相对查准率与Google相当,但都没有超过0.5,搜索结果的相关程度离用户的实际情报需求还有相当的距离;百度和中国搜索前30条记录中重复和无用信息的总数高于Google:国内搜索引擎百度和中国搜索的个性化搜索的水平比Google弱。为了弥补不足,提高竞争力,中文搜索引擎增强个性化搜索服务、加强语义检索

6、的应用、中文搜索应本地化、提供地址栏及桌面的实名搜索。关键词主流搜索引擎,中文网页,检索能力,蛾\~II硕士学位论文前言中外主流搜索引擎中文网页检索能力比较研究研究生:徐雪梅指导老师:兰小筠教授副指导老师:刘雁书副教授第一章前言1.1中文搜索引擎的历史回顾因特网拥有丰富的信息资源,其中以超文本标记语言存贮和传输的wwW(worldWideWeb,即万维网)信息资源,因其方便迅速的浏览、一点即开的超链接和声音、图像、视频等多媒体显示方式,成为网上信息资源的主流。在互联网发展初期,网站相对较少,信息查找比较容易。随着互联网的迅速发展

7、,Internet资源的骤然增加,特别是web信息的迅速膨胀,使得检索新出现的网页变得越来越困难,普通网络用户想找到所需的资料如同大海捞针,这时为满足大众信息检索需求的专业搜索引擎便应运而生。搜索引擎技术1994年在美国出现,1995年开始进入大规模的商业化开发阶段。由于中西方语言文化的差异,中文搜索引擎的出现相对晚些,但在随后几年两岸三地的中文搜索引擎得到了快速发展,涌现了许多著名的搜索引擎。在内地,北大天网1997年10月29。日开始为Internet用户提供WEB信息导航服务,1998年2月搜狐成立,新浪1999年开始搜索

8、服务,2000年百度创立,同年网易开始搜索服务,2001年TOM的搜索服务及2002年8月慧聪搜索的成立等。2003年9月25日,慧聪搜索携手中国互联网新闻中心共同发起并成立了以搜索引擎应用为基础的联盟组织——中国搜索联盟,12月23日原慧聪搜索正式独立运做,成

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。