搜索引擎的难点包括如下几点.doc

搜索引擎的难点包括如下几点.doc

ID:55189911

大小:29.50 KB

页数:5页

时间:2020-05-02

搜索引擎的难点包括如下几点.doc_第1页
搜索引擎的难点包括如下几点.doc_第2页
搜索引擎的难点包括如下几点.doc_第3页
搜索引擎的难点包括如下几点.doc_第4页
搜索引擎的难点包括如下几点.doc_第5页
资源描述:

《搜索引擎的难点包括如下几点.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、搜索引擎的难点包括如下几点:   1)是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.   2)采集的数据还要有一个排重的过程.只需要采集一个网站更新的数据   3)对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站   4)自动通过识别码的验证   5)一些网站对于密集访问的请求会拒绝,技术上也要进行处理   6)对于一些特殊网页的采集问题,比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力   7)大数据量的存储也是个难点,

2、据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失.可以采用数据块的模式,然后通过散列表的模式连接.   以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.21世纪人类社会已进入了信息化时代,作为信息化时代标志之一的因特网在全世界以史无前例的速度和规模不断发展壮大,而因特网上的信息也象原子裂变一样迅速膨胀,面对这些浩瀚无边的信息人们已经显得无所适从了。的确,人们要想在这信息的海洋中准确找到自己所需要的信息是一件很不容易的事情。为了能够克服这样的困难,人们制作出来了搜索引擎,它通过内部的某些

3、软件程序把INTERNET上的信息进行分类整理,或者是通过人工组织的方式把某些数据归类,形成一个可供查询的大型数据库。可以说:“搜索是一种组织和查询信息的方式!”一般来说,在每个搜索引擎中均提供分类目录及关键词检索这两种信息查询的方法。而这些搜索引擎的基本用法是搜索引擎站点中都提供一个可以输入关键词的文本输入框和一个“搜索”的按钮,用户可以在输入框中键入关键词,然后按“搜索”按钮,搜索引擎就会自动地在其内部的数据库中进行检索,最后把与关键词相符合的或者是与关键词相近的网站显示在结果页中,接着用户只需通过搜索引擎提供的链接地址,就可以访问到相关信息。这种查询方法的

4、关键之处在于关键词的选择和表达上。如果关键词选择不当,搜索的结果会返回大量无用的垃圾信息;或者有用的信息被淹没在大量的冗余的页面之中。所以在选择关键词时,应该熟练掌握关键词语法表达方式,这样就可以少走弯路,能得到更精确的搜索结果,从而迅速找到自己所需要的信息。虽然各个搜索引擎的搜索语法不完全相同,但下面一些搜索语法还是比较通用和常见的,笔者分别举例来说明各个语法符号的使用方法。(1)直接键入关键字,搜索引擎就把包括关键字的网站和与关键字意义相近的网站地址一起返回给用户。例如:键入“网上教学”,搜索引擎就会把“网上学习”、“远程教学”以及“网上教学”等内容的网址一

5、起反馈给用户,因此这种查询方法往往会返回大量不需要的信息。图1直接搜索(2)利用双引号,来查询完全符合关键字串的网站。例如:键入“电脑硬件”,会找出包含网络资源的网站、但是会忽略过包含“电脑硬件行情”的网站;这种查询方法要求用一对半角的双引号来把关键字包括起来。(3)加t:在关键字前,搜寻引擎仅会查询网站名称。例如:键入t:电脑,会找出包含电脑的网站名称。(4)加u:在关键字前,搜寻引擎仅会查询网址(URL)。例如:键入u:yancheng,会找出包含yancheng的网址。(5)利用+来限定关键字串一定要出现在结果中。例如:键入电脑+网络,会找出包含电脑和网络

6、的网站。(6)利用-来限定关键字串一定不要出现在结果中。例如:键入电脑-网络,会找出包含电脑但除了网络的网站;键入发如雪-html,会在发如雪的相关网页中过滤掉后缀名为html网页。(7)利用*代替所有的字母,用来检索那些变形的关键词或者是不能确定的关键词。例如:键入“电*”后的查询结果可以包含电脑、电影、电视等内容。(8)利用()可以把多个关键词作为一组,并进行优先查询。例如:键入“(电脑+网络)-(硬件+价格)”来搜索包含“电脑”与“网络”的信息,但不包含“硬件”与“价格”的网站。(8)利用AND(&)表示前后两个关键词是"与"的逻辑关系。例如:键入关键词:

7、ENGLISHANDCHINESE,会找出将包含ENGLISH和CHINESE的网站。图2高级搜索(9)利用OR(

8、)表示前后两个词是"或"的逻辑关系。例如:键入关键词:ENGLISHORCHINESE,会找出将包含ENGLISH或者CHINESE的网站。(10)利用NOT(-)表示要限制关键词在结果中出现。例如:键入关键词:CHINESENOTENGLISH,会找出将包含CHINESE信息,而不包含ENGLISH信息。(11)利用NEAR来检索两个关键词之间的信息。例如:键入关键词“THENEARBOOK”,会找出关键词“THE”和“BOOK”之间的信息,比如

9、可以找到THEINTER

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。