信息管理和搜索的现状刍议

信息管理和搜索的现状刍议

ID:17865395

大小:30.50 KB

页数:8页

时间:2018-09-07

信息管理和搜索的现状刍议 _第1页
信息管理和搜索的现状刍议 _第2页
信息管理和搜索的现状刍议 _第3页
信息管理和搜索的现状刍议 _第4页
信息管理和搜索的现状刍议 _第5页
资源描述:

《信息管理和搜索的现状刍议 》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、信息管理和搜索的现状刍议信息管理和搜索的现状刍议信息管理和搜索的现状刍议信息管理和搜索的现状刍议信息管理和搜索的现状刍议信息管理和搜索的现状刍议  1关键词全文检索技术日显局促,亟待突破  世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup发布的2004Web可用性调查结果显示,所有用户对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到

2、50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。  一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。  2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出  2004年7月,位于美国旧金山的创业公司Bli

3、nkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体

4、把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。  如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以

5、及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。  2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。  Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认

6、为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。  Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过亿美元的现金。  3Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息  目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是

7、Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。http://  采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就

8、会很高。虽然整篇文章里没

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。