【精品】搜索引擎发展新趋势-哈工大刘挺老师

【精品】搜索引擎发展新趋势-哈工大刘挺老师

ID:46311884

大小:85.50 KB

页数:12页

时间:2019-11-22

【精品】搜索引擎发展新趋势-哈工大刘挺老师_第1页
【精品】搜索引擎发展新趋势-哈工大刘挺老师_第2页
【精品】搜索引擎发展新趋势-哈工大刘挺老师_第3页
【精品】搜索引擎发展新趋势-哈工大刘挺老师_第4页
【精品】搜索引擎发展新趋势-哈工大刘挺老师_第5页
资源描述:

《【精品】搜索引擎发展新趋势-哈工大刘挺老师》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、解读“框计算"2009年8刀18H,我作为嘉宾出席了百度技术创新大会,现场聆听了李彦宏关于“框计算”的报告,颇有感触,略述如下。近年來在TT业界,总是听到跨国公司提出的新概念,我们的政府、企业界、学术界虚心学习,比如“电子商务”、“可信计算”、“网格计算”、“云计算”,直到“智慧地球”。今天,终于听到了来自本土企业的声咅“框计算(BoxComputing)"。无论框计算是不是新瓶装旧酒,无论它有没有足够的生命力,在50多米宽令人眩目的超人型展示屏前,在中国大饭店2000多人的彖华会场上,一位本土

2、企业的总裁向世人提出一个高度凝炼的新概念,用口己的“框计算”对抗跨国公司的“云计算”,在理念上舆论上争夺技术战略主导权,并且在极短的时间内就通过媒体对IT业界产牛强烈的爲撼,这个事件本身就有足够的里程碑意义。其实,“框计算”和“云计算”是各执一端,并无对错可言。“框计算”强调的是前台,“云计算”强调的是后台,但由于“云计算”在后台,终端川户的体验并不明显,而“框计算”是人机交互的界而,搜索“框”用户每犬都在用,因此“框计算”更容易理解,更容易被广人的普通用八所接受,在宣传上百度的这次策划是成功的

3、。百度借助框计算,把搜索的概念拓展了,也把企业自身的定位拓展了。以往在搜索框里输入查询词是为了寻找信息,现在“框”中不但可以输入“疑问句”,还可以输入“祈使句”、“陈述句”和“感叹句”,祈使句可以启动某个应用程序,陈述句和感叹句可以用来写微博客,报道事实,发表评论。尤其是对“应用程序”的启动,计“框”带有了操作系统的色彩,以前在微软DOS操作系统的命令行下,我们输入“DEL,将來我们可以在百度的“框”中输入“请删除全部文本文件”。李彦宏在报告中列举了不少很长的真实查询,比如“请给我找出好听的咅乐

4、”,“我是山西考牛,高考都过去好多天了,怎么还没有看到高考成绩”Z类。据百度发布的数据,口前百度查询框屮超过8个汉字的査询已经有一半了。原来我一直认为开放域的问答系统不会有前途,因为用八知道搜索引擎背厉是只会模式匹配的傻乎乎的机器,而不是聪明的人,所以用户懒得输入那么长的杏询,因为往往白敲了很多字。可能偶尔有用户输入很长的句子,但山于检索失效,他口然会被迫缩短查询。但现在无论中文还是英文,捜索企业都反映说査询在不断加长,很多用户“直抒胸臆”,非常口然而随意地表达检索需求,这是什么原因的?我认为有

5、以下两方面的原因:一是互联网上的数据越來越多,一两个词的查询找出來的资料太多,所以需要更多的词组合在一起,从而更准确地聚焦自己感兴趣的内容;二是网民数量的人幅度增长,导致人多数网民受教冇程度不高,他们根本没有想到需要白己调配关键词,他们以为搜索引擎就应该接受门然的提问。而搜索引擎尽管找不到包含一•个长杏询中全部词汇的网贝,但是仍然能够找到一些包含部分词汇的网贝,由于互联网中的信息极为丰富,所以这些盲目输入长查询的用户也不是每次都失望而归,并且搜索引擎还尝试着去迁就去理解丿IJ户的句子式提问,这样

6、就使得川户输入长查询的行为得以巩固。最小力气原理仍然在发挥作用,只不过反复调配关键词比多敲儿个字构成语义完整的查询更费吋费力费心,所以占有绝人比重的低端川户输入的查询越來越长。再换个角度说,提高检索效果,有两个路线:一是培训用户学会配查询词,甚至学会所谓高级查询(即加上“与或非”逻辑运算),让用户变聪明,让用户负担更重。二是用户可以用自然语言句子提问,机器必须更聪明,能够理解用户的意图。这两条路线Z间的斗争到今天看來显然是后者胜出,用八有权力变得更“傻”,而机器必须越來越“聪明”,否则提供“笨”

7、机器的企业将被淘汰。“框计算”的论调给口然语言处理的研究者们带来了希望,“框计算”反复强调语义分析、口然语言处理作为“需求理解”的基础技术的重要性。我国口然语言处理界去年还在讨论NLP对1R有没有用,而企业通过他们的真实数据给出了回答。NLP不是没有川,而是时候未到,现在语言处理的机会终于来了。百度提出框计算,微软收购PowcrSet,企业如此看重语义分析技术,我们又何苦妄自菲薄呢。不过,企业在使用NLP这样的不成熟不准确的技术时,其做法与学术界有所不同。学术界做问答系统,希望能够直接把作为答案

8、的词或句子找出来,返还给川户,而白度只强调需求分类和任务分发,返冋某个特定资源或调用某个程序就够了,并不强求找到最精细的答案。我带着一个博士生试图用口然语言生成技术对于那些模糊不淸的查询进行反问,而冇度的做法是通过一个对话框解决问题,比如输入“火车时刻表”,系统就弹出一个对话框要求你输入“起点”和“终点”,我输入了"北京”和“哈尔滨”,于是返回了京哈Z间的火车时刻表,而不是一堆链接。这样的交互方式显然是非常实用的。此外,李彦宏也捉到对查询日志的分析也口J以帮助理解用户的意图,我造一个例子:上一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。