欢迎来到天天文库
浏览记录
ID:43759629
大小:171.13 KB
页数:22页
时间:2019-10-13
《一个大规模社交搜索引擎的剖析(精品)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一个大规模社交搜索引擎的剖析摘要:在这里我们将介绍一个社交搜索引擎,Aardvarko利用Aardvark,用户可以以语音或者邮件、短信、即吋通讯、web输入的形式提问题。之后,在这个用户的社交圈内,Aardvark将会把这个问题传送给最可能冋答这个问题的人。传统的网页搜索引擎的挑战在丁找到正确的网页,而社交搜索引擎则是找到正确的人去满足用户的信息索取的需求。并且,传统搜索引擎的信任建立在权威Z上,而对社交搜索引擎而言,信任建立在亲密程度之上。接下來,我们将描述对这些不同之处的考虑将会导Aardvark什么样的系统结构、算法和用户接口,以及它们怎样
2、影响用户的行为。关键字SocialSearch1.引言1.1图书馆和村庄传统的最基木的信息检索的模式曾经是图书馆。确实,信息检索领域深深植根于图书馆科学,例如谷歌本身就是出自于斯坦福大学的数字图书馆工程[18]。虽然这种模式在一些环境下工作得很好,但它忽视了另一个更老的知识获取的模型,也就是我们所说的“村庄模式”。在一个村子里,知识的传播是社会性的一-信息从一个人传递到另一个人,而获得信息的方法就是找到合适的人去回答你的问题,而不是去找到合适的文档资料。图书馆模式和村庄模式的区别显示了一些冇用的设计搜索引擎的原则。在一个图书馆,人们使用关键字搜索,
3、知识的内容基础被一小部分发布者在问题被提问之前创建,信任基于权威。在村庄模式下,人们更乐意于使用自然语言提问题,而答案会被他身边的人所捉供,信任基于亲密度。这些屈性产生了一些其它的效应,比如回答带有很强的上下文语境以及个人主观色调。举一个具体的例了,对这样一个问题:“我想在帕罗奥托找一个人临时照看我的六岁大的双胞胎,希望这个人不会让他们看电视,你冇没有什么好的建议?”,这样的问题最好是由朋友来回答而不是图书馆。这些信息检索模式的差异耍求社交搜索引擎貝有非常不同的系统架构、算法和用户界面。在真实世界里,图书馆模式和村庄模式在知识获取方式的完美互补说明
4、基于互联网的社交信息搜索具有广阔的空间。1・2Aardvark在这篇论文里我们将提出Aardvark,一个基于村庄模式的社交搜索引擎。接下来我们阐述系统架构、排名算法和用户界面的细节,以及我们之所以这样做的设计上的考虑。我们相信这对学术团体是有益的。第一,大部分的搜索引擎的发展是在工业界而不是学术界,描述端到端的搜索引擎架构的资料很少。第二,模式的转变将提出许多冇意思的信息检索的研究问题,比如专家分类器、隐式网络构建、和对话设计。利用Aardvark我们做了一个用户行为的统计分析。我们发现,与传统搜索比较起来,Aardvark上的问题更加具有上下文
5、环境和主观性。简单地说,传统的搜索引擎往往不能很好满足这些问题。我们同时发现许多问题能够很快得到满意的答案,用户十分活跃,不管是问问题还是回答。最后,我们展现几个来自现在的Aardvark系统的例子,以及-•个比较性的评价。我们发现Aardvark在那些关联意见、建议、体验或者推荐的问题方面表现良好,而传统的搜索引擎在其他方而仍然是一个不错的选择。1.概览Aardvark的主要部分包括:(1)爬虫和索引器为了找到和标记包含信息的资源。在这个例子里,资源是指用户而不是文件。(2)问题分析去理解用户的信息需求(3)排名函数选择最好的候选者去冋答问题(4
6、)用户界而作为和用户交互的接口大多数的基于语料库的传统搜索引擎有着相似的关键组件和相似的口的,但是与社交搜索比较起来,它们达到目的的方法十分不同。在深入讨论剖析AardvarkZ前,描述卜一个新用户加入Aardvark时在后台发生了什么是很有意义的。2.2用户的初始化当一个新用户第一次加入Aardvark系统时会执行一系列帮助的步骤让用户可以更好地指明他她适合回答的问题种类。因为问题会在用户的社交圈里传递,因此第一步是为朋友关系和机构信息建立数据结构,这可以用社交图(SocialGraph)来做。Aardvark的口标不是去建立一个社交网络,而是
7、利用他们己有的社交网络。因此,在注册阶段,一个新用户可以选择连接到Facebook或者Linkedln上,通过一个邮件程序自动导入他们的联系列表,或者手动邀请好友。任何被用户邀请加入的好友会被加入社交图里,这种邀请的方式是增加新用户的一个重要途径。最后,Aardvark用户通过“组”来反映他们在真实世界里的机构附属关系,比如他们上过的学校、工作过的公司。这些组可以从社交网络(Facebook等)里自动导入,也可以被用户手动创建。Aardvark为这些信息创建索引,把它们存在社交图里,这是一个同定宽度的ISAM索引,用userid排序。同时,Aard
8、vark为话题创建索引,这些话题说明新的用户对这方面具冇什么水平的知识和经验。-•个用户对这些话题具有怎样的知识经验水平可
此文档下载收益归作者所有