web20环境下的知识搜索引擎发展研究

web20环境下的知识搜索引擎发展研究

ID:35786527

大小:284.73 KB

页数:19页

时间:2019-04-18

web20环境下的知识搜索引擎发展研究_第1页
web20环境下的知识搜索引擎发展研究_第2页
web20环境下的知识搜索引擎发展研究_第3页
web20环境下的知识搜索引擎发展研究_第4页
web20环境下的知识搜索引擎发展研究_第5页
资源描述:

《web20环境下的知识搜索引擎发展研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web2.0环境下的知识搜索引擎发展研究彭陶/马张华2012-10-2615:59:15来源:《图书馆学研究:理论版》(长春)2011年6期【英文标题】OntheDevelopmentofKnowledgeSearchEngineundertheWeb2.0Environment【作者简介】彭陶北京大学图书馆文献计量学研究室;马张华北京大学信息管理系。北京100871【内容提要】知识搜索引擎是在Web2.0环境下产生的新一代互动式知识搜索系统,其组织体系主要有两大特点:在知识组织过程中重视“人”的因素,在主题检索机制中引入分类组织的思想。这两

2、点在国内三大知识搜索引擎——百度“知道”、新浪“爱问知识人”、雅虎“知识堂”都有不同程度的体现。TheknowledgesearchengineisanewgenerationofinteractivesearchenginesystemunderWeb2.0environment,whichischaracterizedasfollows:oneistheemphasisonthehumanelementinknowledgeorganization;theotheristheintroductiontotheideasofclassifi

3、cation.ThetwofeaturesshowinsomedegreeinBaiduKnow,SinaIAskandYahoo!Answers,thethreefamousknowledgesearchengines.【关键词】Web2.0/知识搜索/知识搜索引擎Web2.0/Knowledgesearch/Knowledgesearchengine面对互联网信息量的指数级增长,传统搜索引擎存在一些固有的缺陷,例如:返回的查询结果数量过于庞大;搜索结果的直接性和针对性较差;用户参与度较低等。以“知识共享社区+搜索引擎”模式为基础的知识搜索

4、引擎引入了Web2.0环境下的互动性和个性化特点,在一定程度上弥补了传统搜索引擎的不足①。知识搜索引擎返回的查询结果在量上更精,在质上更高;能够为用户提供直接性、针对性强的信息内容而非网页链接;为用户提供了多种交流、共享信息的手段,用户的参与度高,值得关注。1知识搜索引擎概况1.1知识搜索引擎的概念知识搜索引擎是一种以特定的知识性资源,如知识类、娱乐类和生活类问答信息为检索对象的网络检索工具,通常基于自然语言智能查询技术进行处理和提供,用户输入简单的疑问句,搜索引擎在对提问进行词法、句法和内容分析之后,或直接给出提问的答案;或引导用户从几个可

5、选择的问题中进行再选择;如果没有满意的答案,可确定为新问题,等待他人回答。1.2知识搜索引擎模式整体架构虽然目前基于问答平台的知识搜索引擎仍然在逐步探索中,但国内外一些知名搜索引擎公司都十分关注并进行了这一模式的研发。从目前的发展看,这类系统通常包括五个部分:问题理解、信息检索、知识问答、评价监督和知识库②(见图1)。1.2.1问题理解模块(QuestionAnalysis)问题理解即问题分析,主要是对自然语言提问进行词法、语法分析,提取有价值的查询概念。传统搜索引擎也有类似的模块,但两者的检索对象不同,方法不同。传统搜索引擎面向的对象是整个

6、互联网资源,搜索结果往往是数以万计的网页;而知识搜索引擎面向的对象是自身积累的知识库,对象比较单纯,为了能够有针对性地访问信息来源,知识搜索引擎的问题理解模块引入了分类组织方法,通过主题词分类,将问题理解过程上升到关键词的语义层次,以充分理解用户的真实请求③。如用户提问:《梅兰芳》的主演是谁?系统经判断确定“主演”一词属于娱乐电影或电视范畴,同时有“梅兰芳”作为电影名字的数据记录,就可以直接在知识库中的“娱乐”字库进行搜索。1.2.2信息检索模块(InformationRetrieval)在知识搜索引擎系统中,信息检索模块处于核心地位。通常在

7、接受问题分析模块所返回的带有加权系数的关键词组(对关键词加权,表示该词在当前问题中的重要程度,例如专有名词获取的权值一般最高)后,在知识库中检索,如检测相关答案,须将检索结果按照某种规则排序返还给用户;如没有相应条目,该查询即进入知识问答模块。信息检索模块对检索结果的检全率和检准率,直接影响着用户得到的最终答案及下一步的选择。图1知识搜索引擎系统图该模块所面对的不是用户本身,而是本地知识库中大量的文档信息。一般先在对该文档进行预处理(包括文档分段、分词)的基础上建立索引,以加快检索的速度;其次,该模块聚合了“人”的力量,其搜索结果的排序是关键

8、词加权系数与用户评价系数的综合结果,用户评价的好坏和等级对输出结果的排序有直接影响④。如果说机器算法为搜索结果提供了量的保证,那么用户评价就为搜索结果提供了质的评判

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。