资源描述:
《自动问答综述_郑实福》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报第16卷第6期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.16No.6自动问答综述郑实福刘挺秦兵李生(哈尔滨工业大学信息检索实验室哈尔滨150001)摘要:自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。本文分别介绍了这三个主要组成部分的主要功能和常用的方法。最后还介绍了自动问答系统的评价问题。关键词:自动问答;问题分类;信息检索;答案抽取中图分类号:TP3
2、91.3OverviewofQuestion-AnsweringZHENGShi-fuLIUTingQINBingLISheng(InformationRetrievalLaboratoryHarbinInstituteofTechnologyHarbin150001China)Abstract:Question-AnsweringisahotresearchfieldinNaturalLanguageProcessing,whichincludesmanykindsofNLPtechnology.Thispaperintroducesthecurrentresearchs
3、tatusandthemethodsthatareoftenusedinQuestion-Answering.Ingeneral,aQuestion-Answeringsystemismadeupofthreeparts:QuestionAnalysis,InformationRetrievalandAnswerExtrac-tion.Thispaperdescribesthemainfunctionsofthesethreepartsandthecommonapproachusedinthesepartsindetail.Atlast,thispaperintroduce
4、stheevaluationofQuestion-Answeringsystem.Keywords:Question-Answering;questionclassification;informationretrieval;answerextraction一、引言随着互联网的普及,互联网上的信息越来越丰富,现在人们能够通过搜索引擎方便的得到自己想要的各种信息。比较有名的搜索引擎有Google、Sohu、Yahoo等。无论哪方面的内容,这些搜索引擎都能帮助人们快速地找到相关的网页。用户只需输入一些关键字,它们马上就会搜索出相关的网页。但是这些传统的搜索引擎存在很多不足的地方
5、,其中主要有三个方面:一是相关性信息太多。传统的搜索引擎返回的相关网页太多,用户很难快速准确地定位到所需的信息。例如,用户在Google上输入几个关键字,它有可能返回成千上万个网页,用户将浪费很多时间在这些网页中查找自己所需要的信息。二是以关键词的逻辑组合来表达检索需求,因为人们的检索需求往往是非常复杂而特殊的,是无法以几个关键词的简单组合来表达的,这样用户都没有将自己的检索意图表达清楚,搜索引擎自然也就没有办法找出令用户满意的答案了。三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索收稿日期:2002-5-10基金项目:哈尔滨工
6、业大学校自然科学基金项目(HIT.2000.50)郑实福,男,1977年生,硕士生,主要研究方向为自动问答、多文档自动文摘、信息检索.46效果很难进一步提高。为了克服传统搜索引擎的弊端,国外一些有实力的科研机构和大公司正在探索新的检索技术,在这方面最成功的检索系统是美国AskJeeves公司的检索系统,网址为:http:∥www.askjeeves.com/。AskJeeves最突出的特点是允许用户用自然语言句子提问,检索系统会自动分析用户的提问,然后通过反问,即人机交互方式,准确地辨识用户的意图,这样用户就能够充分表达他的检索需求,这比Yahoo的关键词检索方式有了明显的
7、进步。香港科技大学参考AskJeeves的思路正在做中文的提问式搜索引擎Weniwen,网址为:http:∥www.weniwen.com/。100多个学生被组织起来对Internet上的各个网页进行提问,这些提问被记录下来作为网页的索引,在实际使用时,如果用户的某个提问与作为索引的某些提问在语义上非常接近,那么就把与这些提问相连的网页返还给用户。AskJeeves和Weniwen提供了自然语言句子的提问方式,这和关键词的提问方式相比,无疑是一个进步,但是AskJeeves和Weniwen的返回结果仍然是网页,而不