欢迎来到天天文库
浏览记录
ID:32150190
大小:2.62 MB
页数:64页
时间:2019-01-31
《基于问答系统的人机对话平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、此京Tqk人字I掌坝l‘?:ft沦文(4)知名公司的研究成果2005年,IBM公司在其非结构化信息管理架构(UnstructuredInformationManagementArchitecture,UIMA)的软件架构平台上展开了基于语言分析、知识库、问答系统、机器翻译等功能的自然语言搜索研究,并计划在此基础上构建第三代信息检索引擎,通过UIMA架构使应用程序可以提取多媒体数据中的文档信息,并将这些文档视为“人类语言的表达”而不是匹配文字模式,最终组织成更加结构化的信息,实现智能化信息检索⋯'121。2005年,Microsott公司将Internet信息
2、检索技术和基于微软在线百科全书的知识库整合到MSN即时通讯服务中,通过用户与虚拟机器人Encarta的交互实现了IM方式的人机对话系统。2007年,DmitriRoussinov提出了一种新型问答式应用系统,旨在信息检索时返回问题对应的准确答案,而不是包含分类结果的若干相关网页n31。1.3.2国内研究进展在国内也有许多大学和研究所在进行问答式人机对话系统的研究工作。不过中文对话系统的起步较晚,相对于国外的技术还不够成熟,其主要原因是:中文对话系统除了要具有一般对话系统的功能外,还需要考虑到汉语的特性。在自然语言处理中,中文的语法语义等方面都与西方语言有着很
3、大的区别,其结构特点决定了它的句法分析和语义理解要更加复杂,词与词之间没有空格分界符也使得系统在信息处理时要先对句子进行切分,因此中文对话系统往往无法直接利用国外一些成熟技术和研究成果。另外,中文对话系统的知识库、评测标准、评测平台等语言处理基础资源缺乏,也在一定程度上影响着中文对话系统的发展n4~1引。下面是国内科研机构及公司在中文问答式人机对话系统上的一些典型应用:(1)NKI知识问答系统中科院计算所智能信息处理实验室研发的大规模知识处理科研项目“国家知识基础设施"(NationalKnowledgeInfrastructure,NKI)是一个庞大的、可
4、共享的知识信息平台。它包含16个学科的580多个专业本体,各学科本体按照继承和实现等关系形成了相对独立的体系结构。该系统包含大约几百万条的专业知识信息,通过一个基于NKI知识库的中文问答系统HKI,向用户提供多领域的知识信息服务。HKI系统的主要特点是支持自由的提问方式,并向用户提供准确的回答信息u。埔1。(2)小i机器人赢思公司开发的小i机器人是当前国内关注度较高的中文对话系统,它同时提供了开放域和针对特定领域的多种人机交互环境,可以根据关键词将用户引导第1帝绪论皇曼皇曼曼曼鼍--=I=n:mm:m=m=lmm曼曼舅曼蔓曼!曼曼皇曼曼曼曼曼曼曼曼曼曼曼曼曼
5、曼曼曼曼曼曼曼曼曼曼曼到不同领域的信息服务系统中,与用户进行颇具人性化的人机交互。小i机器人具有Web和IM两种用户接口,同时提供了可自定义领域信息的系统扩展接口,使用户可以定制自己的问答机器人。1.4主要研究内容本论文从人机对话系统方便、快速、丰富且易于扩展的实际需求出发,对基于问答系统的人机对话平台的总体框架、设计思想、所需要涉及的技术等进行研究。在此基础上,详细讨论了人机对话平台的系统实现,其中包括:平台体系结构的设计思想;重要数据结构与数据文件的定义;自然语言处理方法的选择;对话管理策略的设计;信息内容的获取方式;规则库、参数库、语料库和信息数据库的
6、结构设计;人机对话平台的系统测试等。1.5论文的组织结构本文分三个部分来阐述:第~部分:本文的第1章。介绍选题的背景及意义,描述了目前问答式人机对话系统的现状,并说明了本文的主要研究内容。第二部分:此部分是论文的主题。本文的第2章描述了人机对话平台所涉及的关键技术。第3章描述了人机对话平台的系统需求、层次框架和结构模型,详细介绍了人机对话平台的总体设计。第4章描述了人机对话平台各功能模块的详细设计与实现。第5章对人机对话平台的系统功能与性能进行了测试分析,并对测试中出现的问题给出了解决办法。第三部分:全文总结。第2章人"【对i^、
7、7f}的父键于上术人机对话
8、平台的关键技术2.1中文分词自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它主要研究人与计算机之间进行自然语言交互的基本理论和方法。中文分词技术是自然语言处理系统的重要组成部分,它是计算机理解自然语言信息的基础¨9’驯。中文分词是将按照自然语言规范组合的句子划分成词序列的过程。在英文文本中,空格是单词之间的自然分界符,无需对句子的词边界进行确认。而中文在句子构成上没有一种明显的词边界符,也就是说中文只是字、句和段可以通过明显的分界标志来划分边界。所以对于中文来讲,确定词的划分是理解自然语言的第一步Ⅲ~捌。现有的中文分词可以分为基于字符串匹配的分
9、词方法、基于理解的分词方法和基于统计的分词方法三大类
此文档下载收益归作者所有