基于中文自然语言理解的农业信息自动回答系统

基于中文自然语言理解的农业信息自动回答系统

ID:21924256

大小:56.00 KB

页数:7页

时间:2018-10-25

基于中文自然语言理解的农业信息自动回答系统_第1页
基于中文自然语言理解的农业信息自动回答系统_第2页
基于中文自然语言理解的农业信息自动回答系统_第3页
基于中文自然语言理解的农业信息自动回答系统_第4页
基于中文自然语言理解的农业信息自动回答系统_第5页
资源描述:

《基于中文自然语言理解的农业信息自动回答系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于中文自然语言理解的农业信息自动回答系统摘要:随着信息社会、知识经济的到来,传统的被动式知识传授已逐步让位于主动式知识探究。本系统主要从农业的信息角度出发,采用中文自然语言处理技术,建立知识库和自动分词,进行语言理解,这样一方面完成对用户提问的理解;另一方面完成正确答案的生成,使农民能够及时得到自己想要的信息,更快捷的处理疑问,使其真正实现农业信息化。关键词:自然语言理解;自动回答;知识库;自动分词;语言理解自然语言理解(naturallanguageunderstanding,NLU),又称自然语言处理(naturallanguageprocessing,NLP),人工智能研

2、究的重要内容之一。自然语言理解,是指计算机对自然语言的音,形,义等信息进行处理,即对字,词,句子和篇章的输入,输出,识别,分析,理解,生成等操作和加工。就是利用电子计算机来理解自然语言,使计算机懂得人的语言,让计算机在人的语言的指挥下,进行某些“智能”活动。自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合应用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。这门学科也通过长期的研究,已经形成了一整套的理论和方法,使我们加深了人类语言现象的理解,并且能解决

3、在自然语言的应用中遇到的许多实际问题。中文信息处理1.领域知识库构建,中文自动分词领域知识库是用来存储领域专家提供的专门知识的集合体。这种专门知识即包括领域对象的原理性知识,如有关对象的概念、事实、定理、方程、方法、模型、实验、和操作等。一般或存在于书本或文献中,大多数有确定的数学模型;也包括专家解决复杂的不良结果问题时得到的经验等启发性知识。领域知识库是基于知识的系统的核心部件,知识库中的知识数量和质量直接决定着系统性能和效率。构建领域知识库。知识是智能的基础,为了使计算机具有智能,使它能模拟人类的智能行为,就必须使它具有知识,但是需要把人类拥有的知识采用适当的模式表示出来,才

4、能存储到计算机中去,这就是知识表示要解决的问题。知识表示是对知识的一种描述,或者说是一组约定,是一种计算机可以接受的、用于描述知识的数据结构,对知识进行表示就是把知识表示成便于计算机存储和利用的某种数据结构,知识表示方法又称为知识表示技术,其表示形式称为知识表示模式。目前使用较多的只是表示方法有:一阶谓词逻辑表示法,产生式表示法,框架表示法,语义X络表示法,面向对象表示法。一个完整的知识库非常庞大,不仅需要精密的框架设计还要录入海量的词汇数据,甚至还有一次多义、多词同义等特殊情况。知识库中需要一个词汇集合来存放已知的词汇信息。在数据库中建立词汇表,各字段如下:编号(id)表示本条

5、词语在数据库中的编号。为整数类形,自动递增且为主键,必填字段。词语(ilar)表示词汇的相近词汇,为字符类型,可选字段,词义(acceptation)表示词汇的词义,字符类型,可选字段。备注(remark)例如:id:1,ilar:黄豆。当然基于农业领域的知识库构建只有词汇表是不够的,还要有农业信息知识库。以大豆为例,大豆的基础知识,大豆的品种介绍,大豆植物学特征,大豆生物学特征,大豆病害,大豆虫害,大豆草害,大豆栽培技术,大豆高产栽培技术,大豆栽培新技术,大豆市场信息等等。所以要对各种农业信息进行详细入库,并使其更高效查询。中文自动分词(Chineseentation)指的是将

6、一个汉字序列切分成一个一个单独的词。中文自动分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文自动分词,可以达到电脑自动识别语句含义的效果。汉语自动分词的任务,通俗地说,就是要由机器在中文文本中词与词之间自动加上空格。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。(1)基于字符串匹配的分词方法:本质就是基于大规模词库的机械分词方法。(2)基于理解的分词方法:基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括3个部分:分词子系统、句法语义子系统、总控部分。(3)基于统计的分词方法:主要是利

7、用词是稳定的字的组合这一规律,这样就可以通过记录字与字相邻共现的频率从而利用概率统计的方法给切词系统提供切分标准。本系统为自动回答系统,所以要充分理解每一条用户所提信息,以上分词方法作为本系统基础分词的方法,在对领域内的名词用概念从属树组织起来,再利用格语法理论建立动词的静态知识库,用静态事实库配合概念从属树的爬树过程来完成对切词结果的语义分析,同时对切词结果进行歧义排除。2.进行语言分析,语言理解的实现语言虽然表示成一连串的文字符号或者一串声音流,但其内部实际上是一个层次化的结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。