自然语言处理技术分享1

自然语言处理技术分享1

ID:35452854

大小:77.41 KB

页数:7页

时间:2019-03-24

自然语言处理技术分享1_第1页
自然语言处理技术分享1_第2页
自然语言处理技术分享1_第3页
自然语言处理技术分享1_第4页
自然语言处理技术分享1_第5页
资源描述:

《自然语言处理技术分享1》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、内容大概分为:口然语言处理的简介、关键技术、流程及应用。首先,介绍一下什么是自然语言处理(也叫自然语言理解):语言学家刘涌泉在《大百科全书》(2002)中对口然语言处理的定义为「'自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特冇的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。”从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,口然语言理解是指机器能

2、够执行人类所期望的某些语言功能。这些功能包括:①冋答有关提问;计算机正确地冋答用自然语言输入的有关问题②提取材料摘要;机器能产牛输入文本的摘要③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息④不同语言翻译。机器能把一种语言翻译成另外一种语言自然语言处理的关键技术自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。1.词法分析词法分析的主耍冃的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的

3、分析,而词汇则表现在对整个词汇系统的控制。在屮文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语口动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。不同的语言对词法分析冇不同的要求,例如英语和汉语就冇较大的差距汉语屮的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分岀各个词就非常难。如”我们研究所冇东西“,可以是“我们——研究所——冇——东四”也可是“我们一一研究——所有——东西”。英语等语言的单词Z间是用空格自然

4、分开的,很容易切分一个单词,因而很方便找出句了的每个词汇,不过英语单词有词性、数、时态、派生、变形等变化,因而要找出各个词索就复杂得多,需要对词尾和词头进行分析。如uncomfortable可以是un-comfort-able或uncomfort-able,因为un、comfort、able都是词素。1.句法分析句法分析是对用户输入的口然语言进行词汇短语的分析,目的是识别句了的句法结构,实现自动句法分析过程。其基本方法冇线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出词、短

5、语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从屈关系、直接成分关系,也可以是语法功能关系。句法分析是曲专门设计的分析器进行的,其分析过程就是构造句法树的过程,将每个输入的合法语句转换为一棵句法分析树。一个句子是由各种不同的句子成分组成的。这些成分可以是单词、词组或从句。句子成分述可以按其作用分为主语、谓语、宾语、宾语补语、定语、状语、表语等。这种关系可用一棵树來表示,如对句了:Hewroteabook.口J用图示的树形结构來表示。3•语义分析语义分析是基于自然语言语义信息

6、的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句了、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。其实就是要识别一句话所表达的实际意义。比如弄清楚“干什么了”,“谁干的”,“这个行为的原因和结果是什么”以及“这个行为发生的吋间、地点及其所用的工具或方法”等。4•语用分析语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人

7、际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。3•语境分析语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及杳询用户的需要等。它将口然语言与客观的物理世界和主观的心理世界联系起來,补充完善了词法、语义、语用分析的不足。自然语言处理工具:OpenNLPOpenNLP是一个基Java机器学习工具包,用于处理自然语言文本。支持大多数常用的NLP任务,例如:标识化、句了切

8、分、部分词性标注、名称抽取、组块、解析等。FudanNLPFudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。木工具包及其包含数据集使用LGPL3.0许可证。开发语言为Ja腹。功能:1.文本分类、新闻聚类2.中文分词、词性标注、实体识别、关键词抽取、依存句法分析、时间短语识别3.结构化学习、在线学习、层次分类、聚类、精确推理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。