欢迎来到天天文库
浏览记录
ID:40244481
大小:360.00 KB
页数:51页
时间:2019-07-28
《人工智能ch7-1自然语言处理技术课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、人工智能第7章自然语言处理技术(1)1从自然语言的词法、句法、语义分析的角度介绍了自然语言理解所涉及的主要方面,介绍了真实文本处理和对话分析问题,从应用角度阐述了信息检索、机器翻译和语音识别技术。27.1自然语言理解的一般问题7.1.1概念及意义自然语言多义性、上下文相关性、模糊性、非系统性、环境相关性、理解与所应用的目标相关自然语言理解是指从自然语言到机器内部的一个映射(微观);自然语言是指机器能够执行人类所期望的某些语言功能(宏观)。3功能包括:回答问题文摘生成释义翻译书面语理解包括词法、文法和语义分析,口语理解还需要加上语音分析。47.1.2研
2、究进展三个时期:20世纪40和50年代的萌芽时期,20世纪60和70年代的发展时期20世纪80年代以后的走向实用化、大规模进行真实文本处理的时期。美苏等国开展的俄-英和英-俄互译研究工作。Chomsky提出了形式语言和形式文法的概念,把自然语言和程序设计语言置于相同层面,用统一的数学方法来解释和定义。20世纪60年代以关键词匹配技术为主的阶段和20世纪70年代以句法-语义分析为主流技术的阶段。5发展时期的几个著名系统包括1968年出现的SRI和ELIZA系统等。B.Raphael在美国麻省理工学院完成的SIR(SemanticInformationR
3、etrieval)系统,它能记住用户通过英语告诉它的事实,然后对这些事实进行演绎,回答用户提出的问题。J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,能模拟一位心理治疗医生(机器)同一位患者(用户)的谈话。620世纪70年代,代表系统包括:W.Woods设计的LUNAR,T.Winograd设计的SHEDLU系统,允许用普通英语同数据库对话的人机接口,用于协助地质学家查找、比较和评价阿波罗11飞船带回的月球标本的化学分析数据在“积木世界”中进行英语对话的自然语言理解系统,它把句法、推理、上下文和背景知识灵活地结合于一体,模拟一个能够操
4、纵桌子上一些积木玩具的机器人手臂,用户通过人-机对话方式命令机器人放置那些积木块,系统通过屏幕给出回答并显示现场的相应情景。7大规模真实文本处理时期20世纪80年代后著名的人机接口系统有美国人工智能公司(AIC)生产的英语人-机接口系统Intellect,美国弗雷公司生产的Themis人-机接口。有较高水平的翻译系统,包括欧洲共同体在美国乔治伦敦大学开发的机译系统SYSTRAN的基础上,成功地实现了英、法、德、西、意及葡等多语对的机器翻译系统,美国的META等系统。8此期间特征AI和专家系统中的思想,知识的表示和处理方法,领域知识和推理机制,不再局限
5、句法和词法研究,极大地提高了系统处理的正确性。9为了处理大规模的真实文本,提出了语料库语言学:20世纪80年代,英国Leech领导的UCREL研究小组,利用已带有词类标记的语料库,经过统计分析得出了一个反映任意两个相邻标记出现频率的“概率转移矩阵”。设计的CLAWS系统依据这种统计信息,对LOB语料库的一百万词的语料进行词类的自动标注,准确率达96%。基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题。107.1.3自然语言理解的层次一个文字表达的句子的层次是词素→词或词形→词组或句子,声音表达的句子的层次
6、则是音素→音节→音词→音句,其中每个层次都受到文法规则的制约。语言的处理过程也应当是一个层次化的过程。11这一过程分为五个层次:语音分析词法分析句法分析语义分析语用分析根据音位规则,从语音流中区分出独立的音素,根据音位形态规则找出音节及其对应的词素或词。语用就是研究语言所存在的外界环境对语言使用所产生的影响。它描述语言的环境知识,语言与语言使用者在某个给定语言环境中的关系。关注语用信息的自然语言处理系统更侧重于讲话者/听话者模型的设定,而不是处理嵌入到给定话语中的结构信息。7.27.37.4127.2词法分析从句子中切分出单词,找出词汇的各个词素,从
7、中获得单词的语言学信息并确定单词的词义,如unchangeable是由un-change-able构成的,其词义由这三个部分构成。13英语单词切分英语单词有词性、数、时态、派生及变形等变化,找词素复杂,需要对词尾或词头分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。14从词素中获得语言学信息。如英语中构成词尾的词素“s”名词复数/动词第三人称单数,“ly”副词的后缀,“ed”动词的过去分词,一个词可有许多的派生、变形,如work,works,worked,work
8、ing,worker,workable等。词根只有一个电子词典一般只放词根,并支持词素分析。15算法(英语词
此文档下载收益归作者所有