自然语言,形式语法与自动机.ppt

自然语言,形式语法与自动机.ppt

ID:52047924

大小:1.19 MB

页数:34页

时间:2020-03-31

自然语言,形式语法与自动机.ppt_第1页
自然语言,形式语法与自动机.ppt_第2页
自然语言,形式语法与自动机.ppt_第3页
自然语言,形式语法与自动机.ppt_第4页
自然语言,形式语法与自动机.ppt_第5页
资源描述:

《自然语言,形式语法与自动机.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、自然语言,形式语法与自动机北京大学哲学系郑植2016.2.231语言与语法从数学的观点看,自然语言的表达式是一个个有穷长的符号串(其中的符号可以是字、词、音节等)。但并非每个串都是自然语言允许的合法的表达式。语法(grammar)的作用就是以某种方式在所有有穷串的集合中“选”出一个子集,使得该子集中的串是“合法”的。设A是符号集,则A*表示A的全体有穷符号串的集合(包括空串e)。“联结”函数︵:A*→A*,a︵b=ab。结构是幺半群:(a︵b)︵c=a︵(b︵c),a︵e=e︵a=a。21.形式语法一个

2、形式语法(formalgrammar,简称“语法”),实质上可以看作是一个基于公理和推演规则的推演系统。3派生与生成4几个形式语法的例子567树8语法生成串的过程以及串的语法结构可以通过(有序)树形图清晰地表现出来。树可以表现出:句子成分的层及分组信息、语法类型信息和顺序信息。9例6一个Parser程序几个关于树的语法分析中经常用到的概念10Dominance,immediatelydominanceBelongto,command,constituent-commandTomtoldAndythatyesterday

3、Jackhurthimself.himself指谁?Precedence乔姆斯基层级11形式语法的分类:按照重写规则的限制由弱增强,或者说语法生成能力的由强减弱,分为Type0至Type3。乔姆斯基层级12IL是Type3。2.自动机13自动机是一种理想化的数学计算装置。在自然语言语法处理中,可以想象自动机可以用来检验符号串的合法性——将一个符号串输入给自动机,由自动机依据形式语法判定其是否合法。如果合法,自动机给出结果“接受”,反之给出结果“拒绝”。据判定规则和工作原理的不同,自动机根可分为多种。不同种类的自动机与不

4、同类型的形式语法存在对应关系。2.1有限状态自动机14151617正则语言(Type3)就是有限状态自动机语言。正则语言由正则语法生成,用有限状态自动机识别。给定一个Type3语法,构造一个有限自动机:A→xB:读取x,由状态A进入状态BA→x:读取x,由状态A进入终止状态F给定一个有限自动机,构造一个Type3语法:若qj不是终止状态,:qi→xqj若qj是终止状态,:qi→x非终结符集即状态集,终结符集即字母表正则语法的缺陷:只能向右扩展。英语不是正则语言。18英语不是正则语言。

5、(1)Thecatdied.(2)Thecatthedogchaseddied.(3)Thecatthedogtheratbitchaseddied.(4)Thecatthedogtherattheelephantadmiredbitchaseddied.(the+CN)n+(TV)n-1+IV设A是“the+CN”的集合,B是TV的集合,则上述句型的字符串具有形式:x1...xny1...yndied(xi∈A,yi∈B)。设L={x1...xny1...yndied

6、任给xi∈A,yi∈B,n≥1}。L由英语和正则

7、语言A*︵B*︵{died}相交得到。正则语言对交运算封闭。若英语是正则语言,则L也是。但L不是(证明类似于{anbn

8、n≥0})。因此英语不是正则语言。(Chomsky,1956;1957,Chapter3)19英语不是正则语言。英语中存在许多跨主谓结构的一致与对应。Anyone1whofeelsthatif2so-many3more4students5whomwe6haven't6actuallyadmittedare5sittinginonthecoursethan4oneswehavethat3theroomh

9、adtobechanged,then2probablyauditorswillhavetobeexcluded,is1likelytoagreethatthecurriculumneedsrevision.(Chomsky&Miller,1963)123456654321{xxR

10、x∈{a,b}*}不是正则语言(因为它与正则语言aa*bbaa*的交{anb2an

11、n≥2}不是正则语言)。2.2下推自动机202122上下文无关语言由上下文无关语法生成,可使用下推自动机进行识别。给定一个上下文无关语法,构造一个下推自动机:

12、状态集{q0,q1},初始状态q0,终止状态q1。输入字母表VT,栈字母表VT∪VN。(q0,e,e)→(q1,S),对每条A→,有(q1,e,A)→(q1,),对每个终结符a,有(q1,a,a)→(q1,e)。给定一个下推自动机,构造一个上下文无关语法。Hopcroft&Ullman(1979)Lewis&Papadimit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。