欢迎来到天天文库
浏览记录
ID:41287442
大小:604.56 KB
页数:78页
时间:2019-08-21
《《自然语言理解LP》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、自然语言理解李鹏内容大纲一、概述二、形式语法三、概率语法一、概述自然语言指人类使用的语言,如汉语、英语等。自然语言处理(naturallanguageprocessing,NLP)或称自然语言理解(naturallanguageunderstanding,NLU),就是以计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。一、概述“自然语言处理可以定义为研究在人与人交际中,以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguisticcompetence)和语言应用(lingui
2、sticperformance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”B.Manaris,Naturallanguageprocessingintheviewofman-machineinterchange,inAdvancesinComputer,Volume47,1999.NLPvsNLUNLP:对自然语言所进行的任何有意义的操作。NLU:为了理解自然语言而进行的各种操作。NLP是实现NLU的手段,NLU是进行NLP的目的。1.1自
3、然语言理解研究的内容机器翻译(Machinetranslation,MT)信息检索(Informationretrieval,IR)自动文摘(Automaticabstracting)文档分类(Documentcategorization)问答系统(Question-answeringsystem)信息过滤(Informationfiltering)语言教学(Languageteaching)等1.1自然语言理解研究的内容建立一种语言结构到另一种结构的映射字符串到隐状态序列名字实体抽取,词性标签等问题一种字符串到另一种字符串机器翻译字符串到解析
4、树语言解析字符串到关系型数据库信息抽取1.2自然语言的发展历史早在计算机出现以前,英国数学家A.M.Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。他在1950年发表的《机器能思维吗》一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效
5、小孩子说话的那种办法来进行。”Turing提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语。他天才地预见到计算机和自然语言将会结下不解之缘。1.2自然语言的发展历史从20世纪40年代到50年代末,这个时期是自然语言处理的萌芽期。A.M.Turing算法计算模型的研究N.Chomsky关于形式语言理论的研究C.E.Shannon概率和信息论模型的研究自然语言处理萌芽期的这些出色的基础性研究,为自然语言处理的理论和技术奠定了坚实的基础。1.2自然语言的发展历史20世纪60年代中期到80年代末期是自然语言处理的发展期。主要表现在:机器翻译的
6、发展统计方法在语音识别算法的研制中取得成功逻辑方法在自然语言处理中取得了很好的成绩1.2自然语言的发展历史从20世纪90年代开始,自然语言处理进入了繁荣期。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法。什么是语料库语料库,英文为Corpus存储语言材料的仓库现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识
7、的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;语料库示例北京大学计算语言所富士通人民日报标注语料库样例:历史/n将/d铭记/v这个/r坐标/n:/w北纬/b41.1/m度/q、/w东经/b114.3/m度/q;/w人们/n将/d铭记/v这/r一/m时刻/n:/w1998年/t1月/t10日/t11时/t50分/t。/w……[中国/ns政府/n]nt顺利/ad恢复/v对/p香港/ns行使/v主权/n,/w并/c按照/p“/w一国两制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方针/n保持/v香港/ns的/
8、u繁荣/an稳定/an。/w语料库的分类生语料库/熟语料库生语料库就是未经加工的,没有任何切分,标注标记的原始语料库熟语料
此文档下载收益归作者所有