欢迎来到天天文库
浏览记录
ID:5422336
大小:328.50 KB
页数:41页
时间:2017-11-11
《5计算语言学——厦大应用语言学》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算语言学一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧”算一算怎么切分合理是“有意见分歧”还是:“有意见分歧”?广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。例2:方言亲属关系的计量:二、计算语言学的发展:计算语言学的研究首先是从机器翻译开始的。1、《圣经·创世纪》中“巴比塔”的传说。2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,
2、创造出一种无歧义的语言。3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。如:Idon'tknowtheboywhoiswaitingoutside.5、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。
3、6、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。7、计算语言学的进一步发展音字转换:语音识别自动文摘:自动给出一篇或多篇文章的摘要信息检索:在海量的信息准确找到你所需要的信息信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件)…………三、计算语言学的学科分类:就理论研究来看,计算机语言学还可以分为计算语音学、计算词汇学、计算语法学、计算语义学、语料库语言学等不同的分支学科。(一)、计算语音学:研究如何用计算机对语音信息进行处理,
4、实现语音的自动识别和合成。语音识别:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音合成:将可视的文本信息转化为可听的语音信息。一般来说,完整的语音识别要经历三个步骤:(1)、语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。(2)、声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。(3)、计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。清华大学电子工程系,非特定人汉语连续语音识别系统
5、的识别精度,达到94.8%,接近实用水平语音识别特定人非特定人大词汇量小词汇量孤立发音连续发音中小词汇量非特定人语音识别系统识别精度已经大于98%满足通常应用的要求一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%。(二)、计算词汇学:研究如何用计算机处理自然语言的词汇。他笑了桌子笑了桌子搬走了。(三)计算语法学:研究如何用计算机来分
6、析自然语言的语法。这种研究在计算语言学中叫做自动语法分析。花开了花钱了(四)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpuslinguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。四、汉字的信息处理(一)、汉字与信息处理笔、墨、纸、砚甲、骨、金、木泥、木印刷术;铅、打字机磁、光、电子计算机汉字面向人阅读笔画书写人机互动、编码输入、自动识别约公元1915年汉字机约公元1050年机械性质的整字书写(二)、汉字
7、输入汉字输入汉字键盘输入汉字识别(OCR)语音识别印刷体:单体、多体联机手写脱机手写1、汉字键盘输入汉字形码输入汉字音码输入音形码
8、形音码输入汉字键盘输入王码五笔字型郑码T9笔画输入法全拼,双拼,智能ABC,微软拼音,紫光拼音,智能狂拼极点五笔五码智拼输入法大众形音输入法母字全能码字→词、词组→句子;普通话→地方拼音输入(广东拼音)编码的优缺点(1)形码的优点按字型编码,重码率低,最多四码(不超过1万字,理论上讲可以做到一码一字),适合专业录入员录入写好的文本;无需顾及读音,对讲不好普通话的人适用;不认识的汉字照“样”可以输入。形码的缺点要记忆的东西
此文档下载收益归作者所有