9-文本分析技术new

9-文本分析技术new

ID:34649161

大小:644.62 KB

页数:107页

时间:2019-03-08

9-文本分析技术new_第1页
9-文本分析技术new_第2页
9-文本分析技术new_第3页
9-文本分析技术new_第4页
9-文本分析技术new_第5页
资源描述:

《9-文本分析技术new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本分析技术李艳燕内容提要•词法分析•句法分析•语义和语用分析一、语言概述1.语言层次语言是线性的符号系统。按照语言学上一般的分析,语言可分为如下的一些层次:�词法:规定了字符构成词的规律、词的性质与功能以及词在不同条件下进行变化的规律;�句法:规定了词构成词组和句子的规律;�语义:规定了符号及其结构与它们所表示的信息内容(意义)的关系;�语用:规定了语言和使用它的环境(语境)之间的关系。词法和句法是不涉及内容的纯形式的规定性,它们合起来叫做语法。语法、语义、语用并列为语言的符号机制的三大基本层次。2.自然语言与形式语言�世界上的语言,绝大多数是自然语言。自然语言

2、是人类发展过程当中自然产生、约定俗成的用于人类社会交际的语言,如英语、汉语、日语等。自然语言中有少数是通过人为的力量创造或规定下来的语言,比如世界语。自然语言中也有为少数特殊群体使用的特殊形态的语言,如聋哑人使用的手语和盲人使用的盲文。自然语言是人际交互的基本语言。一般的体态“语言”只是在比喻的意义上是一种语言。�形式语言是人们有意识地通过形式化的定义所规定的语言,典型的形式语言包括程序设计语言(比如C语言)和符号逻辑语言(比如一阶逻辑语言)。形式语言是具有严格结构的符号系统,适合于计算机等具有符号化信息处理能力的计算和通信装置使用。3.语言特点�语种的形态分类�

3、屈折语(inflectinglanguage)——俄语、德语、英语�黏着语(agglutinatinglanguage)——日语、韩国语�分析语(analyticlanguage)——汉语�汉语的特点�汉语在世界上属于汉藏语系(其他还有印欧语系等等)1)完全使用由象形文字演化而来的方块汉字是汉语的独一无二的特色。2)语词没有形态标记是汉语的另一个特色。同样形式的词语,放在不同的环境里,可以具有不同的语法功能。�例:去南极旅行是非常难得的经历。咱们去南极旅行吧。他准备去南极旅行。3)结构松散是汉语的第三个特色。汉语的无主语小句通过逗号松散联接,一逗到底,中间隐含的主

4、语多次切换,语气却浑然一体。�例:我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。我1上街买菜,[]1看见一个人2,[]2穿着一件军大衣,[]2打了卖菜的3一巴掌,[]3脸都肿了。自然语言处理流程原文译文原文输入112译文输出译前编辑211译后编辑词法分析3句法分析410词形变化语义分析59句子生成语境分析68译词选择7内部表示转换机器翻译全过程二、词法与词法分析�词法分析与语种密切相关�词法分析是分析过程中最基本的第一步,主要目的是决定句子中的词及词性。11、词性和词类、词性和词类�语文书上讲:词是最小的能够独立运用的语言单位。其实,词的定义

5、,在不同语言里,难度是不一样的。�英语等西方语言里的词,是用空格明显分隔开的。因此什么是词的问题在那里非常的简单:只要看是否在正确的语料里面被空格分隔开的字符串,都是词。当然,有些词是缩写词。�汉语里面的“词”,不但两端没有空格隔开,甚至连词尾变化也非常不发达。因此,对词和非词的界定就更充满争议。�和词组之间的区别往往是模糊的,比如有人就主张“鸡蛋”是词组,“鸭蛋”是词;“中国外贸进出口总公司”看起来是一个词组,用起来却更像一个词。�词性是词的语法性质(或者说功能),是词在现实的语言环境中与其他词的形式关系。比如,修饰和被修饰、支配和被支配等等。�词类是根据词的语

6、法性质对词所做的聚类,是词在所有语言环境中可能与其他词发生的潜在的形式关系的总和。就是说,倾向于与其他词发生同样性质的形式关系的词,互相之间在词性上更加相似,因此更加倾向于被划归“同类”。一个词类的典型语法功能有时也被说成是这个词类的“词性”。�于是,我们说“木头房子”中的“木头”具有形容词的词性,也就是说它在这个环境里体现的是形容词这个词类的典型语法性质;但脱离开具体的环境看,“木头”这个词的词类是名词。两种说法,并行不悖。区别词又叫非谓形容词,是表示事物的特征和分类、只能修饰名词作定语、不能作谓语的词。区别词表示事物的属性,而属性往往是对立的,所以区别词常常成

7、对或成组出现。  例如:  正副男女荤素金银上等初级大号万能野生亲生草本  人造冒牌特等劣等远程中程特级独生野生  活期长期无偿潜在现行稀有民办大陆性综合性�从最宏观的角度,任何自然语言里的词都分实词和虚词。大致上说,实词是表达实在意义的词,虚词是表示功能意义的词。在英语里,一般的说法是八大词类,即:名词、动词、形容词、数词、副词、介词、连词、叹词。前4类属于实词,后4类属于虚词。�在汉语里,词类系统还没有公认的理论,但目前在中文信息处理界,使用北大体系的比较多。该体系的若干词类包括:名词、方位词、动词、助动词、形容词、区别词、数词、副词、量词、介词、助词、连词、

8、叹词。其中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。