韵律结构预测报告

韵律结构预测报告

ID:42072320

大小:304.62 KB

页数:13页

时间:2019-09-07

韵律结构预测报告_第1页
韵律结构预测报告_第2页
韵律结构预测报告_第3页
韵律结构预测报告_第4页
韵律结构预测报告_第5页
资源描述:

《韵律结构预测报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、韵律结构预测调研报告六,基于文本信息的韵律结构预测1.韵律词的预测根据不完全的观察分析,在语句内部,凡是以下情况一般都会出现大小不同的停延,条件是后随多音节结构,或者连接两个复杂的成分:(1)人名、尤其是外国人名之后和地名之后;⑵时间名词和数量词之后;(3)多昔节动词之后;(4)方位词(如:前、后、上、下)和趋向词(如:来、去、进、出)之后;(5)并立连词(如:和、及、跟、与、同、以及)之前和或之后,而且,连词之前的停延常常大于连词之后的。⑹转折连词(如:不但…而口、虽然…但是、由于…因此(因而)、因为…所以、如

2、果…那就、既然…也就、与其…不如)之前或之后;(7)助词(如:的、地、得、着、了、过)之后;(8)双音节副词(如:往往、常常、经常;十分、非常;从前、后来、目前、已经;仅仅、多半)之后。双音节或三音节的语法词一般直接构成韵律词。可是,在实际语言里,还存在着许多单咅节的语法词。在实际的话语中,为了满足韵律上的需要,单咅节的语法词都会或者通过延长该音节,或者前附或者后附到另一个标准音步上,或者跟前后其它的单音节词组合,设法凑足一个标准音步或超音步,从而构成一个韵律词。主要原则是:第一,单咅节词或者因为处于重读地位,或

3、者因为左邻右舍已经是完整的咅步而无所依附时,就通过本身延长为一个音步,从而构成独立的韵律词;第二,单音节词处于非重读地位,如遇前后是单音节词或双音节词时,就彼此粘附,构成一个韵律词。此外,韵律词的组成还受语法词词性的约束。可以概括如下⑹:(1)单音节或双音节的名词(动名词)或者形容词,可以跟单音节或双音节的名词组成韵律词;(1)单音节或双音节的动词,可以跟形容词或者单音节方位词或趋向词或“了,着,过,至U,个,些,点”构成韵律词;(2)单咅节能愿动词可以和单咅节动词构成韵律词;(3)单音节或双音节名词,代词,动词

4、,形容词可以和“的”构成韵律词;(4)单音节或者双音节副词,可以跟介词和人称代词一起构成韵律词(如:就把我);(5)双音节副词可以跟“地”构成韵律词(如:轻松地);(6)单音节或双音节副词,可以跟形容词或动词或动补构成韵律词(如:很大);(7)代词可以跟单咅节或者双咅节的名词,动词或者数量词组成韵律词;⑼“还是”或“就是”可以和代词构成韵律词;(10)“也”或“还”可以和“将于”构成韵律词;(11)单音节的连词,可以和单音节的介词,系词,连词以及单音节或者双音节的名词或者是双咅节的名词,代词组成韵律词。1.停延(

5、韵律边界)的位置分布及其等级的预测这部分预测的核心问题是,如何对文本正确地、自动地实行短语切分。也就是说,通过恰当的停延设置,获得正确的韵律边界及其等级,实质上就是确定哪些词边界只是韵律词的边界,哪些则是韵律短语的边界。具体步骤如下:(1)对目标语句进行分词和词性标注;(2)利用分词和词性信息,实行韵律构词;(3)对目标语句进行句法切分和句法标注;(4)构建韵律结构预测树;(5)确定韵律边界位置,计算其韵律距离的大小;(6)输出语句的韵律组块分合及其层级结构预测树的构建方法:这里的预测树⑺是一种综合利用句法、词性

6、和韵律信息构建出来的。它的上半部是个倒置的二分义树(binarytree),它是在语法分词和韵律构词的基础上,根据通常韵律上偶分的倾向,首先把句法上距离最近的韵律词两两连接为节点,然后再依此法建立更高层次的节点。因此,其中的每个节点就代表各自所包含的两个下位树杈(即韵律词或韵律短语)之间的一个韵律停延。根据这种二分叉结构,就可以判断这个句子的韵律层级:越是接近根部的节点,所代表的停延就越明显,也就是韵律边界越强。预测树的下半部代表通过句法切分获得的句法结构,这里采用直接成分分析法,把整个句子逐层划分成短语和词,并

7、且加上了句法和词性标注,以供韵律构词和构建预测树参考。W北京的街头岀现了购买空调的高潮531韵律边界等级预测一:基于相似句的韵律短语预测该方法的基本思想是:首先标注一个大的语料库,对于任何需耍标注的句子都在这个语料库屮检索,找到若干个相似句,模仿该相似句的标注形式,对待标注的句子进行标注。1.1相似度度量对任意一个输入句,首先计算句子的信息模块,获取必要的语法、语义和语音信息。然后根据定义的相似距离度量方法,计算该输入句和己经标注句库中的每一个句子的韵律相似程度,找出最相似的一个或者多个句子。最后根据这些相似句子

8、的韵律短语边界,确定输入句的韵律短语边界。语音信息中我们主要使用句子的分词和词性信息。语义信息方面,我们把每个单词的语义进行形式化,方法是根据《同义词词林》查找每个词的义类代码。语咅信息我们只取词语的咅节数目。相似度是用编辑距离来表示的。编辑距离是指,通过插入、删除和替换操作,把一个字符串变成另一个字符串所需的最小操作数。1.2编辑距离的计算在词性编辑距离计算中,把词性当

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。