广义词汇共现模型研究

广义词汇共现模型研究

ID:34420917

大小:267.62 KB

页数:5页

时间:2019-03-06

广义词汇共现模型研究_第1页
广义词汇共现模型研究_第2页
广义词汇共现模型研究_第3页
广义词汇共现模型研究_第4页
广义词汇共现模型研究_第5页
资源描述:

《广义词汇共现模型研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、http://www.paper.edu.cn广义词汇共现模型研究乔亚男齐勇西安交通大学电信学院计算机系,西安(710049)E-mail:new_siberia@163.com摘要:词汇共现研究最初是在信息检索的查询扩展研究的基础上发展起来的。词汇共现模型反映了词汇共现研究的基本框架和采用的相关技术,可以对词与词之间的相关性进行量化的比较,它被广泛地应用于信息检索、文本聚类等研究中。本文提出了广义词汇共现模型(GeneralTermCo-occurrenceModel,GTM),该模型统一了传统的词汇共现模型密切关注的两个方面,可以将分别注重于两个方面的

2、诸多传统模型叠加成很多复合模型,以便适应各种不同的应用环境。关键词:信息检索,自然语言处理,词汇共现,词汇共现模型中图分类号:TP391.31.概述在信息检索领域研究的早期,信息检索系统一般都采用基本的布尔模型,而用户在进行查询的时候使用的查询词通常很少,但自然语言中同义词繁多,再加之英语中即使同一个词在不同地区也有不同的拼法(如“refrigerator”和“fridge”等),直接导致当时的信息检索系统的查全率非常低。为了解决这个问题,部分研究者尝试在用户查询中添加查询词的同义词或近义词来进行查询扩展(QueryExpansion)来提高查全率,取得了

3、非常好的效果。随后又有研究者试图在用户查询中进一步添加和查询词有语义关系的非同义近义词,尽管研究证[1]明这种方法对于信息检索系统性能改善并不大,但建立在查询扩展研究基础上的词汇共现(termco-occurrence)研究却应运而生并在众多领域发挥了重要作用。词汇共现研究是在基于统计的计算语言学研究领域的重要课题之一。以一个词为中心,可以找到一组经常与之搭配的词,称之为共现词汇集,它描述了这个词的语义上下文和语境。针对共现词汇集的生成和应用的研究称为词汇共现研究,而相应的词汇共现模型(Co-occurrenceModel)则反映了共现词汇研究的基本框架和

4、采用的相关技术。词汇共现模型是建立在这样一个基本假设的基础之上的:如果在大规模语料(训练语料)中,两个词经常共同出现(共现)在同一窗口单元中,则认为这两个词在意义上是相互关联的,而且,共现的频率越高,其相互间的关联越紧密.利用词汇共现模型可以对词与词之间的相关性进行量化[2]的比较,因此,词汇共现模型广泛地应用于信息检索、文本聚类等研究中。在词汇共现模型研究的过程中,研究者们通常从两个角度进行分析:第一,如果两个词同时出现于一个窗口单元,如何评价这两个词在这个窗口单元中含义的关联程度?第二,如果在一个文档中有多个这样的词汇共现窗口单元,如何评价这两个词在这

5、个文档或文档集中含义的关联程度?针对这两个问题,研究者们提出了多种不同的评价模型,但基本都是针对这两个问题中的某一个问题的处理进行孤立地改进,而简单地忽略或者简化另一个问题的处理,没有进行全面综合的考虑,势必影响了评价模型的性能和适用范围。本文提出了广义词汇共现模型(GeneralTermCo-occurrenceModel,GTM),该模型统一了传统的词汇共现模型密切关注的两个方面,可以将分别注重于两个方面的诸多传统模型本课题得到教育部博士点基金(项目编号:20060698018)和国家自然科学基金(项目编号:90612014)的资助。http://ww

6、w.paper.edu.cn叠加成很多复合模型,以便适应各种不同的应用环境。本文其他部分的内容的组织方式如下:第二部分简要叙述词汇共现模型的一些基本概念以及相关研究者的主要工作;第三部分给出广义词汇共现模型的形式化定义,并对实际应用中广义词汇共现模型针对传统模型的常见复合形式进行了讨论;第四部分小结。2.相关研究现状项(Term)是词汇共现模型研究中最基础的概念。文本的内容特征常常用它所含有的基本语言单位(字,词,词组,或短语等)来表示,这些基本的语言单位被统称为文本的项。由此可见,项和一般意义上的词(Word)是既有联系又有区别,项偏重于描述抽象的概念(

7、concept),是跨语言的,在一种语言中一个项是一个词,同一个项在另外一种语言中可能就是一个词组,甚至一个短语。其实,“词汇共现”、“词汇共现模型”这个说法改成“项共现”、“项共现模型”似乎更准确一些。词汇共现模型事先约定一个窗口单元的大小,当两个项同属于一个窗口单元的时候认为这两个项共现。对大量长短不一,并且每篇文档都有明确专业背景的文档集进行分析时,有时也可以将整个文档视为一个窗口。同一个窗口单元中若干个项的有序排列称为项组(TermArray),如果是两个项的有序排列也称为项对(TermPair)。词汇共现模型的研究通常都被归结为两个方面:一是针对

8、一个窗口单元,如何计算特定项对的相关度,二是针对整个文档中的多个窗

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。