基于统计的中文词自动分类研究

基于统计的中文词自动分类研究

ID:46500663

大小:55.00 KB

页数:7页

时间:2019-11-24

基于统计的中文词自动分类研究_第1页
基于统计的中文词自动分类研究_第2页
基于统计的中文词自动分类研究_第3页
基于统计的中文词自动分类研究_第4页
基于统计的中文词自动分类研究_第5页
资源描述:

《基于统计的中文词自动分类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于统计的中文词自动分类研究973国家重点基础研究项目、国家自然科学基金项目。赵石顽夏莹马少平智能技术与系统国家巫点实验室淸华人学计算机系100084E-mail:xia@sl000c.cs.tsinghua.cdu.cnTel:010-62782266—、弓I言基于统计的中文词分类在白然语言处理领域冇着重要的应用。机器白动生成的词类可以取代文法的词类:在分类基础上建立的基于类的语言模型可以应用于语音识别、OCR、汉字智能输入等许多领域。众所周知,基于词的语言模型在口然语言处理的许多方面取得了巨大的

2、成功。然而,基于词的语言模型也存在着许多的问题,如参数空间庞大,训练数据不足,数据稀疏等。词的分类可以在一定程度上解决上述问题。在计算语言学方面的应用中,不管是釆用统计的方法,还是釆用文法的方法,对词类进行处理都比对单个的词进行处理时问题的复杂度要小得多。我们用基于类的语言模型取代基于词的语言模型,可以减小模型的参数空间,减少系统对存储空间的要求。从而可以在小型的系统如掌上电脑、移动电话上建立基于类的语言模型,实现智能输入等。词的分类是建立基于类的语言模型的基础。无论是针对屮文,还是别的语言,人们对

3、词的类算法已经做了许多的研究。Brown等人提出了两个词的白动分类算法。在他们实现的两个分类算法中,都是利用平均互信息作为评价函数。算法1.(1)首先将每一个词都当成一个单独的类,然后计算所有相邻类的互信息;⑵将互信息损失最少的两个类合并;⑶经过V—C次合并得到C个类;⑷在得到C个类以后,把词汇表中的每一个词移到一个使得平均互信息最大的类屮,重复该步骤直到互信息不再增加为止。然而,他们认为,当词汇表的大小超过5,000时,这个算法是不可行的。算法n.对一个人的词汇表,(1)将c个频度最高的词作为c个

4、单独的类;⑵将未被分配的词屮频度最高的一个词作为第C+1类,然后将这C+1个类中互信息损失最wenjian-3少的两个类合并;(3)经过V—C步后,词汇表中的V个诃被分成C个类。用这个方法,一个有260,741个英文单词的词表被分成了1,000类。Chang和Chen在他们的论文中,以混乱度作为全局最优评价函数,提出了一个模拟退火的词分类算法:(1)初始化:将每个词随机分配到一个类中,类的总数是事先定义好的。(2)移动:随机地选取一个词,将该词重新分配到一个随机选取的类中。(3)接受或者返回:如果混

5、乱度的改变在控制的范围之内,则接受新的分配,否则,撤销刚才2的操作。(4)循环:重复上述两个步骤,肓到混乱度收敛为止。该算法试图找出一个全局最优的分类方案,但是在训练集比较人的时候,算法的时间复杂度太人。Gao和Chen提出了一个自顶向下的二叉树分裂的方法,他们利用词的上下文的方向性,同时得到两个分类二叉树。McMahon在他的论文屮,提出了一个类似退火的分类算法。李涓子在她的博士论文中,提出了一种聚类的算法。她认为聚类过程主要由三个部分组成:聚类吋词分布的描述方法,聚类釆用的控制策略以及控制聚类过

6、程的口标函数。她在聚类吋是采用口顶向下的方法,词的分布信息用的是词的二元同现关系,利用信息论中的嫡作为聚类时的冃标函数。上面描述的自顶向下分裂的方法和从下而上合并的方法,两者具有一定的互补性。在自顶向下的方法中,上层的失误在下层是无法纠正的,而只下层的分类结果精确度较低。因此,在木文中,我们采用自顶向下分裂和从下而上合并相结合的方法。我们使用平均互信息作为分类的全局评估函数,分类过程分为两个步骤,首先,我们采川合并的方法将词表中的一些词聚在一起,形成一些小的词类。在笫二个阶段,我们把第一步得到的词类

7、作为一个单独的词來加以考虑,然后采用自顶向下的方法,对整个词表进行分类。在实际的工作屮,我们首先对大规模语料文本进行了统计和计算工作,得到词的一元和二元信息,在这个基础上,我们进行了词的分类。我们对实现的系统进行了i系列实验,实验结果是令人满意的。本文笫二节介绍了我们采用的分类算法,第三节给出了分类的结果及其在基于类的语言模型中的应用,第四节给出了我们的一些结论。二、中文词分类算法(一)互信息的计算公式词分类算法的实现跟采用的评价函数密切相关。木文采用平均互信息作为全局评价函数对汉字进行分类。根据信

8、息学原理,爛的定义如2H(X)三工〃(兀)log亠其中X是一个离散的随机变量,其概率分布为p(x),xeX0嫡H(X)是一个描述随机变量X的不确定性的统计量,一个随机变量的嫡越大,它的不确定性也就越大。我们通过上面的公式导出两个随机变量Z间的互信息公式。M(X,Y)三H(X)—H(XIF)从上面的公式屮我们可以看出,在已知Y的情况卜,随机变量X的不确定度程度会减小,而两者之间的互信息表明了这个减少的程度。在白然语言中,词类{dzG,……CN}的分布显然也满足随机分布,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。