正文描述:《一种基于多重因子加权的文本特征项权值计算方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、一种基于多重因子加权的文本特征项权值计算方法:根据中文文本的特点,不仅考虑文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法?通过与基于词频及基于TF-IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率?己的信息,关键词:特征项;文本聚类;中文文本;自然语言处理:TP301:A1引言随着Internet的日益发展和网上各类信息的迅猛增长,文本聚类成为处理和组织大量文本数
2、据的关键技术之一[1]?因此,研究利用计算机进行文本聚类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题?但是,在现在的文本自动信息处理的研究中,研究者往往只试图从改进后期的处理算法来提高其效率或精度,而忽略了特征项权值计算方法的重耍性?因此,文章对特征项的权值计算方法进行了研究,并提出了一种基于多重因子加权的特征项权值计算方法?在该方法中,首先不是简单的依据词频来计算特征项的权值,而是对词汇在文本中的出现概率及语义特点进行分析并通过多重加权的方法来确定特征项的权值?文章将此特征项权值计
3、算方法应用于文本聚类,并进行了对比实验:实验表明这种特征项权值计算方法提高了聚类精度?这说明好的特征项权值计算方法能够更好地反映文本类型的根本特点和属性,对于提高文本信息处理的性能有着重要的作用?2特征项分析及多重加权通常文本数据具有有限的结构,甚至大部分没有结构,而文本的内容是用自然语言描述,计算机无法直接理解其语义和进行相应的处理,所以需要对文本进行特征表示,抽取代表其特征的元数据?在中文文本中,词是具有独立语义特性的最小单位,因此,在文本的特征值提取中都是按词来抽取特征项,然后将这些特征项用
4、结构化的形式表示?目前,在文本信息处理领域中,向量空间模型(VectorSpaceModel,VSM)是应用较多且效果较好的表示方法之一[2]?在VSM中,文本被形式化为多维空间中的一个点,其形式为:d=d(tl,wl,t2,w2,…,tn,wn),其中ti为特征项,wi为特征项的权值,简记为d=d(wl,w2,…,wn)?可见,向量空间模型中每一维的值表示该词语在此文本中的权重,用以刻画该词语在描述文本内容时所起作用的重要程度?传统计算词语权重的方法是词频,但是词频只是反映词语的出现频率,不能真
5、正反映词语在文本中出现的重要程度?因此,文章从文本特征项的出现频率和语义两个角度来考虑提出了一种基于多重因子加权的文本特征项权值计算方法?下面,先介绍频率加权因子?2.1频率加权因子频率加权因子是指特征项在文本中出现的概率(即词频)及特征项在文本集中出现的频率(即文本频数)两个权重因子?将这两个因子结合在一起,就得到了频率加权因子的计算公式,也就通常的TF-IDF公式[3],如公式(1)所示:其中,tf(ti,d)表示ti在文本d中出现的频率,如果一个词在这个文本中出现得非常多,那么它就非常可能与
6、这个主题密切相关,所以重要性就高,反之重要性就低?N是文本集中文本的个数,df(ti)是词ti在文本集中出现词ti的文本个数,N/df(ti)是逆文本频数,说明特征项在较多的文本出现,它的重要性就越低,集中在少数文本中,就具有较高的权重?在得到w(ti,d)之后,下一步就来考虑词语的语义信息,并且通过不断修改权值w(ti,d)的方式来反映词汇不同的特点?2.2语义加权因子对于自然语言(这里指中文),词语与词语之间存在着大量的语义关系,如同义?近义?同现等,另外,词语出现在文中的不同位置也有不同的语
7、义特点?语义分析,就是从中文文本的语义角度出发,希望能用对相应权值的改变来反映文本的语义特征?文章主要从下面三个方面来将语义信息反映到向量权值中?2.2.1位置权重国内有人抽样统计,国内中文期刊自然科学论文的标题与文本的基本符合率为98%,新闻文本的标题与主题的基本符合率为95%[4]?美国一学者进行过统计,反映主题的句子,80%出现在段首,10%出现在段尾?这说明不同位置的词对文本的作用也是不一样的,有些词虽然出现频率不高,但却很能反映文本的特性?因此,对于不同位置的词进行加权来处理?位置权重设
8、为o??ti,其值为:o??ti=l.0如果ti出现在标题中0.8如果ti出现在第一段中0.4如果ti出现在其它段中0.6如果ti出现在段尾(2)设s??ti为词在相应位置出现的次数,加入了位置权重的词权重计算公式如公式(3)所示:2.2.2词长权重一般说来,短词具存较高的频率和更多的含义,是面向功能的;而长词的频率较低,是面向内容的,增加长词的权重,有利于词汇进行分割,从而更准确地反映出特征词在文章中的重要程度?例如,“计算机”,“电子计算机”,“数字电子计算机”三个词专指性依次
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。