欢迎来到天天文库
浏览记录
ID:53729462
大小:205.66 KB
页数:2页
时间:2020-04-20
《数据抽取中文本分类分析与研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Science&TechnologyVision科技视界科技·探索·争鸣数据抽取中文本分类分析与研究郭东峰(新乡学院计算机与信息工程学院,河南新乡453000)【摘要】在数据抽取中,主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领域都有着广泛的应用。经过分类后的文本可以减少用户甄别信息时间,满足不同用户需求,发挥信息自身其最大使用价值。【关键词】向量;信息增益;特征项0引言含t的文档频数,D是既不属于c也不包含t的文档频数。则t对于类别c的CHI值由下列计算:Web信息抽取技
2、术可以大大的缩短人们对资料的整理时间,为信2息检索提供方便,有利于现实文档的存档管理。而Web信息抽取技术,“一Nx(AD—I)一而所抽取的内容主要为文本,不断迅速发展的互联网可以被看作是十分2.2互信息巨大的文档库,大量的文档信息通常分散存放在不同网站上,它们具互信息的基本思想:以词条t和类别ci之间的共同出现程度来表有不同的表现形式。为实现数据抽取,首要任务是需要将文本分类处示词条t与类别ci的相关程度。词条对于类别的公共概率越大,它们理。之间的互信息也越大。假设p(t,ci)表示训练集合中既包含特征t又属1文本的表示方法于类别
3、ci的文本出现的概率,pf1)表示包含特征t的文本在训练集合中出现的概率,p(ei)表示训练集合中属于类别ci的文本的概率,A为普通的文本是无结构的,为了让计算机分析它们所属的类别,需包含词语t且属于类别ci的文本数,B为为包含词语t且不属于类别要将文本转化成可被处理的结构化形式,目前应用最广泛方法的是向ci的文本数,C为类别ci中不出现特征t的文本数,N为文本总数.则量空间模型,基本思想是把文档表示向量空间中的一个向量。特征项特征t与类Ci之间的互信息定义为:必须具备一定的特性:M(t,ci)=log丽p(t,ci)=loglog
4、丽AxN1)特征项要能够准确标识文本内容,表征文本的主题信息;2)特征项具有将目标文本与其他文本相区分的能力;为了衡量一个特征在全局特征选择中的重要性,计算特征提供的3)特征项的在数量上不能太多,且出现频率适中;关于类别信息的加权平均值。4)特征项要容易从文本中分离,具有明确的语义。2.3信息增益在中文文本类中最常用的是采用词语作为文本的特征项。词语有信息增益方法的基本思想是:通过计算某个特征词语存在与否对几个优点:相对于字具有更强的语义信息歧义较少;相对于短语,词更文档的信息熵的差值来判断该特征词的类别表征能力。具体方法是把容易从
5、文本中进行切分。词语由于含了多个文字组合,在文本中出现训练文档集D看作按某种概念分布的信息源,依靠文档集的信息熵的频率较低,不适合作为特征项。和文档中词语t的条件熵之间信息量的增益关系确定该词语在文本文本中关键字出现的频率统计量用x表示,最高关键字出现频率分类中所能提供的信息量。取值为1,其它关键字频率取其与最高关键字出现次数的比值。页面向量空间表达式为:Dt(xlwl,x2w2.⋯,xnwn),i_12一,n。关键字构成的3中文文本分类方法主题向量Dk=(W1,w2,⋯,Wn1.i-1.2,⋯
6、n^网页文本Dt与领域主题Dk文本分
7、类的方法中要有贝叶斯分类、支持向量机、K近邻等方法。之间的内容相关度SiIn(Dt.Dk)使用向量夹角余弦值表示:3.1朴素贝叶斯文本分类nnsim,Dk)=cos0=1fT贝叶斯分类器其原理是计算文本属于某个类别的概率,将文本分t11工,j2,7到概率最大的类别中去,计算时,利用了贝叶斯公式:XI·WI+X2W2+⋯YJ一nP(cil:僳22‘选择合适的多个特征词构成特征向量来表征所在的文本主题,使Pfc.1是类的先验概率,P(dxlci)是类的条件概率。对同一篇文本,P用特征向量作为文档的中间表示形式进行相互比较,降低了文本相似
8、(dx)不变。设dx表示为特征集合(tl,t2⋯tn),n为特征个数,假设特征度算法复杂度。之间相互独立,则有:2文本特征的选择P(d,Ic)=P(Ic,)xP(t2))(..‘xP(tIc)=l1P(t,Ic)J=I待分类的网页文本中往往包括很多词语,这些词语对分类没有太其中Pfli_ci)为特征词的条件概率。大帮助,未经筛选特征项集合规模较大,文本特征向量维数较高给计贝叶斯分类器因具有容易实现,运算速度快的特点而被广泛使算带来困难。需要提取一个能够很好地概括领域相关网页内容的特征用。子集,同时该子集要求能很好的区分领域主题。领域
9、关键词是从领域3.2K近邻文本集中经过算法选取出来的,能够高度概括和体现领域文本基本内K近邻分类算法是一种非参数的分类技术,在基于统计的模式识容的词语。本文将这些词语通过特征提取算法选择出来构成空间向别中非常有效。量。目前常用的特征选
此文档下载收益归作者所有