欢迎来到天天文库
浏览记录
ID:55734535
大小:596.42 KB
页数:6页
时间:2020-06-05
《基于朴素贝叶斯算法的水产类专利文本分类.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第29卷第1期渔业信息与战略Vo1.29.No.12014年2月FisheryInformation&StrategyFeb.,2014文章编号:2095—3666(2014)O1—0054—06基于朴素贝叶斯算法的水产类专利文本分类范秀梅,张胜茂,岳冬冬(中国水产科学研究院东海水产研究所,中国水产科学研究院渔业资源遥感信息技术重点开放实验室,上海200090)摘要:本文选取公开日从1992年1月1日到2011年12月31日的水产类的9894条失效专利作为数据挖掘的文本。从中选出56条专利,利用分词器对其摘要进行分词,并通过卡方检验的方法过滤掉与分类相关度比
2、较小的词,形成词组矩阵。然后采用朴素贝叶斯的方法对这些矩阵进行训练并设计程序。使用训练过后的程序对失效专利进行分类测试,合格后再对所有的专利的摘要文本进行分类,并对分类结果进行了分析和验证。验证的结果表明该程序对文本进行分类的准确率达到了85%,达到了比较好的可信度,可以用它对文本分类。如此我们就可以把失效的水产类专利文本按照设定的类别进行归类,了解一个时间段它们的分布情况,为以后做决策提供参考。关键词:朴素贝叶斯;文本分类;卡方检验中图分类号:O213文献标识码:A文本的分类就是将其归入预先定义的几个要文本进行分类,分类的步骤主要有三步:首先类别中,它在人
3、们的生活中变得越来越不可缺从用来训练的文本中抽取特征词矩阵;第二少,例如垃圾邮件的判断、网页的分类、在搜索引步,机器学习,利用前面的特征矩阵训练程序;第擎中的应用等等。文本分类¨I2的方法分为三个三步,分类测试合格后对需要分类的文本进行分大类:手工分类、人工编写规则、机器学习。前两类。者需要很高的开销,成本太大,使得机器学习的1文本分类文本分类方法成为了主流。近些年以来,自动文本分类发展迅速,产生了诸多有效的自动分类方1.1朴素贝叶斯法。机器分类有几种不同的分类模型:朴素贝叶斯模型、向量空间模型、语言模型、神经网络和朴素贝叶斯文本分类方法因算法简单、计决策树
4、等。在这些方法中,朴素贝叶斯是一种基算效率高、分类结果较理想,使用较为广泛。下于概率统计的机器学习模型,算法简单,效率高,面推导下贝叶斯的公式,首先由条件概率公式在很多领域都有广泛的应用。用它分类文本的得:效果相对来说比较好,因此也被广泛地应用于文P(ANB)=P(AIB)P(B)=P(Bl4)P(A)本分类。P(AlB)=P(AlB)P(B)/P(A)(1)本文利用朴素贝叶斯方法对失效专利的摘待分类的文本经过分词器分成一组单词A收稿日期:2013—11—01修回日期:2013—12—22基金项目:“十二五”国家科技支撑计划项目(2013BAD13B01);
5、上海市科学技术委员会资助项目(12511501200)作者简介:范秀梅(1984一),女,助理研究员,硕士,研究方向:渔业遥感,物理海洋。E-mail:fxmlfxm@163.tom通讯作者:张胜茂(1976一),男,副研究员,主要研究方向:渔业遥感,地理信息系统。E-mail:ryshengmao@126.com第1期范秀梅等:基于朴素贝叶斯算法的水产类专利文本分类55(a,a:,⋯,a),然后比较该组词属于B(B,B:,关的,由联合概率分布得:⋯B)各个分类的概率大小,从而得到该文本所C=m,ax(ⅡP(n『lB)P(B))(5)属类别。把(5)代人(4
6、)得:nP(nl,02,⋯,0)=E:lP(B)P(口1,02,⋯,nIP(a1,a2,⋯,alB)=11P(ajlB)(6)B)(2)(6)式即为用来确定文本属于何种分类的公由全概率公式得:式。P(Bla1,a2,⋯,a)=1.2卡方检验P(0l,a2,⋯,a)P(B)⋯P(a1,a2,⋯,a)在确定了各个分词在不同分类中出现的概显然,在计算文本属于某一类别的概率公式率后,还需要检验各个分词对分类影响的大小,(2)式中,等式右边分式的分母是一个常数,我们即进行分词与分类的相关性分析。去除影响小只需要比较属于各个类别概率的大小,故(2)式的分词,留下对分类影
7、响大的分词,从而提高分可化为求解下式的最大值:类的准确性。卡方检验是一种用途比较广泛mC=ITIaX(P(a1,a2,⋯,alB)P(B))(4)的假设检验方法,本文用到其中的四表格资料检.验方法。四表格资料检验应用条件¨:要求样本其中P(B)为先验概率,由用来训练的文本含量大于40且每个格子中的理论频数不小于5。来决定,为条件概率。朴素贝叶斯中假设文本的特征属性a,a,⋯,a之间的分布是独立不相表1卡方检验的四表格数据Tab.1Fourtabulardateforchi-squaretest为了判断分类和某词是否有关系,需要计算择第二种方法。统计量卡方的值
8、,它是每个格子实际频数A和理s[j][0]=max(
此文档下载收益归作者所有