欢迎来到天天文库
浏览记录
ID:34455078
大小:177.13 KB
页数:17页
时间:2019-03-06
《自动化所专利申请审批表new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、自动化所专利申请审批表2006年3月30日专利名称一种基于概率主题词的两级文本分类方法专利类型■发明□实用新型□外观设计发明人宗成庆、李寿山国家自然科学基金项目“基于对话内容的高鲁棒关联课题名称及课题号性信息提取方法研究”(项目编号:60375018)1、中国科学院自动化研究所申请单位2、发明人所属部门模式识别与智能系统重点实验室执笔人姓名李寿山联系电话010-82614468联系方式E-mail地址sshanli@nlpr.ia.ac.cn科研处领导审批意见年月日专利受理号及受理时间(由成果主管填写)备注IB061808说明书摘要本发
2、明涉及自然语言处理及模式识别领域,公开基于概率主题词的5两级组合文本分类方法,一级分类:基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效10率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分
3、类相比,能够大大减少时间消耗并能提高系统分类正确率。15201IB061808摘要附图1.概率主题2.第一级测试文本词提取分类器接受3.拒绝条件结果拒绝4.信息增益5.第二级结测试文本特征词提取果分类器1IB061808权利要求书1、一种基于概率主题词的两级组合文本分类方法,其特征在于,所5述方法包括:第一级文本分类:基于朴素贝叶斯分类方法,利用概率主题词特征对测试文本分类,利用拒绝条件判断是否属于朴素贝叶斯分类;第二级文本分类:对于第一阶段文本分类方法不能分类的文本,基于传统的特征提取方法提取出特征词,再利用这些特征词以及文本分类方1
4、0法进行第二次文本分类。2、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类的判断拒绝条件是:判断一篇文档是否可以用第一个分类方法分类,采用两个拒绝条件:利用计算文档属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目15大小。3、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,第一级分类步骤包括:a)提取概率主题词;b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分20类;c)确定两个拒绝条件;d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类
5、;4、根据权利要求1所述基于概率主题词的两级组合文本分类方法,25其特征在于,第二级分类步骤包括:aa)提取信息增益特征词;bb)利用一种分类方法对被拒绝的文本进行分类。5、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级分类步骤a,利用词属于每个类别中的后验概30率提取主题词。1IB0618086、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级分类步骤b,通过这些概率主题词特征计算文本的后验概率,概率值最大的类别为分类的可能结果。7、根据权利要求3所述基于概率主题词的两级组
6、合文本分类方法,5其特征在于,所述第一级分类步骤c,两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的。8、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于:所述第一级分类步骤d,如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程;109、根据权利要求4所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级分类步骤aa,利用传统的特征提取方法:信息增益或者文档频率提取特征词。10、根据权利要求4所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第
7、二级分类步骤bb,这个阶段的分类器是基于朴素贝15叶斯、支持向量机或者K近邻方法的分类器,可以选择其中的任一个分类器。11、根据权利要求2所述基于概率主题词的两级组合文本分类方法,其特征在于,所述拒绝条件是:第一个是判断由贝叶斯分类方法计算出来的文本的后验概率是否大20于某个阈值;如果文本属于具有最大后验概率的类别的概率值小于某个阈值,则拒绝分类;第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件;如果文本中提取出来的概率主题词的数目满足给定的不等式时,则拒绝分类。252IB061808说明书基于概率主题词的两级组合
8、文本分类方法5技术领域本发明涉及模式识别和自然语言处理技术领域,是一种基于概率主题词的串行组合文本分类方法。背景技术10文本分类(TextCategorization)是多种自然语言处理技术的综合应用之一,
此文档下载收益归作者所有