用稀疏贝叶斯概率模型做文本分类

用稀疏贝叶斯概率模型做文本分类

ID:20975720

大小:54.00 KB

页数:4页

时间:2018-10-18

用稀疏贝叶斯概率模型做文本分类_第1页
用稀疏贝叶斯概率模型做文本分类_第2页
用稀疏贝叶斯概率模型做文本分类_第3页
用稀疏贝叶斯概率模型做文本分类_第4页
资源描述:

《用稀疏贝叶斯概率模型做文本分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、用稀疏贝叶斯概率模型做文本分类用稀疏贝叶斯概率模型做文本分类燕荣江(辽宁师范大学数学学院,辽宁大连116029)【摘要】如今,当处理大量数据集的协变量时,相比小样本量的一个常见问题是:估计与每个协变量相关联的参数。当协变量的数量远远超过样本的数量,参数估计变得非常困难。在这项研究中,我们开发了一个稀疏的Probit贝叶斯模型(SPBM)的基础上吉布斯抽样,其利用双指数函数之前诱导收缩,并减少在模型协变量的数目。使用6个领域,如数学,在维基百科已下载的方法中进行评估。我们通过计算并根据执行训练和测试组的分类的阈值作为决策规则。利用遍布全球50个运行平均灵敏度和特

2、异性我们的模型的表现相比,支持向量机(SVM)。该SPBM实现了高分类精度和几乎所有的分析领域优于SVM。.jyqk),以避免过多问题并获得充分的条件分布的所有参数。虽然减少一些不用的协变量为零,SPBM允许我们以识别具有最大的辨别能力判别协变量较小的子集。为了创建我们的模型,我们首先建立了多层贝叶斯层次模型。然后,根据制定的吉布斯采样算法,我们使用马尔可夫链蒙特卡洛方法来估计与所述协变量相关联的参数。发达SPBM自动收缩系数小到零,这是一个很大的灵活性,以适应许多校正模型中的一个步骤。最后,拟合模型被用于执行不同分类的数据集。本文的其余部分将作如下安排,在第

3、2节中,我们将首先简要介绍一下有关参数估计的不同方法相关工作。然后,我们将解释我们的方法,其中包括SPBM,采样,以及使用的预测参数。我们最后证明我们在部分应用程序和结果。2SVM模型简介在本节中,我们将会使用参数估计的机器学习算法和其他重要的方法的简单概述。支持向量机(SVM)是用在机器学习来处理高维和数据的稀疏性的一种替代。虽然样本量小,支持向量机通常实现低测试错误。有几篇论文报告了使用支持向量机用于可变的选择的目的良好结果。然而,该方法有许多缺点,例如缺乏概率输出和权衡参数估计的必要性,以利用Mercer内核函数。我们引入了一个机器学习算法和概率主题建模

4、(PTM)。PTM旨在从文本中自动提取主题。例如,如果我们将算法应用于过去几个话语的政治家,它产生的经济,战争,作为输出。概率的相关性建模是该算法提取的主题。因此,在某些情况下,可以考虑最额定主题作为文本的主题。然而,LDA的性能被一些研究人员比较后,无非是迭代键盘搜索算法。该算法也仅限于文本中使用的词语。举例来说,如果你正在寻找的意识,并给予有关土木工程的算法作为输入的文本,该算法只会告诉你关于建筑和结构。另一种方法用于在统计参数估计线性回归。它是模拟的响应变量和一个或多个协变量之间的关系的方法。该方法已被广泛地用在不同的应用程序。在线性回归模型中,普通最小

5、二乘法(OLS)被用来获取参数的估计。OLS通过最大限度地减少残余误差和估计的参数。然而,该方法存在两个缺点:一是尽管由模型所获得的估计的参数具有低的偏压,往往有很大的差异,降低了模型预测的准确性;二是当有大量的协变量,期望建立的参数的一小部分,提供在响应变量作用最强。OLS估计精度可以提高通过设置无关紧要的协变量为零,因此获得更准确的估计协变量。我们将讨论这个方法在我们的方法部分加以改进。逻辑回归是一种广义线性模型方法,当响应变量分类时,这种方法可用于建模。在文本分类中,逻辑回归方法通常用于查找最大似然估计。例如,许多软件包使用牛顿迭代的迭代算法或费舍尔的评

6、分方法的变化。要找到最大似然估计,上述软件包实现最大化的程序,它使用矩阵求逆。然而,当协变量的数量是非常大的,矩阵求逆的方法是计算密集型的。因此,所估计的结果往往受到收敛精度差和缺乏真正价值,其中相关的真值是全局最大值。此外,这些方法失败时参数的数量要远远超过预测数量的观察。因此,上述方法不能进行参数估计和良好的协变量的分类。因此,对于文本分类来分析数据集的样本大小远小于协变量的数量,新方法是必需的。另一种避免过度拟合高度正规化处罚回归模型等方法。这些模型需要确定非零系数,提高模型的可预测性并避免过度拟合。避免过度拟合问题是一种广泛使用的模型,该模型可以通过收

7、缩和正则化方法来提高参数估计性能,通过减少均方误差引入一些偏见。此外,通过在模型中诱导稀疏性,收缩的方法突出重要的协变量。这些方法同时促进许多协变量的分析。为了避免在文本分类过度拟合问题,在文献[2]中,使用了逻辑回归的贝叶斯方法。他们使用支持稀疏的先验概率分布模型。这种模型是面向找出最大后验作为参数点估计的优化算法。然而,它们的优化方法是一种局部优化,从而导致点估计的参数。因此,该方法不能提供完整的后验分布的参数。其中,最小绝对收缩和选择算子(LASSO),是一种非常有效的惩罚回归方法之一。被广泛用于预测的模型拟合目的和响应变量。LASSO贝叶斯方法提出了双

8、指数是用于实施稀疏模型参数。允许数据自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。