基于样本密度加权的神经网络分类器在文本分类中的应用

ID：8202510

大小：1.46 MB

页数：4页

时间：2018-03-10

资源描述：

《基于样本密度加权的神经网络分类器在文本分类中的应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、第２６卷第９期计算机应用与软件Ｖｏｌ２６Ｎｏ．９２００９年９月ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＳｅｐ．２００９基于样本密度加权的神经网络分类器在文本分类中的应用廖一星（浙江财经学院信息学院浙江杭州３１００１８）摘要为了提高文本分类精度，根据训练集的样本密度的不同，提出了一种基于ｋ最近邻密度估计的样本加权算法，从而使得样本密度较大的样本权重得到加强，处于样本密度平均水平的样本权重保持不变，而样本密度较小的样本权重得到减弱。并将这种方法所构成的神经网络分类器用于文本分类。实验结果表明，这种方法可以在一定程度上提高文本分类精度，优于原始的未加权的分类方法。

2、关键词　　ｋ最近邻密度估计神经网络文本分类ＡＮＡＰＰＬＩＣＡＴＩＯＮＯＦＳＡＭＰＬＥＤＥＮＳＩＴＹＷＥＩＧＨＴＥＤＮＮＣＬＡＳＳＩＦＩＥＲＩＮＴＥＸＴＣＬＡＳＳＩＦＩＣＡＴＩＯＮＬｉａｏＹｉｘｉｎｇ（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎ，ＺｈｅｊｉａｎｇＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ，Ｈａｎｇｚｈｏｕ３１００１８，Ｚｈｅｊｉａｎｇ，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　Ａｓａｍｐｌｅｗｅｉｇｈｔｅｄａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｋｎｅａｒｅｓｔｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎｉｓｐｒｏｐｏｓｅｄａｃｃｏｒｄｉｎｇｔｏｄｉｆｆｅｒｅｎｔｄｅｎｓｉ

3、ｔｙｏｆｔｒａｉｎｉｎｇｓａｍｐｌｅｓｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｐｒｅｃｉｓｉｏｎｏｆｔｈｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｕｓｔｈｅｗｅｉｇｈｔｏｆｓａｍｐｌｅｗｉｔｈｈｉｇｈｅｒｄｅｎｓｉｔｙｉｓｓｔｒｅｎｇｔｈｅｎｅｄ，ｔｈｅｗｅｉｇｈｔｏｆｓａｍｐｌｅｗｉｔｈｍｅａｎｄｅｎｓｉｔｙｉｓｋｅｐｔｕｎｃｈａｎｇｅｄ，ａｎｄｔｈｅｗｅｉｇｈｔｏｆｓａｍｐｌｅｗｉｔｈｌｅｓｓｔｈａｎｍｅａｎｄｅｎｓｉｔｙｉｓｗｅａｋｅｎｅｄ．ＴｈｅＮＮｃｌａｓｓｉｆｉｅｒｆｏｒｍｅｄｉｎｔｈｉｓｍｅｔｈｏｄｉｓａｐｐｌｉｅｄｉｎｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅｅｘ

4、ｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｉｍｐｒｏｖｅｔｈｅｐｒｅｃｉｓｉｏｎｏｆｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｔｏｓｏｍｅｄｅｇｒｅｅ．Ａｎｄｔｈｅｗｅｉｇｈｔｅｄｃｌａｓｓｉｆｉｅｒｉｓｂｅｔｔｅｒｔｈａｎｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｅｒ．Ｋｅｙｗｏｒｄｓ　　ｋｎｅａｒｅｓｔｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ　Ｎｅｕｒａｌｎｅｔｗｏｒｋ（ＮＮ）　Ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ象和模拟，是由具有适应性的简单单元组成的广泛并行互连的０　引言网络，它的组织能够模拟生物神经系统对真实世界物体所作出［５］的交互反应。神经网络一般

5、由多个神经元组成，每个神经元随着信息技术的迅猛发展，网络上的电子文档迅速增加，网有一个单一的输出，它可以连接到很多其它的神经元，其输入有络规模呈指数增长，如何处理这些海量数据，并对这些文档进行多个连接通路，每个连接通路对应一个连接权系统，这些神经元分类成为了一个重要的课题。文本分类技术为用户提供了一个互连构成自适应、非线性的动态系统。有力的工具。由于神经网络具有很强的自学习能力、联想存储能力、自适文本分类是指在给定类别的前提下，根据文本的内容将文应能力和很强的鲁棒型和容错性，因此神经网络常用于文本分本划分到已知的类别中。目前已经有很多基于统计和机器学习的文本分类方法，其中较为著名的

6、分类方法有ｋ近邻、Ｎａｖｅ类，是一种常用的文本分类方法。本文采用神经网络对文本进Ｂａｙｅｓ、神经网络（ＮＮ）、支持向量机（ＳＶＭ）以及决策树等方行分类。［１－４］法。当前，如何提高分类的准确性成了文本分类中的重要关注方向。２　分类器的设计及在文本分类中的应用本文提出一种基于ｋ最近邻密度估计的样本加权算法，根据样本密度大小调整样本的权重，对于样本密度较大的样本其２．１　文本预处理权重加强，处于样本密度平均水平的样本其权重保持不变，而低于样本密度平均水平的样本其权重减弱。将这种算法用于神经在文本分类之前，通常要对文本进行预处理，对于中文来网络，从而得到一种新的神经网络分类器，并应用在

7、文本分类说，主要是分词、去停用词。对于英文，则需要词根还原、去停用中。实验结果表明，本文提出的方法在一定程度上提高了文本词。在文中，文本训练集和测试集均采用中文语料，分词方法采分类的精度，优于原始的未加权的文本分类方法。用中科院的ＩＣＴＣＬＡＳ系统分词。１　人工神经网络收稿日期：２００８－０３－１８。廖一星，讲师，主研领域：机器学习，中文人工神经网络是对人脑或自然神经网络若干基本特性的抽信息处理。第９期廖一星：基于样本密度加权的神经网络分类器在文本分类中的应用２３５２

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于样本密度加权的神经网络分类器在文本分类中的应用

基于样本密度加权的神经网络分类器在文本分类中的应用

相关文章

相关标签