信息科学技术学院.ppt

信息科学技术学院.ppt

ID:49285059

大小:271.00 KB

页数:22页

时间:2020-02-03

信息科学技术学院.ppt_第1页
信息科学技术学院.ppt_第2页
信息科学技术学院.ppt_第3页
信息科学技术学院.ppt_第4页
信息科学技术学院.ppt_第5页
资源描述:

《信息科学技术学院.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、TextCategorizationIIWangJiminNov18,2005上次课主要内容分类过程构建分类器的方法Rocchio方法朴素Bayes(NaiveBayes)k-近邻法(k-NearestNeighbor,kNN):支持向量机(supportvectormachine,SVM)分类结果评估特征选取的方法OutlineClassifiers神经网络(NeuralNetwork,NNet)线性最小平方拟合(LinearLeast-squareFit,LLSF)支持向量机(SupportVectorMachines,SVM)(重点内容)Thresh

2、oldstrategy自动文本分类的一般过程(中文网页)神经网络(Neuralnetwork,NNet)是人工智能中研究比较成熟的技术。神经网络最早是由心理学家和神经生物学家提出的,旨在寻求和测试神经的计算模拟。神经网络是一组连接的输入/输出单元,其中每个连接都与一个权值相连。在学习阶段,通过不断调整神经网络的相连权值,使得能够正确预测输入样本的正确类标号。NNet神经网络通常由输入层、输出层和隐藏层组成,输入层的神经元个数等于样本的特征数,输出层就是分类判决层,它的神经元个数等于样本的类别数。特点:对噪声数据具有较高的承受能力,但训练需要花费较长的时间。

3、NNet目前最流行的神经网络学习算法是:后向传播算法(Back-propagation,BP)。它通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学习。对于每个训练样本,修改连接权值,使得网络预测与实际类之间的均方误差最小。这种修改“后向”地进行,即由输出层,经由每个隐藏层,到第一个隐藏层。BP算法基本步骤1.初始化网络各层的权值及神经元阈值。(一个小的随机数)2.向前传播输入:对每一样本,计算隐藏层和输出层每个单元的净输入和输出。BP算法基本步骤3.后向传播误差通过更新权值和偏置以反映网络的预测误差。BP算法基本步骤终止条件:

4、更新权值较小正确分类的样本百分比超过预先指定的训练周期(实践中,权收敛可能需要数十万个周期)OutlineClassifiers神经网络(NeuralNetwork,NNet)线性最小平方拟合(LinearLeast-squareFit,LLSF)支持向量机(SupportVectorMachines,SVM)(重点内容)ThresholdstrategyLinearleast-squareFitLinearRegressionProblemLookforsomearbitrarywTsuchthatwTxi.+w0directlypredictsthel

5、abelciofdocumentxi.Minimizethesquareerrorbetweentheobservedandpredictedclassvariable:Sum(wTxi.+w0-ci)Widrow-Hoff(WH)updaterule(梯度下降法的一种).TwoequivalentinterpretationsClassifierisahyperplane---g(x)=wTx+w0=0DocumentsareprojectedontoadirectionwT(垂直于超平面)Yang’sresult:outperformingNaïveB

6、ayesandkNN支持向量机支持向量机(SupportVectorMachines,SVM)----今天的重点内容自动文本分类的一般过程(中文网页)分类方法的划分我们主要介绍的是文档分类算法都属于统计学习法。根据分类结果的不同,基于统计学习法的分类系统在整体上可以被分为两类:独立二元(IndependentBinary)分类系统和m元(m-ary)分类系统所谓独立二元分类,就是给定一篇文档,分类系统对每一个类都独立地判断这篇文档是否属于该类:要么属于,要么不属于,而不存在其它的结果,并且在分类过程中,不同类别之间互不影响。所谓m元分类就是给定一篇文档,系

7、统计算这篇文档与所有预先定义的类的相似度,并按这篇文档和各个候选类的相似度排序,最后输出候选类列表。Thresholdstrategies阈值选取策略:对于一篇待分类文档,应用m元分类算法通常得到多个类别。一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。这个过程使用的方法通常被称为阈值策略。常见的阈值选取策略Rcut:rank-basedthresholdPcut:proportion-basedthresholdScut:score-basedlocaloptimizationthresholdThresholdstrategy--R

8、cutRcut(位置截尾法,rank-basedthreshold

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。