中文网页自动分类研究及分类算法的设计与实现

中文网页自动分类研究及分类算法的设计与实现

ID:27723374

大小:321.50 KB

页数:11页

时间:2018-12-05

中文网页自动分类研究及分类算法的设计与实现_第1页
中文网页自动分类研究及分类算法的设计与实现_第2页
中文网页自动分类研究及分类算法的设计与实现_第3页
中文网页自动分类研究及分类算法的设计与实现_第4页
中文网页自动分类研究及分类算法的设计与实现_第5页
资源描述:

《中文网页自动分类研究及分类算法的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、http://www.paper.edu.cn中文网页自动分类研究及分类算法的设计与实现刘超北京邮电大学信息处理与智能技术重点实验室,北京(100876)E-mail:liuchaorichard@gmail.com摘要:本文回顾了中文网页自动分类的发展过程和研究现状,说明了本文中网页自动分类是采用文本自动分类的方法;指出了网页分类的难点及突出问题;关于分类算法,本文集成了向量空间模型架构下分类准确度最好的KNN算法和分类速度最快的Rocchio算法,设计 了一种Rocchio-KNN分类算法,该

2、算法采用Rocchio方法进行类别过滤,再采用KNN方法 进行细分。实验表明,这种方法在确保一定分类准确率的基础上,大大地提高了分类效率,能够满足对大规模样本集进行实时处理的需求;最后介绍了中文网页自动分类的前期工作及系统构架。关键词:网页内容提取,文本自动分类,自动分类算法中图分类号:TP3911.引言目前,因特网上的中文网站数量庞大,增长迅猛,需对这些网站进行分类,以便于更好更快速的查询信息;尽管也存在如Google目录,Yahoo,搜狐等分类目录式的中文网站分类,但由于采用人工的方法进行分类

3、,效率低下,更新速度慢,无法完成对目前庞大的中文网站的大范围覆盖,因此中文网页自动分类技术已经成为组织和管理在线文本数据的关键技术。就目前的研究来看,虽然网页自动分类的准确率不怎么高,但网页自动分类的研究对基于内容的信息检索,Web数据挖掘等应用还是具有深远的意义。2.文本自动分类的研究现状本文所研究的中文网页自动分类,其核心技术为文本自动分类技术,下面介绍一下文本自动分类技术的发展情况。文本自动分类起源于上个世纪50年代,H.P.Luhn在这方面作了开创性的研究,提出了词频统计的思想,60年代G

4、.Salton等人提出的向量空间模型成为后来进行文本表示的主要方法,70年代以后,M.E.Stevens、S.Keenan、L.B.Doyle等人也在这个领域进行了卓有成效的研究。自动分类在国外经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分类的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,第三阶段(1975~至今)进入实用化阶段。在我国,文本自动分类的研究开始于上个世纪80年代,由于中文文本词间没有间隔,需要专门的算法对文本进行分词,所以很多国内学者把中文文本

5、分词作为文本自动分类的研究重点和研究特色。如1995年清华大学电子工程系吴军等人以语料相关系数作为分类依据,字频、词频及其常用搭配为补充,采用停用词表,进行人工指导的文本分类。1997年山西大学计算机系刘开瑛等人研究的利用三维加权算法,分词采用最长匹配算法,类别词加权,语料中抽词的自动分类等[1]。随着Web信息的迅速增加,面向Web的以网页作为语料库的自动分类研究已经成为新的研究热点。文本自动分类的方法分为两类:一是基于规则的分类方法;二是基于统计的分类方法。基于规则的分类方法多应用于某一具体领

6、域,需要该领域的知识和规则库作为支撑。但是对知识和规则的制定、更新、维护及自我学习等方面存在种种问题,使得应用面比较窄。-1-http://www.paper.edu.cn基于统计的方法采用纯粹的数学运算,不苛求复杂的语言学知识和领域知识,同时具有较高的准确率,因而日益受到人们的重视。文本自动分类的统计模型主要有向量空间模型、概率模型、线性模型、非线性模型以及组合模型等。简单地说,文本分类就是先根据已有的文本找出能描述并区分文本类别的分类器(或规则、假设、模型),然后利用该分类器对新的未分类文本进

7、行分类。分类方法是文本分类的核心问题,其本质就是对分类器的设计。目前研究者从不同角度已经提出了很多行之有效的文本分类方法,这些方法大多是基于机器学习方法的,根据其分类原理的不同分为线性分类器、统计学习分类器、基于实例的分类器、决策树方法、神经网络方法、支持向量机方法等。如Rocchio方法属于线性分类器方法、朴素贝叶斯分类器是典型的统计学习分类器、K-近邻算法是基于实例的分类器,ID3算法是一种基本的决策树方法,支持向量机[2]与神经网络都是从经验数据集中进行学习的,但神经网络从某种意义上说是一种

8、具有启发式的学习机,本身有很大经验的成分,而支持向量机具有严格的数学理论基础,是一种通用知识发现方法,目前已成为文本分类领域的一个研究热点。一个网页自动分类系统的完整处理过程,可用下图表示:图1网页自动分类处理系统的处理过程Fig1theprocessingprocedureofautomaticwebpageclassificationsystem-2-http://www.paper.edu.cn1.网页分类难点及突出问题网页分类是在文本分类技术上发展出来的,但网页分类问题相对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。