基于支持向量机的中文网页分类的研究

基于支持向量机的中文网页分类的研究

ID:22012570

大小:2.25 MB

页数:49页

时间:2018-10-26

基于支持向量机的中文网页分类的研究_第1页
基于支持向量机的中文网页分类的研究_第2页
基于支持向量机的中文网页分类的研究_第3页
基于支持向量机的中文网页分类的研究_第4页
基于支持向量机的中文网页分类的研究_第5页
资源描述:

《基于支持向量机的中文网页分类的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于支持向量机的中文网页分类的研究上各种信息的迅速增加,仅靠人工的方式来处理是不切实际的。同时,由于分类可以在较大程度上解决目前网上信息杂乱的现象,并方便用户准确地定位所需信息,因此,网页自动分类成为一项具有较大实用价值的方法,是组织和管理数据的有力手段。§1-2网页自动分类问题的研究现状网页分类是在文本分类的基础上发展起来的。网页是一种特殊的文本,其中包含了更多的结构信息,包括内容的标题、对外的链接信息、不同内容的字体和颜色、显示位置等,同时也包含有各种广告、版权等信息。文本分类研究开始于20世纪50年代末,美国IBM公司的H.P.Luhn在这一领域进行了开创性的研究[

2、2],他提出了词频统计思想,后来被应用在文本分类领域。20世纪60年代初,Maron在利用概率模型进行文本分类方面做出了开创性的研究工作[3]。salton等人在20世纪70年代初提出了向量空间模型,由于该模型在良好的统计学方法基础上简明地实现了对文本特性的抽象描述,从而成为文本分类处理的一种经典模型[4]。其后许多学者在这一领域进行了卓有成效的研究。文本自动分类主要经历了四个发展阶段:第一阶段(1958-1964):研究文本自动分类的可能性;第二阶段(1965-1974):进入文本自动分类的实验性阶段;第三阶段(1975-1998):文本自动分类的实用性阶段;第四阶段(

3、1999至今):因特网文本自动分类研究阶段。文本自动分类的方法分为两大类:一是基于规则的分类方法;二是基于统计的分类方法。基于规则的分类方法多应用于某一具体领域,需要该领域的知识和规则库作为支撑。但是,对知识和规则的制定、更新、维护以及自我学习等方面存在种种问题,使得应用面比较窄。基于统计的方法采用纯粹的数学运算,不苛求复杂的语言学知识和领域知识,同时具有较高的准确率,因而日益受到人们的重视。网页的自动分类研究自上世纪80年代互联网兴起以后就逐渐发展。由于文本自动分类的研究相对较早,而且拥有比较成熟的技术,因此有不少研究工作试图使用纯文本分类技术实现网页分类。这些研究主要

4、分两种思路,一是用表示纯文本的方式表示网页,二是组合文本分类器的方法。FumkrnZ[5]用指向该网页所有链接周围的文本、链接所在段落的标题以及上级标题文本表示网页,并用Ripper算法对文本进行分类,准确率比使用网页局部文本提高了20%;Chakrabarti和Ghani[6]尝试用网页的局部文本和跟它链接网页的文本表示网页,分类结果还没有只使用网页局部文本好;0h[7]等人也结合网页局部文本和链接网页的文本表示网页,但没有引入所有链接网页的文本,而是基于文本相似性选择了部分跟原网页较接近的网页文本,试验结果F1值比使用所有链接网页提高了7%。但这些工作并没有得到公认的

5、结论。Yang[8]等人通过在Hoovers和WebKB数据集上的研究给出了比较客观的解释:网页是否集中地存在某种规律以及能否利用这些规律,对网页分类算法的性能影响较大,因此应该根据这些规律设计网页的表示方式和网页分类算法。国内文本自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类2河北工业大学硕士学位论文工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用

6、概念推理网进行文本分类[9]。复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试,从文档中提取N-gram属性,然后用ON方法判别文本类别,摆脱了对词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性[10]。刁力力、石纯一等用Boosting来组合决策树(stumps)的方法进行文本分类[11]。卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类[12]。庞剑峰等应用向量空间模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取、不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。之后

7、他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法[13]。就目前的研究来看,网页自动分类的准确率还不高,但网页自动分类的研究对基于内容的信息检索、web挖掘以及各种基于web的应用有着深远的意义。本文将主要针对基于统计方法的中文网页自动分类进行研究。§1-3论文的主要工作网页分类是在文本分类技术上发展起来的,但网页分类问题相对文本分类更加难处理,要考虑更多因素,这一特点主要是由网页特征决定的。网页分类面临的突出问题主要有以下几个方面:1)网页格式多样化:多种格式并存,而且同一格式的网页也存在多个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。