基于扩展网页与公平特征选择的网页分类算法研究

基于扩展网页与公平特征选择的网页分类算法研究

ID:33618854

大小:3.79 MB

页数:53页

时间:2019-02-27

基于扩展网页与公平特征选择的网页分类算法研究_第1页
基于扩展网页与公平特征选择的网页分类算法研究_第2页
基于扩展网页与公平特征选择的网页分类算法研究_第3页
基于扩展网页与公平特征选择的网页分类算法研究_第4页
基于扩展网页与公平特征选择的网页分类算法研究_第5页
资源描述:

《基于扩展网页与公平特征选择的网页分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第l章绪论网页分类是在文本分类技术上发展起来的,但网页分类问题相对文本分类更加难处理,要考虑更多因素,这一特点主要是由网页特征决定的。网页分类面临的突出问题主要有以下几个方面:1.网页格式多样化:多种格式并存,而且同一格式的网页也存在多个标准,同时由于网页的写作风格及内容变化都很大,因此如何解析不同格式、不同风格的网页成为网页预处理的一个难点;2.分类主题的模糊:互联网的知识系统发展异常迅猛,各种新的知识结构不断涌现,如果训练语料库得不到及时更新,就会导致网页无法分类;3.网页去噪:网页中存在大量与页面主题无关的噪音信息,如何提高去噪算法的

2、性能是有待研究的问题;4.网页结构信息:网页含有丰富的结构信息,除纯文本以外,还有其它一些内容对分类有贡献。如Hn和Title标注网页的标题和段落子标题,meta标记中的name属性值和content属性值是对网页主题的描述,网页中的超链接指向的内容有可能是与该网页主题相关的内容,这些信息都对网页分类有贡献,也可能存在噪声,综合利用上述特征设计分类算法是网页分类的关键,也是难点所在;5。缺乏评价标准:对于网页分类系统,目前没有统一的评价标准,常用的评价指标有准确率和召回率。网页数量极其巨大,单纯的召回率已经没有实际价值,准确率的意义也要作相

3、应的变通:数据库规模,索引方法,用户界面,响应时间应该纳入评价体系,作为评价指标。中文网页自动分类系统的研究对象为中文网页。中文网页与普通英文文本相比有以下几方面的不同:首先中文处理要比英文处理复杂的多,需要采用专门的方法。其次网页是半结构化的数据,和无结构的纯文本相比,在处理方法上有较多的差异。此外网页自动分类系统的处理对象往往是大规模、动态的、开放的网页集合,分类处理的实时性要求很高。根据中文网页处理的上述特点,结合文本自动分类技术,系统的关键技术主要包括网页及文本预处理、网页表示、特征选择、自动分类算法、性能评估五个方面。1.5本文工

4、作及内容安排在已有的网页分类的研究中,多数是基于单个网页的分类系统,由于网页格式的多样化,因此无法有效地提取到全部有用信息。本文提出利用网页超链接文本扩展原网页,利用公平特征算法解决网页分类中的非公平性问题。文中使用4第l章绪论EPFFSS算法,有效提高了有用词对类别的贡献,降低了网页中噪音词的影响,实现了网页的无偏分类。此外,本文还比较了几种典型的分类器并做了进一步的理论研究和实验分析。本文的结构安排如下:第一章绪论,综述了本研究课题的背景及应用领域,介绍了本文研究的主要工作和论文的结构安排。第二章,主要对文本分类的基础理论及相关技术。第

5、三章,中文网页表示及其预处理的内容。第四章,扩展网页和公平特征算法介绍,EPFFSS的算法。第五章,实验设置与结果分析,主要介绍实验过程与实验结果。并对结果进行了全面分析,得出了具有借鉴意义的实验结论。第六章结论与展望,对全文工作进行了总结,并提出下一步的工作展望。第2章文本分类的基础理论及相关技术网页分类的核心问题是文本自动分类技术。文本自动分类的研究涵盖若干学科领域,包括语言‘学中的自然语言处理,图书情报学中的分类学,数学领域的统计学等,以及计算机领域的模式识别、人工智能、神经网络等研究方向。本章将分别介绍文本分类的基本概念、文本自动分

6、类系统的基础理论和相关技术,以及文本分类的评价体系。2.1文本分类的基本概念及特点2.1.1文本分类的基本概念从数据挖掘的角度来说,自动分类是~个有指导学习(SupervisedLearning)的过程。在这个学习过程中,它根据一个己被人工处理过的训练文本集合(TrainingSet)去挖掘出文本属性和文本类别之间的关系模型,然后根据学习得到的这种关系模型对新到来的文本测试集合(TestSet)进行自动的类别判断。文本分类的形式化定义:文本分类就是将一个二元组(Z,f.)∈DxC映射到一个布尔值的任务。该映射用数学公式表示如下:m:伙c_佤

7、日,其中D=“,呸,..,《),C=(q,巳,...,c。)。这里D为待分类的文本集合,C为给定分类体系下所有预先定义的类别的集合,D可以是无限集合,而C必须是有限集合。如果将二元组(谚,c,)映射为值T(true),则认为文本Z属于类别c,,否则认为文本Z不属于类别c,。文本分类的关键就是要找到一个函数:①:D×C一{丁,用,使得通过该函数能够将任意一个文本尽可能准确地分类。这罩①是根据已掌握的每类若干样本的信息,总结出分类的规律而建立的判别公式和判别规则。文本自动分类的方法分为两大类:一是基于规则的分类方法:二是基于统计的分类方法。文本

8、自动分类的统计模型主要有向量空

9、'日J模型、概率模型、线性模型、非线性模型以及组合模型等。基于统计学习法的分类系统在整体上可以被分为两类:独立二元(IndependentBina

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。