欢迎来到天天文库
浏览记录
ID:34455578
大小:1.36 MB
页数:109页
时间:2019-03-06
《web数据挖掘中的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web数据挖掘中的文本分类研究们从各自研究的领域出发,用不同的理论方法,对Web上的知识发现展开了深 入的讨论和研究。文本挖掘是当前Web数据挖掘领域的一个十分重要的研究内容。互联网以超文本的形式呈现给用户,一个网页包含了各种不同的数据类型,如新闻报道、电子邮件、图形图像、书籍以及多媒体等,这其中又以文本数据的数量和规模最大。随着用户对信息服务质量要求的日益提高,传统的文本处理工具已经无法适应海量文本数据的处理需求。所以,文本挖掘相关技术的研究成为一个十分值得探讨的课题。1.2国内外的研究现状文本分类是Web文本挖掘[4]的一项关键技术,覆盖了包括数据挖掘、机器学习
2、、神经网络、统计学以及自然语言处理等多个研究领域,而且在信息检索、信息抽取、信息过滤、文献组织以及自动标引等方面有着广泛的应用。过去的40多年里,国内外的学者对文本分类技术展开了深入的研究,并且取得了不少令人瞩目的成果。1.2.1文本分类的发展概述上世纪50年代末,Luhn最早开始了文本自动分类这一开创性领域的研究[5]。 1961年,Maron发表了关于文本自动分类的第一篇文章[6],随后众多学者在这一领域进行了深入而广泛的研究。早期学者们主要在利用知识工程技术建立文本自动分类专家系统方面取得一定成效,这类系统首先由专家人工定义一系列逻辑规则,然后根据这些规则把新
3、给定的文本划分到某一类或某几个特定类别中,但是这类方法不仅费时费力,而且准确率不高。到90年代之后,统计学方法、机器学习和模式识别等理论被引入文本自动分类系统中。从此,文本分类技术进入了一个快速发展的时期,并且开始在各种文本挖掘系统中得到较为广泛的应用。国外研究文本分类大致分为三个阶段:第一阶段(1958-1964)主要进行自 动分类可行性的研究,第二阶段(1965-1974)进行自动分类的实验研究,第三阶 段(1975-至今)进入实用化阶段。我国文本分类技术的相关研究起步比较晚,大致开始于20世纪80年代初。 1981年,侯汉清最早开始了计算机在中文文本自动分类领
4、域应用的探讨。随后2南京航空航天大学硕士学位论文我国开始进入辅助分类系统以及自动分类系统的研究阶段。到90年代,由于人工智能技术的成熟,专家系统在文本分类领域得到应用和发展。1.2文本分类的研究成果及不足虽然国内外的众多学者在文本分类领域取得了卓有成效的研究成果,但是一些关键性的技术依然在一定程度上影响着文本分类系统的性能及实用性,尤其是在国内,由于起步较晚,所以研究水平相对要落后不少。(1)文本表示文本表示是文本分类的一个重要研究方向。目前主要存在3种文本表示模 型[7,8]:布尔模型(BoolModel)、向量空间模型(VectorSpaceModel,VSM)
5、和概 率模型(ProbabilisticModel)。布尔模型是最早被提出来的一种模型,但是由于 不能反映特征项的权重信息,所以Salton等人在布尔模型的基础上提出了向量 空间模型。VSM在知识表示方面有着巨大的优势,不仅概念简单,而且操作方便,是目前最为流行的文本表示模型,并在众多系统中都有很好的应用。但是,VSM最大的缺陷是假设文本的特征项是互相独立的,因而损失了文本的上下文语义和潜在的概念结构等信息,使得模型所能表达的信息量存在着上限。概率模型最大的优势是能够准确地描述特征项与文本之间的相互关系,在检索系统中应用广泛。以上几种模型虽然能够带来计算和操作上的方
6、便,但是,最大的缺陷是忽视了文本的结构信息,从而丢失了在自然语言中至关重要的文本的上下文语义以及潜在的概念结构等信息,因此,基于语义的文本表示方法受到许多学者的关注。由于图模型能够很好地反映文本的语义信息,近年来针对图模型的研究不断深入,例如:Svetlana提出的基于辅助字典VerbNet和WordNet的文档概念图 表示模型[9];Cancho和Sole提出的一种相对简单的文本表示图模型[10]等。(2)降维技术降维技术对分类性能影响巨大,当文本用VSM表示时,向量的特征维数经常高达几千甚至上万维,大多数的分类方法都无法承受如此庞大的特征集,如果不进行必要的降维
7、处理,不仅计算开销会很大,而且大量不含分类信息术语的存在,会造成分类性能的大大降低。降维的方法一般可分为特征选择(加权)和特征重构两种。特征选择的主要有TFIDF、互信息、信息增益和χ2统计等[11-13],这类方法主要保留那些类别的正反例分布差别最大的术语。需要说明的3Web数据挖掘中的文本分类研究是,这里提到的“特征选择”跟第五章中提到的基于社区发现的“特征选择”并不是一个概念。特征重构的主要作用是可以消除词的多义、歧义、同义等的影响,常用的方法有主成分分析、非负矩阵分解和潜在语义索引(LSI)[14,15]等。国外的学者对各种特征降维技术进行了深入的研究,
此文档下载收益归作者所有