欢迎来到天天文库
浏览记录
ID:31973235
大小:1.50 MB
页数:28页
时间:2019-01-29
《基于k.均值的文本聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1.1国内外的研究现状第一章绪论数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据库中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要。当数据库挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘¨1。存储信息使用最多的形式是文本,所以文本挖掘具有更高的商业潜力。事实上,最近研究表明信息有80%包含在文本文档中【17】o文本分类指按照预先定义的主题类别,为文档集合中确定一个类别。这样用户不但能够方便地浏览文档,
2、而且可以通过限制搜索范围不使文档的查找更容易、快捷,目前用于英文文档分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(NaiveBayes),K.邻近(K—NN),向量空间模型(VectorSpaceModel)以及线性最小二乘法LLSF(LinearLeastSquareFit)¨“。由于文本分类可以在较人程度上解决目前文本以及网络上信息杂乱的现象,方便用户准确定位于所需信息和分流信息,闪此,文本自动分类已成为一项较大实用价值的关健技术,是组织和管理数据的有力手段,可被用于抽取符号
3、知识,新闻分发,排序电子邮件以及学习用户兴趣等。由于文本分类可以较大程度上解决目前文本以及网络上信息杂乱的现象,方便用户准确地定位于所需的信息和分流信息。因此,文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,可被用丁.抽取符号知识幢引,新闻分发眙引,排序电子邮件∞副以及学习用户兴趣口引等。分类器的构造方法有多种,主要有统计方法、机器学习方法、神经网络方法等。国外对文档的分类技术的研究已经开展了多年,并在邮件分类、电子会议、信息过滤等方面等到了较为广泛的应用,其中较为成
4、功的系统有麻省理工学院(MIT)为白宫开发的邮件分类系统、卡内基集团为路透社开发的Construe系统等㈣’。文本分类的目标是在分析文本内容的基础上给文本一个或多个合适的类别。目前已提出了许多统计方法和机器学习方法。基于机器学习方法的英文自动分类已经取得了很好的成绩,提出了多种特征抽取方法和分类器,如同归模型、K一邻近分类、贝叶斯分类、决策树、推导规则、神经网络、支撑向量机、决策委员会、SWAP一1、AdaotiveResonanceAssociativeMap、Lewis采用了一个线性分类器、L
5、LSFCohen设计了一种建立在权值更新基础上的休眠专家算法、ExpertNetworkWindrow.Hoff、EG等H0。,建立了OHSUMED、Reuters等标准的分类熟语料和统一的评价方法心8。4¨。国内在中文文本分类领域也进行了大量的研究⋯‘H驯,但由于语料和评价方法不相同,很难它们做出严格的比较。上述大多数方法均用到了经典的向量模型(VsM),即将文本表示成向量,作为向量空间的一个点。然后通过计算向量间的距离决定向量类别的归属。该模型的不足之处在于它的一般不考虑向量中各个特征向量问的
6、关系。这使得距离的计算够准确,从而导致分类精度不够高强1。目前,国外文档的分类技术著名的例如Wordent,它是由普林斯顿大学认知科学实验室的Miller、Beckwith等人于是1985年起致力于构造词汇系统口引。它的最具有特色之处是根据词义而不是根据词形不组织词汇信息,可以说,它是一部基于心理语言原理的语义词典。它的名词按层次结构组织,动词按搭配关系组织,而形容词和副词则以Ⅳ维超空间方式组织的。中科院计算所李晓黎、史忠植等人应用概念推理网进行文本分类,最好的结果是对-j-.“Housing”类
7、别,召回率达剑94.4%,准确率达到99.4%垢1。中国科技大学的范焱等人在K小附、Bayes和文档相似性研究的基础上提出了一超文本协调分类器,正确率接近80%,它特色是适当考虑了文本中的结构化信息,并且将文本分类器和超文本结构信息分类器结合起来,从而达到更好的效果¨引。新加坡的HweeTouNG等人研究了用Perceptronlearning的方法进行文本分类,其准确率达到70%,值得一提的是使用了一种树状的分类结构啪1。香港中文大学的WaiLam等人将K-NN方法和线性分类器结合,取得了较好效
8、果,在召同率接近90%时准确率超过80%哺“。C.K.P.Wong等人研究了用混合关键词进行文本分类的方法,召回率/准确率为72%/62%嵋⋯。复旦大学和富士通研究开发中心的黄萱箐、吴立德、彳i崎洋之等研究了独立语种的文本分类,并以词汇和类别的互信息量为评分函数,分别用单分类器和多分类器对中文和目文本进行了实验,最好的结果为召回率为88.87%幢¨。上海交通大学的刁倩、王永成等人结合词权重和分类算法进行分类,在用VSM方法封闭测试实验中分类正确率达到97%幢1。在基于词频分布统计的
此文档下载收益归作者所有