用于文本分类和文本聚类的特征抽取方法的研究

用于文本分类和文本聚类的特征抽取方法的研究

ID:38116212

大小:153.98 KB

页数:5页

时间:2019-05-26

用于文本分类和文本聚类的特征抽取方法的研究_第1页
用于文本分类和文本聚类的特征抽取方法的研究_第2页
用于文本分类和文本聚类的特征抽取方法的研究_第3页
用于文本分类和文本聚类的特征抽取方法的研究_第4页
用于文本分类和文本聚类的特征抽取方法的研究_第5页
资源描述:

《用于文本分类和文本聚类的特征抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、用于文本分类和文本聚类的特征抽取方法的研究Thestudyoffeatureextractionmethodintextclassificationandtextclustering1,2(1.山东大学计算机科学与技术学院;2.山东电子职业技术学院)孟春艳Meng,ChunYan摘要:文本信息处理已成为一门日趋成熟、应用面日趋广泛的学科。文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率。本文针对文本信息处理中最

2、重要的研究方向——文本分类和聚类技术展开了研究,分析了特征抽取法在文本分类和文本聚类中应用的重要性,以及论证了为何要对文本进行特征抽取,最后分别阐述了用于文本分类和文本聚类的特征抽取方法。Abstract:Textinformationprocessinghasbecomeanincreasinglymaturedisciplinewithincreasinglywiderangeofapplications.Textclassificationandclusteringtechnologyisanimportantresearchtopicfortheneedsofinformationre

3、trievalandqueryinthenaturallanguageprocessingareas.Withtherapidexpansionofthevarioustextmessages,throughtheuseoftextclassificationandclusteringtechnology,peoplecansoefficientlyorganizeandmanagetheinformationthatpeoplecanachieveanaccuratepositioninginformationanddiversion,andtherebyenhancingtheuser's

4、queryandretrievalefficiency.Inthispaper,informationprocessinginthetextofthemostimportantresearchdirection-textclassificationandclusteringtechnologystartofthestudy.Analysistheimportanceofthefeatureextractionmethodinthetextclassificationandclustering,anddemonstratedwhyhavefeatureextractiononthetext,re

5、spectively,forthefinaltextonhowthefeatureextractionmethodappliedintextclassificationandclustering.关键词:文本分类;文本聚类;特征抽取;中图分类号:TP311文献标识码:Akeywords:textClassification;textclustering;featureextraction1、引言随着网络的飞速发展和普及,无论是网络信息、企业信息还是个人信息,它们的信息量都在急速地膨胀。网络信息量虽然巨大,但是对99%的用户来说99%的信息都是无用信息,所以要想在网络中通过相关链接来找到所需的信

6、息无异与大海捞针。虽然现在有很多搜索引擎能帮助人们快速地寻找相应的信息,但是即使是目前最优秀的搜索引擎Google,也很难让用户对准确搜索感到满意,因为大部分的搜索都很可能返回成千上万的结果而正确的结果往往又很难出现在前10个或者前20个结果中以至于用户不得不花大量的时间来继续在搜索结果中挑选可能正确的信息。因此迫切需要研究出更为先进的技术来管理和组织这些信息,那么这些技术中最为重要的两个技术就是文本分类和文本聚类。文本分类和文本聚类是文本数据挖掘中两个非常重要1的技术,它们已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域,所以,我们重点研究如何运用特征抽取方法来进行文本分类和文本聚类

7、,从而更好地组织和管理庞杂的信息。2、特征抽取方法在文本分类和文本聚类应用中的重要性1陈涛,谢阳群,文本分类中的特征降维的方法综述[J],情报学报,2005,24(6);2文本分类解决的是将一个未知的文本分到一个或多个已经确定的主题类别中。文本聚类被称为自动文本分类,它是指在没有任何预知信息的情况下,将一堆文本中相似的文本聚在一起,将不相似的文本分开,从而自动形成多个文本类。文本数据的向量空间模型

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。