计算机技术与发展.pdf

计算机技术与发展.pdf

ID:52934717

大小:323.46 KB

页数:4页

时间:2020-04-02

计算机技术与发展.pdf_第1页
计算机技术与发展.pdf_第2页
计算机技术与发展.pdf_第3页
计算机技术与发展.pdf_第4页
资源描述:

《计算机技术与发展.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第l9卷第4期计算机技术与发展V【)1.19No.42009年4月COMPU丁ERTECHNO)【YANT)DEVEI.OPMENTADr.2009基于遗传算法和模糊聚类的文本分类研究于水英,丁华福,付志超2(1.哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080;2.哈尔滨理工大学自动化学院,黑龙江哈尔滨150080)摘要:鉴于模糊C一均值类型算法(R、M算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法。采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户可以在文本直接聚类时更改该值,产生用户满意的属性约简结果,极大地提高了系

2、统的分类精度。最后通过实验给出了该算法性能的测试结果。关键词:模糊聚类;遗传算法;文本分类;FCM中图分类号:TP301.6文献标识码:A文章编号:1673—629X(2009)04—0131—03StudyonTextCategorizationBasedonGeneticAlgorithmandFuzzyClusteringYUShuiying,DINGHua-fu,FUZhi—ch~o2(1.CollegeofComputerSci.andTechn.,HarbinUniv.ofSci.andTechn.,Harbin150080,China;2.AutomationCo

3、llege,HarbinUniv.ofSci.andTechn.,Harbin150080,China)Abstract:InviewofthenatureoffuzzyC—meansalgorithm(FCM)issensitivet0initialvalue,presentedamethodoftextcategorizationbasedongeneticalgorithmandfuzzyclustering,usinggeneticalgorithmstoinitialclustercentres.AndvariablevaluesWRSadaptedinthefitn

4、esscomputationprocedure,userscouldel~ngethevalueofclusterinthetextinordertoobtainthecustomerzatisfactedproperties,thusgreatlyimprovethefusionsystem’Sclassificationaccuracy.Theexperimentalresultsofthealgorithmaregivenattheendofthepa—perthroughexperiments.Keywords:fuzzyclustering;geneticalgori

5、thm;textcategorization:O引言泛的算法之一,由于FCM算法的不足,笔者提出了一随着互联网的普及与应用,网络信息快速膨胀,使种新的模糊聚类的文本分类方法,为文本自动分类技得文本自动分类对于信息处理的意义变得更加重要,术的发展提供一个新的发展方向。文本自动分类已成为一项重要的研究课题。文本聚类没有预先定义的文本主题类别,是一种无监督、无指导1FCM算法所面临的问题的文本分类,仅靠文本间的相似性作为把文本集合划Dunn和Bezdek【,J提出的模糊C一均值类型算法分为若干个簇的依据,且同一簇内的文本相似度尽可(FCM算法)是应用最广泛的算法之一,但其本质属于能大

6、,而不同簇间的文本相似度尽可能小。但是,现实局部搜索的爬山法,对聚类中心的初始化较敏感。研的文本聚类问题往往具有模糊性,所以用模糊数学的究表明,FCM类型的算法都以确定的目标函数来测度思想来进行文本聚类分析更符合客观实际,其聚类结聚类的效果,最佳的聚类效果对应于目标函数的极值果进而用来指导文本分类,这就是基于模糊聚类的文点。由于目标函数局部极小值点的存在以及算法的贪本分类。心性,导致聚类结果对初始中心敏感,往往达不到全局模糊C一均值类型算法(FCM算法)是应用最广最优。针对FCM算法对初始聚类中心的敏感问题,可以选取不同的初始值多次执行该算法,然后选取最好收稿日期:2008—0

7、7~22的结果。基金项目:国家自然科学基金重点项目(60736014)显然,如果初始中心选取次数较少不能保证得到作者简介:于水英(1981一),女,辽宁朝阳人,硕士研究生,研究方向为文本分类、信息检索;丁华福,教授,研究方向为自然语言处理,数最优解,选取次数较多则会大大增加计算量。因此,许据挖掘。多研究者针对这个问题提出了改进的算法。·132·计算机技术与发展第19卷2FCM算法的分析法存在早熟收敛和误差平分等缺陷。同时,由于聚类FCM算法具有较高的映射精度和分类能力,它是问题的编码特征(染

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。