基于信息理论的网络文本组合聚类

基于信息理论的网络文本组合聚类

ID:46625394

大小:1.98 MB

页数:9页

时间:2019-11-26

基于信息理论的网络文本组合聚类_第1页
基于信息理论的网络文本组合聚类_第2页
基于信息理论的网络文本组合聚类_第3页
基于信息理论的网络文本组合聚类_第4页
基于信息理论的网络文本组合聚类_第5页
资源描述:

《基于信息理论的网络文本组合聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2016年8月北京航空航天大学学报August2016第42卷第8期JournalofBeijingUniversityofAeronautiesandAstronauticsV01.42No.8http://bhxb.buaa.edu.CRjbuaa@buaa.edu.cnDOI:10.13700/j.bh.1001-5965.2015.0507基于信息理论的网络文本组合聚类王扬1”,袁昆1,刘洪甫3,吴俊杰1,包秀国4'+(1.北京航空航天大学经济管理学院,北京100083;2.北京航空航天大学机械I程及自动化学院,北京1000833.东北大学工学院,波-it顿02115;4.国家计算机

2、网络与信息安全管理中心,北京100029)摘要:尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架——DIAs。该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识,其优点是能够较好地避免产生大量的噪声特征。然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。最后通过在8个真实文本数据集上的实验,证明DIAS算法相较于其他被广泛使用的算法具有明显优势,特别在处理弱基础聚类上具有突出效果。由于在

3、分布式计算上的天然优势,DIAS有望成为大规模文本聚类的主流算法。关键词:文本聚类;分解一组合算法;基于信息理论的一致性聚类;K一均值;大数据聚类中图分类号:V221+.3;TB553文献标识码:A文章编号:1001.5965(2016)08.1603-09文本聚类在数据挖掘、信息检索和社交媒体挖掘等领域有着广泛应用,其旨在将文档集划分成若干有意义的类别,这是许多实际应用中的关键环节,如对搜索引擎返回的海量结果进行分类浏览⋯,浏览大型文档集合心1,以及从用户产生内容中发现未知的观点¨1等。尽管文本聚类被广泛研究,但其高维性和稀疏性仍是难以解决的问题。随着近几年社会媒体的快速发展,文本数量出现

4、爆炸式增长,同时文本信息更加短促,这些特征加剧了文本聚类的难度。特征操作H巧o、距离选择M1及子空间聚类¨1等传统方法在聚类的精度和效率上很难做到均衡。本文针对文本聚类提出了一种分解一组合算法框架——DIAS。首先通过采用简单随机特征抽样算法分解高维文本,得到多样化的结构知识,同时又规避了大量噪声特征的产生。然后基于信息理论的一致性聚类(Information.theoreticCon.sensusClustering,ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。通过在8个真实文本数据集上的实验,证明了DIAS算法相较于其他主流算法在精度上的优势。DIAS算法中的简单随机特

5、征抽样在处理高稀疏文本时更为高效,一个很小的抽样比例(10%)在绝大多数实验数据上即能得到令人满意的效果。此外,实验证明DIAS算法在处理弱基础聚类上具有显著优势,其关键在于充分利用了基础聚类的多样性。由于DIAS算法在分布式计算上的天生优势,其有希望成为大规模文本聚类的主流算法。收稿Et期:2015-07-30;录用日期:2015-09-06;网络出版时间:2015.10-0815:21网络出版地址:WWW.cnki.net/kcms/detaiL/11.2625.V.20151008.1521.001.html基金项目:国家自然科学基金(71531001,71322104,7117100

6、7,71471009);国家“863”计划(SS2014AA012303);中央高校基本科研业务费专项资金$通讯作者:Tel.:010-82338497E-mail:baoxiuguo@139.conl;f用格式:王扬,袁昆,刘洪甫,等.基于信息理论的网络文本组合聚类fJJ.北京航空航天大学学报,2016,42(8):1603.1611.WANGY,YUANK,LIUHF。eta1.Information—theoreticensembleclusteringonwebtexts【j].JournalofBeltingUniversityofAeronauticsandAstronautic

7、s,2016,42f8):1603-1611(inChinese).1604北京航空航天大学学报2016年1DIAS算法基本框架图1阐述了DIAS算法的3个主要阶段:1)第1阶段进行特征子集选择,将高维文本数据按列划分成小的数据集。划分方法应当快速高效,同时保证数据子集的多样性。实验结果表明,如果采用简单随机特征抽样策略,即使采样率低至10%,DIAS算法的效果仍然不错。详情参见实验部分。2)第2阶段针对每个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。