基于自动编码器的短文本特征提取及聚类研究

基于自动编码器的短文本特征提取及聚类研究

ID:5356562

大小:1.07 MB

页数:7页

时间:2017-12-08

基于自动编码器的短文本特征提取及聚类研究_第1页
基于自动编码器的短文本特征提取及聚类研究_第2页
基于自动编码器的短文本特征提取及聚类研究_第3页
基于自动编码器的短文本特征提取及聚类研究_第4页
基于自动编码器的短文本特征提取及聚类研究_第5页
资源描述:

《基于自动编码器的短文本特征提取及聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络出版地址:http://www.cnki.net/kcms/doi/10.13209/j.0479-8023.2015.040.html北京大学学报(自然科学版)ActaScientiarumNaturaliumUniversitatisPekinensisdoi:10.13209/j.0479-8023.2015.040基于自动编码器的短文本特征提取及聚类研究†刘勘袁蕴英中南财经政法大学信息与安全工程学院武汉430074;†E-mail:liukan@znufe.edu.cn摘要针对短文本的特点,提出一

2、种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。算法首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类时显著提高了聚类的效果,有效解决了短文本空间向量的高维、稀疏问题。关键词深度学习;自动编码器;特征提取;聚类中图分类号TP391ShortTextsFeatureExtractionandClusteringBasedonAuto-Enc

3、oder†LIUKan,YUANYunyingSchoolofInformationandSafetyEngineering,ZhongnanUniversityofEconomicsandLaw,Wuhan430074;†E-mail:liukan@znufe.edu.cnAbstractAccordingtothecharacteristicsofshorttexts,theauthorsproposeafeatureextractionandclusteringalgorithmnameddeepden

4、oisesparseauto-encoder.Thealgorithmtakestheadvantageofdeeplearning,transformingthosehigh-dimensional,sparsevectorsintonew,low-dimensional,essentialones.Firstly,L1paradigmisintroducedtoavoidoverfitting,andthenoisesisaddedtoimprovetherobustness.Experimentalre

5、sultshowsthatapplyingextractedtextfeaturescansignificantlyimprovetheeffectivenessofclustering.Itisavalidmethodtosolvethehigh-dimensional,sparseproblemintheshorttextvector.Keywordsdeeplearning;auto-encoder;featureextraction;clustering互联网已经成为人们日常生活不可或缺的一部文将针对

6、短文本特征提取及聚类问题,利用深度学[2]分,越来越多的人习惯于通过微博、新闻网站、论习的思想,采用自动编码器处理技术,提取短文坛等浏览热门话题、了解社会动态、参与热点讨本中的隐含特征,以此为基础得到更准确的短文本[1]论、发布自己的观点。由于网络的高速与便捷,聚类结果。大部分网络信息都是以短文本的形式存在,这些短1相关研究文本能让读者快速了解主题内容,准确理解用户观点,又不占用过多的阅读时间。因此,以微博为代自动编码器是深度学习中一种重要的训练模表的短文本成为网络信息交流的主要载体。但是由型,一直以来,在自

7、然语言处理中取得较好的效[3–5][6]于人本身思维的发散性,发布方式的随意性,短文果,也越来越受到研究人员的重视。Glorot等本的结构往往极其不统一。单条短文本提供的信息在自动编码器算法的基础上添加纠正激活函数,实十分有限,在处理大量短文本时存在着高度稀疏的验结果表明,此方法比传统的sigmoid或tangent激[7]问题。如何将海量、不规则、稀疏的短文本有效地活函数更能提高文本分类的效果。Glorot等还使组织和分析,成为一个具有挑战性的研究热点。本用该自动编码器方法,提取出评论的高层抽象特征,国家社

8、会科学基金(14BXW033)和教育部人文社会科学基金(11YJAZH060)资助收稿日期:2014077;修回日期:20140;网络出版时间:2014-12-0110:201北京大学学报(自然科学版)[8]解决了跨领域的文本分类问题。Lu等利用深度法可以模仿人脑机制,通过非线性组合高维底层特自动编码器算法,为基于词汇的翻译模型提取到了征学习得到低维抽象特征的特性。结合短文本向量有效

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。