欢迎来到天天文库
浏览记录
ID:35069877
大小:6.11 MB
页数:59页
时间:2019-03-17
《基于自编码神经网络文本特征选择的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、、I’.山'—.-..I,門.:,■*?-I;,天津科技大学研究生学位论文’(申请硕±学位)基于自编码神经网络文本特征选择的研究THETEXTFEATURESELECTIONRESEARCHBASEDONAUTO-ENCODERNEURALNETWORK■?..-■.....啤.一一—■乂■n"?I.■?■V’.。,卢‘,.专业名称:计算机应用技术.-..指
2、导教师:陈希教授,1;李时峰研究生姓名:乐;V申请学位级别:工学硕±论文提交日期.I:2016年3月占...一人作、,奋V1.‘‘*.^■■!,--节;(?■I?I?-■I.?.*??1>II...1-’’心;-‘i:..-中,-’—?、-',.、、';■''屯'一,‘'产一';';分类号301:10057:TP学校代码;383密级:研究生学号1
3、4013基于自编码神经网络文本特征选择的研究teature-TheTexfSelectionResearchBasedOnAutoencod巧NeuralNetwork专业名称:计算机应用技术指导教师姓名:陈希教授研究生姓名:李时峰申请学位级别:工学硕±论文提交日期;2016年3月论文课题来源:自选项目学位授予单位:天津科技大学天津科技大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究工作所取得的
4、成果。除文中特别加W标注引用的内容外,本论文不包括任何其他个人或集体己经发表或撰写的成果内容,也不包括为获得天津科技大学或其它教育机构的学位或证书而使用过的材料。对本文研究做出重要贡献的个人和集体,均已在文中W明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:曰期:月《年jI曰/f知识产权和专利权保护声明本人郑重声明:所呈交的论文是本人在导师具体指导下并得到相关研究经费支持下完成的,其数据和研究成果归属于导师和作者本人,知识产权单位属天津科技大学
5、;。所涉及的创造性发明的专利权及使用权完全归天津科技大学所有本人保证毕业后,W本论支数据和资料发表论文或使用论文工作成果时署名第一单位仍然为天津科技大学。本人完全意识到本声明的法律后果由本人承担。作者签名:I的i木曰期:年3月曰《山/f中学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,同意公布论文的全部或部分内容,允许论文被査阅和借阅。本人授权天津科技大学可W将本学位论文
6、的全部或部分内容编入有关数据库进行检索、,可W采用影印缩印或扫描等复制手段保存和汇编本学位论文。‘‘’’保密(请在方框内打V),在年解密后适用本授权书。!□本学位论文属于""不保密回(请在方框内打V)。作者签名:若I才4日期;人八年^月日导师签名:日期:王。月曰橋為U年,I年摘要基于白编码神经网络文本特征提取,主要目的是对当前文本挖掘的效率进行提升。由于现在网络的高速发展,大量的信息尤其是文本为主的信息在网络中大量传播,使得原有的文本挖掘技术缺陷
7、暴露出来。对大量的文本数据,自编码神经网络可W对。大量的文本特征进行降维,在不损害其准确率的情况下,提升速度W此满足现代网络t的商效率。一本文选用自编码神经网络的方法是基于深度学习算法中的种,他开创了机器学一。深度学习的理念来自于人工神经网络的研究习研究中个新的方向,它是具有多层感知器的结构。深度学习通过低层特征的组合来合成更抽象的高层特征,目的是用来发现数据的分布式特征。自编码神经网络的输出节点与输入节点相等化及隐藏层的节点数小于输入输出节点数的两个主要特点,实现
8、了文本特征降维,降低了空间复杂度的计算量。通过这样的方法,实现了自编码神经网络对空间向量的髙效计算。一本文W50组内容相近的信息为例(每组的信息内容不会超过30个汉字)进行编码,将汉字转变为字形点阵码,结合可视化技术,选择35組样本,作为自编码神经网络的输入信息。利用MATLAB工具中的神经网络模型进行实验,通过模型对输入的35组样本进行逐层的特征变换,使得原有的数据样本,从原来的特征空间变换到新的特征空间,并且建立文本特征库。选择剩下的15组利用上述方法进行文本特征提取
此文档下载收益归作者所有