基于自编码神经网络建立的搜索信息模型-论文.pdf

基于自编码神经网络建立的搜索信息模型-论文.pdf

ID:53030014

大小:819.38 KB

页数:5页

时间:2020-04-14

基于自编码神经网络建立的搜索信息模型-论文.pdf_第1页
基于自编码神经网络建立的搜索信息模型-论文.pdf_第2页
基于自编码神经网络建立的搜索信息模型-论文.pdf_第3页
基于自编码神经网络建立的搜索信息模型-论文.pdf_第4页
基于自编码神经网络建立的搜索信息模型-论文.pdf_第5页
资源描述:

《基于自编码神经网络建立的搜索信息模型-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第34卷第2期计算技术与自动化Vo1.34.NO.22015年6月ComputingTechnologyandAutomationJun.2015文章编号:1003—6199(2015)O2~0117一O5基于自编码神经网络建立的搜索信息模型易万”,罗晶,李勇,郭少英(1.天津科技大学计算机科学与信息工程学院,天津300222;2.天津科技大学生物工程学院,天津300457)摘要:根据用户搜索历史,将用户关注的信息按标题分类,通过自编码神经网络提取特征值。设定学习样本标题最多为25个汉字,编码方式采用汉字机内码(GBK码)。使用MATLAB工具进行深度学习

2、,将样本在原空间的特征表示变换到一个新的特征空间。关键词:文本特征;自编码神经网络;深度学习;Matlab中图分类号:TP391.1文献标识码:AInformationSearchModelBasedonAuto—encoderNeuralNetworkYIWan”,LUOJing,LIYong,GUOShao—ying(1.CollegeofcomputerscienceandInformationEngineering,TianjinUniversityofScience&Technology,Tianjin300222,China;2.Institu

3、teofBiologicalEngineering,TianjinUniversityofSciemce&Technology,Tianjin300457,China)Abstract:Accordingtousersearchhistory,theuserinformationofinterestW3SclassifiedbyTitle,fromwhichthelea—turevaluewasextractedbytheaut0一encoderneuralnetwork.ThemethodsetthelearningsampleheadinguptO25

4、Chinesecharacters,adoptedChinesecharactersmachinecode(GBKcode)torealizecodingmode,usedtheMATLABtoolfordeeplearning,andtransformedthefeatureintheoriginalspacerepresentationintoanewfeaturespace.Keywords:textfeature;theauto—encoderneuralnetwork;deeplearning;Matlab大。例如5O个标题,每个标题25个汉字,

5、特征项1引言将有5O×25—1250个。如果将标题中的某个关键词作为特征词,将会有几千个包含关键词的标题,基于自编码神经网络建立搜索信息模型的目从而导致读入分析量过于巨大。本文采用自编码的是根据用户搜索信息的历史,推断出网页中的内神经网络,用映射变换的方法把原始文本特征变换容是用户关注的信息并即时显示。首先将用户关为较少的新特征,提高信息搜索效率。注的历史信息按标题分类,通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信2自编码神经网络息模型工作时,按照用户提供的关键词顺序,打开用户经常浏览的网页,读入标题文本,若具有数据2.1自编码神经网络理

6、论库中的标题特征,则将该标题的文本内容即时Auto—Encoder(自编码)_1],自编码算法是一种显示。基于神经网络算法的无监督学习算法,与神经网络直接解析网页中的标题文本,面临的基本问题算法的不同之处是将输入值作为输出节点的输出。是文本的表示。如果把标题文本所有的词都作为自编码算法的另一个特征是隐藏层节点的个数一特征项,那么太多的特征向量维数导致计算量太般少于输入输出节点的个数。这样的意义是将输收稿日期:2014—09—12作者简介:易万(1987一),男,安徽滁州人,硕士,研究方向:智能信息处理。十通讯联系人,E—mail:1274893@qq.co

7、m计算技术与自动化2.1.2展开网络。预训练所得到的权值,将作为整个自编码神经如图4所示,将各个RBM连接,得到自编码神经网络的初始权值,参与整个网络的微调训练。25个汉字t+c.彳25:+e..。彳产Il5II+。10—·l2l0I-C'-~14I12l-t-I$~—lS+。彳25"t"81251、汉字微调图4RBM展开图2.1.3微调凼数达到最小,权值捌整公式为微调训练是在预训练得到初始权值的基础上,zSw—一(6)对权值进一步调整。采用以交叉熵为目标函数l_5UwL1而的BP算法完成网络的微调训练。交叉熵是用来Oneti(7)度量两个概率分布间差异性

8、的,它是一个非负数,一a叫,Oneta磷两个分布越相似,其越小。原

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。