欢迎来到天天文库
浏览记录
ID:50451013
大小:3.73 MB
页数:71页
时间:2020-03-06
《网络知识资源深层表示学习模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10255学号:2131528网络知识资源深层表示学习模型研究ResearchOfDeepRepresentationAboutWebKnowledgeResource学科专业:计算机软件与理论研究生:李承前导师:朱国进东华大学计算机科学与技术学院二零一五年十一月东华大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自
2、撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本版权书。本学位论文属于不保密□。学位论文作者签名:指导教师签名:日期:年月日日期:年月日网络知识资源深层表示学习
3、模型研究网络知识资源深层表示学习模型研究摘要随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,网络资源内容多样,人们往往不能有效的获取、利用所需的网络知识资源。为了更好的利用网络知识资源,需要应用更加自动化、智能化的数据挖掘、信息提取方法。Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据。本文主要对网络知识资源的表示及其相关的命名实体识别展开了深入的研究,首先对网络知
4、识资源的表示和领域命名实体识别的基本概念和理论进行了归纳,分析了目前最为流行的向量空间模型与深度学习架构的词向量。在此基础上,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示方法,并在算法知识领域内进行实验检验。论文主要在以下几个方面展开了研究和探索:首先,在调研了常见文本表示方法的基础上,指出了最流行的文本表示方法向量空间模型的局限性,进而利用命名实体和词向量对文本深层语法、语义挖掘的特点,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示学习模型。I网络知识资源深层表示学习模型研究其次,作为本文所提
5、出模型框架的第一部分,针对算法知识领域,展开命名实体识别研究与实验。进行了Web文档爬取、预处理和标记语料等工作,完成了算法知识语料库的建设,并以条件随机场为主要算法,融合规则、词典和统计方法于一体构建模型,针对算法知识和网络解题报告的特点,选取相关特征,生成特征模板,利用开源工具CRF++在算法知识语料库上完成了训练过程,得到算法知识实体标注器。然后,作为本文所提出模型框架的第二部分,在算法知识领域语料上进行了词向量模型的训练,结合第一部分的命名实体结果,获得了网络知识资源的向量表示,并对这种向量表示进行了应用探索,包
6、括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示网络知识资源的这种深层表示方法在这些任务上有着不错的效果。最后,本文对以上两步的实验结果进行了讨论分析。确立了下一步改进的目标并对未来研究进行了展望。关键词:文本表示,命名实体识别,条件随机场,算法知识,词向量II网络知识资源深层表示学习模型研究RESEARCHOFDEEPREPRESENTATIONABOUTWEBKNOWLEDGERESOURCEABSTRACTWiththerapiddevelopmentofcomputertechnologyandtheex
7、plosivegrowthofInternet,peopleoftenfailtoacquire,utilizetherequiredrichanddiversecontentnetworkknowledgeresourceseffectively.Inordertomakebetteruseofnetworkknowledgeresources,weneedtoapplymoreautomatedandintelligentdataminingandinformationextractionmethods.Webdoc
8、ument,asanetworkofknowledgeresources,hasthecharacteristicsofnaturallanguageunstructured.Beforeusingclustering,classification,textminingandminingtechnology,youn
此文档下载收益归作者所有