自然语言处理中半监督算法的应用

自然语言处理中半监督算法的应用

ID:22380714

大小:25.00 KB

页数:5页

时间:2018-10-28

自然语言处理中半监督算法的应用_第1页
自然语言处理中半监督算法的应用_第2页
自然语言处理中半监督算法的应用_第3页
自然语言处理中半监督算法的应用_第4页
自然语言处理中半监督算法的应用_第5页
资源描述:

《自然语言处理中半监督算法的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、自然语言处理中半监督算法的应用  摘要自然语言处理技术在快速发展中,为人们的生活带来了一定的便捷。监督学习方法在自然语言处理技术发展过程中起到了推动型作用,但是监督学习方法在落实过程中对于有关资料的依赖性较高,非常容易出现标注预料缺乏的问题。在这种情况下,半监督学习就是一种最为的选择。半监督学习主要是对于标记数据与无标记数据同时进行应用,这样能够充分利用标记数据,进而推动自然语言处理技术的发展。  【关键词】半监督学习跨语言词性标注主动学习  半监督学习是近几年机器学习领域内最为热点的一个课题,主要就是对于标记数据与无标记数据利用进行分析研究,进而获得比原

2、有有监督学习方法更加优良的功能。半监督学习理念只从推出之后,科研人员研究了较多的方法,但是现在实际应用过程中还是存在较多并未标注的数据,在标注数据获取上面具有较高的难度,未标记数据数量远远超过标记数据数量。就以生物学角度而言,科研人员在蛋白质结构分析上面可以花费多年的研究时间,其中无标记样本数量占据大部分。  1基于主动学习的半监督支持向量机研究与应用  1.1半监督支持向量机的定义  半监督支持向量机是一种具有代表性的半监督机器学习算法,是支持向量?C算法内的一个分支结构。分类准测也就是对于最大与最小风险数值对于标准进行检测。半监督支持向量机与聚类假设十

3、分吻合,聚类假设主要表示在将分类界面内的数据最大程度进行分析之后,所划分得到的区域。  1.2最优化方法  半监督支持向量机在对于最优化目标寻找过程中,只有一个目的就是对于非凸优化问题进行分析,大部分科研人员在研究过程中都是应用求近似解的方式,通过迭代的形成,逐渐寻找到优化目标。在对于非凸优化问题计算过程中,最为主要的限制因素就是半监督支持向量机。本文在最优化方法分析研究过程中,利用平均随机梯度下降的方法进行分析。  随机梯度下降算法是随机近似算法被的重要组成部分,在机器学习结构内应用十分广泛,例如支持向量机。随机梯度下降算法应用最为主要的一个优势就是能够

4、对于权重向量进行在线更新。  就随机近似算法理论而言,在实际应用过程中无法计算到最佳结果,但是伴随着近几年科研人员对其深入性研究分析,科研人员研究发现,训练数据在保证充足的情况下,在迭代计算过程中,随机梯度下降类算法能够计算得出最优结果。这个发现对于开展大规模训练活动而言,对于整个活动开展具有促进性意义。平均随机梯度下降与原有随机梯度下降在应用效果上面相比较,所具有的收敛速度更加快速,计算稳定性也得到了显著提高。  正常情况下,对于样本进行梯度计算求和结果,等同于每次对于样本的随机性选择,对于梯度进行计算,权重也能够在线更新。  2基于图的半监督算法在自然

5、语言处理中的应用  近几年,科研人员对于图的半监督算法给与了较高的关注,主要原因是由于图的半监督算法与一般假设相比较,应用更加便捷,解释十分容易,在应用的领域内都取得了良好的效果。但是,图的半监督算法在应用过程中十分繁琐,同时由于计算流程属于直推式的,这样也就表示在对于测试集更换之后,需要重新进行计算。图的半监督算法在小数据集上面虽然取得了一定成果,但是在大规模数据上面应用还存在一定不足。基于图的半监督算法在自然语言处理中应用,主要原因有两个,分别是复杂度较高与计算代价。  2.1基于图的半监督算法  基于图的半监督算法在实际应用过程中,就是将样本内全部数

6、据构建成为一个相似性较高的图,图上面所具有的每一个点都能够代表一个样本内的数据,两个节点之间的间距一般情况下标示样本之间所具有的相似度,表示出两个样本之间所具有的关联。在对于相似性进行定义过程中,主要有两种方法,年分别是高斯核与K紧邻。  2.2NLP任务中图算法数据稀疏问题的解决方法  2.2.1词向量简介  近几年,词向量在自然语言内得到了显著关注。词向量主要是在深度学习算法之后计算得出,词向量应用到自然语言处理领域内,最为关键的一个技术就是词语用法。  在自然语言处理领域内,统计方法已经成为主流方法,自然语言问题在转变为机器学习问题的时候,首先就需要

7、应用数学符号对于自然语言问题进行表示。  在词向量没有产生之前,自然语言处理应该最为广泛的方式为one-hot,这种表示方法主要就是将自然语言转变为o/l向量,向量的长度就是词语长短。  2.2.2词汇化特征与词向量特征的使用方式  在对于词汇化特征与词向量特征使用方式分析研究过程中,就以词性标注任务作为研究对象,对于词向量特征怎样提高标准精确性进行分析研究。  在自然语言处理领域内,最为基础性技术就是词性标注,为每个词汇标注针对性信息。正常情况下,在对于词性标注过程中,可以将其看成序列标注问题,部分科研人员还将其看成分类问,本文在分析研究中,就将其看称为

8、分类问题。要是文内一共具有n个词性,在对于每一个词进行标注过程中,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。