排序学习中的领域自适应研究

排序学习中的领域自适应研究

ID:33234790

大小:4.77 MB

页数:148页

时间:2019-02-22

排序学习中的领域自适应研究_第1页
排序学习中的领域自适应研究_第2页
排序学习中的领域自适应研究_第3页
排序学习中的领域自适应研究_第4页
排序学习中的领域自适应研究_第5页
资源描述:

《排序学习中的领域自适应研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2排序学习中的领域白适应研究院系:专业:研究方向:指导教师:论文作者:2011年4月8日IDISSERTATIONFORDOCTORDEGREE,201Sch001Code:10269StudentNumber:52081500008EAST嘞澈№㈣LUNIVERSITYMAJOR:DomainAdaptationforLearningtoRankRESEARCHDIRECTION:——MassiveDataManagementandWebMining.....SUPERVISER:AUTHOR:8thApril2011Ⅲ,,舢0洲

2、2吣5㈣0m9¨n¨¨¨"■■lmY-L华东师范大学学位论文原创性声明郑重声明:本人呈交的学位论文《排序学>----j中的领域自适应研究》,是在华东师范大学攻读硕士/博毫‘请勾选)学位期间,在导师的指导下进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中作了明确说明并表示谢意。作者签名:血日期.沙c\年厂月f,7日华东师范大学学位论文著作权使用声明《排序学>--j鹋领域自适应研究》系本人在华东师范大学攻读学位期l'日-J在导师指

3、导下完成的硕士/博士(请勾选)学位论文,本论文的研究成果归华东师范大学所有。本人同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于(请勾选)()1.经华东师范大学相关部门审查核定的“内部"或“涉密”学位论文牛,于年/月日解密,解密后适用上述授

4、权。(乙y2.不保密,适用上述授权。新签名一事“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文(需附获批的《华东师范大学研究生申请学位论文“涉密”审批表》方为有效),未经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权)。一日拯帕名p鹤≯镌硷博士学位论文答辩委员会成员名单姓名职称单位备注?吾薅华名据!畚华艇主席’l露而寻B趁馏饪三六霉i吮厂帆髭撞伍旦夭军,王哓巧程箍岔觅。/祝盼i5击故锑资努{㈣躲黝瞪稚华东师范大学博士学位论文摘要随着监督式机器学习技术在

5、各个领域的广泛应用,研究人员逐渐意识到,训练数据的缺乏是阻碍学习模型快速部署的关键因素之一。最近几年,如何解决训练数据缺乏的问题,已经成为机器学习,自然语言处理,信息检索、多媒体等领域的研究热点。排序学习是信息检索的关键问题之一。目前,基于监督的机器学习技术被认为是解决排序学习的最佳选择。如同传统监督式学习技术,目标领域缺乏训练数据也是排序学习正在面临的实际问题。针对排序学习,我们研究了如何利用其他相关领域的已有训练数据,学习出适用于目标领域的模型,即领域自适应。本文的主要贡献有以下几个方面:1.提出了基于文档权重的排序学习自适应框

6、架。首先,利用领域分隔超平面估计源领域文档对目标领域的重要性;然后,把这些文档权重转换成文档对权重;最终,文档对权重可以集成到基于文档对的排序学习算法中。2.研究了著名的排序学习算法RankBoost的领域自适应问题。在基于文档权重的排序自适应框架下,提出了三种基于文档权重的RankBoost算法,并分别对它们进行了理论分析和试验比较。3.提出了直接在查询层次估计源领域查询对目标领域重要性的方法。在排序学习’中,查询是带有相关性标签的文档集合,是排序学习的基本对象。我们分别从两个不同的角度进行查询权重估计:(1)将查询压缩成特征向量

7、,然后采用传统的权重估计方法进行查询权重估计。(2)对每个源领域的查询,把它依次和目标领域查询进行比较;通过集成这些两两比较的结果,估计源领域查询对于目标领域的重要程度。4.提出了基于主动学习的排序学习自适应算法。为了获得目标领域特有的排序知识,采用主动学习技术,选择少量目标领域具有信息量的查询进行标注。这些查询可以弥补源领域所缺失的目标领域排序知识,同时,利用这些目标查询评估源查询对目标领域的重要性权重,从而充分利用源领域的训练数据。5.将领域自适应技术应用在语义实体识别中,提出了利用领域独立特征来增强领域自适应能力的方法。传统实

8、体识别仅仅使用短文本特征,当训练文档和测试文档在风格上稍有差异时,性能便有明显下降。为解决该问题,我们设计了一个CRF与SVM的组合框架,通过该框架,短文本特征与领域独立特征可以有效的集成,最终获得的识别模型能够更好地适用于目标领域。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。