一种基于聚类的文本迁移学习算法

一种基于聚类的文本迁移学习算法

ID:40713445

大小:695.78 KB

页数:4页

时间:2019-08-06

一种基于聚类的文本迁移学习算法_第1页
一种基于聚类的文本迁移学习算法_第2页
一种基于聚类的文本迁移学习算法_第3页
一种基于聚类的文本迁移学习算法_第4页
资源描述:

《一种基于聚类的文本迁移学习算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、计算机系统应用2010年第19卷第12期一种基于聚类的文本迁移学习算法①杜俊卫李爱军(山西财经大学信息管理学院山西太原030006)摘要:当现有训练数据过期,而新数据又非常少时,运用迁移学习能够有效提高分类器性能。本文提出一种基于聚类的文本迁移学习算法,给出了算法的主要思想及实现步骤。然后,在中文文本语料库上进行了实验,并与非迁移学习算法进行了比较。实验证明该方法能有效提高分类器性能。关键词:训练数据过期;新数据非常少;迁移学习;聚类;文本TransferLearningAlgorithmforT

2、extClassificationBasedonClusteringDUJun-Wei,LIAi-Jun(DepartmentofInformationManagement,ShanxiUniversityofFinanceandEconomics,Taiyuan030006,China)Abstract:Transferlearningcanimprovetheperformanceofclassifiereffectively,whenthetrainingdataareoutofdate,b

3、utthenewdataareveryfew.Inthispaper,weproposeatransferlearningalgorithmfortextclassificationbasedonclustering.Wedescribethemainideaandthestepofthealgorithm.ThenhaveexperimentontextcorpusofChinese,andcomparethealgorithmwithtransfer-unawarealgorithm.Thee

4、xperimentsdemonstratethatthisalgorithmsignificantlyoutperformstheothers.Keywords:trainingdataareoutofdate;newdataareveryfew;transferlearning;clustering;text1引言的任务[2]。图1[2]中显示了传统机器学习与迁移学习的传统文本分类技术主要有:贝叶斯、支持向量机、区别。从图中可以看出:传统的机器学习绝大多数都决策树、K最近邻和神经网络等等[1]。

5、这些分类技术是从零开始,并不借鉴以前学到的知识,而迁移学习都需要有大量的训练数据。但是,在很多情况下,目尝试将以前任务中学到的知识迁移到新任务的学习中标任务可能没有足够的训练数据。例如,在Web应用去,这样机器学习的能力就会大大增强。领域,大量新的领域不断涌现,从传统的新闻,到网页,到图片,再到博客、播客等等。这就常常导致现有训练数据过期,而新数据的收集又非常困难。此时传统的机器学习方法就显得力不从心了。解决这种问题的一种有效方法就是迁移学习。从心理学的角度看,迁移学习是人类的基本技能。例如,学习

6、认识苹果有助于认识梨;或者学习弹奏电风琴有助于学习钢琴等等。迁移学习的目标是将从一个环境中学到的知识迁移到新的环境中,帮助新环境(a)传统机器学习(b)迁移学习下的学习。当现有训练数据过期,而新数据又非常少,图1传统机器学习与迁移学习的不同学习过程或者标注新数据代价非常大时,利用现有的不同分布下的训练数据来帮助新数据的学习,这就是迁移学习目前,迁移学习的技术主要分为基于实例的迁移①基金项目:国家自然科学基金(60873100)收稿时间:2010-04-13;收到修改稿时间:2010-05-2323

7、8经验交流ExperiencesExchange2010年第19卷第12期计算机系统应用学习[3,4]和基于特征的迁移学习[5,6]。在文本分类中,σn),则d1和d2之间的相似度表示为:n这两种迁移iiåω´σ技术的研究已经有了初步的成果[7,8],但这些成果都有sim(dd)=cosα=i=1(2)1,21ænnö2一定的局限性,还需要进一步的研究。本文借鉴基于çåω2´åσ2÷çii÷实例迁移技术的思想[2],提出一种基于聚类的文本迁èi=1i=1ø移学习算法。采用聚类技术对现有数据进行过滤

8、,找sim(d1,d2)的值越大,两个文本就越相似。出与目标数据非常相似的数据,来帮助目标任务的学2.3算法思想习。首先,将辅助训练数据与目标训练数据一起进行聚类。聚类的结果是使得簇内数据间相似性较高,而2基于聚类的文本迁移簇间数据相异。因此,经过聚类后,没有和目标训练虽然现有的辅助数据已经过期。但是在这些现有数据聚在同一簇的辅助数据就被过滤掉。剩下的就是数据中,应该还会存在一部分数据与测试数据非常相和目标数据相似性较高的数据,将它们和目标数据一似,能够用来帮助目标任务的学习[4]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。