欢迎来到天天文库
浏览记录
ID:53761526
大小:558.25 KB
页数:5页
时间:2020-04-24
《基于Hadoop云计算平台的图像分类与标注-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、研究与开发基于Hadoop云计算平台的图像分类与标注陆寄远’,黄承慧’,侯防’。李斌(1.广东金融学院计算机科学与技术系广州510521:2.甲骨文研究开发中心(深圳)有限公司深圳518057)摘要:为有效处理并利用互联网海量的图像和视频数据,提出了一种基于Hadoop云平台的图像分类和标注解决方案。针对如何高效地进行训练集提取这一重要问题,搭建了基于云计算的图像抓取平台.利用互联网的图像资源作为原始数据集,为提取训练集图像提供足够的数据;实现了基于概率潜在语义分析模型的训练集图像提取功能,对原始数据集进行基于主题的聚类,帮助
2、用户快速选取训练集图像:加入了SVM分类模型.利用提取出来的训练集对未标注图像进行分类标注,实现了完整的系统。实验结果表明,该方案能够满足海量图像数据分类和标注的功能和性能需求。关键词:云计算;训练集提取;支持向量机;视觉特征提取doi:10.39696.issn.1000—0801.2014.02.008ImageClassificationandAnnotationBasedonHadoopCloudComputingPlatformLuJiyuan,HuangChenghui,HouFang,LiBin(1.Depart
3、mentofComputerScienceandTechnology,GuangdongUniversityofFinance,Guangzhou510521,China;2.OracleResearchandDevelopmentCenter(Shenzhen)Co.,Ltd.,Shenzhen518057,China)Abstract:Inordertoeffectivelydealwiththemassiveimageandvideodataininternet,asolutionforimageclassificati
4、onandannotationbasedonHadoopcloudplatformwasproposed.Firstly,asystembasedoncloudcomputingwasgiventocrawltherawdataimagefromWWW.Secondly.atrainingimageextractorbasedonpLSA(probabilisticlatentsemanticanalysis)waspresentedtohelpuserstogettrainingsetimagesefectively.Thi
5、rdly,theSVMmodelforthesystemwasintegrated,whichcouldbeusedtoclassifyorannotatenovelimages.Accordingtotheexperiment,thesystemcanbothmeetthefunctionalrequirementandachieveoptimizedperformanceforimagedataclassificationandannotation.Keywords:cloudcomputing,trainingsetex
6、traction,supportvectormachine,visualfeatureextraction等都是现在的研究重点。各种分类算法、模型和系统不断1引言涌现,如基于SVM(supportvectormachine,支持向量机)、随着网络的普及以及多媒体数据获取设备的发展,图pLSA(probabilisticlatentsemanticanalysis,概率潜在语义像和视频的数量都飞速增长,多媒体资料的存储和检索成分析)或决策树的图像分类方法_1_。其中,基于内容的图像为热门的研究领域。基于内容的图像检索、对象识别、
7、标注检索是形成基于内容的标注和图像之间的映射。有了这些国家自然科学基金资助项目(No.61173081),广东省自然科学基金资助项目(No.$2011020001215,No.$2012040007847)标注,就可以将用户的查询分解到标注的概念,以检索出2基于Hadoop的图像分类与标注系统结果。图像分类和标注的问题可以理解为模式识别的问题,云计算是一种新的IT资源提供模式。依靠强大的分计算机无法像人类一样具有抽象概括的能力。只能利用图布式计算能力,使成千上万的终端用户能够依靠网络连接像的底层特征进行识别分类。现有的图像分类
8、系统大部分的硬件平台的计算能力实施多种应用。Hado0p_5l是一个分是按照如图1所示的工作流程:从图像中提取视觉描述子布式系统基础架构,由Apache基金会开发。使用者可以在向量:利用已经学习到的码本(codebook)对这些描述子向不了解分布式底层细节的情况下,搭建分布式
此文档下载收益归作者所有