欢迎来到天天文库
浏览记录
ID:55399902
大小:384.09 KB
页数:5页
时间:2020-05-15
《基于众包的社交网络数据采集模型设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第41卷第4期计算机工程20l5年4月VO1.41NO.4ComputerEngineeringApril2015·先进计算与数据处理·文章编号:1000.3428(2015)04.0036.05文献标识码:A中图分类号:TP311基于众包的社交网络数据采集模型设计与实现高梦超一,胡庆宝,程耀东,周旭,李海波,杜然(1.四JII大学计算机学院,成都610065;2.中国科学院高能物理研究所汁算中心,北京100049;3.中国科学院声学研究所,北京100190)摘要:社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜
2、索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题DeepWeb爬虫系统4个模块。通过主题DeepWeb爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题DeepWeb爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。关键词:社交网络;众包模式;分布式计算;信息采集;Web爬虫;Hadoop分布式文件系统中文引用
3、格式:高梦超,胡庆宝,程耀东,等.基于众包的社交网络数据采集模型设计与实现[J].计算机工程,20l5,41(4):36-40.英文弓I用格式:GaoMengchao,HuQingbao,ChengYaodong,eta1.DesignandImplementationofCrowdsourcing—basedSocialNetworkDataCollectionModel[J].ComputerEngineering,2015,41(4):36—40.DesignandImplementationofCrowdsourcing—basedSocialNetw
4、orkDataCollectionModelGAOMengchao一,HUQingbao,CHENGYaodong。,ZHOUXu,LIHaibo,DURan(1.CollegeofComputerScience,SichuanUniversity,Chengdu610065,China;2.ComputingCenter,InstituteofHighEnergyPhyscics,ChineseAcademyofSciences,Beijing100049,China3.InstituteofAcoustics,ChineseAcademyofScience
5、s,Beijing100190,China)【Abstract】Socialnetworkdatahasthefeaturesofinformativeandstrongtopicalitywithsignificantvaluefordatamining,anditisalsoaveryimportantpartoftheInternetbigdata.However,traditionalsearchenginescannotusethekeywordsretrievetechnologytoindextheinformationofsocialnetwo
6、rkplatformdirectly,andundersuchcircumstances,thispaperdesignsandimplementsadatacollectionmodelbasedoncrowdsourcingmodeandC/Sarchitecture.Themodelconsistsoffourmodulesincludingserver,client,storagesub—systemandaDeepWebcrawlersystem.ThenodesrunthetopicDeepWebcrawlersystemtorequestnewt
7、asksautomaticallyanduploadtheacquireddata,meanwhilethesystemusestheHadoopDistributedFileSystem(HDFS)toprocessdatarapidlyandstoreresults.ThetopicDeepWebcrawlersystemhasthefeaturesofeasyconfiguration,flexiblescalabilityanddirectdatacollection,anditalsoprovesthatdatacollectionmodelisab
8、letofulfillthetasks
此文档下载收益归作者所有