资源描述:
《基于分布式爬虫的云健康资讯平台设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:硕士学位论文基于分布式爬虫的云健康资讯平台设计与实现作者姓名:向中希指导教师:陶耀东研究员中国科学院沈阳计算技术研究所学位类别:工学硕士学科专业:计算机科学与技术培养单位:中国科学院沈阳计算技术研究所2016年4月DesignandImplementationofHealthInformationPlatformBasedonDistributedCrawlerByZhongxiXiangADissertationSubmittedtoUniversityofChineseAcademyofScien
2、cesInpartialfulfillmentoftherequirementForthedegreeofMasterofComputerScienceandTechnologyShenyangInstituteofComputingTechnology,ChineseAcademyofSciencesApril,2016独创性声明本人郑重声明:所提交的学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人或集体已经发表或撰写过的
3、研究成果,也不包含为获得中国科学院大学或其它教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。签名:日期:关于学位论文使用授权的说明本人完全了解中国科学院大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以公布学位论文的全部或部分内容。(涉密的学位论文在解密后应遵守此规
4、定)签名:导师签名:日期:摘要摘要借助移动互联网的迅速普及与云计算技术的迅猛发展,云健康理念于2009年被提出。它指的是在医疗专家、机构、厂商的协助下,以物联网和移动互联网为载体,利用云计算、云存储、云服务等手段,为医疗患者和健康需求用户提供健康管理和疾病诊疗等服务和设备上的支持。本文依托已有的中科慧康云健康平台,通过分布式爬虫采集互联网上的健康资讯,给该平台的2万多用户提供最新的健康资讯信息服务。本文实现的基于分布式爬虫的健康资讯平台主要分为两个部分,一部分是分布式爬虫采集信息,通过调研主要的分布式爬虫的
5、架构,借鉴对等网络(Peer2Peer)的思想,改进Kademlia协议,最终设计并实现了一种去中心化的全分布式架构的爬虫;另一部分是将分布式爬虫采集到的信息通过提供统一的API接口的方式实现在Web端和移动端的健康资讯的浏览。经过实际实验检验,本文提出的分布式爬虫架构能够有效的避免以往的主从式架构局部负载高、扩展相对困难、广域网成本高等问题,具备较好的扩展能力和较高的容错能力,能够为别的分布式系统提供新的思路。【关键词】云健康分布式爬虫去中心化Kademlia协议I基于分布式爬虫的云健康资讯平台设计与实现
6、ABSTRACTWiththepopularityofmobileInternetandcloudcomputingtechnology,cloud-basedhealthcarehasbeenproposedin2009,itusestechnologiessuchascloudcomputing,cloudstorage,cloudservices,networking,mobileInternet,alongwiththeassistfrommedicalinstitutions,experts,me
7、dicalresearchinstitutions,medicalmanufacturerstoprovidereal-time,on-line,latestbodydatacollection,healthmanagement,diseasetreatment,diseasediagnosisandothermedicalservicesanddataacquisitionequipmentformedicalpatientsorpeoplewithsimilarneeds.RelyingontheZho
8、ngKeHuiKanghealthcareplatform,thispaperaimstodevelopasystemthatcollectshealthinformationontheInternetthroughadistributedcrawlerandprovidethelatesthealthnewsandinformationformorethan20,000usersontheplatform.Im