基于大数据的热点医疗新闻系统的研究与实现

基于大数据的热点医疗新闻系统的研究与实现

ID:37089374

大小:3.14 MB

页数:69页

时间:2019-05-17

基于大数据的热点医疗新闻系统的研究与实现_第1页
基于大数据的热点医疗新闻系统的研究与实现_第2页
基于大数据的热点医疗新闻系统的研究与实现_第3页
基于大数据的热点医疗新闻系统的研究与实现_第4页
基于大数据的热点医疗新闻系统的研究与实现_第5页
资源描述:

《基于大数据的热点医疗新闻系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:10697:TP391学校代码密级:公开学号:201531474_颀士专业字位论文DilDMissertationfortheProfessonaegreeofaster基干大数据的热点医疗新闻系统的研究与实现学科名称:软件工程专业学位类别:工程颂士:作者:李钊指导老师彭进业教授西北大学学位评定委员会二〇—八年六月JResearchandImplementationofHotMedicalNewssystemBasedonBigDataAthesissubmittedto

2、NorthwestUniversityinpartialfulfillmentoftherequirementsforthedegreeofMasterinsoftwareengineeringByLiZhaoSupervisor:PengJinyeProfessorJune2018摘要进入web2.0时代以来,互联网医疗信息出现了指数增长,传统的技术已经无法达到获取和存储海量非结构化数据的性能需求。基于此现象,本文研究了大数据技术与舆情信息处理技术,实现了一款基于大数据环境下的热点医疗新闻系统,旨在为广大用户更快速、更准确地获取到当下最热门的

3、医疗健康信息。本文主要完成了以下工作:1.搭建了大数据环境下的分布式增量型Nutch爬虫,使用Nutch实时爬取国内著名医疗网站的新闻数据信息;使用基于标签属性的正文解析算法对爬取的数据做正文提取;使用双字哈希机制的中文分词算法对正文做中文分词处理。2.采用TF-IDF算法对分词结果做关键词提取,提取分词集合中TF-IDF值排名前16的关键词做正文的特征值集合,构建正文的16维向量空间模型。3.改进了传统的single-pass聚类算法;引入了一种关键词权值的计算方法,提高了传统single-pass算法聚类的准确度;采用聚类中心思想,用聚类中

4、心代替主题的新闻集合,提高了待聚类新闻的聚类效率;采用时间函数模型,对新闻的热度进行持续追踪,提高了发现热点新闻的准确率。4.基于对以上算法的研究与改进,结合web中的SSH框架与大数据中的HBase非结构化数据库与MapReduce计算模型,实现了一款基于大数据环境下的热点医疗新闻系统。关键词:互联网医疗,大数据,Nutch爬虫,Single-Pass聚类IABSTRACTSincetheeraofweb2.0,Internetmedicalinformationhasbeengrowingexponentially,andtradition

5、altechnologyhasbeenunabletomeettheperformancerequirementsofacquiringandstoringmassiveunstructureddata.Basedonthisphenomenon,thispaperstudiesthetechnologyofdataandpublicopinioninformationprocessingtechnology,hasrealizedahotmedicalnewssystembasedonbigdataenvironment,forthevast

6、numberofusersmorequicklyandmoreaccuratelyaccesstothemostpopularhealthinformation.Thisarticlemainlycompletesthefollowingwork:1.BuiltthedistributedincrementalNutchcrawlerinthebigdataenvironment,andusedNutchtocrawlthenewsdataoffamousmedicalwebsitesinChinainrealtime;Usingthetext

7、parsingalgorithmbasedontagattributestoextractdatafromcrawling;TheChinesewordsegmentationalgorithmofdouble-wordhashmechanismisusedtodealwiththetext.2.Usingthetf-idfalgorithmtoextractkeywordsfromthesegmentationresults,extractthekeywordsofthetf-idfvaluerankinginthetop16ofthewor

8、dset,andconstructthe16-dimensionalvectorspacemodelofthetext.3.Improvedthetr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。