欢迎来到天天文库
浏览记录
ID:35179511
大小:3.83 MB
页数:69页
时间:2019-03-20
《基于hadoop的中文并行lda算法及在电子病历挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、*?@’斯素硕±学位论文论文题目:某干HadooD的中女并行LDA算法及在电子病*历巧擺中的应用T晓琳;作者挂若叶枫指导教师学科专业管理科学与王程培养类别全日制学术型硕去_所在学院经资管理学院提交日期2016年12月5日■浙江王业大学学位论文原创性声明的指导下,独立进行本人郑重声明;所提交的学位论文是本人在导师研究。除文中己经加W标注引用的内容外,本论文工作所取得的研究成果过的研究成果,也不含为获得浙江不包含其他个人或集体己经发表或撰写材料。对本义的研究作出工
2、业大学或其它教育机构的学位证书而使用过的重要贡献的个人和集体,巧已在文中臥明确方式标明。本人承担本声明的法律责任。、日期;年/之月>曰作者签名;J斯学位论文版权使用授权书,同意本学位论文作者完全了解学校有关保留、使用学位论文的规定学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文的全部或部分内被查阅和借阅。本人授权浙江工业大学可切将本学位论文^采用影印、缩印或扫描等复制手段保存容编入有关数据库进行检索,可和汇编本学位论文。本学位论文属于一年解密后适用本授权书。1、保密□,在S年解密后适用本授权
3、书。2、保密□,在3、不保密囚/""(请在上相应方框内打V)^:八/()年/之月T日日期作者签名:诚^J邱}年a导师签日期;>〇化月T日名;心浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用摘要电子病历作为互联网医疗的基础技术,记录了病人的临床诊疗记录,是极具价值的数据资源。我国市级以上医院的病历信息系统的总数据规模估计在100TB以上,日新增数据的数量级为GB,数据类型多样,符合学术界对大数据的定义。目前对电子病历的数据挖掘实践多采用在单
4、台计算机上运用常规的聚类分类算法和关联规则处理结构化数据的分析方法,不能较好地适应大数据环境。Hadoop是当前热门的分布式处理系统,通过组合数量巨大的廉价通用硬件形成巨大的资源池,部署简单,容错能力较高,因此本文以Hadoop为平台构建大数据分析算法的并行程序。本文选择主题模型中的LDA模型作为并行化的目标,参数估计方法为塌缩Gibbs采样法。k本文引入点互信息算法PMI对ICTCLAS分词系统增加了词库的动态更新功能,并给出了处理大规模数据集的并行框架。将输入的文档从外部和内部分块,为避免参数采集中的依赖性,采用对角线法分配数据。在塌缩吉布斯采样时统计
5、每一个单词在所有文档中的词频,在归一化词频向量上叠加合适的随机数序列,过滤掉低于阈值的词语。I浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用本文采用复旦大学的中文语料库从准确率、困惑度、加速比三个指标分析实验结果,得到如下结论:改进后的分词算法能有效增加分词准确率和召回率;改进的并行LDA算法能显著减少模型运行时间。最后,本文以真实新生儿电子病历集为挖掘对象,采用并行LDA算法进行文档分类和特征发现。挖掘结果显示算法分类的准确率较高;算法输出的描述性的词语矩阵包含了候选特征,通过单因素方差分析检验对四种新生儿疾病患病率有显
6、著影响的因素。关键词:医疗大数据,并行LDA,Gibbs采样,Hadoop论文类型:应用/专题研究II浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用CHINESEPARALLELLDAALGORITHMBASEDONHADOOPANDDATAMININGINELECTRONICMEDICALRECORDSABSTRACTAsthebasisofInternetmedicaltechnology,electronicmedicalrecordsarevaluableresourcecontainingthepatient's
7、clinicaldiagnosisandtreatmentrecords.Thetotaldatasizeofthemedicalrecordinformationsystemisabove100TB,andthenewdateisgrowingrapidlly.Thedatatypesarediverse,whichconformstothedefinitionoflargedatainacademiccircles.Atpresent,thedataminingpracticeofelectronicmedicalrecordsisbasedonthe
8、traditionalclusteringalgorithmand
此文档下载收益归作者所有