基于hadoop的中文并行lda算法及在电子病历挖掘中的应用

ID：35179511

大小：3.83 MB

页数：69页

时间：2019-03-20

资源描述：

《基于hadoop的中文并行lda算法及在电子病历挖掘中的应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、＊？＠’斯素硕±学位论文论文题目：某干ＨａｄｏｏＤ的中女并行ＬＤＡ算法及在电子病＊历巧擺中的应用Ｔ晓琳；作者挂若叶枫指导教师学科专业管理科学与王程培养类别全日制学术型硕去＿所在学院经资管理学院提交日期２０１６年１２月５日■浙江王业大学学位论文原创性声明的指导下，独立进行本人郑重声明；所提交的学位论文是本人在导师研究。除文中己经加Ｗ标注引用的内容外，本论文工作所取得的研究成果过的研究成果，也不含为获得浙江不包含其他个人或集体己经发表或撰写材料。对本义的研究作出工

2、业大学或其它教育机构的学位证书而使用过的重要贡献的个人和集体，巧已在文中臥明确方式标明。本人承担本声明的法律责任。、日期；年／之月＞曰作者签名；Ｊ斯学位论文版权使用授权书，同意本学位论文作者完全了解学校有关保留、使用学位论文的规定学校保留并向国家有关部口或机构送交论文的复印件和电子版，允许论文的全部或部分内被查阅和借阅。本人授权浙江工业大学可切将本学位论文＾采用影印、缩印或扫描等复制手段保存容编入有关数据库进行检索，可和汇编本学位论文。本学位论文属于一年解密后适用本授权书。１、保密□，在Ｓ年解密后适用本授权

3、书。２、保密□，在３、不保密囚／＂＂（请在上相应方框内打Ｖ）＾：八／（）年／之月Ｔ日日期作者签名：诚＾Ｊ邱｝年ａ导师签日期；＞〇化月Ｔ日名；心浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用摘要电子病历作为互联网医疗的基础技术，记录了病人的临床诊疗记录，是极具价值的数据资源。我国市级以上医院的病历信息系统的总数据规模估计在100TB以上，日新增数据的数量级为GB，数据类型多样，符合学术界对大数据的定义。目前对电子病历的数据挖掘实践多采用在单

4、台计算机上运用常规的聚类分类算法和关联规则处理结构化数据的分析方法，不能较好地适应大数据环境。Hadoop是当前热门的分布式处理系统，通过组合数量巨大的廉价通用硬件形成巨大的资源池，部署简单，容错能力较高，因此本文以Hadoop为平台构建大数据分析算法的并行程序。本文选择主题模型中的LDA模型作为并行化的目标，参数估计方法为塌缩Gibbs采样法。k本文引入点互信息算法PMI对ICTCLAS分词系统增加了词库的动态更新功能，并给出了处理大规模数据集的并行框架。将输入的文档从外部和内部分块，为避免参数采集中的依赖性，采用对角线法分配数据。在塌缩吉布斯采样时统计

5、每一个单词在所有文档中的词频，在归一化词频向量上叠加合适的随机数序列，过滤掉低于阈值的词语。I浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用本文采用复旦大学的中文语料库从准确率、困惑度、加速比三个指标分析实验结果，得到如下结论：改进后的分词算法能有效增加分词准确率和召回率；改进的并行LDA算法能显著减少模型运行时间。最后，本文以真实新生儿电子病历集为挖掘对象，采用并行LDA算法进行文档分类和特征发现。挖掘结果显示算法分类的准确率较高；算法输出的描述性的词语矩阵包含了候选特征，通过单因素方差分析检验对四种新生儿疾病患病率有显

6、著影响的因素。关键词：医疗大数据，并行LDA，Gibbs采样，Hadoop论文类型：应用/专题研究II浙江工业大学硕士论文基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用CHINESEPARALLELLDAALGORITHMBASEDONHADOOPANDDATAMININGINELECTRONICMEDICALRECORDSABSTRACTAsthebasisofInternetmedicaltechnology,electronicmedicalrecordsarevaluableresourcecontainingthepatient's

7、clinicaldiagnosisandtreatmentrecords.Thetotaldatasizeofthemedicalrecordinformationsystemisabove100TB,andthenewdateisgrowingrapidlly.Thedatatypesarediverse,whichconformstothedefinitionoflargedatainacademiccircles.Atpresent,thedataminingpracticeofelectronicmedicalrecordsisbasedonthe

8、traditionalclusteringalgorithmand

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 69



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop的中文并行lda算法及在电子病历挖掘中的应用

基于hadoop的中文并行lda算法及在电子病历挖掘中的应用

相关文章

相关标签