基于lda和lsa的医学病历语义检索方法研究

基于lda和lsa的医学病历语义检索方法研究

ID:33497176

大小:4.12 MB

页数:82页

时间:2019-02-26

基于lda和lsa的医学病历语义检索方法研究_第1页
基于lda和lsa的医学病历语义检索方法研究_第2页
基于lda和lsa的医学病历语义检索方法研究_第3页
基于lda和lsa的医学病历语义检索方法研究_第4页
基于lda和lsa的医学病历语义检索方法研究_第5页
资源描述:

《基于lda和lsa的医学病历语义检索方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号UDC密级学位论文基于LDA和LSA的医学病历语义检索方法研究作者姓名:石倩倩指导教师:曹春红副教授东北大学信息科学与工程学院申请学位级别:硕士学科类别:工学学科专业名称:计算机软件与理论论文提交日期:学位授予日期:评阅人:2014年6月2014年7月张锡哲、于晓鹏论文答辩日期:答辩委员会主席:东北大学2014年6月张斌教授万方数据AThesisinComputerSoftwareandTheoryIIlllIIIIIllIllIIIY2987941ResearchofMedicalRecordsSemanticRetrievalMethodBasedonL

2、DAandLSAByShiQianqianSupervisor:AssociateProfessorCaoChunhongNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:夕倩债日期:乃m以)c}学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位

3、论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年函一年口一年半口两年口学位论文作者签名:力侑1自导师签名:啼舞札签字日期:划牛.形.)牛签字日期:劢J牛.ob.)牛万方数据东北大学硕士学位论文摘要基于LDA和LSA的医学病历语义检索方法研究摘要近些年来,医学病历数据的爆炸式增长给信息检索技术带来了巨大挑战。在目前使用最多的传统检索模型中,往往忽略了文本信息中隐藏的语义结构,而医学病历数据中存在的同义词、

4、多义词等不确定因素的存在,使得用户很难快速并准确的检索到相关信息。本文鉴于医学病历数据存在的特点及其所带来的问题,主要对LSA(LatentSemanticAnalysis)和LDA(LatentDirichletAllocation)两种语义检索模型进行研究。LSA和LDA两种模型有效克服了传统检索模型无法处理多义词和同义词的问题,对文本的潜在语义进行挖掘,根据词汇、文本、伪文本三者在语义上的关联产生检索结果,达到优化检索结果的目的。本文的研究在构建的医学领域中的语料库基础上主要包括以下几个方面:1.针对LSA模型中传统的TF.IDF权重计算方法仍旧基于线性的处理并且未

5、体现特证词出现的位置信息对其产生的重要影响问题,提出并实现了一种基于LSA改进模型的医学病历语义检索算法。LSA改进模型在计算权重时加入非线性处理及位置权重因子,通过截断的奇异值分解建立潜在语义空间,并将词汇和文本投影在该空问中,进而提取词汇间深层次的语义关系。同时,本文提出一种基于查准率的确定最优K值的方法。实验结果表明,改进的LSA模型可以有效解决同义词的问题,提高医学病历的检索性能。2.针对传统的检索算法不能很好地处理大规模医学病历数据的问题,本文用LDA模型进行主题建模,利用Gibbs抽样进行参数推理,间接计算模型参数,获取文本在主题集上的概率分布。同时,本文提出

6、一种确定最优主题数目丁的有效方法。最后,对实验结果数据进行对比分析,验证了将LDA模型用于文本病历语义检索方面的可行性。3.针对LSA改进模型采用的奇异值分解运算时间复杂度较高并且不太适合处理动态变化的文本集及LDA模型未考虑特征词权重影响的问题,提出并实现了一种基于组合模型的医学病历语义检索算法。实验结果表明,该算法在保证召回率的前提下,可以相对提高医学病历检索的准确度,验证了提出的合理性。关键词:医学病历;信息检索;LSA模型;奇异值分解:LDA模型.IT.万方数据东北大学硕士学位论文AbstractResearchofMedicalRecordsSemanticRe

7、trievalMethodBasedonLDAandLSAAbstractInrecentyears,theexplosivegrowthofmedicalrecordsdataisagreatchallengetoinformationretrievaltechnology.Currently,inthemostusedtraditionalretrievalmodels,oftenoverlookedhiddentextsemanticstructure,butthepresenceofsynonyms,polysemya

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。