欢迎来到天天文库
浏览记录
ID:32266857
大小:4.54 MB
页数:82页
时间:2019-02-02
《基于潜在语义相关算法的电子病历检索的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
万方数据分类号UDC密级学位论文基于潜在语义相关算法的电子病历检索的研究与应用作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:吴东曹春红副教授东北大学信息科学与工程学院硕士学科类别:工学计算机软件与理论2012年6月论文答辩日期:2012年6月答辩委员会主席:周福才李文辉、张锡哲东北大学2012年6月 万方数据AThesisinComputerSoftwareandTheoryResearchandApplicationofElectronicMedicalRecordsRetrievalBasedontheCorrelationAlgorithmofLatentSemanticByWuDongSupervisor:AssociateProfessorCaoChunhongNortheasternUniversityJune2012肿删●t圳m、.肼6册2舢孔舢笈删1删O㈣J 万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢=此思0学位论文作者签名:疑寿.,日期:硼y、f、订学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年d一年半口两年口学位论文作者签名:欠乐导师签名:曾看q≯签字目期:加17,名.订签字日期:如,2.石.≯厂 万方数据东北大学硕士学位论文摘要基于潜在语义相关算法的电子病历检索的研究与应用摘要随着我国医保建设的快速发展,医院信息化系统开发的不断深入,电子病历作为临床医疗信息基础,逐渐成为现代化医院综合信息系统的核心。电子病历对病人的病情等信息进行了详细而完整的记录,它能够帮助医疗人员更好地在临床上进行决策。现今,电子病历在临床诊断与治疗中的应用日益广泛,以此同时,也产生了大量的电子病历数据。如何有效地利用这些电子病历数据辅助医生进行疾病诊断与医学研究是一个非常重要的问题。面对现代医院产生的大型电子病历数据,如何快速准确地检索得到医疗人员所需要的电子病历已成为一个巨大的挑战。然而,应用到电子病历检索的传统关键词检索或者向量空间模型都存在着一定的缺陷,如不能很好的解决医学词汇的同义性问题(如发热与发烧),以及医学词汇的多义性,这种情况的出现,很大程度上影响了电子病历检索的性能。因此,针对医疗领域电子病历的特点建立一个具有检索智能性的电子病历系统就显得尤为重要。鉴于医学词汇间的同义性和单个医学词汇的多义产生的歧义性,本文主要分析了两种智能型信息检索方式:潜在语义分析(LatentSemanticAnalysis,LSA)和概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)。它们将信息检索从机械匹配关键词的层面提高到了语义(概念)的层面,从概念意义上来认知和处理检索用户的请求,本文的主要贡献如下。1.构建了~个较为完善的电子病历检索相关测试集,这个相关测试集是电子病历检索性能评价所必不可少的,但是目前国内还没有一个标准的电子病历检索相关文档测试集合可供实验使用,因此本文对该语料库进行了构建,且本文实验表明该语料库构建的很合理,本文研究的检索算法在该语料库上也得到了很好的评价。2.成功地将潜在语义分析算法应用到电子病历领域,实现了基于LSA的电子病历的检索。3.成功地将概率潜在语义分析算法应用到电子病历领域,实现了基于PLSA的电子病历的检索。4.设计了一种自动的PLSA算法中隐含主题数K值选择的算法,是通过对当前最优K值不断逼近来实现的,替代了传统的穷举选择法,本文实验验证了本文所述方法在K值选择的效率优于已有的PLSA算法,并且其选择出来的隐含主题数K值也比较合理。5.提出了~种基于LSA和PLSA的组合算法的电子病历检索方法,该组合算法对.TT. 万方数据东北大学硕士学位论文摘要基于LSA的电子病历的检索的相似度和基于PLSA的电子病历的检索的相似度进行混合相似度的计算。本文的实验表明,该方法有效地提高了电子病历的检索性能。关键词:电子病历;信息检索;潜在语义;主题模型;矩阵分解..III.. 万方数据东北大学硕士学位论文AbstractResearchandApplicationofElectronicMedicalRecordsRetrievalBasedontheCorrelationAlgorithmofLatentSemanticAbstractWiththerapiddevelopmentofChina’Smedialinsurancebuildingandthedeepeningofthehospitalinformationsystemdevelopment,electronicmedicalrecordsasthebasisofclinicalinformationisbecomingthecoreofthemodemhospitalinformationsystems.Electronicmedicalrecordsrecordthepatient’Sconditionandotherdetailedandcompleteinformation.ThatCanhelpthemedicalstafftobeRerclinicaldecision-making.Today,electronicmedicalrecordsincreasinglywidespreadapplicationinclinicaldiagnosisandtreatment.Atthesametime,itgeneratedalotofelectronicmedicalrecordsdata.Itisaveryimportantissuetoeffectivelytakeadvantagesoftheseelectronicmedicalrecordstohelpdoctorstodiagnosediseaseandmedicalresearch.Thefaceofalargemodemhospitalelectronicmedicalrecorddata,itisahugechallengeforUStoquerytheinformationfastandpreciselythatthemedicalstaffneeds.However'theinformationretrievalsystemsofelectronicmedicalrecordsbasedontraditionalkeywordsandVSMhaveacertainamountofdefects.Forexample,theyCan’tsolvesynonymsandpolysemyofthemedicalwords·Becauseofthiskindofsituation,itgreatlyaffectedtheperformanceofelectronicmedicalrecordsretrieval.Therefore,itisparticularlyimportanttoestablishanintelligentelectronicmedialrecordsretrievalsystem.Inviewofthepolysemysandsynonymsofthemedicalwords,thepaperanalyzesthetwokindsofintelligentinformationretrievalsystems:latentsemanticanalysisandprobabilisticlatentsemanticanalysis.Itisfromthesemanticlevelnotthekeywordslevelforthemtorealizeinformationretrieval,andupfromtheconceptofsignificancetounderstandandhandletoretrievetheuser’srequest.Thispapercontributesonthefollowingaspects:1.Theauthorhasbuiltamorecomprehensivethetestsetforelectronicmedicalrecordsretrieval.Thistestsetisessentialforevaluationofretrievalperformanceofelectronicmedicalrecords.However,wedon’thaveastandardrelevanttestsetofelectronicmedicalrecordsretrievalforOurexperimentsinOurcountry.Sothispaperhasbuiltthecorpus.Andexperimentsinthispapershowthatthecorpusisbuiltveryreasonable,andtheretrieval.IV. 万方数据algorithmsstudiedinthepaperhavealsobeenagoodevaluation·2.Thelatentsemanticanalysisalgorithmissuccessfullyappliedtothefieldofelectronicmedicalrecords.Theauthorhasrealizedtheretrievalsystemofelectronicmedicalrecordswhichisbasedonthelatentsemanticanalysis.3.TheprobabilisticlatentsemanticanalysisalgorithmissuccessfullyappliedtothefieldofelectI-011icmedicalrecords.Theauthorhasrealizedtheretrievalsystemofelectronicmedicalrecordswhichisbasedontheprobabilisticlatentsemanticanalysis.4.TheauthorhasdesignedallautomaticalgorithmfortheselectionofKvaluewhichisthenumberofthelatenttopicsinPLSAalgorithm.ItisachievedbythecloerandclosertothecurrentoptimalvalueofK.Andthepaperusesthisalgorithmtoreplacethetraditionalexhaustiveselectionmethod.ItisverifiedthatthemethodinthispaperwhichisfortheselectionofKvalueisbetterthantheexistingPLSAalgorithm.AndtheKvalueselectedwhichisthenumberofthelatenttopicsisreasonable.5.TheauthorputforwardanalgorithmbasedoncombinationofLSAandPLSAwhichisappliedtotheretrievalsystemofelectronicmedicalrecords.Thesimilarityofthecombinationalgorithmisgotbymixedcalculatingthesimilarityoftheelectronicmedicalrecordsretrievalbasedonthelatentsemanticanalysisandtheelectronicmedicalrecordsretrievalbasedonprobabilisticlatentsemanticanalysis.AndexperimentalresultsshowthattheproposedmethodCalleffectivelyimprovetheperformanceoftheretrievalsystemfortheelectmnicmedicalrecords.Keywords:ElectronicMedicalRecords(EMR);InformationRetrieval;LatentSemantic;TopicModel;MatrixDecomposition.V. 万方数据东北大学硕士学位论文目录独创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯I摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..IIAbstract..⋯⋯⋯⋯.⋯⋯⋯⋯⋯..⋯⋯..⋯⋯.⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IV第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1信息检索综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1.1信息检索的发展⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.1.2信息检索模型介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.2电子病历⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.2.1电子病历简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.2.2电子病历的检索概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.3潜在语义相关算法简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.3.1潜在语义分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.3.2概率潜在语义分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.41.4本文研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.5本文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51.6本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6第2章潜在语义相关算法的基本原理研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.1潜在语义分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..72.1.1潜在语义分析的基本思想⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.72.1.2潜在语义分析的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.82.1.3相关度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.1.4潜在语义空间更新方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.142.1.5潜在语义分析的优缺点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..152.2概率潜在语义分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..172.2.1PLSA模型假设⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯172.2.2EM算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯20.VI. 万方数据东北大学硕士学位论文目录2.2.3似然值计算方法以及收敛条件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.222.2.4文档一查询相似度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.222.2.5概率潜在语义分析模型的特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一232.3本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯25第3章潜在语义相关算法在电子病历样本中的应用⋯⋯⋯⋯⋯⋯⋯⋯273.1潜在语义分析在电子病历处理中的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.273.1.1LSA电子病历样本应用示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯273.1.2LSA电子病历检索的处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯303.2概率潜在语义分析在电子病历处理中的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3l3.2.1PLSA电子病历样本应用示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯313.2.2统计主题模型简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯323.2.3PLSA电子病历检索的处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..343.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯35第4章潜在语义相关算法在电子病历检索中的应用⋯⋯⋯⋯⋯⋯⋯⋯374.1电子病历测试语料库的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.374.1.1Libxml2简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.1.2电子病历检索相关测试语料库的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374.2电子病历文档集预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯404.2.1EMR分词与词性标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.404.2.2EMR中关键词的选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.3基于潜在语义分析的电子病历检索系统的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..424.4基于概率潜在语义分析的电子病历检索系统的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯434.5信息检索性能评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯444.6实验数据分析以及性能评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.454.6.1基于LSA的电子病历检索系统测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯454.6.2基于PLSA的电子病历检索系统测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯494.7本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..56第5章基于LSA和PLSA的组合算法的设计与实现⋯⋯⋯⋯⋯⋯⋯.575.1LSA与PLSA在EMR检索中性能比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯57.VII. 万方数据东北大学硕士学位论文目录5.2组合算法模型的建立⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯605.3组合算法模型的检验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯615.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯63第6章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯656.1本文总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯656.2未来展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..65参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯67致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..71..VIII.. 万方数据东北大学硕士学位论文第1章绪论1.1信息检索综述1.1.1信息检索的发展随着科学技术的发展以及信息数据量的爆炸式增长,信息检索领域越来越受到研究人员的青睐。信息检索发展到现在,已经有几十年的历史了。随着目前互联网的普及,网民的数量迅速增加,计算机技术飞速发展,信息检索技术也得到了快速发展。信息检索的概念是1949年美国数学家CalvinW.Mooers首次提出的。信息检索领域的先驱GerardSalton,也是20世纪60年代到90年代信息检索领域的领袖人物之一,他是这么对其进行定义的:信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。尽管在过去的这些年中,研究者对信息检索技术有了巨大的进步,但上述定义仍然很合适,也非常准确。这个定义是在广义上的定义,其狭义上定义则仅仅是指信息的搜索。信息检索的发展,经历了手工信息检索、机械信息检索和计算机信息检索三大阶段。信息检索过程是一个非常复杂的认知过程,亦即一种由已知通向未知的搜索过程。因此用户在于检索系统进行交流时常常不能无完全准确地描述自己的信息需求。经过几十年的发展,计算机信息检索算法得到了充分的发展,从小规模文献检索到大规模的网页信息检索,从实验室到图书馆到大规模的商业应用,与此同时检索质量也得到了不断的提高,很多大型的商业化搜索引擎已经能够很好的满足用户的需求,实验室中的信息检索理论研究也在不断的发展进步I¨。1.1.2信息检索模型介绍随着IR技术的发展,已经陆续出现了多种检索模型,大致可分为以下几类:布尔模型、向量空间模型、概率检索模型、模糊检索模型以及概念检索模型等等。布尔检索模型被用在最早的搜索引擎中并沿用至今。它又称为精确匹配检索,因为被检索到的文档都能够精确匹配检索需求的,不满足条件的文档是不会被检索到得。其匹配规则遵循布尔运算的法则。该模型中,文档是由一组关键词的表示来存储的,查询则是一组检索词或关键词的布尔表达式(“或”、“非”,“与”逻辑运算符的组合),信息检索的策略依赖于一个倒排文件,这个倒排文件对文档关键词信息进行了重新组织,在信息检索的过程中,能够与布尔表达式进行准确的匹配。传统的布尔模型中的关键词的取值要么是true要么是false(对应1和0),此时尚未包含相关度的概念,因此不可以按照相关度排序输出,后来在Waller等人的发展下,提出了加权布尔检索模型,初步具 万方数据东北大学硕士学位论文第1章绪论备了相关度的概念,这使得布尔检索模型更加完善合理。布尔检索的结果容易推断并且容易向用户解释,较其他模型实现容易等优点。另外,这种模型的主要缺点是效率完全依赖于用户,缺少复杂的排序算法,简单的查询项不能很好的工作。向量空间模型(VectorSpaceModel,VSM)是上个世纪Salton等五位学者提出的一种基于统计的检索模型,它是上世纪60~70年代绝大多数信息检索研究的基础,使用这个模型的论文也不断出现在各种会议中。假设文档集包含N个词语,该模型把每个词语看作一个向量,那么通过这N个词语构建的向量生成一个N维欧式空间,这个空间即为检索词空间。通过使用这种方法,可以将文档集中的任一文档都表示成检索词汇空间中的一个向量。将待检索文档和查询分别用向量进行表示,这样我们就把文档与查询间的匹配问题转化为一个向量空间中的向量距离计算问题。此时,VSM有了真正意义上的相关度概念。概率模型(ProbabilisticModel)基于早期的关于有效性的理论说明,也就是概率排序原则。布尔检索模型和向量空间模型都将文档和查询表示为相互独立的项,忽略了词语自身之间的关系,概率模型则在一定程度上弥补了这个不足。它以Bayes公式为理论基础,利用词语与词语之间以及词语与文档之间概率依赖关系进行信息检索。概率检索模型的缺点是依赖于用户的反馈。语言模型(LanguageModel)在很多语言技术上被用来表示文本【IJ,例如语音识别、机器翻译、手写识别等。最简单的语言模型是一元语言模型,也就是语言中的词汇的概率分布。例如,如果文档集中只包含五个不同的词语,这个集合一个可能的语言模型是(0.2,O.1,0.5,O.12,O.08),其中每个数值表示词语出现的概率。当把语言模型应用到检索领域上时,语言模型是用来表示一篇文档的主题内容。主题内容其实就是词汇上的一个概率分布,这就是语言模型。把概率理论知识应用到信息检索领域,是个非常大的进步,这使得解释信息检索领域的相关问题更加容易合理。目前语言模型应用到信息检索领域的技术还不是很成熟,在实际应用的过程中还有很多问题有待解决,但是这个模型的前景还是可想而知的,相信不久的将来将给信息检索领域技术的发展提供强有力的支持。目前信息检索领域应用最广泛的是布尔模型和向量空间模型,核心技术仍然是关键词的机械匹配。这种机械式的匹配算法实现简单,然而却存在很多不足之处,词语之间的相关性以及词语在上下文语境的限制在模型中都被忽略了,因而很大程度上影响了信息检索的召回率和准确率。 万方数据东北大学硕士学位论文第1章绪论1.2电子病历随着我国医保建设的快速推进,对病人电子病历数据的管理显得越来越重要。全国各大医院产生的电子病历数据在不断的增加,如何更有效的从包含大量病历数据库中查询获取有效的病历,这对医疗工作人员来说是非常的重要【2】,通过检索获得更为准确的电子病历将对医疗人员在疾病的诊断与治疗时有非常大的帮助。1.2.1电子病历简介2010年2月22日卫生部颁布的《电子病历基本规范(试行)》将电子病历定义为,电子病历是医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字,符号,图表,图形,数据,影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,是病历的一种记录形式。《规范》明确指出:使用文字处理软件编辑、打印的病历文档,不属于本规范所称的电子病历。电子病历是通过计算机技术将病人的病历汇集到计算机中,通过计算机获得病历的有关资料并对其进行归纳、分析、整理形成规范化的信息,从而提高医疗质量和业务水平,为临床教学、科研和信息管理提供帮助。目前电子病历存储大多数是以XML格式存储,使用XML建立电子病历,便于获取电子病历的基础数据,阅读手段得到了简化,同时便于生成和修改,便于查询和统计的实现【2J。1.2.2电子病历的检索概述面对每天医院产生的大量病人电子病历数据,要想找到满足要求的电子病历通过简单的查看是不太现实的了,这就需要将信息检索技术引入到电子病历领域中。我国电子病历的发展正处于快速发展的阶段,电子病历检索技术正在探索当中,如何设计一个针对电子病历的检索系统,这是很多研究者思考的问题。在过去的几年中,电子病历检索技术起步很快,很多研究者通过尝试将文本检索领域的经典检索算法引入到电子病历检索中,取得了很大的成就【3】。目前电子病历检索尚处于起步阶段,针对电子病历检索技术还在如火如荼的研究中。研究人员提出了电子病历的智能全文检索,结构化电子病历的检索,本体电子病历检索以及相关的XML存储技术等【4】【5】【6】【71。基于本体的电子病历检索是今年研究者提出来的,本体的提出使得电子病历分析技术从基于文本、内容层面提升到语义概念的层面【8l[9l。本体是共享概念模型的明确的形式化规范说明,它描述的是概念的内涵以及概念与概念间的关系,具有对逻辑推理的支持和良好的概念层次结构。最近的研究中又出现了模糊本体的概念,相对过去的本体,模糊本体增加了录属度的概念,在处理非确定信息上更有优势,更具有弹性【lⅢ。然而,医学词汇的同义词,多义词问题,同样出现在电子病历领域,有一部分研究人员通过扩展同义词表一定程度上 万方数据东北大学硕士学位论文第1章绪论解决了同义词的问题。多义词的问题仍然没有解决,而且人工构建同义词表是一个复杂不完全的过程,当新加入词语时,维护人员必须去及时更新词表。目前国内电子病历检索技术研究还处于发展阶段,研究者都在不断探索当中。如何实现智能的解决同义词和多义词带来的问题,这是研究者需要立刻着手研究的。电子病历的检索的研究正朝着智能,高效,准确的方向发展,研究人员都致力于电子病历领域的研究工作,研究前景广阔。1.3潜在语义相关算法简介潜在语义顾名思义谈的是潜在的,隐藏的,不是明确的,需要分析发掘的语义,由于信息的描述本身就存在这种问题,因此对信息数据潜在语义的分析是非常有意义的工作。本文主要对潜在语义分析和概率潜在语义分析两种算法进行了研究分析,下面先简要的对它们进行介绍。1.3.1潜在语义分析潜在语义分析(LatemSemanticAnalysis,LSA)是一种自然语言处理方法,也被称为潜在语义索引(LmemSemanticIndexing,LSI),它是1988年由ThomasK.Landauer,ScottDeerwester,SusanT.Dumais等五位学者共同提出来的【11】【12l【131。LSA算法假设在每个文本中存在某种潜在的语义结构,而这种潜在的语义结构隐含在文本中词语的上下文使用模式中。在这种语义结构中,同义词之间具有基本相同的语义结构,多义词则具有不同的语义结构。研究者可通过利用统计的方法获得这种语义结构。潜在语义分析的核心思想是通过奇异值分解【141,将文档向量和词语向量投影到一个相对低维的空间,这样即使没有相同的词汇的相关联的文档,在空间中都会呈现出相同的向量表示。LSA具有降维,去除噪音,在解决同义词、多义词方面都有应用(15】。LSA的原理将在第2章介绍。1.3.2概率潜在语义分析概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)是1999年由加利福利亚伯努力分校的ThomasHofmarm提出的。PLSA能够从语料库中发现隐含的语义信息,通过使用两个矩阵的乘积逼近样本的概率矩阵,由此得到的两个矩阵具有概率意义,能够将文本由词汇空间映射到主题空间。这里介绍一下主题模型,主题模型是把文档描述主题的集合,每个文档都是由主题来组成的。概率主题模型能够使用统计的方法发现文本数据中潜在的语义信息,其中所谓的主题是指隐藏在文本字面数据中的潜在的,无法直接观测到的模式,能够将字面上不同的文档在其内在含义的层次上关联起来,这个发现隐含主题模式的过程称为主题建模。主题建模可以简单的理解为,一个文档由..4.. 万方数据东北大学硕士学位论文第1章绪论若干主题混合而成,而主题则是若干单词分布的混合。主题建模的主要用在自然语言处理上,它可以克服信息检索中的简单的字面匹配,在该模型中,每个词汇的含义都是体现在整个文档上的,已经不是简单词汇本身所代表的含义了,因此在能够很好的识别同义词和多义词,提高了信息检索的性能。PLSA模型的提出,给主题模型的发展带到了一个新的高度。该模型假设很合理,而且简洁有效,在模型的泛化性和精确性上维持了很好的平衡,鉴于这些优点,后面的很多高级的模型都是以它为基础发展而来的。该模型的一个重要的假设是:在给定的主题Z下,词汇W和文档d条件独立。这在简化模型上非常有用,也是文本处理常用的用来简化模型的一个假设。PLSA是一个主题模型的里程碑,同义词、多义词问题能够很好地得到解决。PLSA的详细原理和推导将在第2章介绍。1.4本文研究意义随着电子病历的快速发展,电子病历使用者对电子病历系统的要求越来越高,传统的基于关键字的电子病历检索系统已经不能满足使用者的要求。电子病历领域是一个新兴的领域,近年来很多企业将大量人力、物力以及财力投入到电子病历系统的研发上,全国各大医院在电子病历系统上的资金投入也在不断增加,政府部门也强力支持。面对目前的电子病历领域发展形势,不管是对于公司企业还是对于研究者来说,深入研究电子病历领域都很有必要。电子病历发展形势一片大好,然而医院反应在使用目前的电子病历系统总会存在一些问题。其中电子病历的检索的准确度方面就是个典型的问题,在使用检索系统时,医务工作者往往会查询到大量无用的信息或者直接根本是不相关的。出现这些问题的原因,主要是电子病历中的医学词汇存在同义与多义的现象引起的。因此,如何解决医学词汇在检索时的同义和多义的问题,这里本文将致力将潜在语义分析和概率潜在语义分析算法引入到电子病历领域,初步构建基于潜在语义的电子病历检索系统。所以,研究潜在语义的相关算法在电子病历检索方面的应用是非常具有实际意义和应用价值的。1.5本文的组织结构第l章,绪论,简要介绍了信息检索技术,电子病历相关概念以及电子病历检索现状。另外还简单介绍了潜在语义相关算法LSA和PLSA的基本思想,最后还描述了论文研究的研究意义。 万方数据东北大学硕士学位论文第1章绪论第2章,详细介绍潜在语义相关算法的原理,这里包括潜在语义分析和概率潜在语义分析两个算法,对LSA和PLSA算法的原理以及在实际应用时如何进行处理做了认真研究。第3章,本文在此部分自己设计了一个小样本电子病历语料,通过在该小样本语料上分别应用LSA算法和PLSA算法进行实验,通过分析实验数据,更加直观地帮助读者理解潜在语义相关算法的原理。第4章,基于LSA和PLSA的电子病历检索系统的应用,并对实验结果数据进行了对比分析,并设计了一种PLSA算法中K值自动选择的算法。第5章,作者提出了一种基于LSA和PLSA的组合算法,并将其应用到电子病历的检索中,同时对其应用后的检索系统的性能进行了评价。最后一章为总结和展望,先是对本文进行了一个简短的总结,接着对未来的工作进行了说明。1.6本章小结本章介绍了信息检索的发展现状和常用的信息检索模型,以及电子病历的基本概念和电子病历检索的研究与应用现状,并对潜在语义分析和概率潜在语义分析算法进行了简要介绍,从而引出基于潜在语义相关的电子病历检索应用。最后,对本文的组织结构进行了简洁的描述。 万方数据东北大学硕士学位论文第2章潜在语义相关算法的基本原理研究本章将介绍本文主要研究的两个潜在语义相关的算法,潜在语义分析和概率潜在语义分析,对它们的原理,优缺点等进行了深入的研究。2.1潜在语义分析潜在语义分析LSA的基本原理是,含有共同“词组”的文档会在潜在语义空间上有类似的表示,即使它们没有相同的词,寻找的是文档在语义上的联系,而不是字面上的联系【16】。下面将从LSA的基本思想,实现,特点以及应用等方面进行详细的介绍。2.1.1潜在语义分析的基本思想潜在语义分析是基于向量空间模型(VSM)之上的,是对VSM的一种扩展.传统的基于关键词的向量空间模型,用矩阵A=[av.]。。来表示整个语料库中的文本信息,m代表语料库出现的所有不同词语的个数,n代表语料库中文本的数量。矩阵A中的每个列向量都代表一个文本向量,VSM将非结构化的文本表示成向量形式,使得各种数学处理成为可能。但是,VSM忽略了词汇在文档出现的次序,模型假设词汇之间相互独立【17】,这在实际应用情况下很难满足,因为文档中的词语与词语之间或多或少都存在一定的相关性,故而,在某种程度上会影响在矩阵处理时的计算结果。LSA则将自然语言中的每个文本视为以词汇为维度的空间中的一个点,认为一个包含语义的文本出现在这种空间中,它的分布一定不是随机的,而是符合某种语义结构。同样地,也将每个词汇视为以文本为维度的空间中的一个点。文本是由词汇组成,而词汇又要放到文本中去理解,这体现了一种“词汇一文本“的双重概率关系。LSA在构建好VSM向量矩阵后,接下来就是奇异值分解和降低维度的过程。词汇中的一些不经常的用法,如:某些词汇的误用,或者是不相关的词汇偶然出现在一起,还有低频词,高频词等不能代表文本主题的词汇视为“噪声“,应当从主要语义结构中排除出去。LSA通过利用截断的奇异值分解降维的方法,达到信息过滤和去除噪声的目的,这使得文本的语义结构逐渐呈现出来。通过对词汇一文本矩阵A进行截断的奇异值分解,得到矩阵A的秩为k的”近似矩阵“,从数据压缩的角度看,”近似矩阵“是秩为k的前提下矩阵A的最小二乘意义上的最佳近似【l81。LSA不同于向量空间模型中文本和词汇的高维表示,而是将文本和词汇的高维表示投影在低维的潜在语义空间中,缩小了问题的规模,得到词汇和文本的不再稀疏的低维表示,同时这种低维表示揭示了词汇一文本之间语义上的联系。 万方数据东北大学硕士学位论文第2章潜在语义相关算法的基本原理研究相比传统的向量空间,潜在语义空间的维度更小,语义关系更明确。2.1.2潜在语义分析的实现下面介绍潜在语义分析实现的详细步骤,并对在每个步骤用到的知识原理进行了简要的介绍。2.1.2.1词汇一文档矩阵潜在语义分析的第一步是词汇一文档矩阵的构建,在构建该矩阵之前首先要进行一些文本的预处理,预处理可以简单描述为以下的过程如下。(1)选取适当的训练语料。在进行潜在语义分析算法的应用时,首先要做的就是选取一个适当的训练语料,这样可以更好的使得该算法的优越性得以体现。因此,在此步骤中,需要合理地选择语料文档。(2)对文档进行分词。这里分中文分词和英文分词不同的方式,英文分词主要是词干的提取,中文分词则是一个比较复杂的过程,主要包括基于词典的机械分词,基于理解的概率分词。(3)停用词表的构建,从词汇表中去除停用词。由于任何语言的词汇量都是相当庞大的,需要对词汇集进行适当的调整,只保留那些对表示文本内容作用较大的词汇项,将虚词、语气词、介词、连词、特高频率词、特低频率词等组织成一个停用词表,把表中的词汇从词汇表中过滤掉。(4)对最终分词后的文本进行统计以及权重处理构建词汇一文档矩阵。对于词一文档矩阵A=【口,,】⋯,m表示文档语料库中包含的所有不同的词汇的个数,n表示文档集中的文档的总数量。矩阵元素a。的取值要考虑来自两方面的因素,局部权重Lw(i,J)和全局权重GW(i),它们分别用来衡量第f个词汇在第/个文本中和在整个语料库中的重要程度。%=LW(i,J)XGW(i)(2.1)局部权重LW(i,J)和全局权重G(i)具有不同的取值方法,表2.1和表2.2分别列举了常用的局部权重和全局权重的计算方法。其中,孵表示词汇f在文档J中出现的次数;扩展对数法中的对数的底数变量d的选择是根据矩阵的稀疏程度以及非零元素的分布情况或者原始文档的平均长度;磁表示词汇f在整个文档集中出现的次数;彤表示文档集中出现词汇i的文档数量;ndocs表示文档集中的文档总数量;变量P。=鲲/够。G呢是向量空间模型中常用IDF权重计算方法,通过分析计算公式,会发现这里有一种特殊情况,某个词语term在每个文档都出现了的话,则够=ndocs,那么G%=0,于是凡是出现词term的地方,权重都为o.因此,对其做以下改进:G%=l+log:(胛如叫够)。 万方数据东北大学硕士学位论文第2章潜在语义相关算法的基本原理研究表2.1局部权重的计算方法一:!鱼!!皇兰:!gQ塑P坐!望g里堕垒Q鱼垡!Q里皇!!呈i出方法名称词频法对数词频法扩展对数词频法词频与对数词频之积LW(i,/)吮l092(吮4-1)logd(观+1)以xl092(吮+1)表2.2全局权重的计算方法Table2.2Computingmethodofglobalweight方法名称NormalGF-DF倒排文档频熵权重GW(O%log:?ld彩o,cs.)1一手面pv.109丽(pg)实验表明,取三职计算局部权重,改进的G暇计算全局权重得到的检索效果最好,因此本文采用的权重计算方法1191[201为:旷三W2(i,力xGW3(沪log:(州)×I1+l092(警)j(2.2)2.1.2.2截断的奇异值分解LSA算法的核心是矩阵的奇异值分解(SingularValueDecomposition,简称SVD),它是线性代数领域中的一种特殊的矩阵分解。矩阵奇异值定义:设A是m×玎实矩阵,称n阶方阵彳r彳的非负特征值的算术平方根为矩阵A的奇异值。矩阵奇异值分解定理:设A∈R””,矩阵的秩为r,则存在m阶正交矩阵U和n阶正交矩阵V使得满足公式(2.3)。ny=陌三]亿3,称么:u『∑oIVr为矩阵A的奇异值分解。L0oj词汇一文档矩阵A建立之后,接着对矩阵A进行SVD分解,将矩阵A分解为三个矩阵的乘积形式如公式(2.4)所示。A=死&Do。(2.4)其中,瓦和D。分别是矩阵A的奇异值对应的左右奇异值向量矩阵,矩阵瓦和矩阵或的各列相互正交并且长度为1,即为正交矩阵,ro7To=J,D。7D。=j。So称为矩阵A的奇异值标准型,是个单值的对角阵,即S。=diag(2a,允:,...A。),而且有关系^≥A:≥砧≥⋯A,≥A,+.=⋯=0,这里的^是矩阵A的奇异值。奇异值分解之后,接下来的就是进行降维,根据事先设置的K值,此时在奇异值矩阵S。选取前K个最大的奇异值,其余元素设置为0,这样3个矩阵重新乘积后得到的矩阵结果记为4,它是原始词汇一文档矩阵A的一个近似,乙,S。。%分别表示取瓦,S。,D。的前K列构建的新的矩阵,那么A的K秩近似矩阵4计算方法如式(2.5)所 万方数据东北大学硕士学位论文第2章潜在语义相关算法的基本原理研究不。彳≈A}=ro女So女DoIr(2.5)图2.1描述的是词汇一文档矩阵的奇异值分解的过程示意图。DocumentsA=m×nmXk图2.1词汇一文档矩阵奇异值分解过程示意图Fig.2.1Vocabulary·documentmatrixSVDprocessschematic潜在语义分析算法通过奇异值分解过程得到潜在语义空间,它能更好的表示词语与词语之间的内在相关性。在此基础上进行文本相似度计算,实现检索的功能。另外,在实际应用时,保留的维度K一般相对矩阵原始维度要小得多,LSA通过选取一个较小的K值,实现了对原来的高维稀疏矩阵的降维,矩阵得到了有效的压缩,这对文本检索的性能提高有很大的帮助。SVD处理后,可以把矩阵域。S。。中的行视为代表文档的向量,也就说,原始矩阵A中的列向量被投影到以ro。中列向量为基所形成的低维空间中即为span{t∽¨,tk),其被称为文档空间。同样地,我们可以将矩阵瓦。&。中的行视为在低维空间中代表词语的向量,此时A中的行向量被投影到以仇中列向量为基所形成的低维空间中,即为span{d∽..,d。},其被称为词语空间。我们把词语、文档两个低维空间统称为潜在语义空间。另外,由于对于不同的文档,S。。是固定的常数矩阵,有些学者也将矩阵Do。中的行视为能够代表文档信息的文档向量;同理,把矩阵瓦。中的行向量看作可代表词语信息的词语向量。2.1.2.3潜在语义分析的数学工具潜在语义分析通过应用矩阵的奇异值分解实现了词汇一文档矩阵的降维,在进行LSA的应用时,实验表明LSA算法对传统基于关键词的信息检索中的文档词语同义性和多义性问题的解决有很大帮助,在一定程度上解决了同义词和多义词的问题【21】【221。下面我们通过分析两个关于奇异值分解的定理来讲述潜在语义分析的数学依据。定义2.1矩阵A=(口。)称为正交矩阵,如果彳7’A=E,这里彳7’是矩阵A的转置。因此对于正交矩阵A,有A~=Ar。定义2.2设A是数域P上线性空间V的一个线性变换,如果对于数域P中一数九,.10. 万方数据东北大学硕士学位论文第2章潜在语义相关算法的基本原理研究存在一个非零向量善使得满足等式如公式(2.6)所不。彳毒=九考(2.6)那么Ao称为A的一个特征值,而毒称为A属于特征值九的一个特征向量。定义2.3如果V是数域K上的线性空间,且对于V的一个任一向量x,对应一个实值函数㈣,它满足以下三个条件如下。(1)非负性:当x≠0时,㈣>0,当x=o时,lIxlI=0:(2)齐次性:』laxII=0allxlf,a∈K,x∈y;(3)三角不等式:0x+ylI-
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请点击此处