基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf

基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf

ID:54923988

大小:624.08 KB

页数:6页

时间:2020-05-04

基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf_第1页
基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf_第2页
基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf_第3页
基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf_第4页
基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf_第5页
资源描述:

《基于文本挖掘的乙型肝炎相关文献知识图谱分析-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、医学信息学杂志2014年第35卷第1期JOURNALOFMEDICALINFORMATICS2014.Vo1.35.No.1基于文本挖掘的乙型肝炎相关文献知识图谱分析刘俊丽张秀梅蒋勇青(中国科学技术信息研究所北京100038)[摘要]以2010—2012年万方医学网收录的乙肝领域国内核心期刊文献为数据源,采用文本挖掘技术,进行数据清洗、实体抽取、构建共词矩阵并绘制该领域的知识图谱。结果表明该方法适用于生物医学领域知识发现,能够为医疗工作者提供有价值的信息。[关键词]文本挖掘;乙型肝炎;知识图谱;知识发现[中图分类号]R一058[文献标识码]A[DOI]10.3969/j.i

2、ssn.1673—6036.2014.01.011KnowledgeMapAnalysisofHepatitisBRelatedLiteraturesBasedonTextMimngLIUJun—li,ZHANGXiu-mei,JIANG一qing,InstituteofScientifcandTechnicalInformationofChina,Beijing100038,China[Abstract]BasedOfthe2010—2012hepatitisBliteraturespublishedinChineseeorejoumalsfromWangfangData

3、,thepaperpro—videsaknowledgemapofHBVthroughtextminingtechnology,includingdatacleaning,entityextractionandco—wordmatrixconstrue-tion.Itisprovedthatknowledgemapcanbeusedinbiomedicalknowledgediscoveryandcanprovidevaluableinformationformedicalstaffs.[Keywords]Textmining;HepatitisB;Knowledgemap

4、;Knowledgediscovery挖掘技术构建该领域的知识图谱,以展示其近几年1引言的研究重点,并探索新的隐性知识,以期为临床诊疗和科研工作提供依据和参考。乙型肝炎是常见传染病之一,严重威胁着人类的健康。除了对肝脏本身的伤害,乙肝还会引起身2资料与方法体其他器官多种疾病,对个人生活造成严重影响。2.1数据源随着对乙型肝炎研究的深入,相关文献累积量越来越多,海量生物医学文献中存在着大量未被发现的选择万方医学网《中国生物医学期刊论文》数知识关联。本文以2010—2012年万方医学网收据库收录的2010—2012年乙型肝炎相关的国内核心录的乙肝领域国内核心期刊文献为基础,利用

5、文本期刊文献,在主题检索下限定检索词为“乙肝”、“乙型肝炎”、“大三阳”、“小三阳”,共得到记录8[修回日期]2013—11—13921条,检索时间为2013年4月15日,将数据导[作者简介]刘俊丽,在读研究生;通讯作者:张秀梅。入Excel进行处理工作。[基金项目]国家自然科学基金项目“我国信息资源产业发展政策及管理研究”(项目编号:71133006)。·48·医学信息学杂志2014年第35卷第1JOURNALOFMEDICALlNFORMATICS2014.Vo1.35.No.1物学家感兴趣的专业实例和术语,如蛋白质、基2·2数据处理因、核糖核酸、疾病等进行自动识别和分

6、类。生2.1.1数据清洗本研究主要讨论较成熟的人类物命名实体识别是生物医学文本挖掘的关键步骤,乙型肝炎的研究和相关文献,为了提高数据分析的质是实现关系抽取、假设发现、文本分类等深层次文量,筛除有关动物实验的数据共106条记录。摘要能本挖掘技术的先决条件。生物医学实体识别常用够代表全文的大概内容,在进行全文分析比较困难的方法包括基于词典的方法、基于启发式规则的方情况下,多数研究以摘要为分析对象。标题和关键词法_6]、基于机器学习方法和}昆合型方法,本文采虽然能够表达文章的主题,但是在抽取出的数据量和用基于词典和统计学相结合的方法。首先用停用内容详细度方面都和摘要有区别,为了尽

7、量减少噪声词表对文摘进行预处理,将停用词用特殊字符数据和缺省数据对分析结果的影响,本研究筛除仅有“”代替,排除明显不能成为术语成分的干扰字标题和关键词的数据口],共有记录1602项。数据清符,并在接下来的抽取过程中忽略其作用;然后采洗工作筛除噪声数据1708条,剩余数据7153项,用基于相邻字符串统计的方法提取文本中的重复字圉由作为本研究要继续处理分析的数据集。符串,作为待过滤的候选术语库;最后通过设定2.2.2实体抽取命名实体抽取也是进行文本内IC—Value值阈值的方法,从逆文档频率、公共破碎容分析的基本单元和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。