欢迎来到天天文库
浏览记录
ID:33534813
大小:713.29 KB
页数:9页
时间:2019-02-26
《文本挖掘在生物医学领域中的应用及其系统工具》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、·56-中华医学图书情报杂志2010年4月第19卷第4期ChinJMedLibrInfSei,Vo1.19No.4Apr.2010·生物医药信息研究文本挖掘在生物医学领域中的应用及其系统工具吕婷,姜友好[摘要]系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述。[关键词】生物医学文本挖掘;自然语言处理;命名实体识别;关系抽取;共现分析[中图分类号]R318;G254.0文献标
2、识码:A[文章编号]1671-3982(2010)04-0056-09ApplicationoftextmininginbiomedicalfieldanditssystemtoolsLUTing,JiangYou—hao。(1.MedicalLibraryofChinesePLA,Beijing100039,China;2.DepartmentofMedicalInformation,ZhongnanUniversity,Changsha410013,HunanProvince,China)[Abstract]the
3、specificprocessesoftextmininginbiomedicineandtheapplicationoftextminingtechnologyinbiomedicalfieldwereintroducedindetailwithstresslaidonthenaturallanguageprocessing,ontology,namedentityrecognition,relationshipextraction,textclassificationandclustering,CO—occurre
4、nceanalysis,systemtoolsandtheirevaluation,andvisualization.[KeyWords]textmininginbiomedicine;naturallanguageprocessing;namedentityrecognition;relation-shipextraction;CO—occurenceanalysis1文本挖掘概述取文本特征,将文本数据转化为计算机能识别的结1.1概念构化数据,然后利用聚类、分类等数据挖掘技术形数据挖掘(Datamining),又称数
5、据库知识发现成结构化文本,并根据该结构发现新的概念及获取(Knowledgediscoveryindatabase),是指从结构化信相应的关系。构成模型如图1所示。息中提取人们感兴趣的知识。这些知识是隐含的、事数据源h叫源文本卜_T_叫结构化数据r_T叫知识或模型卜_T—叫知识先未知的、潜在的有用信息。文本挖掘(Textmining)是数据挖掘的一个方向,它所挖掘的对象是非结构唪旦旦l化或半结构化,即从数以百万计的文本数据中寻找潜在规律和趋势。文本挖掘在商业、传媒、教育、政巨!i固l共竺析Il盒府、银行及生物技术、医疗
6、卫生等行业领域都发挥着不可忽视的作用。搜索引擎、自动邮件回复、图1文本挖掘基本模型1.3技术垃圾邮件过滤、客户关系管理、自动简历评审等都是典型的文本挖掘技术。文本挖掘涉及多个学科领域,如数据库、信息1.2流程及模型检索、信息提取、机器学习、自然语言处理、计算语文本挖掘的基本思想是利用文本切分技术抽言学、统计数据分析、图论等。文本挖掘按照挖掘对象分为两类。一是单文本的数据挖掘,主要涉及[作者单位】1.解放军医学图书馆,北京100039;2.中南大学医学的挖掘技术有文本摘要、信息提取(包括名字提取、信息系,湖南长沙4100
7、13短语提取和关系提取等)。二是文本集的数据挖[作者简介]吕婷(1985一),女,陕西宝鸡人,本科,发表论文5篇。掘,主要技术有文本分类、文本聚类、个性化文本过中华医学图书情报杂志2010年4月第19卷第4期ChinJMedLibrInfSci。Vo1.19No.4Apr.2010·57·滤、文档作者归属、因素分析等。自然语言处理(Naturallanguageprocessing,以“预处理”过程为例,需要对文本数据做以下NLP)是人工智能(ArtificialIntelligence,AI)和语言预处理:消除噪声和
8、冗余数据,推算缺失数据,数据学领域的分支学科,主要用于中文自动分词(Chi.缩减,对元数据进行标记,词性标记,短语边界辨nesewordsegmentation)、词性标注(Part—of—speech认,对特征项量化处理等口J,最后形成计算机可处tagging)、句法分析(Parsing)、自然语言生成(Natural理的结构化
此文档下载收益归作者所有