文本挖掘在生物医学领域中的应用及其系统工具

文本挖掘在生物医学领域中的应用及其系统工具

ID:33534813

大小:713.29 KB

页数:9页

时间:2019-02-26

文本挖掘在生物医学领域中的应用及其系统工具_第1页
文本挖掘在生物医学领域中的应用及其系统工具_第2页
文本挖掘在生物医学领域中的应用及其系统工具_第3页
文本挖掘在生物医学领域中的应用及其系统工具_第4页
文本挖掘在生物医学领域中的应用及其系统工具_第5页
资源描述:

《文本挖掘在生物医学领域中的应用及其系统工具》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、·56-中华医学图书情报杂志2010年4月第19卷第4期ChinJMedLibrInfSei,Vo1.19No.4Apr.2010·生物医药信息研究文本挖掘在生物医学领域中的应用及其系统工具吕婷,姜友好[摘要]系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述。[关键词】生物医学文本挖掘;自然语言处理;命名实体识别;关系抽取;共现分析[中图分类号]R318;G254.0文献标

2、识码:A[文章编号]1671-3982(2010)04-0056-09ApplicationoftextmininginbiomedicalfieldanditssystemtoolsLUTing,JiangYou—hao。(1.MedicalLibraryofChinesePLA,Beijing100039,China;2.DepartmentofMedicalInformation,ZhongnanUniversity,Changsha410013,HunanProvince,China)[Abstract]the

3、specificprocessesoftextmininginbiomedicineandtheapplicationoftextminingtechnologyinbiomedicalfieldwereintroducedindetailwithstresslaidonthenaturallanguageprocessing,ontology,namedentityrecognition,relationshipextraction,textclassificationandclustering,CO—occurre

4、nceanalysis,systemtoolsandtheirevaluation,andvisualization.[KeyWords]textmininginbiomedicine;naturallanguageprocessing;namedentityrecognition;relation-shipextraction;CO—occurenceanalysis1文本挖掘概述取文本特征,将文本数据转化为计算机能识别的结1.1概念构化数据,然后利用聚类、分类等数据挖掘技术形数据挖掘(Datamining),又称数

5、据库知识发现成结构化文本,并根据该结构发现新的概念及获取(Knowledgediscoveryindatabase),是指从结构化信相应的关系。构成模型如图1所示。息中提取人们感兴趣的知识。这些知识是隐含的、事数据源h叫源文本卜_T_叫结构化数据r_T叫知识或模型卜_T—叫知识先未知的、潜在的有用信息。文本挖掘(Textmining)是数据挖掘的一个方向,它所挖掘的对象是非结构唪旦旦l化或半结构化,即从数以百万计的文本数据中寻找潜在规律和趋势。文本挖掘在商业、传媒、教育、政巨!i固l共竺析Il盒府、银行及生物技术、医疗

6、卫生等行业领域都发挥着不可忽视的作用。搜索引擎、自动邮件回复、图1文本挖掘基本模型1.3技术垃圾邮件过滤、客户关系管理、自动简历评审等都是典型的文本挖掘技术。文本挖掘涉及多个学科领域,如数据库、信息1.2流程及模型检索、信息提取、机器学习、自然语言处理、计算语文本挖掘的基本思想是利用文本切分技术抽言学、统计数据分析、图论等。文本挖掘按照挖掘对象分为两类。一是单文本的数据挖掘,主要涉及[作者单位】1.解放军医学图书馆,北京100039;2.中南大学医学的挖掘技术有文本摘要、信息提取(包括名字提取、信息系,湖南长沙4100

7、13短语提取和关系提取等)。二是文本集的数据挖[作者简介]吕婷(1985一),女,陕西宝鸡人,本科,发表论文5篇。掘,主要技术有文本分类、文本聚类、个性化文本过中华医学图书情报杂志2010年4月第19卷第4期ChinJMedLibrInfSci。Vo1.19No.4Apr.2010·57·滤、文档作者归属、因素分析等。自然语言处理(Naturallanguageprocessing,以“预处理”过程为例,需要对文本数据做以下NLP)是人工智能(ArtificialIntelligence,AI)和语言预处理:消除噪声和

8、冗余数据,推算缺失数据,数据学领域的分支学科,主要用于中文自动分词(Chi.缩减,对元数据进行标记,词性标记,短语边界辨nesewordsegmentation)、词性标注(Part—of—speech认,对特征项量化处理等口J,最后形成计算机可处tagging)、句法分析(Parsing)、自然语言生成(Natural理的结构化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。