欢迎来到天天文库
浏览记录
ID:26812914
大小:243.00 KB
页数:7页
时间:2018-11-29
《基于文本挖掘的中医学文献主题自动标引 - 中医药虚拟研究院》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于文本挖掘的中医学文献主题自动标引本文的研究工作获得科技部2001年度科技基础性工作专项资金项目(2001DEA30039)的支持周雪忠1崔蒙2吴朝晖11.浙江大学计算机科学与技术学院2.中国中医研究院中医药信息研究所摘要:本文对中医药文献内容关系及文献主题标引任务进行系统性分析的基础上,提出了一种新颖的基于文本抽取和分类技术的文献主题自动标引方法及系统方案。关键词:主题自动标引,文本挖掘,信息抽取(IE)一.引言由于计算机、数据仓库及网格技术的发展,大量数字化科技文献的Internet共享和知识挖掘需求越来越迫切,如何采用计算机技术自动或半自动的完成文献的编辑包括文摘、
2、标引、关键字的提取等,以减少在文献编辑中人为的不确定性和错误,同时降低人力物力的需求,从而提高文献分类、检索的效率和质量,已经变得异常突出和重要。在中医领域,由于文献资源具有很高的临床价值和理论价值,大量的人员在从事文献的原始的手工编辑任务。而在实际使用中的《中医药学主题词表》、《英汉对照医学主题词标引树状结构表》、《医学主题词标引》等词库和规则知识为中医文献自动标引提供了基础资源条件,同时中医学语言是一种次语言(sublanguage),基于次语言的语言处理技术能对中医文本进行相当深度的理解式分析和知识抽取。本文将根据文献标引人员的实践经验,面向文献的题名和文摘(文摘可自
3、动生成,考虑到准确性,本文的系统目前仍基于手工编辑的文摘),采用基于机器学习的信息抽取及文本分类等文本挖掘方法研究中医文献主题词的自动标引,并简单介绍我们正在实现的中医文献主题自动标引系统框架。本文的第二节介绍文本处理技术如信息抽取,文本挖掘及文献主题标引等内容;第三节分析本文采用的机器学习方法;第四节介绍主题标引的难点及解决方法:模糊词识别和概念语义组配等;第五节提供本文的IE-based主题标引系统结构及其各部分功能简要分析;第六节是结论。二.文本挖掘和文献主题自动标引文本挖掘技术文本知识发现(KnowledgeDiscoveryinTexts)就是从文本集(TextS
4、)中发现和挖掘归纳性的知识如有用的模式、模型、趋势、规则等知识(和KDD中的知识概念一样)[15],这种文本知识发现技术也即文本挖掘技术,是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多的研究人员的关注[16]。由于大量文本数据库(TextDatabases)的存在,文本挖掘成为KDD(KnowledgeDiscoveryinDatabases)领域的一个热点研究方向。信息抽取(InformationExtraction)从自然语言文本中定位目标数据单元,把非结构化的自由文本转化成符合应用
5、要求的结构化数据,即抽取自由文本的数据填充预先定义的结构化模板。信息抽取是一种浅层文本理解技术,它涉及计算语言学和自然语言处理,具有广泛的应用如会议公告、工作招聘和住房出租广告及公司客户email分析等,Califf[5]主张在信息抽取中采用机器学习来实现其自适应性和一定程度的领域无关性,DayneFreitag和AndrewMcCallum采用隐马尔科夫模型(HMM)于文本信息的建模和自动抽取,同时为了减少学习样本文本的手工标识的劳动量,EllenRiloff(1996)等人学习从未经标识的文本中自动抽取和发现信息模式。由于信息抽取的特点使得基于规则学习的系统成为主流。对
6、自然语言的理解程度和领域知识结合紧密程度决定了信息抽取的能力。文本分类(TextClassification)以文本归档(TextCategorization)为目标,文本分类(归档)就是把大量的文献集映射到预先定义好的文本属性类中。由于大量文献或全文信息检索和利用的需要以及Web数据的激增和Web搜索引擎的发展,文献、Web页面内容的分析和归档技术研究成为热点。传统机器学习方法如神经网络、BayesNetwork、决策树、k-最近领域(k-nearestneighbor)及最新的统计学习方法支持向量机(SupportVectorMachine)等被用于文本分类和归档[10
7、],从而大大提高了文本分类的效率和准确度。特征选取及其建模是文本分类及其它各种自动文本处理的关键技术之一[11],基于概念向量而不是一般的词袋法(bag-of-words)能解决一定的语义分类和归档问题。文献主题词自动标引文献标引在文献检索和文献资料的研究开发中具有重要的作用,为此,我国研究人员在1996年研究完成了《中国分类主题词表》,它是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的构成中一次完成,而且能够降低主题
此文档下载收益归作者所有