资源描述:
《自建数据库中文本挖掘及检索技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、情报杂志2004年第4期·情报技术·自建数据库中文本挖掘及检索技术X毛垣生(天津医科大学图书馆网络部 天津 300070)摘 要 阐述了数据挖掘的技术分类、实现数字挖掘的关键问题,探讨了文本型数据挖掘在数字图书馆资源建设中的广阔前景和巨大的应用价值。关键词 数字图书馆 数据挖掘 数据采集 web挖掘 文本挖掘 全文挖掘 信息提取 数据挖掘(DataMining)是一种新的商业信息处理技术,其主要供OLAP以及包含关联规则和序列模式等多种DM方法;德国特点是对商业数据库中的大量业务数据进行抽取、转换
2、、分析和其Humboldt大学的WebUtilizationMiner主要提供序列模式挖掘。他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘是Web挖掘的对象是指Web页面内容、页面之间的结构、用户访近年新兴的人工智能计算技术与方法,它在科学发现、金融分析、市问信息、商务交易信息等在内的各种Web数据,应用Web数据挖掘场分析、电子商务、医学研究等诸多领域已得到广泛应用,并显示出方法及技术以发现有用的知识来帮助人们从WWW中提取知识,巨大的威力。据国外专家预测,在今后的5-10年内,随着数据
3、量改进站点设计,更好地开展电子商务或改进服务。的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产Web挖掘分为Web内容挖掘、Web访问信息挖掘、Web结构挖业。掘;其所涉及的数据挖掘技术除了上面介绍的之外,还有文本挖掘、路径分析、序列模式、PageRank等技术。1 数据挖掘技术分类Web数据挖掘的工具有:IBM的SpeedTracer可以发现路径模数据挖掘人工智能技术是从未组织的海量数据中自动或半自式和频繁访问集;SimonFraser大学的WebLogMiner可提供O/I。动地提取有
4、意义的信息,它融合了统计方法、计算机技术以及人工OLAP以及包含关联规则和序列模式等多种DM方法;德国Hum2智能技术。根据其主要研究对象的数据结构形式,将数据挖掘大致boldt大学的WebUtilizationMiner主要提供序列模式的发现。分为结构型数据挖掘、Web型数据挖掘、文本型数据挖掘三类。1.3 文本型数据挖掘 例如:IBM的IntelligentMinerforText,1.1 结构型数据挖掘 如:IBM的DB2IntelligentMinerforDa2DEC的AltaVistaD
5、iscovery以及一些智能搜索引擎等,都具有自动ta;SAS的SASEnterpriseMiner以及RedBrick的DataMiner。而标引、自动摘要、自动分类等功能。且,SAS公司的SEMMA方法已经成为数据挖掘业界的标准。当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘这种数据挖掘所针对的是结构化的数据,也就是我们所常见的算法与信息检索算法,对巨量文本信息进行自动化信息处理与分析SQLServer、Oracle、DB2、Informix等数据库或数据仓库。结构型数的过程叫文本数据挖
6、掘。它包括特征提取、文本摘要、文本分类与据挖掘应用主要表现在以下方面:a.预测:已知数据项和预测模型,聚类、概念操作以及探索性数据分析等工作。预测该项的特定属性值;b.回归:已知一个数据项目集,回归是分析文本数据挖掘方面获得广泛应用的软件有IBM的Intelligent一些属性值对同一个项目中其它属性值的依赖性,自动生成一个预MinerforText、DEC的A1taVistaDiscovery以及一些智能搜索引擎测模型来对新记录的这些属性值进行预测;c.分类:已知一个预定等,都具有自动标引、摘要、
7、分类等功能。义的类集,确定特定的数据集属于这些类中的哪一个;d.聚类:已知2 实现数据挖掘的四个关键一个数据项目集,将该集合划分成一个类集,使得类内相似性最大,类间相似性最小;e.关联分析:已知一个数据项目集,确定属性和项一是要踏踏实实做好基础数据库的建设。一般用于挖掘的数目之间的相互关系,例如一个模式的出现意味着另一个模式的出据有两种来源:数据仓库或数据库。目前,基于数据仓库的数据挖现;f.探索性数据分析(EDA):一种设法从数据集中识别令人感兴掘逐渐被人们所推崇,它有三点显著优势:a.数据挖掘必
8、须要对数趣模式的交互式分析技术,无需预先设定假设和模型;g.异常检测:据进行抽取、筛选、转换和装载,这个过程很耗时。如果基于数据仓识别异常数据并判断可能情况,如商业欺诈识别、重大疾病检测等。库,数据仓库已经做好以上工作,就能避免挖掘时每次对数据进行与结构型数据挖掘对应的数据挖掘技术和算法主要有统计方抽取、筛选等。b.数据仓库的数据是按主题组织的,这为数据挖掘法、事例的推理、规则推理、关联分析和序列模式算法、神经网络、决选择合适的数据源提供了方便。c.数据库不能存放历史