提出了一种基于概念格的天体光谱离群数据挖掘技术首先

提出了一种基于概念格的天体光谱离群数据挖掘技术首先

ID:40188484

大小:1.24 MB

页数:52页

时间:2019-07-25

提出了一种基于概念格的天体光谱离群数据挖掘技术首先_第1页
提出了一种基于概念格的天体光谱离群数据挖掘技术首先_第2页
提出了一种基于概念格的天体光谱离群数据挖掘技术首先_第3页
提出了一种基于概念格的天体光谱离群数据挖掘技术首先_第4页
提出了一种基于概念格的天体光谱离群数据挖掘技术首先_第5页
资源描述:

《提出了一种基于概念格的天体光谱离群数据挖掘技术首先》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、天体光谱数据挖掘技术太原科技大学计算机科学与技术学院张继福2008年11月一、概述1)数据挖掘2)天体光谱数据挖掘3)课题的研究意义二、主要研究工作1)基于约束FP树的天体光谱数据相关性分析2)基于概念格的天体光谱离群数据挖掘数据挖掘定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持服务。主要任务:关联规则、分类、聚类、离群数据等。常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。天体光谱数据挖掘我国正在

2、建造一台大天区面积多目标光纤光谱望远镜(LAMOST),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。预计LAMOST所观测到的光谱数据容量将有可能达到4TB。急需一种新的以计算机为主的数据分析技术,分析和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容:预处理(去噪、归一化等)、分类与识别、测量(红移等参数)等。一条Seyfert2光谱数据图(红移为0)天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自

3、转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题。主要的方法交叉相关分析与主成分分析(PCA)、人工神经网络、小波变换、贝叶斯统计、SVM等。典型的成果1)Autoclass,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线;2)Gulati等人采用两层BP神经网络方法,用于恒星光谱次型的分类;3)Ellis等人采用交叉相关分析对光谱进行分类;4)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别;5)覃

4、冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法;6)刘中田等人提出基于小波特征的M型星自动识别方法等。课题的研究意义由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到

5、LAMOST中,为国家重大科学工程提供技术支撑。退回引言关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用价值。频繁模式集的生成是提高关联规则挖掘效率的关键。频繁模式生成主要有:Apriori和FP两类算法。Apriori算法优点:思路比较清晰,以递归统计为基础,剪枝生成频繁集;缺点:在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,I/O代价太高,难以适应海量高维数据。F

6、P算法优点:(l)通过对FP树的递归访问,产生频繁模式集,仅需要构造FP树和条件FP树,不需要产生候选项集;(2)对事务数据库仅需两次遍历,第l次遍历产生频繁l-项集,第2次遍历用于构造FP树,从而降低了访问数据库的次数。缺点:FP树需要占用大量内存。约束FP树及其构造一阶谓词逻辑与背景知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、

7、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。定义3-1设r是交易数据库中的关系表名个体变量,f是表示关系表到属性的映射的函词,k是支持度(0≤k≤1),则背景知识G可由如下谓词公式,通过逻辑运算符组成合适公式。(1)Interesting(f(r))(2)support(f(r),k)®Interesting(f(r))(3)Interested(f(r))®Interesting(f(r))(4)P(f(r))ÙQ(f(r))®Interesting(f(r))定义3-3

8、设D为交易数据库,min为最小支持度,G为背景知识,如果L是一频繁模式,且G(L)=True,则称L为约束频繁模式。CFP-tree及构造定义3-4设G为背景知识,对于任意频繁模式树FP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁模式P,使得G(P)=True,则称FP-Tree为约束频繁模式树CFP-tree。构造思想与方法:只有数据库中的事务T满足G

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。