资源描述:
《数据挖掘论文(聚类分析及其应用)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、聚类分析及其应用姓名:周建刚学号:2009018397班级:信息091内容摘要:本文主要阐述了聚类方法及在金融投资、股市、证券投资等方面的一些应用。运用聚类分析模型帮助投资者正确的理解和把握金融投资、股票、证券投资的总体特征,确定投资范围,并通过类的总体价格水来预测金融投资、股票价格、证券投资的变动趋势,选择有利的投资时机。关键字:聚类分析金融投资聚类方法股市投资证券投资应用正文:聚类分析将物理或抽象对象的集合分成为由类似的对象组成的多个类的过程称为聚类。聚类分析WEB个性化应用的一种重要技术手段。作为一种无示例学习,它不需要预先定义类的特点或属性,而
2、是从用户的访问行为中发现潜在性的知识(类或群),从而能更好的体现智能性。【3】聚类分析是对数据对象进行分类,把一组数据对象分到不同簇中。簇是一组数据对象的集合,簇内各对象间具有较高的相似度,而不同组的对象差别较大。它具有这样的性质:在同一个簇中的数据对象彼此相似;不同簇的数据对象差别很大。聚类分析在金融投资类方面有很大的研究价值。聚类分析和方差分析相结合进行投资分析,对股票的收益性,成长性等方面进行分析,建立较为合理的指标体系,衡量样本股票的“相似程度”,再通过聚类分析为投资者确定投资范围和投资价值。结果表明该方法能帮助投资者准确了解和把握股票的总体特
3、性,预测股票的成长能力,使投资者做出最佳的投资决策。实验研究表明此方法在金融投资分析中具有有效性和实用性。不仅是在金融投资,在股市等方面也具有很在的研究价值。股票涨价的无常,股市的变幻莫测,投资者要想在股市投资中赢取丰厚的回报,成为一个成功的投资者,就得认真研究上市公司的历史业绩和发展前景,详细分析上市公司的财务情况,对上市公司的股票价值进行合理运算。聚类分析是一种行之有效的指导证券投资的方法。运用聚类分析模型能帮助投资者正确的理解和把握股票的总体特征,确定投资范围,并通过类的总体价格水来预测股票价格的变动趋势,选择有利的投资时机。下面我用一个实例应用
4、来具体观察聚类分析在前面所说的这些方面的应用。我们先假设用户A{a1,a2,……,am}向用户B{b1,b2,……,bn}推荐资源。按次序取得用户B的最后一个关键词类bn(即用户目前感兴趣的资源类),在权威用户的资源类中找到和bn资源类中最相似的资源类ai。我们用余弦相似度计算bn和ai最相似的类找到maxsim(bn,ai)权威用户中越是相似类的近邻后继知识推荐的可能性越大,因此推荐列表中增加一个后继知识度分量。若资源j属于关键词集合k,推荐值排名在前N位的,成为用户的最终推荐列表,推荐给用户。聚类方法目前各类文献中提出了众多聚类算法可供选择,主要的
5、有划分方法、层次方法、基于密度的方法、基于网格的方法及基于模型的方法等。划分方法是给定要构建的划分的数目K,首先创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的准则是:在同一类中的对象之间尽可能接近或相关,而不同类中的对象之间尽可能远离或不同。为了达到全局最优,基于划分的聚类穷举了所有可能的划分;层次方法层次的方法是对给定的数据对象集合进行层次的分解。层次方法有两种分解形式:凝聚和分裂。凝聚方法也称为自底向上的方法,初始将每个对象作为单独的一个组,然后相继地合并相近对象或组,直到所有的组合并为一个层次的
6、最顶层),或者达到一个中止条件。分裂方法也称为自顶向下法,初始将所有的对象置于一个组中,在迭代的过程中,一个组被分裂为更小的组,直到最终每个对象在单独的一个组中,或者达到一个中止条件。我们再举个例子。设有n个样品,p个指标,每个样品都有这p个指标的观察值,设第I个样品的第j个指标的观察值为xij,把n个样品看成P维空间中的n个点,则两个样品间亲疏程度可用P维空间中两点的距离来度量。令dij表示样品xi与xj的距离。定义距离公式,本文采用明氏距离。明氏(Minkowski)距离:dij(q)=当q=1时,明氏距离变为绝对距离:dij(1)=当q=2时,明
7、氏距离变为欧式距离:dij(2)=当q=,明氏距离变为切比雪夫距离:dij()=系统聚类除了要定义事物之间的亲疏程度指标,还要定义类与类之间亲疏程度指标并且要导出求取类间亲疏指标值的递推公式。系统聚类初始,先把所有待分类事物各自看成独立的一类,求出两两之间的亲疏指标值,把关系最为亲密的两类合并成一个新类,然后计算新类与原有各类之间的亲疏指标值,再把其中关系最为密切的两类合并⋯⋯如此反复进行,直到最终所有待分类事物合并成一个大类为止。最终绘成一幅系统聚类的谱系图,再根据一定的原则确定最终分类结果。当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时
8、,可以采用聚类分析。聚类分析能够帮助我们发现特征迥异的不同用户群,和对用户分群起关键作用的指标