欢迎来到天天文库
浏览记录
ID:36616875
大小:1.65 MB
页数:54页
时间:2019-05-13
《商务数据的预测算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要商务智能是指将存储于各种商业信息系统中的数据转换成有用信息的技术。它允许企业用户通过查询和分析数据库,得出影响商业活动的关键因素,最终做出更好、更合理的商务战略决策,使企业在瞬息万变及竞争剧烈的市场中,获得最大程度的竞争优势。其中在线分析处理和数据挖掘等工具从不同的层面帮助企业实现这个目标。数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是数据库研究中的一个很有应用价值的新领域。数据挖掘工具能够
2、对数据进行深层次的分析,对未来的趋势和行为进行预测,是商业智能的重要组成部分。本文主要对于商业数据时间序列的预测方法进行了研究。神经网络方法用于预测也己经取得了不错的成果。神经网络具有并行处理、自适应自组织、联想记忆及容错和鲁棒性等特点。自从1987年。pedes和Farbe:首先应用神经网络进行预测以来,神经网络预测时间序列方法受到了重视。目前,已有多种不同形式的网络被用于工业、经济等的预测中。研究结果表明,神经网络用于预测效果较好,为一类高度非线性动态关系的时间序列预测提供了一条有效途径。有许多ANN的结构被提出为了应用于
3、预测,但还没有统一的标准用什么最好。Home和Giles认为“循环的网络通常比时间延迟的网络好”,Hallas和Dorffne「认为“循环的网络在给定的条件下,预测的不一定好,简单的反馈网络对于大多数非线性时间序列预测的效果都很好。”更多的人同意这样一个观点“学习算法的有效性比网络结构重要的多。”因为不管是循环的还是没有循环的结构,都没有证明在时间序列的学习上更有效。本文使用一种FIR过滤器代替直接的连接的一种网络的改进。FIR过滤器是StanfordUniv.E.A.Wan在他的博士论文中提出来的。该结构可以有效地存储历史信
4、息。摘要使用神经网络的时间序列预测传统上习惯于被定义为一个无约束的优化问题。作为一个无约束的优化问题在搜索方向没有指导的很容易陷入局部极小。我们希望可以使用一种有约束的方法提供额外的指导。基于离散约束最优的Lagrange(拉格朗日)乘数理论,使用BP计算一个近似的梯度,产生退火去避免盲目接受试验点,然后使用一个松紧策略(R&T)对于搜索获得更快的收敛。在VGBP中使用有限冲突响应(FiniteImpulseResponse,FIR)网络。由基于离散约束最优的Lagrange(拉格朗日)乘数理论的一阶充分和必要条件:一个点是局
5、部最优点当且仅当满足定义的所有点X>=k(这里带*的点在离散空间是相对应的)。这也表明定理表明要解决的约束的预测问题等价于寻找鞍点(注意该定理不适用于连续空间)。本文中的VGBP方法通过搜索子空间的下降和侯选点子空间的上升来完成对搜索的指导。其中引入了冲突容忍度这个概念,使原来的没有任何方向性的搜索行为,有了一定的方向性和确定性,并且可以使搜索不容易陷入局部极。在设定冲突容忍度的过程中,本文使用松紧策略(也就是在搜索过程中动态地调整冲突容忍度)的目的就是要获得更快的搜索速度。最初我们选择比较大的冲突容忍度,当所有冲突都满足ma
6、x,仇(t)}s(1+y)z,其中07、V,的改观。__摘要本文还对流数据(StreamData)上的预测进行了一定的分析和研究。在许多非常紧急的场合,数据都以连续的数据流的形式出现。比如象股票数据,网络检测,网络点击流等。流数据同传统的数据库中的数据主要在两个方面有所不同:a)在全部生命周期内,流数据的数目是巨大的;b)查询需要很迅速,响应时间很及时。当新的查询到来时,二次存储是不可能的。这样促使我们,设计出很概要的数据结构,我们要用很小的内存,来处理连续的查询。由于流数据研究刚刚开始,本文首先讨论了流数据上的频率计数方法。我们在流数据上依用户定义的界限来计算频率8、计数。算法有很小的内存消耗。尽管输出结果是近似的,但绝对不会超过用户定义的界限。并且在简单的一遍扫描中就计算出结果。由于流数据的特点,在使用一些算法时,要尽量采用那些比较简单,并且运行速度快的算法。本文通过快速的傅立叶变换和一个三层的时间窗口来处理流数据。使得在流数据上进行简
7、V,的改观。__摘要本文还对流数据(StreamData)上的预测进行了一定的分析和研究。在许多非常紧急的场合,数据都以连续的数据流的形式出现。比如象股票数据,网络检测,网络点击流等。流数据同传统的数据库中的数据主要在两个方面有所不同:a)在全部生命周期内,流数据的数目是巨大的;b)查询需要很迅速,响应时间很及时。当新的查询到来时,二次存储是不可能的。这样促使我们,设计出很概要的数据结构,我们要用很小的内存,来处理连续的查询。由于流数据研究刚刚开始,本文首先讨论了流数据上的频率计数方法。我们在流数据上依用户定义的界限来计算频率
8、计数。算法有很小的内存消耗。尽管输出结果是近似的,但绝对不会超过用户定义的界限。并且在简单的一遍扫描中就计算出结果。由于流数据的特点,在使用一些算法时,要尽量采用那些比较简单,并且运行速度快的算法。本文通过快速的傅立叶变换和一个三层的时间窗口来处理流数据。使得在流数据上进行简
此文档下载收益归作者所有