欢迎来到天天文库
浏览记录
ID:11203107
大小:27.50 KB
页数:3页
时间:2018-07-10
《数据挖掘在销售预测中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘在销售预测中的应用内容摘要:数据挖掘技术在经济中的应用是信息决策、经济管理等领域的前沿研究方向之一。企业决策离不开销售预测,传统的预测系统已远远不能满足要求。针对传统预测系统存在的问题,详细探讨了应用数据挖掘技术的相关内容,并设计了面向销售预测的数据挖掘一般结构框架。 关键词:决策销售预测数据挖掘 随着市场经济的发展和经济的全球化,企业面临着越来越残酷的市场竞争。企业要想赢得竞争、赢得客户,就必须在最快的时间内,以最低的成本将产品提供给客户,这使得进行正确及时的产品销售预测及由此产生的可靠的决策,成为现代企业成功的关键要
2、素。由此,一些销售预测系统也应运而生。可是,随着计算机技术、网络技术、通讯技术和Internet技术的发展和各个业务操作流程的自动化,企业产生了数以几十或上百GB的销售历史数据,面对这些海量数据,传统的预测系统越来越不适应新的预测要求,主要表现在:大量的历史数据处于脱机状态,变成了“数据坟墓”。预测涉及海量数据的处理,传统的方法无法满足运行效率、计算性能、准确率及存储空间的要求。预测所需的数据含有大量不完整(缺少属性值或仅包含聚集数据)、含噪声(错误或存在偏离期望的孤立点值)、不一致的内容(来源于多个数据源或编码存在差异),导致预测陷入
3、混乱。传统的数据库技术在预测知识的表达、综合和推理方面能力比较薄弱,难以满足日益提高的预测要求。在这种情况下,一个新的研究领域——数据挖掘DM(DataMining)的出现引起了学术界和产业界的广泛关注。 进行销售预测数据挖掘前的数据准备问题 数据挖掘一般包括数据准备、数据挖掘和结果的解释与评价三个阶段。数据挖掘结果的质量与被挖掘数据质量息息相关。数据准备就是对被挖掘数据进行定义、处理和表示,使它适应于特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,在整个数据挖掘过程中起着举足轻重的作用。它包括以下几个步骤:
4、 数据清洗 一般来说,销售历史数据来源于异质操作数据库。这些异质操作数据库中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。数据清洗通过填写空缺的值,平滑噪声,识别、删除点,解决不一致来“清洗”数据。它可以在数据装入数据仓库之前进行,也可以在装入之后进行。 数据清洗技术一般可分为基于规则的方法、可视化方法和统计学法方法。基于规则的方法根据字段定义域的元知识、约束和与其它字段的关系对该字段的每一数据项进行评估;可视化方法以图形方式显示
5、数据集的有效轮廓,从而很容易辨别脏数据;统计学法方法通过统计技术填补丢失的数据和更正错误的数据。 数据集成与变换3 在进行销售预测数据挖掘时常常需要将多个数据存储合并,并转换成适合挖掘的形式。在销售历史数据中,我们常常会发现代表同一概念的属性在不同的数据库含有不同的名字,这将会导致不一致和冗余,而含有大量不一致和冗余数据会降低数据挖掘过程的性能或使之陷入混乱。将数据集成与变换将减少或避免这种情况,提高数据挖掘的精度与速度。 数据集成要考虑实体识别问题、相关性分析问题、数值冲突检测与处理问题等。实体识别问题即如何将来自多个信息源的实
6、体匹配;相关分析问题即通过相关性分析来检测数据冗余;数值冲突检测与处理问题即通过对元组级冗余检测,消除数据语义上的异种性。而数据变换涉及到平滑、聚集、数据概化、规范化、属性构造等,通过这些处理将数据转换成适合于挖掘的形式。 数据归约 当选择用于数据分析的数据集过大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种数据挖掘不现实、不可行。而数据归约技术可以“压缩”数据集,得到其“归约”表示,它小的多,但仍接近于保持原数据的完整性,使得在归约后的数据集上进行挖掘更有效。其策略包含数据立方体聚集、维归约、数据压缩、数值压缩、离
7、散化和概念分层等,这些涉及到了多特征方、压缩搜索空间的启发式算法、小波变换、主要成分分析PCA、回归和对数线性模型、多维索引树、离散化技术等。目前这个领域仍然是一个非常活跃的研究领域。 面向销售预测的数据挖掘工具 目前可用于销售预测的数据挖掘工具主要是一些统计分析方法,如时间序列分析、线性回归模型分析、非线性回归模型分析、灰色系统模型分析、马尔可夫分析法等,它是目前最成熟的数据挖掘技术。然而,一方面由于产品的需求往往是由许多因素综合决定的,传统的统计分析方法往往只是考虑了其中的一部分,而且影响需求的各种因素之间往往存在着各种
8、错综复杂的相互作用,依传统方法建立的简单模型无法表达这种相互作用;另一方面,由于庞大的销售数据集的性质往往非常复杂,且非线性、持续性及噪音普遍存在,因此需要一种不同于传统的新的理论和方法去解决数据挖掘中的问
此文档下载收益归作者所有