数据挖掘并不遥远

数据挖掘并不遥远

ID:23964697

大小:52.00 KB

页数:4页

时间:2018-11-12

数据挖掘并不遥远_第1页
数据挖掘并不遥远_第2页
数据挖掘并不遥远_第3页
数据挖掘并不遥远_第4页
资源描述:

《数据挖掘并不遥远》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘并不遥远

2、第1让数据像人脑一样智慧,具有自动分析、判断和预测能力,这看似不可思议的应用,正是数据挖掘的功能。数据挖掘正吸引着越来越多的企业的眼球。近日,北京长城仪器厂、国家统计局、北京统计局等不少单位的有关人员纷纷表示正在关注数据挖掘。  究竟什么是数据挖掘?国内哪些单位已经应用了数据挖掘?如何挖掘数据?效果如何?有哪些可借鉴的经验?本期采访了中国地质调查局、中石化石油勘探开发研究院、北京长城仪器厂、重庆港务局、国家统计局、湖南统计局、泰安国税总局等20家大中型企事业单位的有关人员及我国数据库专家王珊教授。  20%已应用,20%在建设,25%正在关注  数

3、据挖掘离我们并不遥远。调查显示,中国地质调查局、重庆港务局、湖南统计局、南宁地税等4家单位(占20位被调查企业的20%)已经在应用数据挖掘为分析、决策作支持。  据中国地质调查局信息中心数据挖掘项目负责人张永波介绍,为了查找矿产资源,需要对海量地质信息进行综合处理、分析和评价。传统方法是由许多专家根据自身经验进行人工评估。人工评估不仅周期长,不利于及时发现、开采矿产资源,也不可避免地带有主观色彩,甚至使判断失误,这间接造成了大量经济损失。为此,早在上世纪80年代,地质行业就引入了计算机,并开始探索数据挖掘,通过数据挖掘对海量地质信息进行自动处理、评价,从而帮助人们预

4、测哪些地方最可能蕴藏着矿产资源。经过近二十年的研发、完善和应用,目前数据挖掘在地质行业开始广泛应用。  与中国地质调查局不同,重庆港务局、湖南统计局和南宁地税都在近两年才开始建设数据仓库,并在此基础上摸索着开展了数据挖掘应用,目前已经初步投入使用,有效辅助了领导进行分析决策。  除此之外,中石化石油勘探开发研究院、国家统计局、国家工商银行、中国民生银行等20%的被采访企业表示,数据挖掘系统正在建设中。北京长城仪器厂、国家统计局、北京统计局等25%的被采访企业表示正在关注,希望了解国内有哪些成功案例。其他35%的被采访企业则表示,目前的信息化重点是铺设网络,完善办公系

5、统、应用系统等,对数据挖掘不了解,暂时也没考虑。  认识数据挖掘  什么是数据挖掘?怎样实现数据挖掘?它如何让数据像人脑一样具有自动分析、判断和预测能力?  据中国计算机学会副理事长数据库专业委员会主任王珊教授介绍,数据挖掘是信息化发展到一定程度的产物,是数据利用的一个高级阶段。随着数据库技术的迅速发展,积累的数据越来越多。尽管目前的数据库系统可以实现数据的录入、修改、统计、查询等功能,但无法发现数据中潜存的关联和规则,无法根据现有的数据预测未来的发展趋势。如何发现数据背后隐藏的重要信息,并对其进行更高层次的分析,以便更好地利用这些数据,促使了数据挖掘的出现。目前数

6、据挖掘有许多不同定义,简而言之,就是从数据挖掘就是从大量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。  数据挖掘的海量数据有两种,可以是从数据仓库中来的,也可以是直接从数据库中来。所有的数据都需要再次进行选择,具体的选择方式与任务相关。  而所谓的数据仓库不是可以买到的现成产品,是一种解决问题的方案。数据仓库以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。数据仓库的建立不是要取代原有的数据库,而是数据库技术的一种新的应用,

7、用于支持决策分析。  正是由于数据仓库集成了丰富的海量信息,能大大简化数据挖掘过程,因此中国地质调查局、重庆港务局、湖南统计局、南宁地税等4家单位的数据挖掘都是在数据仓库的基础上实现的。  “而让数据像人脑一样具有自动分析、判断和预测的关键就是建立分析模型”,王珊表示:“建模就是把你的专业经验、一般规律或普遍情况抽象成一种分析模型。一旦模型建好之后,就可以把它应用到那些情形相似,而结果未知的判断中。”  比如,假设你是一个电信公司的营销主管,公司想发展一些新的长途用户。依据自身经验,当你要寻找谁是最有潜力的新客户时,你可以先了解一下在长途上花费时间比较多的老客户是哪

8、些人。因为你对老客户的很多信息了解得一清二楚,如年龄、性别、信用记录以及长途使用状况。这相当于你也掌握了很多潜在客户的同样的信息。通过对这些老客户的年龄、性别、信用记录等信息进行统计分析,你就可以推断出最有潜力的新客户是哪些群体。这比盲目地推销要有效得多。  而建模就是在数据仓库里把上述分析过程建成一个模型,从具体应用中抽象出若干变量。比如,长途用户的一个简化模型可以用客户的职业、职务、年薪、每个月长话费、性别、地区等变量来表示。根据这个模型,系统就能设法从老客户的大量通话记录中挖掘出潜在的新客户的年龄、性别等信息,帮助你发现新的长途客户群体。  实际上,数据挖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。