资源描述:
《数据挖掘技术基础知识》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘厦门大学计划统计系数据挖掘技术基础知识简介数据挖掘技术基础知识简介一、数据挖掘技术的由来二、知识发现和数据挖掘的定义三、数据挖掘能干些什么四、数据挖掘与其它学科五、数据挖掘的任务六、数据挖掘的对象七、数据挖掘的知识表示八、数据挖掘的方法和技术教学内容数据挖掘技术基础知识㈠引言㈡网络之后的下一个技术热点㈢数据爆炸但知识贫乏㈣支持数据挖掘技术的基础㈤从商业数据到商业信息的进化㈥逐渐演变的过程一、数据挖掘技术的由来㈠引言一、数据挖掘技术的由来顾名思义,“数据
2、挖掘”(DataMining)就是从大量数据中寻找其规律的技术。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。数据挖掘应用领域非常广阔。先期将在数据积累比较充分的领域银行、证券、电信等领域到应用,以后将在各领域中获得应用。未来市场不可限量,中国将形成数百亿的市场规模。将在中国形成一个新型的产业。随着信息化的深入发展,积累的数据会越来越多,所以对数据挖掘技术的需求也会越来越大。数据挖掘技术将被社会长期使用。数据挖掘技术相对门槛较高。需要有数理统计学、数据库、人工智能等基础
3、,目前国内数据挖掘人才奇缺。我系已于2004年开设面向研究生《数据挖掘》有关课程,面向本科生的课程也已开设。为了让大家了解《数据挖掘》的基本内容。我们从数据挖掘有关文献和材料上加工整理了一些有关该课程的基本知识,供参考。㈠引言㈡网络之后的下一个技术热点一、数据挖掘技术的由来1.我们已生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会;如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道传输速率来衡量通信技术,那么摩尔定律告诉我们,它们都是以每18个月翻一番的速度在增
4、长。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,国内情况亦然。1999年初,中国上网用户为210万,现在已经达到10300万人(2005年7月中国互联网络发展状况统计报告)。2007年《中国互联网调查报告》显示:互联网用户规模达1.82亿人,较06年增长33.8%,预计2008年中国互联网用户规模将达2.44亿;2007年中国综合门户企业市场营收规模为123.5亿元,较2006年增长22.3%。2008年
5、中国互联网综合门户企业市场营收规模将达161.9亿元,广告收入将大幅增长。㈡网络之后的下一个技术热点㈡网络之后的下一个技术热点2.人们不仅要问:就推动人类社会进步而言,历史上能与网络技术相比拟的是什么技术呢?有人甚至要把网络技术与火的发明相比拟。火的发明区别了动物和人;种种科学技术的重大发现扩展了自然人的体能、技能和智能;而网络技术则大大提高了人的生存质量和人的素质,使人成为社会人。㈡网络之后的下一个技术热点3.现在的问题是:网络之后的下一个技术热点是什么?让我们来看一些身边俯拾即是的现象:《纽约时报》由
6、60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~40版;市场营销报已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。㈡网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。可怕的数据如何才不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?㈡网络之后的下一个技术热点4.人们开始提
7、出新的口号:“要学会抛弃信息”面对这一挑战,数据开采和知识发现(DMKD)技术应运而生,并显示出强大的生命力。㈢数据爆炸但知识贫乏一、数据挖掘技术的由来另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。我怎么分析这些数据?目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的
8、知识的手段,导致了“数据爆炸但知识贫乏”的现象。㈢数据爆炸但知识贫乏苦恼:淹没在数据中;不能制定合适的决策!模式趋势事实关系模型序列关联规则目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据知识决策㈣支持数据挖掘技术的基础一、数据挖掘技术的由来数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,