资源描述:
《關聯規則研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、關聯規則研究摘要:對關聯規則挖掘技術進行瞭研究,描述瞭關聯規則的基本概念,介紹瞭關聯規則的分類;闡述瞭挖掘關聯規則的步驟,並展望瞭關聯規則進一步的研究方向。關聯規則挖掘作為數據挖掘領域的一個重要研究內容,它揭示瞭項集之間有趣的相關關系,可廣泛應用於購物籃分析、數據分析、分類、網絡個性化服務、企業電子商務中客戶數據挖掘等廣泛領域關鍵詞:數據挖掘;關聯規則;關聯規則挖掘中圖分類號:TP311.13文獻標志碼:A文章編號:1673-291X(2010)11-0198-02數據挖掘是一個飛速發展的領域,不斷有新的技術和系統出現。而如何將這一
2、技術應用於實際工作中,還需要作更深一步的開發與研究,作為一個年輕的和很有希望的領域,數據挖掘依然面臨著很大挑戰和許多等待解決的問題在數據挖掘的知識模式中,關聯規則模式是比較重要的—種,也是最活躍的一個分支—、關聯規則的基本概念關聯規則表示數據庫中一組對象之間某種關聯關系的規則。例如,關聯規則可以表示為“購買瞭項目A和B的顧客中有95舛勺人又買瞭C和D,。從這些規則可找出顧客購買行為模式,可以應用於商品貨架設計、生產安排、針對性的市場營銷等采用關聯模型比較典型的例子是啤酒和尿佈〃的故事。關聯規則問題由Agrav^l等人於1993年首先
3、提出,隨即引起瞭廣泛的關註。許多研究者(包括R他raval本人)對關聯規則挖掘問題進行深入的研究,對最初的關聯規則挖掘算法進行瞭改進和擴展。同時,關聯規則的挖掘被應用到許多其它領域的數據庫,取得瞭良好的挖掘效果為瞭準確地描述關聯規則挖掘問題,便於問題的討論,給出關聯規則挖掘問題的正式定義[1]:定義1關聯規則挖掘的數據集記為UD為事務數據庫),D={t1,t2,...,tk,...,tn},tk={i1,i2,...,ij...,...ip}(k=1,2,…,n)為一條事務;tk中的元素ij(j=1,2,…,P)稱為項目(iten
4、)定義2設n}是事務數據庫D中全體項目組成的集合,I的任何子集X稱為D中的項目集(itenset),
5、X
6、=k稱集合X為k項目集。設tk和X分別為D中的事務和項目集,如果X?欝tk,稱事務tk包含項目集X事務和項目集雖然都是項目的集合,但兩者有不同的含義。事務是數據庫D的組成元素(類似於關系數據庫中的記錄或元組),而項目僅僅是為挖掘關聯規則而規定的項目組合(類似於關系數據庫中的字段)。事務與項目集的包含關系表明對該事務來說,此項目集中的各個項目是相互關聯的定義3數據集D中包含項目集X的事務數稱為項目集X的支持數,記為oxo項目集X的
7、支持率,記作:support(X),即概率P(X)O[1]support(X)=■x100%1)其中,
8、D
9、是數據集D的事務數。若support(X)不小於用戶指定的最小支持率(記作:niinsupport),則稱X為頻繁項目集(或大項目集),否則稱X為非頻繁項目集(或小項目集)定義4若X、Y為項目集,且XGY二?準,蘊涵式X?iBY稱為關聯規則,X、Y分別稱為關聯規則X?圮Y的前提和結論。項目集(X?圮Y)的支持率稱為關聯規則X?圮Y的支持率,是D中事務包含(XUY)的百分比,即概率P(XUY),記作:supposupport(X
10、?圮Y)=support(XUY)=P(XUY)(2)關聯規則X?iEY的置信度是D中事務包含X的同時也包含Y的百分比,即條件概率P(Y
11、X),記作:confidence(X?iEY)confidence(X?iEY)=■x1OO%=P(Y
12、X)(3)支持度和置信度是描述關聯規則的兩個重要概念,前者用於衡量關聯規則在整個數據集中的統計重要性,後者用於衡量關聯規則的可信程度。一般來說,隻有支持度和置信度均較高的關聯規則才可能是用戶感興趣的、有用的關聯規則通常,用戶根據挖掘需要指定最小支持度(記為niinsupport)和最小置信度(記
13、為mnconfidence)o前者描述瞭關聯規則的最低重要程度,後者規定瞭關聯規則必須滿足的最低可靠性二、關聯規則的分類我們將關聯規則按不同的情況進行分類:1.基於規則中處理的變量的類別,關聯規則可以分為佈爾型和數值型。佈爾型關聯規則處理的值都是離散的、種類化的,它顯示瞭這些變量之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型字段進行處理,將其進行動態的分割,或者直接對原始的數據進行處理2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。在單層的關聯規則中,所有的變量都沒有考慮到現實的數據是具
14、有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行瞭充分的考慮3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的在實際中,用戶往往並不是對所有的關聯規則都感興趣,而隻想知道關於某方面的關聯規則,如那些至少包