欢迎来到天天文库
浏览记录
ID:37537770
大小:428.92 KB
页数:19页
时间:2019-05-25
《自适应共振网分群混合型资》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2004電子商務與數位生活研討會自適應共振網路分群混合型資料許中川,國立雲林科技大學資管所副教授蕭介銘,國立雲林科技大學資管所研究生摘要分群是資料探勘的重要功能之一,典型的應用為分群消費者資料,利於擬定市場區隔行銷策略。自適應共振網路是常被使用的非監督式分群類神經網路。型一自適應共振網路可以處理二元數值型資料,型二自適應共振網路可以處理一般數值型資料。目前,許多資料庫收集到的是含有數值型及種類型的混合型態資料,然而型一及型二自適應共振網路無法直接處理混合型資料,經過資料轉換的間接方式,無法正確分群。本論文提出改良式自適應共振網路演算法,整合概念階層解決分群混合型態資料問題。我
2、們透過模擬的人工資料集及一個關於家庭收入的真實資料集實驗,驗證所提出的分群演算法。關鍵字:資料探勘、自適應共振網路、非監督式類神經網路、分群演算法、概念階層壹、緒論群聚分析(clusteranalysis)在資料探勘(datamining)中是相當重要工具之一,而非監督式的學習法,能夠自行挖掘出隱藏在資料的特徵,以便將資料作群聚的分析,截至目前為止已有許多的分群演算法被提出,例如:自組映射圖(self-organizingfeaturemapnetwork,SOM)[Kohonen,1990]、自適應共振網路(adaptiveresonancetheory,ART)[Carp
3、enterandGrossberg,1987]、其他相關的研究還有BIRTH[Zhang,1996]、COOLCAT[DanielBarbaraetal,2002]、ROCK[Guha,1997]、CACTUS[Ganti1999]…等,雖然上述這些演算法,對於單獨是數值型或種類型屬性資料的分群計算,都可獲得很好的結果,但是在許多的實際-2701-2004電子商務與數位生活研討會應用上,我們經常需要針對種類型和數值型混合在一起的資料分群,例如:(消費者資料的行銷資料庫),這使得我們無法使用上述傳統的分群演算法,來對混合型資料分群,因此,在許多領域的實際應用上,會遇到諸多的限制
4、。上述傳統的分群演算法,無法對混合型資料分群的主要原因在於,種類型屬性藉由編碼的方式,轉換成二元數值屬性後,並無法合理表達種類型資料間的相似度,也無法做漸進式地調整。然而大部份的分群演算法對此並無更進一步的來探討,雖然改良式自組映射圖,有能力解決上述問題,但其時間複雜度卻相當的高,因為它比單獨針對數值型屬性或種類型屬性作運算更為複雜。為了能夠有效的針對種類型和數值型混合資料作分群,並降低其時間複雜度過高問題,我們藉由自適應共振網路演算法裡,具有穩定性、可塑性和動態式的網路架構優點,結合概念階層(concepthierarchy),來克服種類型資料距離(或相似度)的表達及計算問
5、題,然後提出一種新的非監督式分群演算法,此演算法不僅能有效的針對種類型和數值型混合資料作分群,還可降低其時間複雜度過高的問題。本文的編排架構為,第二部分在探討種類型資料間距離計算所衍生出的問題,及如何藉由概念階層表達種類型資料,第三部分介紹我們所提出的分群演算法和相關公式的定義,第四部分是實驗步驟與結果,最後是結論與未來研究。貳、文獻探討一、種類型資料間距離計算的問題目前數值型分群演算法遇到訓練資料中有種類型屬性時,都先透過二元編碼法,將種類型屬性轉為一群{0,1}之二元數值屬性(如圖一),然後視為數值型資料處理。典型數值型分群演算法利用歐基里得距離比較資料的相似度。以圖一為
6、例,轉換成二元數值型屬性後,d(Gary,John)=d(Gary,Tom)=d(John,Tom)=2,任兩筆資料歐基里得距離都相等,表示相似度都相同。然而,如果從喜好的飲料的特性來看,Gary和John比較相似,兩人喜歡的飲料,都是碳酸飲料。分群時,應將兩人放在同一群。傳統的數值型分群演算法無法達到此目的。我們歸納出二元編碼法至少有下述四個缺點:1.無法合理表達種類型資料值間的相似度,例如無法反映出「百事可樂」對「可口可樂」的相似度,高於對「咖啡」的相似度。2.當種類型屬性值域很大時,會轉換成一群高維度的二元屬性。浪費儲存空間,且降低處理效率。-2702-2004電子商務
7、與數位生活研討會3.不容易維護;當屬性值域改變時,需要更動資料表格綱要。例如,「最喜歡的飲料」屬性值域增加「紅茶」新值時,轉換的資料表格需要跟著增加「紅茶」屬性。4.轉換的資料表格新二元數值屬性名稱無法直接反映原先屬性名稱語意。姓名Favorite_Drink總額姓名可口可樂雪碧汽水咖啡總額Gary可口可樂60張三10060John雪碧汽水70李四01070Tom咖啡30王五00130圖一傳統演算法將種類型屬性Favorite_Drink轉換成一群二元數值型屬性二、概念階層表達種類型資料藉由上節裡種類型
此文档下载收益归作者所有