欢迎来到天天文库
浏览记录
ID:44320689
大小:31.00 KB
页数:3页
时间:2019-10-20
《資料結構性之研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、資料結構性之硏究•問題的說明與定義資料結構性的硏究可視爲資料順序性硏究的延伸,在處理的資料的性質上,順序性硏究所要挖掘的資料具有序列的結構,也就是記錄與記錄之間可以以序列的結構加以組織之,而在所欲求得的樣式上,順序性硏究希望發掘可以反映這類資料的特性的循序樣式,當我們將順序性硏究的範圍加以擴大-不再將組織資料的結構限定於單純的序列時,使可算是資料結構性硏究的範圍,也因爲結構性硏究所要處理的資料,其記錄間所形成的結構已不限於字列,所以本類硏究所要挖掘的樣式更爲多樣化,所需要的挖掘成本與挖掘的困難度都將會較循序
2、樣式的挖掘來的高。在許多情況下,交易資料庫中的記錄與記錄間是具有某些關係的,例如人口普查資料庫中,人與人之間會因爲血緣、地域、社交等各種因素而互相牽連,我們可以根據這些關係將各筆記錄組織起來形成具有複雜結構的資料,而結構性硏究的目的就是要從這種呈現複雜結構的資料中,挖掘常見的次結構;如果我們更廣意的解釋結構性硏究的範圍,而不將組成樣式的最小單位限制於有良好定義、格式的交易資料庫記錄,則凡是資料的本身具有結構的特性(如由網頁構成的WWW分散式資料提供環境、由染色體構成的基因等),或資料之間具有關聯(如呈現樹狀
3、的階層式文件集合、具有地理相關性的氣象資料等),我們都可以硏究存在於這些資料之中的子結構-也就是探勘存在於結構化資料中的結構樣式(StructuralPattern,或拓撲樣式,TopologicalPattern[1]),藉由結構樣式,我們可以對資料的特性進行更有效的分析或對現象進行更準確的預測。•現有應用與硏究結構化硏究的應用並沒有一個很明確的範圍限制,只要語意上符合在結構化的資料中探勘結構樣式者,就可以算是本類硏究的應用,結構化的硏究可以從兩個方向來討論,一種是一般化結構樣式的(通用)探勘方法的硏究,
4、如[1、5、6],—種是於特殊(結構的)資料上進行探勘的硏究'如[2、3、4、7]。在通用型的探勘方法硏究中,[1]先從結構化資料中抽取一部份的樣本,並從中尋找結構樣式,然後再用全部的資料去評估樣式的優劣。[5]是要從一群半結構化物件(semistructuredobjecQ中進行結構樣式的探勘,本文所指的半結構化物件每個都是一個圖型結構,而所謂的半結構指得是每個物件的圖型結構並沒有一定的輪廓(schema),探勘的目地就是從這些圖型結構中找出發生次數超出使用者限定的最小値的子結構(結構樣式)。[6]提出一
5、個在具有圖型結構的資料庫上進行結構樣式探勘的系統,在這個系統中,結構樣式就是整個圖型結構資料中共同的子結構,而樣式的評估是依據其能「壓縮」原有圖型結構資料的程度。而在特殊結構的探勘硏究中,[2]將每個使用者於存取日誌中留下的記錄轉換成較不會失去資訊的樹狀結構,然後在這些樹狀結構中,挖掘常出現的子結構(tree-liketopologypattern)以了解使用者的尋訪模式。[3洗從相關的網頁資料中萃取出代表有用的資訊、但型式並不一定的半結構資料,然後再對這些半結構資料進行探勘以了解網站的資訊結構並幫助資訊的
6、撷取。[4]是要從多個關聯表格中探勘關聯樣式(relationalpattern),這些關聯表格彼此的參考關係必需形成一個單一路徑的樹,同時因爲這樣的參考關係,這些表格中的記錄會組成多個樹狀結構,而所要探勘的關聯樣式就是常出現於這些樹狀結構中的子結構。[7]雖然並非尋找結構樣式,但其內容爲結構樣式的應用,該篇論文試圖以圖型結構表現軟體的原始碼與資料,和使用者所設定的模組內部的限制和模組間的限制,然後使用Apriori演算法去進行圖型之間的結構樣式的比對,以期在模組內高內聚、模組間低耦合的原則下還原軟體的架構
7、。在上述的硏究中,[3、5]會因爲所處理的結構化資料在結構上會有不一致,或是所得的結構樣式本身會包括了多種不同的拓撲結構,而用「半結構化(semi-structured)j來說明其硏究的對象,然而在此我們一律從廣意的結構化來看待之,不過必需了解的是,因爲半結構化會有結構不規則的性質,因此無論在探勘方法或探勘的效率都比較容易面臨挑戰。•硏究展望與議題從上段的文獻上可以發現目前資料結構性的硏究尙處於發展的初期,相較於資料探勘的其他領域,非序列性之結構性硏究的相關著作與探討都是較爲少量的;在一般化的結構探勘方法硏
8、究上,也可以發現應用於大量資料上時,會有效率的問題,而在特殊結構資料的探勘上,目前的硏究相較於結構資料的多樣化則可以提醒我們還有很多發揮的空間,因此探勘方法效率的改良,和結構性硏究的多樣化應用(如生物資訊等)都是未來値得努力的方向;另外由於結構的多樣化,所得到的樣式通常會比其他領域來的大量,因此樣式有趣性的衡量以及探勘系統的客制化也都是尙待努力的議題。•參考文獻[1]Wang,J.T-L.,Chirn,G.W.,
此文档下载收益归作者所有