欢迎来到天天文库
浏览记录
ID:40192644
大小:843.50 KB
页数:30页
时间:2019-07-25
《工学类东北大学工学部》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2007/4/20東北大学工学部 橋本研究室AGeneralFrameworkforMiningConcept-DriftingDataStreamswithSkewedDistributions~コンセプトドリフトが生じるクラス分布に偏りがあるデータストリームに対するデータマイニングの一般的な枠組み~出典:SIAMConferenceonDataMining2007(SDM07)著者:J.Gao,W.Fan,J.Han,P.S.Yu発表者:橋本研究室4年 西村聖所属:東北大学工学部発表日:2007/4/202007/4/20東北大学工学部 橋本研究室1目次背景既存手法の問題予測
2、誤差の原因提案手法による誤差の削減実験方法・結果まとめ・考察背景分類:大量のデータを予め決められたグループ(クラス)に分 けること例.不正アクセスの検出毎日大量のアクセス履歴があるが,そのうち不正アクセスはごく僅か↑ ↑データストリーム クラス分布の偏りまた,不正アクセスの手段も日々変化していく(コンセプトドリフト)不正アクセスは見逃すと大変!クラス分布の偏り,データストリームのコンセプトドリフトに対応できるような手法が必要となる2007/4/20東北大学工学部 橋本研究室22007/4/20東北大学工学部 橋本
3、研究室3基本的なオンライン型分類学習の流れ学習用データ学習アルゴリズム分類モデルクラス1クラス2分類分類したいデータデータが発生するたびにモデル構築データの発生2007/4/20東北大学工学部 橋本研究室4既存の手法の問題点データのクラス分布のバランスが取れていて,安定したデータストリームを仮定しているコンセプトドリフトが生じるクラス分布の偏ったデータストリームを仮定コンセプトドリフトを条件付確率の変化と捉えている.しかし実際に観測できるのは,結合確率であり結合確率の変化が条件付確率の変化によるものか,生起確率の変化によるものかが分からないコンセプトドリフトを結合確率の変化と捉え
4、ることにより,詳細な分析をするx:事例y:クラス2007/4/20東北大学工学部 橋本研究室5コンセプトドリフトと予測誤差の関係予測誤差コンセプトドリフトの発生⋍結合確率の変化表1.コンセプトドリフトの種類予測誤差はコンセプトドリフト発生の指標とはならず,コンセプトドリフトに対応するためには既存の手法同様最新のデータによるモデルの再構築が必要変化なし予測誤差変化なし変化する変化する変化するは分類モデルが予測するクラス2007/4/20東北大学工学部 橋本研究室6分類結果に含まれる誤差の種類予測誤差=ベイズ誤差(真の分類誤り率)+バイアス+分散バイアス:分類に用いるモデルへの制約分
5、散:異なる学習データを用いた場合の分類モデルの予測の差バイアスが大きすぎる学習精度があがらないバイアスが小さすぎる学習結果が安定しないバイアスは適切に設定すべき提案手法は学習アルゴリズムにC4.5を用いているので,枝刈りによりバイアスを適度に保てる提案手法の流れサンプリングアンサンブル学習学習アルゴリズム分類モデルクラス1クラス2分類分類したいデータモデル再構築最新データデータの発生過去の少数クラス学習用データ2007/4/20東北大学工学部 橋本研究室7サンプリング学習には最新のデータを用いるのがよいが,クラス分布が偏っているので過去の少数クラスの再利用と,多数クラスの数を
6、減らすことによりデータ分布の偏りをなくす図3.サンプリングの流れ少数クラスに分類される事例多数クラスに分類される事例過去の少数クラス最新データ2007/4/208東北大学工学部 橋本研究室2007/4/20東北大学工学部 橋本研究室9サンプリングによる分散削減利点:過去の少数クラスも用いることにより,事例不足による分散が減る欠点:過去の事例を用いることにより,現在のコンセプトと異なるデータが増えるので,バイアスが増えるしかし,多数事例は現在のコンセプトを反映しており,かつ数も十分あるのでバイアスの上昇は僅かトータルで見ると予測精度は上昇2007/4/20東北大学工学部 橋本研究室
7、10アンサンブル学習複数の分類モデルを用いて予測精度の向上を計るアンサンブル学習の結果は,それぞれの分類モデルの予測の平均で,ある事例xが少数クラスに属する確率は:分類モデルの数:アンサンブル学習の結果:各分類モデルの予測結果学習アルゴリズム学習用データk学習用データ1分類モデル1分類モデル2……結果平均学習用データ2分類モデルk2007/4/20東北大学工学部 橋本研究室11アンサンブル学習による分散削減アンサンブル学習の結果の誤差を用いた表現分散の項の分散は以下のようになるの
此文档下载收益归作者所有