190 likes | 335 Views
ふるまいの類似度による コンピュータウイルスのカテゴリ分け. 電気通信大学 情報工学専攻 阿部研究室 三森 春佳. 発表の流れ. はじめに 関連研究 研究の目的 提案手法 実験 実験結果 考察 まとめ. はじめに:ウイルスの亜種について. ウイルスは一つ新しいものが登場すると、少し変更を加えた亜種が多数登場 亜種は基本的な構造はあまり変わらない 未知ウイルスを既知ウイルスの亜種だと迅速に判断することで一定の対策を講じることが可能 ウイルスを自動で分類する研究が行われている. 関連研究:ウイルスの分類手法. 静的解析による手法 ウイルスコードから解析
E N D
ふるまいの類似度による コンピュータウイルスのカテゴリ分け 電気通信大学 情報工学専攻 阿部研究室 三森 春佳
発表の流れ • はじめに • 関連研究 • 研究の目的 • 提案手法 • 実験 • 実験結果 • 考察 • まとめ
はじめに:ウイルスの亜種について • ウイルスは一つ新しいものが登場すると、少し変更を加えた亜種が多数登場 • 亜種は基本的な構造はあまり変わらない • 未知ウイルスを既知ウイルスの亜種だと迅速に判断することで一定の対策を講じることが可能 • ウイルスを自動で分類する研究が行われている
関連研究:ウイルスの分類手法 • 静的解析による手法 • ウイルスコードから解析 • 暗号化などの難読化等への対策 • 動的解析による手法[2] • 仮想環境等でウイルスを動かし動作を観測・解析 • ウイルスを動作させるコスト、研究用の仮想環境を検出するウイルス等への対策
研究の目的 • ウイルスのふるまいからカテゴリ分けする • 既存の動的解析による手法[2] • API等、ウイルスの動作の特定の部分に着目 • ウイルス実行時のコンピュータ全体のパフォーマンスをふるまいとする
提案手法:ウイルス実行時データ取得1 • 隔離された環境で ウイルスを実行 • Windows Performance Counters(WPC)を使って ウイルスの動作を観測し データを取得 • WPCはカウンタの集合で 各カウンタは1つの 特徴量を保持
提案手法: ウイルス実行時データ取得2 • 各ウイルスに対し一定時間サンプルする
提案手法:特徴量と合成特徴量 • 特徴量に対し主成分分析を適用し合成特徴量生成
提案手法:ウイルス間の類似度 • 相互相関関数 • 2つの信号・ベクトル間の類似度を表す • 時間差を考慮
提案手法:クラスタリング • データの類似性からデータをグループ化する • EMアルゴリズムによるクラスタリング[3] • 計算量が少なく安定している • 初期値によって結果が大きく異なる • カテゴリ数を指定する必要がある
提案手法:クラスタリングパラメータ選択 • 識別率[5]によるパラメータ選択 • 識別率が高いカテゴリ分けを適切なものと判断
実験 • 8種類のウイルス(Bagz, Bagle, Doombot, Fanbot, Kipis, Klez, Mimail, Mydoom)各3個計24個を使用 • 特徴量213個の場合と合成特徴量34個の場合 • 相互相関関数: と における最大値 • クラスタリング • EMアルゴリズムの初期値を生成するパラメータseed • の範囲で1刻みに変更 • カテゴリ分けの適切さを表す識別率によるパラメータ選択
実験結果:特徴量・合成特徴量を用いた場合 特徴量・合成特徴量をにおいて 相互相関関数t=0及び最大値を用いた場合の誤り数(平均) 識別率70%以上の場合の誤り数と 正しくカテゴリ分けされた個数の割合 及び統合が発生したカテゴリの数(平均)
実験結果:合成特徴量の個数を変化させた場合実験結果:合成特徴量の個数を変化させた場合 • 合成特徴量(max)の場合 • 合成特徴量を全て使った 場合が最も良い 合成特徴量数を変えた場合の誤り数(平均)
考察 • 誤り数が少ないと識別率が高い傾向がある • 合成特徴量34個(相互相関関数max)の場合に識別率70%以上の場合選ぶことで、正しくカテゴリ分けされた割合が90%弱,統合数1 程度のカテゴリ分けを得られる • 合成特徴量数を減らすと誤り数が増える
まとめ • ウイルスのふるまいの類似度からカテゴリ分けを行った • 正しくカテゴリ分けされた割合が90%弱,統合数1 程度のカテゴリ分けを得られることが分かった • 今後の課題:カテゴリ統合の回避等