ソースコードの特徴語を用いた Java ソフトウェア部品の自動分類システム

ソースコードの特徴語を用いたJavaソフトウェア部品の自動分類システムソースコードの特徴語を用いたJavaソフトウェア部品の自動分類システム大阪大学井上研究室仁井谷竜介

背景 • ソフトウェア部品検索システムの必要性 • ソフトウェア開発の大規模化・複雑化 • ソフトウェアを再利用したり，管理する機会の増加様々なソフトウェア部品検索システム名阪和合同研究会

検索システム • クエリ検索システム • クエリ（検索語・検索文）を入力として与える • 適切なクエリを与えれば意図通りの文書が得られる • カテゴリ検索システム • あらかじめ用意されたカテゴリから文書を探す • カテゴリはツリー状に構成されていることが多い • クエリを入力しなくてよい • 段階的に絞り込むことができる • コンピュータ → ソフトウェア → 表計算本研究ではこちらに着目名阪和合同研究会

カテゴリ検索を部品に適用したときの問題点 • 部品をカテゴリに分類する必要がある • 追加・更新する部品をどのカテゴリに入れるか判断しなければいけない • 対象数が多い • カテゴリを再構成・維持する必要がある • 分類・カテゴリ維持は手作業では困難 • 自動化が不可欠名阪和合同研究会

研究の目的 • ソフトウェア部品を対象としたカテゴリ検索用の自動分類 • カテゴリのツリー(カテゴリ間の関係)の自動作成 • Javaのクラスをソフトウェア部品とみなす • 入力としてソースコードを用いる • 低コストでカテゴリ検索の利点が得られる • クエリを入力しなくてよい • 段階的に絞り込むことができる名阪和合同研究会

input read file input file write read 部品(=Javaクラス) のソースコード write 提案手法 • ソースコードの特徴語に着目した分類 • ソースコードを入力として部品をカテゴリに分類 • カテゴリ間に関係を作成特徴語=カテゴリとして部品を分類カテゴリ間の関係を作成特徴語の決定 input read file write file 名阪和合同研究会

分類の手順 (2) (1) (2.1) (2.2) (2.3) 単語の出現情報解析出現重み計算利用関係計算 LSA 計算重み重み単語重み (3) 単語一覧（特徴語の候補）特徴語決定 • ソースコードを解析 • 単語重み計算 • 出現重み計算 • 利用関係による重み加算 • LSA（潜在的意味解析法） • 単語重みの高い語を特徴語とする • 1つの特徴語をそれぞれ1つのカテゴリとして部品を分類部品と特徴語の組 (4) カテゴリ生成名阪和合同研究会

特徴語の候補となる単語の抽出 • 全ソースコード中に出現する単語の一覧を取得 • 語の記法統一を行う • 大文字、小文字、’_’の有無などの違いを統一する • 例: XMLParser, XML_Parser, xmlParser → XmlParser • 複合語分割を行う • 複数で構成されている語を一部または全部に分割 • 例: XmlParser→ Xml, Parser, XmlParser 名阪和合同研究会

ソースコードの出現場所による重み計算 • 出現した場所を考慮した重要度を求めるクラス定義 100×log(1+出現回数) 変数名 10×log(1+出現回数) ドキュメントコメント 15×log(1+出現回数) コメント 2×log(1+出現回数) ・・・の和を求める名阪和合同研究会

利用関係による重み加算 • 利用している部品中の語の重みを加算する • 利用関係に応じて加算時の割合を変える継承 ×0.5 メソッド呼び出し ×0.01 インスタンス化 ×0.05 など継承関係での例＼語 file read binary 親クラス5 3 0 子クラス1 0 2 ＼語 file read binary 親クラス5 3 0 子クラス3.5 1.5 2 名阪和合同研究会

LSA*（潜在的意味解析法） • 重みが類似するものに近い重み与える補正＼語 input read file write print A 10 12 8 0 0 B 8 0 9 0 0 C 0 1 0 8 40 D 0 0 2 30 20 ＼語 input read file write print A 11 8 9 0 0 B 6 5 6 0 0 C 0 1 0 8 39 D 0 0 2 29 20 * Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284. 名阪和合同研究会

メソッド定義3 メソッド呼出2 メソッド定義7 メソッド呼出8 メソッド定義2 メソッド呼出10 クラス定義 1 メソッド定義 2 特徴語の決定 • 部品のソースコードから単語重みを求める • 本手法では上位10語を部品の特徴語とする全ソースコードから得られた単語（特徴語の候補） input output read write get set file ・・・単語の出現情報なしなしなし対象部品ソースコード中に出現する単語の出現箇所と出現回数部品と関連が強いとソースコードに出現しない語も特徴語になり得る … 単語重み62.1 0 90.7 0 35.6 18.1 113.9 特徴語 ○ ○ ○ 名阪和合同研究会

input read file 部品 write カテゴリの作成 • 得られた特徴語をそれぞれカテゴリとする • 部品の特徴語をもとにカテゴリに部品を分類特徴語=カテゴリとして部品を分類特徴語の決定 input read file write file 名阪和合同研究会

カテゴリ間の関係の作成手順 親子関係作成集合類似関係作成特徴語類似関係作成 • カテゴリを入力とする • 全てのカテゴリの組に対し3つの関係が成り立っているか調べる • 成り立っていればその関係をグラフの辺として出力とする • 複数成り立っている場合は優先順位に従って1つだけ決まる名阪和合同研究会

親子関係 • カテゴリを部品の集合としてみたときの包含関係があるものの間に作られる関係 • Aの要素の8割⊂B → Aが子 Bが親部品の集合カテゴリ名阪和合同研究会

集合類似関係 • カテゴリを部品の集合としてみたとき類似するものの間に作られる関係 • A∩Bが両方の8割を超えていたら類似 A B A B 名阪和合同研究会

特徴語類似関係 • カテゴリに対応する特徴語間の類似度（コサイン尺度）が一定値以上のカテゴリ間に作られる関係＼語 input read A 11 8 B 6 5 C 0 1 D 0 0 input read θ cosθ = 類似度名阪和合同研究会

カテゴリ間の関係の優先順位 • 集合として同一 → 集合類似関係 • 包含関係 → 親子関係 • 成り立っていれば → 集合類似関係 • 成り立っていれば → 親子関係 • 成り立っていれば → 特徴語類似関係名阪和合同研究会

Io File Input Output Read Write Print Println カテゴリ間の関係の例親子関係集合類似関係特徴語類似関係名阪和合同研究会

実装分類部検索部ソースコード単語重み計算部カテゴリ名クラス名検索部利用関係計算部入力部品情報表示部検索 SPARS-J 読込出現重み計算部 LSA 計算部検索結果カテゴリ DB カテゴリ情報表示部登録カテゴリ木表示部 SPARS DB SPARS-DB 読込部特徴語決定部カテゴリ生成部登録読込名阪和合同研究会

|検索結果 ∩ 適合部品| |検索結果| 適合率＝評価 • 実際に分類を行い，検索結果を評価する • 入力はロボットシステム部品254クラス(35システム) • 評価には適合率を用いた • 適合の判断はソースコードを見て行った名阪和合同研究会

評価した適合率 • カテゴリと部品の間の評価 • 各部品が属するカテゴリの適合率 • 各カテゴリに属する部品の適合率 • SPARS-J （全文検索)との検索結果の比較 • SPARS-Jで検索されず本システムで検索されたものの中での適合率名阪和合同研究会

結果一例：部品が属するカテゴリの適合率 • riu.parts.EnemyStatusが属するカテゴリの適合率 • 適合率 0.7 名阪和合同研究会

各部品が属するカテゴリの適合率 • 縦軸が各部品の適合率 • 横軸は部品（適合率でソートしている） • avg. 0.86 例：適合率 2/3 の部品部品高い適合率が得られた適合するカテゴリ適合しないカテゴリ名阪和合同研究会

結果一例：カテゴリに属する部品の適合率 • Pointに属する部品（実際は108クラス）の適合率 • 適合率 0.93 ... 名阪和合同研究会

各カテゴリに属する部品の適合率 • 縦軸が各カテゴリの適合率 • avg. 0.85 例：適合率 4/7 のカテゴリカテゴリ適合率0のカテゴリも存在した高い適合率が得られた適合する部品適合しない部品名阪和合同研究会

考察 • 有効な分類が得られた • 不適当な特徴語がある • Javadocタグ(@param, @returnなど) • HTMLタグ(br, li) • 前置詞，助詞，代名詞(to, in, this) • Javaの予約語(this) 名阪和合同研究会

SPARS-Jとの比較 • SPARS-Jで検索されず本システムで検索された部品の中でのカテゴリの適合率 • SPARS-Jでは得られない部品が検索できたカテゴリは43% • avg. 0.49 本システム SPARS-J この部分での適合率検索結果がSPARS-Jの検索結果に含まれたカテゴリの場合適合率が定義できない名阪和合同研究会

考察(1/2) • 適合率の平均が低い • ソースコード中に出現しない特徴語は適合しないものが多くある • カテゴリが減ったため、適合率の低いカテゴリ（特徴を表さない特徴語）の割合が相対的に増えた • 適合率が定義できないカテゴリが多い • ソースコード中に出現する特徴語が多い名阪和合同研究会

考察(2/2) • 特徴語が部品につき10個固定なのが問題 • 10個では足りないような複雑な部品 • その部品が属するカテゴリの適合率：高い • 特徴語のほとんどあるいは全てがソースコード中に出現するため，SPARS-Jで検索可能 • 特徴を表すが、ソースコード中に出現しない語が特徴語にならない • 10個では多すぎるような単純な部品 • その部品が属するカテゴリの適合率：低い • 無関係な特徴語が幾つも含まれる名阪和合同研究会

まとめと今後の課題 • まとめ • ソースコードの特徴語に着目した分類手法 • 提案手法による分類の有効性を確認 • 今後の課題 • 部品ごとの適切な特徴語の数の調査 • 特徴語として適さない語の排除方法の考案 • カテゴリ間の関係の評価名阪和合同研究会

質問をどうぞ 終名阪和合同研究会

ソースコードの特徴語を用いた Java ソフトウェア部品の自動分類システム