360 likes | 446 Views
ユーザ動作を基にしたデータ間関連度とデータ着目度算出機構の構築. 大澤 亮. アウトライン. 背景・問題意識 目的 アプローチ 関連研究 設計 実装 評価 今後の展望とまとめ. 背景. 近年,様々な情報が電子化され,ユーザは PC 上で多くのデータを閲覧するようになった 文書,画像,音声 ユーザは過去読んだデータを再度読む可能性がある. 問題意識. 履歴の一覧表示では目的データをなかなか見つけられない. 目的. 通常作業中のユーザに手動操作を要求しない手法で,履歴データ検索を効率化すること. アプローチ. ユーザ動作を基に,
E N D
ユーザ動作を基にしたデータ間関連度とデータ着目度算出機構の構築ユーザ動作を基にしたデータ間関連度とデータ着目度算出機構の構築 大澤 亮
アウトライン • 背景・問題意識 • 目的 • アプローチ • 関連研究 • 設計 • 実装 • 評価 • 今後の展望とまとめ
背景 • 近年,様々な情報が電子化され,ユーザはPC上で多くのデータを閲覧するようになった • 文書,画像,音声 • ユーザは過去読んだデータを再度読む可能性がある
問題意識 • 履歴の一覧表示では目的データをなかなか見つけられない
目的 • 通常作業中のユーザに手動操作を要求しない手法で,履歴データ検索を効率化すること
アプローチ • ユーザ動作を基に, • データ間関連度を自動算出し関連検索を提供 • データ着目度を自動算出し,着目度順にソートする • ユーザ動作とは,ユーザがデータを参照している際の作業動作
関連検索 • Googleの関連ページ機能
ユーザ動作を基にした関連検索 • hoge.docを作っていたときに参照していたWebサイトを探す • 記憶は連想からなるので有効 hoge.doc 関連検索
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ユーザ動作を基にした着目度順のソート機能 • ユーザが過去に注目したデータを上位にするようにソート • 着目したデータを再度閲覧する可能性が高いためある程度有効
関連度算出に利用するユーザ動作 • データアクセス • 同時刻に参照していたデータは関連が深いとする. • テキスト内検索 • 同語句をデータ内で検索した場合,それらのデータ同士は関連が深いとする. • クリップボード利用 • データAでクリップボードにコピーし,データB にペーストした場合,データA とデータB は関連が深いとする.
着目度算出に利用するユーザ動作 • データアクセス • アクセス時間 • アクセス回数 • クリップボード使用回数 • 選択文字列反転回数 • キーボード,マウスによる入力 • ユーザが席を離れていないか監視 • ウィンドフォーカスの変更 • ウィンドウにフォーカスがあたっているか
相関を利用したフィルタ • ユーザが明示的にレーティングしたデータに対してユーザ動作との相関を求めフィルタを作成する ユーザA ユーザB
関連研究 • データ間関連度自動算出 • 興味空間ブラウザ • データ着目度自動算出 • Web検索履歴を用いたブラウジング支援ツール
データ間関連度自動算出 • 大阪市立大学の前田氏による興味空間ブラウザ • 数量化Ⅲ類を用いた 意味分類 • 意味的な分類と併用 は可能
データ着目度自動算出 • 関西大学の原田氏によるWeb検索履歴を用いたブラウジング支援ツール • 資料着目度を閲覧回数,閲覧日時,参照時間から算出 • 本研究ではユーザの癖の学習機能がある
DMemFidner概要 関連検索と着目度によるソート機能を もった検索の提供 ユーザ データ検索アプリケーション データ間関連度と データ着目度の提供 DMemFinder メタ情報 データベース イベント通知 アプリケーション
実装概要 DMemSeach データ間関連性と データ着目度の提供 DMemFinder イベント通知 イベント通知 Open Office サービスマネージャ Firefox エクステンション OpenOffice.org Firefox
実験と評価 • 有用性の検証 • 関連度 • 着目度 • パフォーマンス評価
有用性の検証 • 関連度 実験1.関連検索は有効に働くか • 着目度 実験2.利用したユーザ動作は適切だったか 実験3.着目度を用いたフィルタは有効に働くか
実験1.関連検索は有効に働くか • 数日間,DMemFinderを使い,履歴を蓄積する. • OpenOfficeでレポートを作成する • レポート作成中に閲覧したWebサイトのURLをレポートにコピー • レポートデータをキーにして関連検索を実行 • コピーしたURLが何位に表示されるか調べる
実験結果と考察 参考文献URL表示順位(位) 平均母集団312.5
実験2.利用したユーザ動作は適切だったか • 一定期間Webを参照,各ページをレーティングしてもらう. • レートの値と各項目の相関係数を算出する.
実験結果と考察 各項目と着目度の相関係数(-1~1)
実験3.着目度を用いたフィルタは有効に働くか実験3.着目度を用いたフィルタは有効に働くか • 実験2で算出した相関係数を基にフィルタを作成する. • 実験1で作成したレポートをキーにして再度関連検索を行う. • 実験1の結果と比較する
実験結果と考察 参考文献URL表示順位(位) フィルタ使用時の参考文献URL表示順位(位)
有用性検証のまとめ • 関連度 実験1.関連検索は有効に働くか →適切に動作 • 着目度 実験2.利用したユーザ動作は適切だったか →特定のユーザ動作は利用可能 実験3.着目度を用いたフィルタは有効に働くか →今回は効果があった
パフォーマンス評価 • データ保存量が増えたときにどうやって対策をするか考察する 測定環境
測定結果 時間(msec) 保存URL数(個)
考察 • アンケートの結果2.8sec以上検索に時間がかかると半分以上の人がストレスを感じる 先ほどの図から検索対象 URLを1000個以内にする 必要がある. • 1日のWebページ参照平均は47.6ページ →20日間隔でアーカイブ
今後の展望 • 状況によるフィルタの付け替え • blogを読んでいるときの動作からフィルタを作成 →blogを検索するときに利用 • ニュースを読んでいるときの動作からフィルタを作成 →ニュースサイトを検索するときに利用
今後の展望 • データクラスタリング • ex.アクセス回数が多いが一回あたりの参照時間が短いページ • 情報共有化 • 他人と関連度,着目度の共用
まとめ • ユーザ動作を基にデータ間関連度とデータの着目度算出を自動で行うミドルウェアDMemFinderを構築し,評価を行った