190 likes | 285 Views
コンテンツを意識する ウェブキャッシュ. 成 凱、 上林弥彦 京都大学大学院 情報学研究科 社会情報学専攻 DBWeb2000 合同シンポジウム (12月06日~08日・東京). 発表内容. 背 景 ウェブキャッシュとその特徴 従来のウェブキャッシュ手法の欠点 セメンチックスよりアクセス傾向の推定 コンテンツを意識するウェブキャッシュ コンテンツを意識する置換手法 LRU-SP+ 実験結果とディスカッション. 背 景. アクセススピード :ウェブユーザの最も気になる要素( GUV インターネットユーザ調査・98)
E N D
コンテンツを意識する ウェブキャッシュ 成 凱、 上林弥彦 京都大学大学院 情報学研究科 社会情報学専攻 DBWeb2000合同シンポジウム (12月06日~08日・東京)
発表内容 • 背 景 • ウェブキャッシュとその特徴 • 従来のウェブキャッシュ手法の欠点 • セメンチックスよりアクセス傾向の推定 • コンテンツを意識するウェブキャッシュ • コンテンツを意識する置換手法LRU-SP+ • 実験結果とディスカッション (C)上林研究室
背 景 • アクセススピード:ウェブユーザの最も気になる要素(GUVインターネットユーザ調査・98) • Scalability対策→キャッシュ必要不可欠 • インターネット・トラフィック:ウェブは75%あまり • かつ半年ぐらい倍になる • しかしネットワーク帯域幅:僅か年に50%増加 サーバ能力、ネットワーク帯域幅増加だけではいけなくて 冗長データ技術(キャッシュなど)は必要不可欠 (C)上林研究室
ウェブキャッシュとは • ウェブアクセスを効率化するミッドルウェア • よくアクセスされるものをキャッシュに格納 • 三種類: WWW 繰り返し 再利用 • プロキシ・キャッシュ • サーバ逆キャッシュ • ブラウザ・キャッシュ 複数ユーザ 共 有 (C)上林研究室
1 2 キャッシュに関する問題 • 置換手法→ヒット率(Hit Rate)もっと高める • 一致性維持→コンテンツの新鮮さ • コンテンツ管理→キャッシュコンテンツを共有情報源として積極的利用 • 法的・倫理的・経済的な問題 • 著作権 • プライバシー • ウェブ広告ヒット数 (C)上林研究室
ウェブキャッシュの特徴 (C)上林研究室
観測時間が必要 従来のウェブキャッシュ手法の欠点 • 利用履歴だけに基づくキャッシュ置換手法 • アクセス頻度→60%一度しかアクセスしてない→判断できず • アクセス時間 キャッシュ空間 新入者 被観測者 置換該当者 アクセス履歴データなしでも測定できる方法は?? (C)上林研究室
提案:コンテンツを意識するキャッシュ Request/Response (Hits/Misses) ④人気内容をユーザに推薦など ① 情報要求解析 どんな内容が欲しいか? ②新規内容測定 ③キャッシュ置換 (C)上林研究室
ユーザ・興味 新しいキャッシュ構造 子キャッシュ 制約条件 制御部 CKBルール ストレージ ロード ブラウジング 索 引 WWW 質問 サーチ (C)上林研究室
ユーザ情報要求(Needs)解析 1.Most Frequently Queried 2. Most Frequently Appeared W1 = 0.7 W2 = 0.3 (C)上林研究室
セメンチックスよりアクセス傾向の推定 Document 内容による人気度 (類似度計算)) (C)上林研究室
セメンチックスを利用する利点 情報要求 • 内容による人気度推定 • 観察時間短縮 • 時空効率 高い キャッシュ空間 人気内容 置換該当者 空いている 非人気内容 (C)上林研究室
従来のウェブキャッシュ手法 (C)上林研究室
コンテンツを意識するLRU-SP+ • LRU-SP(Size-adjusted and Popularity-aware LRU, K. Cheng et al Compsac’00) • LRU-SP+ (Content-Sensitive LRU-SP) 利益 小さいものをキャッシングしない RF:引用頻度; アクセス最近度 小さいものをキャッシングしない 利益 (C)上林研究室
LRU-SP+の実装について ③. 最終決置換 2.5KB 一番小さい 5KB 2.5KB ②.置換候補 時間的に最も長く 引用されてないもの 5KB 2.5KB Hit 2.4KB/2 4KB/2 5.2KB 5.2KB/2 5.02KB ①.オブジェクト分類 (C)上林研究室
実験設計 • 実験内容の選択 • コンテンツによる人気度測定は正確か?(実験中) • コンテンツの人気度=長期的人気度?(実験中) • 長期的人気度を用いてキャッシュ効率高める? • 実験モデル: “コンテンツ人気度“=1+ ドキュメントAのアクセス回数 実験データでのすべてのアクセス記録数 (C)上林研究室
実験結果: Hit Rates (C)上林研究室
実験結果: Byte Hit Rates (C)上林研究室
終わりに • ウェブの人間向き、ドキュメントベースの特徴を生かし、キャッシュ(データ!)とキャッシュの使い道(情報!)を再び検討すべき • コンテンツを積極的に利用しキャッシュ効率を高める方法は提案した。 • 実験的検証について • コンテンツもワークロードもあるBenchmarkはない → シミュレーション的検証は困難 • 実験内容を分けて、段階的にやる必要がある (C)上林研究室