1 / 1

相関ルール マイニング

能動的リソースマイニングに基づく 異種情報統合基盤の研究. 情報源. 比率規則 集合. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報統合による 新たな価値の創造. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 情報源. 最適 サポート / 確信度 区間の 抽出. 類似した 比率規則をクラスタリング. 候補 パラメータ を絞り込む. ×. ×. Y. X. I. did. pexp. pre. post. type.

ivi
Download Presentation

相関ルール マイニング

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 能動的リソースマイニングに基づく異種情報統合基盤の研究能動的リソースマイニングに基づく異種情報統合基盤の研究 情報源 比率規則 集合 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報統合による新たな価値の創造 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 情報源 最適サポート/確信度区間の抽出 類似した比率規則をクラスタリング 候補パラメータを絞り込む × × Y X I did pexp pre post type value 1 /sales 1 74 E 1 /sales/area/kanto/tsukuba/b 5 14 E 経路 アプローチ 1 /sales/area/kansai/osaka/b 39 48 E 1 /sales/area/kansai/osaka/b 49 58 E 1 /sales/area/kansai/kyoto/b 61 70 E 1 /sales/area/kansai/kyoto/b/t 63 64 T F 2 /bookinfo 1 72 E 2 /bookinfo/c 2 35 E 2 /bookinfo/c/c/b/p 10 11 T 1000 2 /bookinfo/c/c/b/p 44 45 T 2000 2 /bookinfo/c/c/b/p 66 67 T 3400 手法の概要 Web 2 /bookinfo/c/c/b/t 61 64 T F 2 SQL サーチエンジン XPath did pexp key did pexp key value 1 /sales/kansai/tsukuba/b A 2 /bookinfo/c/c/b/p A 1000 1.呼称候補の抽出 3.呼称候補の評価 フルネーム 1 /sales/kansai/tsukuba/b D 2 /bookinfo/c/c/b/p D 2000 1 /sales/kansai/tsukuba/b C 2 /bookinfo/c/c/b/p C 8000 “呼称候補”ことフルネーム “prefix” ”呼称候補” 1 /sales/kanto/osaka/b C 2 /bookinfo/c/c/b/p C 8000 1 /sales/kanto/osaka/b B 2 /bookinfo/c/c/b/p B 3000 ”呼称候補” ”suffix” 関連オブジェクト名 1 /sales/kanto/kyoto/b F 2 /bookinfo/c/c/b/p F 3400 2.隣接パターンの抽出 1 2 呼称集合 “prefix”フルネーム”suffix” マイニング モジュール 相関ルール マイニング クラスタリング 提案手法  クラスタの主題に最も近い文書  クラスタの主題に関する文書  クラスタの主題とやや異なる内容を含む文書  特定のクラスタに属しない文書 文書 知識発見 アウトライア データ クリーニング クラスタ クラスタ Web ・全文書をいずれかのクラスタに割当 ・クラスタ割り当ての情報のみ ・主要な話題に関するクラスタのみを抽出 ・話題間の関係,クラスタの中心的な話題と各文書の関係等を抽出 研究代表者: 北川博之(筑波大学)  分担者: 天笠俊之, 森嶋厚行(筑波大学) 石川佳治(名古屋大学) 主要研究テーマ リソースマイニングに基づくアプローチ → 知識発見と情報統合の融合 マイニングのための要素技術に 関する研究 マイニングと 情報統合に関わる応用研究 能動性 拡張性 分散環境への適応 能動的統合基盤 • 比率規則マイニング • XMLデータに対するOLAP • 連続的クラスタリング • 同一オブジェクト(人物)の同定 • 話題構造マイニング • 移動体統計情報抽出 • DBと連携した文書情報源からの情報抽出 • Web連続的モニタリングによるページ移動先探索 リソース マイニング リソース マイニング リソース マイニング 能動的情報統合のための基盤システムの研究開発 • 情報爆発の時代を迎え,情報統合の重要性は増加 • しかし,一方で情報統合はますます困難に… • 情報源の数と規模 • 情報源の異種性 • 情報源の動的変化,動的情報源 情報源 情報源 … 情報源 ・統合対象の発見:情報源マイニング ・動的変化:連続的マイニング ・様々な情報源:異種データマイニング ・複数情報源:クロスリソースマイニング → 情報源統合の高度化 • 拡張性を有する能動的情報統合基盤システム Webからの人物の呼称抽出 比率規則マイニングに関する研究 • 背景 • Webからのオブジェクトに関する動的/非公式な情報抽出に対する需要 (掲示板やWeblogからの商品レビュー、評判情報抽出) • 口コミ的な性質の強いWeb情報源では、1つのオブジェクトが様々な呼び方で参照される • Webから人物に関する非公式な呼び名(呼称)を抽出する • 応用例:ある人物に関する口コミ・最近の話題を掲載したblog記事を発見する • データ中の比率規則の抽出 • サポートと確信度の概念を導入 • 複数の線形関係が混在したり,一部分でのみ線形関係が成り立つ場合でも抽出可能 • 本研究における比率規則 • 線分とその近傍で比率規則を表現 • 比率規則に従うタプルの割合を用いてサポートと確信度を定義 • サポート:タプル全体に対する割合 • 確信度:区間Iのタプル中,比率規則に従うものの割合 • サポート・確信度を最大とする最適比率規則を抽出 提案手法の概略 入力 データ 実験結果 • 小泉純一郎 パラメータ ポチ・純ちゃん・ライオンハートetc. • 荒川静香 実験結果(ワインデータベース) イナバウアー・クールビューティーetc. 2種類の線形関係を個別に捉えている • 松井秀喜 ゴジラ・ゴジラ松井etc. 比率規則 • 坂本龍一 教授etc. 話題構造マイニング XML-OLAP XMLデータの多次元分析 • 文書集合から、主要な話題の抽出や特定の話題にアクセスしたいというニーズの高まり • サーチエンジンの検索結果 • RSSリーダで取得した最新ニュース群 • 従来の解決法 • クラスタリングの利用・・・以下のような問題点が挙げられる • 実データには,全文書がいずれかのクラスタに属するというクラスタリングの前提が当てはまらない • クラスタへの割り当て情報以外に得られる情報がない ⇒ 上記のニーズに即した話題構造マイニングの提案 • XMLデータ上での複雑な分析処理の必要性 ●多次元分析,意思決定支援,etc. • 現状 ●XPath, XQueryによる問合せ処理が中心 ●XQueryには “GROUP BY” が存在しない • XMLデータの多次元分析XML-OLAPの研究・開発 • 研究課題 ●XMLデータ上の多次元キューブの形式的定義 • 多様な概念階層のサポート -値ベースの概念階層とXMLの階層構造の組合せ • 複雑かつ多様なグルーピング操作 • 非数値属性の取り扱い -(構造化)テキストデータ ●大規模リポジトリへの適用 XML World Relational World 提案手法を文書集合の可視化に利用した例 Fact Path: pf: doc(“sales.xml”)//b Dimension Path: pd: doc(“bookinfo.xml”)//b[t=pf/t]/p Core Node of topic “AUM-MATSUMOTO-SARIN” Core Node of topic “AUM-LYNCH” Shared node Supplemental Nodes of topic “AUM-LYNCH” 能動性をもつ情報統合基盤システム Web連続的モニタリングによるページ移動先探索 • ストリーム等を含めた情報統合基盤:StreamSpinner • データ到着やタイマーに連動し,イベント駆動で能動的に各種統合処理を実行 • 外部関数呼び出し機構やアプリケーション記述のためのJava APIによる拡張性 Webコンテンツ一貫性維持のためのページ移動先探索に関する研究 移動先発見システム 監視 (3)発見 • Webページの移動により生じるリンク切れの問題に着目 • ロボットによりWebページ群を監視し,リンク切れを発見したときにWebページの移動先を探索  (2)リンク切れ アプリケーション プログラム 情報統合基盤 システム 監視対象Webページ群 (1)移動 問合せ要求記述 問合せ結果 “ありそうな場所”に着目した探索 問合せ解析器 外部関数 呼び出し機構 API 12万リンクを対象とした実験結果 • ページの位置関係 • リンクオーソリティの利用 • 他ページの移動情報の利用 大学Aの 研究室一覧 イベント通知 Web ページ Web ページ メディエータ 4倍の差 ラッパー ラッパー ラッパー ラッパー ラッパー ラッパー 更新 RDBMS 大学Aの 研究室 XMLDB 大学Aの 研究室 移動 インデックスサーバ WISHシステム センサー,タグ カメラ メール Google, Yahoo!, MSN全てを利用

More Related