300 likes | 409 Views
リサーチ・ナビ検索システムの技術. 東京大学情報基盤センター 学術情報研究部門 助教 清田 陽司. リサーチ・ナビ検索システムの ポイント. 「テーマグラフ」の表示 件名標目表 (NDLSH) と Wikipedia のマッシュアップ タブデザインの採用 用途に応じて表示内容を自由に切り替え さまざまな情報資源を統合して検索 PORTA をはじめとする多くの情報資源にアクセス レスポンスの向上 検索結果が 得られたコンテンツから順次表示. 情報探しのニーズ. Web サーチエンジン で探せる質問=事実を問う質問 関東大震災はいつ発生しましたか?
E N D
リサーチ・ナビ検索システムの技術 東京大学情報基盤センター 学術情報研究部門 助教 清田 陽司
リサーチ・ナビ検索システムのポイント • 「テーマグラフ」の表示 • 件名標目表(NDLSH)とWikipediaのマッシュアップ • タブデザインの採用 • 用途に応じて表示内容を自由に切り替え • さまざまな情報資源を統合して検索 • PORTAをはじめとする多くの情報資源にアクセス • レスポンスの向上 • 検索結果が得られたコンテンツから順次表示
情報探しのニーズ • Webサーチエンジンで探せる質問=事実を問う質問 • 関東大震災はいつ発生しましたか? • ○○ってどんな病気? • 本当に探し手が知りたいこと • 大学の学生「関東大震災についてのレポートを書かなきゃいけなんだけど、いったいどんな資料から調べたらいいの?」 • 難病の患者「この病気について最先端の治療を行っている病院を探す方法は?」 情報の調べ方が曖昧な場合が多い →調べ方の推薦(レコメンデーション)が必要!
Agenda • なぜWikipediaを使うのか? • Wikipediaはどうやって作られているのか? • Wikipediaは信頼できるのか? • Wikipediaとどう向き合うべきか? • テーマグラフのしくみ • 検索したキーワードと件名をどう結びつけているのか? • システム開発上の工夫 • タブデザインの採用 • Web APIの活用 • レスポンスの向上 • 図書館がもつ知識の価値の今後は?
Wikipediaとは? • オンライン百科事典 • 専門家によるオンライン百科事典プロジェクト「Nupedia」を前身として2001年に発足 • 個人や団体の寄付により運営 • Wikipediaの特徴 • 誰もが編集に参加できる (資格制限なし) • ボランティアによる執筆・編集・運営 • Wikiシステム(ブラウザでWeb上のテキストを書き換えることができる) • 内容は自由に複製・配布・改変できる
Wikipediaの信頼性をめぐる議論 • WikipediaとEncyclopædia Britannicaの比較 • 2005年 Nature 「科学用語について比較したところ、Wikipediaの方が誤りが少なかった」 • Britannicaは反論 • 査読制度なし • 「間違いがあれば迅速に訂正できる仕組みを提供する」という考え方 • 引用文献として使えるか? • Wikipediaの創始者Jimmy Wales 「Wikipediaを原典として利用すべきではなく、あくまで出発点にすべき」
Wikipediaの秩序維持 誰でも編集できるが自由放任ではない • ガイドライン (5つの原則) • Wikipediaは百科事典 • 中立的な観点: 出典の明記 • 利用はフリー: どの個人も特定の項目を支配できない、著作権侵害の禁止 • 行動規範: 敬意、礼儀正しさ、冷静の維持 • 確固としたルールはない: ルールの精神の尊重 • ページ毎のノート (議論、合意形成の場) • 管理者によるコントロール • 保護、削除、投稿ブロック、管理者の選任・解任
調べ方推薦の要件 • カバレッジ • どんなキーワードに対しても何かをお薦めして欲しい • これができないと結局使ってもらえない • 組織化 • 「これを見た人はこんな情報も見ています」では不十分! • 分類ごとにお薦めすべき情報資源には定番が存在 • 信頼性 • 「ネットでググる」だけでは不十分! • 信頼できる情報資源が必要 Web 情報資源 Wikipedia 図書館 情報資源 Wikipediaを橋渡しとして、信頼できる情報資源をお薦めできないか?
Wikipediaの構造 価格 価格(かかく)とは、有形・無形の各種の商品(サービスを含む)の取引に際して提示される金額を言う。基本的には需要と供給のバランスによって決定される。一般には、値段(ねだん)とも呼ばれる。 … カテゴリ: [マーケティング][経済学][市場] 各記事にはカテゴリが付与されている • いわゆるフォークソノミーの特徴を有する • カテゴリにもカテゴリを付与できる(ゆるやかな階層構造) • 複数の上位概念を与えることができる(多重継承) 社会 社会科学 経済 労働 産業 ビジネススキル 商業 経営学 流通 マーケティング 経済学 市場 価格
タクソノミーとフォークソノミー フォークソノミー • ボトムアップ的な分類 • 複数の上位概念 Web的な分類体系 タクソノミー • トップダウン的な分類 • ひとつの上位概念 図書館的な分類体系 電気化学 電池 再生可能 エネルギー 半導体 素子 磁気化学 電池 電離層 燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ
タクソノミー型構造 社会 社会科学 経済 労働 産業 ビジネススキル 商業 経営学 流通 マーケティング 経済学 市場 フォークソノミー型 構造 価格
リサーチ・ナビとWikipedia • Webと図書館をつなぐ中間的な情報資源としいて扱う • 調べものの出発点として位置づけ • Wikipediaの記事を最終的なゴールとはしない • Wikipediaへのリンクは「百科事典」タブ内に集約 • 表記揺れ辞書として利用 • 「線形代数学」と「線型代数学」
提案: Wikipediaと図書館分類体系の対応づけ 図書館の分類体系をWikipediaで拡張してみよう! • Wikipedia • Webの汎用的な情報資源としては最も組織化されている(Wikipediaカテゴリ) • Web上の他の情報資源との親和性をもつ • 図書館分類体系(件名標目表、書架分類法) • 人類が営々と積み重ねてきた知識体系 • 価値判断に必要な情報資源への有力なポインタ 両者を組み合わせて利用することによって、キーワードから探索テーマ(=件名)を自動導出する → 導出された件名に関連する情報資源を提示
技術(500) 自然科学(400) 社会科学(300) 地球科学(450) 建築学(520) 経済(330) 社会(360) 地震学(453) 建築構造(524) 経済史(332) 社会福祉(369) 経済史-日本 (332.1) 地震 災害 地震誌(453.2) 経済史-日本 -平成時代 (332.107) 地震災害 地震予知 耐震建築 経済史 災害 災害と防災の 歴史 日本の 経済史 地震 平成時代 地震の歴史 「地震防災の事典」(岡田恒男ほか, 2000年) 「日本被害地震総覧」(宇佐美龍夫, 2003年) 「経済学事典」(日本経済新聞社, 1996年) 図書館オントロジー (NDC, NDLSH) Wikipedia 震災がその後の 防災対策に 与えた影響 震災を引き起こした地震(1995年兵庫県 南部地震) 震災が日本経済に与えた影響 阪神・淡路大震災
Wikipedia 対応づけ→ 深い情報探索へ 情報探索の スタート地点 Web情報資源(サーチエンジン) フォークソノミー • 図書館 • 分類体系 • NDC • BSH 情報の専門性・信頼性 • 多様な情報資源 • 入門書 • レファレンスブック • 各種データベース • 学術雑誌論文 • 過去の文献・資料
テーマグラフの導出 • 入力したキーワードにマッチするWikipediaの記事を出発点として、カテゴリネットワークを芋づる式にたどる • 探索を発散させないための工夫 • NDLSHにたどりつかない経路はカットする • カテゴリ間の意味の類似度を考慮し、関連性の低い経路はカットする
カテゴリ 「電気化学」 スコア0.3 カテゴリ 「電池」 スコア0.7 項目 「燃料電池」 スコア1.0 カテゴリ 「電子部品」 スコア0.3 カテゴリ 「自動車工学」 スコア0.4 カテゴリ 「自動車」 スコア0.35 カテゴリ 「節予定」? スコア0.4 カテゴリ 「予定」? スコア0.3 ?
性能向上には 電子工学、材料工学、化学などの分野にまたがった知見が必要? 環境問題解決の切り札として注目されている? 燃料電池の普及がCO2の削減にもたらす効果は? 将来の企業経営に与えるインパクトは? 燃料電池の普及が生態系にもたらす影響は? 燃料電池が一般家庭に普及した場合、電力網の安定性にどのような影響があるか? エネルギー政策の立案においてどのような位置づけがなされているか? 膨大な研究開発費は自動車メーカーから投入されている?
検索システムの画面デザイン • リサーチ・ナビCMS (Movable Type)と共通のデザイン • 利用者は両者の違いを意識せず使える • タブデザインの採用 • 画面領域の制約の緩和 • 利用者の目的に応じて振り分け • 「すべて」タブ内でのサマリ表示 • コンテンツの俯瞰が可能 • 「検索履歴」リストボックス • いつでも立ち戻って調べることができる
検索キーワードの入力ボックス (4) 検索履歴 リストボックス (2) 表示内容切り替えタブ 各々のタブ内のコンテンツの サマリー (3) 検索結果表示エリア
調べ方案内 レファレンス共同DB
NDL OPAC 雑誌記事索引 近代デジタルライブラリー 参考図書紹介 目次データベースなど
テーマグラフに含まれる件名標目 日本十進分類法(NDC) 関連標目
関連キーワードの タグクラウド
様々な情報資源への統合アクセス • NDL PORTA API • 「調べ方ガイド」「国立国会図書館にある本」 • リサーチ・ナビ内部の検索インデックス • リサーチ・ナビCMSに搭載されたコンテンツ • Wikipedia全文データ • 関連キーワード抽出 • Wikipediaから生成した文書=単語マトリックス • テーマグラフ導出エンジン cf. 書籍販売WebサイトのAPI クリアすべき課題はあるが意義は大きい
ハイパー リンク 検索 キーワード 入力ボックス 検索履歴 リスト ボックス ユーザ インタ フェース (Web ブラウザ) 「すべて」 タブ 検索 コント ローラ 「キーワード」 タブ 「百科事典」 タブ 「調べ方」 タブ 「本・サイト」 タブ テーマグラフRPC 関連KW RPC 百科事典 RPC 調べ方ガイドRPC NDL目次検索RPC レファレンス事例RPC NDL書籍検索RPC 書籍販売サイトRPC 分類導出RPC 関連KW 抽出 エンジン 分類自動導出 エンジン Lucene検索エンジン バック エンド サーバ KW マトリックス インデックス インデックス インデックス 分類体系 DB 分類体系DB生成 マトリックス生成 Luceneインデクサ PORTA API 書籍販売サイトAPI Wikipedia NDLSH リサーチ・ナビCMS
レスポンスの向上 情報資源の中には検索時間がかかるものもある → システム全体への影響を最小限に抑える必要 AJAX技術による実装 • システムロジックの大部分をブラウザ側で実行 • サーバ側の処理負担軽減 • 非同期呼び出し • 結果が得られたコンテンツから順次表示
まとめ • Wikipediaと図書館分類体系の統合利用によって、パスファインダーに近い「情報探索のヒント提示」を可能とした • 情報探索の多様な「切り口」の提示 • 信頼性のある情報資源への誘導 • 「図書館かWebか」という二項対立ではなく、両者の役割を踏まえた見方が大事 • 図書館: 信頼性、組織化 • Web: どんなキーワードからでも探せる
図書館の知識の価値 • Webサーチエンジンの普及に大きな影響を受けている • 図書館の最大の価値=情報資源の多様性 • 利用者へのプレゼンテーションが非常に重要 • ランキングではない見せ方 • 探すプロセスを楽しんでもらう工夫 • 個人の知識欲と図書館の体系をどうつなぐ? • 「自分なりの本棚を作る」お手伝いができれば幸いです