「ことわけ Web 」内部仕様書

「ことわけWeb」内部仕様書 平成１９年５月19日　第3版東京大学理学部生物化学図書室前田　朗

コンテンツ • システム構成 • システム構成と、個々について簡単に説明 • 基本データ型 • 各モジュール間でのデータの受け渡しに使う仕様をまとめたもの。 • モジュール化する部分 • URIの設計

第１章．システム構成 TermExtact ほかPerl モジュールＣａｔａｌｙｓｔ（Ｐｅｒｌベースの Webフレームワーク） MySQL （RDB) 茶筅オリジナル Perlコード Algorithm:: Cluster Template Toolkit によるHTML雛形インターフェイス Cプログラム連想検索エンジン GETA Lighttpd (with FastCGI) 赤のブロックが要作成のコード緑もSQLでＤＢを要構築

Lighttpd • Ａｐａｃｈｅより軽量（高速）なWebサーバプログラム • FastCGIとの組み合わせで高速レスポンスを目指す

Catalyst • PerlベースのWebフレームワーク • MVCモデル(Model, View, Controller の分割）によるWebアプリケーションが作成可能 • Perl版”Ruby on Rails”ともいわれる • MVCモデルの実装(ModelとViewは選択可能) • Model --- MySQL • Vew ----- TempleteToolkit • Controller -- Perl

MySQL • オープンソースのリレーショナルデータベース • バージョン　5 を使用 • UNIXユーザ mysql で動作させる • MySQLユーザ termcluster • データベースtermcluster • テーブルは3種（詳細は別紙） • プロジェクト・テーブル (Project) • 文書テーブル (Document) • クラスタ・テーブル(Cluster)

TermExtact • 「言選Web」のコアである専門用語自動抽出Perlモジュール • 「茶筅」（形態素解析器）と連携して専門用語抽出を使う • 重要度のオプションに、TF(Term Frequency)を使う

GETA • ＮＩＩが開発した、連想検索エンジン。クラスタリング用のC言語ライブラリ(libcs)も付属しており、これを使う。 • 第２版のGETAを使う（第３版はインストールが難しい） • ＧＥＴＡのユーザプログラムは、C言語で自作する必要あり

Algorithm::Cluster • C言語のクラスタリングライブラリ”Cluster 3.0”のPerlインターフェイス • GETAでは実装していない、K-means法やSOM(自己組織化マップ）が作成できる • 単語文書行列をPerlの２次元配列の形で用意する必要がある • ＧＥＴＡと違い、TF*IDFの処理を自分でコーディングする必要あり。

第２章．基本データ型 • MySQLのデータベーススキーマ • プロジェクトテーブルと文書テーブル • 文書中の用語と頻度(TF)のリスト • クラスタリング結果

クラス図 プロジェクト文書プロジェクトＩＤ文書名テキスト本文用語リストプロジェクトID プロジェクト名パスワードメールアドレス氏名所属クラスタリング結果パラメータコメント１ 0..* 用語リストからクラスタリング結果を求めるクラスタ１ 0..* プロジェクトＩＤクラスタNo 用語リスト各プロジェクトのクラスタリング結果を収める [脚注] 　クラスは、RDBのテーブルにて表現

Project （プロジェクト）テーブル 「作成日時」でインデックス作成（ソートに使用）

Document （文書）テーブル 「プロジェクトID」+「文書名」の組をユニークキーにする

Cluster（クラスタ）テーブル 「プロジェクトID」+「クラスタNo」の組をユニークキーにする

文書中の用語と頻度(TF)のリスト（基本データ型　２）文書中の用語と頻度(TF)のリスト（基本データ型　２） • JSON（JavaScript Object Notation）を使い、言語に依存しない形（RFC 4627）でＤＢに格納する • 用語と頻度のハッシュ（連想配列）をシリアライズ（直列化）

クラスタリング結果（基本データ型　３） • ただの配列データだが、JSONを使い、言語に依存しない形でＤＢに格納する

潜在的意味解析 • 当面実装しない • PerlモジュールPDFを用いて、潜在的意味解析に必要な固有値解析(LSA)を行えるとことまでは調査すみ

URIベース設計

「ことわけ Web 」 内部仕様書