Robert Baumgartner, Nicola Henze+, and Marcus Herzog

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology +ISI - Semantic Web Group, University of Hannover 2005/10/6 松岡有希＠総研大

概要 • いかにパーソナライズ化したコンテンツ収集をセマンティックwebで実現できるか • 分散している non-uniform Web data をSemantic Web data へ • Personal Reader Framework • Web content Readers を可能にするためのフレームワーク • 複数のサービスコンポーネントから成るオープンアーキテクチャ • Personal Publication Reader • Personal Reader Framework を利用 • ユーザに適したWeb上の論文情報を収集・表示 • Webからの情報抽出 • 実時間で、動的に • パーソナライズ化 • オントロジを利用

Motivation • シナリオ • ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会HPに論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。 • 質問 • メンバーページのメンテナンス作業を軽減したり、データの重複は避けることはできないのか？ • プロジェクト上で役に立つ文脈情報を利用できないのか？ • Webページから関連する情報を抽出できないのか？ • ユーザがほしい情報を集めることはできないのか？

The Personal Reader Framework • The Personal Web Content Readersを実現 • ユーザが興味を持つwebコンテンツへのアクセス(the Personal part)と表示(the Reader part) • アーキテクチャ • さまざまなvisualization, personalizationサービスから構成 • XML, RDF, JSP, XML-based-RPC • ユーザに適したサービスを選ぶことができる（Plug & Play）

Personal Publication Reader • REWERSE プロジェクトのメンバーのwebサイトから論文情報を取得・表示 • 処理内容 • Webから論文に関する部分を抽出・統合 • Lixto Visual Wrapper, Lixto Transformation Server • オントロジに基づいて推論し、情報をメタデータ化 • ユーザに適した論文データの表示 • visualization, personalizationサービス • 対象ドメイン • REWERSE – Reasoning on the Web (http://rewerse.net/) • EUの支援を受けている • 現メンバーは130人ほど

Web Data Extraction and Integration • Lixto Visual Wrapper • 可視化、インタラクティブといった特徴を持つ、ラッパー*を生成するためのツール • データを抽出している間にさらにドキュメントに対して処理が可能 • ユーザー定義がページの上でもはや満たされない場合、警告される *自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプログラム

Web Data Extraction and Integration • Lixto Transformation Server • いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信 • 他のWebサービスによって制御･カスタマイズできる • ユーザが統合するコンテンツを決めることができる

Publication Data on the Web

Gathering Web Data • Lixto Visual Wrapper を使ってデータを抽出 • Munichさんの例 • Titleはイタリック文字で書かれている • Authorはハイパーリンクで表示されていて、titleの前にある • Linkoppoingさんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも • いろんな種類のフィルターを用意する • Yearは、年ごとの各ページの1行目にある • ラッパーは下記のようなXMLデータを生成

Visual Data Aggregation • Lixto Transformation serverがデータを収集し、RDFに変換し、1週間に1回Personal Publication Reader に配信 • 足りない情報を追加することができる • 例）www.researchindex.comからアブストラクトのデータを貰ってくる

Modeling Domain Knowledge • 論文データから抜粋した情報とREWERSE-Ontologyをマッピング • Semantic Web Research Community Ontology (SWRC) を拡張したもの • “helper” ontology • 著者のフルネームを記述 • F. Bry, Franqis Bry, Prof. F. Bry

REWERSE-Ontology

Content Syndication and Personalized Views • Personalization はリクエストとルールの結果がマッチするときに実現 • ルールはTRIPLE syntax を採用 • 例）“interest in personalized information systems” • ルールを扱うのは、Personalization server

Screenshot of the Personal Publication Reader

まとめ • The Personal Publication Reader • Semantic Web でパーソナライズな情報システムを実現

Robert Baumgartner, Nicola Henze+, and Marcus Herzog