1 / 15

Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web. Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology

celine
Download Presentation

Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology +ISI - Semantic Web Group, University of Hannover 2005/10/6 松岡有希@総研大

  2. 概要 • いかにパーソナライズ化したコンテンツ収集をセマンティックwebで実現できるか • 分散している non-uniform Web data をSemantic Web data へ • Personal Reader Framework • Web content Readers を可能にするためのフレームワーク • 複数のサービスコンポーネントから成るオープンアーキテクチャ • Personal Publication Reader • Personal Reader Framework を利用 • ユーザに適したWeb上の論文情報を収集・表示 • Webからの情報抽出 • 実時間で、動的に • パーソナライズ化 • オントロジを利用

  3. Motivation • シナリオ • ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会HPに論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。 • 質問 • メンバーページのメンテナンス作業を軽減したり、データの重複は避けることはできないのか? • プロジェクト上で役に立つ文脈情報を利用できないのか? • Webページから関連する情報を抽出できないのか? • ユーザがほしい情報を集めることはできないのか?

  4. The Personal Reader Framework • The Personal Web Content Readersを実現 • ユーザが興味を持つwebコンテンツへのアクセス(the Personal part)と表示(the Reader part) • アーキテクチャ • さまざまなvisualization, personalizationサービスから構成 • XML, RDF, JSP, XML-based-RPC • ユーザに適したサービスを選ぶことができる(Plug & Play)

  5. Personal Publication Reader • REWERSE プロジェクトのメンバーのwebサイトから論文情報を取得・表示 • 処理内容 • Webから論文に関する部分を抽出・統合 • Lixto Visual Wrapper, Lixto Transformation Server • オントロジに基づいて推論し、情報をメタデータ化 • ユーザに適した論文データの表示 • visualization, personalizationサービス • 対象ドメイン • REWERSE – Reasoning on the Web (http://rewerse.net/) • EUの支援を受けている • 現メンバーは130人ほど

  6. Web Data Extraction and Integration • Lixto Visual Wrapper • 可視化、インタラクティブといった特徴を持つ、ラッパー*を生成するためのツール • データを抽出している間にさらにドキュメントに対して処理が可能 • ユーザー定義がページの上でもはや満たされない場合、警告される *自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプログラム

  7. Web Data Extraction and Integration • Lixto Transformation Server • いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信 • 他のWebサービスによって制御・カスタマイズできる • ユーザが統合するコンテンツを決めることができる

  8. Publication Data on the Web

  9. Gathering Web Data • Lixto Visual Wrapper を使ってデータを抽出 • Munichさんの例 • Titleはイタリック文字で書かれている • Authorはハイパーリンクで表示されていて、titleの前にある • Linkoppoingさんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも • いろんな種類のフィルターを用意する • Yearは、年ごとの各ページの1行目にある • ラッパーは下記のようなXMLデータを生成

  10. Visual Data Aggregation • Lixto Transformation serverがデータを収集し、RDFに変換し、1週間に1回Personal Publication Reader に配信 • 足りない情報を追加することができる • 例)www.researchindex.comからアブストラクトのデータを貰ってくる

  11. Modeling Domain Knowledge • 論文データから抜粋した情報とREWERSE-Ontologyをマッピング • Semantic Web Research Community Ontology (SWRC) を拡張したもの • “helper” ontology • 著者のフルネームを記述 • F. Bry, Franqis Bry, Prof. F. Bry

  12. REWERSE-Ontology

  13. Content Syndication and Personalized Views • Personalization はリクエストとルールの結果がマッチするときに実現 • ルールはTRIPLE syntax を採用 • 例)“interest in personalized information systems” • ルールを扱うのは、Personalization server

  14. Screenshot of the Personal Publication Reader

  15. まとめ • The Personal Publication Reader • Semantic Web でパーソナライズな情報システムを実現

More Related