340 likes | 477 Views
第 2 回国際ワークショップ“ NLPXML-2002” の概要と NLP, Semantic Web の融合に向けての展開. 中挾知延子(東洋大学) 野村直之(法政大学) 浦本直彦( IBM, 国立情報学研究所) Key-Sun Choi ( KAIST, NHK 技研). 発表の流れ. イントロ: NLPXML-2002 セッション 1 : Tools & Corpora セッション 2 : Document Generation セッション 3 : Discourse,Dialog & Speech セッション 4 : Semantic Web
E N D
第2回国際ワークショップ“NLPXML-2002”の概要とNLP, Semantic Web の融合に向けての展開 中挾知延子(東洋大学) 野村直之(法政大学) 浦本直彦(IBM, 国立情報学研究所) Key-Sun Choi(KAIST, NHK技研) 情報処理学会デジタルドキュメント研究会大阪
発表の流れ • イントロ:NLPXML-2002 • セッション1:Tools & Corpora • セッション2:Document Generation • セッション3:Discourse,Dialog & Speech • セッション4:Semantic Web • NLPXML-2003に向けて 情報処理学会デジタルドキュメント研究会大阪
“NLPXML-2002” • 第1回:”1st NLP & XML WS” 於:東京 http://hal2001.itakura.toyo.ac.jp/~chiekon/nlpxml/ • 第2回:Coling2002のポストワークショップとして台北で開催Chair:Dr. Graham Wilcock(Helsinki大学) http://www.ling.helsinki.fi/~gwilcock/NLPXML/ 情報処理学会デジタルドキュメント研究会大阪
ワークショップの目的=XMLとNLPのシナジー効果ワークショップの目的=XMLとNLPのシナジー効果 • XML for NLP(自然言語処理のためのXML技術) • 高機能なフリーのXML処理系により,NLPシステムの設計から実装までの高速プロトタイピングを実現 • 統一的な中間データ形式,コーパス記述言語としての役割 • NLP for XML(XMLのための自然言語処理) • 多義語の処理,制約の解決,一貫性の保持,シソーラス開発など • XMLドキュメントの自動生成,メタデータ,オントロジの(半)自動メンテナンスなど産業界から期待されている機能の実現にNLPを適用 情報処理学会デジタルドキュメント研究会大阪
セッション1:Tools & Corpora • XML for NLP • コーパスにおけるアノテーションの共有と再利用 • アノテーションスキーマの提案 • NLP for XML • XMLドキュメント変換処理に用いる文法ルールなどのNLPツールの標準化の提案 情報処理学会デジタルドキュメント研究会大阪
医学分野の専門知識であるOHSUMEDコーパスを浅いレベル(e.g.形態素解析)から深いレベル(e.g.意味解析)まで処理するためにアノテーションをしてXML化医学分野の専門知識であるOHSUMEDコーパスを浅いレベル(e.g.形態素解析)から深いレベル(e.g.意味解析)まで処理するためにアノテーションをしてXML化 <RECORD> <ID>395</ID> <MEDLINE-ID>87052477</MEDLINE-ID> <SOURCE>Clin Pediatr (Phila) 8703; 25(12):617-9 </SOURCE> <MESH> Adolescence; Alcoholic Intoxication/BL/*EP; Blood Glucose/AN; Canada; Child; Child, Preschool; Electrolytes/BL; Female; Human; Hypoglycemia/ET; Infant; Male; Retrospective Studies. </MESH> <TITLE>Ethyl alcohol ingestion in children. A 15-year review.</TITLE> <PTYPE>JOURNAL ARTICLE.</PTYPE> <ABSTRACT> <SENT><WP=’DT’>A</W><W P=’JJ’>retrospective</W> <W P=’NN’ LM=’study’>study</W><W P=’VBD’ LM=’be’>was</W> <W P=’VBN’ LM=’conduct’>conducted</W><WP=’IN’>by</W><WP=’NN’ LM=’chart’>chart</W> <W P=’NNS’ LM=’review’>reviews</W><W P=’IN’>of</W><WP=’CD’>27</W> <W P=’NNS’ LM=’patient’>patients</W><WP=’IN’>with</W><W P=’JJ’>documented</W> <W P=’NN’ LM=’ethanol’>ethanol</W><W P=’NN’ LM=’ingestion’>ingestion</W><WP=’.’>.</W> </SENT><SENT> : : : </SENT><SENT> : : : </SENT> </ABSTRACT> <AUTHOR>Leung AK.</AUTHOR> </RECORD> 1.XML-Based NLP Tools for Analysing and Annotating Medical LanguageC. Grover, et al.(Univ. of Edinburgh) A sample from the XML-marked-up OHSUMED Corpus 情報処理学会デジタルドキュメント研究会大阪
2.A Brief Introduction to the Gem Annotation Schema for Complex Document LayoutJ. Bateman, et al.(Univ. of Bremen) • マルチモーダルな文章レイアウトをXML化するためのGem(Genre & Multimodality)アノテーションスキーマの提案 • スキーマによるレイアウトタグ付きコーパスを活用した文章生成システム,レイアウト作成支援システムへの応用 情報処理学会デジタルドキュメント研究会大阪
<unit id="u-21.5">---------------</unit> <unit id="u-21.6" src="gannet.jpg" alt="gannet-photo"/> <unit id="u-21.7"> Huge (90cm) unmistakable seabird. </unit> <unit id="u-21.8"> Watch for white, cigar-shaped body and long straight, slender, black-tipped wings. </unit> <unit id="u-21.9"> In summer, yellow head of adult inconspicuous. </unit> <unit id="u-21.10"> Plunges spectacularly for fish.</unit> <unit id="u-21.11">Sexes similar.</unit> <layout-unit id="lay-flegg-text" xref="u-21.7 u-21.8 u-21.9 u-21.10u-21.11"> Huge (90cm) unmistakable seabird. Watch for white, cigar-shaped body and long straight, slender, black-tipped wings. In summer, yellow head of adult inconspicuous. Plunges spectacularly for fish. Sexes similar. </layout-unit> レイアウトをより大きなブロックへ抽象化 アブストラクション 情報処理学会デジタルドキュメント研究会大阪
レイアウトの階層化 <layout-root id="page-21"> <layout-leaf xref="header-21"/> <layout-chunk id="body-21"> <layout-leaf xref="lay-21.2"/> <layout-leaf xref="lay-21.3"/> </layout-chunk> <layout-leaf xref="page-no-21"/> </layout-root> 情報処理学会デジタルドキュメント研究会大阪
テキストコーパス処理のためのルールに基づいたXML変換システムCLaRKテキストコーパス処理のためのルールに基づいたXML変換システムCLaRK The feast is from 12.03.2002 to 15.03.2002. ↓ The feast is from Date to Date. 3.Cascaded Regular Grammars over XML DocumentsK. Simov, et al.(Linguistic Modelling Lab.) カスケード型正規文法に基づいて複雑な制約や並べ替えを伴うXML変換が実現 C→RC:語句のカテゴリ R:正規表現(エレメントノードの場合はXPath表記) Date -> ( (0,(1|2|3|4|5|6|7|8|9)) | ((1|2),(0|1|2|3|4|5|6|7|8|9)) | (3,(0|1)) ) ,., ((0,(1|2|3|4|5|6|7|8|9))|(1,(0|1|2))) ,., (((1|2|3|4|5|6|7|8|9), (0|1|2|3|4|5|6|7|8|9)*)) 情報処理学会デジタルドキュメント研究会大阪
正規文法の適用による文章のXML表現 <s> <w g="N">John</w> <w g="V">loves</w> <w g="N">Mary</w> <w g="Pron">who</w> <w g="V">is</w> <PP> <w g="P">in</w> <w g="N">love</w> </PP> <PP> <w g="P">with</w> <w g="N">Peter</w> </PP> </s> <s> John loves Mary who is in love with Peter </s> <s> <w g="N">John</w> <w g="V">loves</w> <w g="N">Mary</w> <w g="Pron">who</w> <w g="V">is</w> <w g="P">in</w> <w g="N">love</w> <w g="P">with</w> <w g="N">Peter</w> </s> PropositionalAttachment <PP>\w</PP> -> <"P"><"N#"> 情報処理学会デジタルドキュメント研究会大阪
セッション2:Document Generation • XSLTの文書生成への貢献-効率の良さと保守性の高さ • 多言語対応の文書フィルタ • XMLテンプレートからの文書自動生成 情報処理学会デジタルドキュメント研究会大阪
1.Cascading XSL Filters for Content Selection in Multilinguial Document GenerationG. Burrutieta, et al.(Mondragon Univ.) • RST(Rhetorical Structure Theory)に基づくユーザのニーズに応じた文書フィルタ • CSA(Content Selection Algorithm)によりフィルタリング,XSLで実装 • 英語,スペイン語,バスク語に対応 User Aspects XML-DTD Inputs Course Generator html-xml-dtdxsl-javascript Select content and format in an “intelligent” way Course Material(Multilingual ParallelCorpus) Generation engine Document Generation Web Browser Document View 情報処理学会デジタルドキュメント研究会大阪
<RST> <RST-S> <PREPARATION> <S> What is knowledge management? </S> </PREPARATION> </RST-S> <RST-N> <S> Knowledge, in a business context, is the organizational memory, which people know collectively and individually </S> <S> Management is the judicious use of means to accomplish an end </S> <S> Knowledge management is the combination of those concepts, KM = knowledge + management </S></RST-N></RST> <RST> <RST-S> <PREPARATION> <S> Zer da ezagutzaren kudeaketa? </S> </PREPARATION> </RST-S> <RST-N> <S> Kudeaketa, negozioetan, erakundearen memoria da, jendeak bakarka eta taldeka dakiena </S> <S> Kudeaketak erabideen erabilera zuzena du helburu </S> <S> Ezagutzaren kudeaketa bi kontzeptu hauen nahasketa da, EK = ezagutza + kudeaketa </S> </RST-N> </RST> Rhetorical Structure Theory 英語 バスク語 情報処理学会デジタルドキュメント研究会大阪
If level_expertise = “null” or level_expertise = “basic” Then no relation-satellite is discarded; If level_expertise = “medium” or level_expertise = “high” Then discard example, exercise, background and preparation relation-satellites; Content Selection Algorithm ユーザモデル 情報処理学会デジタルドキュメント研究会大阪
XtraGen – A Natural Language Generation System using XML & Java TechnologiesH. Stenzhorn (XtraMind Technologies GmbH) • XtraGenの文章生成メカニズムとそのXMLとJavaによる実装 • XMLテンプレートによる文章生成 • 形態素の扱い • 生成文のレベル分け <conditions> <or> <and> <condition type="equal"> <get path="/recall"/> <value>95</value> </condition> <condition type="less"> <get path="/accuracy"/> <value>90</value> </condition> </and> <not> <condition type="exist"> <get path="/exception"/> </condition> </not> </or></conditions> <template id="String" category="String"> <conditions> Condition*</conditions> <parameters> Parameter*</parameters> <actions> Action+</actions> <constraints> Constraint*</constraints> </template> 文章テンプレート 情報処理学会デジタルドキュメント研究会大阪
<template id="explainExpert" category="explain"> <parameters> <parameter name="level" value="expert"> <parameter name="verbosity" value="low"> </parameters> ... </template> generator.addParameter ("level","novice",0.75); generator.addParameter ("verbosity","low",0.5); 形態素の制約のためのXMLテンプレート ユーザレベルに応じた生成のためのXMLテンプレート <template ...> <actions> <select category="determiner" label="X0"/> <select category="noun" label="X1"/> </actions> <constraint> <place label="X0" attribute="number"/> <place label="X1" attribute="number"/> <get path="/categoryNumber"/> </constraint></template> 情報処理学会デジタルドキュメント研究会大阪
セッション3:Discourse, Dialog & Speech • マルチモーダリティを扱えるXMLでのアノテーションの活用 • 音声認識 • 談話生成 • SALT– VoiceXMLの次に来るもの? 情報処理学会デジタルドキュメント研究会大阪
XMLによる談話マーカ付き辞書DiMLexを用いてXSLによりHTMLへ変換し可読性を向上XMLによる談話マーカ付き辞書DiMLexを用いてXSLによりHTMLへ変換し可読性を向上 文章生成,文章理解システムへの応用が期待 We were in SoHo; {nevertheless | nonetheless | however | still | yet}, we found a cheap bar. We were in SoHo, but we found a cheap bar anyway. Despite the fact that we were in SoHo, we found a cheap bar. Notwithstanding the fact that we were in SoHo, we found a cheap bar. Although we were in SoHo, we found a cheap bar. 1.XML/XSL in the Dictionary: The Case of Discourse Markers D. Berger, et al.(Univ. of Potsdam) • 談話マーカ • 接続詞ならびに接続の働きをする語 情報処理学会デジタルドキュメント研究会大阪
2.XiSTS – XML in Speech Technology Systems M. Walsh, et al.(Univ. of College Dublin) • 音声認識のための3つのサブシステムにXMLを活用 • 音韻認識 LIPS • Network Generatorによる音素配列オートマトンの生成とXML記述 • 音声合成 REFLEX • シラブル辞書の生成 • 辞書エントリをXML化 • 辞書生成 T-REX • 異なる音韻特徴セットの記述をXMLで作成 情報処理学会デジタルドキュメント研究会大阪
LIPS • Network Generatorによる音素配列オートマトンの生成 • パージングされ候補の音素配列が決定 • XML化され(次のスライド参照),REFLEXへの入力となる 音素配列オートマトン alveolar ○ approximant approximant ○ voiceless voiceless ○ alveolar [S] [r] [S] [vowels] [n][m] fricative ○ palato palato ○ voiceless voiceless ○ fricative 情報処理学会デジタルドキュメント研究会大阪
音素配列オートマトンのXML表現 <phonotactic_automaton language=“english”> <arc position=“o1” voweltrans=“false” initial=“true” root_final=“false” suffix_final=“false” internal=“false”> <start_node>1</start_node> <end_node>2</end_node> <phonemes><phonemeSymbol>S</phonemeSymbol> <overlapConstraint> <ranking>3</ranking> <feature_info1><feature_name>fricative</feature_name></feature_info1> <feature_info2><feature_name>voiceless</feature_name></feature_info2> </overlapConstraint> <overlapConstraint> <ranking>2</ranking> <feature_info1><feature_name>palato</feature_name></feature_info1> <feature_info2><feature_name>voiceless</feature_name></feature_info2> </overlapConstraint> <overlapConstraint> <ranking>2</ranking> <feature_info1><feature_name>fricative</feature_name></feature_info1> <feature_info2><feature_name>palato</feature_name></feature_info2> </overlapConstraint> <typical_duration>50</typical_duration> <threshold>6</threshold> </phonemes></arc> </phonotactic_automaton> 情報処理学会デジタルドキュメント研究会大阪
<syllable> So:n <onset type=”first”> <segment phonation=”voiceless” manner=”fricative” place=”palato” duration=”null”>S</segment> </onset> <nucleus type=”first”> <segment phonation=”voices”manner=”vowellike” place=”back” height=”mid” roundness=”round” length=”tense”duration=”null”>o: </segment> </nucleus> <coda type=”first”> <segment phonation=”voiced” manner=”nasal” place=”apical” duration=”null”>n</segment> </coda> </syllable> REFLEX, T-REX • XML化された特徴ベースのシラブル辞書を生成(REFLEX) • 音素の特徴記述はユーザによってカスタマイズされ新たな辞書を生成(T-REX) 情報処理学会デジタルドキュメント研究会大阪
3.SALT: An XML Application for Web-based Multimodal Dialog Management K. Wang(Microsoft Research) • SALT(Speech Application Language Tags) • Web上での分散環境におけるマルチモーダルな対話処理システムのためのXMLベース言語 • プログラミング言語に依存せずHTML,XMLに対話処理のインタフェースとして埋め込み可能 • マルチモーダル • GUI環境において多様な方式でユーザが入力 • 音声入力,テキスト入力,マウスでのイベント通知など • Webページ単位での制御フロー • データと表示を切り離すことでのモジュール性の向上 • 対話の解釈にセマンティックオブジェクトを用いたOOモデルを採用 情報処理学会デジタルドキュメント研究会大阪
情報処理学会デジタルドキュメント研究会大阪情報処理学会デジタルドキュメント研究会大阪
プロンプトオブジェクトのXML表現 <input name=”origin” type=”text” /> <input name=”destination” type=”text” /> <input name=”date” type=”text” /> … <prompt …> Do you want to fly from <value targetElement=”origin”/> to <value targetElement=”destination”/> on <value targetElement=”date”/>? </prompt> 情報処理学会デジタルドキュメント研究会大阪
SALTフォーラムhttp://www.saltforum.org/ 情報処理学会デジタルドキュメント研究会大阪
セッション4:Semantic Web • NLPに用いるメタデータは汎用性や流通性から考えるとSemanticWebでの標準スキーマへの準拠が妥当 • SemanticWebにおけるオントロジの洗練やメンテナンスにNLPの手法が適用(例:多義性解消,オントロジ等の知識獲得) • エージェントのプロファイリングにIRの成果を適用 情報処理学会デジタルドキュメント研究会大阪
STARTシステム 人間がSemanticWebに自然言語で質問し満足できる回答を得るためのアノテーションのしくみをRDFに実現 1.Annotating the Semantic Web using Natural Language B. Katz(MIT Artificial Intelligence Lab.) 情報処理学会デジタルドキュメント研究会大阪
RDFでのプロパティ設定nlアノテーションを付けたCIA World Factbook <rdfs:Class ID=“Country”> <rdfs:comment>A Country in the CIA Factbook</rdf:comment> </rdfs:Class> <rdf:property ID=“population”> <rdfs:domain rdf:resource=“#Country”/> <rdfs:range rdf:resource=“xsd:string”/> <nl:ann text=“Many People live in ?s”/> <nl:ann text=“population of ?s”/> <nl:gen text=“The population of ?s is ?o”/> </rdf:property> 情報処理学会デジタルドキュメント研究会大阪
インフォメーションアクセススキーマ多様な自然言語の質問に応答するためのメタ記述インフォメーションアクセススキーマ多様な自然言語の質問に応答するためのメタ記述 <nl:InformationAccessSchema> <nl:ann>$country-1’s $att is larger than $country-2’s $att</nl:ann> <nl:pattern>?x a :Country</nl:pattern> <nl:pattern>?x map($att) ?var-1</nl:pattern> <nl:pattern>?y a :Country</nl:pattern> <nl:pattern>?y map($att) ?var-2</nl:pattern> <nl:action>display(gt(?var-1,?var-2))</nl:action> <nl:mapping> <nl:hash variable=“$attribute”> <nl:map value=“population”>:population</nl:map> <nl:map value=“area”>:area</nl:map> ... </nl:hash></nl:mapping> </nl:InformationAccessSchema> 情報処理学会デジタルドキュメント研究会大阪
プランスキーマ質問にどのような手順で応答するのかを手続き的に記述プランスキーマ質問にどのような手順で応答するのかを手続き的に記述 <nl:InformationPlanningSchema> <nl:ann>distance between $country1 and $country2</nl:ann> <nl:plan>?x a :Country</nl:pattern> <rdf:seq> <rdf:li>what is the capital of $country1 := ?capital1</rdf:li> <rdf:li>what is the capital of $country2 := ?capital2</rdf:li> <rdf:li>what is the distance between ?capital1 and ?capital2 := ?distance</rdf:li> </rdf:seq> </nl:plan> <nl:action>display(?distance)</nl:action> </nl:InformationPlanningSchema> 情報処理学会デジタルドキュメント研究会大阪
START Webサイトhttp://www.ai.mit.edu/projects/infolab/ 情報処理学会デジタルドキュメント研究会大阪
3rd Workshop on NLP and XML (NLPXML-2003) April 12-17 2003 ブダペスト,ハンガリー Stay Tuned! 情報処理学会デジタルドキュメント研究会大阪