190 likes | 296 Views
言語研究に XML をどう役立てるか. 千葉庄寿 ( 麗澤大学 ). 研究会の背景. 特定領域研究「環太平洋の 『 消滅に瀕した言語 』 にかんする緊急調査研究」~情報処理による調査研究支援班 (1999 ~ 2003 年度 ) 基盤研究「音声記号等で表記された言語資料のマークアップとコンピュータ処理」 (2003 ~ 2005 年度 ) Oxford University Computing Services, Humanities Computing Unit 調査 (2001 年 7 月 23 日~ 28 日 )
E N D
言語研究にXMLをどう役立てるか 千葉庄寿 (麗澤大学) 言語資料のXMLによるマークアップ
研究会の背景 • 特定領域研究「環太平洋の『消滅に瀕した言語』にかんする緊急調査研究」~情報処理による調査研究支援班 (1999~2003年度) • 基盤研究「音声記号等で表記された言語資料のマークアップとコンピュータ処理」 (2003~2005年度) • Oxford University Computing Services, Humanities Computing Unit 調査 (2001年7月23日~28日) • International Workshop on Resources and Tools in Field Linguistics (2002年5月26日~27日) • フィンランド学術コンピュータセンター調査 (2004年2月11日~25日) • ALLC/ACH 2004 (Joint International Conference of the Association for Literary and Linguistic Computing and the Association for Computers and the Humanities, 2004年6月11日~16日) 言語資料のXMLによるマークアップ
ALLC/ACH 2004 での体験 • XMLの人文系分野への応用:オンラインデータベースシステム構築,大規模電子化プロジェクト,マルチメディアの活用 • XML を用いる言語研究むけの分析ツールや言語研究に特化した分析アプローチの報告は TaPoR (Text Analysis Portal for Research, URL: http://www.tapor.ca, Ramsay et. al. 2004) などごく少数 • 言語研究者にとって,言語研究のために役立つ情報処理の知識とは? 言語資料のXMLによるマークアップ
言語をコンピュータで扱う際の前提 • 「文字」としてのデータ処理 • コンピュータで扱える言語の単位は「文字」 • コード(文字コード)を使って高速な処理を可能にする • マルチメディアのもつ意味 • 言語を音声や映像として記録する重要性 • テキストと組み合わせることで,ダイナミックな利用が可能 • 言語データの活用には文字化されたデータの存在が大前提 言語資料のXMLによるマークアップ
キーワード 「テキスト処理」 • 言語データの電子化に必要な技術的基盤 • 汎用性の確保:どのようなソフトウエアでも処理可能なテキストデータとしてデータを作成する • ユニコードの利用:さまざまな文字体系のテキストデータをひとつのコード体系で処理可能にする • データの構造化:標準化された方法で付加情報をつける (文書メタ情報,音声記述,文法記述等) • 情報の付加をテキストで行い,テキストとして処理する 言語資料のXMLによるマークアップ
言語資料のマークアップの必要性 • マークアップ markup とは? 「情報の付加とその方法」 • 複数の研究者が共同で利用する言語資料の構築 • さまざまなレベルの情報 • 言語データの構造をどう表現するか • 言語学的なアノテーションをどのように付加するか • 「構造化」の要請:複雑な構造の言語資料に含まれる情報をコンピュータで適切に処理するために必要な手順 言語資料のXMLによるマークアップ
付加情報の埋め込みによる弊害の回避 • 生のコーパスに簡単に戻せるようにすること • 付加情報自体を取り出せるようにすること • 付加情報の内容や解釈の原則を利用者が閲覧できるようにすること • 誰がどのように付加したかが分かるようにすること • 付加情報は便宜的なものであり,利用者が自己責任で使うものであること • 付加情報はできるだけ偏らず,理論に中立なものにすること • 特定の付加情報を絶対的なものとは考えないこと Leech (1993: 275) 言語資料のXMLによるマークアップ
さまざまなマークアップ • COCOA形式 (Hockey 1998: 108—111):最も古いデータ構造に関する情報のマークアップ方式。日本語でも,1990年に『源氏物語』コーパスがCOCOA形式で作成され公開されている (近藤2003: 63—64, 66—67)。 • Brown Corpusのマークアップ方式:行頭にコーパスのファイル番号と行番号を固定長データとして置く。原本の情報を忠実に再現。日本語でもいくつかの古典語コーパスが採用 (近藤2003: 65) • ICE (International Corpus of English, Meyer 2002: 82—84) の構造タグ:会話などの間言語的情報の記述方法を規定 • KOKINルール (国文学研究資料館, 近藤2003: 67—68):岩波古典文学大系・旧版の本文コーパスとして本文をそのまま電子化することを目的に設計 • 相互変換ができない (Hockey 1998: 108; 近藤 2003: 67—68)。 • これらのマークアップを活用して高度な検索処理をおこなうためには,そのマークアップに対応したソフトウエアを用意する必要あり 言語資料のXMLによるマークアップ
XML (eXtensible Markup Language) • 1997年12月 W3C勧告 (1.0) • 最新版は1.1 (2004年2月勧告) • 1.0 も引き続き利用できる • 文書の交換を目的に1970年前後から開発が進められ, 1986年に国際規格 ISO8879 となった SGML (Standard Generalized Markup Language) の改良版 言語資料のXMLによるマークアップ
SGMLからXMLへ • SGML の特徴 • テキストへのテキストによるマークアップという形で情報を記述 • 文書構造をDTD (Document Type Definition) で定義 • SGML の欠点 (村田 1998) • 仕様の複雑さ • ツールの不足 • DTD 作成の難しさ • 論理構造の作成の難しさ • 既存の電子文書からの変換の難しさ 言語資料のXMLによるマークアップ
BNCA9V.sgmの一部 • <head type=MAIN><s n=0001 p=Y><w DA>Former <w JJ>Bolivian <w NN1>minister <w II>in <w NP1>US <w NN1>court<c YSTP>. </s></head> • <head type=BYLINE><s n=0002 p=Y><w II>By <w NP1>Mark <w NP1>Tran <w II>in <w NP1>Washington </s></head> • <p><s n=0003 p=Y><w AT>THE <w NN2>wheels <w IO>of <w NN1>justice <w VVD>began <w VVG>turning <w RT>yesterday <w IF>for <w AT>the <w DA>former <w JJ>Bolivian <w NN1>Interior <w NN1>Minister<c YCOM>, <w NNB>Mr <w NP1>Luis <w NP1>Arce <w NP1>Gomez<c YCOM>, <w CS>when <w PPHS1>he <w VVD>appeared <w II>before <w AT1>a <w NP1>Miami <w NN1>magistrate <w II>following <w APPGE>his <w NN1>arrest <w CC>and <w NN1>deportation <w II>from <w NP1>Bolivia<c YSTP>. </s></p> • SGMLでは,文書構造をDTD (Document Type Definition) いう別のファイルであらかじめ定義しておく。以下は w タグの定義: • <!ELEMENT w - o (#PCDATA) > 言語資料のXMLによるマークアップ
XML の特徴 • DTD に頼らない構造化規則 (well-formedness) • Unicode への対応 (XML 1.1 で最新のUnicodeにも対応) • 処理効率の向上のための仕様の簡素化 • 終了タグの省略の禁止 • 最上位要素の義務的配置など • 活発な関連技術開発→XMLの普及 言語資料のXMLによるマークアップ
XMLによるマークアップの主な決まり • 情報のまとまりをあらわす要素 element • 開始タグ,終了タグのペアで内容を囲んで表わす。 • <title>エクスプレスフィンランド語</title> • 終了タグがないときは,空要素であることを明示する。 • <xsl:apply-template /> • SGMLでは,省略が可能だった • 要素は入れ子にできるが,交差はできない。 • 最上位の要素はひとつだけ。 • 要素の付属情報をあらわす属性attribute • 開始タグに記述 • 順番は問わない • 属性の値は引用符で必ず囲む • ひとつの要素に同じ名前の属性名を複数つけてはいけない。 • 文字: < > &, と2種類の引用符は特殊。置き換えて使う。 • < > & ' " 言語資料のXMLによるマークアップ
XML関連技術 • 関連規格:XMLの検索と加工 • XPath (1999), XPointer (2003), XLink (2001), XSLT (1999), XSL-FO (2001), XML Query (未勧告), XQuery (未勧告), DOM (1998, 2000) • XMLアプリケーション • XML 処理用パーサ:Expat, IBM XML Parser, iPEX, libxml, MSXML, sablotron, Xerces, XP (and SP) • ソフトウエアのXMLサポート:マイクロソフト社 Internet Explorer, Excel, InfoPath等 言語資料のXMLによるマークアップ
XMLの応用例 (1) • インターネットを介してのXMLの利用の普及 • XMLに基づく具体的なデータ形式: ContactXML (住所記述), MathML, RDF(メタデータ), RSS, SMILE (マルチメディア), SVG (グラフィックス), XHTML (XML対応HTML) • ビジネスのデータ交換形式としてのXML • XMLを使ったオンラインシステム: Webサービス (UDDI, WSDL, SOAP), ebXML, BizTalk 言語資料のXMLによるマークアップ
XMLの応用例 (2) • メタデータの表現形式としてのXML • RDF, RSS (RDF Site Summary) • データベース形式としてのXML • 現状の多くのシステムはリレーショナルデータベースを使い,XML形式で(入)出力を処理 • オープンソースのネイティブXMLデータベースアプリケーションの登場:Berkeley DB XML (Staken, 2004), Xindice など • XML 用の検索言語 query language の仕様の議論が続いており,複数の提案がなされている (cf. 大規模コーパスの検索の問題 Ide, 2000a 2000b; 音声言語データの検索の問題 Cassidy, 2002) 言語資料のXMLによるマークアップ
XMLの応用例 (3) • 言語データの構造化のためのXML • TEI (Text Encoding Initiative, P4 でXMLに対応, P5 でXML向けに規格刷新の予定) • Corpus Encoding Standard for XML (XCES 0.2) • XMLを利用した言語データベース • 『日本語話し言葉コーパス』 • フィンランド言語バンク (kielipankki) の検索インターフェース WWW-Lemmie • メタデータと言語データのアーカイブ • ISLE Metadata Initiative (IMDI schema 3.0) • E-MELD (Electronic Metastructure for Endangered Languages Data) 言語資料のXMLによるマークアップ
なぜ今XMLか? (1) • XMLとその関連技術が普及し,ソフトやツールに実装されはじめた • 高機能なフリーウエアの出現 • XPath (XML 文書を抽出, Clark et. al, 1999) • 標準規格ゆえ,さまざまな分野で利用され,技術指導ができる専門家を探しやすい • XML処理用の特別なソフトなしでも稼動するユーザー環境が整ってきた。 • Java Virtual Machine や Microsoft .NET Framework 1.0 など,実行環境がインストールされていれば安定して動作する 言語資料のXMLによるマークアップ
なぜ今XMLか? (2) • XMLとその関連技術が普及し,ソフトやツールに実装されはじめた • XPath (XML 文書を抽出, Clark et. al, 1999) • 標準規格はさまざまな分野で利用され,技術指導ができる専門家を探しやすい • XML処理用の特別なソフトなしでも稼動するユーザー環境が整ってきた。 • 開発環境として Microsoft .NET Framework 1.0 を利用 (利用言語は C#) • 実行環境がインストールされていれば安定して動作 • XML in 10 points 言語資料のXMLによるマークアップ