170 likes | 266 Views
次世代多言語処理系の モデルおよび実装の開発. 守岡 知彦. 多様な構造の情報を自由に編集・交換可能な文書処理系の開発. 絵や 写真. 単語. 非符号化 文字. や. や. も. 単. 語. さまざまな情報. 『現実』の文字の世界. 符号化文字集合. 目標. 文書のさまざまな構造や属性を適切に表現・処理可能な枠組みの実現 利用者固有の用途への適合 インターネットでの情報交換が可能. 符号化文字の成功. とにかく文字を計算機で扱えるようになった いろんな処理の基盤を提供した 作成、加工、転送等が比較的容易 情報化社会の基盤技術. 符号化文字.
E N D
次世代多言語処理系のモデルおよび実装の開発次世代多言語処理系のモデルおよび実装の開発 守岡 知彦
多様な構造の情報を自由に編集・交換可能な文書処理系の開発多様な構造の情報を自由に編集・交換可能な文書処理系の開発 絵や 写真 単語 非符号化 文字 や や も 単 語 さまざまな情報 『現実』の文字の世界 符号化文字集合
目標 • 文書のさまざまな構造や属性を適切に表現・処理可能な枠組みの実現 • 利用者固有の用途への適合 • インターネットでの情報交換が可能
符号化文字の成功 • とにかく文字を計算機で扱えるようになった • いろんな処理の基盤を提供した • 作成、加工、転送等が比較的容易 • 情報化社会の基盤技術
符号化文字 漢 字 と L a t i n 文 字 文字列=符号化文字の列 符号化文字=符号化文字集合上の位置 符号化文字集合 (文字符号) 『現実』の文字の世界
英語圏の場合 • 他の文字圏に対する優位性 • 文字化けしにくい • 十分な表現力 • 処理の容易な文字表現 • 技術の蓄積 • さまざまな情報の電子化に成功
日本語処理における問題点 • 検索 • 置換 • ソート • 文字表現 • 表示 國吉 国吉 組み合せ 組み合わせ 組合わせ
符号化文字の問題点 • 各符号位置の意味の定義を文字符号が引き受ける • 文字符号の作成、変更、普及のためのコストが甚大 • 文字符号にない文字や適合しない文字を扱うのが困難
文書の諸構造 • 章 • 節 • 文 • 句 • 語 字 • 字、行、段、頁など見かけ上の単位も
字も構造を持っている • 漢字における部首や旁(意符、音符)など • ハングルにおける字母と音節 • タイ文字やラオ文字等における音節(子音)字と母音字の結合 • インド系諸文字における複雑な結合 • ラテン文字におけるアクセント記号の付加 • etc…
従来の技術 • 符号化文字の世界 • イメージ・データの世界
要求される技術 • 文字の属性(意味)を扱うための技術 • 従来の符号化文字も利用可能 • (符号化)文字以外の情報と符号化文字の格差を減らす
符号化文字から文字オブジェクトへ 漢 字 と L a t i n 文 字 文字列=文字オブジェクトの列 L 漢 符号化文字集合 『現実』の文字の世界
文字オブジェクトの拡張 さまざまな情報 『現実』の文字の世界 符号化文字集合
Multiple Coded Scheme 絵や 写真 単語 非符号化 文字 や や も 単 語 さまざまな情報 『現実』の文字の世界 符号化文字集合
Multiple Coded Scheme • editable entity unit (eeu) • 文字を抽象化したもの • 文字符号 = eeu の id • 各種文字符号や各種属性を持つ • 文字符号を持たない eeu を可能にする • 文字以外の情報 • 符号化されていない文字 • 文字符号に合わない文字の用法 • SGML / XML 等の tag 付き文書 • 文字データベースの利用や編集
研究計画 • XEmacs での内部表現変更実験 • 任意の文字の部分集合を効率的に扱うためのモデル・実装の開発 • 大規模文字データベースを効率的に扱うための技術 • 対象に応じた文書表現の最適化 • インターネット等での実証実験