html5-img
1 / 14

符号化文字集合規格の体系とその進化

符号化文字集合規格の体系とその進化. 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets) 委員長 東京外国語大学. 内容. 符号化文字集合の種類 SC2 規格の進化 Old Bible から New Bible へ The Old Bible: ISO R 646 文字集合の拡張 文字の同定 The New Bible: ISO/IEC 10646. 符号化文字集合規格の種類. 図形文字 ISO/IEC 646 ISO/IEC 8859 ISO/IEC 10646 符号拡張 ISO/IEC 2022

emma-wood
Download Presentation

符号化文字集合規格の体系とその進化

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 符号化文字集合規格の体系とその進化 芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学

  2. 内容 • 符号化文字集合の種類 • SC2規格の進化Old BibleからNew Bibleへ • The Old Bible: ISO R 646 • 文字集合の拡張 • 文字の同定 • The New Bible: ISO/IEC 10646

  3. 符号化文字集合規格の種類 • 図形文字 • ISO/IEC 646 • ISO/IEC 8859 • ISO/IEC 10646 • 符号拡張 • ISO/IEC 2022 • ISO/IEC 10646 • 制御機能 • ISO/IEC 6429 • ISO/IEC 10646

  4. ISO符号化文字集合の進化From Old Bible to New Bible Old Bible CCITT#2 ASCII63 ISO R 646-1967 • 82 字の共通文字 • 12 字の各国又は適用業務向け文字 • 版の適合性 • BS、CR、SPを用いた文字合成 • 32 字の制御文字 • 情報処理交換用 • 小文字を除く ISO 6937 ISO 8859 • ヨーロッパ用 • 字送りなしのアクセントによる合成 • 合成なし • Latin 1 – 西ヨーロッパLatin 2 – 東ヨーロッパ ISO 2022 • 646の版をもとした符号拡張 • 1文字を取り替えるシングルシフト • 表を全部取り替えるロッキングシフト ISO/IEC 10646 New Bible

  5. The Old Bible: ISO R646-1967 6 and 7 bits coded character sets for Information Processing interchange • 基本ラテン文字の符号化 • 94 字の図形文字、 82 字が共通 • 情報処理と情報交換の共通コード • 図形文字の一意な符号化 • 各国又は適用業務毎の版 • BS、CR、SPによる合成 • 異なった文字をも統合

  6. 文字集合の拡張Set of 94 Characters is too small • ほとんどのヨーロッパの言語にとっても94字は少なすぎる! • 文字合成が必要 • 符号拡張が必要

  7. 文字合成タイプライタから活版へ • タイプライタモデル • 646 • BS, SP, CRを用いた重ね打ちによる合成 • 6937 • 字送りなしのアクセント文字による合成 • アクセント、親字の順 • 活字モデル • 10646 • 親字,アクセントの順 • 複数のアクセントをつけることが可能

  8. ISO 2022 符号拡張法 • ISO 646の版のための符号拡張法を規定 • シングルシフトでの1文字の切り替え • 版を取り替えるロッキングシフト • 1バイト2バイトの混在環境では必須 • 2022 は,混在を許すが保証はしない • 適合性で共通のエスケープシーケンスの利用を規定 • 最小のエスケープシーケンスを推奨 • 複雑で実装コストが高い • 完全な実装は殆どない

  9. ISO 8859From 8859 Brief History • ISO 646の版の問題 • They do not provide all graphic characters which may be needed, • for some characters, specifically for accented letters, it is necessary to resort to BACKSPACE sequences,which creates problems when processing data containing such composite characters, • interchange among different versions is practically limited to the 82 common characters. • 8859の設計原理 • The same for all users of a given area, • provide single-byte coding of all graphic characters thus permitting easy processing, • takes into account character sets used in the industry. • 8859 限界

  10. The New Bible: ISO/IEC 10646 • ヨーロッパの8859 • 世界の10646 • 8859と同じ設計原理 • RLGなどが開発に参画 • SC2が全分野の符号化文字集合の開発を担当 • 1997年にISO TC46(Documentation)からSC2に符号化文字集合を移管

  11. 10646の適用範囲 • この規格群は,は国際符号化文字集合(UCS)を規定する。この規格群は,世界の言語(用字)を書き表した形(表記形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に利用できる。 • ISO/IEC 10646 specifies the Universal Multiple-Octet Coded Character Set (UCS). It is applicable to the representation, transmission, interchange, processing, storage, input, and presentation of the written form of the languages of the world as well as of additional symbols.

  12. 10646の全体構造

  13. BMPの構造

  14. 10646の適合性 • 文字合成に関する水準 • 水準1 合成なし • 水準2 合成でなければ表せない文字が表現可能に • 水準3 すべての合成が可能 • 集合の部分化

More Related