1 / 28

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊

漢字コードについて. 平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊. コード問題についての整理. JIS 漢字コード拡張計画の進捗状況. 内 容. ・ コード系のおさらい ・ 漢字コードについての世の中の議論. ・ いわゆる第 3 ・第 4 水準の標準化 作業の現状. コード系のおさらい. ・ ISO 2022 系   複数の 1 バイト 7 ビットコード/ 8 ビットコード

brita
Download Presentation

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 漢字コードについて 平成10年5月25日 Windows NT 漢字処理技術協議会 WG2(コード&キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊

  2. コード問題についての整理 JIS漢字コード拡張計画の進捗状況 内 容 ・ コード系のおさらい ・ 漢字コードについての世の中の議論 ・ いわゆる第3・第4水準の標準化 作業の現状

  3. コード系のおさらい ・ ISO 2022系   複数の 1バイト7ビットコード/8ビットコード   2バイト7ビットコード/8ビットコードを   「指示」(エクスケープシーケンス)と   「呼出し」(シフトコード)を用いて   同一システムで混在使用 ISO 2022Code Extention Technique JIS X 0202 符号拡張技法

  4. b7 b6 b5 b4 b3 b2 b1 SP 制御キャラクタ 図形キャラクタ ローマ文字 DEL ISO 2022系コード 1バイトコード 7単位 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 1 b7~b5 b4~b1 0 0 0 0 SP 制御キャラクタ SO 図形キャラクタ 仮 名 SI DEL 1 1 1 1

  5. b8 b7 b6 b5 b4 b3 b2 b1 ISO 2022系コード 1バイトコード 8単位 0 1 0 0 0 1 0 0 0 0 0 0 11 11 b8~b5 b4~b1 0 0 0 0 制御キャラクタ SP 未定義 未 定 義 図形キャラクタ 図形キャラクタ ローマ文字 仮 名 (GL) (GR) DEL 未定義 (CO) 1 1 1 1

  6. 0000 ~ 1111 0000 ~ 1111 ISO 2022系 2バイトコード b8 b1 b8 b1 第1バイト 第2バイト b8=0 b8=1 b8 b7~b5 b4~b1 000 制御コード スペース 0 図形キャラクタ GL 94×94 =8836 111 未定義 000 未定義 デリート 1 図形キャラクタ GR 111 未定義 未定義 制御コード

  7. JIS X 0208-1990     情報交換用漢字符号 点 1 94 1 非漢字524字 8 9 (未定義) 15 16 第1水準漢字 2965字 47 48 区 第2水準漢字 3390字 84 85 (未定義) 94

  8. JIS X 0212-1990  情報交換用漢字符号-補助漢字 点 1 94 1 非漢字   245字 (1区、3~5区、8区、12~15区は未定義) 15 16 漢字   5801字 区 77 78 (未定義) 84 85 94

  9. GL GR G0 G1 G2 G3 ISO 2022 コード拡張技法の概念図 概念であって 厳密でないので注意 LS0 LS3R LS3 呼出し LS2R LS1 LS2 LS1R (シフトコード) 指示 (エスケープシーケンス) ESCIF ESCI1I2F X0208 X0212 X0201 F:ファイナルキャラクタ=図形文字セットのID

  10. コード系のおさらい ・ シフトJIS ISO 2022系のコードで1バイトコードと 2バイトコードを「指示/呼出し」なしで    混在使用するため1バイトエリアと 2バイトエリアが重ならないよう 2バイトエリアをシフトしたもの    簡便だが拡張性に乏しい    (ex.X0212補助漢字は使えない)

  11. シフトJISコード 1バイト見て、1バイトエリアか2バイトエリアか知る 2バイトのエリアなら次のバイトと合わせて1字のコード 21 7E 21 英 数 1バイト  エリア 7E 2バイト  エリア 81 9F 40 FC カ ナ 1バイト  エリア 40 FC E0 2バイト  エリア FC

  12. コード系のおさらい ・ ISO 10646 UCS、Unicode    従来のISO 2022とは異なり2オクテット    (10646は2および4オクテット)の    単一コード系 ISO 2022との互換はない    非漢字は各国文字に個別コードを付与    漢字はC、J、K、各国漢字を統合化

  13. 群7F 群01 群00 点 256 区 256 面 00 ISO/IEC 10646-1:1993 UCS(JIS X 0221-1995)

  14. ISO/IEC 10646-1:1993 UCS(JIS X 0221-1995) 群 面 区 点 UCS4 群00/面00: BMP(基本多言語面)=UCS2 = Unicode

  15. 00 FF A領域 (アルファベット記号類) 19,903 40 I領域 (CJK統合漢字) 20,992 A0 O領域 (未定義) E0 R領域 (PUA、互換文字等) BMP(基本多言語面) PUA(私用領域)はE000~F8FFの6400字分

  16. CJK統合漢字

  17. コード系についての世の中の議論 ・ Unicode批判を客観的に整理  1.使える文字が限定される  1.コード枠に制限がある  (注.UTF16の回避策)  2.漢字を統合したのが問題  3.制定の経緯が気にくわない     民主主義(多数決論理)の悪用に      よる多国籍企業の横暴  4.従来の国内規格との互換性がない      欧米企業には都合よい規格      (現代の黒船、日本への経済侵略)  ′

  18. 批判についての私の意見  1.使える文字が限定     文字についての把え方の議論が不足     異なり字(親字)か異体字の不足か?     解決策は別  1.コード枠に制限     学術研究用(例:古代文字も必要)には     別の規格でよい     一般用規格のスーパーセットならなお可  2.漢字統合の問題     やり直せるならやり直せば!     やり直せないようなら利用方法を考えよう! ′

  19. 批判についての私の意見  3.制定の経緯の問題     感情論を言ってても仕方ない  4.従来規格と非互換     承知で(多数決)で決めたのだから仕方ない     フル変換は覚悟の上だろう  5.その他     皆、自分の立場でしか意見を言っていない     解決策の提言がない 

  20. 漢字コードについての私の意見、提言   分野によってニーズは異なる   ・学術研究分野:古代文字までコード化が必要   ・戸籍処理:誤字、俗字の類いの異り字、           異体字もDB上で区別が必要     異体字はプレゼンテーションレベルの問題     という考えは違う   ・一般OA:たまに使う異り字、異体字は          外字処理で可能          経済性も大事

  21. 漢字コードについての私の意見、提言   異体字を指定できるスキームが必要   例えば異体字ファンクションと異体字番号で指定 ex. 渡辺               渡邊    異体字は登録制で台帳管理       フォントを実装すれば渡邊が出るし       フォントがなくても渡辺の異体字で       あることは明白    異体字かどうかの判断規準(現在の包摂規準    とは目的が別)作りと常設管理機関が必要 異体字 ファンクション 異体字 番号

  22. JIS第3、第4水準標準化の進捗状況   スケジュール   ・昨年度(1997)初めから検討開始    本年度中(1998)にJIS原案完成目標   ・本年9月~12月に公開レビュー予定で準備中   ・現在の状況は下記Webで公開中 http://jcs.aa.tufs.ac.jp/jcs/new-jis/

  23. JIS第3、第4水準標準化の進捗状況   目的   ・現代日本語を符号化するために十分な    文字集合を提供すること   ・JIS X 0208と同時に用い、JIS X 0208を    補完するものであること    目標は約5000字の漢字と記号類   ・現状の使用環境で直ちに実装できること

  24. JIS第3、第4水準標準化の進捗状況  現状(Web公開内容から再編集)  ・漢字    資料を入手し資料間の1字毎の照合を実施中    既にかなりの部分は終っており、    その異り字数は約7200字  典拠資料/調査対象資料 分野 NTTハローページ(1997/2)、NTT契約者名簿 人名 町字ファイル外字(国土地理協会)、 町字ファイル書き換え文字 1万分の1地図/2万5千分の1地図(国土地理院) 地名 法例 現行法律・政令・省令外字

  25. 典拠資料/調査対象資料 分野 新首字、熟語専用字の一方だけX0208にあるもの 日本国語大辞典(新版)外字(小学館) 広辞苑外字(岩波書店)、大辞林外字(三省堂) 共同通信社外字 一般 文部省学術用語集、切韻印目(鉅宋広韻による)、 韻鏡三十六字母 小・中・高校検定済全教科書1500冊 新潮文庫の100冊/明治の文豪/大正の文豪(新潮社) 大正新修大蔵経所収漢字(大蔵出版社) 中国医学古典用外字(日本内経医学会) 学術 その他 (不明) IBM選定文字、JIPS(日本電気)拡張文字、 JEF(富士通)拡張文字 JIS第3、第4水準標準化の進捗状況

  26. JIS第3、第4水準標準化の進捗状況   ・非漢字      資料を入手し検討中       ・アイヌ語表記の仮名       ・鼻濁音表記の仮名       ・歯科記号

  27. JIS第3、第4水準についての問題点 人名漢字が増えても  戸籍処理上の問題解決にはならない シフトJISに適用すると  ・現在のAPのほとんどは動作しないと思われる    中国でGBKが実装されて大騒動発生と    同じパターン  ・ユーザー外字が使えない

  28. 漢字コードについて

More Related