1 / 74

報告 4 :蔵書評価における文字コード問題について

報告 4 :蔵書評価における文字コード問題について. 池内 淳. 報告 4 の内容. 蔵書評価における文字列照合について 文字コードと文字集合の概観 NDL 蔵書データについて 米国議会図書館及び中国国家図書館の蔵書データについて 文字列照合の際の諸問題について. 書誌同定の照合キーとしての ISBN コードの評価. 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBN コード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。.

Download Presentation

報告 4 :蔵書評価における文字コード問題について

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 報告4:蔵書評価における文字コード問題について報告4:蔵書評価における文字コード問題について 池内 淳

  2. 報告4の内容 • 蔵書評価における文字列照合について • 文字コードと文字集合の概観 • NDL蔵書データについて • 米国議会図書館及び中国国家図書館の蔵書データについて • 文字列照合の際の諸問題について

  3. 書誌同定の照合キーとしてのISBNコードの評価書誌同定の照合キーとしてのISBNコードの評価 • 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 • その一方で、 ISBNコード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。 Powered by Monta Method<http://www.bricklife.com/weblog/000626.html>

  4. ISBNを単独の照合キーとする場合の調査バイアス(確認)ISBNを単独の照合キーとする場合の調査バイアス(確認) • 重複数を過小評価する可能性について • ISBNが付与されていない資料の存在 • ISBNが誤入力されている資料の存在 • 重複数を過剰評価する可能性について • 同一の資料に複数のISBNが付与される場合(シリーズ物等) • 出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合

  5. では Powered by Takahashi Method<http://www.rubycolor.org/takahashi/>

  6. どうすれば

  7. いいですか?

  8. それは

  9. ISBN International Standard Book Number

  10. だけでなく

  11. 他の

  12. 書誌事項を

  13. 例えば

  14. 著者名や

  15. 書名等を

  16. 書誌同定

  17. のための

  18. 照合キー

  19. として

  20. 用いること

  21. 複数の書誌事項を照合キーに含めることの意味:1複数の書誌事項を照合キーに含めることの意味:1 • ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。 • 一方、ISBN 単独の場合では、ほとんど考慮する必要のない 文字コード や文字集合 の問題について、注意を払わなければならない。

  22. 複数の書誌事項を照合キーに含めることの意味:2複数の書誌事項を照合キーに含めることの意味:2 • ISBN単独の場合にもたらされる 誤差 と、積極的に 調査バイアス を除去しようとする場合の コスト とを評価することが必要。 • 文字コードの問題に対する 適切な処置 を怠った場合、ISBN単独の場合よりも、より精度の低い 評価結果を得る可能性がある。

  23. ところで

  24. 文字コード

  25. とは?

  26. 文字コードについて • 文字コード(character code) • コンピュータが 文字・記号 に 数字 を割り当てるための符号化方式、あるいは、その符合そのもの • 文字集合(character set) • 特定の文字コード系において表現可能な 文字・記号 の集合(=符号化文字集合)

  27. 代表的な文字コードの例:ASCII(1963~) American Standard Code for Information Interchange 7ビット(27)2進数: 0000000~111111116進数: 00~7F10進数: 0~127

  28. 128文字?(96文字)

  29. それだけでは

  30. とても

  31. 足りません

  32. では

  33. どうすれば

  34. いいですか?

  35. 文字集合を拡張するための代表的なアプローチ文字集合を拡張するための代表的なアプローチ • ISO/IEC 2022系 • 様々な 文字コード表 を切り替えることで、同一のコードポイントに 異なる複数の文字 を割り当てる方式 • 言語圏ごとに 地域化(localization: l10n)が必要 • Unicode/ISO/IEC 10646系 • 数多くの言語を網羅する単一の 文字コード表 を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式(→ 国際化(internationalization: i18n)) • 地域化のための コスト を節約できるが、ファイルが 重く なり易い。

  36. ISO/IEC 2022(8ビット) の概念図(コード表の切り替え) 中間バッファ(G0~G3)に読み込まれた複数の文字コード表を、インユーステーブル(GL/GR)に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。 <インユーステーブル> <中間バッファ>

  37. Unicode/ISO 10646における文字集合の概念図:1 0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント 巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set

  38. 65,536文字?

  39. それだけでは

  40. とても

  41. とても

  42. とても

  43. とても

  44. 足りません

  45. Unicode/ISO 10646における文字集合の概念図:2 UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set

  46. UnicodeISO/IEC 10646では

  47. 文字コードと

  48. 文字集合を

  49. 明確に

  50. 弁別しています

More Related