80 likes | 251 Views
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255).
E N D
Кодировка (Набор символов, character set, charset) - это определённая таблица кодирования конечного множества символов. Кодовая страница (code page) - это множество символов, кодировку которого можно выполнить с помощью 1 байта (0-255). Набор символов может включать как одну, так и несколько кодовых страниц.
Основная кодировка ASCII (American Standard Code for Information Interchange) - это 7-битная (128 символов) кодировка для представления латинского алфавита, десятичных цифр, некоторых специальных символов (знаков препинания, знаков арифметических операций и управляющих символов). Основная кодировка ASCII занимает нижнюю половину кодовой страницы, а верхнюю половину кодовой страницы можно использовать для доопределения расширенной кодировки ASCII (8 бит, 256 символов) Как правило, в верхнюю половину кодовой страницы включают символы национальных алфавитов, псевдографику и дополнительные часто используемые спецсимволы.
Кодировка Windows-1251 (cp1251) является стандартной 8-битной кодировкой для всех русских версий Windows. Первая часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. Вторая часть приведена в таблице на следующем слайде (под символами указаны шестнадцатеричные коды Unicode):
Стандартом для русской кириллицы в UNIX-подобных операционных системах является кодировка КОИ-8 (код обмена информацией, 8 битов), или KOI8. Существует несколько вариантов кодировки КОИ-8 для различных кириллических алфавитов. Русский алфавит описывается в кодировке KOI8-R, украинский — в KOI8-U, существуют также кодировки KOI8-RU (русско-белорусско-украинская), KOI8-T (таджикская) и т.д. Разработчики КОИ-8 разместили символы русского алфавита таким образом, что если в тексте, написанном в КОИ-8, убирать восьмой бит каждого символа, то получается понятный текст, хотя он и написан латинскими символами. На следующем слайде показана вторая часть кодировки KOI8-R (русская), под символами указаны шестнадцатеричные коды Unicode:
Юникод (Unicode) - это стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Чаще всего для обозначения символов Unicode используется запись вида "U+xxxx" (для кодов 0...FFFF), где xxxх - шестнадцатеричные цифры. Первая версия Юникода представляла собой кодировку с фиксированным размером символа в 16 бит, то есть общее число кодов было 216 (65536). Отсюда и происходит практика обозначения символов четырьмя шестнадцатеричными цифрами (например, U+0410). Коды в стандарте Unicode разделены на несколько областей, например: Область от U+0000 до U+007F содержит символы основного набора ASCII. Область от U+0400 до U+052F содержит символы кириллицы, где символы до U+045F - это собственно кириллица, а далее располагаются исторические буквы и дополнительные буквы для разных языков, использующих кириллицу.