140 likes | 476 Views
한글반포 562 돌 기념 학술세미나 온누리 한글의 유니코드 (Unicode) 적용방안 연구. 일시 : 2008 년 10 월 9 일 목요일 , 한글날 오후 1 시 장소 : 충남대학교 인문대학 문원강당 발표자 : www. k android.org 사이트 관리자 , 양정수 ( 들풀 ), yangjeongsoo@gmail.com. 4341, 2552, 2008, 1387, 562. www. k android.org. 목 차. 문자집합과 인코딩 , 유니코드 한글 코드 표준의 역사 유니코드와 한글
E N D
한글반포 562돌 기념 학술세미나온누리 한글의 유니코드(Unicode) 적용방안 연구 일시 : 2008년 10월 9일 목요일, 한글날 오후 1시 장소 : 충남대학교 인문대학 문원강당 발표자 : www.kandroid.org사이트 관리자, 양정수(들풀), yangjeongsoo@gmail.com 4341, 2552, 2008, 1387, 562 www.kandroid.org
목 차 • 문자집합과 인코딩, 유니코드 • 한글 코드 표준의 역사 • 유니코드와 한글 • 한글 : 폰트 파일과 글자모양 • 한글 : 입력방식 (Input Automata 예:천지인) • 온누리 한글의 세계화(?)와 관련된 몇 가지 이슈
문자집합(Charset) 및 인코딩(Encoding), 유니코드(Unicode) • 문자집합 (Character Set, Charset) • 특정 언어를 표현하기 위해 사용되는 문자들의 집합 • 인코딩(Encoding) • 특정한 문자집합들내의 문자를 컴퓨터에서 사용하기 위한 숫자로 변환하는 방법 • 유니코드란? • 전세계에서 사용되는 문자 집합을 정의한 것으로 • 2008년 4월 4일 현재 Unicode 5.1 의 정의에 의해 약 100,000 문자이상을 포함하고 있음. • 해당 문자집합을 표현하기 위한 인코딩 방법으로, UTF-8, UTF-16, UTF-32 를 사용함. • UTF-8 : 1Byte ~ 4Byte의 가변길이로 유니코드상의 문자를 표현함. • UTF-16 : 2Byte 또는 4Bypte의 가변길이로 유니코드상의 문자를 표현함. • UTF-32 : 4Byte 고정길이로 유니코드상의 문자를 표현함.
한글 문자 인코딩의 역사 보다 자세한 내용을 원하시면 아래의 URL의 문서를 참고하시면 좋을 듯 합니다. http://register.itfind.or.kr/Report01/200302/IITA/IITA-0076/IITA-0076.pdf
유니코드(Unicode)와 한글 ※ http://www.unicode.org/Public/UNIDATA/Blocks.txt내에 정의되어 있는 한글 영역은 아래와 같음.
한글 : 폰트 파일(Font File)과 글자모양 (Glyph) ※ 아래의 그림은 화살표 연결방향순서로, 폰트파일 / Glyph / Glyph 내 곡선 표현법에 대한 기초상식임.
한글 : 입력방식 (Input Automata : 예 - 천지인 초성, “ㅃ”) 초성 상태 변환 단계 : ㅂ → ㅍ → ㅃ 0 1 3 2 1 2 3
한글 : 입력방식 (Input Automata : 예 - 천지인 중성, “ㅑ”) 중성 상태 변환 단계 : ㅣ → ㅏ → ㅑ 2 3 1 0 3 2 1 ti : Timer Interval bs : back space f1: delete previous char others : input char state 그대로 반영
한글 : 입력방식 (Input Automata : 예 - 천지인 종성, “ㄻ”) 종성 상태 변환 단계 : ㄴ → ㄹ → ㄹ(ㅇ) → ㄻ 0 1 2 4 3 1 2 3 4
온누리 한글의 세계화(?)와 관련된 몇 가지 이슈 이슈 1) 세계 표준인 Unicode에 온누리 한글에서 정의한 문자집합을 표현할 방법은 무엇인가? → 유니코스상에서 온누리 한글에 대한 영역을 확보하는 것은 전혀 불가능하다고는 할 수는 없으나, 단기적으로는 불가능할 것으로 보임. 그러므로 가급적 기존의 Unicode 한글 영역 및 Private 영역을 활용하는 것이 최선의 방식으로 보임. 이슈 2) 온누리 한글에서 정의한 문자집합에 포함된 글자모양을 가진 폰트 파일 제작은 가능한가? → 이슈 1)과 관련하여 Unicode 상에서 온누리 한글 코드 영역을 확보하는 것이 어려울 경우, 해법은 한글 자모의 확장 + 온누리 한글을 위한 인코딩 방식(?) + 온누리 한글 전용 폰트가 결합된 구조에서 나올 수 있을 것으로 보임. 이 경우, 온누리 한글 전용폰트 제작 방법이 요구됨. 이슈 3) 온누리 한글의 입력을 위한 입력환경 제공은 가능한가? → 이슈1)과 이슈2)가 해결되었다 하더라도, 온누리 한글 입력기 제작을 위한 온누리 한글 입력 Automata에 대한 정의가 필요함.
온누리 한글의 세계화(?)와 관련 : 이슈 1) 참고 현재의 완성형 한글 구성에 사용된 한글 자모 ☞ 초(19) x 중(21) x 종(27 + 1{종성없음}) = 11,172자 Unicode 한글 자모 영역에 등록된 한글 자모 ☞ 초(90) x 중(66) x 종(82 + 1{종성없음}) = 493,020자 Unicode 상의 한글 자모 추가 지정 가능 수 ☞ 초성:5자, 중성:5자, 종성 6자 온누리 한글에서 요구되는 한글 자모에 대한 정리가 요구됨.
온누리 한글의 세계화(?)와 관련 : 이슈 2) 참고 ☞ 만약, 온누리 한글에서 신규로 요구되는 한글 (즉, 기존의 11,172자 이외의 한글) 이 6,400자 미만이라면, 좌측 유니코드 1번 코드영역을 활용하는 것이 가장 바람직할 것으로 생각됨. ☞ 추가로 요구되는 글자수가 더 필요로 하다면, 좌측 유니코드 2번 및 3번 코드영역도 사용해 볼 수 있을 것으로 보임. 물론 2번과 3번 영역의 합계인, 130,000여자로 국한되어야 할 것으로 보임. ☞ 만약 6,400 + 130,000 여 문자 이상의 수가 요구 된다면, 새로운 방법이 요구될 것임. 왜냐하면, Unicode에서 한글을 위해 그와 같이 많은 영역을 할당해 줄 가능성이 없을 것임. ☞ 위와 같은 방식으로 온누리 한글을 위한 코드영역을 할당하였다고 하더라도, 해당 글자의 모양(Glyph)을 포함하는 폰트를 제작하지 않는다면, 실질적으로 사용 할 수 있는 방법이 존재하지 않음. ☞ 폰트 제작방법은, 해당 글자의 모든 모양을 앞서서 예시로 보여주었던 ‘가’자와 같이 컴퓨터 그래픽을 통해 제작하여야 함. 1 2 3 위에서 보여지고 있는 “한글 조합형 벡터 폰트”란 글자는, 개별 글자를 벡터폰트로 제작한 방식이 아니라, 한글 자모만을 벡터기반으로 제작한 후, 자모의 결합구조를 수학적으로 계산한 방식임. 이 방식이, 온누리 한글에 적합한 폰트 제작 방식일 수도 있음.
온누리 한글의 세계화(?)와 관련 : 이슈 3) 참고 앞선 이슈 1, 이슈 2를 해결했다고 하더라도, 온누리 한글을 효과적으로 사용하기 위해서는 적절한 입력 방식이 요구될 것임. 기본적으로는 일반 데스크탑 키보드와 휴대폰의 키패드 정도의 입력구조를 지원하는 것이 바람직 할 것임. 해당 입력을 지원하기 위한 Input Automata는 이 장에서 다루기에는 아직 부족한 상황이나 꼭 필요한 항목임에는 틀림없음. 더불어, 온누리 한글에서 한글 고어중 어떤 자모를 복원할 것인가를 선택함에 있어서 Input Automata를 고려할 수 있다면, 보다 편리한 입력기를 만들 수도 있을 것으로 보임.