1 / 23

멀티미디어 데이터 : 텍스트 (Text)

멀티미디어 데이터 : 텍스트 (Text). Lecture #2. 멀티미디어 구성 요소. 멀티미디어 구성 요소 : 텍스트 그래픽 & 이미지 사운드 비디오 & 애니메이션. 미디어 접근법 : 특징 : 정보표현 능력 vs 비용 등 컴퓨터 내부 표현 방식 파일 저장 방식 정보 처리 방식. 텍스트 (1). 멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어 기본적으로 가장 많이 사용하는 매체 전통적이고 전형적인 매체 적은 저장 공간 비용으로 많은 정보를 표현

gayora
Download Presentation

멀티미디어 데이터 : 텍스트 (Text)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 멀티미디어 데이터 :텍스트(Text) Lecture #2

  2. 멀티미디어 구성 요소 • 멀티미디어 구성 요소: • 텍스트 • 그래픽 & 이미지 • 사운드 • 비디오 & 애니메이션 • 미디어 접근법: • 특징: 정보표현 능력 vs 비용 등 • 컴퓨터 내부 표현 방식 • 파일 저장 방식 • 정보 처리 방식

  3. 텍스트(1) • 멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어 • 기본적으로 가장 많이 사용하는 매체 • 전통적이고 전형적인 매체 • 적은 저장 공간 비용으로 많은 정보를 표현 • 데이터의 입력은 키보드, 스캐너를 사용 • 정보 전달의 효율성이 낮다

  4. 텍스트(2) • 텍스트의 표현 • 문자 코드(Code) 사용 • 텍스트 데이터(문자 또는 숫자)를 2진수의 코드로 정보를 표현(encoding) • 코드 체계 : • ASCII, 한글코드(완성형 / 조합형 코드), 유니코드(unicode) 등 • 마크업 텍스트(Markup Text) • Postscript, HTML, SGML, XML 등 • 이미지 텍스트 : 텍스트 스캔(Text Scan) • 문서의 이미지 데이터 • 문서 인식 프로그램

  5. 텍스트(3) – 문자 코드 • 문자 코드 • 모든 문자는 이진법을 사용하는 코드로 표시 • 언어에 따라 알파벳 사용권에서는 대개 8비트 코드를 사용하고, 한자를 사용하는 동양권에서는 16비트 코드를 사용 • 같은 8 비트를 사용하는 경우에도 사용하는 코드에 따라 다소 차이점이 있다 • 문자 코드 종류 • ASCII 코드 • EBCDIC 코드 • 한글코드(완성형 / 조합형 코드) • 유니코드(unicode) 등

  6. 텍스트(4) – 문자 코드 • ASCII 코드 • 세계적으로 가장 널리 사용되는 코드 • 기본적으로 8비트를 사용하여 256 개의 문자를 표현 • 8 비트 중 가장 위의 1비트(MSB)를 제외한 7 비트만을 사용하여 128개의 문자를 표현하고 제일 위의 비트는 오류 확인 목적으로 사용 • 독일어, 불어 등 영어의 알파벳 외의 별도의 알파벳을 사용하는 언어를 표현하기 위해서는 8비트 모두를 사용하여 특수문자나 기호를 표현 • IBM 확장 ASCII처럼 최초의 128 ANSI 코드는 ASCII 코드와 같았으나 나머지 128개는 Windows 응용 프로그램의 요구를 충족시키기 위해 정의 되었다

  7. 텍스트(5) – 문자 코드 • EBCDIC 코드 • EBCDIC 코드는 IBM사의 중형 컴퓨터인 IBM360/370/390 시스템에 사용하기 위해 개발된 코드 체계 • 8비트로 나타낼 수 있는 256 개의 코드를 모두 사용하지 않고 약 150개 정도의 코드만을 사용

  8. 텍스트(6) – 문자 코드 • 유니코드 • 컴퓨터와 인터넷의 대중화로 전세계에서 공통으로 사용할 수 있는 코드 체계가 필요 • ISO에서 모든 언어를 표현할 수 있는 유니코드 (UNICODE)를 국제표준으로 정하여 전세계에 보급 • 전세계에 알려진 모든 문자를 포함하고 있으며 8비트 단위인 옥텟(Octet)으로 표현 • 두 개의 옥텟 만을 사용하는 코드에 따르면 한글은 기존의 완성형 코드를 모두 수용하고 최대 11,172자를 표현할 수 있도록 한글 표시영역을 확장하여 기존의 문제점을 해소 • 유니코드는 Microsoft사에서 지원하고 있어 개인용 컴퓨터 환경에서 국제적인 표준으로 등장 • WindowsNT, Windows2000에서 지원

  9. 텍스트(7) – 문자 코드 • 한글 코드 • 한글 코드는 크게 완성형과 조합형의 두 종류가 존재 • 현재 완성형 한글 코드를 주로 사용 • 조합형 한글 코드 • 초성, 중성, 종성에 각각 특정한 코드를 부여하고 이를 서로 조합하는 형태로 사용하는 코드체계 • 자음과 모음에 대해 코드를 부여해 두고 한글의 조합 원리에 따라 순서대로 표현하는 방식 • 완성형 한글 코드 • 2 바이트 (16 비트)를 사용하여 일상생활에서 사용되는 빈도가 높은 한글과 한자를 포함하여 코드를 지정한 경우 • 완성형은 한글 글자 하나하나에 코드를 부여하는 코딩 방식

  10. 텍스트(8) – 문자 코드 • 한글 코드 • 조합형 코드의 경우 조선시대에 사용되던 고어를 포함한 모든 문자를 표현할 수 있다는 장점이 있으나 컴퓨터 통신상에서 한글 전송 시에 글자가 깨어진 채 전송되는 문제점이 있다 • 완성형 코드의 경우에는 모든 한글을 표시할 수 없다는 단점이 있으나 컴퓨터 통신에서 사용하기에 문제가 적게 발생한다는 장점이 있어 현재 국가 표준으로 지정 • 조합형을 사용할 경우 모든 가능한 형태의 글자 표현이 가능하지만, 완성형의 경우는 코드 내에 포함되어 있지 않은 글자들은 표현할 수 없다

  11. 텍스트(9) – 폰트(글자체) • 텍스트 데이터 처리 : 문서 디스플레이 & 출력 • 폰트 사용 A. 비트맵 폰트 B. 벡터 폰트- True Type Font(TTF)

  12. 텍스트(10) – 폰트(글자체) [참고] 비트맵 폰트 & 벡터 폰트 비교: I am VECTOR Font

  13. 텍스트(11) – 폰트(글자체) Windows에서 일반적으로 사용하는 (a) 한글 폰트와 (b) 영문폰트

  14. 텍스트(12) • 파일 저장 방식 • TXT • RTF(Rich Text Format) : 서식 파일 등 • 문서 작성 프로그램의 파일 저장 방식: DOC, HWP 등 (예제) 아래아 한글에서 문서작성 후에 각각 TXT 포맷과 HWP 포맷으로 저장한 다음, 다시 읽기를 한다.

  15. 텍스트(13) • TXT • TXT 포맷으로 운영체제에서 기본적으로 제공하는 텍스트 편집기를 사용하여 만들어진 파일 형식 • ASCII 코드 또는 KS 한글 코드만으로 구성 • 모든 텍스트 편집기나 워드프로세서에서 읽을 수 있다 • 단순한 텍스트 정보를 교환하기 위한 파일 포맷이므로 그래프나 수식 등을 제공하지 않는다

  16. 텍스트(14) • DOC • DOC(Document)는 마이크로소프트사(MS)의 워드를 사용하여 작성된 문서 포맷 • 그래픽 효과, 그림 및 특수 기호, 서식 정보, 탭, 줄 간격 등 워드에서 필요한 모든 정보를 포함하고 있다 • 같은 *.doc 이라는 확장자를 사용하더라도 상위 버전에서 만들어진 파일은 하위 버전에서 읽을 수 없을 수 없다 • 같은 포맷으로 Digital Equipment Corporation (DEC) 에서 Decwrite라는 워드에디터가 있으며 같은 *.doc 이라는 확장자를 사용하나 서로간의 호환성은 없다

  17. 텍스트(15) • HWP • HWP는 한글 워드 프로세서에서 사용하는 문서 포맷 • 다른 워드 프로세서의 경우 완성형 코드를 사용하는데 비해 조합형 코드를 사용하고 있는 특징이 있다 • 그래픽 정보, 수식 정보, 특수문자 등 워드프로세서에 필요한 모든 정보를 포한다

  18. 텍스트(16) • RTF • RTF는 서로 다른 운영 체제 시스템과 서로 다른 워드프로세서 사이에서도 텍스트 파일을 교환 할 수 있도록 위해 사용되는 문서형식 • 문서의 구조에 관련된 정보 역시 화면에서 읽을 수 있는 텍스트로 표시 • 표나 방정식과 같은 복잡한 기능을 사용하지 않는 경우 워드프로세서 사이에 문서를 교환할 수 있는 방법 • 파일 크기가 워드 프로세서 파일에 비해 수 배 이상 커지며 처리에 많은 시간이 걸리기 때문에 서로 다른 워드 프로세서 사이의 교환에만 사용하는 것이 바람직하다

  19. 텍스트(17) • HTML • HTML형식은 일반 TXT형식으로 되어 있어서, 일반 TXT를 편집할 수 있는 편집기라면 조작이 가능 • 형식은 앞장에서 언급하였듯이 인터넷 웹 문서의 표준 형식으로 단순한 텍스트 파일 형식으로 보기에는 적절하지 않을 수 있다 • RTF 형식보다 호환성이 높은 텍스트 문서 포맷으로 등장

  20. 텍스트(18) • XML • XML은 1996년 W3C에서 제안한 것 • 웹 상에서 구조화된 문서를 전송 가능하도록 설계된 표준화된 텍스트 형식 • SGML에서 꼭 필요한 핵심 기능만을 수용 • XML과 SGML간의 변환이 용이 • HTML의 측면에서 보면 기존의 HTML을 확장, 보완 하였기 때문에 지금보다 더욱 복잡한 문서의 생성이 가능하고 구조적인 정보도 포한다

  21. 텍스트(19) • XML의 장점 • 서로 다른 소스로부터 뽑아낸 데이터를 비슷한 것끼리 묶어서 구조화한 데이터를 사용자 인터페이스와 분리가 가능 • 예를 들면, 고객 정보, 구매 주문, 검색 결과, 계산서 지불, 의학 기록, 카탈로그 데이터 및 기타 정보가 XML로 변환되어 HTML 페이지에 데이터를 기록하듯이 쉽게 데이터를 온라인 상에서 교환할 수 있다 • 데이터가 클라이언트에 전달되면 다시 서버로 되돌아가지 않고도 데이터를 조작, 편집이 가능하여 서버의 계산 부하나 대역폭 부하가 낮아진다 • 서로 다른 데이터 소스의 데이터를 XML포맷으로 바꾸면 이들 데이터를 통합하는 일이 용이

  22. 텍스트(20) • 텍스트 데이터 처리 : 문서 편집 • 기본 편집 연산 : 삽입, 지우기, 복사, 옮기기 등 • 문서 포맷 작업: A. WYSIWYG 방식: 아래아한글, MS-Word 등 B. 오프라인 방식: Tex, Latex 등

  23. Report #1 • 다음의 기능을 수행하는 프로그램을 작성하여라 • ASCII 코드 테이블을 출력한다 • 영문 텍스트 파일을 입력받아 ASCII 코드 별로 빈도수를 계산하여 출력한다

More Related