4. 사운드 데이터의 표현과 처리

4. 사운드 데이터의 표현과 처리 1. 소리의 특성 음원(sound source) : 공기 진동을 유발하는 물체 음파(sound wave) : 음원에 의해 발생된 진동 소리의 특성  음향학적인 면에서 볼 때 음원으로 부터 발생된 소리는 장해물에 의해 반사되는 성질을 갖는다.  소리는 주변의 벽, 물체의 수, 음원과 장애물과의 거리, 장해물의 크기, 음원과 장해물과의 놓여진 각도 등에 따라 그 특성이 달라짐.  물체의 재질에 따라 소리의 일부가 소멸 또는 흡수됨  반사된 두 소리의 파형이 180 의 위상 차이를 갖게 되면 두 소리는 상쇄되어 소멸됨 둘 이상의 소리가 합쳐질 때 주파수가 약간 상이하게 변화하는 두개의 유사한 소리에서는 또 다른 화합음을 발생하기도 함 주파수와 진폭은 소리의 특징을 결정하는 중요한 요소임

주파수 주파수(frequency)  전파나 음파 등이 반사 또는 굴절하여 파동의 방향을 주기적으로 바꾸는 현상이 1 초 동안 반복되는 횟수  단위 : Hz, KHz, MHz 1 Hz = 1 초 동안에 하나의 파동이 발생 1 KHz = 1,000 Hz, 1 MHz = 1,000 KHz  인간의 가청주파수는 20 Hz ~ 20 KHz  주파수는 음의 높낮이를 결정하는 중요한 요소임(주파수가 높으면 고음, 낮으면 저음 발생) 2 4 3 1 파동의 수 진폭 + 0 - 시 간 2 4 3 1 6 8 7 2 4 5 3 1 파동의 수 진폭 + 0 - 시 간 2 4 3 1 파동 주파수

+1 +1 +1 0 0 0 -1 -1 -1 + + + +1 +1 +1 0 0 0 -1 -1 -1    +2 +2 +2 +1 0 0 0 -1 진폭의 합성 진폭(amplitude)  파동의 최고 점에서 최저 점까지의 거리  전파의 세기 또는 소리의 크기를 결정, 음파의 진폭이 클수록 소리가 커지고 진폭이 작으면 소리도 작아짐  두 가지 이상의 소리가 더해질 때 진폭이 더해져 더욱 큰 소리를 발생함  데시벨(dB) : 소리의 강도(크기, intensity))를 나타내는 단위 -2 -2 -2

소리의 강도 •  데시벨(decibel : dB) •  소리의 강도(크기, intensity))를 나타내는 단위 •  dB = 20 log 10 (A/B) • A : 데시벨 크기 값을 알고자 하는 소리의 강도 • B : 기준이 되는 소리 강도로서 B=2.83*10 - 4 dyne/cm2 • 1dyne는 1g 질량의 물체에 1cm/sec2의 가속도를 주는 힘의 크기 • 사람은 약 100 dB 에서 120 dB 정도의 소리에 대하여 청각적으로 고통을 느낌(threshold of pain)

아날로그 신호의 디지털 변환 과정 아날로그 신호의 디지털 변환 과정 ADC : Analog-to-Digital Converter DAC : Digital-to-Analog Converter : 디지털 데이터 음향 신호의 변환 • 물리적 현상으로 얻어진 아날로그 음향 신호를 멀티미디어 시스템에서 활용하기 위해서는 이 신호를 디지털 형태의 데이터로 변환해야 함 •  디지털 데이터로의 변환 시 장점 •  신호의 변형 최소화 •  데이터의 가공과 전송이 용이 디스크 DAC 아날로그파 ADC 메모리 아날로그파

Sampling Rate Sampling Rate Sampling Rate(KHz) 장치명 NeXT Workstation, 전화표준 MPC-I의 오디오 규격 CD-ROM/XA(표준) Macintosh, MPC-I의 오디오 규격 Digital radio, 일본 HDTV CD-ROM/XA(고품질) CD, MPC-II의 오디오 규격 가정용 DAT 8 11.025 18.9 22.05 32 37.8 44.1 48  Sampling rate  단위 시간 당 신호를 획득하는 횟수  샘플수/초 또는 Hz, KHz 단위로 표현  sampling rate 이 높을수록 음질이 향상됨(WHY?)  아날로그 신호가 갖는 주파수의 빠르기 보다 2 배 이상의 빠르기를 가지고 sampling하면 원래 소리 신호와 거의 차이가 없는 소리 정보를 얻을 수 있다. 따라서 f0[Hz]의 재생음을 얻기 위해서는 2 f0[Hz]의 주파수로 sampling할 것을 요구함 음향 신호의 변환(Sampling Rate)

Sampling Rate과 Resolution Sampling Rate과 Resolution  Resolution(분해능)  Sampling된 신호를 얼마나 정밀하게 표현하는가를 나타내는 척도(진폭을 분할하는 간격)  진폭을 분할하는 단계가 많을 수록 음질 향상, 적을 수록 음질 저하  Resolution의 단위 : bit 8 bit : 256 단계로 표현 16 bit : 65,656 단계로 표현 음향 신호의 변환(Resolution)

PCM 방식의 데이터 구조 PCM 방식의 데이터 구조 DPCM 방식의 데이터 구조 DPCM 방식의 데이터 구조 MSB LSB 12 0 0 0 0 1 1 0 0 0 0 1 0 0 1 0 0 +2 +4 14 0 0 0 0 1 1 1 0 18 MSB LSB 0 0 0 1 0 0 1 0 12 1 1 1 0 1 0 1 0 0 0 0 0 1 1 0 0 -6 -2 10 0 0 0 0 1 0 1 0 음향 신호의 표현  PCM(Pulse Code Modulation) 방식  소리의 파형을 특정한 주파수로 sampling한 후 신호의 크기를 ADC로 변환하여 메모리에 저장함. 소리재생을 위해 필요한 시간에 데이터를 읽어서 DAC로 소리 파형을 재생한다.  장점 : 신호의 합성과정이 간편하고 음질이 뛰어남.  단점 : sampling frequency와 resolution이 높을 수록 저장 공간을 많이 차지  DPCM(Differential PCM) 방식  현재 신호와 이전 신호를 비교하여 두 신호의 증감분만을 기록하는 방식  4 비트의 데이터 중 첫째 비트는 신호의 증가(0) 또는 감소(1) 여부를 표시하고 나머지 3 비트에 증감분 기록  ADPCM(Adaptive Differential PCM) 방식  변화 폭이 클 때는 신호 차이 값을 표현하는 단위를 크게 하고 그렇지 않은 경우는 반대로 적게 하여 정밀한 신호 표현과 함께 신호의 변화 폭이 클 때에도 잘 적응할 수 있도록 하는 방법  CD-I(CD Interactive)에서 사용

음향 신호의 변조  FM(Frequency Modulation) 방식  음향에 대한 파형을 미리 기억시킨 후 이 파형을 직접 조작해 새로운 파형을 만들어 내는 방식

음향 신호의 저장과 재생 종류  Waveform(wave) 파일(.wav의 확장자 화일)  MS Windows 상에서 음성이나 음악을 재생시키기 위해 소리정보를 저장한 화일  PCM 코딩 기법에 의해 생성된 디지털 데이터 형태  Sound Card 가 ADC, DAC 역할 수행  Sampling Frequency 는 44.1 KHz, 22 KHz, 11 KHz 지원  Wave 파일 재생 소프트웨어의 가능한 연산 전방향/역방향 재생, 느리거나 빠른 속도의 재생, mixing 혹은 편집  CD-Audio  44.1 KHz frequency로 sampling 됨  각 sampling 데이터는 16 비트

기술발전과정 기술발전과정  사람의 음성을 인공적으로 생성하는 것  음향학적인 측면과 언어학적인 측면 모두에서 고려되어야 함  음성학적 측면 : 인간의 발성은 각 개인의 신체 특성에 따라 서로 다른 차이를 가지며 이로 인해 서로 구별되는 음성 신호를 냄. 인간 음성에 가까운 소리를 내기 위한 연구 수행  언어학적 측면 : 동일한 단어에 대하여 그 단어의 문장 내의 위치, 문맥에 따라 매우 다른 방식으로 발음 함. 소리 내고자 하는 음성 정보를 분석하여 실제 대화에 가까운 음성 신호 생성 연구 음성 합성 1922 년 J.Q. Stewart에 의한 합성기  세계 최초의 전기식 음성 합성기 resonance circuit을 이용한 모음 생성 수준 1939 년 H. Dudley의 음성 합성기 VODEC 개발  페달과 10 개의 키보드를 갖는 인터페이스  자음과 모음을 내는 모듈로 각각 분리  기존 개념이 지금의 음성 합성 기술에서도 사용 현재 DSP(Digital Signal Processing)으로 제작

음성의 기억과 재생 방식  파형 코딩 방식(PCM, ADPCM, ADM 방식)  Analysis-Synthesis(Formant 방식, LPC)  음성 생성 모델에 근거를 둔 합성 방식으로 음원의 특성과 음성 스펙트럼 재생을 목표로 함  Formant 방식 : 파형을 스펙트럼 분석기로 분석하여 각 주파수의 분포를 구하는 방식(모음과 자음 분리). 이 때 분리된 주파수를 Formant라 함  단점 : 양질의 합성음을 얻을 수 있으나 formant 변화를 추출하기 위해 방대한 음성 신호를 분석해야 함  대표적 제품 : Votrax(음소와 지속 시간, 피치를 입력 받아 합성을 수행)  LPC(Linear Prediction Coding) 방식 : 모든 스펙트럼 성분 포함  장점 : 적은 bit를 가지고 실용적인 음질을 얻을 수 있음  단점 : 파형 코딩에 비애 음질이 떨어지고 음성 합성 파라메터를 추출하는 절차가 복잡함  혼합 부호화 방식  시간 영역을 기준으로 하는 합성 방식  대표적 시스템 : REPL(Residual Excited Linear Prediction) vocoder, APC(Adaptivr Predictive Coder)  주파수 영역을 기준으로 하는 합성 방식  대표적 시스템 : SC(Sub-band Coder), ATC(Adaptive Transform Coder)  파형 부호화 방식에 비하여 합성음의 데이터 양이 훨씬 적으나 시스템 구성이 복잡한 단점이 있다

기술발전과정 음성합성 단계 음성 합성 단계 문서 전처리 단계  기호, 수자, 약어 등을 찾아내고 문장 내의 의미를 파악하여 어떻게 발음할지를 결정  예 : $30에서 ‘$’ 기호 발음 결정 문장 분석 단계  Syntax tree를 생성 사전 참조 단계  사전에 있는 문장 형태와 syntax tree를 대조하여 가장 적합한 문장형태(감탄문, 의문문)를 선택하고 각 단어들의 억양 결정 단어 사전 참조 음조 처리 단계  억양 정보와 단어 사전을 통하여 각 단어에 대한 구체적 발음 결정 음성합성 단계  실제 음성의 파형을 생성하는 단계  음소, 음절 등을 생성하고 조합하여 사람 소리에 가까운 음성 신호를 내도록 함

음성인식 시스템의 처리과정 음성인식 시스템의 처리과정 음성 인식  Pattern matching 방식  화자를 대표할 수 있는 패턴들을 미리 작성한 다음 시험 패턴과 기준 패턴 사이의 유사도를 측정하여 시험 패턴의 신원을 파악하는 방법  통계적 성질을 이용한 방법  각 화자에서 추출한 음성 요소들을 오랜 시간 동안 관찰하여 통계량을 구한 후 이것으로 신원을 파악하는 방법 음성신호 요소 추출 패턴 작성 시간 보정 시험 과정 기준 패턴 학습 과정 유사도 측정 판단 논리 신원확인

Windows 환경에서의 음향 처리 모형 Windows 환경에서의 음향 처리 모형 음향 처리 모형 응용 프로그램 미디어 제어 인터페이스 소프트웨어 음향 구동기 합성 구동기 MIDI 구동기 디지털 음향 FM 합성 MIDI 음향 입력 음향 출력 MIDI 입출력

시스템별 음향 규격 시스템별 음향 규격 시스템 명 Resolution(bit) 최대 샘플링 비율(KHz) 출력 채널의 수 Mac(all type) 8 22 1 Mac(Newer) 16 64 4 Apple IIgs 8 32 / > 70 8(스테레오) PC/Sound Blaster V1 8 13/22 1 PC/Sound Blaster V2 8 15/44.1 1 Atari ST 8 22 1 Atari Falcon 030 16 50 8(스테레오) Amiga 8 29 4(스테레오) Sun Sparc U-LAW 8 1 Sun Sparc St.10 U-LAW, 8, 16 48 1(스테레오) NeXT U-LAW, 8, 16 44.1 1(스테레오) SGI Indigo 8, 16 48 4(스테레오) VAXstation 4000 U-LAW 8 1 DEC 3000/300-500 U-LAW 8 1 멀티미디어 시스템별 음향 규격  음질의 결정 요소  샘플링 비율  샘플 당 저장되는 정보의 양(resolution)  기록 채널 수

시스템별 음향 규격 Self-describing 파일 포맷 확장자명 시스템명 파라메터 .au, .snd NeXT, SUN 샘플링 비율, 채널수, encoding 정보 .aif(f), AIFF Apple, SGI 샘플링 비율, 채널수, resolution, 정보량 .aif(f), AIFF Apple, SGI 샘플링 비율, 채널수, resolution, 정보량, (AIFF의 압축 포맷) .iff, IFF/8SVX Amiga 샘플링 비율, 채널수, 장치의 정보 .voc Sound Blaster 샘플링 비율 .wav, WAVE Microsoft 샘플링 비율, 채널수, resolution, 정보량 None, HCOM Macintosh 샘플링 비율(Huffman 압축 사용) .mod, .nst Amiga (샘플의 수 및 재생 방법을 기술) 음향 파일 포맷  Self-describing 포맷  장치와 encoding에 관계되는 파라메터를 헤더에 명시 가능  헤더 필드에 샘플링 장치의 파라메터와 샘플 데이터의 저장 형태 등이 포함됨  Raw 포맷  파라메터가 고정됨

시스템별 음향 규격 파일 포맷 음향 파일 포맷  AIFF(Audio IFF)와 AIFC 포맷  고품질의 소리와 음악 기기들의 정보를 저장하기 위하여 Apple 사에서 개발  SGI를 비롯한 몇몇의 전문 오디오 패키지에 의해 사용됨  AIFC는 AIFF의 확장 버전으로 데이터를 압축하여 저장함  Snd 포맷  NeXT 및 Sun 시스템 등 일부 기종에서 통용되는 음향 파일 규격  음 재생을 위한 SNDSoundStruct 구조 정의, Interface Builder에 음을 기술함

디지털 음성 합성 방식 비교 디지털 음성 합성 방식 비교

데이터 블록 바이트 번호 설 명 시스템별 음향 규격 헤더 (20바이트) 00H~12H 13H 14H~15H 16H~17H 18H~19H 파일 식별자(“Create Voice File”) EOF(파일의 끝을 나타냄) 음향 파일의 첫 번째 데이터 블록의 offset 버전 number 버전 number의 2의 보수 파일 포맷 데이터 블록 1AH~ 타입 명 칭 크기(byte) 수록정보 00 Terminator 0 없음 01 Sound data 2 데이터의 길이 (샘플링 비율, 압축형식 등) 음향 정보 02 Sound 데이터의 길이 음성 데이터 03 Silence 3 (silence 길이, 샘플링 비율 등) Silence 정보 04 Maker 2 마커번호 05 ASCII 문자열 길이 문자열 06 Repeat 2 반복횟수 07 End repeat 0 없음 08 Extended 4 (시간 상수, 채널 모드 등) 확장정보 음향 파일 포맷  VOC 포맷  Creative Lab. 사의 voice 파일 포맷  헤더(파일의 식별자, 데이터가 저장된 곳의 위치, 버전 번호 등을 기술)와 일련의 데이터 블록(데이터의 형식 규정)으로 구성됨

바이트 수 필드명 설 명 4 ‘RIFF’ 식별자 4 length 4 ‘WAVE’ 시스템별 음향 규격 파일 포맷 4 ‘fmt’ 4 length 데이터 블록의 길이 2 Format tag 파일의 WAVE 포맷 category를 나타냄 0001H=Microsoft PCM 포맷 0101H=IBM U-LAW 포맷 0102H=IBM A-LAW 포맷 0103H=IBM AVC ADPCM 포맷 2 channel Wave 데이터로 표현되는 채널 수 1=mono, 2=stereo 4 samples per second 각 채널의 샘플링 비율 4 bytes per second Wave 데이터의 전송률 (재생 소프트웨어는 이 값을 이용하여 버퍼의 크기를 예측함) 2 bytes per sample 모든 채널의 샘플 바이트 수 2 bits per channel 각 채널의 샘플 바이트 수 4 ‘data’ 식별자 4 length wave 데이터의 크기 n sample wave 데이터 음향 파일 포맷  WAV 포맷  IBM사와 Microsoft사에 의해 만들어진 음향 파일 포맷

시스템별 음향 규격 지원되는 입력 파일의 규격 형태 Sampling 비율 resolution .wav 8, 11, 22, 44KHz 8 or 16 bit, mono 음 .au 8, 22, 44KHz Mono 음 .pcm 8, 11, 22, 44KHz 8 or 16 bit, mono 음 음향 파일 포맷  Real Audio Encoder  Netscape 사에 의해 개발되었으며 각 종의 다양한 음향 포맷을 real audio 포맷으로 변환하는데 사용  부호화된 real audio 파일은 real audio 서버 또는 real audio player를 사용하여 인터넷 상에서 실시간으로 재생됨  알고리즘 14.4 알고리즘 : mono 음의 AM 품질의 음향 지원하며 14.4 Kbps 모뎀을 통하여 인터넷 접속을 가능하게 함 28.8 알고리즘 : mono 음의 FM 수준 음향을 지원하며 인터넷을 통하여 이 음향을 전송하기 위해서는 28.8Kbps 모뎀을 갖추어야 함  .wav, .au, .pcm, raw 포맷으로 작성된 음향을 부호화 가능  Sound Card로부터 입력되는 음향을 실시간으로 부호화 가능  CD로부터 출력되는 음의 부호화도 가능

MIDI(Musical Instrument Digital Interface)  MIDI 서로 다른 회사에서 제조한 악기들간에 정보를 교환하는 규칙과 접속장치의 규격을 정하여 놓은 것  서로 다른 회사에서 제조한 악기들간에 음악 정보를 교환하기 위한 목적으로 창출되었지만 현재는 컴퓨터에 까지도 관련시켜 적용하고 있음  MIDI 악기를 이용한 음악의 녹음, 재생을 위해서는 MIDI 기능이 내장된 사운드 카드를 이용하거나 별도의 MIDI 인터페이스와 모듈을 이용해야 함  MIDI 악기가 구현해 낼 수 있는 모든 기능을 수치로 받아들여 처리  일본의 Roland 사가 IBM PC 확장 슬롯을 통하여 MIDI 데이터를 주고받을 수 있는 MPU-401 카드를 개발하면서부터 시작됨  보급된 MIDI 카드의 종류  일본 Roland사의 MPU-401, MPU-IPC-T, LAPS-T  CMS 사의 CMS-401, CMS-404  Music Quest사의 MQX16, MQX32 등의 MQX 시리즈

MIDI 장치-1 MIDI-OUT MIDI-IN MIDI 장치-2 MIDI-THRU MIDI 장치-3 MIDI-IN MIDI 시스템의 기본 구성 MIDI 신호 단자  DIN(독일 공업 규격) connector  컴퓨터의 MIDI 인터페이스에 MIDI 장치 연결을 위한 connector  둥근 모양의 5 pin  신호단자 MIDI-IN (다른 MIDI 장치로 부터 신호 IN) MIDI-OUT(다른 MIDI 장치로 신호 OUT) MIDI-THRU(MIDI-IN으로 도착된 정보를 다른 MIDI 장치로 통과, 3~4 대 이상의 장치 접속도 가능해 짐)

MIDI chain MIDI 장치-1 (master) MIDI-OUT MIDI-IN MIDI -THRU Box (master) THRU THRU MIDI 장치-2 (slave) MIDI-IN MIDI 장치-3 (slave) MIDI-IN MIDI 장치-4 (slave) MIDI-IN

MIDI 의 protocol과 동작  MIDI channel  정보 전달을 위한 16개 channel 제공  master와 slave 사이의 채널이 설정되면 master는 채널 메시지를 이용하여 slave를 제어함  MIDI 메시지  여러 개의 데이터 단위로 구성되며 하나의 데이터 단위는 10개의 비트로 구성  10개의 비트 중 2개의 비트는 start와 stop 비트로서 전송시의 동기화를 위해 사용됨  나머지 8비트는 순수 데이터 비트  데이터 단위들은 31.25 Kbaud의 일정한 전송속도로 MIDI 네트워크 상에 broadcast 됨  MIDI 악기들은 broadcast되는 데이터를 참조하여 자신이 해야 할 행동을 결정함  MIDI 메시지는 논리적 의미의 기본 전송 단위임  MIDI 메시지는 Status Byte(명령어)와 Data Byte(파라메터)로 구성됨

MIDI 메시지의 형태 MIDI 메시지의 형태 Status Byte(HEX) Data Byte 1 Data Byte 2 의 미 비 고 8n 0k 0v Note off 건반의 중단 시점을 명령 9n 0k 0v Note on 건반을 어느 정도 강하게 누를 것인지를 명령 An 0k 0v Polyponic key pressure (건반에 관련) Bn 0c 0v Control change 신디사이저의 설정 상태를 바꾸도록 명령 모듈레이션(비브라토, 트레몰로 등)이나 댐퍼 페달, 소프트 페달 등 주로 연주의 표현을 다듬기 위한 것 Cn 0p Program change 음색의 교환을 명령. Slave는 이 명령에 따라 기록된 음색을 변경함 Dn 0v Channel pressure En 0v 0v Pitch changes n : 소리 채널 번호 - 각 악기에 할당된 채널 번호 k : 음조(note) 번호 - 음표 선택에 관련 v : 속도(velocity) - 건반을 치는 속도나 세기 관련 c : 제어기(controller) - pedal의 세기를 표현 p : 프로그램 번호 - 저장되어 있는 128가지의 voice중 하나를 지정하는데 이용

MIDI 메시지의 형태 MIDI 소프트웨어  MIDI sequencer  MIDI 장치로부터 입력된 음악 데이터를 MIDI 파일로 저장하거나 편집 또는 재생 프로그램  각 트랙(채널)의 연주 상황을 컴퓨터 모니터로 보여 주고, 초기에 할당된 악기의 음색, 채널 번호, 볼륨의 값들을 수정 가능하게 함  재생, 정지, 빨리 감기, 되감기 등의 여러 가지 부수적 기능 제공  Sequencer 프로그램의 종류 Passport Design 사의 Master Tracks Pro(MS-Window 용 프로그램) Dynaware USA 사의 Ballade Twelve Tone System 사의 Cakewalk Professional

4. 사운드 데이터의 표현과 처리

4. 사운드 데이터의 표현과 처리

Presentation Transcript