160 likes | 306 Views
Pattern 인식을 이용한 Noise 검출. 200811459 조휘열. 목 차. 개 요. 목 적. 데이터 마이닝. 데이터 수집 Target Data Preprocessing & Transform Data Data Mining. 결 론. 개 요 . 음악 파일 분석. 음악 파일 역시 bit sequence 로 표현 bit sequence 속에 pitch, duration, key-signal, time-signal
E N D
Pattern 인식을 이용한 Noise 검출 200811459 조휘열
목 차 • 개 요 • 목 적 • 데이터 마이닝 • 데이터 수집 • Target Data • Preprocessing & Transform Data • Data Mining • 결 론
개 요 • 음악 파일 분석 • 음악 파일 역시 bit sequence로 표현 • bit sequence 속에 pitch, duration, key-signal, time-signal • 정보가 모두 포함 • 음악 파일에는 일정한 패턴이 있을 것이다 • 그 패턴을 우리는 ‘멜로디’라고 할 수 있음 • 보다 계산된 음악이 가능 • 표절 검사에도 사용할 수 있음 • 제한 사항 • 음악 파일 하나에는 수많은 bit sequence가 있고, 그 크기가 방대 • 하나의 음악이 아닌 여러 음악을 보아야 한다.
목 적 • 패턴을 이용해서 잡음을 추출 +잡음 +패턴
데이터 수집 (1/2) • 출처 : http://archive.ics.uci.edu/ml/datasets/Bach+Chorales • 바흐의 화음 • 소프라노로 구성되어 있으며 • Rawdata format은 lisp 기반
데이터 수집 (2/2) • Raw Data
데이터 마이닝(1/8) • Attribute & Domain • start_time : 1/16 음표로 계산하여 수치화한 시작 시간 • {0,1,2,3, … } • pitch : 음높이. MIDI number로 표현한다 • <ex> C4 = 60, C#4 = 61, C5 = 72 • domain = {60, … , 75} • duration : 음의 지속 길이 {1,2,3, … , 16} • keysignal : flat과 sharp의 수. 양수면 sharp, 음수면 flat • {-4, … , 4} • timesignal : 한 마디의 1/16음표 개수 {12, 16} • fermata : 늘임표 등 기타 표현 {0, 1}
데이터 마이닝(2/8) • Target Data • evalattribute를 생성 • eval (1: 원본 데이터 / 0: 잡음 데이터) • Preprocessing & Transform Data • lisp파일을 excel로 옮김 • 첫 번째 화음과 두 번째 화음을 구별하기 위한 ‘no’ attribute 추가 • 각 attribute의 domain을 이용하여 임의의 값들을 잡음으로 추가
데이터 마이닝(3/8) • 전체 스트림
데이터 마이닝(4/8) • 일반 추론 부분 • 패턴을 이용하여 단순한 추론을 하는 부분 • eval만 target data
데이터 마이닝(5/8) • 일반 추론 부분 (계속)
데이터 마이닝(6/8) • 규칙 분석 부분
데이터 마이닝(7/8) • 규칙 분석 부분 (계속)
데이터 마이닝(8/8) • Knowledge • Noise 검출!
결 론(1/2) • Clementine 11.1 을 이용하여 Noise 검출 • 4477개의 data set을 기준으로 • Noise를 직접 만들고 • 패턴을 분석하여 • 오류를 검출해냄 • 문제점 • 생성한 1583개의 Noise 중에서 50개밖에 검출되지 못하는 결과? • 임의로 생성한 Noise가 Noise가 아닌 것과 패턴이 일치 • 기존 data set의 양이 충분치 못하여 확실한 pattern 검출이 안됨
결 론(2/2) • 각각의 attribute를 Modeling한 결과와 한꺼번에 동일한 Modeling 알고리즘을 돌렸을 경우 차이를 확인 • 보다 많은 data set과 많은 데이터를 처리할 resource가 충분하다면 보다 정확한 패턴을 찾아 낼 수 있을 것이며, 이는 data set의 Noise를 더욱 충분히 줄일 수 있을 것으로 기대