2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

데이터 (Data) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세

강의 내용 데이터(Data) 데이터타입 데이터 품질 데이터 전처리 유사도와 거리

데이터란무엇인가? 데이터(Data) • 데이터 집합이란?속성들(attributes) 로 구성된 데이터 객체들(data objects)의 모임(Collection of data objects and their attributes) • 객체는 레코드, 점, 엔티티, 인스턴스 등으로 불리기도 함 • 속성은 변수(variable), 필드, 특성, 특징 등으로 불리기도 함 • 속성이란? 어떤 객체의 성질/특징(property or characteristic)을 나타냄 • 속성의예: 사람의 경우 이름, 눈 색깔등, 나라의 경우 언어, 종교, 평균기온 등 Attributes Objects

속성 값 (Attribute Values) 데이터(Data) • 속성 값은 속성에 부여되는 수치나 심볼을 의미함(Attribute values are numbers or symbols assigned to an attribute.) • 속성 vs. 속성 값? • 동일한 속성이라 할지라도 다른 속성 값이 부여될 수 있다. • 예제: 키(height)는 미터(meter) 혹은 피트(feet)로 측정될 수 있다. • 다른 속성이라 할지라도 같은 속성 값이 부여될 수 있다. • 예제: 학번(ID)과 나이는 모두 정수 값을 가진다. • 그러나, 속성의 특징(property)은 다를 수 있다. 예를 들어, ID는 8자리 정수이고, 나이는 0 이상 200 이하 등의 제한이 있을 수 있다.

속성의 타입 (Types of Attributes) 데이터(Data) • 범주적(정성적) 속성(categorical attributes) • 명목형(이름형, nominal): 상이한 이름들을 나타내며, 객체를 구분하는데 사용한다. • 예: 학번, 눈동자 색깔, 우편번호 • 서열형(순서형, ordinal): 객체의 순서를 부여할 수 있다. • 예: 광석의 경도, 수박의 등급, 도로 번호 • 수치적(정량적) 속성(numerical attributes) • 구간(interval): 속성 값들간의 차이가 의미가 있으며, 측정의 단위가 존재한다. • 예: 달력의 날짜, 섭씨 및 화씨 (기준 온도 대비 상대적 온도) • 비율(ratio): 속성 값들간의 차이와 비율 모두가 의미가 있다. • 예: 길이, 시간, 카운트, 절대온도

속성 값의 특징(Properties) 데이터(Data) • 속성의 특징을 기술하기 위한 성질 • 구분(distinctness):  ,  (  ) • 순서(order):  ,  ,  ,  • 덧셈(addition):  ,  • 곱셈(multiplication):  ,  • 상기 성질에 의한 속성 값들의 특징 • 명목형(nominal): 구분 • 순서형(ordinal): 구분, 순서 • 범위(interval): 구분, 순서, 덧셈 • 비율(ratio): 구분, 순서, 덧셈, 곱셈

이산 및 연속 속성 데이터(Data) • 이산 속성 (Discrete Attribute) • 셀 수 있는 값들의 유한 또는 무한 집합 • 예: 우편번호, 카운트, 문서 집합에 포함된 단어들의 집합 • 주로 정수 변수로 표현함 • 이진 속성(binary attribute)은 이산 속성의 특수한 형태임 • 연속 속성 (Continuous Attribute) • 속성값으로 실수를 가짐 • 예: 온도, 키, 무게 • 연속 속성은 일반적으로 부동소숫점변수로 표현됨(그러나, 엄밀하게 말해서 부동소수점 변수도 이산 속성임)

데이터 집합의 타입 (Types of Data Sets) 데이터(Data) • 레코드 기반 데이터 • 데이터 행렬 (Data Matrix) • 문서 데이터 (Document Data) • 트랜잭션데이터 (Transaction Data) • 그래프기반 데이터 • World Wide Web • Molecular Structures • 서열형데이터 (Ordered Data) • 공간 데이터 (Spatial Data) • 시간데이터 (Temporal Data) • 순차 데이터 (Sequential Data) • 유전자 시퀀스 데이터 (Genetic Sequence Data)

데이터 집합의 일반적 특징 데이터(Data) • 차원(Dimensionality) • 객체(레코드)를 구성하는 속성의 수이다. • 고차원인 경우 차원의 저주(curse of dimensionality) 문제를 일으키며, 이의 해결을 위해 차원 감소(dimensionality reduction)를 사용한다. • 희소성(Sparsity) • 객체대부분이 0인 값을 갖는 경우를 말한다. • 주로 1% 이내만 0이 아닌 값을 가지면 희소(sparse)하다 말한다. • 카운트 등을 사용하여 데이터를 표현한다. • 해상도(Resolution) • 패턴은 스케일(scale), 즉 해상도에 따라 달라질 수 있다. • 예: 지구 표면은 미터 단위로 표현하면 평평하지 않으나, 수십 Km 단위로 표현하면 상대적으로 매우 매끈하다.

레코드 데이터 데이터(Data) 레코드들의 모임으로 구성된 데이터를 의미하며, 각 레코드는 고정된 수의 속성들로 구성되어 있다. (Data that consists of a collection of records, each of which consists of a fixed set of attributes.)

데이터행렬 (Data Matrix) 데이터(Data) 고정된 수의 수치 속성들로 구성된 경우, 하나의 객체(레코드)는 다차원 공간의 하나의 점으로 볼 수 있다. 이 같은 데이터는 m x n 행렬로 표현되며, m개의 행(row)은 각각 객체를, n개의 열(column)은 각각 속성을 나타낸다.

문서 데이터 (Document Data) 데이터(Data) • 각 문서는 용어 벡터(term vector)로 표현할 수 있다. • 각 용어는 벡터의 컴포넌트(혹은 속성)에 해당한다. • 각 컴포넌트의 값은 해당 용어가 문서에 몇 번 나타났는지의 숫자에 해당한다.

트랜잭션 데이터 (Transaction Data) 데이터(Data) • 특별한 타입의 레코드로서, 각 레코드(트랜잭션)는 아이템들의 집합이다. • 연관규칙 분석에서는 장바구니 데이터(market basket data)로 불린다. • 예: 식품점에서 한 명의 고객이 한 번에 구매한 제품들의 목록

그래프 데이터 (Graph Data) (1/3) 데이터(Data) • Graph G = (V, E) • V = 정점(노드)의 집합 (set of vertices, set of nodes) • E = 에지(아크, 링크)의 집합 (set of edges, set of arcs, set of links)

그래프 데이터 (Graph Data) (2/3) 데이터(Data) HTML 문서 집합  그래프 표현 가능

그래프 데이터 (Graph Data) (3/3) 데이터(Data) 화합물 데이터 (Chemical Data) 소셜 네트워크 데이터

서열(순서) 데이터 (Ordered Data) (1/4) 데이터(Data) 트랜잭션들의 시퀀스 (sequences of transactions)

서열(순서) 데이터 (Ordered Data) (2/4) 데이터(Data) 유전자 시퀀스 (genome sequences)

서열(순서) 데이터 (Ordered Data) (3/4) 데이터(Data) 시계열데이터 (time-series data)

서열(순서) 데이터 (Ordered Data) (4/4) 데이터(Data) 시공간 데이터 (Spatio-Temporal Data)

데이터품질 문제 데이터(Data) 노이즈(noise) 이상치 (outliers) 누락 값 (missing values) 중복 데이터 (duplicate data)

노이즈(잡음) 데이터(Data) 노이즈는 원본 값을 변경시키는 것을 의미한다.(Noise refers to modification of original values.) 노이즈 예: 음성의 왜곡, TV스크린의 흔들림

이상치 (Outliers) 데이터(Data) 데이터 집합 내의 다른 객체들과는 (상당히, considerably) 다른 특징을 갖는 객체를 의미한다.

누락 값 (Missing Values) 데이터(Data) • 누락 값이 발생하는 원인 • 정보 수집이 이뤄지지 않음 (예: 신체 검사에서 어떤 사람이 몸무게 측정을 거부함) • 일부 속성이 모든 경우에 적용되지 않음 (예: 연소득 속성은 아이들에게 적용되지 못함) • 누락 값의 처리 • 해당 데이터 객체를 제거한다. • 누락 값을 추정한다. (회귀분석 등을 통해 값을 추정하여 이용한다.) • 분석 과정에서 누락 값은 무시한다. • 모든 가능한 값으로 대치한다.

중복 데이터 (Duplicate Data) 데이터(Data) • 데이터집합은 중복되거나 거의 중복된 데이터 객체를 포함할 수 있다.(Data set may include data objects that are duplicates, or almost duplicates of one another.) • 특히, 이종의 출처(heterogeneous sources)로 부터 데이터를 수집할 때 주로 발생하는 이슈이다. • 예: 한 사람이 복수의 이메일 주소를 가지는 경우 • 데이터 정제 (data cleaning) • 중복데이터 문제를 다루는 과정을 의미한다.

데이터 전처리(Data Preprocessing)의 종류 데이터(Data) 집계(aggregation) 샘플링 (sampling) 차원 축소 (dimensionality reduction) 특징 선택 vs. 특징 추출 (feature selection vs. feature extraction) ...

집계 (Aggregation) (1/2) 데이터(Data) • 두 개 이상의 속성들을 하나의 속성으로 (혹은 두 개 이상의 객체들을 하나의 객체로) 통합함(combining) • 집계의 종류: 합계, 평균, 최대값, 최소값 등 • 집계의 목적 • 데이터 축소(data reduction): 속성 혹은 객체의 수를 줄인다. • 스케일 변화: 작은 스케일을 큰 스케일로 변경한다.(예: 동 단위 데이터를 시 단위 데이터로다시 도 단위 데이터로 집계함) • 보다 “안정된” 데이터를 만듦: 집계된 데이터는 변동성이 보다 작다.(예: 매월 치르는 모의고사 성적보다, 이들을 평균한 성적이 보다 변동성이 작다.)

집계 (Aggregation) (2/2) 데이터(Data) • 호주의평균 월별/연별 강수량 예제 • 아례 사례는 1982-1983년 호주 평균 월별/연별 강수량에 대한 표준편차 히스토그램이다. • 평균 연별 강수량은 평균 월별 강수량 보다 적은 가변성을 보인다.

샘플링 (Sampling) 데이터(Data) • 샘플링은 전체 데이터 중 일부만을 선택하는 주요 기술이다. • 샘플링은 사전 조사(preliminary investigation)에서 사용되기도 하고, 실제 최종 데이터 분석에 사용되기도 한다. • 통계학자들은 전체 데이터 분석이 너무 고비용에 시간이 오래 걸리기 때문에 샘플링을 사용해 왔다. • 데이터 마이닝에서 샘플링이 종종 사용되는 이유 역시 전체 데이터를 처리하는 것이 너무 고비용에 많은 시간이 걸리기 때문이다. • 효과적인 샘플링이란?“샘플을 사용한 경우와 전체 데이터를 사용한 경우가 거의 동일한 결과를 얻어야 한다”

샘플링의 종류 데이터(Data) • 랜덤 샘플링 • 특정 아이템이 선택될 확률이 모두 동일하다. • 무대체 샘플링(sampling without replacement) • 대체 샘플링(sampling with replacement)  동일 아이템이 중복 선택될 수 있음 • 층화 샘플링(Stratified Sampling) • 희귀 클래스들이 존재하는 경우, 이 클래스의 아이템들을 포함하도록 샘플링해야 한다. • (1) 데이터를 몇 개의 파티션으로 분해한 후,(2) 각 파티션에서 랜덤 샘플링을 수행한다.

차원의 저주 (Curse of Dimensionality) 데이터(Data) • 차원이 증가할수록 데이터가 급격하게 희소하게 분포한다. 기존 인덱스가 잘 동작하지 않으며, 마이닝 결과가 부정확해 진다. • 차원 축소 (Dimensionality Reduction) • 목적 • 고차원  저차원 변환을 통해, 차원의 저주를 피한다. • 데이터 마이닝을 수행하는데 있어서의 메모리 양 및 수행 시간을 줄인다. • 경우에 따라서, 무관한 데이터를 제거하거나 노이즈를제거할 수 있다. • 주요 기술 • Principle Component Analysis (PCA) • Singular Value Decomposition (SVD) • Discrete Fourier Transform (DFT)

특성 선택과 특성 추출 데이터(Data) • 특성 선택(Feature Selection) • 전체 속성 중에서 몇 개의 대표적 속성만을 선택하여 차원을 축소한다. • 축소 과정이 매우 간단하나,대표 속성이 객체 전체를 잘 반영해야만 차원 축소의 성능이 좋다. • 특성 추출(Feature Extraction) • 전체 속성 값들을 변환하여 몇 개의 새로운 속성을 생성함으로써 차원을 축소한다. • 축소 과정이 다소 복잡하나,새롭게 생성된 속성이 전체 속성 값들을 잘 반영하는 특징을 가진다.

유사도와 비유사도 데이터(Data) • 유사도(Similarity) • 두객체가 얼마나 닮았는지를 나타내는 수치(측정) 값 • 두 객체의 닮은 정도가 높을수록 높은 유사도를 가짐 • 비유사도(Dissimilarity) • 두 객체가 얼마나 다른지를 나타내는 수치(측정) 값 • 두 객체의 닮은 정도가 높을수록 낮은 비유사도를 가짐

단순 속성에 대한 유사도/비유사도 데이터(Data)

유클리디안(Euclidean) 거리 데이터(Data) • 유클리디안 거리의 정의 • n = number of dimensions (attributes) • pk, qk = value of the k-th dimension

Minkowski거리 (1/2) 데이터(Data) • Minkowski 거리(유클리디안 거리의 일반화) • n = number of dimensions (attributes) • pk, qk = value of the k-th dimension • r = 1 : Manhattan distance, city block distance, or Hamming distance 각 축으로 떨어진 정도를 합한 거리 (도심에서 도로를 이동할 때의 거리) • r = 2 : Euclidean distance 두 점 간의 직선 거리 • r = : Supremum distance 두 점의 최소값/최대값 사이의 거리

Minkowski거리 (2/2) 데이터(Data)

코사인 유사도 (Cosine Similarity) 데이터(Data)

상관관계 (Correlation) 데이터(Data) 상관관계는 두 객체간의 선형 관계(linear relationship)을 나타낸다. 상관관계는 (1) 데이터를 정규화한 후, (2) 내적으로 구한다.

상관관계의 시각화 데이터(Data)

2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

Presentation Transcript

Thank You! 2014 Conference Supporters

NCQA PCMH 2014

The 2014 NAT Test Administration Guidelines

The research for Cricket Foundation was carried out between: 28 / 03 / 2014 and 02 / 04 / 2014

WELKOM

802.11 May 2014 Closing Reports

Α ΥΤΟΔΙΟΙΚΗΤΙΚΕΣ Ε ΚΛΟΓΕΣ 2014

ULUTEK A.Ş. 14.04.2014

2014 년 유초중등 교육통계조사 담당자 연수

Haziran 2014

2014/9/6

2014/9/20

Haziran 2014

2014/9/25

Personal Property March 1, 2014

从游击队到正规军

Spotkanie informacyjne FIO 2014

BILANCIO DI PREVISIONE 2014

热烈欢迎 2014 级新读者

CIA Toolbox: 2013-2014

2014 CRCT Pre-Administration Workshop February 2014