클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

2014 한국 멀티미디어학회 춘계 학술대회 클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘 김태훈* 장미영 장재우 전북대학교 데이터베이스 연구실 2014.5.30

목 차 • 서론 • 관련 연구 • 연구 동기 • 클라우드환경에서 그리드 기반 색인 키 생성기법 및 암호화 알고리즘 • 성능 평가 • 결론 및 향후 연구

서 론 • 데이터베이스 아웃소싱의 관심 고조 • 개인 및 소규모의 데이터 소유자가 증가하는 사용자 및 데이터를 효율적으로 관리하고, 사용자에게 개선된 질의 처리 환경을 제공 • 사용자 개인 정보, 이동 궤적, 증권, 또는 의료 정보 등 민감한 정보를 포함 • 데이터베이스 아웃소싱의 장점 • 서비스 요청자(업체, 개인)의 서버관리 비용 절감 • 전문가에 의한 데이터베이스 관리 • 핵심역량 재투자가 가능 • 아웃소싱된 데이터베이스의 악용 • 데이터 암호화 없이 아웃소싱할 경우, 제 3자에게 매도, 다른 용도로 악용될 가능성 존재 • 대용량 센시티브 데이터에 대한 아웃소싱 수행 시, 원본 데이터 유출 방지를 위한 효율적인 데이터 보호기법 요구

서 론 • 기존 클라우드 컴퓨팅 환경의 데이터 보호 기법 • 데이터 보호 기법을 통해 대용량 데이터를 암호화  서비스 제공자에게 아웃소싱 • 질의 처리시, 데이터 복호화로 인해 서비스 제공자에게 원본 데이터가 노출되는 문제점 • 전체 데이터베이스를 복호화 하기 때문에 질의 수행비용이 증가 • 데이터 보호를 지원하는 질의 처리 기법 • 데이터 복호화 없이 정확 매칭, 범위 질의 처리 수행  보안 취약점 문제 해결 • 문제점 • 암호화된 데이터 상에서 다중 컬럼미지원 • 데이터 분석 및 마이닝 수행이 불가 • 다중 컬럼을 지원하여 데이터 분석 및 마이닝을 수행할 수 있는 암호화 기법이 필요

관련 연구 • Order-Preserving Encryption Scheme(OPE) • 타깃 분포를 미리 임의로 정하고, 원본 데이터의 분포를 타깃 분포로 변환하여 실제 값을 변형시키는 기법 • Step1 Model 단계 • 타깃 데이터를 버킷팅하여 각각 버킷 분포를 piece wise linear splines로모델화 • Step2 Flatten 단계 • 각각 모델링한버킷 내의 값을 균일한 분포가 되도록 변환 • Step3 Transform 단계 • 원본 데이터 분포화 타깃 분포로부터 flatten 한 결과의 스케일을 같게 하여 변환함으로써, 원본 데이터 분포의 데이터가 타깃 분포를 따르는 데이터로 변환 • 장점 • 암호화된 상태에서 검색이 용이하며 원본 데이터 유추가 어려워 안정성이 높음 • 단점 • 숫자데이터만 적용 가능하며, 순서 통계량에 의해 원본 데이터 정보 노출 위험이 존재

관련 연구 Application 60 100 800 100 x95c623 SELECT * FROM emp WHERE salary = 100 table1 (emp) x2ea887 SELECT * FROM table1 WHERE col3 = x5a8c34 col1/rank col2/name col3/salary x2ea887 Proxy x934bc1 x5a8c34 x5a8c34 ? x84cec1 x5a8c34 x4be219 x17cea7 x5a8c34 • CryptDB • 암호화된 데이터 상에서 SQL-Like 질의 처리를 수행하는 대표적인 기법 • 컬럼별로 독립적으로 암호화 수행

관련 연구 • CryptDB에 적용된 암호화 기법 및 지원 질의 유형 • Deterministic 기법 : 입력 값 x에 대해 하나의 암호화 값 Encx생성 • 처리 가능한 질의 : GROUP BY, COUNT, DISTINCT • Order-Preserving 기법 : 암호화 데이터가 원본 데이터의 순서 및 빈도 유지 • 처리가능한 질의 : ORDER BY, MIN, MAX, SORT • Homomorphic기법 : 지수/로그 등의 함수를 이용하여 평문 공간과 암호문 공간에 정의된 연산을 보존 • ADD

연구 동기 암호화된 데이터에 대해 다중 컬럼을 지원하는 암호화 질의처리 알고리즘에 대한 연구가 필수적 • 기존 연구의 문제점 • 1. 대용량의 데이터를 단일 서버에서 처리하기 때문에, 질의 처리 효율이 떨어지는 단점 존재 • 2. 암호화된 데이터 상의 다중 컬럼 질의 미지원 • 데이터 분석 및 마이닝 질의처리 불가

연구 동기 다중 컬럼 질의 지원을 위한 인덱스 설계 정보 보호를 위한 암호화 인덱스 질의 처리 성능 보장 그리드 기반 다중컬럼 질의 색인키 생성 힐버트 커브 적용 데이터 보호 Prefix-Tree,Hash를 적용한 데이터 검색 속도 향상 클라우드 환경에서 암호화 질의처리를 위한 그리드 기반 색인키 생성 기법

제안 기법 질의 처리 시나리오 서비스 제공자 데이터 소유자 데이터 아웃소싱 3 아웃소싱된 데이터베이스 부동산 데이터베이스 4 Hash, Prefix 데이터 저장 색인키 생성 2 암호화 데이터베이스 데이터 반환 질의 요청 5 6 원본 데이터베이스 1 질의 요청자

그리드기반 생성기법 및 암호화 질의처리 알고리즘 • Step1. Customizing the sensed data from the source nodes creation

그리드기반 생성기법 및 암호화 질의처리 알고리즘 • Step1 컬럼 유사도 측정을 통한 그리드 조합 선정 • 각 컬럼을OPE로 암호화 수행 • 각 컬럼 간 상관 분석을 수행 하여 연관성이 낮은 컬럼 조합 선정 • 상관계수 측정 기법인 피어슨 상관 계수(Pearson Correlation coeffecient) 이용 • 센시티브데이터에서 모집단을 통해 상관계수 측정 시 매우 높은 비용 요구 • 식(1)을 통해 표본 집단을 통해 모집단의 상관계수 측정 (1)

그리드기반 생성기법 및 암호화 질의처리 알고리즘 6 6 6 7 7 7 10 10 10 11 11 11 • Step2 힐버트 커브 기반 그리드매칭 및 색인키 생성 • 1. Step1에서 선정된 컬럼 조합에 대해 k개의 그리드 인덱스 생성 • 2. 힐버트 커브(Hilbert curve)를 이용하여 그리드id변환 • 3. 변환된 id를 조합하여 색인 키 생성 5 5 5 9 9 9 12 12 12 4 4 4 3 3 3 13 13 13 1 1 1 2 2 2 15 15 15 16 16 16 컬럼조합컬럼조합컬럼조합 {0, 3} {1, 3} {3, 5} 8 8 8 14 14 14 그림2 2번 레코드 데이터 삽입 및 색인키 생성 그림1 OPE를 적용한 암호화 데이터베이스 0011 1110 0011 색인키 생성

그리드기반 생성기법 및 암호화 질의처리 알고리즘 • Step3 암호화 색인키 기반 인덱스 생성 • 1. 색인키의비트열 길이 및 트리의 깊이(depth = 4)를 고려하여 Prefix-Tree생성 • 2. 질의 수행 시 • Prefix-Tree의 범위 시작점 선정 • 연결 리스트를 이용한 최종점까지의 데이터 탐색 001111100011색인키 탐색 예 000 001 010 011 100 101 110 111 111 100 011 Data

성능 평가 • 성능평가 환경 • Intel®Core i3-2100 CPU 3.10Ghz • Memory 2GB • Windows 7 64bit • Visual Studio 2010 C++ • 비교 대상 • CryptDB • 제안하는 기법 • 평가 항목 • 정확 매칭 질의 • 범위 매칭 질의

성능 평가 • 실험 데이터 • UC Irvine대학의 US Census Database • 이름, 결혼여부, 자녀수, 성별, 나이 학력, 직업 및 전문분야, 직업별 소득, 재산 및 지출 • 4개의 컬럼을 이용, 100회의 질의 수행 결과 평균 측정 • 파라메터 • 데이터 크기 : 0.5G, 1G, 1.5G 2G • 범위 질의 영역 : 0.0001, 0.0002, 0.0005, 0.0007, 0.001

성능 평가 • 정확 매칭 • 데이터 크기가 2G인 경우 CryptDB는 약 0.4초의 정확 매칭 질의 처리 시간 소요 • 제안 기법의 경우 약 0.12초로 약 4배 향상된 질의 처리 성능 지원 • 제안하는 기법은 분산 암호화 색인 키를 이용하여 복호화 없이 Prefix-Tree 탐색을 통해 빠르게 접근하여 데이터를 반환하기 때문

성능 평가 • 범위 매칭 • 0.001%의 질의 영역에 대한 데이터 탐색의 경우 제안하는 기법의 질의 처리 시간은 약 0.02초로 기존 기법에 비해 성능이 약 15배 향상됨 질의 영역 크기(% of the whole area)

결론 • 클라우드 환경에서 데이터 보호 및 분석 질의를 위한 그리드 기반 색인 키 생성 기법 및 암호화 알고리즘 • 다중 컬럼 질의를 위해 그리드 기반 다중 컬럼 질의 색인키 생성 • 색인 키 정보 보호를 위해 힐버트 커브 적용, 전송 오버헤드 및 데이터 유출 위험을 감소 • 분산된 환경에서 질의 처리 성능 보장을 위해 Prefix-Tree 사용 • 성능평가 • 기존기법 대비 제안 기법정확 매칭 약4배 향상 • 범위 매칭은 약 15배 향상되어 기존 기법에 비해 제안 기법이 우수함을 검증 • 향후 연구 • 제안 기법을 top-k 및 집계 질의를 지원하는 알고리즘으로 확장하여 연구

감사합니다.Q&A

참고문헌 • [1]Digital Signature Standard(DSS): NIST-Federal Information Processing Standards Publication 186-3, 2009. • [2]Advanced Encryption Standard(AES) : NISTFederal Information Processing Standards Publication 197, 2001. • [3]RSA Laboratories, “RSAREF: A Cryptographic Toolkit,” Version 2.0, 1994, available via FTP from rsa.com. • [4]A. Desai., “New paradigms for constructing symmetric encryption schemes secure against chosen-ciphertext attack”, 2000. • [5]O. Goldreich., “Foundations of Cryptography: Volume I Basic Tools”, 2003 • [6]T. Ge and S. Zdonik, “Answering Aggregation Queries in a Secure System Model”, VLDB, 2007. • [7]A. Boldyreva et al., “Order-Preserving Encryption Revisited: Improved Security Analysis and Alternative Solutions“, 2010. • [8]R. A. Popa, C. M. S. Redfield, N. Zeldovich, and H. Balakrish-nan. "CryptDB: Protecting confidentiality with encrypted query processing" InProc. of the ACM Symposium on Operating Systems Principles (SOSP), 2011 • .

Piecewise linear splines • Piecewise linear splines(조각 별 선형 자유 곡선)로 모델화의 예

OPES flatten, Tranform단계 • Step1 Model 단계 • 타깃 데이터를 버킷팅하여 각각 버킷 분포를 piece wise linear splines로모델화 • Step2 Flatten 단계 • 각각 모델링한버킷 내의 값을 균일한 분포가 되도록 변환 • Step3 Transform 단계 • 원본 데이터 분포화 타깃 분포로부터 flatten 한 결과의 스케일을 같게 하여 변환함으로써, 원본 데이터 분포의 데이터가 타깃 분포를 따르는 데이터로 변환

피어슨 표본 상관 계수 계산 예 • 질의에 사용되는 센시티브컬럼이{0, 1, 3, 5}이라 가정했을 때, 해당 컬럼들의 모든 조합에 따른 피어슨 상관 계수 측정한 결과 가장 작은 값을 지니는 컬럼 조합을 결과로 선정 • 계산된 피어슨 상관 계수는 선정된 컬럼 조합이 가지는 모든 데이터에 대해 샘플링 하여 계산된 값

클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

Presentation Transcript

Standard C++ Library

시프트 암호

14 장 . 그래프 알고리즘

2012 년 1 월 6 일

공개키 암호

플래시 메모리의 디스크 대체를 위한 FTL 알고리즘의 성능평가

알고리즘 설계 및 분석

클라우드 컴퓨팅 강의 4. 클라우드 마이그레이션

제 7 장 링커와 로더 설계

9. 기계학습

문양세 ( 컴퓨터과학전공 , IT 특성화대학 , 강원대학교 )

Windows Azure 소개

√ 원리를 알면 IT 가 맛있다

알고리즘 CHAPTER 10.4~10.5 문자열 매칭

GPS/INS/DMI 강결합 및 GPS 데이터 처리 기술 개발

2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

디지털 신호처리

김종철 소장 알고리즘 인공지능차트 HTS 이용하기

클라우드 컴퓨팅 강의 3. 클라우드 컴퓨팅 기술

8. 현대 대칭키 암호를 이용한 암호화 기법

클라우드 스토리지 InternetDisk 7.0

20 장 . 네트워킹과 인터네트워킹 장치