230 likes | 426 Views
Project 3: Diagnosis Using Bayesian Networks. 담당 조교: 황규백 301 동 419호, 880-1847 kbhwang@bi.snu.ac.kr. Outline. Task 1 Structural learning of Bayesian networks Task 2 Bayesian networks as classifiers. Task 1. 목표 베이지안망 구조 학습 알고리즘의 비교 베이지안망 구조 학습 알고리즘 1. 조건부 독립성 검사 ( CI test) 기반
E N D
Project 3:Diagnosis Using Bayesian Networks 담당 조교: 황규백 301동 419호, 880-1847 kbhwang@bi.snu.ac.kr
Outline • Task 1 • Structural learning of Bayesian networks • Task 2 • Bayesian networks as classifiers
Task 1 • 목표 • 베이지안망 구조 학습 알고리즘의 비교 • 베이지안망 구조 학습 알고리즘 • 1. 조건부 독립성 검사 (CI test) 기반 • BN Power Constructor 이용 • 2. 점수 기반 탐색 • BNL 이용 • 두 알고리즘의 학습 결과 비교
데이터 • 생성 모델로써의 베이지안망 • 표본추출을 통한 베이지안망에서의 학습 데이터 생성 • Netica 소프트웨어 사용 (http://www.norsys.com) • Asia 망
데이터 생성 소프트웨어 • Norsys 홈페이지에서 Netica 소프트웨어를 다운로드해서 설치 • 동 홈페이지의 Net library에서 Asia 망 다운로드 • Asia.dnet 파일
데이터 생성 방법 • Netica에서 Asia.dnet 파일 열기 • Ctrl-A로 모든 노드 선택 • 메뉴에서 • Network Simulate Cases • 데이터 개수 선택 (100, 500, 10000) • 3개의 데이터 집합 생성 • Percentage of case data to be missing은 0으로 선택 (complete data를 만들기 위해) • Compile 여부를 물어 보는 경우에는 yes를 선택 • *.cas 파일로 데이터가 생성 • 텍스트 파일 형태
주석 (필요 없음) 변수 이름 (8개) 데이터 번호 (필요 없음) 생성된 데이터 예제
조건부 독립성 검사 기반 학습 • BN Power Constructor 소프트웨어 (http://www.cs.ualberta.ca/~jcheng/bnsoft.htm) • MS Excel 형식의 데이터 (*.xls) 사용
BN Power Constructor 사용법 • 앞 장의 홈페이지 참고 (매뉴얼) • Final: [Export BN…]을 선택 .dne 파일로 결과가 만들어짐 • Tip: edge orientation이 정해지지 않은 경우는 [BN editor]를 선택한 후 임의로 설정
학습 결과 확인 • *.dne 파일은 Netica에서 읽을 수 있음.
점수 기반 탐색 • BNL 프로그램 (bi 과제 홈페이지에서 다운로드) • bnl.h + bnl.c (각자 compile 해서 사용) • Greedy search with random initializations • 사용법 (bi 과제 홈페이지 참고) • 학습 결과 확인 • MSBN 소프트웨어 이용 (http://research.microsoft.com/msbn/) • *.dsc 파일
학습 결과 비교 • 데이터를 생성한 아시아망(Asia.dnet)과 학습으로 만들어진 망 구조의 비교 • Edge error • Missing • Reversed • Added • 데이터 크기(100, 500, 10000)와 학습 알고리즘에 따른 edge error 비교 • *.dnet, *.dne, *.dsc 파일을 이용해서 error를 계산하는 코드를 작성하고 결과를 그래프로 정리
*.dnet, *.dne 파일 구조 (Netica and BN Power Constructor)
Task 1 제출물 • 프로그램 소스 • 망 구조 비교용 • 학습 알고리즘에 대한 정리 • 점수 기반 탐색 방법 정리 (교재 및 참고 문헌 참고) • 실험 결과 • 학습 알고리즘과 데이터 크기에 따른 에러 비교 • Discussion • 실험 결과에 대한 논의
Task 2 • 목표 • 분류기로서의 베이지안망과 신경망(MLP)의 비교 • 데이터 (bi 과제 홈페이지) • CAMDA’00 데이터 (38 training examples + 34 test examples) • 백혈병 구분 (AML or ALL) • 4개의 유전자(attribute)와 한 개의 target(백혈병 종류)으로 구성 • 학습 • Full search and greedy search with random initializations
내용 • 주어진 데이터를 이용해서 베이지안망과 신경망 학습 • 베이지안망 학습 • 5개의 노드(4 유전자, 백혈병 종류) • BNL 프로그램으로 학습 • 신경망과의 성능 비교 (분류 성능) • 학습된 베이지안망에서의 분류 • Probabilistic inference 이용 MSBN 소프트웨어 • P(CLASS | other variables)를 이용해서 분류
MSBN에서의 Probabilistic Inference (1/2) • 학습된 베이지안망 (cancer.dsc)을 MSBN에서 열기
MSBN에서의 Probabilistic Inference (2/2) • View 메뉴의 Evaluate Current state를 실제로 변경시켜 가며 CLASS의 확률을 볼 수 있다.
제출물 • 베이지안망 학습 • 이용한 알고리즘 및 학습 결과 • 이용한 신경망의 구조 설명 (은닉 노드의 개수 등…) • 두 분류기의 성능 비교 • Discussion • 신경망과 베이지안망의 차이에 대해서 논의할 것
제출 일시 • 2001년 12월 1일 (토) 오후 11시 59분까지 • 보고서 hardcopy • 장소: 301동 419호 • 담당: 황규백