120 likes | 313 Views
Sử dụng GA tối ưu hóa tham số cho bài toán nhận dạng ảnh sử dụng CRF. Bài toán. Nhận dạng các đối tượng trên ảnh và gán nhãn cho chúng Đầu vào : Một ảnh n x n pixel Các nhãn sẽ gán cho vật thể trên ảnh ( Cây , bầu trời , con vật ,… ) Đầu ra : Ma trận n x n pixel đã được gán nhãn.
E N D
Sửdụng GA tốiưuhóathamsốchobàitoánnhậndạngảnhsửdụng CRF
Bàitoán • Nhậndạngcácđốitượngtrênảnhvàgánnhãnchochúng • Đầuvào: • Mộtảnh n x n pixel • Cácnhãnsẽgánchovậtthểtrênảnh (Cây, bầutrời, con vật,… ) • Đầura: • Ma trận n x n pixel đãđượcgánnhãn
Cácnghiêncứuliênquan: • Bàitoánnhậndạngvậtthểđượcphânlàm 2 bàitoán con • Phânvùngcácvậtthể • Gánnhãnvậtthể • Cácbàitoán con đãđượcgiảiquyếtbởinhiềunhànghiêncứutrênthếgiới • Cómộtsốnghiêncứuđãkếthợpgiảicùng 1 lúccả 2 bàitoán con
Cácnghiêncứuliênquan • Giải 1 trong 2 bàitoán con • Nhậndạnglớpvậtthể • Fergus, R., Perona, P., Zisserman, A.: Object class recognition by unsupervised scale-invariant learning. In: CVPR'03. Volume II. (2003) 264 - 271 • Berg, A.C., Berg, T.L., Malik, J.: Shape matching and object recognition using low distortion correspondences. In: CVPR. (2005) • Winn, J., Criminisi, A., Minka, T.: Categorization by learned universal visual dictionary. Int. Conf. of Computer Vision (2005)
Cácnghiêncứuliênquan • Giải 1 trong 2 bàitoán con • Phânvùngảnh • Kumar, S., Herbert, M.: Discriminative felds for modeling spatial dependencies in natural images. In: NIPS. (2004) • Borenstein, E., Sharon, E., Ullman, S.: Combining top-down and bottom-up segmentation. In: Proceedings IEEE workshop on Perceptual Organization in Computer Vision, CVPR 2004. (2004)
Cácnghiêncứuliênquan • Giảikếthợpcả 2 bàitoán: • Winn, J., Jojic, N.: LOCUS: Learning Object Classes with Unsupervised Segmentation. Proc. of IEEE ICCV. (2005) • Kumar, P., Torr, P., Zisserman, A.: Obj cut. Proc. of IEEE CVPR. (2005) • Leibe, B., Schiele, B.: Interleaved object categorization and segmentation. In:BMVC'03. Volume II. (2003) 264-271
Cácnghiêncứuliênquan • Giảithuậtcơsở • Duygulu, P., Barnard, K., de Freitas, N., Forsyth, D.: Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. ECCV (2002) • Phânvùngvàgánnhãnchocác pixel mộtcáchtựđộng • Phânvùngđộclập, khôngxemxét ý nghĩavậtthể • Gánnhãntrêncácvùngđãđượcphân
Cácnghiêncứuliênquan • Tu, Z., Chen, X., Yuille, A.L., Zhu, S.: Image parsing: Unifying segmentation, detection, and recognition. In: CVPR. (2003) • Ứngdụngthựchiệnphânvùngvànhậndạngtrênmộtmôhình Bayesian duynhất • Chi phítínhtoánlớn, nhiềusaisố • Konishi, S., Yuille, A.L.: Statistical cues for domain speci¯c image segmentation with performance analysis. In: CVPR. (2000) • Đơngiản, sửdụngthốngkê Bayesian • Cókếtquảtốt, tuynhiênchỉtrên 1 tậpnhãnnhỏ, và 1 bộảnhduynhất
Cácnghiêncứuliênquan • Nhậndạngsửdụng CRF • He, X., Zemel, R.S., Carreira-Perpinan, M.A.: Multiscale conditional random fieldsfor image labeling. Proc. of IEEE CVPR (2004)
Cácnghiêncứuliênquan • Cảithiệnsửdụngtexton:
Cơsởthuậttoán • Cácbướcthựchiện • Textonshóaảnh • Sửdụng CRF trêncácđặctrưngđểgánnhãn pixel • Vânbềmặt, hìnhdáng • Viền • Màusắc • Vịtrí
Cơsởthuậttoán • Textonshóaảnh