Robust Estimation Algorithms MVE and MCD: Theory and Application

ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCDPETER J. ROUSSEEUW Présenté par : MOHSEN BEN HASSINE Janvier 2011

MINIMUM VOLUME ELLIPSOID ESTIMATOR • Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞ • Principe : Trouverl’ellipsoide qui couvre au moins n /2 des points

MVE : illustration Hertzsprung-Russell data (star cluster cygnus) 47 points 2 variables ( température , light) 97.5% tolerance ellipse 6 outliers

MVE : Etapes et algorithme • On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombrede paramètres • On calcule la moyennearithmétique et la matrice de covariance, comme suit :

MVE : Etapes et algorithme • Pour chaque observation on calcule la distance : Dji= • Trouver la médiane • Le volume de l’ellipsoide est proportionnel à : Vj ~

MVE : Etapes et algorithme • Le volume calculé Vjcorrespond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons • Retenir L’échantillon dont la valeur Vj est minimale • Les valeurs de la moyenne et de la matrice de covariance seront donc : • : facteur de correction

MVE : Etapes et algorithme • Calculer les distances robustes : • Les outliers : RDi > C= • Pondération: • Valeurs pondérées:

MINIMUM COVARIANCE DETERMINANT ESTIMATOR • Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum • Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞

MCD : ILLUSTRATION

MCD: LES ETAPES • Choisir une taille d’échantillon : h entre (n+p+1)/2 et n • Choisir m échantillons de taille (p+1) ou h ? • Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de l’échantillon • Calculer : T0= moyenne(J), S0=cov(J) • Calculer : D02 (i)= • Trier ces distances par ordre croissant • Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points • Cette procédure est appelée C-step (1:5), est répétée n fois

MCD: LES ETAPES • Pour les 10 meilleurs échantillons parmi m (min(det(cov(J))) , Répéter les C-steps jusqu’à convergence  det(Si+1)= det(Si) • Reporter T et S / Min [ det(Sj)] • Calculer les distances robustes et déduire les outliers

FAST MCD • Motivations : • Si n devient plus grand >600 (nested extension) • Optimiser le nombre de c-steps • Temps de réponse nettement amélioré

BIBLIOGRAPHIE Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc. Rousseeuw, P.J. and van Driessen, K. (1999), A fastalgorithm for the minimum covariance determinantestimator, Technometrics, 41, 212–223. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991

Robust Estimation Algorithms MVE and MCD: Theory and Application