140 likes | 223 Views
Learn about the Minimum Volume Ellipsoid Estimator and Minimum Covariance Determinant Estimator algorithms by P.J. Rousseeuw, presented by Mohsen Ben Hassine in January 2011. Explore robust estimation methods, outlier detection, and fast computation techniques.
E N D
ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCDPETER J. ROUSSEEUW Présenté par : MOHSEN BEN HASSINE Janvier 2011
MINIMUM VOLUME ELLIPSOID ESTIMATOR • Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞ • Principe : Trouverl’ellipsoide qui couvre au moins n /2 des points
MVE : illustration Hertzsprung-Russell data (star cluster cygnus) 47 points 2 variables ( température , light) 97.5% tolerance ellipse 6 outliers
MVE : Etapes et algorithme • On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombrede paramètres • On calcule la moyennearithmétique et la matrice de covariance, comme suit :
MVE : Etapes et algorithme • Pour chaque observation on calcule la distance : Dji= • Trouver la médiane • Le volume de l’ellipsoide est proportionnel à : Vj ~
MVE : Etapes et algorithme • Le volume calculé Vjcorrespond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons • Retenir L’échantillon dont la valeur Vj est minimale • Les valeurs de la moyenne et de la matrice de covariance seront donc : • : facteur de correction
MVE : Etapes et algorithme • Calculer les distances robustes : • Les outliers : RDi > C= • Pondération: • Valeurs pondérées:
MINIMUM COVARIANCE DETERMINANT ESTIMATOR • Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum • Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
MINIMUM COVARIANCE DETERMINANT ESTIMATOR • Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum • Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
MCD: LES ETAPES • Choisir une taille d’échantillon : h entre (n+p+1)/2 et n • Choisir m échantillons de taille (p+1) ou h ? • Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de l’échantillon • Calculer : T0= moyenne(J), S0=cov(J) • Calculer : D02 (i)= • Trier ces distances par ordre croissant • Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points • Cette procédure est appelée C-step (1:5), est répétée n fois
MCD: LES ETAPES • Pour les 10 meilleurs échantillons parmi m (min(det(cov(J))) , Répéter les C-steps jusqu’à convergence det(Si+1)= det(Si) • Reporter T et S / Min [ det(Sj)] • Calculer les distances robustes et déduire les outliers
FAST MCD • Motivations : • Si n devient plus grand >600 (nested extension) • Optimiser le nombre de c-steps • Temps de réponse nettement amélioré
BIBLIOGRAPHIE Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc. Rousseeuw, P.J. and van Driessen, K. (1999), A fastalgorithm for the minimum covariance determinantestimator, Technometrics, 41, 212–223. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991