Les diamants Prix et caractéristiques

Exploration d’un fichier de données Valérie Fontanieu - Ingénieur statisticien Institut National de Recherche Pédagogique Les diamantsPrix et caractéristiques Données parues dans le Singapore’s Business Times du 18 février 2000 Accessibles sur : http://www.amstat.org/publications/jse/jse_data_archive.html Ce document présente les premiers résultats de l’exploration d’un fichier de données à l’aide des méthodes de statistique descriptive (uni- et bi-dimensionnelle) et quelques explications sur les résultats couramment proposés par les logiciels de traitement et d’analyse de données statistiques. Des parties de ce fichier peuvent être utilisées pour illustrer des définitions de termes couramment utilisés en statistique descriptive. 1

Sommaire 1 - Les données : le prix et 4 variables caractérisant les diamants 2 - Le tableau des données 3 - Description d’une variable quantitative : les résumés numériques 4 - Représentation graphique synthétique : le boxplot 5 - Représentation de la distribution des valeurs : l’histogramme 6 - Représentation des fréquences cumulées : la fonction de répartition 7 - Description d’une variable qualitative : le tri à plat 8 - Représentations graphiques : les diagrammes en colonnes et secteurs 9 - Description simultanéede deux variables quantitatives : le nuage de points 10 - Description simultanée d’une variable quantitative et d’une variable qualitative 11 - Description simultanée de deux variables qualitatives : la table de contingence Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire

1 - Les données : le prix et 4 variables caractérisant les diamants • Carats : le poids du diamant exprimé en carats (1 carat = 0,20g) • Couleur : l’échelle de graduation de la couleur s’étend de la lettre D à la lettre Z, de la teinte la plus incolore vers une teinte jaune et même parfois d’autres teintes (bleu, vert…) ; dans cet échantillon les diamants appartiennent aux 6 premières catégories : • D  Blanc exceptionnel + • E  Blanc exceptionnel • F  Blanc rare + • G  Blanc rare • H  Blanc • I  Blanc légèrement teinté + • Clarté : indique la présence plus ou moins importante d’imperfections (11 catégories) ; dans l’échantillon les diamants sont caractérisés par 5 catégories parmi les mieux classées, de la plus grande clarté vers la présence croissante d’imperfections et d’inclusions : • IF  Internally Flawless - absence d’inclusions mais minuscules imperfections de surface VVS1  Very Very Small inclusions - minuscules inclusions et éventuellement minuscules imperfections de surface VVS2  imperfections de surface légèrement plus présentes que VVS1 VS1  Very Small inclusions - petites inclusions et éventuellement petites imperfections de surface VS2  imperfections de surface légèrement plus présentes que VS1 • Certification : 3 instituts de certification : • GIA  Gemological Institute of America HRD  Hoge Raad voor Diamant IGI  International Gemological Institute • - Prix en dollars Remarque : Ces variables n’apporte pas le même type d’information. Le poids en carats, la couleur et la clarté sont des attributs des diamants. Ces caractéristiques intrinsèques sont évaluées par un institut de certification qui établit un certificat, garantissant l’exactitude des informations. Le prix quant à lui est estimé par le vendeur et est vraisemblablement établi en fonction des caractéristiques des diamants.

2 - Le tableau des données La structure des données usuellement proposée dans les logiciels est celle d’un tableau croisant, les individus (diamants) en ligne, et les variables (carats, couleur…) en colonne. Les variables sont observées sur un échantillon de 308 diamants certifiés. 308 diamants Les données ont été recueillies dans un encart publicitaire du Singapore’s Business Times. Cet échantillon n’est représentatif que de lui-même.

3 - Description d’une variable quantitative : les résumés numériques (voir en annexe la définition des indicateurs) Résumés numériques : Les quartiles : - Au moins 25 % des données sont inférieures ou égales au premier quartile, et au moins 75 % des données sont supérieures ou égales au premier quartile. - Au moins 50 % des données sont inférieures ou égales à la médiane, et au moins 50% des données sont supérieures ou égales à la médiane. - Au moins 75 % des données sont inférieures ou égales au troisième quartile, et au moins 25 % des données sont supérieures ou égales au troisième quartile. Le plus gros diamant du monde, le Cullinan, a été découvert en 1905 dans la mine Premier près de Pretoria en Afrique du Sud. Il pesait 3106 carats à l’état brut (soit plus de 621 grammes). Il a été taillé en plusieurs fragments dont les deux célèbres Cullinan I et Cullinan II, ayant un poids respectif de 530,2 et 317,4 carats. Les autres diamants taillés célèbres (une dizaine) font entre 40 et 550 carats.

4 - Représentation graphique synthétique : Le Box plot (voir annexe) Le box plot des carats montre une distribution assez symétrique (position de la médiane, longueur des pattes, position relative de la médiane et de la moyenne). La moyenne légèrement supérieure à la médiane témoigne d’un faible étalement des valeurs supérieures. L’asymétrie de la distribution du prix est importante : les valeurs sont fortement étalées du côté des grandes valeurs (longueur de la patte supérieure, moyenne supérieure à la médiane). Les valeurs inférieures (25 % de celles-ci) sont comprises dans l’intervalle [638 ; 1622] ; elles sont fortement concentrées par rapport au reste de la distribution.

Histogramme / 9 classes 5 - Représentation de la distribution des valeurs : L’histogramme (des carats) La distribution des carats présente plusieurs zones de concentration des valeurs (intervalles à l’intérieur desquels les valeurs sont plus fortement concentrées (modes, pics de distribution). La distribution est ainsi globalement fortement étalée. Les indicateurs de tendance centrale ont dans ce cas peu de pouvoir de représentation des données. Construction des 9 classes : Histogramme / 18 classes Remarque : 2 valeurs n'ont pas été considérées ici (> à 1,08). Le nombre de classe utilisées pour la construction d’un histogramme influence la représentation de la distribution : peu de classes, perte d’information ; nombreuses classes, classes peu fournies voire vides. L’histogramme construit avec 18 classes laisse apparaître une forte concentration des valeurs au-delà de 1 carat et une absence de valeurs en amont (à la lecture du fichier de données, aucune valeur dans l’intervalle ouvert (0,9 ; 1). Les diamants à peine inférieurs à 1 carat ont-ils été surestimés, ou sont-ils peu mis à la vente ?

Histogramme du prix Histogramme / 7 classes La distribution est étalée à droite (rappel coefficient d’asymétrie - skewness = 0,651) et globalement plutôt concentrée (coefficient d’aplatissement - kurtosis = -0,356). Histogramme / 14 classes Construction des 7 classes : Remarque : 2 valeurs n'ont pas été considérées ici (> à 14 638).

6 - Représentation des fréquences cumulées :La fonction de répartition On retrouve sur l’axe des abscisses les différents quantiles. La fonction de répartition permet de déterminer la proportion d’observations de l’échantillon inférieures ou égales à une valeur de la série. Ainsi entre deux valeurs, la plus ou moins forte croissance de la courbe indique la plus ou moins forte concentration de valeurs.

7 - Description d’une variable qualitative : le tri à plat Couleur (variable qualitative ordinale) : Un tri à plat décrit la répartition des individus de l’échantillon dans chacune des modalités : sont mentionnés les effectifs (et la fréquence) des individus caractérisés par une modalité. De plus lorsque les modalités présentent une relation d’ordre, les effectifs (et fréquence) peuvent être cumulés. Clarté (variable qualitative ordinale) : La valeur modale, modalité pour laquelle l’effectif est le plus grand est respectivement pour chacune des variables, la couleur F (26 % des diamants), la clarté VS1 (26 %) et la certification GIA (49 %). Certification (variable qualitative nominale) :

8 - Représentations graphiques : les diagrammes en colonnes et secteurs La lecture de la répartition des proportions dans chacune des modalités est facilitée par les graphiques. Cependant dans le cas du diagramme en secteur (camembert) l’augmentation du nombre de modalités diminue la lisibilité, en revanche on repère tout de suite que près de 50 % des diamants de l’échantillon sont certifiés GIA.

9 - Description simultanée de deux variables quantitatives : le nuage de points Statistique descriptive bivariée Description de deux variables mesurées simultanément sur les mêmes individus Recherche d’éventuelles liaisons entre les deux variables La lecture du nuage de points montre que le prix des diamants augmente avec leur poids (ce dont on se doute). Néanmoins, le prix n’est pas seulement fonction du poids (on s’en doutait aussi). Ce graphique incite à étudier le lien entre le poids et le prix, en séparant les diamants en trois classes : ceux de poids inférieurs ou égal à 0,45 carats, ceux entre 0,46 et 0,90 carats et les autres. Pour ces derniers, les « gros diamants » de ce fichier, dont le poids est entre 1 et 1,1 carat, le prix toujours supérieur à 7800 $ dépend plus d’autres facteurs que du poids.

Prix des diamants de petits poids90 diamants de poids inférieurs ou égal à 0,45 caratsLes poids sont donnés au centième de carat près  Le coefficient de corrélation (voir annexe) est ici 0,84.  L’équation de la droite de régression (voir annexe) est, en arrondissant les coefficients à l’entier le plus proche : Prix = 166 + 3923 x poids Autrement dit, sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix augmente de 39,23 dollars.

Prix des diamants de poids moyen147 diamants de poids compris entre 0,46 et 0,90 carats  Le coefficient de corrélation est ici 0,86.  L’équation de la droite de régression est, en arrondissant les coefficients : Prix = -2138 + 10692 x poids Sur les données observées, si le poids augmente d’un centième de carat, en moyenne le prix augmente de 106,92 dollars.

Etude des 71 gros diamants de l’échantillonpoids compris entre 1 et 1,1 carats La plupart des diamants présentent de minuscules inclusions. Moins le diamant a d’inclusions et plus petites elles sont, plus la lumière peut le traverser. La présence d’inclusions est observée à l’aide d’une loupe ou d’un microscope (10x). Une imperfection non détectable à ce degré de grossissement est considérée comme non existante. Plus un diamant est incolore (blanc), plus il laisse traverser la lumière blanche. La couleur d’un diamant est déterminée à l’aide de pierres étalons et d’une lumière blanche. Un diamant est composé à plus de 99 % de carbone pur, le reste lui confère une couleur : un atome d’azote le rend jaune, de bore bleu… La taille du diamant opérée par le lapidaire a une incidence très importante sur le pouvoir de réfraction et de dispersion de la lumière qui donne toute sa brillance au diamant. C’est un quatrième critère influant sur la valeur d’un diamant. Pour les gros diamants de notre échantillon : - La couleur influence beaucoup le prix. - Il n’y a pas d’influence nette de la clarté sur le prix.

Marquage du nuage de points par la couleur des diamants On retrouve que les couleurs H et I sont moins prisées que les couleurs D et E, ce que la dénomination blanc exceptionnel pour D et E pouvait laisser présager !

Marquage du nuage de points par la clarté des diamants Il est plus « facile » et plus commun pour un petit diamant d’être clair et sans défaut que pour un gros !

Marquage des points par la certification des diamants Dans nos données, la certification HRD ne concerne pas les petits diamants.

10 - Description simultanée d’une variable quantitative et d’une variable qualitative Chaque modalité de la variable qualitative définit une partition (une sous-population) sur laquelle peut être analysée la variable quantitative.  Les résumés numériques décrits précédemment peuvent être construits sur chacune des sous-populations engendrées par la variable qualitative : sur chaque partition, sont calculés les différents résumés numériques (moyenne, médiane, intervalle interquartile…).  De la même façon des boxplots peuvent être construits sur chacune des sous-populations : les box plots parallèles.  On met ainsi en avant l’influence de la variable qualitative sur les valeurs de la variable quantitative.

Boxplot Carats / Couleur Les résultats observés dans une sous-population et les différences entre les sous-populations doivent être interprétés avec prudence, lorsque les effectifs sont faibles (les fluctuations d’échantillonnage peuvent être importantes). Rappel des effectifs concernés 16 44 82 65 61 40 Globalement, le poids médian des diamants est sensiblement le même pour les différentes couleurs.

Les diamants les plus « clairs » (couleur D) enregistrent une forte amplitude de prix (de 880 à 16008). Par ailleurs le fort étalement global des valeurs (position des quartiles) peut-être dû au faible effectif observé (16) ; on ne peut garantir une telle répartition générale des valeurs des diamants de couleur D. Les constats sont globalement les mêmes que pour les carats ; ce qui est peu étonnant puisque le prix croît avec les carats. Prix / Couleur 16 44 82 65 61 40 Prix / Clarté 44 52 78 81 53 Prix / Certification 151 79 78

11 - Description simultanée de deux variables qualitatives : la table de contingence La répartitions des catégories d’un critère est-elle égale dans les différentes catégories de l'autre critère ? Table de contingence Clarté / Certification : Profils colonnes (% en colonnes) : Dans notre échantillon, les proportions de diamants dans les différents niveaux de clarté diffèrent selon l’organisme de certification. Diagramme des profils colonnes

Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire

A - Les résumés numériques Soit une variable aléatoire Y et un échantillon de taille n de celle-ci : y1, y2, …, yn  n observations de Y Les résumés numériques, indicateurs empiriques sont :  La moyennede Y : Somme des valeurs divisée par le nombre de valeurs ; un indicateur de tendance centrale de la distribution. La variance : Indicateur de dispersion des valeurs autour de la moyenne. L’écarttype: Racine carrée de la variance, indicateur de dispersion des valeurs exprimé dans l’unité de mesure de la variable. Remarque : Ces indicateurs sont sensibles aux valeurs atypiques de l’échantillon. La moyenne et la médiane sont deux indicateurs de tendance centrale de la distribution des valeurs mais contrairement à la médiane, la moyenne est sensible à une valeur très grande ou très petite par rapport au reste de la série.

Skewness et Kurtosis : deux indicateurs de la forme de la distribution des valeurs observées. Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs. Moment centré d’ordre 3 sur le cube de l’écart type. Estimation sur un échantillon : Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution. Moment centré d’ordre 4 sur le carré de la variance. Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels proposent souvent le calcul du kurtosis en ôtant la valeur 3 : Estimation sur un échantillon : Utilité du skewness et du kurtosis Une distribution symétrique autour de sa moyenne aura un skewness proche de 0. Skewness positif  étalement des valeurs à droite Skewness négatif  étalement des valeurs à gauche Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif  forte concentration, pic prononcé Kurtosis négatif  aplatissement de la distribution, faible concentration

Schématiquement, l’allure d’une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls : Nul Négatif Positif Skewness Kurtosis Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent un indice de l’éloignement ou du rapprochement de la distribution de la série de valeurs de celle d’une distribution de loi Normale.

B - Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1er et 3ème quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution. • Construction utilisée ici : • Une boîte, deux moustaches et des valeurs extrêmes : •  La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. •  Les extrémités des moustaches ou valeurs extrêmes sont : • le min et le max ; • Ou encore, souvent proposées dans les logiciels (parfois paramétrables) : • la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) avec (q1 = premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites). • Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale (voir la suite). • Remarques : • d’autres extrémités des moustaches peuvent être proposées comme les déciles (délimitant 10 % des valeurs) ; • la largeur de la boîte est arbitraire et ne s’interprète donc pas.

Représentation: Maximum Echelle : unité de valeur de la variable 3ème quartile Moyenne Intervalle interquartiles (50 % des valeurs) Médiane 1er quartile Minimum • Le box plot permet de visualiser rapidement : • La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter-quartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). • Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées). • La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus la moyenne s’écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les valeurs supérieures plus fortement étalées.

L’indice 1,5 utilisé parfois pour la définition des valeurs extrêmes: L’intervalle de Tukey, en dehors duquel les valeurs sont représentées comme extrêmes, repose sur l’hypothèse de normalité de la distribution. Dans le cas d’une distribution normale, cet intervalle doit comprendre 99,3 % des valeurs. Les valeurs en dehors de l’intervalle sont individualisées et marquées d’une croix pour signaler leur caractère atypique, car d’une faible probabilité d’occurrence sous l’hypothèse de normalité. La longueur de cet intervalle fondée sur l’indice 1,5 est arbitraire. C’est un compromis entre les valeurs 1 et 2 qui engendreraient respectivement des intervalles comprenant 95,7 % et 99,8 % des valeurs. Le marquage des valeurs atypiques n’est significatif que si la distribution s’apparente à celle d’une distribution Normale. Comparaison de plusieurs sous-populations (box plots parallèles): Le box plot permet de comparer visuellement la distribution d’une variable à l’intérieur des sous-populations formant l’échantillon, par la construction d’un box plot pour chacune des sous-populations sur un même graphique (même échelle). La position des indicateurs de tendance centrale et la variabilité de la distribution dans chacune des sous-populations peuvent ainsi être comparées.

C - Le coefficient de corrélation linéaire et la régression linéaire Soit X et Y deux variables quantitatives. Le coefficient de corrélation linéaire est un indice rendant compte de la manière dont les deux variables considérées varient simultanément. Il permet de vérifier l’existence d’une relation linéaire entre deux variables, de la forme Y=aX+b. Calcul du coefficient de corrélation linéaire sur l’échantillon : Rapport covariance empirique sur le produit des écarts-types empiriques Le coefficient de corrélation linéaire est compris entre -1 et +1. S’il est proche de 1 ou de -1, les deux variables sont corrélées linéairement (le nuage de points est presque aligné sur une droite), s’il est proche de 0 les variables sont non corrélées linéairement. Plus r est proche de 1 ou de -1 plus le nuage de points est aligné. Si |r|=1, il existe deux constantes a et b définissant une relation linéaire parfaite : Y=aX+b. Une valeur positive du coefficient indique une pente positive de la droite (croissance simultanée des deux variables), une valeur négative une pente négative de la droite (décroissance de l’une liée à la croissance de l’autre). Si le coefficient est proche de 0, une relation linéaire entre les deux variables est exclue, cependant une relation non linéaire peut exister.

Détermination de la droite d’équation linéaire Y=aX+b : L’objectif est de modéliser Y par une fonction affine aX+b, plus un aléa résiduel (un bruit blanc). Les estimateurs des paramètres a et b, par la méthode des moindres carrés, donne les résultats suivants, sous certaines hypothèses de validité du modèle : Le coefficient de détermination : Ce coefficient est une mesure du pouvoir explicatif du modèle de régression linéaire. r2 (carré du coefficient de corrélation) est compris entre 0 et 1. Plus il est proche de 1, meilleur est l’ajustement par le modèle. Remarque : le modèle de régression par les moindres carrés est sensible aux valeurs aberrantes, la dissymétrie des distributions engendre également une mauvaise modélisation ; c’est pourquoi l’analyse descriptive uni-variée de chacune des variables et l’analyse bi-variée du nuage de points sont des étapes indispensables à la construction d’un modèle. Dans certains cas, la transformation des variables (logarithme, puissance…) afin d’atténuer les dissymétries et les valeurs atypiques permet d’obtenir un bon modèle linéaire.

Les diamants Prix et caractéristiques