310 likes | 432 Views
iPlots. Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Introduction. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter tous les types de données. Exemple : plot(maxO3~T15, data=ozone). Introduction.
E N D
iPlots Brit Anne-Cécile Dufeil Elodie Emzivat Audrey
Introduction • Les représentations de données sur R : • La fonction plot: fonction générique de R qui permet de représenter tous les types de données Exemple : plot(maxO3~T15, data=ozone)
Introduction • Les représentations de données sur R : • La fonction plot: fonction générique de R qui permet de représenter tous les types de données Exemple : boxplot(maxO3~vent, data=ozone)
Introduction • Les représentations de données sur R : • La fonction plot: fonction générique de R qui permet de représenter tous les types de données. • Avec cette fonction, on peut : • Modifier la taille et la forme des points • Ajouter des lignes au graphique, des symboles, des légendes … • Il existe d’autres packages avec des fonctions pour représenter les données : • iplots : permet de créer des graphiques interactifs.
Sommaire • Présentation du package iplots • Les graphiques et les différentes options • Application sur un jeu de données • Conclusion
I. Présentation générale du package • Création Quand ? En 2003, au 3e congrès international ‘DistributedStatisticalComputing’ (DSC 2003) puis en 2006 à la conférence useR!2006, pour la version 2.0 Où ? RoSuDa, Université d’Augsburg en Allemagne (Dept. Of Computer OrientedStatistics and Data Analysis) Qui ? Simon Urbanek Martin Theus Tobias Wichtrey Alex Gouberman
I. Présentation générale du package • Fonctionnement général • iplots fournit des graphes interactifs liés entre eux • Tous les graphes issus d’une même jeu de données sont automatiquement liés • Un groupe identifié par une couleur dans un graphe est mis en évidence par la même couleur dans tous les autres graphes
I. Présentation générale du package • Fonctionnement général • iplots fournit des graphes interactifs liés entre eux • Tous les graphes issus d’une même jeu de données sont automatiquement liés • Un groupe identifié par une couleur dans un graphe est mis en évidence par la même couleur dans tous les autres graphes
Représentation d’une variable quantitative Histogramme : > ihist(association) De nombreuses actions sont possibles en utilisant le clique-bouton, pour une utilisation simplifiée
Représentation d’une variable quantitative Estimateur à noyau : > iplot(density(sand[,"association"]))
Représentation d’une variable qualitative Diagramme en barres (compte les effectifs pour chaque modalité) >ibar(Sexe)
Représentation de deux variables qualitatives Représentation d’un nuage de points : >iplot(appetance,attrait)
Variable quantitative en fonction d’une variable qualitative Graphique avec une boîte à moustache par modalité de la variable qualitative >ibox(Sepal.length,species)
Graphique qui permet de voir toutes les associations des modalités de plusieurs variables qualitatives. >ipcp(Produit,association) #Interactive parallelcoordinates plot Représentation de variables quantitatives et qualitatives
Représentation de plusieurs variables qualitatives • On observe l’association de 2 variables qualitatives, à chaque intersection, on trouve • les individus qui possèdent les 2 modalités. • Imosaic(Produit,achat) • Observation des données Donnéesattendues
Représentation de plusieurs variables En sélectionnant Multiple barcharts on peut obtenir un graphique avec à la fois les résultats attendus et observés >Multiple barcharts
Gestion courante des graphiques • Comment modifier les graphiques ? • iplot.opt() • iplot.opt(..., plot=iplot.cur()) • Arguments : … paramètres à modifier, plot : graphique qui va subir les modifications • Que peut-on modifier ? • title: titre du graphique (attention le titre n’apparaît pas sur le graphique) • xlim, ylim: limites des axes • col: couleur • ptDiam: diamètre des points • anchor ou binw: modification de la longueur et la largeur d’un histogramme • Trier les variables qualitatives en fonction de leur effectif (histogramme) • Voir l’aide de la fonction iplot.opt() • Remarque : la plupart des modifications peuvent être effectuées à partir de l’onglet « View »
Gestion courante des graphiques Exemples : Modifier la taille des points >iplot(appetance,attrait) >iplot.opt(ptDiam=10) Changer la forme de l'histogramme >ihist(association) >iplot.opt(anchor=1, binw=1,title= "histogramme association sandwich")
Gestion courante des graphiques : ajouter de la couleur • Plusieurs façons de procéder : • Sélectionner l’onglet« View », puis « Set Colors CB» ou « Rainbow» • Appliquer une couleur par produit de manière permanente • >ibar(Produit) • >iset.col(Produit) #iset.brush(Produit) • >iplot.opt(title="essai fonction ") • Autre façon d’attribuer une couleur à chaque produit • >ibar(Produit) • >iplot.opt(col=unclass(Produit),title="Analyse sensorielle sandwich")
Gestion courante des graphiques : ajouter de la couleur • Interaction entre les graphiques • Appel des graphiques à l’aide de l’onglet « Windows »
Gestion courante des graphiques : selectionner • Plusieurs façons de procéder : • Peut aussi se faire à l’aide de la souris en sélectionnant simplement ce qui nous intéresse • Sélectionner les notes supérieures à 5 (attention, ne pas oublier d’enlever les couleurs ) >iset.select(association >= 5) • Elements concernant la sélection • Quel est le pourcentage d'éléments sélectionnés? >sum(sign(iset.selected()))/length(association) 0,8819 : il y a 88% des notes concernant la variable association qui sont > à 5 • Tous les graphiques associés à cette sélection vont l’afficher
Ajout d’information sur un graphique : iObjects iablinecolorier les lignes Créer le scatterplot et y ajouter une droite > iplot(association, attrait) Droite de régression > z <- lm(association ~ attrait, data = sand) > iabline(z,col="blue") ilines Créer le scatterplot et y ajouter une droite > iplot(association,attrait) Utiliser la fonction lowess > m<- lowess(attrait, association) > ilines(m,col=blue)
Application : sandwish Charger les packages : rJava puis Iplots Attach (sand) : The database is attached to the R search path. This means that the database is searched by R when evaluating a variable, so objects in the database can be accessed by simply giving their names. Importation du jeu de donnée >sand=read.table("sand.txt",header=T, dec=".", sep="\t") >summary(sand) Recoder les variables >sand[,"Produit"]=as.factor(sand[,"Produit"]) >sand[,"Juge"]=as.factor(sand[,"Juge"]) >sand[,"Seance"]=as.factor(sand[,"Seance"]) >sand[,"Ordre"]=as.factor(sand[,"Ordre"]) >summary(sand) >names(sand) Préciser que les variables sont dans la base de donnée R, ensuite il suffit de les appeler en donnant leurs noms >attach(sand)
Conclusion • L’intérêt de ce package: • Outil intéressant pour l’aide à la compréhension des jeux de données • Complément aux graphes classiques, support visuel intéressant • Facilité d’utilisation • Variables qualitatives faciles à visualiser • Mais … • Visualisation des variables quantitatives moins évidente • Certaines fonctions ne fonctionnent pas • Attention aux données manquantes • Exportation des graphiques compliquée
Bibliographie • Article dans r-bloggers consacré au package avec quelques exemples : http://www.r-bloggers.com/interactive-graphics-with-the-iplots-package-from-%E2%80%9Cr-in-action%E2%80%9D/ • Site consacré au package iplots, comprenant des exemples et les derniers ajouts : http://www.rosuda.org/iplots/ • Proceedings of the 3rd International Workshop on DistributedStatisticalComputing http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/UrbanekTheus.pdf • Présentation du package iplots 2.0 par ses créateurs: http://www.rosuda.org/iplots/pdfs/iPlots.pdf