1 / 17

Introducció a l’anàlisi d’agrupaments ( cluster )

Introducció a l’anàlisi d’agrupaments ( cluster ). Llicenciatura de Biologia Disseny d’Experiments i Anàlisi de Dades Jordi Ocaña Rebull. Objectiu i característiques de l’anàlisi.

cachez
Download Presentation

Introducció a l’anàlisi d’agrupaments ( cluster )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introducció a l’anàlisi d’agrupaments (cluster) Llicenciatura de Biologia Disseny d’Experiments i Anàlisi de Dades Jordi Ocaña Rebull

  2. Objectiu i característiques de l’anàlisi • Donats m “objectes” (espècies, poblacions, individus, ...) trobar un esquema d’agrupament en classes, de manera que els “semblants” pertanyin a la mateixa classe • Mètode completament numèric: • Cada objecte caracteritzat per p variables • Dissimilaritat (o semblança) entre objectes basada en aquestes variables • Agrupament basat en aquestes dissimilaritats • Nombre de classes no conegut prèviament

  3. Esquema del mètode Dades Matriu de distàncies

  4. Tipus d’anàlisi d’agrupaments • Mètodes jeràrquics: obtenció d’un arbre de classes o “dendrograma” • Aglomeratius (els més freqüents): partir de m classes d’un sol objecte i anar creant classes cada vegada més àmplies, ajuntant-les segons màxima semblança • Divisius: partir d’una gran classe que conté tots m objectes i anar dividint en subclasses • Mètodes de particionament: objectes es poden moure d’un grup a l’altre fins a complir algun criteri d’optimalitat

  5. Dades de grups sanguinis per diverses (m=4) poblacions • Freqüències relatives dels al·lels possibles per a s = 5 sistemes de grups sanguinis: AB0, CDE, DI, FY i MNS • En sengles mostres de m = 4 poblacions: Bantús, Anglesos, Esquimals i Coreans. etc...

  6. Adequada per aquestes dades: distància de Prevosti

  7. Distància de Prevosti, sistemes AB0+CDE+DI+FY+MNS

  8. Procés de formació del dendrograma. I • Pas 1: les poblacions més semblants són els coreans i els esquimals: formem una primera classe, (Esk,Kor) a un grau de dissimilaritat de 0,19672 • Pas 2: Què ajuntem ara? Tres possibles continuacions: • Agregar Ban a (Esk, Kor) • Agregar Eng a (Esk, Kor) • Agregar (Ban, Eng) • Això pot dependre del criteri per a avaluar la distància entre classes i / o poblacions soles, p.e. mínim, màxim o mitjana (UPGMA: Unweighted Pair-Group Method using Arithmetic averages)

  9. Matriu de distàncies segons el criteri adoptat

  10. Procés de formació del dendrograma. II • Si hem adoptat el criteri del mínim, la més petita distància (0,24418) és entre Ban i (Esk, Kor), hem d’unir-les (a una distància de 0,24418) i les classes resultants seran Eng, (Ban, Esk, Kor) • Tant si el criteri és el màxim com si és la mitjana, la distància més petita és 0,24588, entre Ban i Eng. Les classes resultants serien (Ban, Eng), (Esk, Kor)

  11. Matriu de distàncies després del pas 2 segons criteri del mínim

  12. Matriu de distàncies després del pas 2 segons criteri del màxim

  13. Matriu de distàncies després del pas 2 segons criteri de la mitjana

  14. Resolució final del dendrograma • Pas 3: sigui quin sigui el criteri adoptat, ara solament falta constituir la darrera classe, que conté totes les poblacions • Però diferent dendrograma segons el criteri: • Mínim: darrera classe global, ajuntant Eng i (Ban, Esk, Kor) a una distància 0,24588 • Màxim: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,40946 • Mitjana: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,33246

  15. Dendrograma final segons el criteri del mínim

  16. Dendrograma final segons el criteri del màxim

  17. Dendrograma final segons el criteri de la mitjana

More Related