1 / 15

Método K-medóides Algoritmos PAM e CLARA

Método K-medóides Algoritmos PAM e CLARA. AULA 11 – Parte I DATA MINING Sandra de Amo. Problema. Dados Uma base de dados um número k Objetivo: particionar o conjunto de dados em k clusteres Algoritmo PAM : ( P artinioning A round M edoids)

tahlia
Download Presentation

Método K-medóides Algoritmos PAM e CLARA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Método K-medóidesAlgoritmos PAM e CLARA AULA 11 – Parte I DATA MINING Sandra de Amo

  2. Problema Dados Uma base de dados um número k Objetivo: particionar o conjunto de dados em k clusteres Algoritmo PAM: (Partinioning Around Medoids) • encontra k clusters baseados em protótipos • Protótipos são objetos da base de dados, representativos dos clusteres • Agrupamentos particionais (clusteres disjuntos) • Método de particionamento.

  3. Idéia do Algoritmo PAM • Determinar os k objetos que melhor representam os clusteres = medóides • Distribuir os objetos nos k clusteres.

  4. Algoritmo 1. Seleciona k objetos aleatoriamente: • M1, M2, ..., Mk = medóides iniciais • O1, ..., Op = objetos não medóides 2. Para cada objeto Oi (Oi não medóide) e cada medóide Mj, calcula-se • O custo de trocar Mj por Oi (Oi seria um novo medóide no lugar de Mj) CTij = Σ Cmij p m = 1 Cmij = erro local provocado ao se trocar o medóide Mj por Oi

  5. Como calcular o erro Cmij Caso 1 : Om está no cluster de Mj e com a substituição de Mj por Oi, Om ficar mais próximo de um outro medóide Mj2 Om Cmij = d(Om,Mj2) – d(Om,Mj) Mj Mj2 Oi Número positivo

  6. Como calcular o erro Cmij Caso 2 : Om está no cluster de Mj e com a substituição de Mj por Oi, Om ficar mais próximo de Oi Oi Om Cmij = d(Om,Oi) – d(Om,Mj) Mj Mj2 Número positivo ou negativo

  7. Como calcular o erro Cmij Caso 3 : Om não está no cluster de Mj – (está no cluster de Mj2) e com a substituição de Mj por Oi, Om continua no cluster de Mj2 (não muda de cluster) Oi Om Cmij = d(Om,Mj2) – d(Om,Mj2) = 0 Mj2 Mj

  8. Como calcular o erro Cmij Caso 4 : Om não está no cluster de Mj – (está no cluster de Mj2) e com a substituição de Mj por Oi, Om vai para o cluster de Oi Oi Cmij = d(Om,Oi) – d(Om,Mj2) Mj2 Mj Om Número negativo

  9. Algoritmo (continuação...) 3. Seleciona-se o par (Mj,Oi) que corresponde ao minimo CTij. • Se este mínimo é negativo então substitui-se Mj por Oi e volta ao passo 2. • Se este mínimo é positivo, vai para o passo 4. 4.Varre o banco de dados e distribui os objetos entre os k clusteres cujos representantes são os k medóides encontrados no passo 3.

  10. Observação No passo 3: • se o custo mínimo é negativo, significa que existe uma maneira de se substituir um medóide por outro objeto de modo a diminuir a soma dos erros SSE. • se o custo mínimo é positivo, significa que não há possibilidade de se modificar os medóides atuais de modo a diminuir o SSE. Logo, neste ponto, os medóides convergiram.

  11. Complexidade • PAM funciona satisfatoriamente para pequenos conjuntos de dados (em torno de 100 objetos e 5 clusters) • Ineficiente para grandes volumes de dados. • Número de pares MjOi = k(n-k) • Para cada par é preciso computar Cmij, considerando todos os objetos não medóides Om • Complexidade de cada iteração = O(k(n-k)2)

  12. Variante de PAM • CLARA (Clustering LARge Applications) • Considera uma amostragem do banco de dados • Aplica PAM na amostragem e encontra os k medóides. • A idéia é encontrar uma amostragem tal que os k-medóides da amostragem estão próximos dos k-medóides da base de dados inteira.

  13. Como encontrar a amostragem ideal ? • Considera diversas amostragens • Para cada amostragem, produz um particionamento da base original em k clusteres = C1,…, Ck. • Considera o melhor particionamento, calculando a dissimilaridade média de todos os objetos do banco de dados. • Dissimilaridade média = ΣΣ d(x,Mi) k x ɛ Ci i = 1 k Quanto menor a dissimilaridade melhor o particionamento.

  14. Observações • Número e tamanho das amostragens (obtidos experimentalmente) • Número de amostragens = 5 • Tamanho da amostragem = 40 + 2k • Performance satisfatória para bancos de dados em torno de 1000 objetos e 10 clusteres.

  15. Referência • R.T. Ng, J. Han: Efficient and Effective Clustering Methods for Spatial Data Mining VLDB 1994

More Related