Data Clustering and Mining

Data Clustering and Mining Dexin Zhou – Bard College (Presenter) Ralph Abbey – North Carolina State U. Jeremy Diepenbrock – Washington U. at St. Louis Project Advisor: Dr. Carl Meyer Additional Advising: Dr. Amy Langville Graduate Assistant: Shaina Race

What is Data Clustering? • Clustering is the partitioning of a data set into subsets (clusters). • We are interested in creating good clusters that allow us to reorganize disordered data into a block structureso that useful information can be extracted.

A Visible Example Before Clustering After Clustering

What are we clustering? • An 86 mini-document set that we created with 13 topics • A 185 document set used in Daniel Boley’s paper with 10 topics • SAS grocery store dataset

Preparing the data • Term Aij is in the following form • g term is a function of term i, it downplays the terms that appear frequently globally • l term is a function of the raw frequency of a certain term in document j(eg: log) • d term is a normalization factor

How? • Principal Direction Divisive Partitioning • Principal Direction Gap Partitioning • Non-Negative Matrix Factorization • Clustering Aggregation

Singular Value Decomposition

Principle Direction Divisive Partitioning

PDDP

Principle Direction Gap Partitioning Plot of the Second Right Singular Vector Plot of the First Right Singular Vector Sorted Value Sorted Value Sorted Indices Sorted Indices

A Comparison of PDGP w/ PDDP

Centering Vs. Non-Centering

Non-Negative Matrix Factorization

NMF Clustering

Cluster Aggregation

Metrics • Entropy Method • A standard measurement based on our prior knowledge to the data file. • Density Method • Does not require prior knowledge to the data file. • Less accurate.

Mini-document dataset

Mini-document dataset Result

Boley’s J1 Dataset

Boley’s Dataset Result

SAS Grocery Dataset

SAS Grocery Dataset Results

SAS Grocery Dataset Result

Conclusion

For Additional Information • Please Visit • http://meyer.math.ncsu.edu/Meyer/REU/REU.html

Data Clustering and Mining

Data Clustering and Mining

Presentation Transcript

Data Mining: Clustering

Clustering and Partitioning for Spatial and Temporal Data Mining

Machine Learning and Data Mining Clustering

Data Mining Techniques Clustering

Data Mining--Clustering

Clustering in Data Mining

Clustering in Microarray Data-mining and Challenges Beyond

Chapter 5 Data Mining: Clustering

732A02 Data Mining - Clustering and Association Analysis

Efficient and Effective Clustering Methods for Spatial Data Mining

High Performance Data Mining Chapter 3: Clustering

732A02 Data Mining - Clustering and Association Analysis

DATA MINING WITH CLUSTERING AND CLASSIFICATION

Data Mining: Concepts and Techniques Clustering

Data Mining-Association Rules and Clustering

732A02 Data Mining - Clustering and Association Analysis

Clustering and Partitioning for Spatial and Temporal Data Mining

Data Mining: Concepts and Techniques Clustering

Machine Learning and Data Mining Clustering