tbd veri madencili i g n l.
Download
Skip this Video
Download Presentation
TBD Veri Madenciliğ i G ü n ü

Loading in 2 Seconds...

play fullscreen
1 / 30

TBD Veri Madenciliğ i G ü n ü - PowerPoint PPT Presentation


  • 512 Views
  • Uploaded on

TBD Veri Madenciliğ i G ü n ü. Veri M adenciligi Yö ntemlerine G enel B ak ış Selim AKYOKUŞ Doğuş Üniversitesi. Neden Veri Madenciliği?.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'TBD Veri Madenciliğ i G ü n ü' - nhu


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
tbd veri madencili i g n
TBD Veri Madenciliği Günü

Veri Madenciligi

Yöntemlerine Genel Bakış

Selim AKYOKUŞDoğuş Üniversitesi

neden veri madencili i
Neden Veri Madenciliği?
  • Veri patlaması veya seli: Otomatik veri toplama araçları, olgun veri tabanı ve bilgi teknolojileri, yaygın bilgi teknolojileri kullanımı, veri tabanları, veri anbarları ve diğer veri depolarında çok büyük miktarlarda veri ve bilgilerin toplanmasını sağlamakta ve veri miktarı sürekli artmaktadır.
      • Mağazalardaki satış/alış işlemleri
      • Banka ve Kredi kartı işlemleri
      • Bir çok sektördeki veri ve işlemler
      • Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler
      • Web verileri
  • Bilgi sistemleri birçok açık olmayan ve geleneksel yöntemlerle anlaşılamayan bilgileri içermektedir.
veri madencili i nedir
Veri Madenciliği Nedir?
  • Veriler arasında boğuluyoruz, ancak gerçek bilgi için açlık çekiyoruz.

Data (Veri) Information (bilgi)Knowledge (bilgi)Wisdom (Bilgelik)Vision (uzgörüş)

  • Çözüm:Veri Madenciliği(Gereksinim buluşların temel nedenidir.)
  • Veri Madenciliği:verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilgi ve örüntülerin çıkarılması olarak tanımlanmaktadır.
  • Diğer eşdeğer isimler:Veri tabanlarında bilgi madenciliği (knowledge mining from databases), Bilgi çıkarımı(knowledge extraction), data/pattern anaysis (veri ve örüntü analizi), veri arkeolojisi, …
bir ok disipilini eren bir alan

VeritabanıTeknolojisi

İstatistik

VeriMadeciliği

Görselleştirme

Makine

Öğrenmesi

ÖrüntüTanıma

DiğerDisiplinler

Algoritmalar

Birçok Disipilini İçeren Bir Alan
veri madencili i bilgi ke fi s re i

Bilgi (Knowledge)

Örüntü Değerlendirme

Veri Madeciliği

İlgili Veriler

Veri Seçme

Veri Anbarı

Veri Temizleme

Veri Entegrasyonu

Veritabanları

Veri Madenciliği (Bilgi Keşfi) Süreçi
  • Veri Temizleme: Gürültülü ve tutarsız verileri çıkarmak
  • Veri Bütünleştirme:Birçok data kaynağını birleştirebilmek
  • Veri Seçme: Yapılacak olan analiz ile ilgili olan verileri belirlemek
  • Veri Dönüşümü: Verinin veri madenciliği yöntemine göre hale dönüşümünü gerçekleştirmek
  • Veri Madenciliği: Verilerdeki örüntülerin belirlenmesi içinveri madenciliğiyöntemlerinin uygulanması
  • Örüntü Değerlendirme: Bazı ölçütlere göre elde edilmiş ilginç örüntüleri bulmak ve değerlendirmek
  • Bilgi Sunumu:Elde edilen bilgilerin kullanıcılara sunumunu
crisp dm e g re veri madencili i s reci
CRISP-DM’e göre Veri Madenciliği Süreci
  • CRISP-DM (CRoss Industry Process for Data Mining). CRISP-DM detaylı bir veri madenciliği süreci standartı’dır.
  • Veri madenciliği projelerinin hızlı, daha verimli ve daha az maliyetli gerçekleştirilmesi için bir rehberdir.
  • Evrimsel, tekrarlı bir süreç
  • www.crisp-dm.org
crisp dm a ama ve g revleri
CRISP-DM Aşama ve Görevleri

VeriHazırlama (Data

Preparation)

İşi Anlama

(Business

Understanding)

VeriAnlama (Data

Understanding)

Modelleme(Modeling)

Kurulum(Deployment)

Değerlendirme

(Evaluation)

Data Set

Data Set Description

Select Data

Rationale for Inclusion /

Exclusion

Clean Data

Data Cleaning Report

Construct Data

Derived Attributes

Generated Records

Integrate Data

Merged Data

Format Data

Reformatted Data

Select Modeling

Technique

Modeling Technique

Modeling Assumptions

Generate Test Design

Test Design

Build Model

Parameter Settings

Models

Model Description

Assess Model

Model AssessmentRevised Parameter Settings

Evaluate Results

Assessment of Data

Mining Results w.r.t.

Business Success

Criteria

Approved Models

Review Process

Review of Process

Determine Next Steps

List of Possible Actions

Decision

Plan Deployment

Deployment Plan

Plan Monitoring and

Maintenance

Monitoring and Maintenance Plan

Produce Final Report

Final Report

Final Presentation

Review Project

Experience

Documentation

Determine

Business Objectives

Background

Business Objectives

Business Success

Criteria

Situation Assessment

Inventory of Resources

Requirements,

Assumptions, and

Constraints

Risks and Contingencies

Terminology

Costs and Benefits

Determine

Data Mining Goal

Data Mining Goals

Data Mining Success

Criteria

Produce Project Plan

Project PlanInitial Asessment of Tools and Techniques

Collect Initial Data

Initial Data Collection

Report

Describe Data

Data Description Report

Explore Data

Data Exploration Report Verify Data Quality

Data Quality Report

Kaynak: Laura Squier

veri madencili i y ntemleri
Veri Madenciliği Yöntemleri
  • Genel olarak veri madenciliği yöntemleri iki sınıfa ayrılabilir:
    • Öngörü Yöntemleri (Prediction Methods)
      • Öngörü amacı ile var olan verilerden yorum çıkarılması
    • Tanımlayıcı Yöntemler (Description Methods)
      • Veriyi tanımlayan yorumlanabilir örüntülerin bulunması
s n fland rma
Sınıflandırma
  • Girdi: Kayıtlar kümesi (Öğrenme Kümesi)
    • Her bir kayıt özellikler (Attribute-Bir tablodaki sütunlar) içerir. Bu özelliklerden bir tanesi sınıftır (Class).
  • Diğer özelliklerden sınıf özelliğini öngörebilecek bir model fonksiyon geliştirilir.
  • Amaç: Yeni bir kayıt geldiğinde, bu kayıt geliştirilen model kullanılarak mümkün olduğunca doğru bir sınıfa atanır.
    • Bir deneme kümesi modelin doğruluğunu belirlemek için kullanılır. Genellikle verilen veri kümesi öğrenme ve deneme kümesi olarak ikiye ayrılır. Öğrenme kümesi modeli oluşturulmasında, deneme kümesi modelin doğrulanmasında kullanılır.
s n fland rma s reci 1 model olu t rma

ÖğrenmeKümesi

Model

(Sınıflandırıcı)

Sınıflandırma Süreci: (1) Model Oluştırma

SınıflandırmaYöntemleri

(Algoritmaları)

IF rank = ‘professor’

OR years > 6

THEN tenured = ‘yes’

s n fland rma s reci 2 modelin ng r i in kullan lmas

Sınıflandırıcı

DenemeKümesi

Yeni veri

Sınıflandırma Süreci: (2) Modelin Öngörü için kullanılması

(Jeff, Professor, 4)

Tenured?

karar a ac
Karar Ağacı
  • Karar Ağacı
    • Yaygın kullanılan öngörü yöntemlerinden bir tanesidir
    • Ağaçtaki her düğüm bir özellikteki testi gösterir.
    • Düğüm dalları testin sonucunu belirtir.
    • Ağaç yaprakları sınıf etiketlerini içerir.
  • Karar ağacı çıkarımı iki aşamadan oluşur
    • Ağaç inşası
      • Başlangıçta bütün öğrenme örnekleri kök düğümdedir.
      • Örnekler seçilmiş özelliklere tekrarlamalı olarak göre bölünür.
    • Ağaç Temizleme (Tree pruning)
      • Gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır.
  • Karar ağacı kullanımı: Yeni bilinmeyen örneğin sınıflandırılması
    • Bilinmeyen örneğin özellikleri karar ağacında test edilerek sınıfı bulunur.
bir kredi kart kampanyas nda yeni bir rne in s n fland r lmas
Bir Kredi Kartı Kampanyasında Yeni Bir Örneğin Sınıflandırılması

Yanıtlamaz

Düşük

Borç

Bayan X yüksek gelirli.

Düşük

Yanıtlar

Yüksek

Gelir

Yanıtlar

Çok

Çocuk

Bay

Yüksek

Cinsiyet

Yanıtlamaz

Az

Bayan

Yanıtlamaz

Ağaç bayan X’in kredi kampanyasına yanıt vermeyeceğini öngörür.

14

bayes s n fland rmas
Bayes Sınıflandırması
  • İstatistiksel bir sınıflandırıcıdır. Sınıf üyelik olasılıklarını öngörür.
  • İstatistikteki bayes teoremine dayanır.
  • Basit bir yöntemdir.
basit bayes s n fland rma y ntemi
Basit Bayes Sınıflandırma Yöntemi
  • Girdi : Öğrenme seti
  • C1, C2, …, Cm adlı msınıfımız olsun.
  • Sınıflandırma maksimum posteriori olasılığını bulmaya dayanır.
  • P(X) is bütün sınıflar için sabittir.
  • olasılığının maksimum değeri bulunmalıdır.
  • Yeni bir örnek X, maximum P(X|Ci)*P(Ci)değerine sahip olan sınıfa atanır.
tenis oynama rne i yeni x rne inin s n fland r lmas
Tenis oynama örneği: Yeni X Örneğinin Sınıflandırılması
  • Yeni örnek X = <rain, hot, high, false>
  • P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582
  • P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286
  • Örnek X’in sınıfı n (don’t play) olarak öngörülür.
zaman serisi analizi
Zaman Serisi Analizi
  • Örnek: Borsa
  • Gelecek menkul kıymet değerlerinin öngörülür.
  • Zaman içinde benzer örüntüler belirlenir,
  • ve öngörü yapılır.
e ri uydurma regression
Eğri Uydurma (Regression)
  • Sürekli değişkenlerin öngörüsü regrasyon (eğri uydurma) olarak adlandırılan bir istatistiksel yöntemle tespit edilebilir.
  • Regresyon analizinin amacı değişik girdi değişkenlerini çıktı değişkeni ile ilişkilendirecek en iyi modelin çıkarılmasıdır.
  • Regresyon analizi bir Y değişkeninin diğer bir veya daha çok X1, X2, …, Xn değişkenleri ile ilişkisinin belirlenmesi sürecidir.
  • Y, yanıt çıktısı veya bağımlı değişken olarak adlandırılır. Xi değişkenleri girdi veya bağımsız değişkenler olarak adlandırılır.
  • Bir veri kümesindeki bulunan ilişki regrasyon denklemi (modeli) ile karakterize edilir.
  • En çok yaygın regrasyon modeli denklemi
rnek line e r regr asyon e ri uydurma
Örnek: Lineerregrasyon (eğri uydurma)

Verilen örnek veri setindeki A ve B değişkenleri arasındaki ilişki aşağıdaki denklemele ifade edilebilir.

αveβkatsayılarının değerleri matematiksel olarak bulunur.

Optimal regrasyon denklemi:

k meleme demetleme
Kümeleme (Demetleme)
  • Kümeleme, veriyi sınıflara veya kümelere ayırma işlemidir.
  • Birbirlerine benzeyen elemanlardan oluşan gruba küme denir.
  • Farklı kümelere ait elemanlar arasında benzerlik azdır.
  • Bir benzerlik ölçütü belirlenir. Değerler süreli ise öklid uzaklığıdır.
  • Kümeleme algoritmaları
    • küme için benzerliğin maksimize edilmesi
    • Kümeler arası benzerliğin minimize edilmesi

kavramına dayanır.

k meleme rne i
Kümeleme örneği
  • 3-Boyutlu uzayda öklid uzaklığına dayanan kümeleme.

Küme içi uzaklıklar minimize edilir.

Kümeler arası uzaklıklar

maksimize edilir.

k ortalama means k meleme y ntemi

10

9

8

7

6

5

4

3

2

1

0

0

1

2

3

4

5

6

7

8

9

10

K-Ortalama(Means)Kümeleme Yöntemi

10

9

8

7

6

5

Update the cluster means

Assign each objects to most similar center

4

3

2

1

0

0

1

2

3

4

5

6

7

8

9

10

reassign

reassign

K=2

Arbitrarily choose K object as initial cluster center

Update the cluster means

birliktelik analizi association analysis
Birliktelik Analizi (Association Analysis)
  • Birliktelik analizi büyük veri kümeleri arasında birliktelik ilişkilerini bulur. Market-Basket analizi ve işlem (transaction) veri analizi olarakta adlandırılır.
  • Birliktelik analizi,belirli bir veri kümesinde yüksek sıklıkta birlikte görülen özellik değerlerine ait ilişkisel kuralların keşfidir.
  • Sonuclar birliktelik kuralları (A B) olarak sunulur.
  • Birliktelik kurallarının kullanıldıgı en yaygın örnek market sepeti uygulamasıdır.
  • Market sepet analizi, müsterilerin yaptıkları alısverislerdeki ürünler arasındaki birliktelikleribularak müsterilerin satın alma alıskanlıklarını belirlemeye çalışır .
marketlerde birliktelik kural ke fi
Marketlerde Birliktelik Kuralı Keşfi
  • Örnek

Bulunan kurallar:

{Süt} --> {Kola}

{Çocuk Bezi, Süt} --> {Bira}

stisna analizi outlier analizi
İstisna Analizi (OutlierAnalizi)
  • Normal davranışlardan ve eğilimlerden çok farklı sapmaları belirlemede kullanılır.
  • Uygulamalar:
    • Kredi Kartı YolsuzluğuTesbiti
    • Ağ Saldırı (Intrusion)Tesbiti
refer ans kitaplar kaynak han kamber
ReferansKitaplar (kaynak: Han & Kamber)
  • S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002
  • R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000
  • T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
  • U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996
  • U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001
  • J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006
  • D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
  • T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001
  • T. M. Mitchell, Machine Learning, McGraw Hill, 1997
  • G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991
  • P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
  • S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
  • I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd ed. 2005
tbd veri madencili i g n30
TBD Veri Madenciliği Günü

TEŞEKKÜRLER

http://www.akyokus.com/Presentations/

ad