1 / 28

Veri Madenciligi Y ntemlerine Genel Bakis

Neden Veri Madenciligi?. Veri patlamasi veya seli: Otomatik veri toplama ara?lari, olgun veri tabani ve bilgi teknolojileri, yaygin bilgi teknolojileri kullanimi, veri tabanlari, veri anbarlari ve diger veri depolarinda ?ok b?y?k miktarlarda veri ve bilgilerin toplanmasini saglamakta ve veri miktari

nau
Download Presentation

Veri Madenciligi Y ntemlerine Genel Bakis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    2. Neden Veri Madenciligi? Veri patlamasi veya seli: Otomatik veri toplama aralari, olgun veri tabani ve bilgi teknolojileri, yaygin bilgi teknolojileri kullanimi, veri tabanlari, veri anbarlari ve diger veri depolarinda ok byk miktarlarda veri ve bilgilerin toplanmasini saglamakta ve veri miktari srekli artmaktadir. Magazalardaki satis/alis islemleri Banka ve Kredi karti islemleri Bir ok sektrdeki veri ve islemler Bilimsel veriler, uydu ve radarlardaki algilayicilar gelen veriler Web verileri Bilgi sistemleri birok aik olmayan ve geleneksel yntemlerle anlasilamayan bilgileri iermektedir.

    3. Veri Madenciligi Nedir? Veriler arasinda boguluyoruz, ancak gerek bilgi iin alik ekiyoruz. Data (Veri) Information (bilgi) Knowledge (bilgi) Wisdom (Bilgelik) Vision (uzgrs) zm: Veri Madenciligi (Gereksinim buluslarin temel nedenidir.) Veri Madenciligi: verilerden st kapali, ok net olmayan, nceden bilinmeyen ancak potansiyel olarak kullanisli bilgi ve rntlerin ikarilmasi olarak tanimlanmaktadir. Diger esdeger isimler: Veri tabanlarinda bilgi madenciligi (knowledge mining from databases), Bilgi ikarimi (knowledge extraction), data/pattern anaysis (veri ve rnt analizi), veri arkeolojisi,

    4. Birok Disipilini Ieren Bir Alan

    5. Veri Madenciligi (Bilgi Kesfi) Srei

    6. CRISP-DMe gre Veri Madenciligi Sreci

    7. CRISP-DM Asama ve Grevleri

    8. Veri Madenciligi Yntemleri Genel olarak veri madenciligi yntemleri iki sinifa ayrilabilir: ngr Yntemleri (Prediction Methods) ngr amaci ile var olan verilerden yorum ikarilmasi Tanimlayici Yntemler (Description Methods) Veriyi tanimlayan yorumlanabilir rntlerin bulunmasi

    9. Veri Madenciligi Yntemleri

    10. Siniflandirma Girdi: Kayitlar kmesi (grenme Kmesi ) Her bir kayit zellikler (Attribute-Bir tablodaki stunlar) ierir. Bu zelliklerden bir tanesi siniftir (Class). Diger zelliklerden sinif zelligini ngrebilecek bir model fonksiyon gelistirilir. Ama: Yeni bir kayit geldiginde, bu kayit gelistirilen model kullanilarak mmkn oldugunca dogru bir sinifa atanir. Bir deneme kmesi modelin dogrulugunu belirlemek iin kullanilir. Genellikle verilen veri kmesi grenme ve deneme kmesi olarak ikiye ayrilir. grenme kmesi modeli olusturulmasinda, deneme kmesi modelin dogrulanmasinda kullanilir.

    11. Siniflandirma Sreci: (1) Model Olustirma

    12. Siniflandirma Sreci: (2) Modelin ngr iin kullanilmasi

    13. Karar Agaci Karar Agaci Yaygin kullanilan ngr yntemlerinden bir tanesidir Agataki her dgm bir zellikteki testi gsterir. Dgm dallari testin sonucunu belirtir. Aga yapraklari sinif etiketlerini ierir. Karar agaci ikarimi iki asamadan olusur Aga insasi Baslangita btn grenme rnekleri kk dgmdedir. rnekler seilmis zelliklere tekrarlamali olarak gre blnr. Aga Temizleme (Tree pruning) Grlt ve istisna kararlari ieren dallar belirlenir ve kaldirilir. Karar agaci kullanimi: Yeni bilinmeyen rnegin siniflandirilmasi Bilinmeyen rnegin zellikleri karar agacinda test edilerek sinifi bulunur.

    14. Bir Kredi Karti Kampanyasinda Yeni Bir rnegin Siniflandirilmasi

    15. Bayes Siniflandirmasi Istatistiksel bir siniflandiricidir. Sinif yelik olasiliklarini ngrr. Istatistikteki bayes teoremine dayanir. Basit bir yntemdir.

    16. Basit Bayes Siniflandirma Yntemi Girdi : grenme seti C1, C2, , Cm adli m sinifimiz olsun . Siniflandirma maksimum posteriori olasiligini bulmaya dayanir. P(X) is btn siniflar iin sabittir. olasiliginin maksimum degeri bulunmalidir. Yeni bir rnek X, maximum P(X|Ci)*P(Ci) degerine sahip olan sinifa atanir.

    17. Tenis oynama rnegi: P(xi|C) degerlerinin bulunmasi

    18. Tenis oynama rnegi: Yeni X rneginin Siniflandirilmasi Yeni rnek X = <rain, hot, high, false> P(X|p)P(p) = P(rain|p)P(hot|p)P(high|p)P(false|p)P(p) = 3/92/93/96/99/14 = 0.010582 P(X|n)P(n) = P(rain|n)P(hot|n)P(high|n)P(false|n)P(n) = 2/52/54/52/55/14 = 0.018286 rnek Xin sinifi n (dont play) olarak ngrlr.

    19. Zaman Serisi Analizi rnek: Borsa Gelecek menkul kiymet degerlerinin ngrlr. Zaman iinde benzer rntler belirlenir, ve ngr yapilir.

    20. Egri Uydurma (Regression) Srekli degiskenlerin ngrs regrasyon (egri uydurma) olarak adlandirilan bir istatistiksel yntemle tespit edilebilir. Regresyon analizinin amaci degisik girdi degiskenlerini ikti degiskeni ile iliskilendirecek en iyi modelin ikarilmasidir. Regresyon analizi bir Y degiskeninin diger bir veya daha ok X1, X2, , Xn degiskenleri ile iliskisinin belirlenmesi srecidir. Y, yanit iktisi veya bagimli degisken olarak adlandirilir. Xi degiskenleri girdi veya bagimsiz degiskenler olarak adlandirilir. Bir veri kmesindeki bulunan iliski regrasyon denklemi (modeli) ile karakterize edilir. En ok yaygin regrasyon modeli denklemi

    21. rnek: Lineer regrasyon (egri uydurma)

    22. Kmeleme (Demetleme) Kmeleme, veriyi siniflara veya kmelere ayirma islemidir. Birbirlerine benzeyen elemanlardan olusan gruba kme denir. Farkli kmelere ait elemanlar arasinda benzerlik azdir. Bir benzerlik lt belirlenir. Degerler sreli ise klid uzakligidir. Kmeleme algoritmalari kme iin benzerligin maksimize edilmesi Kmeler arasi benzerligin minimize edilmesi kavramina dayanir.

    23. Kmeleme rnegi

    24. K-Ortalama(Means) Kmeleme Yntemi

    25. Birliktelik Analizi (Association Analysis) Birliktelik analizi byk veri kmeleri arasinda birliktelik iliskilerini bulur. Market-Basket analizi ve islem (transaction) veri analizi olarakta adlandirilir. Birliktelik analizi, belirli bir veri kmesinde yksek siklikta birlikte grlen zellik degerlerine ait iliskisel kurallarin kesfidir. Sonuclar birliktelik kurallari (A ?B) olarak sunulur. Birliktelik kurallarinin kullanildigi en yaygin rnek market sepeti uygulamasidir. Market sepet analizi, msterilerin yaptiklari alisverislerdeki rnler arasindaki birliktelikleri bularak msterilerin satin alma aliskanliklarini belirlemeye alisir .

    26. Basket veri analizi

    27. Marketlerde Birliktelik Kurali Kesfi rnek

    28. Istisna Analizi (Outlier Analizi) Normal davranislardan ve egilimlerden ok farkli sapmalari belirlemede kullanilir. Uygulamalar: Kredi Karti Yolsuzlugu Tesbiti Ag Saldiri (Intrusion) Tesbiti

More Related