1 / 15

Francesco Cutugno

Francesco Cutugno. Classificazione - WEKA. #. Classificazione Clusterizzazione Machine learning. Informatica. Data Warehouse. cutugno@unina.it. Sommario. Concetti di base Features Apprendimento supervisionato Apprendimento non supervisionato

gittel
Download Presentation

Francesco Cutugno

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Francesco Cutugno Classificazione - WEKA # Classificazione Clusterizzazione Machine learning Informatica Data Warehouse cutugno@unina.it

  2. Sommario • Concetti di base • Features • Apprendimento supervisionato • Apprendimento non supervisionato • Classi di algoritmi di machinelearning • Valutazione • WEKA • RapidMiner

  3. Machinelearning Oggetti conosciuti Oggetti sconosciuti Risposta

  4. Features Gli oggetti esistono solo in termini delle caratteristiche registrate Ogni tipo di analisi automatica riguardante un insieme di oggetti è vincolata a come questi sono stati descritti Se chiedessimo ad un algoritmo di machinelearning di risolvere un problema senza fornire le caratteristiche importanti per tale scopo?

  5. Apprendimento non supervisionato – Esempio

  6. Apprendimento supervisionato – Esempio A A B C B D D B C A D A B C D C

  7. Le istanze sconosciute Nella maggior parte dei casi il dominio delle features è continuo Tracciare confini di decisione troppo approssimati può rendere la classificazione delle istanze vicine a tali confini praticamente casuale In ogni caso, verrà fornita una risposta in base alle maggiori probabilità di appartenenza di un oggetto ad una classe piuttosto che ad un'altra ? ?

  8. Clustering

  9. Regressione

  10. Classificazione Training Set Classe 1 . . . . . . Classificatore Test set Classe n

  11. Misure di valutazione

  12. Generalizzazione step

  13. Cross validation 1 2 10

  14. Il formato ARFF Il formato ARFF è composto da un header, all'interno del quale viene descritta l'organizzazione dei dati, e da una sezione data, all'interno della quale vengono registrati i valori delle features secondo lo schema descritto nell'header. Di seguito riportiamo un esempio sul dataset di riferimento iris: % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa ...

  15. Il formato XRFF - Esempio <dataset name="iris" version="3.5.3"> <header> <attributes> <attribute name="sepallength" type="numeric"/> <attribute name="sepalwidth" type="numeric"/> <attribute name="petallength" type="numeric"/> <attribute name="petalwidth" type="numeric"/> <attribute class="yes" name="class" type="nominal"> <labels> <label>Iris-setosa</label> <label>Iris-versicolor</label> <label>Iris-virginica</label> </labels> </attribute> </attributes> </header> <body> <instances> <instance> <value>5.1</value> <value>3.5</value> <value>1.4</value> <value>0.2</value> <value>Iris-setosa</value> </instance> ... </instances> </body> </dataset>

More Related