1 / 58

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες. Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland. Διάγραμμα. Εισαγωγή Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) Εφαρμογές προσέγγισης τέτοιων δεδομένων Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση Σχετική Έρευνα

Download Presentation

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Προσέγγιση Δεδομένων μεΠολλαπλές Μετρήσιμες Ποσότητες Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland

  2. Διάγραμμα • Εισαγωγή • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) • Εφαρμογές προσέγγισης τέτοιων δεδομένων • Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση • Σχετική Έρευνα • Wavelets (εκτενή περιγραφή) • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Συμπεράσματα

  3. Δεδομένα με Πολλαπλές Μετρήσιμες Ποσότητες • Συνήθως τα δεδομένα αποτελούνται από: • Διαστάσεις (dimensions) • Περιγράφουν τις συλλεγόμενες ποσότητες • Μετρήσιμες ποσότητες (measures) • Αριθμητικές τιμές • Δεδομένα Πωλήσεων Προϊόντων • Διαστάσεις: Προϊόν, Πελάτης, Ώρα Πώλησης • Μετρήσιμες ποσότητες: Τιμή αγοράς/πώλησης, κόστη μεταφοράς/αποθήκευσης... • Συλλογή Δικτυακών Μετρήσεων • Διάσταση: Χρόνος Συλλογής • Μετρήσιμες ποσότητες: Εισερχόμενα/εξερχόμενα πακέτα/bits, επιχειρούμενες συνδέσεις...

  4. Ανάγκη Προσέγγισης Δεδομένων • Μέγεθος δεδομένων μπορεί να είναι σε GB/TB • Αργή απόκριση σε ερωτήσεις • Δεν χρειάζεται πάντα 100% ακρίβεια • Εξερευνητικές ερωτήσεις σε συστήματα εξόρυξης δεδομένων • Ερωτήσεις ομαδοποίησης (aggregate queries) σε συστήματα υποστήριξης αποφάσεων(DSS) • Προσέγγιση για λόγους συμπίεσης (εικόνες) • Συμπίεση χρήσιμη και στη μεταφορά δεδομένων (δίκτυα αισθητήρων)

  5. Συστήμα Υποστήριξης Αποφάσεων SQL Ερώτηση Ακριβής Απάντηση “Μετασχηματισμένη” Ερώτηση GB/TB Σύνοψη Δεδομένων Προσεγγιστική Απάντηση KB/MB Προσέγγισης Δεδομένων • Λύση: κατασκευή Συνόψεων Δεδομένων • Μέγεθος σύνοψης << μέγεθος δεδομένων • Γρήγορη απόκριση σε ερωτήσεις • Τύποι Συνόψεων • Ιστογράμματα, Wavelets, Δειγματοληψία, Σχέδια (sketches)

  6. Τι συμβαίνει στο πρόβλημα μας? • Δεδομένα είναι πλειάδες (tuples) με D+M πεδία • D διαστάσεις • M μετρήσιμες ποσότητες • Μόνη εύκολα επεκτάσιμη μέθοδος: Δειγματοληψία • Άλλες τεχνικές περισσότερο αυτόνομες • Κατανομή συνολικού χώρου σύνοψης • Κάθε μετρήσιμη ποσότητα προσεγγίζεται ξεχωριστά • Διαφορετικοί κουβάδες (buckets) για τα ιστογράμματα • Διαφορετικοί συντελεστές (coefficients) για τα wavelets • Λιγότερος χώρος για κάθε μετρήσιμη ποσότητα • Για T πλειάδες, και α% χώρο για σύνοψη • wavelet συντελεστές για κάθε μετρήσιμη ποσότητα

  7. Μπορούμε να κάνουμε κάτι καλύτερο? • Έξυπνη κατανομή χώρου • Διαφορετική δυσκολία προσέγγισης κάθε μετρήσιμης ποσότητας • Εκμετάλλευση συσχετίσεων (correlation) μεταξύ ποσοτήτων • Ολικών ή σε ορισμένες περιοχές των δεδομένων • Εκμετάλλευση εξαρτήσεων στην αποθήκευση των συνόψεων • Πχ, κοινές συντεταγμένες συντελεστών στα wavelets

  8. Διάγραμμα • Εισαγωγή • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) • Εφαρμογές προσέγγισης τέτοιων δεδομένων • Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση • Σχετική Έρευνα • Wavelets κατασκευή • Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Συμπεράσματα

  9. Wavelets • Ιεραρχική ανάλυση συναρτήσεων/σημάτων • Εφαρμογές σε: • Επεξεργασία Εικόνων και Σημάτων (WALRUS: [NRS99]) • Εκτίμηση Επιλεκτικότητας (selectivity estimation) [MVW98] • Ερωτήσεις Άθροισης Περιοχών (Range-Sum)σε κύβους δεδομένων [VWI98, VW99] • Προσεγγιστική Επεξεργασία Ερωτήσεων [CGRS00]

  10. Wavelets (συν.) • Διεργασία 2 βημάτων • Ανάλυση δεδομένων και παραγωγή wavelet συντελεστών • Επιλογή συντελεστών για αποθήκευση • Συντελεστές σώζονται ως πλειάδες με D+1 πεδία • D συντεταγμένες (1 για κάθε διάσταση) • “Κανονικοποιημένη” τιμή συντελεστή • Συνήθης στόχος: Ελαχιστοποίηση μέσου τετραγωνικού σφάλματος • Πιθανοτικές Wavelet Συνόψεις με Εγγυήσεις Σφάλματος [GG02]

  11. [4] [1] [5, ] [5, 3] [-3, ] [-3, 0] ΣυντεταγμένηΤιμή 0 4 1 1 2 -3 3 0 Α. Ανάλυση με Haar Wavelets • Wavelets:Ιεραρχική ανάλυση συναρτήσεων • Haar wavelets:απλούστερη βάση των wavelets • Αναδρομικός υπολογισμός μέσου όρου και μέσης διαφοράς μεταξύ ζευγών από τιμές Ανάλυση Μέσοι Όροι Συντελεστές 0 1 2 [2, 8, 3, 3] ----

  12. 4 4 1 4 1 + -3 - 1 -3 0 [4] [1] + - -3 0 + - 2 8 3 3 Data 13 = 3*4 +1*(2-1) 8 = 4 + 1 – (-3) Ανάλυση Μέσοι Όροι Συντελεστές 0 [5, 3] 1 [-3, 0] 2 [2, 8, 3, 3] ---- Haar Wavelet Συντελεστές • Απεικόνιση στο Δέντρο Σφάλματος (Error Tree) • Συντελεστές συντελούν στην εκτίμηση 2level δεδομένων • Ερωτήσεις Σημείων (point queries): • Συντελεστές σε μονοπάτι προς δεδομένο • Ερωτήσεις Εύρους (range queries): • Συντελεστές σε μονοπάτι προς κάτω και άνω όρια του εύρους

  13. Ψευδοκώδικας Ανάλυσης // Οι δείκτες start, end ορίζουν περιοχή με μέγεθος δύναμη του 2 Decompose(A, start, end) { // επιστρέφει το μέσο όρο της περιοχής if (end-start > 1) { // Αναδρομή σε 2 υποπεριοχές Avg1 = Decompose(A, start, (start+end)/2) Avg2 = Decompose(A, (start+end)/2 + 1, end) } else { Avg1 = A[start]; Αvg2 = A[end]; } πρόσθεσε το συντελεστή με τιμή: (Avg1 – Avg2) / 2; return (Avg1 + Avg2) / 2 }

  14. Πολλαπλές Διαστάσεις • Ανάλυση επεκτείνεται εύκολα σε πολλαπλές διαστάσεις • Σύνολο τιμών είναι το ND (αντί για Ν σε 1-D) • N: μέγιστο πεδίο τιμών σε οποιαδήποτε διάσταση • Επεξεργασία περιοχών μεγέθους δύναμης του 2D (αντί για 2) • Αναδρομή σε 2D υποπεριοχές • Οι 2Dτιμές/μέσοι όροι περιοχών παράγουν: • 1 μέσο όρο της περιοχής • 2D-1 συντελεστές (αντί για 2-1 = 1) • Πολλές υποπεριοχές είναι κενές (αραιά δεδομένα) • Δεν χρειάζεται αναδρομή σε αυτές • Δεδομένα χρειάζονται ταξινόμηση με βάση σειρά “επεξεργασίας” των δεδομένων

  15. + - + - + - + - + - - - - + + + + + + + + - - - - + + + + - - - - - - - - + + + + Δέντρο Σφάλματος • Κάθε κόμβος έχει 2Dπαιδιά • Κάθε κόμβος περιέχει μέχρι 2D-1 συντελεστές

  16. Β. Επιλογή Συντελεστών για Αποθήκευση • Επιλογή εξαρτάται από σφάλμα για ελαχιστοποίηση • Ελαχιστοποίηση συνολικού τετραγωνικού (L2) σφάλματος • Κανονικοποίηση • Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών • Αποδεδειγμένα βέλτιστη λύση

  17. Ελαχιστοποίηση Μέγιστου Σχετικού Σφάλματος • L2 σφάλμα ακατάλληλο για συστήματα αποφάσεων • Πόσο ακριβής είναι η απάντηση που παίρνω? • Ελαχιστοποίηση μέγιστου σχετικού σφάλματος: • di: πραγματική τιμή δεδομένου i • di: εκτιμούμενη τιμή δεδομένου i • s: λογικό όριο • Καμία γνωστή αποδοτική λύση ^

  18. Πιθανοτικές Συνόψεις [GG02] • Προσπάθεια αντιμετώπισης του προβλήματος • Πιθανότητα 0yi1επιλογής κάθε μη-μηδενικού συντελεστή ci • Συντελεστής γίνεται τυχαία μεταβλητή: • E[Ci] = yi ci/yi + (1-yi)  0 = ci (αμερόληπτος εκτιμητής) • Var(i,yi) = Var[Ci] = ci2 (1-yi)/yi

  19. 4 4 1 1 -3 - + -3 0 - + + - 2 8 3 3 Data 8 = 4 + 1 – (-3) Πιθανοτικές Συνόψεις (συν.) • Κάθε δεδομένο είναι γραμμικός συνδυασμός συντελεστών • Αναμενόμενη τιμή = πραγματική • Στόχος: Δεδομένου ενός ορίου αποθήκευσης Β, βρες τα yi, ώστε να ελαχιστοποιείται το:

  20. 4 1 - + -3 0 - + + - 2 8 3 3 Data Πιθανοτικές Συνόψεις (συν.) • Στη βέλτιστη λύση: • maxNSE μέσω δεξιού και αριστερού υποδέντρου είναι ίσα • Σε κάθε υποδέντρο, το max NSE συμβαίνει για τη μικρότερη τιμή • Λύση δυναμικού προγραμματισμού • Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου • yi: στον τρέχον κόμβο • bL: στο αριστερό υπόδεντρο • Β-bL-yi: στο δεξί υπόδεντρο • Αναθέσεις χώρου πολ/σια 1/q (q  10)

  21. Πιθανοτικές Συνόψεις (συν.) • Πολυπλοκότητες (1-D)για μέγεθος πεδίου τιμών N, χώρο B: • O(NqB) χώρο • Ο(Nq2Blog(qB)) χρόνο • O(qBlogN) ελάχιστη μνήμη • Πολυπλοκότητες (πολυδιάστατα δεδομένα)για Nz κόμβους του δέντρου σφάλματος με μη μηδενικούς συντελεστές, χώρο B: • O(2DNzqB) χώρο • Ο(2DNzqB(qlog(qB)+D2D)) χρόνο • O(2DqBlogN) ελάχιστη μνήμη • Για B=Θ(Ν), πολυπλόκοτητες τουλάχιστον τετραγωνικές στο Ν

  22. Διάγραμμα • Εισαγωγή • Σχετική Έρευνα • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Δεδομένα με πολλαπλές μετρήσιμες ποσότητες • Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος • Βέλτιστοι και greedy αλγόριθμοι • Προσέγγιση χρονοσειρών • Συμπεράσματα

  23. Α. Μέσο τετραγωνικό σφάλμα (1 ποσότητα) • Ελαχιστοποίση συνολικού τετραγωνικού (L2) σφάλματος • Κανονικοποίηση • Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών • Αποδεδειγμένα βέλτιστη λύση • Μέσο τετραγωνικό σφάλμα = άθροισμα τετραγώνου των συντελεστών που δεν επιλέγονται • Συντελεστές σώζονται ως πλειάδες με D+1 πεδία • D συντεταγμένες (1 για κάθε διάσταση) • “Κανονικοποιημένη” τιμή συντελεστή

  24. Α. Μέσο τετραγωνικό σφάλμα (πολλές ποσότητες) • Δύο υπάρχουσες τεχνικές: • Ανεξάρτητημέθοδος • Ξεχωριστή ανάλυση για κάθε ποσότητα • Συνδυασμένημέθοδος • Αντιμετωπίζει τις ποσότητες σαν πίνακες τιμών • Κρατάει τους πίνακες με τις B μεγαλύτερες L2 νόρμες

  25. Μειωμένη Εκμετάλλευση Χώρου από τις 2 μεθόδους Μειονεκτήματα Υπάρχουσων Τεχνικών • Ακραίες υποθέσεις αποθήκευσης συντελεστών • Για κάθε συνδυασμό συντεταγμάνων • Ανεξάρτητη μέθοδος αποθηκεύει μόνο ΜΙΑ τιμή συντελεστή (μίας ποσότητας) • Κάποιες συντεταγμένες συντελεστών μπορεί να αποθηκευθούν πολλές φορές • Συνδυασμένημέθοδος αποθηκεύει ΟΛΕΣ τις τιμές (για όλες τις ποσότητες) • Μπορεί να αποθηκεύσει “μη χρήσιμες” τιμές

  26. 101 1 2 0 100 5 917 Bitmap Συντεταγμένες Τιμές Συντελεστών Ο Στόχος μας • Προσαρμοζόμενη μέθοδος αποθήκευσης • Χωρίς προβλήματα Ανεξάρτητης/Συνδυασμένηςμεθόδων • Βελτίωση εκμετάλλευσης χώρου • Δίκαιη κατανομή χώρου στις ποσότητες • Ιδέα: • Αποθήκευσε 1 ως M τιμές συντελεστών • Ένα bitmap μπορεί να δείξει • Πόσες τιμές συντελεστών έχουν αποθηκευτεί • Ποιες τιμές συντελεστών έχουν αποθηκευτεί

  27. Επεκταμένοι Wavelet Συντελεστές • Ο Επεκταμένος Wavelet Συντελεστής είναι μία τριάδα <C, β, V> • Συντεταγμένες συντελεστή C • Bitmap β • Αποθηκευμένες τιμές συντελεστή V • Ποιές τιμές συντελεστών να αποθηκεύσουμε δεδομένου ενός ορίου αποθήκευσης B ?

  28. Ορισμός Προβλήματος • Για ένα D-διάστατο σύνολο δεδομένων με M ποσότητες • Δεδομένου: • Σύνολο βαρών για κάθε ποσότητα • Σύνολο N αρχικούς Συνδυασμένους συντελεστές • Όριο αποθήκευσης B • Ελαχιστοποίησε το σταθμισμένο άθροισμα των τετραγωνικών σφαλμάτων για όλες τις ποσότητες • Οι αλγόριθμοί μας εφαρμόζονται στο τελικό στάδιο επιλογής συντελεστών • Καμία δέσμευση στον αλγόριθμο ανάλυσης

  29. 001 101 1 1 2 2 0 0 100 100 5 5 917 917 Bitmap Bitmap Συντεταγμένες Συντεταγμένες Τιμές Συντελεστών Τιμές Συντελεστών Παρατηρήσεις για Λύση • Πρόβλημα παρόμοιο με το Knapsack Πρόβλημα • Όριο αποθήκευσης B • Κάθε τιμή συντελεστή έχει: • Σταθμισμένο όφελος = σταθμισμένο τετράγωνο τιμής • Απαιτούμενο χώρο • Πρόβλημα: Μεταβλητός χώρος για τιμές συντελεστή: • Για κάθε συντελεστή, η πρώτη αποθηκευμένη τιμή συντελεστή χρειάζεται και χώρο για την “κεφαλή” του επεκταμένου συντελεστή (bitmap + συντεταγμένες) • Δεν συμβαίνει το ίδιο για τις υπόλοιπες τιμές του συντελεστή αυτού

  30. Προτεινόμενες Λύσεις • Αλγόριθμος Δυναμικού Προγραμματισμού • Χώρος: O(NMB), φραγμένο από O(N2M(D+M)) • Χρόνος: O(NMB), φραγμένο από O(N2M(D+M)) • Greedy Αλγόριθμος (GreedyL2) • Επιλογή set τιμών για αποθήκευση με μέγιστο όφελος/χώρο • Χώρος: O(N(D+M)) : όμοια με μέγεθος εισόδου(input) • Χρόνος: O((N+Β)Mlog(NM)), φραγμένο από O(NM2log(NM)) • Αποδεδειγμένο κλάσμα προσέγγισης 2 • Στα πειράματα, το κλάσμα των οφελών ήταν μεγαλύτερο του 99.99%

  31. Μέσο Σταθμισμένο Τετραγωνικό Σφάλμα vs. Μέγεθος Σύνοψης • 2-διάστατα συνθετικα δεδομένα. • 6 Zipfian κατανομές • Διαφορετικά κέντρα, μορφές • Πυκνές περιοχές • 5-10% δεδομένων σε αραιές περιοχές • Τυχαίες ερωτήσεις εύρους, έμφαση σε πυκνές περιοχές • Σφάλματα μέχρι 29% κοντινότερου αντιπάλου

  32. Μέσα Σταθμισμένα Σφάλματα vs. Μέγεθος • Σφάλματα μέχρι 65% και 69% κοντινότερου αντιπάλου

  33. Ευαισθησία στην Απόκλιση (Skew) • Οφέλη αυξάνουν για μέτρια προς μεγάλες αποκλίσεις δεδομένων • Μέχρι 3 φορές μικρότερα λάθη από τον κοντινότερο ανταγωνιστή

  34. 4 1 - + -3 0 - + + - 2 8 3 3 Data B. Μέγιστο Σχετικό Σφάλμα (1 ποσότητα) • Πιθανότητα yi επιλογής συντελεστή ci • Eλαχιστοποίηση του: • Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου • yi: στον τρέχον κόμβο • bL: στο αριστερό υπόδεντρο • Β-bL-yi: στο δεξί υπόδεντρο • Συνδυασμός λύσης με λύσεις υποδέντρων

  35. Μέγιστο Σχετικό Σφάλμα (πολλές ποσότητες) • Στόχοι: • Ελαχιστοποίση μέγιστου σχετικού σφάλματος σε όλες τις ποσότητες • Χρήση επεκταμένων συντελεστών για καλύτερη ακρίβεια • Αλγόριθμοι πρακτικοί • Χώρος • Χρόνος • Greedy αλγόριθμός μας πολύ πιο αποδοτικός και για 1-Μ περίπτωση

  36. Χρήση Επεκταμένων Συντελεστών • Περίπλοκη εξάρτηση χώρου • Βέλτιστη λύση:  ανάθεση χώρου Bi < B σε κάθε υποδέντρο: • Κράτα σύνολομη συγκρίσιμων διανυσμάτων R[i,Bi] • Η j συντεταγμένη είναι max NSE στο υποδέντρο του κόμβου i για την ποσότητα j, όταν αναθέτουμε χώρο Bi • Αποτυγχάνειη αρχή της βελτιστοποίησης αλγορίθμων Δ.Π. • Δεν μπορείς να κρατήσεις το διάνυσμα του R[i,Bi] με την ελάχιστη max τιμή

  37. Βέλτιστος Αλγόριθμος • Αλγόριθμος βασίζεται σε “μερική ταξινόμηση” λύσεων • Απορίπτει μερικές λύσεις που δεν μπορεί να συμβάλουν στη βέλτιστη ολική λύση • Πολυπλοκότητα χώρου/χρόνου απαγορευτική

  38. Greedy Αλγόριθμος: Σκέψεις • Αρχικοποίησε ολές τις πιθανότητες επιλογής (ΠΕ) σε 0 • Σε κάθε βήμα αύξησε ΠΕ ορισμένων τιμών συντελεστών • Έχει νόημα να αυξήσουμε ΠΕ από ποσότητα που δεν έχει το max{max NSE} ? • 1 ή πολλές ΠΕ μαζί? • Πώς διαλέγουμε ποιές τιμές να επιλέξουμε στο βήμα αυτό? • Σκοπός: Σε κάθε βήμα αύξησε την πιθανότητα επιλογής ενός SET τιμών συντελεστών • Συντελεστές από ποσότητα με max {max NSE} • Μεγιστοποίησε μείωση του max NSE / χώρος(SET)

  39. Greedy Αλγόριθμος: • 3 στάδια αλγορίθμου : • Κάθε κόμβος (για κάθε ποσότητα) εκτιμάει το max NSE δεδομένων κάτω από αυτόν • Κάθε κόμβος (για κάθε ποσότητα) υπολογίζει το SET τιμών στο υποδέντρο του με τη μέγιστη μείωση του max NSE/χώρος(SET) • Αύξηση πιθανότητας επιλογής των τιμών στο SET της ποσότητας με το max {max NSE}

  40. Var(i,yi) = [0,2] i 2i+1 2i G = [15,20] G = [18,19] Στάδιο 1: Εκτίμηση max NSE στο υπόδεντρο • Υπολογισμός σαν να είμασταν στη βέλτιστη λύση στην τρέχουσα ανάθεση πιθανοτήτων επιλογής • Υπολογισμός από κάτω προς τα πάνω Σωστό μόνο στη βέλτιστη λύση

  41. Στάδιο 2: Υπολογισμός Υποψηφίων SET • Επιλογή Set(i,j): • cij • cij Set(k,j), k is index of subtree that determines P[i,j] • Set(2i,j) Set(2i+1,j) • Χώρος για αύξηση πιθανότητας επιλογής δyij: • Επιλογή λύσης με καλύτερο λόγο μείωσης P[i,j]/χώρου

  42. Στάδιο 3: Αύξηση Πιθανοτήτων Επιλογής • Διάσχιση από πάνω προς τα κάτω • Αν επιλογή Set(i,j): • cij, αύξησε πιθανότητα επιλογής του συντελεστή • cij Set(k,j), αύξησε πιθανότητα επιλογής του συντελεστή και προχώρησε στο σωστό υποδέντρο • Set(2i,j) Set(2i+1,j), προχώρησε στα 2 υποδέντρα • Πολυπλοκότητες χαμηλές: • Χώρος: Ο(ΝzΜ) • Χρόνος: O((ΝzΜ + BMqlogN)D2D)

  43. Χρόνος Εκτέλεσης

  44. Μέγιστο Σφάλμα

  45. Διάγραμμα • Εισαγωγή • Σχετική Έρευνα • Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) • Προσέγγιση χρονοσειρών • Γραμμικές Συσχετίσεις • Προσέγγιση μέσω λεξικού • Κατασκευή λεξικού • Συμπεράσματα

  46. Ορισμός Προβλήματος • Εμπνευσμένο από δίκτυα αισθητήρων • Κόμβοι παρατηρούν πολλαπλές ποσότητες • Απλή εφαρμογή σε προσέγγιση πολλαπλών χρονοσειρών • Χρειάζεται να εκπέμψω NxM τιμές δεδομένων • N παρατηρούμενες ποσότητεςμε M τιμές η κάθε μία • Θέλω να καταναλώσω bandwidth (=συνολικές λέξεις που εκπέμπω) B << NxM • Εδώ χρειάζεται η προσέγγιση • Ελαχιστοποίση ορισμένου μέτρου σφάλματος της συμπιεσμένης μορφής

  47. Λογική της Λύσης μας • Πολλές συλλεγμένες τιμές μπορεί να είναι συσχετισμένες • Συσχετίσεις μεταξύ διαφορετικών ποσοτήτων • Πχ: πίεση και υγρασία • Συσχετίσεις μεταξύ τιμών της ίδιας ποσότητας • Πχ: περιοδικότητα, παρόμοιες τάσεις • Πώς να εκμεταλλευτούμε τις συσχετίσεις?

  48. Παράδειγμα Συσχετισμένων Δεδομένων

  49. Κύρια Ιδέα • Δημιούργησε ένα λεξικό με χαρακτηριστικά των δεδομένων (κύριο σήμα) • Χώρισε δεδομένα σε διαστήματα • Μεταβλητός αριθμός/μήκος διαστημάτων ανά ποσότητα • Κωδικοποίησε κάθε διάστημα μέσω του λεξικού • Χρησιμοποίησε γραμμική παλινδρόμηση για την κωδικοποίηση

  50. Total Size = B Σκίτσο της Τεχνικής μας

More Related