1 / 36

Fonaments de SIG

Fonaments de SIG. Entrada de dades i qualitat: Validació i errors. Concepte de qualitat (1/2). És la propietat o conjunt de propietats inherents a una cosa, que permeten que l’apreciem com igual, millor o pitjor que les del mateix tipus o espècie

maili
Download Presentation

Fonaments de SIG

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fonaments de SIG Entrada de dades i qualitat: Validació i errors Master de TD i SIG 2013-14

  2. Concepte de qualitat (1/2) • És la propietat o conjunt de propietats inherents a una cosa, que permeten que l’apreciem com igual, millor o pitjor que les del mateix tipus o espècie • Propietats inherents: allò que és propi, inseparable. Algunes característiques de les coses són més evidents i altres més implícites, però totes elles influeixen en la seva caracterització i per tant en la seva qualitat • La qualitat cal que sigui apreciada i comparada • L’apreciació pot ser diferent segons el individu o segons l’ús • És necessària la comparació per a valorar la qualitat • Evolució històrica • A l’inici de la industrialització s’entenia la qualitat com “adequació” a les especificacions • Avui en dia es parla del concepte de “qualitat total” ja que es dona importància a tot el cicle de vida del producte • A més, es considera la qualitat com a l’aptitud o idoneïtat per a l’ús: “Fitness for purpose”. Per tant si hi ha diversos usos d’un mateix producte es poden donar diverses apreciacions de la seva qualitat. • Per avaluar-la es comparen indicadors amb requeriments. Master de TD i SIG 2013-14 Ariza F.J.

  3. Concepte de qualitat (2/2) • Error incertesa i qualitat: són dos conceptes íntimament relacionats. • L’error és la diferència d’un valor respecte la realitat o bé el valor patró (que considerem veritable) • L’error és per tant un valor més absolut • La incertesa és la distribució (desviació) de diverses mesures sobre el mateix paràmetre. (Generalment aplicat a variables quantitatives) • La qualitat és un concepte més relatiu i més utilitari • Així un producte cartogràfic amb un error groller pot ser útil per a un ús poc exigent, però no per un treball de precisió • El mateix error pot comportar diverses apreciacions de qualitat segons l’ús que se n’ha de fer. • Hi ha diverses propietats que influeixen en la qualitat i que permeten decidir sobre aquesta. Master de TD i SIG 2013-14

  4. Validació: Fonts d'errors (1/2) • Errors en les fonts d'informació o en els instruments de mesura. • poden ser els errors • planimètrics • temàtics • temporals • Es controlen mitjançant • un bon coneixement de les metadades de la cartografia de base • el procés seguit per la generació de les dades que s'ofereixen (llinatge o provenance) • un procés de test sobre una cartografia de més detall (validació). Master de TD i SIG 2013-14

  5. Validació: Fonts d'errors (2/2) • Errors en la captura de dades • per escaneig de fonts prèvies • Planimètrics: Els escàners introdueixen deformacions espacials a la imatge capturada • poden ser en part eliminats durant el procés de georeferenciació i correcció geomètrica • Temàtics: Inadequada elecció del nombre de colors, de la mida final del píxel o bé del format d'arxiu escollit. • per classificació, restitució o fotointerpretació • Són els derivats d'una incorrecta interpretació d'imatges • Les classificacions automàtiques o supervisades (àrees d'entrenament) tenen un percentatge d'encert molt més baix que la fotointerpretació • La digitalització manual introdueix errors topològics • La classificació s'efectua sobre fonts de dades de diferent data de captació • Errors durant l'emmagatzematge de les dades • Insuficient precisió numèrica, pèrdua de decimals, pèrdua de taules associades i relacions • Corrupció de dades • Errors en la manipulació i l'anàlisi posterior de les dades • p.ex. L'elecció d'intervals de classe inadequats Master de TD i SIG 2013-14

  6. Fonts d'error Lunetta RS, Congalton RG, Fentermaker LK, Jensen JR (1991)Remote Sensing and Geographic Information System Data Integration; Error Sources and research ussues. Master de TD i SIG 2013-14

  7. Classificació errors • Sistemàtics (bias) són deguts a errors de calibració dels aparells i són controlables repetint la calibració cada cert temps. • Re-calibració d'un sensor de satèl·lit (cal/val) • Re-calibració d'un mapa sobre una tauleta digitalitzadora • el paper pot patir deformacions quan el procés de digitalització és llarg • Errors intrínsecs: són els propis del sistema. • Exemple: Projecció utilitzada • El càlcul de l'àrea d'un polígon està sotmès a les deformacions inevitables d'un sistema de projecció no equivalent. • i només poden ser evitats, en part, fent servir la projecció més adequada en cada cas. • La projecció UTM31N minimitza de manera adient aquests errors per a l'àmbit de Catalunya. • Errors aleatoris: són fruit tant de la limitació dels aparells (com el sorroll del sistema GPS) o de causes fortuïtes (com d'errors derivats dels usuaris durant la fotointerpretació o la digitalització). • Malgrat que en alguns casos són evitables, hi ha un llindar a partir del qual no es pot reduir l'error i només queda parametritzar-lo Master de TD i SIG 2013-14

  8. Qualitat en cartografia (1/2) • La cartografia defineix uns models de la realitat, que són usats per a prendre decisions en funció de les característiques d’aquests models de la realitat. • Per tant, com més important sigui la inversió que cal fer després de la presa de decisions, més important és la necessitat de la garantia de qualitat de la informació geogràfica necessària. Això és perquè un error en la decisió implica més o menys costos (segons la probabilitat d’errors). • P.ex: Bruin et al. (2001) van estudiar l’adequació d’un model digital d’elevacions a una gran obra d’enginyeria en funció dels costos que probabilísticament pot comportar l’ús de diferents models (amb diversos nivells de precisió). Master de TD i SIG 2013-14

  9. Qualitat en cartografia (2/2) • La dada geogràfica es caracteritza per la posició espacial (x,y,z), pels seus atributs (a1,a2,a3,a4...) i pel temps en què succeeix (t1,t2,...) (les 3 components de la informació geogràfica). Es posa de manifest la necessitat de tenir diversos índexs de qualitat, com a mínim pels tres components de la informació geogràfica. • Donat que les bases geogràfiques són un model de la realitat, interessa que aquest model sigui el més exacte possible. Tanmateix, en el procés de generació intervenen notables fonts d’incertesa. Master de TD i SIG 2013-14

  10. Resolució • Resolució espacial: • La mida de l’element més petit que pot ser distingit o separat. • En els vectors, és la unitat mínima cartografiable. Expressat en “denominador de l’escala” • En els ràsters, habitualment la mida del píxel Expressat en “distància”. • Lligada al mètode emprat per obtenir les dades i a l’escala del mapa de base. • Resolució temàtica: • En les dades quantitatives és la capacitat de separar 2 valors pròxims. • En les dades qualitatives és la precisió en la definició de les classes. • Resolució temporal: • La duració temporal o interval de captura de dades, • Hauria de ser inferior a la duració del fenomen a representar. Master de TD i SIG 2013-14

  11. Classificació dels paràmetres de qualitat • ISO 19157 – Data Quality Master de TD i SIG 2013-14

  12. Mesures de qualitat • Quantitatives • Conformitat • Descriptives • Per pixel Master de TD i SIG 2013-14

  13. Exactitud i precisió • Exactitud (accuracy): entenem l’aproximació entre els valors observats, o mesurats, i els valors reals o aquells que es consideren els valors reals. • Precisió: • des d’un punt de vista estadístic és una mesura de l’agrupament de les dades obtingudes per repetició d’una mateixa mesura. • També s’entén el nombre de xifres significatives ja que com menys xifres significatives es disposen la dispersió de les mesures és major. • Al camp dels SIG i de la cartografia digital generalment la limitació és més per manca d’exactitud que per manca de precisió. Master de TD i SIG 2013-14 Congalton.RG

  14. Exactitud posicional Grau de coincidència entre les posicions donades i les reals. • planimètrica (x,y) i • altimètrica (z). • Repercuteix sobre perímetres i àrees • Tipus • Sistemàtic (bias) • Aleatori (relativa) • Origen • Una digitalització poc acurada • Subestimació del error de • la cartografia original (metadades, escala incorrecte), • l'escaneig: resolució <125ppp (temàtics) o <400ppp (ortofotos) • georeferenciació: Estimada per l'RMS dels punts de control • Deformacions locals • Escanner mal calibrat. Es determina escanejant un patró (una retícula). És corregible. • Deformacions del document escanejat. • Reprojeccions mal realitzades (datum incorrecte o canviat amb paràmetres incorrectes) • La cartografia de base té distorsions locals per permetre veure millor alguns fenòmens (deformacions deliberades per millorar el producte imprès del topogràfic 1:250000 Master de TD i SIG 2013-14 Ariza F.J.

  15. Exactitud posicional • Exemples de mesures: • Punts de mostra significatius • Exactitud posicional absoluta • Es mesura a partir del RMSE a partir de cada dimensió • RMS=  (RMSx2+ RMSy2) • Exactitud posicional relativa • Es mesura a partir de la variança dels errors • Bandes d'indeterminació • Banda épsilon (B-e) Master de TD i SIG 2013-14

  16. RMSE • Definim l'RMSE com: • Un concepte equivalent a la desviació estàndard  dels errors; quan la distribució dels errors és normal i no hi ha errors sistemàtics, i per tant la mitjana dels errors és 0: Master de TD i SIG 2013-14 Congalton.R.G.

  17. Exactitud posicional al GeMM Master de TD i SIG 2013-14

  18. Mapa Classes Veritat terreny (referència) Total fila A B C D A Naa Nab Nac Nad Nan B Nba Nbb Nbc Nbd Nbn C Nca Ncb Ncc Ncd Ncn D Nda Ndb Ndc Ndd Ndn Total columna Nna Nnb Nnc Nnd N Exactitud temàtica • Exactitud temàtica: grau de coincidència entre els atributs donats i els atributs reals. • Exemples de mesures • Quantitatives: • RMSE • Categòriques: • Matrius de confusions • Error de comissió i omissió Master de TD i SIG 2013-14 Ariza F.J.

  19. Mapa Classes Veritat terreny (referència) Total fila A B C D A Naa Nab Nac Nad Nan B Nba Nbb Nbc Nbd Nbn C Nca Ncb Ncc Ncd Ncn D Nda Ndb Ndc Ndd Ndn Total columna Nna Nnb Nnc Nnd N Matriu de confusions És una matriu quadrada que compara les mateixes classes entre els valors mesurats i els valors reals per un conjunt de mostres Comissió i omissió: • error de comissió • Nab és una part de la comissió sobre A (no hauria de ser A sinó B) • Error de comisió de A és la suma de totes les comissions • Nab+Nac+Nad és la comissió de A • Exactitud de l'usuari de A (respecte el mapa): • Naa/Nan • error d’omissió • Nab és error d'omissió de B (hauria de ser B i ha resultat ser A) • Error d’omissió de B és la suma de totes les omissions • Nba+Nca+Nda és la comissió de A • Exactitud del productor de A (respecte la veritat terreny): • Naa/Nna Exactitud total: • (Naa+Nbb+Ncc+Ndd)/N • Representa la omissió. La ISO 19157 en diu misclassification matrix Master de TD i SIG 2013-14 Congalton.RG

  20. omissió comissió Matriu de confusions. Exemple • La matriu de confusions és la base per altres anàlisis com l'índex Kappa N és el nombre d'items classificats r és el nombre de classes MCM(i,j) és la cella i,j de la matriu de confusió K proper o inferior a 0 (molt dolent) a 1 (excel·lent) Representa l'encert obtingut un cop restat el possible l'encert per casualitat. Està dividit pel millor encert possible descomptant la casualitat. K=0.454 Podeu fer proves a: http://www.chestx-ray.com/statistics/kappa.html Master de TD i SIG 2013-14 Lunnetta R.S.

  21. Qualitat temàtica al GeMM • La qualitat s'indica per a cada camp de la taula d’atributs • Possibilitats diferents en funció del tipus de camp • Camps quantitatius: • Exactitud • Camps categòrics • Completesa i exactitud semàntica. Master de TD i SIG 2013-14

  22. Exactitud temporal • Grau de concreció i correcció del rang de dates de les dades • Té implicacions en l’actualització de les dades • Exactitud: • Incertesa en el temps • d'aparició d'entitats • d'observació d'entitats • de registre d'entitats • Consistència • Ordre cronològic Master de TD i SIG 2013-14

  23. Completesa • Falten elements per cartografiar o hi ha massa elements cartografiats • Orígens: • Omissió • Objectes no cartografiats • Comissió • Objectes irreals o fora de la temàtica • Aspectes • Captura de tots els elements previstos. • Captura de totes les classes (atributs) previstes • Subordinat al primer • Conformitat amb un model de dades • Des del punt de vista del usuari: • Cal que estigui ben descrit tant: • planimètricament • atributs • relacions entre objectes Master de TD i SIG 2013-14 Ariza F.J.

  24. Consistència lògica • Consistència de domini • Les categories estan descrites conformes a un marc conceptual ben definit (diccionaris, ontologies) • Existència de codificació coneguda per l’absència de valors i pels valors nuls (NODATA) • Mesura: • Confusió freqüent o absència sistemàtica en alguna categoria (llegenda mal feta o mal entesa per l'operador) • Consistència conceptual • Absència de contradiccions (validesa interna). • Més difícil de mantenir al llarg de tota una sèrie cartogràfica. • Mesura: • Valors d'atributs contradictoris entre camps • Valors estiguin dins del rang • Text enlloc de números, manca d’errors tipogràfics • Integritat referencial • per camps de tipus clau o identificador, que no hagin dos codis per la mateixa entitat o dues entitats amb el mateix codi. • Consistència topològica • Incoherències entre les taules de relacions topològiques • Encreuaments d'arcs sense node • Superposicions de polígons. Master de TD i SIG 2013-14 Ariza F.J.

  25. Validació • És un procés costós que consisteix en repassar les dades finals comparant-les amb altres fons fiables. • Objectiu • Parametritzar la bondat de la cartografia • Millorar la qualitat de la cartografia introduint correccions • La majoria de feina és enterament manual. • Repàs • Mesures de camp amb punts o àrees de control • Alguns testos per trobar error de gruix Master de TD i SIG 2013-14 Lunetta RS

  26. Full 1 Full 2 Full 3 El tall cartogràfic • Quan es treballa amb un territori extens amb un cert grau de detall és necessari tallar la cartografia en fulls. • Això pot generar problemes en remosaicar els fulls • El límit de full és diferent entre 2 fulls • Els objectes no connecten entre fulls • Aquest problema es presenta tant en imatges ràster com en capes vectorials. • La solució és considerar els fulls veïns ja elaborats mentre es genera el nou full. Master de TD i SIG 2013-14 Heywood I

  27. Errors topològics de punts • Apareix quan intentem situar un punt just a sobre d’un punt preexistent sense connectar amb l'objecte previ. • p. ex., una etiqueta d’altura just al damunt d’una isolínia o d’un vèrtex geodèsic prèviament digitalitzats) • Correcció • Instruir a l'operador en l'ús de determinades eines de connexió. • Aplicar una tolerància prou gran per fondre aquests objectes • Risc de fondre més coses del compte. Master de TD i SIG 2013-14

  28. Errors topològics de línies/arcs (1/2) • Error d'escurçada (undershoot) • És un node final que es produeix quan, en digitalitzar, es fa una línia massa curta que no arriba a connectar l'element preexistent (p.ex. una altra línia) amb el que hom volia connectar-se. • Es fa evident per la presencia d'un node final a molt poca distància d'un altre arc. • Si és un fitxer de vores de polígon, dona lloc a un polígon que es perd (leaking polygon) • La tolerància d'escurçades connecta un vèrtex final que ha quedat prop d'un altre arc. • Error d'allargada (overshoot) • És un node final que es produeix quan es fa una línia de llargada excessiva que depassa l'element on volíem connectar. • Es fa evident per la presència d'un node final a molt poca distància d'un altre arc, i per un arc de longitud molt petita que hi convergeix. • La tolerància d'allargades fa desaparèixer el tros de vector que sobresurt d'un altre vector sobre el qual es volia connectar. Master de TD i SIG 2013-14

  29. Errors topològics de línies/arcs (2/2) • Error de vèrtexs repetits • Presencia de vèrtexs que coordenades idèntiques o quasi idèntiques • Massa vèrtexs alineats • Presencia de vèrtex on l'arc no presenta cap canvi de direcció apreciable. • La tolerància de pseudogeneralització redueix el nombre de vèrtex dels vectors, eliminant alineacions. • Un node final no és necessàriament un error, però en molts casos, l'assenyala. • En les capes d'arcs que representen xarxes, generalment apareixen nodes finals només en els extrems d'aquestes, però no en les parts interiors. • Els fitxers de línies que són de vores de polígons NO han contenir nodes finals. Master de TD i SIG 2013-14

  30. B P A B B A B A M A Errors topològics de polígons (1/2) • Els halters (les "ulleres"): línia unida pels seus extrems a dos polígons i amb el mateix polígon pels dos costats • Visualment, constituiria una mena d'halters (peses de gimnàstica) o d'ulleres • El reetiquetatge: un polígon conté dues o més etiquetes diferents. Causes: • tot i que el polígon és temàticament homogeni, hem posat una o més etiquetes que no li corresponen • el polígon és temàticament heterogeni i hem oblidat de traçar la vora entre etiquetes (digitalització incompleta). • Polígon sense etiqueta: causes: • Hem oblidat etiquetar el polígon • Polígon que temàticament no es diferencia del voltant • cal, doncs, eliminar les línies sobreres que el delimiten: fronteres innecessàries • La frontera innecessària o l'etiquetatge incorrecte: dos polígons amb el mateix atribut temàtic a banda i banda d'un mateix arc. • Aquest cas és semblant al dels halters, però no es tracta d'un error topològic, sinó temàtic. • La correcció es fa seguint les següents regles: • si l'arc no és frontera de dues categories diferents, s'esborra la frontera innecessària • si l'etiquetatge és incorrecte, es canvia l'etiqueta errònia. Master de TD i SIG 2013-14

  31. C B A Estella A Escletxa Estella C A B Errors topològics de polígons (2/2) • El micropolígon, • És un polígon sense etiqueta, de mida minúscula i que no representa cap entitat real. • Té dos possibles orígens: • Pot aparèixer en enllaçar una línia a una altra desviant-la una mica més enllà d'on volíem que s'unís i passant per sobre d'una altra línia. • Dibuixant involuntàriament una petita virolla sobre un punt. • Tipus especials • L’escletxa (gap) • és un forat produït pel buit deixat entre dues línies que haurien de ser coincidents, apareixent un o diversos polígons sense informació geogràfica. • L’estella (sliver) • es produeix perquè un polígon envaeix l’àrea que ocupa un dels seus veïns, de manera que hi ha duplicitat d’atributs o identificadors a una mateixa àrea. • Tant l’escletxa com l’estella entre polígons, • Tenen àrea molt petita i quocient àrea/perímetre molt petit, allargats • Són errors que no es produeixen fàcilment digitalitzant les vores de polígons amb les eines de connexió. • Poden aparèixer • quan la digitalització és incorrecta, • quan s’importen bases geomètriques d’altres fonts • Caldrà modificar les vores dels polígons. Master de TD i SIG 2013-14

  32. ‘All data and derived products must have associated with them a Quality Indicator (QI) based on documented quantitative assessment of its traceability to community agreed reference standards. This requires all steps in the data and product delivery chain (collection, archiving, processing and dissemination) to be documented with evidence of their traceability.’ Data Quality Traceability:property of a measurement result relating the result to a stated metrological reference through an unbroken chain of calibrations of a measuring system or comparisons, each contributing to the stated measurement uncertainty (ISO guide 99:2007) • Guidelines are generic in scope to cover all Data related “activities”. • Provide guidance (and indicative template) on how to establish a QI and • means to obtain and document associated evidence. • Evaluating Uncertainties • Organising and analysing comparisons • Evidence of traceability • Content/writing of a “procedure” • Validating models & Algorithms • Selecting “Reference standards” Master de TD i SIG 2013-14

  33. Llistat de processos i orígens de dades que s’han fet servir per arribar al resultat. Llinatge i la “provenance” Master de TD i SIG 2013-14

  34. UncertML Overview Master de TD i SIG 2013-14 It is vocabulary + an encoding Split into three distinct packages (distributions, statistics & realisations).

  35. UncertML Statistics and encoding <un:Statistic definition="http://dictionary.uncertml.org/statistics/standard_deviation"> <un:value>12.08</un:value> </un:Statistic> Master de TD i SIG 2013-14

  36. La nova ISO 19157 • This International Standard establishes the principles for describing the quality of geographic data. It • defines components for describing data quality; • specifies components and content structure of a register for data quality measures; • describes general procedures for evaluating the quality of geographic data; • establishes principles for reporting data quality. • defines a set of data quality measures for use in evaluating and reporting data quality. • It is applicable to data producers providing quality information to describe and assess how well a dataset conforms to its product specification and to data users attempting to determine whether or not specific geographic data is of sufficient quality for their particular application. • Molts diagrames d’aquestes transparències provenen aquesta ISO. Master de TD i SIG 2013-14

More Related