1 / 22

Estadística: una quantificació de la incertesa

Estadística: una quantificació de la incertesa. Pere Puig Departament de Matemàtiques de la UAB. Incertesa: determinisme incomplet ? La incertesa o aleatorietat pot ser deguda a:. falta d’informació errors desconeguts en les dades tecnologia no adient per obtenir la informació

oksana
Download Presentation

Estadística: una quantificació de la incertesa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estadística: una quantificació de la incertesa Pere Puig Departament de Matemàtiques de la UAB

  2. Incertesa: determinisme incomplet ?La incertesa o aleatorietat pot ser deguda a: • falta d’informació • errors desconeguts en les dades • tecnologia no adient per obtenir la informació • impossibilitat de fer les mesures “Déu no juga als daus amb l’Univers” (A. Einstein) “L’atzar és potser el pseudònim de Déu quan no desitja signar” (A. France)

  3. Teoria de Probabilitats: modelització matemàtica de la incertesa Antecedents històrics - Blaise Pascal i Pierre de Fermat (1654) resolen un problema relacionat amb els jocs d’atzar proposat per Antoine Gombaud. -Christian Huygens publica el 1657 el primer llibre de probabilitats “De Ratiociniis in Ludo Aleae”. -Laplace el 1812 publica el llibre “Théorie Analytique des Probabilités”. Laplace aplica les probabilitats a molts problemes científics i pràctics fora del món dels jocs d’atzar.

  4. Estadística: resum de dades. Antecedents històrics: -2000 a.C., Xina, censos de la dinastia Hsia. -1500 a.C., Biblia, cens de Aaró. La paraula: prové de “status”, estat en llatí. Va ser utilitzada per G. Achenwall (1719-1772) per significar, “recollida, procés i utilització de les dades per part de l’Estat.” Va escriure sobre la necessitat de les nacions de tenir un registre dels naixements, defuncions, malalties i epidèmies.

  5. Estadística Descriptiva Eines - Quantitats que resumeixen les dades o “estadístics”. Alguns dels estadístics més freqüents són: la mitjana, el màxim, el mínim, els quartils, el rang, la moda, la desviació tipus, la variància, etc. - Gràfics com els histogrames, diagrames de barres, de sectors, gràfiques bi-dimensionals, etc.

  6. Estadística Inferencial Pretén essencialment obtenir informació de les dades sota el supòsit d’un model probabilístic subjacent. Aquest model probabilístic pot ser conegut o desconegut (parcial o totalment). En Estadística Inferencial es suposa que les observacions formen part d’un tot (població) que té unes característiques que són el que ens interessa conèixer.

  7. Com podem estimar la mitjana poblacional ? Tenim unes observacions x1, x2,..., xn independentsi volem estimar la mitjana de la població  d’on provenen. - És bo que l'estimador sigui no esbiaixat. - És bo que tingui una variància petita.

  8. CAS 1:El model probabilístic subjacent és desconegut. Estimador proposat: No té biaix. Verifica la llei feble dels grans nombres. Verifica la llei forta dels grans nombres si la variància és finita. En aquest cas es pot aplicar el TCL per calcular intervals de confiança aproximats.

  9. Exemple: Les observacions són les alçades de 100 individus triats a l’atzar. Volem estimar l’alçada mitjana de tota la població. Un resum de les dades és el següent: Una estimació puntual de la mitjana poblacional és: El TCL ens diu que, Per tant, un interval de confiança aproximat del 95% és:

  10. CAS 2:El model probabilístic subjacent és conegut. -Fixat el model probabilístic hi ha diverses maneres d’estimar . Podem fer servir el mètode dels moments, màxima versemblança, etc. -Els estimadors de  dependran del model. Tot i fent servir un mateix mètode, per dos models probabilístics diferents els estimadors de poden ser diferents. Exemple 1: Si tornem a l'exemple anterior de les alçades, però ara suposant que les dades segueixen una distribució normal, l'estimador anterior és el millor possible (UMVUE). A més, i podem calcular intervals de confiança exactes.

  11. Exemple 2:Les següents 100 dades són forces de ruptura de fibres (Duncan 1974): 66, 117, 132, 111, 107, 85, 89, 79, 91, 97, 138, 103, 111, 86, 78, 96, 93, 101, 102, 110, 95, 96, 88, 122, 115, 92, 137, 91, 84, 96, 97, 100, 105, 104, 137, 80, 104, 104, 106, 84, 92, 86, 104, 132, 94, 99, 102, 101, 104, 107, 99, 85, 95, 89, 102, 100, 98, 97, 104, 114, 111, 98, 99, 102, 91, 95, 111, 104, 97, 98, 102, 109, 88, 91, 103, 94, 105, 103, 96, 100, 101, 98, 97, 97, 101, 102, 98, 94, 100, 98, 99, 92, 102, 87, 99, 62, 92, 100, 96, 98

  12. L’SPSS ens dóna la taula d’estadístics següent, L’excessiu valor del coeficient de curtosi ens fa pensar que les dades no segueixen una normal.

  13. Una possibilitat raonable és utilitzar la distribució de Laplace. La funció de densitat de la Laplace estàndard és, La forma d’aquesta densitat comparada amb la normal estàndard es pot apreciar a la figura.

  14. Per la distribució de Laplace es pot demostrar que el millor estimador possible de  és la mediana mostral. Per tant, També podem calcular un interval de confiança exacte del 95%, que en aquest cas dóna, Si utilitzem el mètode aproximat sense tenir en compte la distribució de les dades aquest interval seria, La utilització d’un model probabilístic adient millora la precisió dels resultats.

  15. CAS 3:El model probabilístic subjacent és conegut, però el que volem estimar és una funció de .. - Pot ser difícil trobar l'estimador UMVUE de f(). Per mostres grans, f(*), on * és l'estimador de màxima versemblança, té propietats optimals. Exemple: Fem 5 mesures del radi d'un cercle: 2.3, 2.1, 2.4, 2.2, 2.5 Volem estimar l'àrea d'aquest cercle. Suposem vàlid el model habitual d'error en les mesures, és a dir, el resultat de cada mesura segueix una N(, 2) on  és la veritable longitud del radi i 2 ens informa de la precisió del nostre instrument de mesura.

  16. Volem estimar f()=p2. Diversos estimadors de l'àrea són naturals: 1- 2- Però cap d'ells és l'UMVUE. Es pot demostrar que el millor estimador de l'àrea és, Observem que per mostres grans coincideix pràcticament amb el de l'apartat 1.

  17. CAS 4:Les dades estan truncades. - Si el model subjacent no es coneix, no existeix cap mètode general d’estimació de . - Si és conegut, el patró de truncament dóna lloc a un nou model on normalment  és mes difícil d’estimar. Exemple: Volem estimar el nombre mitjà de fills que té una família. Si triem una família a l’atzar, assumim que el nombre de fills segueix una distribució de Poisson, és a dir,

  18. Disposem d’una mostra d’individus cadascun dels quals ens informa del nombre de germans que hi ha a la seva família comptant-se ell mateix. Les famílies amb zero fills no estarien representades ! Les dades estan truncades al zero. La nova funció de probabilitat seria,

  19. L’esperança d’aquesta distribució és, Identificant la mitjana mostral amb l’esperança (mètode dels moments) podem estimar : Aquesta equació s’ha de resoldre numèricament.

  20. CAS 5:Les dades estan censurades. - Si el model subjacent no es coneix, existeixen alguns mètodes d’estimació de  però no són del tot satisfactoris. - Si és conegut, s’ha de considerar un nou model que permeti incloure la informació continguda en les dades censurades. Exemple: Volem estimar el temps de vida mitjà d’un cert tipus de bombeta. Sabem que el temps de vida segueix una distribució exponencial amb funció de densitat,

  21. Deixem 10 bombetes enceses durant 10 dies i anotem els temps de fallada. Passats els 10 dies, 2 bombetes encara estan enceses. Els temps registrats són els següents: 36, 67, 83, 110, 115, 195, 202, 223, 240+, 240+ Tenim dues dades censurades. No coneixem el temps veritable de vida, només sabem que és superior a 240. Fent servir el mètode de la màxima versemblança, l’estimador de  és aquell valor que maximitza la funció, on les ti són les observacions completes, t0 el valor de censurament, n el nombre d’observacions completes i m el nombre de censurades.

  22. Fàcilment es pot veure que, pel nostre exemple dóna, L’estimador de màxima versemblança te propietats optimals per mostres grans.

More Related