1 / 20

Felmarginaler i bibliometrisk statistik

Felmarginaler i bibliometrisk statistik. Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH. Varför är man intresserad av osäkerheten i bibliometrisk statistik?. Hur ”säker” eller ”exakt” är statistiken för ett analysobjekt? Skiljer sig olika analysobjekt åt?

yama
Download Presentation

Felmarginaler i bibliometrisk statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Felmarginaler i bibliometrisk statistik Finns dom? Metrics seminariet 2013-04-11 Staffan Karlsson, KTH

  2. Varför är man intresserad av osäkerheten i bibliometrisk statistik? • Hur ”säker” eller ”exakt” är statistiken för ett analysobjekt? • Skiljer sig olika analysobjekt åt? • Är en förändring över tid signifikant?

  3. Vad är felmarginaler Från Wikipedia: The margin of error is a statistic expressing the amount of random sampling error in a survey's results. Dvs ”felet” beror på att statistik baserad på ett slumpässigt urval har en osäkerhet i hur väl urvalet representerar hela populationen i kombination med mätfel

  4. Bibliometriska analyser baseras nästa alltid på totalundersökningar, dvs baseras på studieobjektets ALLA publikationer i en viss databas ... då finns inga fel i den bemärkelse termen felmarginal normalt syftar på. Om analysen görs om blir resultatet troligen exakt det samma.

  5. Visst finns fel/osäkerheter i bibliometrisk statistik • Fel identifieringen av analysobjektens publikationer • Fel i databsen • ffa felaktiga detaljer i ref. listor fel i antalet citeringar till en artikel Marginellt i analyser av god kvalité Kan troligen vara betydande i vissa fall, men vi har inga metoder för att uppskatta storleken på dessa (?) • Resultatet är beroende av den databas som analysen baseras på

  6. Ett alternativt perspektiv:Hur stabilt är ett bibliometriskt mått? Hur beroende är citeringsstatistiken för ett studieobjekt av några få högt citerade publikationer? • Colliander & Ahlgren 2011 • Waltman et al 2012

  7. Stabilitet – hur mäts det? Resampling / permutation statistics: Ett stort antal nya uppsättningar data skapas genom upprepad slumpässig provtagning av de data man har. Från dessa nya utslumpade urval kan man uppskatta stabilitieten i statistiken.

  8. Original obs. ...

  9. Metodik Waltman et al • Bootstrapping (med återlägg) • Jackknife (utan återlägg – ta bort x observationer) Skapa ett stort antal (ofta tusentals) nya prov genom resampling och basera spridningsmått på dessa. Tex intervallet inom vilket 95% av alla nya medelvärden finns. Colliander & Ahlgren

  10. Bootstrapping Med återlägg Original obs.

  11. Jackknife utan återlägg Original obs. Norig Nsample Nsample < Norig

  12. Exempel på Uppskattning av error margins/stabilitet för fältnormerad medelcitering Kronman & Karlsson, Nordiska bibliometrikonferensen 2008 (opubl) • Antagande: det finns en osäkerhet i årsmedel beroende på en slumpmässig variation mellan år i förekomsten av högt citerade publikationer • Årsmedelvärden 1984-2005 för • 24 svenska lärosäten och 153 länder med en volym om > 10 publ/år • Trender togs bort med en polynom regression • Konfidensintervall/felmarginaler beräknade baserat på residualerna från 3 • Eller med bootstrapping

  13. Eliminering av trender...

  14. Medelcitering, Länder och svenska lärosäten

  15. Bootstrapp-uppskattningar Origninaldata: 15 års publ för 4 svenska lärosäten (150 000 publ)

  16. Schabloner för stabilitetsinterval för fältnormerad medelcitering

  17. 95 % Stability intervalsof Mean Normalized Citation Score (MNCS)for 50 univeristies (Waltman et al 2012)

  18. Sammanfattning • Det finns tvelöst felkällor i bibliometrisk (citerings) statistik • MEN dessa är svåra att kvantifiera • Felet är troligen oftast litet men ibland rätt stort... (tex ”svåra” namn i ref listor) • Stabiliteten i citeringsmått pga enstaka högt citerade publikationer kan relativt enkelt uppskattas • Stabilitets intervallet bör inte tolkas som ett ”mätfel”

  19. Bör man använda [parametriska] statistiska tester på bibliometrisk statistik? • Problem • Ofta totalundersökningar som i princip inte är behäftade med några mätfel • Fördelningsmönstret är starkt skevt  statistiska metoder som bygger på normalfördelningen är inte lämpliga • Ofta stora N  lätt att hitta signifikanser även för små skillnader.  svar Hypotestestande statistik - tveksamt! Konfidensinterval / Stabilitet OK Se Schneider 2012 för en kritisk diskussion om hypotestestning av bibliometriska material

  20. Referenser • Colliander C & Ahlgren P. 2011. The effects and their stability of field normalization baseline on relative performance with respect to citation impact: A case study of 20 natural science departments. Journal of Informetrics 5: 101-113. • Waltman L. et al. 2012. The Leiden Ranking 2011/2012: Data Collection, Indicators, and Interpretation. Journal of the American Soc for Information Science and Technol. 63(12): 2419–2432 • Leydesdorff L & Bornmann L. 2012. Testing differences statistically with the Leiden ranking. Scientometrics 92:781–783 • Schneider JW 2012. Caveats for using statistical significance tests in research assessments. arXiv:1112.2516v1

More Related