290 likes | 367 Views
Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften. Johannes Bauer. Benfordverteilte Daten. Benfordverteilung. Benfordverteilung. Entstehungsfaktoren Multiplikationen – Richard Hammering (1970) Verteilungen – Theodor Hill (1995). Fälschungen aufdecken.
E N D
Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer
Benfordverteilung • Entstehungsfaktoren • Multiplikationen– Richard Hammering (1970) • Verteilungen– Theodor Hill (1995)
Fälschungenaufdecken • Ansatz: • WelcheDatensind benfordverteilt? • AbweichungenalsIndizfürFälschungen
Was ist Benfordverteilt Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)
GleichverteilteZiffern • Normalverteilung • Mittelwert: 3 • Standardfehler: 2
GleichverteilteZiffern • Normalverteilung • Mittelwert: 3 • Standardfehler: 2
GleichverteilteZiffern • Normalverteilung • Mittelwert: 3 • Standardfehler: 2
Untersuchung des Lehrstuhl Braun Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag” • 1. Ziffer: Ho abgelehnt • (χ ²=103.39,df = 8, • p = 0.000) • 2. Ziffer: Ho abgelehnt • (χ ²=122.59,df = 9, • p = 0.000)
Untersuchung: 3. und 4. Ziffer Ho abgelehnt Ho abgelehnt (χ² = 304.89, df=9, p= 0.000) (χ ² = 622.20, df=9, p= 0.000)
Untersuchung: Individualdaten Individuelle Abweichungen von Benfords Gesetz 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer 47 Personen 40 41 35 42 absolut 0.851 0.872 0.744 0.893 prozentual
Fälschungen entdecken • Ansatz: • Ab wann wird eine Fälschung erkannt? Vorgehensweise: 1. Empirische Verteilung gefälschter Regressionskoeffizienten 2. Ziehen von Zufallszahlen 3. Test der Zufallswerte auf Benfords Gesetz (H0) 4. Wiederholung für höhere Fallzahlen
Erste gültige Ziffer Zweite gültige Ziffer Dritte gültige Ziffer Vierte gültige Ziffer Aggregatdaten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen: 1. Ziffer: 989 Fälle 2. Ziffer: 766 Fälle 3. Ziffer: 351 Fälle 4. Ziffer: 138 Fälle
Aggregatdaten Erste gültige Ziffer ~ 50 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen: 1. Ziffer: 4001 Fälle 2. Ziffer: 3308 Fälle 3. Ziffer: 1351 Fälle 4. Ziffer: 585 Fälle
Aggregatdaten Erste gültige Ziffer ~ 10 % gefälschte Daten Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen: 1. Ziffer: 94439 Fälle 2. Ziffer: 78883 Fälle 3. Ziffer: 31266 Fälle 4. Ziffer: 12592 Fälle
Aggregatdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen: 1. Ziffer: 136 Fälle 2. Ziffer: 102 Fälle 3. Ziffer: 100 Fälle 4. Ziffer: 69 Fälle Individualdaten Erste gültige Ziffer ~ 100 % gefälschte Daten
Individualdaten Erste Ziffer Zweite Ziffer Dritte Ziffer Vierte Ziffer
Kombination von Ziffern 6 2 1 1 3 4 1 1 4 0 1 6 2 0 3 3 5 5 0 9 2 6 4 9 8 0 8 7 3 0 9 2 3 2 4 5
Ergebniszusammenfassung • Fälschungserkennung mit Benfords Gesetz: • Untersuchung von Individualdaten • Untersuchung gemeinsamer Ziffern • Anwendung von Anpassungstests, welche stärker auf die • Stichprogengröße reagieren (hier χ²-Anpassungstest) • Die Effektivität des Verfahrens ist stark abhängig von der • Vorgehensweise des Fälschers.
Vorschläge • Fälschungserkennung mit Benfords Gesetz: • Erfassen möglichst vieler metrischer Kennwerte • Verwenden der Gleichverteilung • Fälschertypen bilden • Konzentration auf Abweichungen • Konzentration auf die Ziffernreihenfolge