1 / 32

LA CUESTION

Técnicas de uso de la ley potencial, de las curvas autosimilares y de ajuste a las curvas parabólico fractales en la detección de la falsedad. LA CUESTION.

tanek-pena
Download Presentation

LA CUESTION

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Técnicas de uso de la ley potencial, de las curvas autosimilares y de ajuste a las curvas parabólico fractales en la detección de la falsedad

  2. LA CUESTION ¿Es posible detectar y cuantificar el grado de falsedad existente en conjuntos de datos, proporcionados por sujetos, mediante el mero análisis de los datos, sin contraste empírico con el exterior, ni control experimental del sujeto?

  3. Intuición primera Longitud = p Diámetro

  4. Punto de partida (Ley de Benford) • La teoría figura en “The Law of anomalous numbers” en el Proceedings of the American Philosophical Society” 78, pp 531-538,1.938 • Que en cualquier conjunto de números tomados al azar, longitudes de los ríos, constantes naturales etc.. siempre que no haya una causa condicionante, como en los teléfonos, 1

  5. La distribución es siempre.... 1234 316 25 1 14321 245 30,1% Empieza por 1 el 30.1 % de los casos Empieza por 2 el 17,6 % Empieza por 3 el 12,5 % Empieza por 4 el 9,7 % Empieza por 5 el 7,92 % …. Empieza por 9 el 4,6 %

  6. Primera investigación

  7. La logica subyacente Caso de quien esta autorizado a invitar hasta 100 € puede pedir dos facturas. Alarma porque hay demasiadas que empiezan por 50 Quien todos los meses compra lo mismo , por ejemplo que le cueste 300 € no falsea 3

  8. HIPOTESIS En un casos en que la distribución de los datos se distribuye conforme a una ley de Benford es posible: • Obtener la distribucion de los datos observados • Depurar la realmente observada de artefactos estadísticos • Estimar la falsedad debida al interés económico a través de la distancia entre la distribución ajustada y la teórica. Si la distribucion se separa mucho HAY FALSEDAD

  9. Objetivo Tipo de cliente Falsedad

  10. Datos • Datos de comercio exterior 2.175.069 • Sujetos 109.769 • Existe interés económico en la falsedad • Hay datos sobre el grado de falsedad • Actas de Inspección 4.327 actas • Importe de actas 61,292 mm de €

  11. Paso 1. Se calcula distribución para cada tipo de mercancía (97)

  12. Grupo 1. Altos valores de NFF Grupo 2. Bajos valores de NFF Paso 2. Calcular indicadores de repetición de facturas(Generador de desviacion frente a la teorica) NFF = 1 – (ci2/n2)

  13. Se propone medida de distancia entre distribuciones D [d1;d2]=?

  14. Estimación del efecto • Regresión multiple • Variable independiente • Chi-cuadrado Kullback Leibler • Despues de varias depuraciones • R2 0,651 y nivel significación 0,000 • Se resta esta estimación del sesgo • Queda la estimación de la falsedad

  15. Se propone un criterio de FALSEDAD

  16. Se define un procedimiento para ver la falsedad de un sujeto • Hay importadores que solo lo hacen una vez. • Cada importador comercia con muchas cosas distintas • Tratamos desde 550 hasta 2653 (máximo) • En total 332.252 declaraciones (1/10) • Divididas en 73.465 y las demas

  17. Para cada operador

  18. Para cada operador y tipo de comercio • Se elimina el sesgo debido a su tipo de comercio obtenido mediante una regresión múltiple.

  19. Análisis de la calidad de la selección y los resultados (VARIAS LINEAS) PRIMER INTENTO SI /NO Resultado MALO SEGUNDO INTENTO Selecciona bien Detecta falsedad mal

  20. El salto a la entropia

  21. Conclusión • 37% de eficacia frente a 27 % de los expertos • 28.155 euros frente a 14.000€ del sistema tradicional • SE VERIFICA LA HIPOTESIS I

  22. Segunda investigacion

  23. ¿ Que hacer si los datos no se ajustan a Benford? DECLARACIONES DEL IMPUESTO DE MATRICULACION

  24. Teoría de la belleza Leyes naturales Leyes de Zip y Pareto Demografía Fractales, sistema dinámicos, sistemas 1/f, modelos cognitivos SOC Numero aureo, espiral de Bernouilli, teoría de la simetría, entropía.. Leyes log log Leyes rango frecuencia (Lingüística), pendiente fractal Benford como fractal parabólica Autosimilaridad ¿Hay alguna ley mas universal?

  25. Pasos sucesivos Población (log´-log) Ley de Zipf Rango frecuencia Petróleo ciudades Fractales parabólicas

  26. Segunda intuición • Si se encuentra un sistema que convierta los datos en rectas, las distancias frente a la recta pueden ser medidas de falsedad Terremotos en el Observatorio X

  27. El final.... • Curvas Rango – Log del valor de la variable . Recta teorica por regesion.

  28. Tercera investigacion

  29. Un fichero descargado de Internet de la Sociedad Estadistica de Canadá. • Datos sobre anorexia • 243 pacientes y 82 madres • ¿Sucede que los pacientes femeninos con anorexia nerviosa reflejan una conducta familiar caracterizada por altos niveles de actividad e hiper - evitación del consumo de alimentos. ¿Influye este perfil familiar en el incremento de riesgo de surgimiento de la anorexia?

  30. Tres conjuntos de datos Pacientes Madres Madres sobre si sobre las pacientes mismas

  31. El sistema • Detecta que en 33 de los 82 casos hay exageración. • Los minutos en media declarados por las madres al año de ejercicio fisico fueron 9.396. El sistema sugiere 8.322 • Dividiendo por 52 semanas resulta que las madres afirmaron 180 minutos /semana (1/2 hora por dia) y el sistema sugiere 120 (dos horas semanales de ejercicio.

  32. Conclusión • Es un sistema general y de aplicación simple • En dos casos con ficheros de datos grandes se ha intentado falsar la hipótesis y no se ha podido. • En el tercer caso no se conoce la falsedad pero los datos son muy plausibles • Defiendo que es una línea por el momento no descartable,

More Related