Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Benford1
1.
2. PUNTOS A TRATAR
Introducción.
El Fenómeno del Primer Dígito.
El Desarrollo de la teoría.
La Ley de Benford.
Supuestos de una distribución de tipo Benford.
Pruebas de Bondad de ajuste de una distribución
observada a la Ley de Benford.
Aplicaciones de la Ley de Benford.
3. INTRODUCCIÓN
Existirán números que
siguen:
una estructura.
un patrón.
un modelo. ?
4. INTRODUCCIÓN
?
Existirá algún
Conjunto de Datos método?
(numéricos)
Ejemplos
-SIMULACIÓN
(números pseudoaleatorios) Para saber si estos datos
son los que realmente se
-ELECCIONES PRESIDENCIALES
(nº de votos que se espereraban, fraude electoral) esperaban?
-EVALUACIÓN DE FUN. MAT.
(0,1,1,2,3,5,8,….an= an-1+an-2 SUC. FIBO)
5. INTRODUCCIÓN
CALIDAD DE LA INFORMACIÓN =>
INFORMACIÓN
(Gestión de Datos)
Datos)
Paquetes (Análisis de datos) Principales controles para
la detección de errores
- Forensic Tool Kit.
- ACL.
SI - IDEA.
• EL COMO…
• EN QUE SE BASA
• EL ALGORITMO
• RELACIONES LÓGICO
-MATEMÁTICAS
• Y DEMÁS ASPECTOS
DE ANÁLISIS INTERNO
DEL PAQUETE.
La Ley de Benford
6. INTRODUCCIÓN
Observación.
En esta sesión no se pretende demostrar la
Ley de Benford
Lo que haremos será:
- Dar el fundamento matemático a la Ley de
Benford.
- Brindar algunas nociones de aplicabilidad a
la Ley.
- Tomar la aplicación más llamativa de la
Ley, proponer una metodología para su
desarrollo.
7. EL FENÓMENO DEL PRIMER DÍGITO
El primero en hacer notar que los primeros dígitos
de los números no se distribuyen de manera
equiprobable.
Newcomb paso a la historia por sus trabajos tan
distintos como:
- Sus teorías sobre el orígenes de los
asteroides.
- o por afirmar rotundamente que ningún
aeroplano podría volar.
5KOQP 0GYEQOD Newcomb observó que las primeras páginas de los
(astrónomo y matemático)
matemático)
libros tablas de logaritmos1 estaban
sistemáticamente más desgastadas que las
últimas.
1 las tablas de logaritmos eran utilizadas para hacer productos, cocientes y raíces,
facilitando así la tediosa operación manual [Nigrini, 2000]
8. EL FENÓMENO DEL PRIMER DÍGITO
Newcomb observó que los números con mantisa 1 estaban más
presentes en la realidad que los que tenían mantisa 2, y éstos más que
los que tenían mantisa 3, etc.
Newcomb afirma (no dá explicación de éste fenómeno, ni
fundamentaciones matemáticas):
“La Ley de probabilidad de la ocurrencia de números es tal
que las mantisas de sus logaritmos son equiprobables”
c
PROPIEDAD DE LA MANTISA x = r × 10 ⇔ log 10
x = c + log 10
r
9. EL FENÓMENO DEL PRIMER DÍGITO
57 años más tarde Frank Benford publica:
“The Law of anomalous numbers”2
A diferencia del trabajo de Newcomb, Benford
no sólo formula la Ley que finalmente
tomará su nombre, sino que se dedica a recoger
una cantidad ingente de observaciones (20229):
- Las áreas y longitudes de los ríos.
- Los pesos atómicos de los elementos de la T.P.
(TCPM $GPHQTF - Estadísticas de la liga Americana de béisbol.
(físico de General Electric)
Demuestra que en todas estas series los dígitos que
aparecen en los primeros lugares lo hacen con una
probabilidad desigual, siendo más probable la aparición
de dígitos pequeños que de dígitos grandes…
2 Sin haber conocido el trabajo de Newcomb, y a partir del mismo fenómeno.
10. EL DESARROLLO DE LA TEORÍA
La repercusión del trabajo de Benford no es inmediata:
Durante los años 40 los trabajos son muy escasos y en su mayoría
críticos (Goudsmit y Furry, 1944; Furry y Hurwitz,1945)
En 1961, Pinkham publica una imprescindible aportación al trabajo
de Benford:
“Si hay una Ley que gobierna la distribución de los dígitos,
ésta debe ser necesariamente ESCALA INVARIANTE”
Sin embargo, en 1969 Raimi es quien demuestra finalmente la
independencia de la unidad de medida de la Ley de Benford.
En los años 70 y 80 se inician aproximaciones pragmáticas y
publicaciones importantes al uso de la Ley de Benford.
11. EL DESARROLLO DE LA TEORÍA
Hill (1996) demuestra algo ya sugerido por Boyle (1994): la
Ley de Benford o distribución logarítmica de los primeros
dígitos:
“Es la distribución de todas las distribuciones3”
En cuanto a su uso:
Christian y Gupta (1993) pero especialmente Nigrini (1994,
1996 y 2000), aplica la Ley de Benford, así como las
distribuciones de los segundos y sucesivos dígitos, para
detectar eventuales fraudes en la contabilidad, los cuales
ameritan un proceso de contraloría.
3 Esto es, que si tomamos una serie de distribuciones seleccionadas al azar de manera
insesgada, y de estas distribuciones extraemos valores, los primeros dígitos del conjunto
de valores convergen a una distribución logarítmica.
12. LA LEY DE BENFORD
La Ley de Benford, también llamada la Ley del Dígito
Significativo o Ley del Primer Dígito, es una
distribución de probabilidad en los dígitos significativos de
los números reales.
La Ley de Benford es la distribución de probabilidad
logarítmica dada por:
13. LA LEY DE BENFORD
La Ley de Benford para el primer dígito nos dará la
siguiente tabla de probabilidades para cada número:
Según esta ley:
El 30% de las veces, la primera cifra
significativa será un 1, mientras que sólo
un 5% de las veces será un 9.
14. LA LEY DE BENFORD
Ejemplo de cálculo para el 2do, 3er y 4to dígito
significativo.
American
Mathematical Society,
Vol. 123, N° 3 (Mar.
1995), pág. 887-895
Theodore P. Hill:
La Ley de Benford
es de
BASE INVARIANTE
15. LA LEY DE BENFORD
Para los k-ésimos dígitos significativos
Para el k-ésimo dígito significativo
16. LA LEY DE BENFORD
A partir de la Ley generalizada puede calcularse la
probabilidad de dk condicionada4 a los valores de los
dígitos anteriores.
4 Un resultado importante es que los dígitos significativos no son independientes ya que la presencia
de un dígito modifica la probabilidad de aparición de los demás.
17. QUÉ DATOS SATISFACEN LA LEY DE BENFORD?
Es evidente que la Ley de
Benford no se verifica en
todos los posibles conjuntos de
datos numéricos como:
Aquellos procedentes de distribuciones
- uniformes (números de lotería)
- normales (edades de personas).
Tampoco puede verificarse la ley cuando los datos
tienen limitado el valor del dígito inicial (precios de
productos)
Existe una fuerte dependencia en cuanto a la
naturaleza de los datos (núm. telefónicos, doc. de
identidad se asignan arbitrariamente)
18. SUPUESTOS DE UNA DISTRIBUCIÓN DE TIPO BENFORD?
Sucesiones geométricas (requisito
fundamental).
No tener un máximo, ni un mínimo
teórico5.
Datos que contengan cuatro o más dígitos
(dem. cantidad de dígitos importantes, tres”).
Datos que contienen valores similares para
fenómenos similares.
El conjunto de los datos no debe
componerse de números asignados.
5 La razón es que los dígitos que componen estos mínimos y máximos aparecen con una
frecuencia mucho mayor de la esperada por la distribución.
19. PRUEBAS DE BONDAD DE AJUSTE DE UNA
DISTRIBUCIÓN OBSERVADA A LEY DE BENFORD
Para examinar la bondad de ajuste de los datos
observados a la distribución teórica de Benford se
han adaptado los tests clásicos:
- La prueba de estadístico Z
- La prueba de estadístico χ2 6
- La prueba de Kolmogorov-Smirnoff y
- La desviación media absoluta [Nigrini, 2000, pág. 79].
6 Nigrini propone su uso para
calcular la bondad de ajuste de todos
los dígitos respecto a lo esperado por
la Ley de Benford.
20. APLICACIONES DE LA LEY DE BENFORD
Durante muchos años la Ley de Benford no ha sido más
que una curiosidad estadística sin fundamentación
matemática ni aplicaciones reales.
Hoy la Ley está firmemente basada en la teoría de la
probabilidad, goza del interés del público general y
presenta importantes aplicaciones a la vista.
APLICACIONES
•La Ley se ha propuesto como un posible
test de evaluación de los resultados
obtenidos, ya sea por medios analíticos o
de simulación.
•La Ley de Benford en el estudio de la
computación científica y la aritmética en
punto flotante.
21. APLICACIONES DE LA LEY DE BENFORD
APLICACIONES
•Se ha utilizado la Ley en cuestiones
como el tiempo de ejecución de
algoritmos de aritmética en punto
flotante, los errores de redondeo y su
minimización.
•Donald Knuth, la idea de Knuth es que
un ordenador tiene que manejar datos
que probablemente sigan la Ley de
Benford. Por tanto, podríamos diseñar
ordenadores que sean más rápidos
calculando o leyendo de discos duros y
memorias RAM los números que
empiezan por 1.
•También se ha pensado en la posible
adecuación de la Ley de Benford a juegos
de adivinación y similares. ?
22. APLICACIONES DE LA LEY DE BENFORD
APLICACIONES
• Sin duda la aplicación más llamativa:
DETECCIÓN DE DATOS ERRÓNEOS O FRAUDULENTOS
23. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
Cómo Detectar
Indicios de
Fraude Electoral?
Coyuntura (2009-2010)
Las técnicas de detección de fraudes (FRAUDITOR)
Análisis Estadístico: Análisis de regresión, análisis de correlación, análisis
Estadístico:
de dispersión, La Ley de Benford – Análisis de Frecuencia digital.
Patrones:
Patrones: Secuencias, investigación de faltantes y duplicados, análisis
histórico de tendencias, análisis de ratios.
Técnicas de análisis visual: Análisis de relaciones, análisis de líneas de
visual:
tiempo, gráficos de agrupamiento (clustering)
Procedimientos analíticos de auditoria: Análisis vertical y horizontal de
auditoria:
las cuentas de balance y de resultados; Análisis de índices/ratios históricos.
24. Etapa de resolución del
problema
PROPUESTA METODOLÓGICA
Análisis del problema
Planteamiento del problema
m
é Análisis
t
o
d
Recolección de la información ALGORITMO en el
o
Organización y clasificación de los Desarrollo marco de la Ley de
e datos recogidos
s
Benford.
t
a
d
Construcción de tablas de
frecuencias Implementación
í
s Representación tabular o cuadros
t
i estadísticos y gráfica
c
o Análisis e interpretación de los
resultados
Diseño o Desarrollo del
algoritmo 1.Dividir el problemas en k-subproblemas.
2.Resolver independientemente los k-subproblemas.
Técnica Divide y Vencerás
3.Combinar las soluciones obtenidas de paso
Etapa de anterior, para resolver el problema original.
implementación en el
ordenador
Recolección y refinamiento de requisitos
p
a
r * Cuestionario.
a
d Diseño rápido
i
g
m * DFD.
a
Construcción del prototipo
p * Codificación del algoritmo y el
r
diseño del sistema en un
o
t programa.
o
Evaluación del prototipo por el cliente
t
i
p * Ejecución del programa.
a
c Refinamiento del prototipo
i
ó
n
* Comprobación del programa.
Producto final
25. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
Determinación
de
Variables
Para una mejor
interpretación de los
datos observados se
puede tomar en cuenta los
estadísticos:
•Mediana.
•Error estándar.
•Desviación estándar.
•Curtosis.
•Coeficiente de Asimetría.
26. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
27. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
DEFINICIONES
28. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
DEFINICIONES
29. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
DEFINICIONES
30. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
ALGORITMO
Pruebas del
Análisis Digital.
•Las pruebas básicas
•Las pruebas avanzadas.
•PD,
•SD, P2D,
•P3D,
•DN,
•U2D,
•RN.
31. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
CONJUNTO DE DATOS ANALIZADOS
Elecciones 2002 - Bolivia
Elecciones 2009 - Bolivia
Números Pseudoaleatorios
Votación
Electrónica
Fraude Electoral, análisis forense Mexico 2006
Ley de Benford
http://www.fisica.unam.mx/octavio/
34. GESTIÓN DE DATOS
1) Definir la estructura de la base de datos;
2) definir e implementar todas las protecciones posibles entre
los datos para detectar y eliminar el máximo número de
incongruencias durante la recogida de la información;
3) garantizar que los datos que han sido registrados no
contienen inconsistencias;
4) preparar la matriz de datos para el análisis estadístico,
creando las variables necesarias para contrastar las
hipótesis empíricas;
5) emplear las técnicas de análisis estadístico adecuadas;
6) evaluar la calidad de las estrategias utilizadas durante todo
el proceso de recogida y manejo de la información; y
7) consensuar procedimientos de control para garantizar la
calidad de la gestión de datos que sean aplicables en futuras
investigaciones, valorando en cada caso los costes de su
implementación.