SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
PUNTOS A TRATAR
 Introducción.

 El Fenómeno del Primer Dígito.

 El Desarrollo de la teoría.

 La Ley de Benford.

   Supuestos de una distribución de tipo Benford.
   Pruebas de Bondad de ajuste de una distribución
   observada a la Ley de Benford.

 Aplicaciones de la Ley de Benford.
INTRODUCCIÓN


               Existirán números que
               siguen:

                      una estructura.
                      un patrón.
                      un modelo.   ?
INTRODUCCIÓN

         ?
                                                      Existirá algún
             Conjunto de Datos                           método?
                       (numéricos)

   Ejemplos
-SIMULACIÓN
(números pseudoaleatorios)                           Para saber si estos datos
                                                     son los que realmente se
-ELECCIONES PRESIDENCIALES
(nº de votos que se espereraban, fraude electoral)          esperaban?
-EVALUACIÓN DE FUN. MAT.
(0,1,1,2,3,5,8,….an= an-1+an-2 SUC. FIBO)
INTRODUCCIÓN
                      CALIDAD DE LA INFORMACIÓN =>
                                    INFORMACIÓN
                                     (Gestión de Datos)
                                                 Datos)

               Paquetes (Análisis de datos)    Principales controles para
                                               la detección de errores
                 - Forensic Tool Kit.
                 - ACL.
    SI           - IDEA.
                 • EL COMO…
                 • EN QUE SE BASA
                 • EL ALGORITMO
                 • RELACIONES LÓGICO
                 -MATEMÁTICAS
                 • Y DEMÁS ASPECTOS
                 DE ANÁLISIS INTERNO
                 DEL PAQUETE.



 La Ley de Benford
INTRODUCCIÓN
 Observación.
 En esta sesión no se pretende demostrar la
 Ley de Benford




         Lo que haremos será:
            - Dar el fundamento matemático a la Ley de
            Benford.
            - Brindar algunas nociones de aplicabilidad a
            la Ley.
            - Tomar la aplicación más llamativa de la
            Ley, proponer una metodología para su
            desarrollo.
EL FENÓMENO DEL PRIMER DÍGITO
                         El primero en hacer notar que los primeros dígitos
                         de los números no se distribuyen de manera
                         equiprobable.
                         Newcomb paso a la historia por sus trabajos tan
                         distintos como:
                          - Sus teorías sobre el             orígenes      de   los
                         asteroides.
                          - o por afirmar rotundamente que ningún
                         aeroplano podría volar.
5KOQP 0GYEQOD  Newcomb observó que las primeras páginas de los
  (astrónomo y matemático)
               matemático)
                           libros   tablas  de  logaritmos1  estaban
                           sistemáticamente más desgastadas que las
                           últimas.

 1 las tablas de logaritmos eran utilizadas para hacer productos, cocientes y raíces,
 facilitando así la tediosa operación manual [Nigrini, 2000]
EL FENÓMENO DEL PRIMER DÍGITO
Newcomb observó que los números con mantisa 1 estaban más
presentes en la realidad que los que tenían mantisa 2, y éstos más que
los que tenían mantisa 3, etc.
Newcomb afirma (no dá explicación               de   éste      fenómeno,               ni
fundamentaciones matemáticas):
  “La Ley de probabilidad de la ocurrencia de números es tal
    que las mantisas de sus logaritmos son equiprobables”
                                                c
 PROPIEDAD DE LA MANTISA           x = r × 10        ⇔   log   10
                                                                    x = c + log   10
                                                                                       r
EL FENÓMENO DEL PRIMER DÍGITO
                                   57 años más tarde Frank Benford publica:
                                        “The Law of anomalous numbers”2
                                   A diferencia del trabajo de Newcomb, Benford
                                   no sólo formula la Ley que finalmente
                                   tomará su nombre, sino que se dedica a recoger
                                   una cantidad ingente de observaciones (20229):
                                    - Las áreas y longitudes de los ríos.
                                    - Los pesos atómicos de los elementos de la T.P.
       (TCPM $GPHQTF                - Estadísticas de la liga Americana de béisbol.
           
    (físico de General Electric)

    Demuestra que en todas estas series los dígitos que
    aparecen en los primeros lugares lo hacen con una
    probabilidad desigual, siendo más probable la aparición
    de dígitos pequeños que de dígitos grandes…
2   Sin haber conocido el trabajo de Newcomb, y a partir del mismo fenómeno.
EL DESARROLLO DE LA TEORÍA
La repercusión del trabajo de Benford no es inmediata:
 Durante los años 40 los trabajos son muy escasos y en su mayoría
 críticos (Goudsmit y Furry, 1944; Furry y Hurwitz,1945)

 En 1961, Pinkham publica una imprescindible aportación al trabajo
 de Benford:
   “Si hay una Ley que gobierna la distribución de los dígitos,
      ésta debe ser necesariamente ESCALA INVARIANTE”

 Sin embargo, en 1969 Raimi es quien demuestra finalmente la
 independencia de la unidad de medida de la Ley de Benford.

  En los años 70 y 80 se inician aproximaciones pragmáticas y
  publicaciones importantes al uso de la Ley de Benford.
EL DESARROLLO DE LA TEORÍA
    Hill (1996) demuestra algo ya sugerido por Boyle (1994): la
    Ley de Benford o distribución logarítmica de los primeros
    dígitos:
             “Es la distribución de todas las distribuciones3”

    En cuanto a su uso:
    Christian y Gupta (1993) pero especialmente Nigrini (1994,
    1996 y 2000), aplica la Ley de Benford, así como las
    distribuciones de los segundos y sucesivos dígitos, para
    detectar eventuales fraudes en la contabilidad, los cuales
    ameritan un proceso de contraloría.




3 Esto es, que si tomamos una serie de distribuciones seleccionadas al azar de manera
insesgada, y de estas distribuciones extraemos valores, los primeros dígitos del conjunto
de valores convergen a una distribución logarítmica.
LA LEY DE BENFORD
La Ley de Benford, también llamada la Ley del Dígito
Significativo o Ley del Primer Dígito, es una
distribución de probabilidad en los dígitos significativos de
los números reales.

La Ley de Benford es la distribución de probabilidad
logarítmica dada por:
LA LEY DE BENFORD
La Ley de Benford para el primer dígito nos dará la
siguiente tabla de probabilidades para cada número:




Según esta ley:

 El 30% de las veces, la primera cifra
 significativa será un 1, mientras que sólo
 un 5% de las veces será un 9.
LA LEY DE BENFORD
Ejemplo de cálculo para el 2do, 3er y 4to dígito
significativo.




                                     American
                               Mathematical Society,
                                Vol. 123, N° 3 (Mar.
                                1995), pág. 887-895

                               Theodore P. Hill:

                                 La Ley de Benford
                                        es de
                                BASE INVARIANTE
LA LEY DE BENFORD
Para los k-ésimos dígitos significativos




Para el k-ésimo dígito significativo
LA LEY DE BENFORD

 A partir de la Ley generalizada puede calcularse la
 probabilidad de dk condicionada4 a los valores de los
 dígitos anteriores.




4 Un resultado importante es que los dígitos significativos no son independientes ya que la presencia
de un dígito modifica la probabilidad de aparición de los demás.
QUÉ DATOS SATISFACEN LA LEY DE BENFORD?

Es evidente que la Ley de
Benford no se verifica en
todos los posibles conjuntos de
datos numéricos como:
   Aquellos procedentes de distribuciones
       - uniformes (números de lotería)
       - normales (edades de personas).

   Tampoco puede verificarse la ley cuando los datos
   tienen limitado el valor del dígito inicial (precios de
   productos)

   Existe una fuerte dependencia en cuanto a la
   naturaleza de los datos (núm. telefónicos, doc. de
   identidad se asignan arbitrariamente)
SUPUESTOS DE UNA DISTRIBUCIÓN DE TIPO BENFORD?

            Sucesiones      geométricas      (requisito
         fundamental).
            No tener un máximo, ni un mínimo
            teórico5.
            Datos que contengan cuatro o más dígitos
         (dem. cantidad de dígitos importantes, tres”).
            Datos que contienen valores similares para
         fenómenos similares.
            El conjunto de los datos no debe
         componerse de números asignados.



5 La razón es que los dígitos que componen estos mínimos y máximos aparecen con una
frecuencia mucho mayor de la esperada por la distribución.
PRUEBAS DE BONDAD DE AJUSTE DE UNA
    DISTRIBUCIÓN OBSERVADA A LEY DE BENFORD

Para examinar la bondad de ajuste de los datos
observados a la distribución teórica de Benford se
han adaptado los tests clásicos:
      - La prueba de estadístico Z


      - La prueba de estadístico χ2 6

      - La prueba de Kolmogorov-Smirnoff y
      - La desviación media absoluta [Nigrini, 2000, pág. 79].

6  Nigrini propone su uso para
calcular la bondad de ajuste de todos
los dígitos respecto a lo esperado por
la Ley de Benford.
APLICACIONES DE LA LEY DE BENFORD
Durante muchos años la Ley de Benford no ha sido más
que una curiosidad estadística sin fundamentación
matemática ni aplicaciones reales.
Hoy la Ley está firmemente basada en la teoría de la
probabilidad, goza del interés del público general y
presenta importantes aplicaciones a la vista.
APLICACIONES
  •La Ley se ha propuesto como un posible
  test de evaluación de los resultados
  obtenidos, ya sea por medios analíticos o
  de simulación.
  •La Ley de Benford en el estudio de la
  computación científica y la aritmética en
  punto flotante.
APLICACIONES DE LA LEY DE BENFORD
APLICACIONES
•Se ha utilizado la Ley en cuestiones
como el tiempo de ejecución de
algoritmos de aritmética en punto
flotante, los errores de redondeo y su
minimización.
•Donald Knuth, la idea de Knuth es que
un ordenador tiene que manejar datos
que probablemente sigan la Ley de
Benford. Por tanto, podríamos diseñar
ordenadores que sean más rápidos
calculando o leyendo de discos duros y
memorias    RAM    los  números    que
empiezan por 1.
•También se ha pensado en la posible
adecuación de la Ley de Benford a juegos
de adivinación y similares.                ?
APLICACIONES DE LA LEY DE BENFORD
APLICACIONES

 • Sin duda la aplicación más llamativa:



        DETECCIÓN DE DATOS ERRÓNEOS O FRAUDULENTOS
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?


                                 Cómo Detectar
                                   Indicios de
                                Fraude Electoral?
Coyuntura (2009-2010)


Las técnicas de detección de fraudes (FRAUDITOR)
    Análisis Estadístico: Análisis de regresión, análisis de correlación, análisis
               Estadístico:
 de dispersión, La Ley de Benford – Análisis de Frecuencia digital.
     Patrones:
     Patrones: Secuencias, investigación de faltantes y duplicados, análisis
 histórico de tendencias, análisis de ratios.
    Técnicas de análisis visual: Análisis de relaciones, análisis de líneas de
                            visual:
 tiempo, gráficos de agrupamiento (clustering)
    Procedimientos analíticos de auditoria: Análisis vertical y horizontal de
                                       auditoria:
 las cuentas de balance y de resultados; Análisis de índices/ratios históricos.
Etapa de resolución del
           problema
                                PROPUESTA METODOLÓGICA
           Análisis del problema

                 Planteamiento del problema
     m
     é                                                              Análisis
     t
     o
     d
                Recolección de la información                                                                   ALGORITMO en el
     o
              Organización y clasificación de los                   Desarrollo                                  marco de la Ley de
     e                datos recogidos
     s
                                                                                                                Benford.
     t
     a
     d
                       Construcción de tablas de
                              frecuencias                           Implementación
     í
     s             Representación tabular o cuadros
     t
     i                  estadísticos y gráfica
     c
     o          Análisis e interpretación de los
                           resultados
          Diseño o Desarrollo del
                algoritmo                                   1.Dividir el problemas en k-subproblemas.
                                                            2.Resolver independientemente los k-subproblemas.
                   Técnica Divide y Vencerás
                                                            3.Combinar las soluciones obtenidas de paso
           Etapa de                                         anterior, para resolver el problema original.
     implementación en el
          ordenador

            Recolección y refinamiento de requisitos
p
a
r                        * Cuestionario.
a
d                           Diseño rápido
i
g
m                        * DFD.
a
                    Construcción del prototipo
p                       * Codificación del algoritmo y el
r
                        diseño del sistema en un
o
t                       programa.
o
              Evaluación del prototipo por el cliente
t
i
p                        * Ejecución del programa.
a
c                  Refinamiento del prototipo
i
ó
n
                         * Comprobación del programa.
                            Producto final
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
                                Determinación
                                     de
                                   Variables




                              Para       una    mejor
                              interpretación de los
                              datos observados se
                              puede tomar en cuenta los
                              estadísticos:
                                •Mediana.
                                •Error estándar.
                                •Desviación estándar.
                                •Curtosis.
                                •Coeficiente de Asimetría.
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
 DEFINICIONES
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?

 DEFINICIONES
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
DEFINICIONES
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
ALGORITMO

                                    Pruebas del
                                   Análisis Digital.

                                  •Las pruebas básicas
                                  •Las pruebas avanzadas.

                                          •PD,
                                          •SD, P2D,
                                          •P3D,
                                          •DN,
                                          •U2D,
                                          •RN.
DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA
CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?

CONJUNTO DE DATOS ANALIZADOS

       Elecciones 2002 - Bolivia

       Elecciones 2009 - Bolivia

       Números Pseudoaleatorios


                                                        Votación
                                                       Electrónica
      Fraude Electoral, análisis forense Mexico 2006
                     Ley de Benford
          http://www.fisica.unam.mx/octavio/
jesus.larrazabal.salas @gmail.com
BIBLIOGRAFÍA
GESTIÓN DE DATOS
1) Definir la estructura de la base de datos;
2) definir e implementar todas las protecciones posibles entre
   los datos para detectar y eliminar el máximo número de
   incongruencias durante la recogida de la información;
3) garantizar que los datos que han sido registrados no
   contienen inconsistencias;
4) preparar la matriz de datos para el análisis estadístico,
   creando las variables necesarias para contrastar las
   hipótesis empíricas;
5) emplear las técnicas de análisis estadístico adecuadas;
6) evaluar la calidad de las estrategias utilizadas durante todo
   el proceso de recogida y manejo de la información; y
7) consensuar procedimientos de control para garantizar la
   calidad de la gestión de datos que sean aplicables en futuras
   investigaciones, valorando en cada caso los costes de su
   implementación.

Más contenido relacionado

Destacado

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Destacado (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Benford1

  • 1.
  • 2. PUNTOS A TRATAR Introducción. El Fenómeno del Primer Dígito. El Desarrollo de la teoría. La Ley de Benford. Supuestos de una distribución de tipo Benford. Pruebas de Bondad de ajuste de una distribución observada a la Ley de Benford. Aplicaciones de la Ley de Benford.
  • 3. INTRODUCCIÓN Existirán números que siguen: una estructura. un patrón. un modelo. ?
  • 4. INTRODUCCIÓN ? Existirá algún Conjunto de Datos método? (numéricos) Ejemplos -SIMULACIÓN (números pseudoaleatorios) Para saber si estos datos son los que realmente se -ELECCIONES PRESIDENCIALES (nº de votos que se espereraban, fraude electoral) esperaban? -EVALUACIÓN DE FUN. MAT. (0,1,1,2,3,5,8,….an= an-1+an-2 SUC. FIBO)
  • 5. INTRODUCCIÓN CALIDAD DE LA INFORMACIÓN => INFORMACIÓN (Gestión de Datos) Datos) Paquetes (Análisis de datos) Principales controles para la detección de errores - Forensic Tool Kit. - ACL. SI - IDEA. • EL COMO… • EN QUE SE BASA • EL ALGORITMO • RELACIONES LÓGICO -MATEMÁTICAS • Y DEMÁS ASPECTOS DE ANÁLISIS INTERNO DEL PAQUETE. La Ley de Benford
  • 6. INTRODUCCIÓN Observación. En esta sesión no se pretende demostrar la Ley de Benford Lo que haremos será: - Dar el fundamento matemático a la Ley de Benford. - Brindar algunas nociones de aplicabilidad a la Ley. - Tomar la aplicación más llamativa de la Ley, proponer una metodología para su desarrollo.
  • 7. EL FENÓMENO DEL PRIMER DÍGITO El primero en hacer notar que los primeros dígitos de los números no se distribuyen de manera equiprobable. Newcomb paso a la historia por sus trabajos tan distintos como: - Sus teorías sobre el orígenes de los asteroides. - o por afirmar rotundamente que ningún aeroplano podría volar. 5KOQP 0GYEQOD Newcomb observó que las primeras páginas de los (astrónomo y matemático) matemático) libros tablas de logaritmos1 estaban sistemáticamente más desgastadas que las últimas. 1 las tablas de logaritmos eran utilizadas para hacer productos, cocientes y raíces, facilitando así la tediosa operación manual [Nigrini, 2000]
  • 8. EL FENÓMENO DEL PRIMER DÍGITO Newcomb observó que los números con mantisa 1 estaban más presentes en la realidad que los que tenían mantisa 2, y éstos más que los que tenían mantisa 3, etc. Newcomb afirma (no dá explicación de éste fenómeno, ni fundamentaciones matemáticas): “La Ley de probabilidad de la ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables” c PROPIEDAD DE LA MANTISA x = r × 10 ⇔ log 10 x = c + log 10 r
  • 9. EL FENÓMENO DEL PRIMER DÍGITO 57 años más tarde Frank Benford publica: “The Law of anomalous numbers”2 A diferencia del trabajo de Newcomb, Benford no sólo formula la Ley que finalmente tomará su nombre, sino que se dedica a recoger una cantidad ingente de observaciones (20229): - Las áreas y longitudes de los ríos. - Los pesos atómicos de los elementos de la T.P. (TCPM $GPHQTF - Estadísticas de la liga Americana de béisbol. (físico de General Electric) Demuestra que en todas estas series los dígitos que aparecen en los primeros lugares lo hacen con una probabilidad desigual, siendo más probable la aparición de dígitos pequeños que de dígitos grandes… 2 Sin haber conocido el trabajo de Newcomb, y a partir del mismo fenómeno.
  • 10. EL DESARROLLO DE LA TEORÍA La repercusión del trabajo de Benford no es inmediata: Durante los años 40 los trabajos son muy escasos y en su mayoría críticos (Goudsmit y Furry, 1944; Furry y Hurwitz,1945) En 1961, Pinkham publica una imprescindible aportación al trabajo de Benford: “Si hay una Ley que gobierna la distribución de los dígitos, ésta debe ser necesariamente ESCALA INVARIANTE” Sin embargo, en 1969 Raimi es quien demuestra finalmente la independencia de la unidad de medida de la Ley de Benford. En los años 70 y 80 se inician aproximaciones pragmáticas y publicaciones importantes al uso de la Ley de Benford.
  • 11. EL DESARROLLO DE LA TEORÍA Hill (1996) demuestra algo ya sugerido por Boyle (1994): la Ley de Benford o distribución logarítmica de los primeros dígitos: “Es la distribución de todas las distribuciones3” En cuanto a su uso: Christian y Gupta (1993) pero especialmente Nigrini (1994, 1996 y 2000), aplica la Ley de Benford, así como las distribuciones de los segundos y sucesivos dígitos, para detectar eventuales fraudes en la contabilidad, los cuales ameritan un proceso de contraloría. 3 Esto es, que si tomamos una serie de distribuciones seleccionadas al azar de manera insesgada, y de estas distribuciones extraemos valores, los primeros dígitos del conjunto de valores convergen a una distribución logarítmica.
  • 12. LA LEY DE BENFORD La Ley de Benford, también llamada la Ley del Dígito Significativo o Ley del Primer Dígito, es una distribución de probabilidad en los dígitos significativos de los números reales. La Ley de Benford es la distribución de probabilidad logarítmica dada por:
  • 13. LA LEY DE BENFORD La Ley de Benford para el primer dígito nos dará la siguiente tabla de probabilidades para cada número: Según esta ley: El 30% de las veces, la primera cifra significativa será un 1, mientras que sólo un 5% de las veces será un 9.
  • 14. LA LEY DE BENFORD Ejemplo de cálculo para el 2do, 3er y 4to dígito significativo. American Mathematical Society, Vol. 123, N° 3 (Mar. 1995), pág. 887-895 Theodore P. Hill: La Ley de Benford es de BASE INVARIANTE
  • 15. LA LEY DE BENFORD Para los k-ésimos dígitos significativos Para el k-ésimo dígito significativo
  • 16. LA LEY DE BENFORD A partir de la Ley generalizada puede calcularse la probabilidad de dk condicionada4 a los valores de los dígitos anteriores. 4 Un resultado importante es que los dígitos significativos no son independientes ya que la presencia de un dígito modifica la probabilidad de aparición de los demás.
  • 17. QUÉ DATOS SATISFACEN LA LEY DE BENFORD? Es evidente que la Ley de Benford no se verifica en todos los posibles conjuntos de datos numéricos como: Aquellos procedentes de distribuciones - uniformes (números de lotería) - normales (edades de personas). Tampoco puede verificarse la ley cuando los datos tienen limitado el valor del dígito inicial (precios de productos) Existe una fuerte dependencia en cuanto a la naturaleza de los datos (núm. telefónicos, doc. de identidad se asignan arbitrariamente)
  • 18. SUPUESTOS DE UNA DISTRIBUCIÓN DE TIPO BENFORD? Sucesiones geométricas (requisito fundamental). No tener un máximo, ni un mínimo teórico5. Datos que contengan cuatro o más dígitos (dem. cantidad de dígitos importantes, tres”). Datos que contienen valores similares para fenómenos similares. El conjunto de los datos no debe componerse de números asignados. 5 La razón es que los dígitos que componen estos mínimos y máximos aparecen con una frecuencia mucho mayor de la esperada por la distribución.
  • 19. PRUEBAS DE BONDAD DE AJUSTE DE UNA DISTRIBUCIÓN OBSERVADA A LEY DE BENFORD Para examinar la bondad de ajuste de los datos observados a la distribución teórica de Benford se han adaptado los tests clásicos: - La prueba de estadístico Z - La prueba de estadístico χ2 6 - La prueba de Kolmogorov-Smirnoff y - La desviación media absoluta [Nigrini, 2000, pág. 79]. 6 Nigrini propone su uso para calcular la bondad de ajuste de todos los dígitos respecto a lo esperado por la Ley de Benford.
  • 20. APLICACIONES DE LA LEY DE BENFORD Durante muchos años la Ley de Benford no ha sido más que una curiosidad estadística sin fundamentación matemática ni aplicaciones reales. Hoy la Ley está firmemente basada en la teoría de la probabilidad, goza del interés del público general y presenta importantes aplicaciones a la vista. APLICACIONES •La Ley se ha propuesto como un posible test de evaluación de los resultados obtenidos, ya sea por medios analíticos o de simulación. •La Ley de Benford en el estudio de la computación científica y la aritmética en punto flotante.
  • 21. APLICACIONES DE LA LEY DE BENFORD APLICACIONES •Se ha utilizado la Ley en cuestiones como el tiempo de ejecución de algoritmos de aritmética en punto flotante, los errores de redondeo y su minimización. •Donald Knuth, la idea de Knuth es que un ordenador tiene que manejar datos que probablemente sigan la Ley de Benford. Por tanto, podríamos diseñar ordenadores que sean más rápidos calculando o leyendo de discos duros y memorias RAM los números que empiezan por 1. •También se ha pensado en la posible adecuación de la Ley de Benford a juegos de adivinación y similares. ?
  • 22. APLICACIONES DE LA LEY DE BENFORD APLICACIONES • Sin duda la aplicación más llamativa: DETECCIÓN DE DATOS ERRÓNEOS O FRAUDULENTOS
  • 23. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? Cómo Detectar Indicios de Fraude Electoral? Coyuntura (2009-2010) Las técnicas de detección de fraudes (FRAUDITOR) Análisis Estadístico: Análisis de regresión, análisis de correlación, análisis Estadístico: de dispersión, La Ley de Benford – Análisis de Frecuencia digital. Patrones: Patrones: Secuencias, investigación de faltantes y duplicados, análisis histórico de tendencias, análisis de ratios. Técnicas de análisis visual: Análisis de relaciones, análisis de líneas de visual: tiempo, gráficos de agrupamiento (clustering) Procedimientos analíticos de auditoria: Análisis vertical y horizontal de auditoria: las cuentas de balance y de resultados; Análisis de índices/ratios históricos.
  • 24. Etapa de resolución del problema PROPUESTA METODOLÓGICA Análisis del problema Planteamiento del problema m é Análisis t o d Recolección de la información ALGORITMO en el o Organización y clasificación de los Desarrollo marco de la Ley de e datos recogidos s Benford. t a d Construcción de tablas de frecuencias Implementación í s Representación tabular o cuadros t i estadísticos y gráfica c o Análisis e interpretación de los resultados Diseño o Desarrollo del algoritmo 1.Dividir el problemas en k-subproblemas. 2.Resolver independientemente los k-subproblemas. Técnica Divide y Vencerás 3.Combinar las soluciones obtenidas de paso Etapa de anterior, para resolver el problema original. implementación en el ordenador Recolección y refinamiento de requisitos p a r * Cuestionario. a d Diseño rápido i g m * DFD. a Construcción del prototipo p * Codificación del algoritmo y el r diseño del sistema en un o t programa. o Evaluación del prototipo por el cliente t i p * Ejecución del programa. a c Refinamiento del prototipo i ó n * Comprobación del programa. Producto final
  • 25. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? Determinación de Variables Para una mejor interpretación de los datos observados se puede tomar en cuenta los estadísticos: •Mediana. •Error estándar. •Desviación estándar. •Curtosis. •Coeficiente de Asimetría.
  • 26. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL?
  • 27. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? DEFINICIONES
  • 28. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? DEFINICIONES
  • 29. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? DEFINICIONES
  • 30. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? ALGORITMO Pruebas del Análisis Digital. •Las pruebas básicas •Las pruebas avanzadas. •PD, •SD, P2D, •P3D, •DN, •U2D, •RN.
  • 31. DESARROLLO DE LA APLICACIÓN MÁS LLAMATIVA CASO: CÓMO DETECTAR INDICIOS DE FRAUDE ELECTORAL? CONJUNTO DE DATOS ANALIZADOS Elecciones 2002 - Bolivia Elecciones 2009 - Bolivia Números Pseudoaleatorios Votación Electrónica Fraude Electoral, análisis forense Mexico 2006 Ley de Benford http://www.fisica.unam.mx/octavio/
  • 33.
  • 34. GESTIÓN DE DATOS 1) Definir la estructura de la base de datos; 2) definir e implementar todas las protecciones posibles entre los datos para detectar y eliminar el máximo número de incongruencias durante la recogida de la información; 3) garantizar que los datos que han sido registrados no contienen inconsistencias; 4) preparar la matriz de datos para el análisis estadístico, creando las variables necesarias para contrastar las hipótesis empíricas; 5) emplear las técnicas de análisis estadístico adecuadas; 6) evaluar la calidad de las estrategias utilizadas durante todo el proceso de recogida y manejo de la información; y 7) consensuar procedimientos de control para garantizar la calidad de la gestión de datos que sean aplicables en futuras investigaciones, valorando en cada caso los costes de su implementación.