SlideShare una empresa de Scribd logo
Sanitization
Perspectiva de Bases de Datos Negativas
Juan Zinser
2018/03/15
1 / 22
Privacidad de Datos
Métodos de Sanitización
Enfoque Bases de Datos Negativas
2 / 22
¿Por qué es importante la privacidad de
datos?
3 / 22
Dos tipos de sanitización de bases:
Seguridad: impedir el acceso a los datos.
Privacidad: tener un acceso controlado a los datos.
4 / 22
Privacidad de datos
¿Por qué es importante que los datos sean públicos?
Propician mejores políticas públicas
Incrementan la eficiencia de servicios
Mejoran la transparencia
5 / 22
Modelos de ataque contra bases de datos
Attribute Leakage.
Record Linkage. Concurso de Netflix.
6 / 22
Intercambio Natural
100% Utilidad - 0% Privacidad
0% Utilidad - 100% Privacidad
Producto Cantidad Precio
Leche Deslactosada Borden 2 15
Leche Chocolate Borden 3 17
Queso Manchego Nochebuena 1 40
Detergente Ariel 1 70
Producto Cantidad Subtotal
Lácteos 6 121
Artículo Limpieza 1 70
7 / 22
Truncado
Ruido Aleatorio
Sampleo
Discretización
Redondeo
Generalización
Microagregación
Bases Negativas
Tipos de Sanitización
8 / 22
Enfoque Sanitización Bases Negativas, se propone una generalización
dentro de un operador.
M C E
0 1.0 0.0 0.0
1 1.0 0.0 0.0
2 0.0 1.0 0.0
3 1.0 0.0 0.0
4 1.0 0.0 0.0
5 1.0 0.0 0.0
6 1.0 0.0 0.0
7 1.0 0.0 0.0
8 1.0 0.0 0.0
9 0.0 0.0 1.0
,
Ms Cs Es
π0,M π0,C
π0,E
π1,M π1,C
π1,E
π2,M π2,C
π2,E
π3,M π3,C
π3,E
π4,M π4,C
π4,E
π5,M π5,C
π5,E
π6,M π6,C
π6,E
π7,M π7,C
π7,E
π8,M π8,C
π8,E
π9,M π9,C
π9,E
∑
nclasses
j=0
πi,j = 1.0 πi,j ≥ 0
9 / 22
Características del operador propuesto
Inclusión del valor real
Privacidad
Distribución de peso
10 / 22
Resultados del operador sobre una base de
datos
Ejemplo
Columna Núm. Clases
categoría laboral 9
educación 16
estado civil 7
ocupación 15
raza 5
género 2
país origen 42
11 / 22
Nos efocaremos en Utilidad dentro del
intercambio de Privacidad-Utilidad.
Dos formas de medir la utilidad de la tabla
desde el punto de vista estadístico.
Utilidad medida por medio de métodos de
aprendizaje de máquina.
Utilidad medida por medio de reconstrucción de
histogramas.
12 / 22
Utilidad medida por medio de métodos de aprendizaje
de máquina.
No incluir el valor real presenta una mejor utilidad.
13 / 22
Destaca la estabilidad en los dos "escalones".
14 / 22
Destaca la pendiente positiva en los primeros niveles
de privacidad.
15 / 22
No parece haber efecto del modelo con la distribución
de pesos.
16 / 22
El modelo Naive Bayes tiene un mejor desempeño
cuando el valor real no es incluido sobre el árbol de
regresión, mientras que los demás modelos tienen un
comportamiento independiente de la inclusión del
valor real.
17 / 22
Ejemplo de reconstrucción de histograma
Original M C E Sanitizada M C E
0 1.0 0.0 0.0 0 0.0 0.5 0.5
1 1.0 0.0 0.0 1 0.0 0.5 0.5
2 0.0 1.0 0.0 2 0.5 0.0 0.5
3 1.0 0.0 0.0 3 0.0 0.5 0.5
4 1.0 0.0 0.0 4 0.0 0.5 0.5
5 1.0 0.0 0.0 5 0.0 0.5 0.5
6 1.0 0.0 0.0 6 0.0 0.5 0.5
7 1.0 0.0 0.0 7 0.0 0.5 0.5
8 1.0 0.0 0.0 8 0.0 0.5 0.5
9 0.0 0.0 1.0 9 0.5 0.5 0.0
total 8.0 1.0 1.0 total 1.0 4.5 4.5
18 / 22
Ejemplo de reconstrucción de histograma
Chi-cuadrada χ
2
= ∑
n
i=1
(N ISi−CISi)
2
CISi
19 / 22
Después de un nivel de dispersión mayor al 40%,
pierde relevancia la inclusión o no inclusión del valor
real.
20 / 22
El peor desempeño ocurre cuando la distribución de
los datos es uniforme y los datos originales tienen una
distribución exponencial.
21 / 22
¡Gracias!
github: jwzinser
Referencias
Dwork - Cynthia Dwork
Esponda - Fernando Esponda
Repositorio con la plática: github.com/jwzinser/data_sanitization
22 / 22

Más contenido relacionado

Más de Software Guru

Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
Software Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
Software Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
Software Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
Software Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
Software Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
Software Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Software Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
Software Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
Software Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
Software Guru
 
La importancia de crear User Personas y Escenarios
La importancia de crear User Personas y EscenariosLa importancia de crear User Personas y Escenarios
La importancia de crear User Personas y Escenarios
Software Guru
 
La vida después de la escuela
La vida después de la escuelaLa vida después de la escuela
La vida después de la escuela
Software Guru
 
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresasProyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Software Guru
 
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Software Guru
 

Más de Software Guru (20)

Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 
La importancia de crear User Personas y Escenarios
La importancia de crear User Personas y EscenariosLa importancia de crear User Personas y Escenarios
La importancia de crear User Personas y Escenarios
 
La vida después de la escuela
La vida después de la escuelaLa vida después de la escuela
La vida después de la escuela
 
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresasProyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
 
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
 

Último

EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
PABLOCESARGARZONBENI
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Telefónica
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
DanielErazoMedina
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
SamuelRamirez83524
 
Alan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónAlan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentación
JuanPrez962115
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
vazquezgarciajesusma
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
cofferub
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
CrystalRomero18
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
AlejandraCasallas7
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
IsabellaRubio6
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
jjfch3110
 
Robótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptxRobótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptx
44652726
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
Leidyfuentes19
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
rafaelsalazar0615
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
AlejandraCasallas7
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
zoecaicedosalazar
 
Diagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestreDiagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestre
DiegoCampos433849
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
coloradxmaria
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
vazquezgarciajesusma
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
Luis Enrique Zafra Haro
 

Último (20)

EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
 
Alan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónAlan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentación
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Robótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptxRobótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptx
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
 
Diagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestreDiagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestre
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
 

Sanitización de datos y privacidad

  • 1. Sanitization Perspectiva de Bases de Datos Negativas Juan Zinser 2018/03/15 1 / 22
  • 2. Privacidad de Datos Métodos de Sanitización Enfoque Bases de Datos Negativas 2 / 22
  • 3. ¿Por qué es importante la privacidad de datos? 3 / 22
  • 4. Dos tipos de sanitización de bases: Seguridad: impedir el acceso a los datos. Privacidad: tener un acceso controlado a los datos. 4 / 22
  • 5. Privacidad de datos ¿Por qué es importante que los datos sean públicos? Propician mejores políticas públicas Incrementan la eficiencia de servicios Mejoran la transparencia 5 / 22
  • 6. Modelos de ataque contra bases de datos Attribute Leakage. Record Linkage. Concurso de Netflix. 6 / 22
  • 7. Intercambio Natural 100% Utilidad - 0% Privacidad 0% Utilidad - 100% Privacidad Producto Cantidad Precio Leche Deslactosada Borden 2 15 Leche Chocolate Borden 3 17 Queso Manchego Nochebuena 1 40 Detergente Ariel 1 70 Producto Cantidad Subtotal Lácteos 6 121 Artículo Limpieza 1 70 7 / 22
  • 9. Enfoque Sanitización Bases Negativas, se propone una generalización dentro de un operador. M C E 0 1.0 0.0 0.0 1 1.0 0.0 0.0 2 0.0 1.0 0.0 3 1.0 0.0 0.0 4 1.0 0.0 0.0 5 1.0 0.0 0.0 6 1.0 0.0 0.0 7 1.0 0.0 0.0 8 1.0 0.0 0.0 9 0.0 0.0 1.0 , Ms Cs Es π0,M π0,C π0,E π1,M π1,C π1,E π2,M π2,C π2,E π3,M π3,C π3,E π4,M π4,C π4,E π5,M π5,C π5,E π6,M π6,C π6,E π7,M π7,C π7,E π8,M π8,C π8,E π9,M π9,C π9,E ∑ nclasses j=0 πi,j = 1.0 πi,j ≥ 0 9 / 22
  • 10. Características del operador propuesto Inclusión del valor real Privacidad Distribución de peso 10 / 22
  • 11. Resultados del operador sobre una base de datos Ejemplo Columna Núm. Clases categoría laboral 9 educación 16 estado civil 7 ocupación 15 raza 5 género 2 país origen 42 11 / 22
  • 12. Nos efocaremos en Utilidad dentro del intercambio de Privacidad-Utilidad. Dos formas de medir la utilidad de la tabla desde el punto de vista estadístico. Utilidad medida por medio de métodos de aprendizaje de máquina. Utilidad medida por medio de reconstrucción de histogramas. 12 / 22
  • 13. Utilidad medida por medio de métodos de aprendizaje de máquina. No incluir el valor real presenta una mejor utilidad. 13 / 22
  • 14. Destaca la estabilidad en los dos "escalones". 14 / 22
  • 15. Destaca la pendiente positiva en los primeros niveles de privacidad. 15 / 22
  • 16. No parece haber efecto del modelo con la distribución de pesos. 16 / 22
  • 17. El modelo Naive Bayes tiene un mejor desempeño cuando el valor real no es incluido sobre el árbol de regresión, mientras que los demás modelos tienen un comportamiento independiente de la inclusión del valor real. 17 / 22
  • 18. Ejemplo de reconstrucción de histograma Original M C E Sanitizada M C E 0 1.0 0.0 0.0 0 0.0 0.5 0.5 1 1.0 0.0 0.0 1 0.0 0.5 0.5 2 0.0 1.0 0.0 2 0.5 0.0 0.5 3 1.0 0.0 0.0 3 0.0 0.5 0.5 4 1.0 0.0 0.0 4 0.0 0.5 0.5 5 1.0 0.0 0.0 5 0.0 0.5 0.5 6 1.0 0.0 0.0 6 0.0 0.5 0.5 7 1.0 0.0 0.0 7 0.0 0.5 0.5 8 1.0 0.0 0.0 8 0.0 0.5 0.5 9 0.0 0.0 1.0 9 0.5 0.5 0.0 total 8.0 1.0 1.0 total 1.0 4.5 4.5 18 / 22
  • 19. Ejemplo de reconstrucción de histograma Chi-cuadrada χ 2 = ∑ n i=1 (N ISi−CISi) 2 CISi 19 / 22
  • 20. Después de un nivel de dispersión mayor al 40%, pierde relevancia la inclusión o no inclusión del valor real. 20 / 22
  • 21. El peor desempeño ocurre cuando la distribución de los datos es uniforme y los datos originales tienen una distribución exponencial. 21 / 22
  • 22. ¡Gracias! github: jwzinser Referencias Dwork - Cynthia Dwork Esponda - Fernando Esponda Repositorio con la plática: github.com/jwzinser/data_sanitization 22 / 22