Más información en:
https://www.universidadpopularc3c.es/index.php/actividades/conferencias/event/3346
Ponente: Victor Amigó Ramos, Matemático
Tema: Estudio de las técnicas denominadas "Big Data", es decir, los datos masivos.
Fecha: 26 de marzo 2019
Lugar: Universidad Popular Carmen de Michelena de Tres Cantos España
Descripción:
Con las palabras inglesas “Big Data” nos referimos a una cantidad de datos tan enorme que sería imposible de tratar con los sistemas y algoritmos informáticos existentes hasta hace pocos años.
Los datos masivos, también llamados en castellano “macro datos”, son utilizados en campos muy diversos: medicina, publicidad, meteorología, finanzas, seguridad informática, agricultura, control del cambio climático, etc.
Además, nuestra actividad digital, (correo electrónico, búsquedas en Internet, redes sociales, blogs, fotos, vídeos, etc.), genera gran cantidad de datos.
Gran parte de la investigación científica actual utiliza técnicas de tratamiento de big data, incluyendo la aplicación en muchos casos de inteligencia artificial. Veremos que la inteligencia artificial está relacionada en la actualidad con los datos masivos, aunque no se trata de lo mismo.
Podríamos imaginar que los macro datos son una fuente de beneficios para la humanidad.
Sin embargo, pese a su indudable utilidad, existe una parte oscura que implica graves problemas.
Con relación a la parte negativa del Big Data hubo un libro que me llamó la atención: “Armas de destrucción matemática: Cómo el Big Data aumenta la desigualdad y amenaza la democracia”, de Cathy O’Neil, matemática y experta en macro datos. Este libro fue nominado para el National Book Award 2016 en EE.UU. para la categoría de no ficción.
Resumiendo: El uso de los macro datos constituye una oportunidad para el progreso de la humanidad, pero también puede resultar muy perjudicial. La idea es poder explicar ambas facetas, sin recurrir a conceptos técnicos o complicados.
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
Conferencia: Big Data: ¿Beneficiosos o armas de destrucción matemática?
1. ¿ B E N E F I C I O S O S O A R M A S D E D E S T R U C C I Ó N
M A T E M Á T I C A ?
UNIVERSIDAD POPULAR
CARMEN DE MICHELENA
BIG DATA (MACRO DATOS)
2. Epidemia de cólera en el Londres de 1854
El médico John Snow recopila gran cantidad de datos.
Todas las personas afectadas usaban la misma bomba pública de
agua.
Snow elaboró un mapa en el que mostró que la enfermedad
surgía de focos cercanos a la bomba de Broad Street.
Este médico siguió trabajando en este campo, por lo que se le
considera precursor de la epidemiología.
Cada vez más, los países comenzaron a elaborar censos,
estadísticas de incidencia de enfermedades, tasas de natalidad y
mortalidad, etc.
3. Recopilación de datos en el siglo XIX
En EE.UU. empezaron a elaborar censos de población.
Para elaborar el censo de 1870 en EE.UU. se disponía de una
máquina de recuento.
En 1880 tardaban 8 años para procesar los datos y calcularon
que en 1890 tardarían más de 10.
Eso era insuficiente y en 1890 emplearon la máquina tabuladora
de Hollerith con lo que pasaron de 10 años a 3 meses para
procesar el censo.
4. ¿Qué es Big Data? (Macro datos o datos masivos) - I
Se refiere tanto al tratamiento de los datos, que trata de extraer
información útil de los mismos, como a los datos propiamente
dichos.
En muchas ocasiones, los macro datos se usan para realizar
predicciones.
Gran Volumen y complejidad de datos.
Datos estructurados, no estructurados y parcialmente
estructurados.
Datos en formato texto y en formato multimedia.
Necesidad de gran Velocidad de cómputo para su tratamiento.
Variedad de fuentes de datos.
5. ¿Qué es Big Data? (Macro datos o datos masivos)-II
A veces dudas sobre su consistencia y necesidad de
aproximaciones. (¿Veracidad?).
Imposibilidad de su tratamiento mediante los métodos de
computación tradicionales.
No siempre mayor cantidad de datos significa mejores
predicciones.
En el año 2007 la revista Wired mencionó el concepto de macro
datos.
7. ¿Es Big Data lo mismo que inteligencia artificial?-I
Es muy común en Big Data utilizar técnicas de inteligencia
artificial (IA).
Sin embargo, hay algoritmos para reducir datos y otros para
tratamiento estadístico, distintos a la IA, aunque según la
definición siguiente, lo importante es la apariencia de
comportamiento inteligente de la máquina.
• “La IA es la ciencia de hacer que las máquinas hagan cosas que
requerirían inteligencia si las hicieran los hombres”. (Marvin
Minsky, fundador del Laboratorio de Inteligencia Artificial del
M I T).
• En los principios de la IA, no había posibilidad de utilizar macro
datos.
8. ¿Es Big Data lo mismo que inteligencia artificial?-II
• Una rama de la IA, Machine Learning, (aprendizaje
automático), se suele usar con grandes cantidades de datos.
• El aprendizaje automático se puede conseguir mediante el uso
de varias capas de redes neuronales artificiales: Aprendizaje
profundo (Deep Learning).
• Multiplicar n números requiere:
o 2ⁿ neuronas en una red de una sola capa.
o 4n neuronas, aproximadamente, en una red profunda.
9. Múltiplos de bytes (un byte es equivalente a 8 bits)
Nombre Abreviatura Valor
Kilobyte KB 1000 = 103
Megabyte MB 10002 = 106
Gigabyte GB 10003 = 109
Terabyte TB 10004 = 1012
Petabyte PB 10005 = 1015
Exabyte EB 10006 = 1018
Zettabyte ZB 10007 = 1021
Yottabyte YB 10008 = 1024
10. Volumen de datos - I
Suelen tratarse entre unos 30 TB y varios PB en una aplicación
de Big Data.
En 2013 Google procesaba 24 PB al día.
Un estudio de IBM calculó en 2017 que cada día se generaban 2,5
EB.
En 2017 el CERN almacenaba 200 PB y se guardaba uno diario a
partir de que las colisiones de partículas del LHC producían 1 PB
por segundo.
En enero de 2017 había 1.200 millones de usuarios de
WhatsApp.
En 2020 se calcula se procesarán 40 ZB.
11. Volumen de datos - II
En 2022, (previsiones de CISCO):
El 60% de la población mundial será usuaria de Internet.
28.000 millones de dispositivos conectados.
14.600 millones de conexiones con altavoces inteligentes u
otros dispositivos. (Actualmente 6.100 millones).
El tráfico de vídeo se multiplicará por 4.
El tráfico de juegos se multiplicará por 9.
12. Volumen datos en 2017 por minuto
156 millones de correos electrónicos.
3,5 millones búsquedas en Google.
16 millones de SMS.
46.200 nuevos contenidos en Instagram.
452.000 tuits.
1,8 millones de snaps en Snapchat.
20 millones publicaciones nuevas en Facebook.
34.000 visitas y en torno a 100 horas cargadas a YouTube.
14. Macro datos en astronomía - I
Los telescopios y las expediciones aeroespaciales generan
enormes cantidades de datos.
Large Synoptic Survey proyecto de 10 años en Chile que
producirá mapas del cielo nocturno con un total de 60 PB de
datos.
Square Kilometer Array (SKA), se terminará a finales de la
década 2020, en Australia y Sudáfrica. El sistema de
computación central de SKA tendrá una potencia similar a
100 millones de PC’s. Más de 100 veces el tráfico mundial de
Internet en 2015. 160 TB/s datos en bruto o 100 GB/s datos
procesados. Almacenamiento de 4,6 EB/año.
15. Macro datos en astronomía - II
La misión espacial Gaia de ESA observará 1000 millones de
estrellas y otros objetos de la Vía Láctea. Un Mbit/segundo
datos comprimidos durante 5 años, lo que equivale a 60 TB
comprimidos y 200 descomprimidos usables en la Tierra.
17. Google y la gripe (Google Flu Trends)
En 2009 se descubrió un nuevo virus, el H1N1, de la gripe muy
peligroso.
Se necesitaba conocer su propagación para tratar de ralentizarla.
En EEUU se tardaban dos semanas para conocer por dónde se
propagaba.
Google tomó 50 millones de términos de búsqueda de
estadounidenses y los comparó con datos de propagación de
gripe entre 2003 y 2008.
Al final con 45 términos de búsqueda y un modelo matemático
había una fuerte correlación entre su predicción y las cifras
oficiales de 2007 y 2008.
En 2015 se dejó de usar el modelo, porque fracasaron
predicciones en temporadas 2011-12 y 2012-13.
18. Otras investigaciones en propagación de epidemias
El grupo Delphi de la universidad Carnegi Mellon predijo la gripe
en 2014-15 y 2015-16 con exactitud mediante datos de Google,
Twiter y Wikipedia.
En 2008 la Fundación Flowminder rastreó datos de
posicionamiento de teléfonos móviles para ayudar a la OMS a
erradicar la malaria.
En 2014 Flowminder investigó una epidemia de ébola en África
occidental.
19. Terremoto en Nepal
En 2015 Flowminder colaboró con universidades de
Southampton y Oxford e instituciones de EE.UU. y China para
estimar el desplazamiento de la población, tras un terremoto en
Nepal.
El uso de telefonía móvil en Nepal es elevado.
Usaron datos anonimizados de 12 millones de teléfonos.
Contaron con un ordenador y un disco de 12 TB en el centro de
proceso de datos del operador telefónico.
Hubo una intervención rápida y eficaz de las organizaciones
humanitarias.
20. Predicción de todo tipo de catástrofes
Hay muchos otros casos en los que el análisis de datos masivos,
incluyendo datos meteorológicos, movimientos de la población
afectada, situación de carreteras, cartografiar asentamientos de
refugiados, etc., es fundamental para intervenciones adecuadas
ante catástrofes y emergencias sanitarias.
21. Medicina inteligente - I
Los historiales médicos electrónicos se pueden anonimizar para
investigación.
Hay datos de pruebas clínicas, (análisis, resonancia,…),
medicación, etc.
En 2015 un hospital medio estadounidense almacenaba más de
600 TB de datos.
Se toman datos relevantes para un paciente o un grupo y se usan
técnicas estadísticas.
Las notas médicas precisan técnicas de procesado de lenguaje
natural, como el sistema Watson de IBM.
22. Medicina inteligente - II
Los dispositivos ponibles, (wareable), pueden monitorizar la
salud de individuos sanos: pasos diarios, ritmo cardíaco, presión
arterial, patrones de sueño,… También existen aplicaciones de
teléfono móvil para esto.
Esta información en ocasiones se procesa en nuestro
ordenador.
A veces se procesa en una nube con lo que una empresa tiene
nuestros datos.
En ocasiones son los médicos los que piden al paciente que se
ponga un dispositivo.
23. Medicina inteligente - III
Verily Life Sciences, de Google Alphabet, está desarrollando
nanopartículas que pueden identificar el cáncer y otras
enfermedades, y enviar sus datos a un dispositivo portátil
situado en el brazo del usuario.
La IA es eficaz en el análisis de pruebas médicas como biopsias,
resonancias, radiografías, etc. gracias a los macro datos. En 2015
un estudio holandés comprueba que el diagnóstico
computarizado a partir de resonancia, tiene la misma calidad que
los médicos patólogos en detección del cáncer de próstata
24. Medicina inteligente - IV
En 2017 un estudio de varias compañías de Google Alphabet,
mediante una red neuronal trabajando sobre imágenes de
microscopía gigapixel, ha llegado a detectar metástasis en cáncer
de mama con acierto del 92,4% de los tumores frente al 73,2%
de patólogos.
Robots cirujanos. Un robot puede ayudar o reemplazar cirujanos.
Además, gracias a la tecnología 5G, médicos expertos pueden
ayudar en tiempo real en operaciones realizadas a distancia en la
que intervienen médicos no especialistas.
25. Medicina inteligente - V
General Electric cree que sólo aumentando un 1% la eficiencia de
la asistencia sanitaria se ahorrarían 63 millones de dólares cada
año en EE.UU.
Buena idea que las empresas promuevan hábitos saludables
entre sus empleados, pero ¿qué ocurre si se suministran
dispositivos para registrar datos sobre parámetros de salud y si
no se alcanzan ciertos niveles, los empleados pierden su empleo?
26. Genoma Humano (2003)
Entre 20.000 y 25.000 genes, cuya secuencia ocupa 100 GB.
Cientos de PB para almacenar la información de una persona y
su análisis.
La primera secuenciación tardó 15 años y costó unos 3 millones
de dólares.
Actualmente, hay empresas que ofrecen servicios individuales
por poco dinero.
Tener un determinado gen puede provocar más probabilidades
de una enfermedad o también de un éxito deportivo.
El proyecto Humano Fisiológico Virtual , desarrollado a partir
del Genoma Humano, pretende construir simulaciones
informáticas para predecir el resultado de un tratamiento.
27. ¿Por qué Watson se usa en medicina? - I
En 2007 IBM hace un programa para jugar al programa de TV
Jeopardy.
Gana a dos campeones de Jeopardy.
En Jeopardy se da una respuesta y hay que encontrar la
pregunta.
Se usan técnicas de procesamiento de lenguaje natural,
aprendizaje automático y análisis estadístico.
El sistema médico Watson se basa en el original de Jeopardy.
Se analizan datos estructurados y no estructurados.
Se modela el pensamiento humano en un campo concreto.
28. ¿Por qué Watson se usa en medicina? - II
Toma toda la información relevante y se dan diagnósticos con
niveles de confianza.
Watson se usó también en el seguimiento de la expansión del
ébola en Sierra Leona.
Watson se utiliza en muchas aplicaciones comerciales.
29. Compra de billetes de avión - I
En 2003, Oren Etzione compró un billete de avión por Internet
con mucha antelación.
Etzione preguntó a otros pasajeros y descubrió que habían
pagado menos, comprando más tarde.
Con una muestra de 12.000 precios de vuelos en un periodo de
41 días creó un modelo predictivo: Hamlet, que evolucionó en
Farecast.
En 2008 se estaba planeando aplicar el método a habitaciones de
hotel, coches de segunda mano, entradas de conciertos y
cualquier cosa con variaciones de precio y muchos datos
procesables, pero lo compra Microsoft que lo integra en su
buscador Bing.
30. Compra de billetes de avión - II
En 2012 acertaba el 75% de las veces y ahorraba una media de 50
dólares por billete.
Farecast surgió en un momento en que había capacidad de
almacenamiento y de proceso suficiente.
31. Macro datos y publicidad - I
Al navegar por Internet se ve publicidad. ¿Cómo se consigue?
Pago por clic: Una empresa quiere que un producto aparezca
con cierto término de búsqueda. Paga por ello con un límite de
gasto. Los anuncios aparecen ordenados en función de lo que se
ha pagado por ellos.
El proveedor de búsquedas sólo cobra si se hace clic en el
anuncio.
Puede haber clics fraudulentos de una empresa rival, incluso con
clickbots, (“robots de hacer clic”). Para combatir el fraude se
puede considerar el número medio de clics que pueden generar
una compra.
32. Macro datos y publicidad - II
Cookies: El servidor de la web a la que accedemos, remite un
pequeño fichero para guardar hábitos de navegación en nuestro
ordenador del acceso a esa web.
Publicidad dirigida: Se registran todos nuestros datos de
navegación, se envían a redes publicitarias de terceros y se
almacenan en cookies de nuestro ordenador.
Sistemas de recomendación: Recomiendan tendencias, lo que
buscan otros usuarios de forma similar a nosotros. (Amazon,
Netflix, Facebook, etc.)
33. Conducción autónoma - I
IHS Automotive ha calculado que en 2035 el 10% de los coches
que se venderán serán completamente autónomos.
Cada año mueren más de 1,3 millones de personas en todo el
mundo por accidentes de tráfico, el 90% por errores humanos.
Más del doble de los que mueren por guerras, crímenes y
terrorismo.
El coche autónomo de Google, Waymo, que es seguramente el
que más datos genera en la actualidad, produce cada segundo
más de 750 Mb de información, la mayoría de ella de carácter no
estructurada.
Un coche autónomo genera unos 10 gigabytes de datos por cada
milla recorrida (1,6 km aprox.).
34. Conducción autónoma - II
La tecnología 5G va a suponer el auténtico despegue del coche
autónomo:
Un semáforo podrá avisar a un coche de que está cruzando un
peatón.
Una bici con un pequeño dispositivo advertirá a los coches de
su presencia.
La velocidad teórica de 5G es 10 Gbps, unas 100 veces más
rápida que 4G.
La velocidad de latencia de 5G es casi 1 ms, entre 60 y 120 veces
más rápido que 4G.
Los macro datos llegarán a cantidades tremendas con el coche
autónomo y el resto del Internet de las Cosas (IdC).
35. Monitorización flujo de personas en una ciudad - I
Se recogen datos de:
Helicópteros de tráfico.
Cámaras en la calle.
Sensores de las calles.
Patrullas de policía.
Datos de medios de transporte público.
Encuestas…
Mucho mejor: Datos anonimizados procedentes de
teléfonos móviles.
36. Monitorización flujo de personas en una ciudad - II
Se usan para:
Establecer horarios del transporte público.
Funcionamiento de semáforos.
Planificación del sector turístico, incluyendo consejo de rutas
para turistas, información para hoteles y restaurantes, etc.
Reducción de la contaminación atmosférica.
37. Macro datos y cambio climático (CC) - I
El cálculo de emisiones de CO2 se podrá especificar de forma más
exacta.
Análisis y predicciones más exactas de deshielo de glaciares y
crecimiento nivel del mar.
Hay predicciones de que en 2060 haya 1400 millones de
refugiados climáticos.
Wheater Analytics estima que el 33% del PIB mundial se ve
afectado por el CC.
38. Macro datos y cambio climático (CC) - II
“Promover acciones eficaces para el cambio climático no sólo
requiere datos relativos al clima, sino también información
integral sobre el comportamiento humano”. “El big data puede
ofrecer una respuesta dinámica acerca de la manera en que las
comunidades afectan y se ven afectadas por el sistema
climático, y permiten innovar para mejorar la sostenibilidad y
la capacidad de recuperación. Dichos datos proceden
principalmente de las compañías, como las que participarán en
el reto ‘Data for Climate Action’”.(Robert Kirkpatrick, Director
de UN Global Pulse, iniciativa de innovación en macro datos de
las Naciones Unidas. Data for Climate Action une a ésta y a
Western Digital Corporation, líder global en soluciones y
tecnologías de almacenamiento de datos ).
39. Otras aplicaciones útiles de los macro datos, I
Mediante redes de sensores se detecta la escarcha, la humedad
de las hojas, la humedad del terreno y las plagas. Cuando la
presión de las plagas alcanza un nivel crítico, el sistema
distribuye unas dosis precisas de feromonas para alterar los
ciclos de apareamiento de las especies invasoras. También los
sensores pueden servir para determinar riego óptimo.
Un ácaro, varroa destructor, ataca las abejas. Se hace un circuito
impreso en una película de bioplástico de máiz recubierto de
cera. El circuito detecta el varroa y sube la temperatura de la
colmena a 42º, matando el ácaro.
EE.UU. podría ahorrar 200.000 millones de dólares en el sector
sanitario. (8% del coste).
40. Otras aplicaciones útiles de los macro datos, II
En Europa se ahorrarían más de 100.000 millones de euros en
eficiencia operativa, más mejora en la detección del fraude fiscal
y errores recaudación.
Se usan para detectar nuevos virus informáticos y otro malware
en función del análisis de los existentes hasta el momento.
La detección de spam se basa en el análisis de todos los correos
electrónicos.
Los datos de teléfonos móviles y otros pueden ser también muy útiles
para determinar por barrios o zonas de un país:
Mapas de pobreza.
Mortalidad infantil.
Cambios en PIB.
Delincuencia.
41. Otras aplicaciones útiles de los macro datos, III
La vigilancia policial predictiva es muchas veces eficaz, pero más
adelante veremos que puede tener graves inconvenientes.
En el proyecto Transforming Transport participan 47 socios de
varios países incluyendo España. Se trata de aplicar análisis de
macro datos a aeropuertos, puertos, ferrocarril, autopistas, flotas
sostenibles de vehículos, control de tráfico en ciudades y
logística. Por ejemplo, en compañías ferroviarias se trata de
prever fallos en infraestructuras y reducir costes.
Asesoramiento y análisis de riesgo de inversiones financieras.
Concesión de créditos.
La propia mejora de los protocolos, (formas de conectar) de
Internet.
42. Problemas del Internet de las Cosas (IdC) - I
IdC tiene múltiples ventajas, porque tenemos dispositivos
conectables a Internet para casi todo, pero también tiene
inconvenientes.
Si un hacker ataca dispositivos IdC puede:
Lanzar peticiones masivas a webs, (ataques de denegación de
servicio).
Sustracción de información, (ejemplo, espionaje con cámaras).
Hacer funcionar mal el dispositivo, (ejemplo, inutilizar los
frenos de un coche autónomo o al menos conectado a Internet,
o cambiar el movimiento de una pierna o brazo biónicos).
Si hay un ciberataque, de quién es la responsabilidad,
(¿fabricante, prestador de servicio o usuario por no aplicar
actualizaciones?).
43. Problemas del Internet de las Cosas (IdC) - II
Otros problemas que podemos tener es si no se cifra la
información que envía o recibe el dispositivo, o no se configura
correctamente su privacidad. En este último caso, podemos
ofrecer información personal que no deberíamos compartir.
44. Citas sobre macro datos y sobre la WWW - I
“Debemos guardarnos contra la confianza excesiva en los datos,
no vayamos a caer en el error de Ícaro, quien adoraba su
capacidad técnica de volar pero no supo usarla y se precipitó en
el mar”. (“Big data – La revolución de los datos masivos” de
Viktor Mayer-Schönberger y Kenneth Cukier).
“Los datos son el nuevo petróleo”. (Atribuida a Clive Humby,
inventor de la tarjeta de fidelización de clientes Tesco).
“Las personas ricas podrán optar por salirse y pagar, digamos,
por apps sin publicidad o que no recopilen sus datos. Los pobres
usarán la Red gratis, pero tendrán que dar sus datos. Pero
realmente no importa quién seas, todos somos adictos:
cualquiera que tome crack se quedará colgado”. ( Kara Swisher,
periodista especializada en Silicon Valley).
45. Citas sobre macro datos y sobre la WWW - II
”Aunque la web ha creado oportunidades, dado voz a grupos
marginalizados, y hecho más fáciles nuestras vidas, también ha
creado oportunidades a los timadores, dado voz a los que
difunden odio, y hecho todo tipo de crímenes más fáciles de
cometer”. “Las empresas deben esforzarse para asegurar que
buscar mayores beneficios a corto plazo no quede a expensas de
los derechos humanos, la democracia, los hechos científicos y la
salud pública”. (Thomas Berners Lee creador de la World Wide
Web).
46. Caso Snowden -I
En junio de 2013 The Guardian revela que la NSA está
recopilando metadatos en algunas redes de telefonía móvil de
EE.UU.
La siguiente noticia es que se está usando un programa para
recoger datos de Internet sobre ciudadanos extranjeros que se
comunican con EE.UU.
Hubo una sucesión de filtraciones que incriminaban a EE.UU. y
Reino Unido.
Quien filtraba era Edward Snowden que trabajaba en
criptografía para la NSA, a través de una empresa. Envió
información a periodistas bien elegidos.
Snowden tenía acceso directo a muchos de los documentos que
robó, debido a que era administrador de sistemas.
47. Caso Snowden - II
Para ciertos documentos de confidencialidad muy alta, utilizó las
contraseñas de usuarios privilegiados, porque él había creado las
cuentas
Para ciertos documentos de confidencialidad muy alta, utilizó las
contraseñas de usuarios privilegiados, porque él había creado las
cuentas.
Copió alrededor de 1,5 millones de documentos confidenciales y
pasó a los periodistas unos 200.000.
Al parecer sacaba los documentos mediante memorias USB.
48. Caso Snowden - III
“I don't want to live in a world where everything I say,
everything I do, everyone I talk to, every expression of
creativity and love or friendship is recorded.” ("No
quiero vivir en un mundo donde todo lo que digo, todo lo que
hago, todos con quienes hablo, cada expresión de creatividad,
amor o amistad se registre".) – Edward Snowden.
49. ¿Qué ocurre cuando los estados quieren
controlar a sus ciudadanos? -I
Algunos países pueden llegar a controlar a sus ciudadanos
mediante métodos como:
Sistemas de vigilancia mediante cámaras de reconocimiento
facial.
Software de IA capaz de cruzar datos de:
Cuentas corrientes.
Trabajos.
Aficiones.
Patrones de consumo.
Acceso a Internet controlado
A veces se prohíbe WhatsApp u otros sistemas de mensajería.
50. ¿Qué ocurre cuando los estados quieren
controlar a sus ciudadanos? -II
Obviamente, si un estado trata de detectar terroristas o
criminales de una forma controlada por jueces independientes,
no debería haber problemas, lo malo es cuando el estado es
omnipotente y no se respeta la privacidad, ni la presunción de
inocencia.
También es adecuado combatir el fraude fiscal.
51. ¿Encontrar la pareja perfecta por Internet? - I
Actualmente hay quienes usan aplicaciones para conocer a sus
parejas.
Bastan tres preguntas en la primera cita, dice Christian Rudder,
uno de los fundadores del sitio de citas estadounidense OkCupid:
"¿Te gustan las películas de terror?“
"¿Alguna vez has viajado solo/a por otro país?"
"¿No sería divertido dejar todo e irse a vivir a un velero?"
Dice este experto que las respuestas suelen coincidir en personas
que acaban formando pareja.
52. ¿Encontrar la pareja perfecta por Internet? - II
Algunos sitios de búsqueda de pareja por Internet de EE.UU.,
emparejan gente en base a sus calificaciones crediticias.
Según CreditScoreDating “las buenas calificaciones crediticias
son sexi”.
En EE.UU. las calificaciones crediticias se obtienen mediante el
proceso de todo tipo de datos. No hay tanta protección de la
privacidad como en la Unión Europea.
Pese a ello, no se puede considerar tan grave el uso de
calificaciones crediticias en este caso, como en su utilización para
seleccionar trabajadores o incluso en la concesión de créditos en
lo que realmente lo que habría que tener en cuenta, es si una
persona paga o no sus facturas, no informaciones sobre, por
ejemplo, lo que hace en Internet.
53. “Big Data” un cortometraje de Javier San Román - I
Big Data
El enlace anterior dirige a un cortometraje que está en la web:
https://cortosdemetraje.com/
Agradezco al director del corto Javier San Román su permiso
para usar el corto en esta charla y a Alejandro Ruíz responsable
de comunicación de la web mencionada sus gestiones para
conseguir el permiso.
Javier San Román hace cortos y también publicidad en la
siguiente web:
http://www.chinatown.ws/
54. “Big Data” un cortometraje de Javier San Román - II
Cortosdemetraje tiene los siguientes perfiles en redes sociales:
https://www.facebook.com/cortosdemetraje/
https://twitter.com/Cortodemetraje
https://www.instagram.com/cortosdemetraje/
https://www.pinterest.es/cortosdemetraje/
55.
56. Juramento hipocrático propuesto por Emanuel
Derman y Paul Wilmott en 2008 (citado por Cathy O’Neil)
“Recordaré que no he creado el mundo, y que éste no satisface
mis ecuaciones”.
“Aunque emplee audazmente modelos para estimar valor, no
me dejaré impresionar excesivamente por las matemáticas”.
“Nunca sacrificaré la realidad por elegancia, sin explicar por
qué lo he hecho”.
“Tampoco proporcionaré a quienes usen mis modelos una falsa
sensación de seguridad sobre su precisión, sino que haré
explícitos supuestos y omisiones”.
“Reconozco que mi trabajo puede tener enormes efectos sobre la
sociedad y la economía, muchos de ellos más allá de mi
comprensión”.
57. Promesas del big data y las matemáticas - I
Un programa de ordenador puede:
Procesar gran número de datos concernientes a personas.
No tener los prejuicios que puede tener un humano.
Es factible:
Ordenar currículos para puestos de trabajo.
Valorar peticiones de créditos.
Calcular de forma óptima el precio de una póliza de seguro.
Decidir qué presos pueden tener libertad condicional.
Etc.
58. Promesas del big data y las matemáticas - II
¿Pero, qué ocurre cuando los algoritmos son opacos y nadie nos
explica cómo se están aplicando?
¿Y si ni siquiera los informáticos o los matemáticos que han
intervenido en la programación entienden lo que están haciendo
las máquinas?
Evidentemente, un problema prácticamente insoluble es cuando
se usa una red neuronal artificial multicapa, (aprendizaje
profundo). En ese caso un humano no puede llegar a saber cómo
ese tipo de sistema, ha llegado a determinadas conclusiones, pero
si habrá que intentar no utilizar resultados que conduzcan a
discriminación de algún tipo u otros resultados indeseables.
59. Eliminación de profesores incompetentes, (con uso de “small
data”, en lugar de “big data” en Washington) - I
El programa IMPACT evalúa a todos los docentes.
2009-2010: Se despide al 2%.
2010-2011: Se echa otro 5%, (206 profesores).
La profesora Sarah Wisocky era apreciada por dirección y
padres. La echan.
Los alumnos de Sarah habían tenido otros profesores el curso
anterior y notas muy buenas.
Cuando empezó el curso, Sarah descubrió que los alumnos
sabían poco.
¿Qué había pasado? – Otros profesores habían inflado las
notas.
60. Eliminación de profesores incompetentes, (con uso de “small
data”, en lugar de “big data” en Washington) - II
Sarah no consiguió encontrar a nadie que le explicara su
puntuación IMPACT.
Sarah sólo estuvo pocos días en paro. La contrataron en un
colegio particular.
Otro caso, Sarah Bax, profesora de matemáticas, dijo al
administrador del distrito: “¿Cómo puedes justificar el hecho
de que estéis evaluando a personas con un método que no sois
capaces de explicar?
61. Cómo utilizar modelos matemáticos predictivos en
beisbol y otros deportes
Los modelos de beisbol, fútbol y otros deportes son transparentes.
Todo el mundo tiene acceso a las estadísticas.
Se incorporan todos los datos disponibles hasta el mínimo detalle.
Se actualizan las estadísticas continuamente.
Gran cantidad de datos y además relevantes para lo que se quiere
predecir.
Si el modelo no funciona, se analiza y se cambia.
Lo contrario a la despedida de profesores en Washington:
Se basaban en pocos datos para evaluar a docentes concretos.
Nadie sabía cómo funcionaban los algoritmos, (o nadie lo
explicaba).
En otros casos sí que hay muchos datos, pero no directamente
relacionados con lo que se pretende predecir, por lo que se utilizan
datos sustitutivos, lo cual es igualmente peligroso.
62. Cómo utilizar modelos matemáticos predictivos en
beisbol y otros deportes
Los modelos de beisbol, fútbol y otros deportes son transparentes.
Todo el mundo tiene acceso a las estadísticas.
Se incorporan todos los datos disponibles hasta el mínimo detalle.
Se actualizan las estadísticas continuamente.
Gran cantidad de datos y además relevantes para lo que se quiere
predecir.
Si el modelo no funciona, se analiza y se cambia.
Lo contrario a la despedida de profesores en Washington:
Se basaban en pocos datos para evaluar a docentes concretos.
Nadie sabía cómo funcionaban los algoritmos, (o nadie lo
explicaba).
En otros casos sí que hay muchos datos, pero no directamente
relacionados con lo que se pretende predecir, por lo que se utilizan
datos sustitutivos, lo cual es igualmente peligroso.
63. Discriminación por raza - I
Las condenas de cárcel impuestas a hombres negros son 20%
más largas que a blancos por delitos similares en EE.UU.
Los negros representan el 13% de la población y el 40% de los
reclusos.
En el condado de Harris, (Houston), es tres veces más probable
pedir la pena de muerte para un afroamericano y cuatro veces
más para un hispano que para un blanco por el mismo delito.
¿Se puede resolver el problema mediante un sistema
informático?
64. Discriminación por raza - II
El modelo LSI-R o Inventario de Nivel de Servicio Revisado
incluye un cuestionario:
¿Cuántas condenas previas ha tenido? ¿Qué papel tuvieron
otras personas en el delito? ¿Qué papel tuvieron las drogas y
el alcohol?, ¿Familiares o amigos han delinquido?, etc.
Puede que a un blanco no lo haya parado nunca la policía, pero a
un negro lo pueden haber hecho docenas de veces sin que haya
hecho nada.
En Nueva York negros e hispanos (14 a 24 años) son 4,7%
población y 40,6% de los cacheos, (90% casos inocentes).
65. ¿Es adecuado usar sistemas estadísticos como LSI-R
o son ADM (Armas de Destrucción Matemática)? - I
En algunos estados como Rhode Island se usa para incluir
reclusos en programas de prevención de la reincidencia. Esto
parece muy correcto.
En otros estados los jueces los utilizan para decidir condenas.
Si en un juicio la acusación menciona antecedentes penales de
amigos o familia del acusado, el abogado defensor protestará.
Una persona calificada por LSI de alto riesgo puede estar en
paro y ser de un barrio conflictivo. Será condenada a más años
con otros delincuentes. Volverá después al mismo barrio y será
difícil que encuentre un trabajo. Tendrá más probabilidades de
delinquir y el modelo se apuntará un éxito.
66. ¿Es adecuado usar sistemas estadísticos como LSI-R
o son ADM (Armas de Destrucción Matemática)? - II
El propio modelo está alimentando un círculo tóxico.
Los que responden el cuestionario, no suelen saber las
consecuencias de sus respuestas, porque los funcionarios les
explican lo mínimo.
Un estudio de 2016 argumentó que el software de predicción de
reincidencia estaba sesgado contra los afroamericanos.
Análogamente, muchas empresas ocultan sus modelos.
67. Crisis financiera del 2008 en EE.UU.
y todo el mundo - I
Los bonos inmobiliarios eran paquetes de créditos hipotecarios,
inicialmente de créditos correctos y con pagos al corriente. Algún
crédito podía fallar, pero el conjunto garantizaba poco riesgo a
los bonos y alto interés.
Los bancos comienzan a dar créditos arriesgados, (hipotecas
subprime), para seguir vendiendo bonos.
En julio del 2007 los intereses interbancarios suben.
A fines del 2007 comienza la caída brusca de los mercados
bursátiles en EE.UU.
68. Crisis financiera del 2008 en EE.UU.
y todo el mundo - I
La crisis se debió a las hipotecas y muchos otros factores:
inflación, subida petróleo, …
Cathy O’ Neil trabajaba por aquel entonces para el fondo de
cobertura Shaw. Deja su trabajo en el 2009 y se va a RiskMetrics
que calculaba riesgos para los bancos.
Los modelos matemáticos se basan en que los patrones del
pasado se repiten.
Los bonos eran instrumentos financieros a partir de los cuales se
elaboraban modelos, pero esos modelos eran defectuosos,
auténticas ADM.
69. Clasificación universidades americanas - I
Una revista decide en 1983 evaluar 1800 facultades y
universidades de EE.UU.
Al principio valoran en función de resultados de una encuesta
enviada a los rectores.
Llegan cientos de quejas de rectores, estudiantes y antiguos
alumnos.
Como no podían hacer una medida directamente, usaron valores
sustitutivos:
Puntuaciones de examen de acceso a la universidad.
Número de alumnos por profesor.
Porcentaje de alumnos que pasan de primero a segundo y que
se gradúan.
Porcentaje de antiguos alumnos que donan dinero a su
universidad, etc.
70. Clasificación universidades americanas - II
Tres cuartas partes de la puntuación eran por lo anterior. Una
cuarta tenía en consideración la opinión subjetiva de
empleados de universidades.
Los primeros resultados en 1988 fueron razonables.
Después apareció un bucle de retroalimentación vicioso:
Cuando a una universidad le iba mal, la evitaban los mejores
alumnos y profesores.
Los rectores mejoraban las 15 áreas definidas por unos
periodistas, no lo que realmente importaba. Además, en
ocasiones se remitían datos falsos.
No se tuvo en cuenta el coste de las matrículas. Aumentaron 4
veces la tasa de inflación entre 1985 y 2013.
71. Algunas formas de hacer trampas - I
La Universidad Cristiana de Texas mejoraba algunos
indicadores, pero no era suficiente.
Lanza una campaña de recaudación de fondos y tiene éxito.
Moderniza instalaciones deportivas e inyecta dinero en fútbol
americano.
Gracias al éxito en fútbol mejoraron sus matriculaciones. Otras
universidades incrementaron matriculaciones por el baloncesto.
Obama quiso crear un nuevo ranking. No lo consiguió, pero a
cambio se publicaron multitud de datos en un nuevo sitio web.
Ahora los alumnos pueden hacer sus propias preguntas sobre lo
que les interesa.
72. Algunas formas de hacer trampas - II
Los rankings también se usan en otros sitios del mundo.
El departamento de matemáticas de la universidad Rey
Abdulaziz de Arabia Saudí, quedó el séptimo del mundo, detrás
de Harvard y mejor que Cambridge y el MIT.
La universidad saudí había contratado matemáticos cuyos
trabajos tenían muchas citas y les había ofrecido 72.000 dólares
por ir allí 3 semanas al año con gastos de viaje y hoteles de 5
estrellas. Además, las citas académicas tenían que ser de esa
universidad.
73. Publicidad como ADM o anunciantes depredadores
- Universidades - I
Las universidades de EE.UU. con ánimo de lucro se centran en
los pobres. Ejemplo, universidad de Phoenix se gastaba 50
millones de dólares en anuncios de Google.
A la gente en dificultades, le dicen que no hace lo suficiente para
mejorar sus vidas.
Los anunciantes dejan a sus clientes con inmensas deudas con la
falsa promesa de mejorar sus vidas.
Muchos de sus futuros estudiantes son inmigrantes que no saben
que las universidades públicas son en general mejores y con
menor coste.
74. Publicidad como ADM o anunciantes depredadores
– Universidades - II
Utilizan mucha información privada en contra de sus víctimas,
porque ésta se revela mediante búsquedas en Google o
rellenando el formulario universitario:
Baja autoestima, estrés al criar sus hijos en entorno con
bandas, drogas,…
Una sola universidad tenía un equipo de marketing de 30
personas. Gastaban 120 millones de dólares al año para
perseguir 2,4 millones de oportunidades de negocio. 60.000
estudiantes nuevos y 600 millones de dólares al año.
Anuncios en TV y vallas, correo, anuncios en búsquedas de
Google, equipos de reclutadores en institutos, etc.
75. Publicidad como ADM o anunciantes depredadores
– Préstamos - I
El sector de los préstamos rápidos, al menos en EE.UU.,
también usa ADM.
La usura llega a cobrar intereses de 574% en préstamos a corto
plazo.
Hay gran cantidad de agencias de datos, algunas timadoras
profesionales.
Sus anuncios aparecen en ordenadores y teléfonos. En el
formulario a rellenar, es habitual pedir los datos bancarios.
En 2015 la Comisión Federal de Comercio de EE.UU. acusó a dos
agencias de datos de vender solicitudes de crédito de más de
medio millón de personas. Robaron número de teléfono,
información de los empleadores, números de la seguridad social
e información de cuentas bancarias y las vendieron a 50
céntimos.
76. Publicidad como ADM o anunciantes depredadores
– Préstamos - II
Estas empresas asaltaron las cuentas y robaron 7,1 millones de
dólares.
Los organismos reguladores americanos quieren que se aprueben
nuevas leyes que regulen el mercado de datos personales.
Hay un par de leyes federales que establecen ciertos límites sobre
datos crediticios y sanitarios.
En la Unión Europea y España en particular, las leyes de
protección de datos nos protegen frente a muchos de los posibles
abusos, pero eso no significa que estemos completamente
protegidos o que no debamos mantener una actitud vigilante.
77. Prediciendo dónde se cometerán delitos - I
Hay programas como PredPool que calculan horas y sitios donde
se producirán delitos, procesando datos históricos. En 2014, un
año después de empezar a usarse en Reading, los robos a
viviendas disminuyeron un 23%.
PredPool se puede configurar. Si la policía decide incluir
homicidios, robos, asaltos, etc. funcionará bien.
¿Qué ocurre si estos sistemas se configuran para controlar
vagabundos, pertenencia a pandillas, consumo de pequeñas
cantidades de droga? El programa enviará a la policía a patrullar
por barrios pobres, se realizarán detenciones, (negros, hispanos),
por delitos sin víctimas y cada vez habrá más policía en esas
zonas. El sistema se retroalimenta. Se convierte en un ADM.
78. Prediciendo dónde se cometerán delitos - II
Si en un barrio marginal la policía se comporta de forma
tolerante: los borrachos tienen que guardar su bebida,
drogadictos tienen que cumplir ciertas normas, etc., el resultado
es mejor que con detenciones sistemáticas.
En Italia XLAW se usa de manera similar a programas
americanos para predecir delitos en Nápoles y Venecia. La
diferencia con otros es que realiza modelos en base a actuaciones
rutinarias de profesionales de la delincuencia. Ha conseguido
una reducción entre el 24 y el 39% de ciertos delitos.
En Europa existe EuroCop PRED-CRIME.
En Gran Bretaña usan National Data Analytics Solution (NDAS)
que a veces identifica a un posible criminal y le brinda asistencia
de servicios sociales o de salud.
79. ¿Qué ocurre con los delitos que no prevee PredPool, porque
los cometen los ricos? - I - (algunas frases de Cathy O’Neil)
“Imaginemos que la policía aplicará su estrategia de tolerancia
cero al ámbito financiero. Arrestarían a la gente por la mínima
infracción… A lo mejor veríamos a los cuerpos especiales de los
SWAT irrumpir en Greenwich…”
“Los polis no tienen los conocimientos necesarios para ese tipo
de trabajo.”
“Los responsables de esta tarea, desde el FBI hasta los
investigadores de la Comisión de Bolsa de EE.UU., cuentan con
pocos efectivos y escasos medios económicos y llevan décadas
comprobando que los banqueros son prácticamente intocables.
Los banqueros invierten mucho dinero en nuestros políticos,
algo que siempre ayuda, y además se les considera
imprescindibles para nuestra economía”.
80. ¿Qué ocurre con los delitos que no prevee PredPool, porque
los cometen los ricos? - II - (algunas frases de Cathy O’Neil)
“Si los bancos se van a pique, nuestra economía podría hundirse
con ellos”.
“Exceptuando algunos casos como Madoff , los financieros
nunca son arrestados”
“Como colectivo salieron prácticamente ilesos del derrumbe del
mercado de 2008”.
“ Criminalizamos la pobreza, convencidos en todo momento de
que nuestras herramientas no solo son científicas, sino también
justas”.
81. Usar macro datos como ADM en contra de ciertos
pedidores de créditos o de empleos - I
Cuando se fundaron los primeros bancos, los banqueros
concedían préstamos en función de su conocimiento del cliente:
si iba a la iglesia, si alguien de su familia bebía, de qué raza era…
Las mujeres y las minorías étnicas quedaban excluidas.
Los créditos después se han concedido en función de datos sobre
la solvencia económica del que los pide, fundamentalmente la
carga de la deuda y el historial del pago de facturas.
En la actualidad existen métodos informáticos para calificación
crediticia (EE.UU.): localización del ordenador (código postal),
navegación por Internet, historial de compras,…
82. Usar macro datos como ADM en contra de ciertos
pedidores de créditos o de empleos - II
Algunas frases de Cathy O’ Neil:
“Casi la mitad de los empleadores de EE.UU. hacen el cribado
de los candidatos analizando sus informes de solvencia”.
“Las personas que construyen modelos para calificaciones
crediticias tienen que ingeniárselas para contestar a la
pregunta: “¿Cómo se han comportado en el pasado las personas
como el individuo analizado?”, cuando idealmente deberían
preguntarse: “¿Cómo se ha comportado en el pasado el
individuo analizado?””
“Y qué pasa con la persona a la que los sistemas interpretan mal
y clasifican en la categoría incorrecta”…”No hay
retroalimentación alguna que corrija el sistema.”
83. ¿Son los seguros un campo abonado para las
ADM?¿También se usan calificaciones crediticias? - I
En seguros de automóvil de EE.UU. se usan calificaciones
crediticias y en ocasiones son más importantes que el cuidado en
la conducción.
Las víctimas de este sistema son gente pobre, muchos de ellos
inmigrantes.
“En los barrios en los que hay más oficinas de crédito rápido
que corredurías de seguros, resulta más difícil dirigirse a otras
aseguradoras para buscar precios más económicos. En pocas
palabras, aunque la calificación crediticia no tenga nada que
ver con la conducción segura, sí crea un grupo rentable de
conductores vulnerables”. (O’ Neil).
84. ¿Son los seguros un campo abonado para las
ADM?¿También se usan calificaciones crediticias?-II
En España, en mi personal opinión, los asegurados que no son
capaces de comparar entre seguros de distintas compañías,
también acaban pagando más.
Sin embargo, hay ya tecnología que permite poner un chip a un
coche y saber los hábitos de conducción, por lo que se podría
ofrecer precios más justos en seguros de automóvil. Pese a ello
gente que vive en periferia de grandes ciudades, debido a que
haya casas más baratas, puede tener que conducir mayores
distancias y pese a tener cuidado en la conducción, ver
encarecida su póliza.
85. Uso de técnicas de micro segmentación mediante
macro datos en política - I
En 2015 un grupo antiabortista publica un vídeo con imágenes
de un supuesto feto abortado. Se demostró su falsedad, pero los
antiabortistas pudieron seguir forjándose una audiencia, gracias
a la micro segmentación.
El éxito de la micro segmentación explica que en 2015 un 43% de
republicanos creía que Obama era musulmán y un 20% de
americanos que no era de EE.UU.
Se localizan votantes vulnerables y se les envían mensajes sobre
seguridad de sus hijos o el auge de la inmigración ilegal.
Incluso en TV se intenta hacer publicidad política para colectivos
específicos.
86. Uso de técnicas de micro segmentación mediante
macro datos en política - II
En 2007 los psicólogos Michal Stillwell y David Kosinski
idean una aplicación para Facebook mediante la que se elaboró
un resumen de personalidad de 6 millones de personas. Además,
el 40% de ellos aceptaron que la aplicación recolectara de forma
anónima la información almacenada en sus perfiles de Facebook.
El autodidacta Christopher Wylie se da cuenta de la importancia
del estudio.
Wylie conoce a Alexander Nix de SCL Elections, empresa
dedicada hacer cambiar de opinión a la gente e influirla no
mediante persuasión, sino mediante "dominio informativo",
un conjunto de técnicas entre las que se encontraban
la difusión de rumores, desinformación y noticias
falsas.
87. Uso de técnicas de micro segmentación mediante
macro datos en política - III
En 2013 Wylie conoció a Steve Bannon, editor de Breitbart,
un diario online sobre política que bajo su dirección se alineó con
el populismo de derecha europeo y la derecha más extrema
americana.
Bannon convence al multimillonario Robert Mercer, donante
del partido republicano para que invierta 15 millones de dólares
en Cambridge Analytica, surgida de SCL Elections.
Wylie intenta usar la base de datos de Kosinski, pero Kosinski no
acepta por lo que contacta con el psicólogo Alexandr Kogan, que
crea una empresa llamada Global Science Research (GSR) para
recolectar información en Facebook.
88. Uso de técnicas de micro segmentación mediante
macro datos en política - IV
Cambridge Analytica gastó 7 millones de dólares de ellos uno en
GSR.
Kogan pagó campañas de publicidad en Faceboook para que los
usuarios se animaran a rellenar un test de personalidad con
una aplicación. Esa aplicación pedía permiso a esos usuarios
para acceder tanto a sus perfiles como a los de sus contactos.
Con los perfiles de 320.000 usuarios que tenían una media de
160 contactos, consiguieron más de 50 millones de perfiles
de Facebook .
89. Uso de técnicas de micro segmentación mediante
macro datos en política - V
Gracias a esos perfiles “sabríamos a qué tipo de mensaje serías
susceptible, incluyendo la forma en la que entregártelo, los
temas, el contenido, el tono, si el mensaje necesitaba ser
aterrador o no, ese tipo de cosas. Sabríamos a qué serías
susceptible, dónde ibas a consumir ese contenido, cuántas veces
necesitábamos pasarte ese mensaje para cambiar la forma en
la que piensas sobre algo”.
Esa recolección masiva de datos podría haber sido fundamental
en la campaña electoral de Donald Trump. ¿Tuvieron también
influencia en el Brexit?
90. Uso de técnicas de micro segmentación mediante
macro datos en política - VI
En España VOX ha contactado con Bannon. VOX gasta dinero en
publicidad en Facebook.
El 22-11-18 el Senado español aprueba una ley que regula el uso
de datos personales de ciudadanos en Internet y que abre las
puertas a la elaboración de perfiles de votantes por parte de
partidos políticos y extiende el derecho al olvido a las redes
sociales. La aprueban la mayoría de partidos con el voto en
contra de Unidos Podemos, Compromís, Nueva Canarias y Bildu.
Hay artículos de opinión en prensa, (al menos digital), que
dudan de que la Agencia Española de Protección de Datos tenga
recursos económicos y de personal suficientes para proteger a los
ciudadanos, al menos en las elecciones de 28-4-2019, frente a
invasiones de la privacidad, que pueda provocar dicha ley.
92. Algunos ejemplos de sustracción masiva de datos - I
Home Depot, (artículos para el hogar):
2014: Robo de datos de 56 millones de tarjetas y 53 de
direcciones de correo.
Se usaron técnicas para suplantar la identidad de un vendedor.
Se accedió al sistema, pero sólo a la parte autorizada para ese
proveedor.
Después, los piratas accedieron al sistema completo
aprovechando un agujero de seguridad de Windows XP.
Por último accedieron a los datos de tarjetas en 7500
terminales de autopago, porque no se cifraban los datos de las
tarjetas.
93. Algunos ejemplos de sustracción masiva de datos - II
Oficina de Gestión de Personal del Gobierno de EE.UU.
(2014).
Unos hackers acceden a información de 21 millones de
personas, incluyendo empleados que pueden acceder a
información secreta y huellas dactilares espías.
Yahoo!:
2013: Robo de datos de cuentas de 1.000 millones de usuarios.
2014: Se ven afectados otros 500 millones.
Yahoo! afirmó que el ataque lo había perpetrado un
desconocido agente pagado por el Estado.
94. Epílogo - I
La IA y el análisis de macro datos son una gran oportunidad para
la humanidad, pero hemos visto que también tienen aplicaciones
que hacen el mundo más injusto.
Seguirá creciendo la economía, pero no necesariamente en
beneficio de la personas de renta más baja. En 2013 la riqueza
total de la mitad más pobre de la población mundial, (más de
3.600 millones de personas), era igual a la de las ocho personas
más ricas del mundo.
El desempleo seguirá aumentando a medida que lo haga la
automatización y los avances de la IA. Pese a que los optimistas
digan que se crearán nuevos trabajos, no serán suficientes.
95. Epílogo - II
Según Erik Brynjolfsson y su ayudante Andrew McAfee del MIT:
La tecnología premia a quienes tienen más educación: desde
mediados de la década de 1970, los salarios de quienes poseían
un título universitario aumentaron en torno al 25 %, mientras
que aquellos que no habían completado la educación
secundaria vieron cómo sus salarios se reducían en promedio
en un 30 %.
Desde el año 2000, una proporción cada vez mayor de la renta
empresarial ha ido a parar a los dueños de las compañías, en
detrimento de quienes trabajan en ellas.
Mientras continúe la automatización, deberíamos esperar que
los propietarios de las máquinas se queden con un pedazo cada
vez más grande del pastel.
96. Libros recomendados - I
1. Big Data: Una breve introducción – Dawn E. Holmes –
Antoni Bosch Editor – 2018. Si hubiera que seleccionar un único
libro sobre macro datos, éste sería el correcto. Breve, barato y
abarca todo el tema de forma sencilla.
2. Big Data: La revolución de los datos masivos - Viktor
Mayer y Kenneth Cukier – Turner Publicaciones – 2013.
Libro más completo que el anterior, que pese a ser un poco
antiguo merece la pena.
3. Armas de destrucción matemática: Cómo el Big Data
aumenta la desigualdad y amenaza la democracia -
Cathy O’Neil – Capitan Swing Libros – 2017 - Este libro es la
base principal para la segunda parte de la charla. Tan fácil y
apasionante de leer como un buen thriller.
97. Libros recomendados - II
4. Inteligencia artificial: Cómo cambiará el mundo (y
tu vida) - Pablo Rodríguez – Deusto – 2018. – Escrito por
un gurú tecnológico español, que ha trabajado para
multinacionales importantes del sector, el título no menciona
big data, pero el libro va de la inteligencia artificial actual que
usa macro datos. Bien escrito y de lectura fácil.
5. Big data: El poder de los datos - Fundación
Bankinter – 2015 – Interesante informe, escrito en
forma de artículos por varios autores. Se puede descargar
de forma gratuita en: Big data: El poder de los datos
98. Libros recomendados - III
6. Vida 3.0: Qué significa ser humano en la era de la
Inteligencia Artificial – Max Tegmark – Editorial Taurus
– 2018 – Libro que habla de muchas cosas, incluyendo en
especial qué es lo que puede pasar si conseguimos máquinas
intelectualmente muy superiores a nosotros y cuándo podría
suceder esto en función de muy diversas predicciones. No
habla específicamente de macro datos, pero hay muchas
referencias al respecto.
7. Desnudando a Google – Alejandro Suárez Sánchez-
Ocaña – Planeta Libros – 2012 – Este libro escrito por alguien
que conoce bien a Google, es muy crítico con esta compañía. Si
hablamos de macro datos tenemos necesariamente que hablar
de Google, Facebook, Microsoft, Amazon, Netflix y otras
empresas similares .
99. Libros recomendados - IV
8. El lado oscuro de Google: Historia y futuro de la
industria de los metadatos – Colectivo Ippolita –Virus
Editorial - 2010 – Quizás la pega que le podemos poner a estos
dos últimos libros, es que son un poco antiguos. Éste está escrito
por un grupo de expertos informáticos que además son activistas
sociales. Aunque centrado en Google permite entender mejor lo
que es Internet y los macro datos. Tiene licencia Creative
Commons por lo que puede ser descargado gratuitamente,
aunque hay versión en papel. El siguiente es un enlace para su
descarga:
El lado oscuro de Google
100. Libros recomendados - V
9. Internet, el futuro y la libertad – Revista trimestral en
papel y formato electrónico correspondiente a Junio de 2018 de
eldiario.es - Está muy relacionada con los aspectos más sociales
de esta charla y también explica la utilidad de los macro datos e
Internet en varios campos. Muy buenos artículos. Los
suscriptores de este periódico actuales y futuros la pueden
descargar gratuitamente. Los que no sean suscriptores pueden
comprarla.
101. Algunas noticias interesantes sobre big data - I
2019-03-25 La gestión de datos empleará a 10 millones de
europeos en el 2020
2019-03-25 Los bots, la segmentación ideológica y la
encriptación crean la tormenta perfecta para la manipulación
electoral en Internet
2019-03-25 Datos fósiles y datos abiertos
2019-03-23 Por un "sentido común" democrático
2019-03-21 Facebook alega que carece de vídeos de atentados
como el de Nueva Zelanda para evitar su difusión
2019-03-18 Cómo le vigilan los móviles Android sin que lo sepa
2019-03-17 Electrodomésticos del futuro tendrán ojos y oídos
para detectar tus emociones
102. Algunas noticias interesantes sobre big data - II
2019-03-09 Bulos, críticas al PP y una decena de anuncios
diarios: la campaña permanente de Vox en Facebook
2019-03-04 “Es más peligroso tener a Alexa encima de la mesa
que a un señor observándote cada día en el salón”
2019-02-27 Una empresa que gestiona big data para la CIA
manejará también los datos mundiales de alimentación y
pobreza
2019-02-19 Spam electoral y ficheros ideológicos de votantes:
Protección de Datos se enfrenta a los comicios de 2019 sin los
recursos previstos
2019-01-29 Más allá del piloto automático: así ayudará la
inteligencia artificial al aterrizaje en los aeropuertos
103. Algunas noticias interesantes sobre big data - III
2019-01-20 Las mentes matemáticas mueven el mundo
2019-01-19 Big data bueno, big data malo
2019-01-07 5G vs 4G: cómo difieren la velocidad, la latencia y el
soporte a aplicación
2019-01-04 Sobrepasados por el ‘big data’
2018-12-20 Los partidos políticos no podrán hacer perfiles
ideológicos individuales, según la AEPD, pese a la nueva Ley de
Protección de Datos
2018-12-19 Facebook permitió a Microsoft, Netflix y Amazon
acceder a datos privados de sus usuarios
2018-12-14 El alcance del Big Data en España, un mar de
oportunidades
104. Algunas noticias interesantes sobre big data - III
2018-12-10 Jaron Lanier: Diez razones para borrar tus redes
sociales de inmediato
2018-12-10 En la era del big data, ¿quién le pone inteligencia a la
inteligencia artificial?
2018-12-18 Así funciona el Big Data detrás del fútbol: tres
personas por partido registran cada jugada
2018-12-04 El neofascismo controla el Big Data
2018-11-28 El policía que aprendió a programar para predecir
crímenes
2018-11-23 Las agencias europeas de Francia, Italia y Reino
Unido sí limitan las prácticas de spam político personalizado
aprobadas en España
105. Algunas noticias interesantes sobre big data - IV
2018-11-22 En esto consiste la Ley de Protección de Datos
aprobada por el Senado, que regula la propaganda política en
Internet
2018-11-20 Cinco prácticas que serán legales para los partidos en
España tras la aprobación del spam electoral
2018-11-14 El equipo médico de Deep Mind se une a Google bajo
la sospecha de incumplir una de las grandes promesas sobre
privacidad
2018-10-29 Entrevista con Cathy O' Neil, (armas de destrucción
matemática)
2018-10-25 ¿Tenemos ‘big data’, pero no sabemos qué hacer con
ello?
106. Algunas noticias interesantes sobre big data - IV
2018-09-11 ¿Qué fue antes, la inteligencia artificial o el Big Data?
Estos proyectos demuestran su estrecha relación
2018-08-28 Trump se busca a sí mismo en Google y monta en
cólera al descubrir uno de los grandes problemas de Internet
2018-08-16 Big Data para desentrañar el futuro de Europa
2018-07-03 Despedido por un ordenador, ningún humano pudo
hacer nada
2018-06-26 Movilidad, Big Data y Desarrollo
2018-06-23 Un futuro alimentario en manos de la tecnología
2018-04-11 Steve Bannon, de estratega de Donald Trump a
próximo asesor de VOX
107. Algunas noticias interesantes sobre big data - V
2018-04-10 El escándalo de Cambridge Analytica resume todo lo
que está terriblemente mal con Facebook
2018-03-21 5 claves para entender el escándalo de Cambridge
Analytica que hizo que Facebook perdiera US$37.000 millones
en un día
2018-03-12 Primera línea de defensa en ciberseguridad: IA
2018-01-06 Cómo el Big Data puede ayudar a luchar contra el
cambio climático
2017-10-25 Assange destaca la encriptación del voto el 1-O ante
la "fuerza coercitiva" del Gobierno español
2017-10-20 ¿Saben las empresas qué hacer con tantos datos?
2017-09-27 Así cambiara el big data la foma en la que
producimos (y consumimos) energía
108. Algunas noticias interesantes sobre big data - VI
2017-09-26 Julian Assange, sobre el 1-O: "Rajoy está intentando
hacer de este un proceso violento"
2017-09-21 Big Data también es una perspectiva
2017-07-13 El centro de datos del CERN ya tiene más de 200
petabytes de información
2017-06-15 TransformingTransport: Big Data para mover el
mundo
2017-04-11 Libros de Big Data en español: protección de datos y
cloud computing
2017-03-02 Robert Mercer, el multimillonario del ‘big data’ que
está detrás de la victoria de Donald Trump y el Brexit
2017-02-28 El Big Data que mueve el coche autónomo
109. Algunas noticias interesantes sobre big data - VII
2016-11-20 Así es como Predictiveworld “predice tu futuro”
gracias al Big Data
2016-10-13 No estamos listos para la súperinteligencia
2016-09-01 ¿Qué puede aportar el Big Data al mundo de la
medicina?
2106-06-13 ¿Cuántos años quedan para que pueda comprarme
un coche autónomo?
2016-03-29 Avances y dudas sobre los coches sin conductor
2015-09-07 Google cierra su aplicación para predecir el
desarrollo de la gripe tras siete años de fracaso
2015-03-31 ¿Qué es eso del 'big data'?
EuroCop PRED-CRIME.- Sistema para la Predicción y
Prevención del Delito
La predicción de delitos y la inteligencia artificial
Notas del editor
Datos semiestructurados: correo electrónico, ya que texto no está estructurado, pero el correo tiene metadatos. En redes sociales, las etiquetas (hashtags) permiten identificar qué mensajes (no estructurados) tratan sobre un tema.
Los cerebros animales también funcionan con redes neuronales multicapa.
Los cerebros animales también funcionan con redes neuronales multicapa.
WhatsApp tenía 1.000 millones en febrero 2016. Los observatorios astronómicos procesan y almacenan gran cantidad de datos. Otra previsión habla de 50.000 millones dispositivos conectados en 2020.
WhatsApp tenía 1.000 millones en febrero 2016. Los observatorios astronómicos procesan y almacenan gran cantidad de datos. Otra previsión habla de 50.000 millones dispositivos conectados en 2020.
SKA es un proyecto de organismos de 11 países, incluyendo el Instituto de Astrofísica de Andalucía.
SKA es un proyecto de organismos de 11 países, incluyendo el Instituto de Astrofísica de Andalucía.
P6 – 2, p104-6 y Wikipedia
P6 – 2, p104-6 y Wikipedia
¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
Humano Fisiológico Virtual se desarrolla a partir del de Genoma Humano. Se llama genoma a la información genética de un organismo considerado de forma colectiva. Análisis de ADN por menos de 1.000 dólares.
P7 -2. Compra Microsoft por 110 m. $. 5 ó 10 años antes no había capacidad de cómputo y almacenamiento suficiente.
P7 -2. Compra Microsoft por 110 m. $. 5 ó 10 años antes no había capacidad de cómputo y almacenamiento suficiente.
P193 – 1. Girona, Barcelona,…
P193 – 1. Girona, Barcelona,…
En EE.UU. el sector sanitario podría crear más de 300.000 millones de dólares en valor añadido cada año, 200.000 en ahorro.
En EE.UU. el sector sanitario podría crear más de 300.000 millones de dólares en valor añadido cada año, 200.000 en ahorro.
P195 – 1. https://www.paradigmadigital.com/techbiz/transformingtransport-big-data-mover-mundo/ Los jueces humanos son más severos cuando no han comido, ¿sería un programa más justo?
El usuario puede ser responsable de uso incorrecto también por no cambiar contraseña de administración del dispositivo. Soldados con aplicaciones para correr. Dispositivos como Amazon Echo y Google Home podrían tener problemas de privacidad. Ventajas IdC: mejores controles de seguridad para personas que trabajen enentornos peligrosos.
El usuario puede ser responsable de uso incorrecto también por no cambiar contraseña de administración del dispositivo. Soldados con aplicaciones para correr. Dispositivos como Amazon Echo y Google Home podrían tener problemas de privacidad. Ventajas IdC: mejores controles de seguridad para personas que trabajen enentornos peligrosos.
Julian Assange y Wikileaks
Julian Assange y Wikileaks
Julian Assange y Wikileaks
Los cargos directivos de los centros podían ser amigos de profesores. Un colegio público perdió una buena docente y se la llevó un colegio rico.
Los cargos directivos de los centros podían ser amigos de profesores. Un colegio público perdió una buena docente y se la llevó un colegio rico.
P66-86
P66-86
La cantidad prestada se multiplica por 8 a devolver.
La cantidad prestada se multiplica por 8 a devolver.
P114. SWAT irrumpir en Greenwich o quizá la policía secreta vigilaría los bares de los alrededores de la Bolsa de Chicago. Si los bancos se van a pique, nuestra economía podría hundirse con ellos, (aunque no afectaría demasiado a las personas pobres).
P114. SWAT irrumpir en Greenwich o quizá la policía secreta vigilaría los bares de los alrededores de la Bolsa de Chicago. Si los bancos se van a pique, nuestra economía podría hundirse con ellos, (aunque no afectaría demasiado a las personas pobres).