SlideShare una empresa de Scribd logo
1 de 109
¿ B E N E F I C I O S O S O A R M A S D E D E S T R U C C I Ó N
M A T E M Á T I C A ?
UNIVERSIDAD POPULAR
CARMEN DE MICHELENA
BIG DATA (MACRO DATOS)
Epidemia de cólera en el Londres de 1854
 El médico John Snow recopila gran cantidad de datos.
 Todas las personas afectadas usaban la misma bomba pública de
agua.
 Snow elaboró un mapa en el que mostró que la enfermedad
surgía de focos cercanos a la bomba de Broad Street.
 Este médico siguió trabajando en este campo, por lo que se le
considera precursor de la epidemiología.
 Cada vez más, los países comenzaron a elaborar censos,
estadísticas de incidencia de enfermedades, tasas de natalidad y
mortalidad, etc.
Recopilación de datos en el siglo XIX
 En EE.UU. empezaron a elaborar censos de población.
 Para elaborar el censo de 1870 en EE.UU. se disponía de una
máquina de recuento.
 En 1880 tardaban 8 años para procesar los datos y calcularon
que en 1890 tardarían más de 10.
 Eso era insuficiente y en 1890 emplearon la máquina tabuladora
de Hollerith con lo que pasaron de 10 años a 3 meses para
procesar el censo.
¿Qué es Big Data? (Macro datos o datos masivos) - I
 Se refiere tanto al tratamiento de los datos, que trata de extraer
información útil de los mismos, como a los datos propiamente
dichos.
 En muchas ocasiones, los macro datos se usan para realizar
predicciones.
 Gran Volumen y complejidad de datos.
 Datos estructurados, no estructurados y parcialmente
estructurados.
 Datos en formato texto y en formato multimedia.
 Necesidad de gran Velocidad de cómputo para su tratamiento.
 Variedad de fuentes de datos.
¿Qué es Big Data? (Macro datos o datos masivos)-II
 A veces dudas sobre su consistencia y necesidad de
aproximaciones. (¿Veracidad?).
 Imposibilidad de su tratamiento mediante los métodos de
computación tradicionales.
 No siempre mayor cantidad de datos significa mejores
predicciones.
 En el año 2007 la revista Wired mencionó el concepto de macro
datos.
Variedad Volumen
Volatilid
ad
Valor
Veracida
d
Validez
Variabilid
ad Velocida
dBig Data
¿Es Big Data lo mismo que inteligencia artificial?-I
 Es muy común en Big Data utilizar técnicas de inteligencia
artificial (IA).
 Sin embargo, hay algoritmos para reducir datos y otros para
tratamiento estadístico, distintos a la IA, aunque según la
definición siguiente, lo importante es la apariencia de
comportamiento inteligente de la máquina.
• “La IA es la ciencia de hacer que las máquinas hagan cosas que
requerirían inteligencia si las hicieran los hombres”. (Marvin
Minsky, fundador del Laboratorio de Inteligencia Artificial del
M I T).
• En los principios de la IA, no había posibilidad de utilizar macro
datos.
¿Es Big Data lo mismo que inteligencia artificial?-II
• Una rama de la IA, Machine Learning, (aprendizaje
automático), se suele usar con grandes cantidades de datos.
• El aprendizaje automático se puede conseguir mediante el uso
de varias capas de redes neuronales artificiales: Aprendizaje
profundo (Deep Learning).
• Multiplicar n números requiere:
o 2ⁿ neuronas en una red de una sola capa.
o 4n neuronas, aproximadamente, en una red profunda.
Múltiplos de bytes (un byte es equivalente a 8 bits)
Nombre Abreviatura Valor
Kilobyte KB 1000 = 103
Megabyte MB 10002 = 106
Gigabyte GB 10003 = 109
Terabyte TB 10004 = 1012
Petabyte PB 10005 = 1015
Exabyte EB 10006 = 1018
Zettabyte ZB 10007 = 1021
Yottabyte YB 10008 = 1024
Volumen de datos - I
 Suelen tratarse entre unos 30 TB y varios PB en una aplicación
de Big Data.
 En 2013 Google procesaba 24 PB al día.
 Un estudio de IBM calculó en 2017 que cada día se generaban 2,5
EB.
 En 2017 el CERN almacenaba 200 PB y se guardaba uno diario a
partir de que las colisiones de partículas del LHC producían 1 PB
por segundo.
 En enero de 2017 había 1.200 millones de usuarios de
WhatsApp.
 En 2020 se calcula se procesarán 40 ZB.
Volumen de datos - II
 En 2022, (previsiones de CISCO):
 El 60% de la población mundial será usuaria de Internet.
 28.000 millones de dispositivos conectados.
 14.600 millones de conexiones con altavoces inteligentes u
otros dispositivos. (Actualmente 6.100 millones).
 El tráfico de vídeo se multiplicará por 4.
 El tráfico de juegos se multiplicará por 9.
Volumen datos en 2017 por minuto
 156 millones de correos electrónicos.
 3,5 millones búsquedas en Google.
 16 millones de SMS.
 46.200 nuevos contenidos en Instagram.
 452.000 tuits.
 1,8 millones de snaps en Snapchat.
 20 millones publicaciones nuevas en Facebook.
 34.000 visitas y en torno a 100 horas cargadas a YouTube.
0
20000000
40000000
60000000
80000000
100000000
120000000
140000000
160000000
180000000
Volumen de nuevos datos por minuto en 2017
Macro datos en astronomía - I
 Los telescopios y las expediciones aeroespaciales generan
enormes cantidades de datos.
 Large Synoptic Survey proyecto de 10 años en Chile que
producirá mapas del cielo nocturno con un total de 60 PB de
datos.
 Square Kilometer Array (SKA), se terminará a finales de la
década 2020, en Australia y Sudáfrica. El sistema de
computación central de SKA tendrá una potencia similar a
100 millones de PC’s. Más de 100 veces el tráfico mundial de
Internet en 2015. 160 TB/s datos en bruto o 100 GB/s datos
procesados. Almacenamiento de 4,6 EB/año.
Macro datos en astronomía - II
 La misión espacial Gaia de ESA observará 1000 millones de
estrellas y otros objetos de la Vía Láctea. Un Mbit/segundo
datos comprimidos durante 5 años, lo que equivale a 60 TB
comprimidos y 200 descomprimidos usables en la Tierra.
Square Kilometer Array (SKA) (fuente Wikipedia)
Google y la gripe (Google Flu Trends)
 En 2009 se descubrió un nuevo virus, el H1N1, de la gripe muy
peligroso.
 Se necesitaba conocer su propagación para tratar de ralentizarla.
 En EEUU se tardaban dos semanas para conocer por dónde se
propagaba.
 Google tomó 50 millones de términos de búsqueda de
estadounidenses y los comparó con datos de propagación de
gripe entre 2003 y 2008.
 Al final con 45 términos de búsqueda y un modelo matemático
había una fuerte correlación entre su predicción y las cifras
oficiales de 2007 y 2008.
 En 2015 se dejó de usar el modelo, porque fracasaron
predicciones en temporadas 2011-12 y 2012-13.
Otras investigaciones en propagación de epidemias
 El grupo Delphi de la universidad Carnegi Mellon predijo la gripe
en 2014-15 y 2015-16 con exactitud mediante datos de Google,
Twiter y Wikipedia.
 En 2008 la Fundación Flowminder rastreó datos de
posicionamiento de teléfonos móviles para ayudar a la OMS a
erradicar la malaria.
 En 2014 Flowminder investigó una epidemia de ébola en África
occidental.
Terremoto en Nepal
 En 2015 Flowminder colaboró con universidades de
Southampton y Oxford e instituciones de EE.UU. y China para
estimar el desplazamiento de la población, tras un terremoto en
Nepal.
 El uso de telefonía móvil en Nepal es elevado.
 Usaron datos anonimizados de 12 millones de teléfonos.
 Contaron con un ordenador y un disco de 12 TB en el centro de
proceso de datos del operador telefónico.
 Hubo una intervención rápida y eficaz de las organizaciones
humanitarias.
Predicción de todo tipo de catástrofes
 Hay muchos otros casos en los que el análisis de datos masivos,
incluyendo datos meteorológicos, movimientos de la población
afectada, situación de carreteras, cartografiar asentamientos de
refugiados, etc., es fundamental para intervenciones adecuadas
ante catástrofes y emergencias sanitarias.
Medicina inteligente - I
 Los historiales médicos electrónicos se pueden anonimizar para
investigación.
 Hay datos de pruebas clínicas, (análisis, resonancia,…),
medicación, etc.
 En 2015 un hospital medio estadounidense almacenaba más de
600 TB de datos.
 Se toman datos relevantes para un paciente o un grupo y se usan
técnicas estadísticas.
 Las notas médicas precisan técnicas de procesado de lenguaje
natural, como el sistema Watson de IBM.
Medicina inteligente - II
 Los dispositivos ponibles, (wareable), pueden monitorizar la
salud de individuos sanos: pasos diarios, ritmo cardíaco, presión
arterial, patrones de sueño,… También existen aplicaciones de
teléfono móvil para esto.
 Esta información en ocasiones se procesa en nuestro
ordenador.
 A veces se procesa en una nube con lo que una empresa tiene
nuestros datos.
 En ocasiones son los médicos los que piden al paciente que se
ponga un dispositivo.
Medicina inteligente - III
 Verily Life Sciences, de Google Alphabet, está desarrollando
nanopartículas que pueden identificar el cáncer y otras
enfermedades, y enviar sus datos a un dispositivo portátil
situado en el brazo del usuario.
 La IA es eficaz en el análisis de pruebas médicas como biopsias,
resonancias, radiografías, etc. gracias a los macro datos. En 2015
un estudio holandés comprueba que el diagnóstico
computarizado a partir de resonancia, tiene la misma calidad que
los médicos patólogos en detección del cáncer de próstata
Medicina inteligente - IV
 En 2017 un estudio de varias compañías de Google Alphabet,
mediante una red neuronal trabajando sobre imágenes de
microscopía gigapixel, ha llegado a detectar metástasis en cáncer
de mama con acierto del 92,4% de los tumores frente al 73,2%
de patólogos.
 Robots cirujanos. Un robot puede ayudar o reemplazar cirujanos.
Además, gracias a la tecnología 5G, médicos expertos pueden
ayudar en tiempo real en operaciones realizadas a distancia en la
que intervienen médicos no especialistas.
Medicina inteligente - V
 General Electric cree que sólo aumentando un 1% la eficiencia de
la asistencia sanitaria se ahorrarían 63 millones de dólares cada
año en EE.UU.
 Buena idea que las empresas promuevan hábitos saludables
entre sus empleados, pero ¿qué ocurre si se suministran
dispositivos para registrar datos sobre parámetros de salud y si
no se alcanzan ciertos niveles, los empleados pierden su empleo?
Genoma Humano (2003)
 Entre 20.000 y 25.000 genes, cuya secuencia ocupa 100 GB.
 Cientos de PB para almacenar la información de una persona y
su análisis.
 La primera secuenciación tardó 15 años y costó unos 3 millones
de dólares.
 Actualmente, hay empresas que ofrecen servicios individuales
por poco dinero.
 Tener un determinado gen puede provocar más probabilidades
de una enfermedad o también de un éxito deportivo.
 El proyecto Humano Fisiológico Virtual , desarrollado a partir
del Genoma Humano, pretende construir simulaciones
informáticas para predecir el resultado de un tratamiento.
¿Por qué Watson se usa en medicina? - I
 En 2007 IBM hace un programa para jugar al programa de TV
Jeopardy.
 Gana a dos campeones de Jeopardy.
 En Jeopardy se da una respuesta y hay que encontrar la
pregunta.
 Se usan técnicas de procesamiento de lenguaje natural,
aprendizaje automático y análisis estadístico.
 El sistema médico Watson se basa en el original de Jeopardy.
 Se analizan datos estructurados y no estructurados.
 Se modela el pensamiento humano en un campo concreto.
¿Por qué Watson se usa en medicina? - II
 Toma toda la información relevante y se dan diagnósticos con
niveles de confianza.
 Watson se usó también en el seguimiento de la expansión del
ébola en Sierra Leona.
 Watson se utiliza en muchas aplicaciones comerciales.
Compra de billetes de avión - I
 En 2003, Oren Etzione compró un billete de avión por Internet
con mucha antelación.
 Etzione preguntó a otros pasajeros y descubrió que habían
pagado menos, comprando más tarde.
 Con una muestra de 12.000 precios de vuelos en un periodo de
41 días creó un modelo predictivo: Hamlet, que evolucionó en
Farecast.
 En 2008 se estaba planeando aplicar el método a habitaciones de
hotel, coches de segunda mano, entradas de conciertos y
cualquier cosa con variaciones de precio y muchos datos
procesables, pero lo compra Microsoft que lo integra en su
buscador Bing.
Compra de billetes de avión - II
 En 2012 acertaba el 75% de las veces y ahorraba una media de 50
dólares por billete.
 Farecast surgió en un momento en que había capacidad de
almacenamiento y de proceso suficiente.
Macro datos y publicidad - I
 Al navegar por Internet se ve publicidad. ¿Cómo se consigue?
 Pago por clic: Una empresa quiere que un producto aparezca
con cierto término de búsqueda. Paga por ello con un límite de
gasto. Los anuncios aparecen ordenados en función de lo que se
ha pagado por ellos.
 El proveedor de búsquedas sólo cobra si se hace clic en el
anuncio.
 Puede haber clics fraudulentos de una empresa rival, incluso con
clickbots, (“robots de hacer clic”). Para combatir el fraude se
puede considerar el número medio de clics que pueden generar
una compra.
Macro datos y publicidad - II
 Cookies: El servidor de la web a la que accedemos, remite un
pequeño fichero para guardar hábitos de navegación en nuestro
ordenador del acceso a esa web.
 Publicidad dirigida: Se registran todos nuestros datos de
navegación, se envían a redes publicitarias de terceros y se
almacenan en cookies de nuestro ordenador.
 Sistemas de recomendación: Recomiendan tendencias, lo que
buscan otros usuarios de forma similar a nosotros. (Amazon,
Netflix, Facebook, etc.)
Conducción autónoma - I
 IHS Automotive ha calculado que en 2035 el 10% de los coches
que se venderán serán completamente autónomos.
 Cada año mueren más de 1,3 millones de personas en todo el
mundo por accidentes de tráfico, el 90% por errores humanos.
Más del doble de los que mueren por guerras, crímenes y
terrorismo.
 El coche autónomo de Google, Waymo, que es seguramente el
que más datos genera en la actualidad, produce cada segundo
más de 750 Mb de información, la mayoría de ella de carácter no
estructurada.
 Un coche autónomo genera unos 10 gigabytes de datos por cada
milla recorrida (1,6 km aprox.).
Conducción autónoma - II
 La tecnología 5G va a suponer el auténtico despegue del coche
autónomo:
 Un semáforo podrá avisar a un coche de que está cruzando un
peatón.
 Una bici con un pequeño dispositivo advertirá a los coches de
su presencia.
 La velocidad teórica de 5G es 10 Gbps, unas 100 veces más
rápida que 4G.
 La velocidad de latencia de 5G es casi 1 ms, entre 60 y 120 veces
más rápido que 4G.
 Los macro datos llegarán a cantidades tremendas con el coche
autónomo y el resto del Internet de las Cosas (IdC).
Monitorización flujo de personas en una ciudad - I
 Se recogen datos de:
 Helicópteros de tráfico.
 Cámaras en la calle.
 Sensores de las calles.
 Patrullas de policía.
 Datos de medios de transporte público.
 Encuestas…
 Mucho mejor: Datos anonimizados procedentes de
teléfonos móviles.
Monitorización flujo de personas en una ciudad - II
 Se usan para:
 Establecer horarios del transporte público.
 Funcionamiento de semáforos.
 Planificación del sector turístico, incluyendo consejo de rutas
para turistas, información para hoteles y restaurantes, etc.
 Reducción de la contaminación atmosférica.
Macro datos y cambio climático (CC) - I
 El cálculo de emisiones de CO2 se podrá especificar de forma más
exacta.
 Análisis y predicciones más exactas de deshielo de glaciares y
crecimiento nivel del mar.
 Hay predicciones de que en 2060 haya 1400 millones de
refugiados climáticos.
 Wheater Analytics estima que el 33% del PIB mundial se ve
afectado por el CC.
Macro datos y cambio climático (CC) - II
 “Promover acciones eficaces para el cambio climático no sólo
requiere datos relativos al clima, sino también información
integral sobre el comportamiento humano”. “El big data puede
ofrecer una respuesta dinámica acerca de la manera en que las
comunidades afectan y se ven afectadas por el sistema
climático, y permiten innovar para mejorar la sostenibilidad y
la capacidad de recuperación. Dichos datos proceden
principalmente de las compañías, como las que participarán en
el reto ‘Data for Climate Action’”.(Robert Kirkpatrick, Director
de UN Global Pulse, iniciativa de innovación en macro datos de
las Naciones Unidas. Data for Climate Action une a ésta y a
Western Digital Corporation, líder global en soluciones y
tecnologías de almacenamiento de datos ).
Otras aplicaciones útiles de los macro datos, I
 Mediante redes de sensores se detecta la escarcha, la humedad
de las hojas, la humedad del terreno y las plagas. Cuando la
presión de las plagas alcanza un nivel crítico, el sistema
distribuye unas dosis precisas de feromonas para alterar los
ciclos de apareamiento de las especies invasoras. También los
sensores pueden servir para determinar riego óptimo.
 Un ácaro, varroa destructor, ataca las abejas. Se hace un circuito
impreso en una película de bioplástico de máiz recubierto de
cera. El circuito detecta el varroa y sube la temperatura de la
colmena a 42º, matando el ácaro.
 EE.UU. podría ahorrar 200.000 millones de dólares en el sector
sanitario. (8% del coste).
Otras aplicaciones útiles de los macro datos, II
 En Europa se ahorrarían más de 100.000 millones de euros en
eficiencia operativa, más mejora en la detección del fraude fiscal
y errores recaudación.
 Se usan para detectar nuevos virus informáticos y otro malware
en función del análisis de los existentes hasta el momento.
 La detección de spam se basa en el análisis de todos los correos
electrónicos.
 Los datos de teléfonos móviles y otros pueden ser también muy útiles
para determinar por barrios o zonas de un país:
 Mapas de pobreza.
 Mortalidad infantil.
 Cambios en PIB.
 Delincuencia.
Otras aplicaciones útiles de los macro datos, III
 La vigilancia policial predictiva es muchas veces eficaz, pero más
adelante veremos que puede tener graves inconvenientes.
 En el proyecto Transforming Transport participan 47 socios de
varios países incluyendo España. Se trata de aplicar análisis de
macro datos a aeropuertos, puertos, ferrocarril, autopistas, flotas
sostenibles de vehículos, control de tráfico en ciudades y
logística. Por ejemplo, en compañías ferroviarias se trata de
prever fallos en infraestructuras y reducir costes.
 Asesoramiento y análisis de riesgo de inversiones financieras.
 Concesión de créditos.
 La propia mejora de los protocolos, (formas de conectar) de
Internet.
Problemas del Internet de las Cosas (IdC) - I
 IdC tiene múltiples ventajas, porque tenemos dispositivos
conectables a Internet para casi todo, pero también tiene
inconvenientes.
 Si un hacker ataca dispositivos IdC puede:
 Lanzar peticiones masivas a webs, (ataques de denegación de
servicio).
 Sustracción de información, (ejemplo, espionaje con cámaras).
 Hacer funcionar mal el dispositivo, (ejemplo, inutilizar los
frenos de un coche autónomo o al menos conectado a Internet,
o cambiar el movimiento de una pierna o brazo biónicos).
 Si hay un ciberataque, de quién es la responsabilidad,
(¿fabricante, prestador de servicio o usuario por no aplicar
actualizaciones?).
Problemas del Internet de las Cosas (IdC) - II
 Otros problemas que podemos tener es si no se cifra la
información que envía o recibe el dispositivo, o no se configura
correctamente su privacidad. En este último caso, podemos
ofrecer información personal que no deberíamos compartir.
Citas sobre macro datos y sobre la WWW - I
 “Debemos guardarnos contra la confianza excesiva en los datos,
no vayamos a caer en el error de Ícaro, quien adoraba su
capacidad técnica de volar pero no supo usarla y se precipitó en
el mar”. (“Big data – La revolución de los datos masivos” de
Viktor Mayer-Schönberger y Kenneth Cukier).
 “Los datos son el nuevo petróleo”. (Atribuida a Clive Humby,
inventor de la tarjeta de fidelización de clientes Tesco).
 “Las personas ricas podrán optar por salirse y pagar, digamos,
por apps sin publicidad o que no recopilen sus datos. Los pobres
usarán la Red gratis, pero tendrán que dar sus datos. Pero
realmente no importa quién seas, todos somos adictos:
cualquiera que tome crack se quedará colgado”. ( Kara Swisher,
periodista especializada en Silicon Valley).
Citas sobre macro datos y sobre la WWW - II
 ”Aunque la web ha creado oportunidades, dado voz a grupos
marginalizados, y hecho más fáciles nuestras vidas, también ha
creado oportunidades a los timadores, dado voz a los que
difunden odio, y hecho todo tipo de crímenes más fáciles de
cometer”. “Las empresas deben esforzarse para asegurar que
buscar mayores beneficios a corto plazo no quede a expensas de
los derechos humanos, la democracia, los hechos científicos y la
salud pública”. (Thomas Berners Lee creador de la World Wide
Web).
Caso Snowden -I
 En junio de 2013 The Guardian revela que la NSA está
recopilando metadatos en algunas redes de telefonía móvil de
EE.UU.
 La siguiente noticia es que se está usando un programa para
recoger datos de Internet sobre ciudadanos extranjeros que se
comunican con EE.UU.
 Hubo una sucesión de filtraciones que incriminaban a EE.UU. y
Reino Unido.
 Quien filtraba era Edward Snowden que trabajaba en
criptografía para la NSA, a través de una empresa. Envió
información a periodistas bien elegidos.
 Snowden tenía acceso directo a muchos de los documentos que
robó, debido a que era administrador de sistemas.
Caso Snowden - II
 Para ciertos documentos de confidencialidad muy alta, utilizó las
contraseñas de usuarios privilegiados, porque él había creado las
cuentas
 Para ciertos documentos de confidencialidad muy alta, utilizó las
contraseñas de usuarios privilegiados, porque él había creado las
cuentas.
 Copió alrededor de 1,5 millones de documentos confidenciales y
pasó a los periodistas unos 200.000.
 Al parecer sacaba los documentos mediante memorias USB.
Caso Snowden - III
 “I don't want to live in a world where everything I say,
everything I do, everyone I talk to, every expression of
creativity and love or friendship is recorded.” ("No
quiero vivir en un mundo donde todo lo que digo, todo lo que
hago, todos con quienes hablo, cada expresión de creatividad,
amor o amistad se registre".) – Edward Snowden.
¿Qué ocurre cuando los estados quieren
controlar a sus ciudadanos? -I
 Algunos países pueden llegar a controlar a sus ciudadanos
mediante métodos como:
 Sistemas de vigilancia mediante cámaras de reconocimiento
facial.
 Software de IA capaz de cruzar datos de:
 Cuentas corrientes.
 Trabajos.
 Aficiones.
 Patrones de consumo.
 Acceso a Internet controlado
 A veces se prohíbe WhatsApp u otros sistemas de mensajería.
¿Qué ocurre cuando los estados quieren
controlar a sus ciudadanos? -II
 Obviamente, si un estado trata de detectar terroristas o
criminales de una forma controlada por jueces independientes,
no debería haber problemas, lo malo es cuando el estado es
omnipotente y no se respeta la privacidad, ni la presunción de
inocencia.
 También es adecuado combatir el fraude fiscal.
¿Encontrar la pareja perfecta por Internet? - I
 Actualmente hay quienes usan aplicaciones para conocer a sus
parejas.
 Bastan tres preguntas en la primera cita, dice Christian Rudder,
uno de los fundadores del sitio de citas estadounidense OkCupid:
 "¿Te gustan las películas de terror?“
 "¿Alguna vez has viajado solo/a por otro país?"
 "¿No sería divertido dejar todo e irse a vivir a un velero?"
 Dice este experto que las respuestas suelen coincidir en personas
que acaban formando pareja.
¿Encontrar la pareja perfecta por Internet? - II
 Algunos sitios de búsqueda de pareja por Internet de EE.UU.,
emparejan gente en base a sus calificaciones crediticias.
 Según CreditScoreDating “las buenas calificaciones crediticias
son sexi”.
 En EE.UU. las calificaciones crediticias se obtienen mediante el
proceso de todo tipo de datos. No hay tanta protección de la
privacidad como en la Unión Europea.
 Pese a ello, no se puede considerar tan grave el uso de
calificaciones crediticias en este caso, como en su utilización para
seleccionar trabajadores o incluso en la concesión de créditos en
lo que realmente lo que habría que tener en cuenta, es si una
persona paga o no sus facturas, no informaciones sobre, por
ejemplo, lo que hace en Internet.
“Big Data” un cortometraje de Javier San Román - I
 Big Data
 El enlace anterior dirige a un cortometraje que está en la web:
 https://cortosdemetraje.com/
 Agradezco al director del corto Javier San Román su permiso
para usar el corto en esta charla y a Alejandro Ruíz responsable
de comunicación de la web mencionada sus gestiones para
conseguir el permiso.
 Javier San Román hace cortos y también publicidad en la
siguiente web:
 http://www.chinatown.ws/
“Big Data” un cortometraje de Javier San Román - II
 Cortosdemetraje tiene los siguientes perfiles en redes sociales:
 https://www.facebook.com/cortosdemetraje/
 https://twitter.com/Cortodemetraje
 https://www.instagram.com/cortosdemetraje/
 https://www.pinterest.es/cortosdemetraje/
Juramento hipocrático propuesto por Emanuel
Derman y Paul Wilmott en 2008 (citado por Cathy O’Neil)
 “Recordaré que no he creado el mundo, y que éste no satisface
mis ecuaciones”.
 “Aunque emplee audazmente modelos para estimar valor, no
me dejaré impresionar excesivamente por las matemáticas”.
 “Nunca sacrificaré la realidad por elegancia, sin explicar por
qué lo he hecho”.
 “Tampoco proporcionaré a quienes usen mis modelos una falsa
sensación de seguridad sobre su precisión, sino que haré
explícitos supuestos y omisiones”.
 “Reconozco que mi trabajo puede tener enormes efectos sobre la
sociedad y la economía, muchos de ellos más allá de mi
comprensión”.
Promesas del big data y las matemáticas - I
 Un programa de ordenador puede:
 Procesar gran número de datos concernientes a personas.
 No tener los prejuicios que puede tener un humano.
 Es factible:
 Ordenar currículos para puestos de trabajo.
 Valorar peticiones de créditos.
 Calcular de forma óptima el precio de una póliza de seguro.
 Decidir qué presos pueden tener libertad condicional.
 Etc.
Promesas del big data y las matemáticas - II
 ¿Pero, qué ocurre cuando los algoritmos son opacos y nadie nos
explica cómo se están aplicando?
 ¿Y si ni siquiera los informáticos o los matemáticos que han
intervenido en la programación entienden lo que están haciendo
las máquinas?
 Evidentemente, un problema prácticamente insoluble es cuando
se usa una red neuronal artificial multicapa, (aprendizaje
profundo). En ese caso un humano no puede llegar a saber cómo
ese tipo de sistema, ha llegado a determinadas conclusiones, pero
si habrá que intentar no utilizar resultados que conduzcan a
discriminación de algún tipo u otros resultados indeseables.
Eliminación de profesores incompetentes, (con uso de “small
data”, en lugar de “big data” en Washington) - I
 El programa IMPACT evalúa a todos los docentes.
 2009-2010: Se despide al 2%.
 2010-2011: Se echa otro 5%, (206 profesores).
 La profesora Sarah Wisocky era apreciada por dirección y
padres. La echan.
 Los alumnos de Sarah habían tenido otros profesores el curso
anterior y notas muy buenas.
 Cuando empezó el curso, Sarah descubrió que los alumnos
sabían poco.
 ¿Qué había pasado? – Otros profesores habían inflado las
notas.
Eliminación de profesores incompetentes, (con uso de “small
data”, en lugar de “big data” en Washington) - II
 Sarah no consiguió encontrar a nadie que le explicara su
puntuación IMPACT.
 Sarah sólo estuvo pocos días en paro. La contrataron en un
colegio particular.
 Otro caso, Sarah Bax, profesora de matemáticas, dijo al
administrador del distrito: “¿Cómo puedes justificar el hecho
de que estéis evaluando a personas con un método que no sois
capaces de explicar?
Cómo utilizar modelos matemáticos predictivos en
beisbol y otros deportes
 Los modelos de beisbol, fútbol y otros deportes son transparentes.
 Todo el mundo tiene acceso a las estadísticas.
 Se incorporan todos los datos disponibles hasta el mínimo detalle.
 Se actualizan las estadísticas continuamente.
 Gran cantidad de datos y además relevantes para lo que se quiere
predecir.
 Si el modelo no funciona, se analiza y se cambia.
 Lo contrario a la despedida de profesores en Washington:
 Se basaban en pocos datos para evaluar a docentes concretos.
 Nadie sabía cómo funcionaban los algoritmos, (o nadie lo
explicaba).
 En otros casos sí que hay muchos datos, pero no directamente
relacionados con lo que se pretende predecir, por lo que se utilizan
datos sustitutivos, lo cual es igualmente peligroso.
Cómo utilizar modelos matemáticos predictivos en
beisbol y otros deportes
 Los modelos de beisbol, fútbol y otros deportes son transparentes.
 Todo el mundo tiene acceso a las estadísticas.
 Se incorporan todos los datos disponibles hasta el mínimo detalle.
 Se actualizan las estadísticas continuamente.
 Gran cantidad de datos y además relevantes para lo que se quiere
predecir.
 Si el modelo no funciona, se analiza y se cambia.
 Lo contrario a la despedida de profesores en Washington:
 Se basaban en pocos datos para evaluar a docentes concretos.
 Nadie sabía cómo funcionaban los algoritmos, (o nadie lo
explicaba).
 En otros casos sí que hay muchos datos, pero no directamente
relacionados con lo que se pretende predecir, por lo que se utilizan
datos sustitutivos, lo cual es igualmente peligroso.
Discriminación por raza - I
 Las condenas de cárcel impuestas a hombres negros son 20%
más largas que a blancos por delitos similares en EE.UU.
 Los negros representan el 13% de la población y el 40% de los
reclusos.
 En el condado de Harris, (Houston), es tres veces más probable
pedir la pena de muerte para un afroamericano y cuatro veces
más para un hispano que para un blanco por el mismo delito.
 ¿Se puede resolver el problema mediante un sistema
informático?
Discriminación por raza - II
 El modelo LSI-R o Inventario de Nivel de Servicio Revisado
incluye un cuestionario:
 ¿Cuántas condenas previas ha tenido? ¿Qué papel tuvieron
otras personas en el delito? ¿Qué papel tuvieron las drogas y
el alcohol?, ¿Familiares o amigos han delinquido?, etc.
 Puede que a un blanco no lo haya parado nunca la policía, pero a
un negro lo pueden haber hecho docenas de veces sin que haya
hecho nada.
 En Nueva York negros e hispanos (14 a 24 años) son 4,7%
población y 40,6% de los cacheos, (90% casos inocentes).
¿Es adecuado usar sistemas estadísticos como LSI-R
o son ADM (Armas de Destrucción Matemática)? - I
 En algunos estados como Rhode Island se usa para incluir
reclusos en programas de prevención de la reincidencia. Esto
parece muy correcto.
 En otros estados los jueces los utilizan para decidir condenas.
 Si en un juicio la acusación menciona antecedentes penales de
amigos o familia del acusado, el abogado defensor protestará.
 Una persona calificada por LSI de alto riesgo puede estar en
paro y ser de un barrio conflictivo. Será condenada a más años
con otros delincuentes. Volverá después al mismo barrio y será
difícil que encuentre un trabajo. Tendrá más probabilidades de
delinquir y el modelo se apuntará un éxito.
¿Es adecuado usar sistemas estadísticos como LSI-R
o son ADM (Armas de Destrucción Matemática)? - II
 El propio modelo está alimentando un círculo tóxico.
 Los que responden el cuestionario, no suelen saber las
consecuencias de sus respuestas, porque los funcionarios les
explican lo mínimo.
 Un estudio de 2016 argumentó que el software de predicción de
reincidencia estaba sesgado contra los afroamericanos.
 Análogamente, muchas empresas ocultan sus modelos.
Crisis financiera del 2008 en EE.UU.
y todo el mundo - I
 Los bonos inmobiliarios eran paquetes de créditos hipotecarios,
inicialmente de créditos correctos y con pagos al corriente. Algún
crédito podía fallar, pero el conjunto garantizaba poco riesgo a
los bonos y alto interés.
 Los bancos comienzan a dar créditos arriesgados, (hipotecas
subprime), para seguir vendiendo bonos.
 En julio del 2007 los intereses interbancarios suben.
 A fines del 2007 comienza la caída brusca de los mercados
bursátiles en EE.UU.
Crisis financiera del 2008 en EE.UU.
y todo el mundo - I
 La crisis se debió a las hipotecas y muchos otros factores:
inflación, subida petróleo, …
 Cathy O’ Neil trabajaba por aquel entonces para el fondo de
cobertura Shaw. Deja su trabajo en el 2009 y se va a RiskMetrics
que calculaba riesgos para los bancos.
 Los modelos matemáticos se basan en que los patrones del
pasado se repiten.
 Los bonos eran instrumentos financieros a partir de los cuales se
elaboraban modelos, pero esos modelos eran defectuosos,
auténticas ADM.
Clasificación universidades americanas - I
 Una revista decide en 1983 evaluar 1800 facultades y
universidades de EE.UU.
 Al principio valoran en función de resultados de una encuesta
enviada a los rectores.
 Llegan cientos de quejas de rectores, estudiantes y antiguos
alumnos.
 Como no podían hacer una medida directamente, usaron valores
sustitutivos:
 Puntuaciones de examen de acceso a la universidad.
 Número de alumnos por profesor.
 Porcentaje de alumnos que pasan de primero a segundo y que
se gradúan.
 Porcentaje de antiguos alumnos que donan dinero a su
universidad, etc.
Clasificación universidades americanas - II
 Tres cuartas partes de la puntuación eran por lo anterior. Una
cuarta tenía en consideración la opinión subjetiva de
empleados de universidades.
 Los primeros resultados en 1988 fueron razonables.
 Después apareció un bucle de retroalimentación vicioso:
Cuando a una universidad le iba mal, la evitaban los mejores
alumnos y profesores.
 Los rectores mejoraban las 15 áreas definidas por unos
periodistas, no lo que realmente importaba. Además, en
ocasiones se remitían datos falsos.
 No se tuvo en cuenta el coste de las matrículas. Aumentaron 4
veces la tasa de inflación entre 1985 y 2013.
Algunas formas de hacer trampas - I
 La Universidad Cristiana de Texas mejoraba algunos
indicadores, pero no era suficiente.
 Lanza una campaña de recaudación de fondos y tiene éxito.
 Moderniza instalaciones deportivas e inyecta dinero en fútbol
americano.
 Gracias al éxito en fútbol mejoraron sus matriculaciones. Otras
universidades incrementaron matriculaciones por el baloncesto.
 Obama quiso crear un nuevo ranking. No lo consiguió, pero a
cambio se publicaron multitud de datos en un nuevo sitio web.
Ahora los alumnos pueden hacer sus propias preguntas sobre lo
que les interesa.
Algunas formas de hacer trampas - II
 Los rankings también se usan en otros sitios del mundo.
 El departamento de matemáticas de la universidad Rey
Abdulaziz de Arabia Saudí, quedó el séptimo del mundo, detrás
de Harvard y mejor que Cambridge y el MIT.
 La universidad saudí había contratado matemáticos cuyos
trabajos tenían muchas citas y les había ofrecido 72.000 dólares
por ir allí 3 semanas al año con gastos de viaje y hoteles de 5
estrellas. Además, las citas académicas tenían que ser de esa
universidad.
Publicidad como ADM o anunciantes depredadores
- Universidades - I
 Las universidades de EE.UU. con ánimo de lucro se centran en
los pobres. Ejemplo, universidad de Phoenix se gastaba 50
millones de dólares en anuncios de Google.
 A la gente en dificultades, le dicen que no hace lo suficiente para
mejorar sus vidas.
 Los anunciantes dejan a sus clientes con inmensas deudas con la
falsa promesa de mejorar sus vidas.
 Muchos de sus futuros estudiantes son inmigrantes que no saben
que las universidades públicas son en general mejores y con
menor coste.
Publicidad como ADM o anunciantes depredadores
– Universidades - II
 Utilizan mucha información privada en contra de sus víctimas,
porque ésta se revela mediante búsquedas en Google o
rellenando el formulario universitario:
 Baja autoestima, estrés al criar sus hijos en entorno con
bandas, drogas,…
 Una sola universidad tenía un equipo de marketing de 30
personas. Gastaban 120 millones de dólares al año para
perseguir 2,4 millones de oportunidades de negocio. 60.000
estudiantes nuevos y 600 millones de dólares al año.
 Anuncios en TV y vallas, correo, anuncios en búsquedas de
Google, equipos de reclutadores en institutos, etc.
Publicidad como ADM o anunciantes depredadores
– Préstamos - I
 El sector de los préstamos rápidos, al menos en EE.UU.,
también usa ADM.
 La usura llega a cobrar intereses de 574% en préstamos a corto
plazo.
 Hay gran cantidad de agencias de datos, algunas timadoras
profesionales.
 Sus anuncios aparecen en ordenadores y teléfonos. En el
formulario a rellenar, es habitual pedir los datos bancarios.
 En 2015 la Comisión Federal de Comercio de EE.UU. acusó a dos
agencias de datos de vender solicitudes de crédito de más de
medio millón de personas. Robaron número de teléfono,
información de los empleadores, números de la seguridad social
e información de cuentas bancarias y las vendieron a 50
céntimos.
Publicidad como ADM o anunciantes depredadores
– Préstamos - II
 Estas empresas asaltaron las cuentas y robaron 7,1 millones de
dólares.
 Los organismos reguladores americanos quieren que se aprueben
nuevas leyes que regulen el mercado de datos personales.
 Hay un par de leyes federales que establecen ciertos límites sobre
datos crediticios y sanitarios.
 En la Unión Europea y España en particular, las leyes de
protección de datos nos protegen frente a muchos de los posibles
abusos, pero eso no significa que estemos completamente
protegidos o que no debamos mantener una actitud vigilante.
Prediciendo dónde se cometerán delitos - I
 Hay programas como PredPool que calculan horas y sitios donde
se producirán delitos, procesando datos históricos. En 2014, un
año después de empezar a usarse en Reading, los robos a
viviendas disminuyeron un 23%.
 PredPool se puede configurar. Si la policía decide incluir
homicidios, robos, asaltos, etc. funcionará bien.
 ¿Qué ocurre si estos sistemas se configuran para controlar
vagabundos, pertenencia a pandillas, consumo de pequeñas
cantidades de droga? El programa enviará a la policía a patrullar
por barrios pobres, se realizarán detenciones, (negros, hispanos),
por delitos sin víctimas y cada vez habrá más policía en esas
zonas. El sistema se retroalimenta. Se convierte en un ADM.
Prediciendo dónde se cometerán delitos - II
 Si en un barrio marginal la policía se comporta de forma
tolerante: los borrachos tienen que guardar su bebida,
drogadictos tienen que cumplir ciertas normas, etc., el resultado
es mejor que con detenciones sistemáticas.
 En Italia XLAW se usa de manera similar a programas
americanos para predecir delitos en Nápoles y Venecia. La
diferencia con otros es que realiza modelos en base a actuaciones
rutinarias de profesionales de la delincuencia. Ha conseguido
una reducción entre el 24 y el 39% de ciertos delitos.
 En Europa existe EuroCop PRED-CRIME.
 En Gran Bretaña usan National Data Analytics Solution (NDAS)
que a veces identifica a un posible criminal y le brinda asistencia
de servicios sociales o de salud.
¿Qué ocurre con los delitos que no prevee PredPool, porque
los cometen los ricos? - I - (algunas frases de Cathy O’Neil)
 “Imaginemos que la policía aplicará su estrategia de tolerancia
cero al ámbito financiero. Arrestarían a la gente por la mínima
infracción… A lo mejor veríamos a los cuerpos especiales de los
SWAT irrumpir en Greenwich…”
 “Los polis no tienen los conocimientos necesarios para ese tipo
de trabajo.”
 “Los responsables de esta tarea, desde el FBI hasta los
investigadores de la Comisión de Bolsa de EE.UU., cuentan con
pocos efectivos y escasos medios económicos y llevan décadas
comprobando que los banqueros son prácticamente intocables.
Los banqueros invierten mucho dinero en nuestros políticos,
algo que siempre ayuda, y además se les considera
imprescindibles para nuestra economía”.
¿Qué ocurre con los delitos que no prevee PredPool, porque
los cometen los ricos? - II - (algunas frases de Cathy O’Neil)
 “Si los bancos se van a pique, nuestra economía podría hundirse
con ellos”.
 “Exceptuando algunos casos como Madoff , los financieros
nunca son arrestados”
 “Como colectivo salieron prácticamente ilesos del derrumbe del
mercado de 2008”.
 “ Criminalizamos la pobreza, convencidos en todo momento de
que nuestras herramientas no solo son científicas, sino también
justas”.
Usar macro datos como ADM en contra de ciertos
pedidores de créditos o de empleos - I
 Cuando se fundaron los primeros bancos, los banqueros
concedían préstamos en función de su conocimiento del cliente:
si iba a la iglesia, si alguien de su familia bebía, de qué raza era…
Las mujeres y las minorías étnicas quedaban excluidas.
 Los créditos después se han concedido en función de datos sobre
la solvencia económica del que los pide, fundamentalmente la
carga de la deuda y el historial del pago de facturas.
 En la actualidad existen métodos informáticos para calificación
crediticia (EE.UU.): localización del ordenador (código postal),
navegación por Internet, historial de compras,…
Usar macro datos como ADM en contra de ciertos
pedidores de créditos o de empleos - II
 Algunas frases de Cathy O’ Neil:
 “Casi la mitad de los empleadores de EE.UU. hacen el cribado
de los candidatos analizando sus informes de solvencia”.
 “Las personas que construyen modelos para calificaciones
crediticias tienen que ingeniárselas para contestar a la
pregunta: “¿Cómo se han comportado en el pasado las personas
como el individuo analizado?”, cuando idealmente deberían
preguntarse: “¿Cómo se ha comportado en el pasado el
individuo analizado?””
 “Y qué pasa con la persona a la que los sistemas interpretan mal
y clasifican en la categoría incorrecta”…”No hay
retroalimentación alguna que corrija el sistema.”
¿Son los seguros un campo abonado para las
ADM?¿También se usan calificaciones crediticias? - I
 En seguros de automóvil de EE.UU. se usan calificaciones
crediticias y en ocasiones son más importantes que el cuidado en
la conducción.
 Las víctimas de este sistema son gente pobre, muchos de ellos
inmigrantes.
 “En los barrios en los que hay más oficinas de crédito rápido
que corredurías de seguros, resulta más difícil dirigirse a otras
aseguradoras para buscar precios más económicos. En pocas
palabras, aunque la calificación crediticia no tenga nada que
ver con la conducción segura, sí crea un grupo rentable de
conductores vulnerables”. (O’ Neil).
¿Son los seguros un campo abonado para las
ADM?¿También se usan calificaciones crediticias?-II
 En España, en mi personal opinión, los asegurados que no son
capaces de comparar entre seguros de distintas compañías,
también acaban pagando más.
 Sin embargo, hay ya tecnología que permite poner un chip a un
coche y saber los hábitos de conducción, por lo que se podría
ofrecer precios más justos en seguros de automóvil. Pese a ello
gente que vive en periferia de grandes ciudades, debido a que
haya casas más baratas, puede tener que conducir mayores
distancias y pese a tener cuidado en la conducción, ver
encarecida su póliza.
Uso de técnicas de micro segmentación mediante
macro datos en política - I
 En 2015 un grupo antiabortista publica un vídeo con imágenes
de un supuesto feto abortado. Se demostró su falsedad, pero los
antiabortistas pudieron seguir forjándose una audiencia, gracias
a la micro segmentación.
 El éxito de la micro segmentación explica que en 2015 un 43% de
republicanos creía que Obama era musulmán y un 20% de
americanos que no era de EE.UU.
 Se localizan votantes vulnerables y se les envían mensajes sobre
seguridad de sus hijos o el auge de la inmigración ilegal.
 Incluso en TV se intenta hacer publicidad política para colectivos
específicos.
Uso de técnicas de micro segmentación mediante
macro datos en política - II
 En 2007 los psicólogos Michal Stillwell y David Kosinski
idean una aplicación para Facebook mediante la que se elaboró
un resumen de personalidad de 6 millones de personas. Además,
el 40% de ellos aceptaron que la aplicación recolectara de forma
anónima la información almacenada en sus perfiles de Facebook.
 El autodidacta Christopher Wylie se da cuenta de la importancia
del estudio.
 Wylie conoce a Alexander Nix de SCL Elections, empresa
dedicada hacer cambiar de opinión a la gente e influirla no
mediante persuasión, sino mediante "dominio informativo",
un conjunto de técnicas entre las que se encontraban
la difusión de rumores, desinformación y noticias
falsas.
Uso de técnicas de micro segmentación mediante
macro datos en política - III
 En 2013 Wylie conoció a Steve Bannon, editor de Breitbart,
un diario online sobre política que bajo su dirección se alineó con
el populismo de derecha europeo y la derecha más extrema
americana.
 Bannon convence al multimillonario Robert Mercer, donante
del partido republicano para que invierta 15 millones de dólares
en Cambridge Analytica, surgida de SCL Elections.
 Wylie intenta usar la base de datos de Kosinski, pero Kosinski no
acepta por lo que contacta con el psicólogo Alexandr Kogan, que
crea una empresa llamada Global Science Research (GSR) para
recolectar información en Facebook.
Uso de técnicas de micro segmentación mediante
macro datos en política - IV
 Cambridge Analytica gastó 7 millones de dólares de ellos uno en
GSR.
 Kogan pagó campañas de publicidad en Faceboook para que los
usuarios se animaran a rellenar un test de personalidad con
una aplicación. Esa aplicación pedía permiso a esos usuarios
para acceder tanto a sus perfiles como a los de sus contactos.
Con los perfiles de 320.000 usuarios que tenían una media de
160 contactos, consiguieron más de 50 millones de perfiles
de Facebook .
Uso de técnicas de micro segmentación mediante
macro datos en política - V
 Gracias a esos perfiles “sabríamos a qué tipo de mensaje serías
susceptible, incluyendo la forma en la que entregártelo, los
temas, el contenido, el tono, si el mensaje necesitaba ser
aterrador o no, ese tipo de cosas. Sabríamos a qué serías
susceptible, dónde ibas a consumir ese contenido, cuántas veces
necesitábamos pasarte ese mensaje para cambiar la forma en
la que piensas sobre algo”.
 Esa recolección masiva de datos podría haber sido fundamental
en la campaña electoral de Donald Trump. ¿Tuvieron también
influencia en el Brexit?
Uso de técnicas de micro segmentación mediante
macro datos en política - VI
 En España VOX ha contactado con Bannon. VOX gasta dinero en
publicidad en Facebook.
 El 22-11-18 el Senado español aprueba una ley que regula el uso
de datos personales de ciudadanos en Internet y que abre las
puertas a la elaboración de perfiles de votantes por parte de
partidos políticos y extiende el derecho al olvido a las redes
sociales. La aprueban la mayoría de partidos con el voto en
contra de Unidos Podemos, Compromís, Nueva Canarias y Bildu.
 Hay artículos de opinión en prensa, (al menos digital), que
dudan de que la Agencia Española de Protección de Datos tenga
recursos económicos y de personal suficientes para proteger a los
ciudadanos, al menos en las elecciones de 28-4-2019, frente a
invasiones de la privacidad, que pueda provocar dicha ley.
 Fuente: The Guardian
Algunos ejemplos de sustracción masiva de datos - I
 Home Depot, (artículos para el hogar):
 2014: Robo de datos de 56 millones de tarjetas y 53 de
direcciones de correo.
 Se usaron técnicas para suplantar la identidad de un vendedor.
Se accedió al sistema, pero sólo a la parte autorizada para ese
proveedor.
 Después, los piratas accedieron al sistema completo
aprovechando un agujero de seguridad de Windows XP.
 Por último accedieron a los datos de tarjetas en 7500
terminales de autopago, porque no se cifraban los datos de las
tarjetas.
Algunos ejemplos de sustracción masiva de datos - II
 Oficina de Gestión de Personal del Gobierno de EE.UU.
(2014).
 Unos hackers acceden a información de 21 millones de
personas, incluyendo empleados que pueden acceder a
información secreta y huellas dactilares espías.
 Yahoo!:
 2013: Robo de datos de cuentas de 1.000 millones de usuarios.
 2014: Se ven afectados otros 500 millones.
 Yahoo! afirmó que el ataque lo había perpetrado un
desconocido agente pagado por el Estado.
Epílogo - I
 La IA y el análisis de macro datos son una gran oportunidad para
la humanidad, pero hemos visto que también tienen aplicaciones
que hacen el mundo más injusto.
 Seguirá creciendo la economía, pero no necesariamente en
beneficio de la personas de renta más baja. En 2013 la riqueza
total de la mitad más pobre de la población mundial, (más de
3.600 millones de personas), era igual a la de las ocho personas
más ricas del mundo.
 El desempleo seguirá aumentando a medida que lo haga la
automatización y los avances de la IA. Pese a que los optimistas
digan que se crearán nuevos trabajos, no serán suficientes.
Epílogo - II
 Según Erik Brynjolfsson y su ayudante Andrew McAfee del MIT:
 La tecnología premia a quienes tienen más educación: desde
mediados de la década de 1970, los salarios de quienes poseían
un título universitario aumentaron en torno al 25 %, mientras
que aquellos que no habían completado la educación
secundaria vieron cómo sus salarios se reducían en promedio
en un 30 %.
 Desde el año 2000, una proporción cada vez mayor de la renta
empresarial ha ido a parar a los dueños de las compañías, en
detrimento de quienes trabajan en ellas.
 Mientras continúe la automatización, deberíamos esperar que
los propietarios de las máquinas se queden con un pedazo cada
vez más grande del pastel.
Libros recomendados - I
1. Big Data: Una breve introducción – Dawn E. Holmes –
Antoni Bosch Editor – 2018. Si hubiera que seleccionar un único
libro sobre macro datos, éste sería el correcto. Breve, barato y
abarca todo el tema de forma sencilla.
2. Big Data: La revolución de los datos masivos - Viktor
Mayer y Kenneth Cukier – Turner Publicaciones – 2013.
Libro más completo que el anterior, que pese a ser un poco
antiguo merece la pena.
3. Armas de destrucción matemática: Cómo el Big Data
aumenta la desigualdad y amenaza la democracia -
Cathy O’Neil – Capitan Swing Libros – 2017 - Este libro es la
base principal para la segunda parte de la charla. Tan fácil y
apasionante de leer como un buen thriller.
Libros recomendados - II
4. Inteligencia artificial: Cómo cambiará el mundo (y
tu vida) - Pablo Rodríguez – Deusto – 2018. – Escrito por
un gurú tecnológico español, que ha trabajado para
multinacionales importantes del sector, el título no menciona
big data, pero el libro va de la inteligencia artificial actual que
usa macro datos. Bien escrito y de lectura fácil.
5. Big data: El poder de los datos - Fundación
Bankinter – 2015 – Interesante informe, escrito en
forma de artículos por varios autores. Se puede descargar
de forma gratuita en: Big data: El poder de los datos
Libros recomendados - III
6. Vida 3.0: Qué significa ser humano en la era de la
Inteligencia Artificial – Max Tegmark – Editorial Taurus
– 2018 – Libro que habla de muchas cosas, incluyendo en
especial qué es lo que puede pasar si conseguimos máquinas
intelectualmente muy superiores a nosotros y cuándo podría
suceder esto en función de muy diversas predicciones. No
habla específicamente de macro datos, pero hay muchas
referencias al respecto.
7. Desnudando a Google – Alejandro Suárez Sánchez-
Ocaña – Planeta Libros – 2012 – Este libro escrito por alguien
que conoce bien a Google, es muy crítico con esta compañía. Si
hablamos de macro datos tenemos necesariamente que hablar
de Google, Facebook, Microsoft, Amazon, Netflix y otras
empresas similares .
Libros recomendados - IV
8. El lado oscuro de Google: Historia y futuro de la
industria de los metadatos – Colectivo Ippolita –Virus
Editorial - 2010 – Quizás la pega que le podemos poner a estos
dos últimos libros, es que son un poco antiguos. Éste está escrito
por un grupo de expertos informáticos que además son activistas
sociales. Aunque centrado en Google permite entender mejor lo
que es Internet y los macro datos. Tiene licencia Creative
Commons por lo que puede ser descargado gratuitamente,
aunque hay versión en papel. El siguiente es un enlace para su
descarga:
 El lado oscuro de Google
Libros recomendados - V
9. Internet, el futuro y la libertad – Revista trimestral en
papel y formato electrónico correspondiente a Junio de 2018 de
eldiario.es - Está muy relacionada con los aspectos más sociales
de esta charla y también explica la utilidad de los macro datos e
Internet en varios campos. Muy buenos artículos. Los
suscriptores de este periódico actuales y futuros la pueden
descargar gratuitamente. Los que no sean suscriptores pueden
comprarla.
Algunas noticias interesantes sobre big data - I
 2019-03-25 La gestión de datos empleará a 10 millones de
europeos en el 2020
 2019-03-25 Los bots, la segmentación ideológica y la
encriptación crean la tormenta perfecta para la manipulación
electoral en Internet
 2019-03-25 Datos fósiles y datos abiertos
 2019-03-23 Por un "sentido común" democrático
 2019-03-21 Facebook alega que carece de vídeos de atentados
como el de Nueva Zelanda para evitar su difusión
 2019-03-18 Cómo le vigilan los móviles Android sin que lo sepa
 2019-03-17 Electrodomésticos del futuro tendrán ojos y oídos
para detectar tus emociones
Algunas noticias interesantes sobre big data - II
 2019-03-09 Bulos, críticas al PP y una decena de anuncios
diarios: la campaña permanente de Vox en Facebook
 2019-03-04 “Es más peligroso tener a Alexa encima de la mesa
que a un señor observándote cada día en el salón”
 2019-02-27 Una empresa que gestiona big data para la CIA
manejará también los datos mundiales de alimentación y
pobreza
 2019-02-19 Spam electoral y ficheros ideológicos de votantes:
Protección de Datos se enfrenta a los comicios de 2019 sin los
recursos previstos
 2019-01-29 Más allá del piloto automático: así ayudará la
inteligencia artificial al aterrizaje en los aeropuertos
Algunas noticias interesantes sobre big data - III
 2019-01-20 Las mentes matemáticas mueven el mundo
 2019-01-19 Big data bueno, big data malo
 2019-01-07 5G vs 4G: cómo difieren la velocidad, la latencia y el
soporte a aplicación
 2019-01-04 Sobrepasados por el ‘big data’
 2018-12-20 Los partidos políticos no podrán hacer perfiles
ideológicos individuales, según la AEPD, pese a la nueva Ley de
Protección de Datos
 2018-12-19 Facebook permitió a Microsoft, Netflix y Amazon
acceder a datos privados de sus usuarios
 2018-12-14 El alcance del Big Data en España, un mar de
oportunidades
Algunas noticias interesantes sobre big data - III
 2018-12-10 Jaron Lanier: Diez razones para borrar tus redes
sociales de inmediato
 2018-12-10 En la era del big data, ¿quién le pone inteligencia a la
inteligencia artificial?
 2018-12-18 Así funciona el Big Data detrás del fútbol: tres
personas por partido registran cada jugada
 2018-12-04 El neofascismo controla el Big Data
 2018-11-28 El policía que aprendió a programar para predecir
crímenes
 2018-11-23 Las agencias europeas de Francia, Italia y Reino
Unido sí limitan las prácticas de spam político personalizado
aprobadas en España
Algunas noticias interesantes sobre big data - IV
 2018-11-22 En esto consiste la Ley de Protección de Datos
aprobada por el Senado, que regula la propaganda política en
Internet
 2018-11-20 Cinco prácticas que serán legales para los partidos en
España tras la aprobación del spam electoral
 2018-11-14 El equipo médico de Deep Mind se une a Google bajo
la sospecha de incumplir una de las grandes promesas sobre
privacidad
 2018-10-29 Entrevista con Cathy O' Neil, (armas de destrucción
matemática)
 2018-10-25 ¿Tenemos ‘big data’, pero no sabemos qué hacer con
ello?
Algunas noticias interesantes sobre big data - IV
 2018-09-11 ¿Qué fue antes, la inteligencia artificial o el Big Data?
Estos proyectos demuestran su estrecha relación
 2018-08-28 Trump se busca a sí mismo en Google y monta en
cólera al descubrir uno de los grandes problemas de Internet
 2018-08-16 Big Data para desentrañar el futuro de Europa
 2018-07-03 Despedido por un ordenador, ningún humano pudo
hacer nada
 2018-06-26 Movilidad, Big Data y Desarrollo
 2018-06-23 Un futuro alimentario en manos de la tecnología
 2018-04-11 Steve Bannon, de estratega de Donald Trump a
próximo asesor de VOX
Algunas noticias interesantes sobre big data - V
 2018-04-10 El escándalo de Cambridge Analytica resume todo lo
que está terriblemente mal con Facebook
 2018-03-21 5 claves para entender el escándalo de Cambridge
Analytica que hizo que Facebook perdiera US$37.000 millones
en un día
 2018-03-12 Primera línea de defensa en ciberseguridad: IA
 2018-01-06 Cómo el Big Data puede ayudar a luchar contra el
cambio climático
 2017-10-25 Assange destaca la encriptación del voto el 1-O ante
la "fuerza coercitiva" del Gobierno español
 2017-10-20 ¿Saben las empresas qué hacer con tantos datos?
 2017-09-27 Así cambiara el big data la foma en la que
producimos (y consumimos) energía
Algunas noticias interesantes sobre big data - VI
 2017-09-26 Julian Assange, sobre el 1-O: "Rajoy está intentando
hacer de este un proceso violento"
 2017-09-21 Big Data también es una perspectiva
 2017-07-13 El centro de datos del CERN ya tiene más de 200
petabytes de información
 2017-06-15 TransformingTransport: Big Data para mover el
mundo
 2017-04-11 Libros de Big Data en español: protección de datos y
cloud computing
 2017-03-02 Robert Mercer, el multimillonario del ‘big data’ que
está detrás de la victoria de Donald Trump y el Brexit
 2017-02-28 El Big Data que mueve el coche autónomo
Algunas noticias interesantes sobre big data - VII
 2016-11-20 Así es como Predictiveworld “predice tu futuro”
gracias al Big Data
 2016-10-13 No estamos listos para la súperinteligencia
 2016-09-01 ¿Qué puede aportar el Big Data al mundo de la
medicina?
 2106-06-13 ¿Cuántos años quedan para que pueda comprarme
un coche autónomo?
 2016-03-29 Avances y dudas sobre los coches sin conductor
 2015-09-07 Google cierra su aplicación para predecir el
desarrollo de la gripe tras siete años de fracaso
 2015-03-31 ¿Qué es eso del 'big data'?
 EuroCop PRED-CRIME.- Sistema para la Predicción y
Prevención del Delito
 La predicción de delitos y la inteligencia artificial

Más contenido relacionado

Similar a Conferencia: Big Data: ¿Beneficiosos o armas de destrucción matemática?

Big Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaBig Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaHugo Céspedes A.
 
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaBig Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaHCGlobal Group
 
Presentación tecnologías smart cities benjamín villarreal c
Presentación tecnologías smart cities   benjamín villarreal cPresentación tecnologías smart cities   benjamín villarreal c
Presentación tecnologías smart cities benjamín villarreal cBenjamin Villarreal Cifuentes
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOSEdwin Ruiz
 
Unidad Educativa César Antonio Mosquera
Unidad Educativa César Antonio MosqueraUnidad Educativa César Antonio Mosquera
Unidad Educativa César Antonio MosqueraMayurid Jimenez
 
La revolución de los datos: sensores e Internet de las Cosas
La revolución de los datos: sensores e Internet de las CosasLa revolución de los datos: sensores e Internet de las Cosas
La revolución de los datos: sensores e Internet de las CosasSoraya Paniagua
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacionalLuis Joyanes
 
Evolucion del internet linea de tiempo
Evolucion del internet linea de tiempoEvolucion del internet linea de tiempo
Evolucion del internet linea de tiempoedwardfajardorosero
 
avances tecnologicos by Emily Zeron
avances tecnologicos  by  Emily Zeronavances tecnologicos  by  Emily Zeron
avances tecnologicos by Emily Zeronkeyla palacios
 

Similar a Conferencia: Big Data: ¿Beneficiosos o armas de destrucción matemática? (20)

Avances tecnologicos
Avances tecnologicosAvances tecnologicos
Avances tecnologicos
 
Informe unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datosInforme unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datos
 
Big Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaBig Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y Futura
 
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaBig Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
 
Presentación tecnologías smart cities benjamín villarreal c
Presentación tecnologías smart cities   benjamín villarreal cPresentación tecnologías smart cities   benjamín villarreal c
Presentación tecnologías smart cities benjamín villarreal c
 
Practica de word
Practica de wordPractica de word
Practica de word
 
10 Tecnologia Sx
10 Tecnologia Sx10 Tecnologia Sx
10 Tecnologia Sx
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
 
Unidad Educativa César Antonio Mosquera
Unidad Educativa César Antonio MosqueraUnidad Educativa César Antonio Mosquera
Unidad Educativa César Antonio Mosquera
 
HISTORIA DE LA WEB.pptx
HISTORIA DE LA WEB.pptxHISTORIA DE LA WEB.pptx
HISTORIA DE LA WEB.pptx
 
Tecnologias actuales . . . manuel h. irarrica tello
Tecnologias actuales . . . manuel h. irarrica telloTecnologias actuales . . . manuel h. irarrica tello
Tecnologias actuales . . . manuel h. irarrica tello
 
La revolución de los datos: sensores e Internet de las Cosas
La revolución de los datos: sensores e Internet de las CosasLa revolución de los datos: sensores e Internet de las Cosas
La revolución de los datos: sensores e Internet de las Cosas
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacional
 
Evolucion del internet linea de tiempo
Evolucion del internet linea de tiempoEvolucion del internet linea de tiempo
Evolucion del internet linea de tiempo
 
13
1313
13
 
Noticias
NoticiasNoticias
Noticias
 
Noticias
NoticiasNoticias
Noticias
 
Las nuevas fronteras
Las nuevas fronterasLas nuevas fronteras
Las nuevas fronteras
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
avances tecnologicos by Emily Zeron
avances tecnologicos  by  Emily Zeronavances tecnologicos  by  Emily Zeron
avances tecnologicos by Emily Zeron
 

Más de Universidad Popular Carmen de Michelena

Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...
Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...
Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...Universidad Popular Carmen de Michelena
 
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...Universidad Popular Carmen de Michelena
 
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2Universidad Popular Carmen de Michelena
 
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...Universidad Popular Carmen de Michelena
 

Más de Universidad Popular Carmen de Michelena (20)

Introducción sintética a las Enfermedades de las Plantas
Introducción sintética a las Enfermedades de las PlantasIntroducción sintética a las Enfermedades de las Plantas
Introducción sintética a las Enfermedades de las Plantas
 
Situaciones difíciles. La familia reconstituida
Situaciones difíciles. La familia reconstituidaSituaciones difíciles. La familia reconstituida
Situaciones difíciles. La familia reconstituida
 
El suelo en los ecosistemas naturales y agrícolas.
El suelo en los ecosistemas naturales y agrícolas.El suelo en los ecosistemas naturales y agrícolas.
El suelo en los ecosistemas naturales y agrícolas.
 
Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...
Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...
Enfermedad de Alzheimer. Seminario Enfermedades neurológicas y Conducta - Lec...
 
Enfermedades Neurodegenerativas - Seminario enfermedades neurológicas
Enfermedades Neurodegenerativas - Seminario enfermedades neurológicasEnfermedades Neurodegenerativas - Seminario enfermedades neurológicas
Enfermedades Neurodegenerativas - Seminario enfermedades neurológicas
 
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...
Introducción a la macro y micro-anatomía del encéfalo. Enfermedades neurológi...
 
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2
Daños innatos en el cerebro. Seminario Enfermedades Neurológicas y Conducta - 2
 
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...
Lesiones adquiridas en el cerebro. Seminario Enfermedades neurológicas y Cond...
 
Programa del Concierto en el Auditorio Nacional de Madrid 2024-02-02
Programa del Concierto en el Auditorio Nacional de Madrid 2024-02-02Programa del Concierto en el Auditorio Nacional de Madrid 2024-02-02
Programa del Concierto en el Auditorio Nacional de Madrid 2024-02-02
 
Programa del Concierto en el Auditorio de Madrid 2024-02-02
Programa del Concierto en el Auditorio de Madrid 2024-02-02Programa del Concierto en el Auditorio de Madrid 2024-02-02
Programa del Concierto en el Auditorio de Madrid 2024-02-02
 
Tertulia Antropológica. El rito de paso, 2024-01-26
Tertulia Antropológica. El rito de paso, 2024-01-26Tertulia Antropológica. El rito de paso, 2024-01-26
Tertulia Antropológica. El rito de paso, 2024-01-26
 
Preguntas sobre Reducción de Emisiones de Gases de Efecto Invernadero
Preguntas sobre Reducción de Emisiones de Gases de Efecto InvernaderoPreguntas sobre Reducción de Emisiones de Gases de Efecto Invernadero
Preguntas sobre Reducción de Emisiones de Gases de Efecto Invernadero
 
Preguntas sobre el Calentamiento Global. Seminario Cambio Climático
Preguntas sobre el Calentamiento Global. Seminario Cambio ClimáticoPreguntas sobre el Calentamiento Global. Seminario Cambio Climático
Preguntas sobre el Calentamiento Global. Seminario Cambio Climático
 
Preguntas sobre el Efecto Invernadero. Seminario Cambio Climático
Preguntas sobre el Efecto Invernadero. Seminario Cambio ClimáticoPreguntas sobre el Efecto Invernadero. Seminario Cambio Climático
Preguntas sobre el Efecto Invernadero. Seminario Cambio Climático
 
notascambioclimatico-Enlaces-1.pdf
notascambioclimatico-Enlaces-1.pdfnotascambioclimatico-Enlaces-1.pdf
notascambioclimatico-Enlaces-1.pdf
 
El Efecto de Invernadero - U.P. Carmen de Michelena - Curso 2022-2023
El Efecto de Invernadero - U.P. Carmen de Michelena - Curso 2022-2023El Efecto de Invernadero - U.P. Carmen de Michelena - Curso 2022-2023
El Efecto de Invernadero - U.P. Carmen de Michelena - Curso 2022-2023
 
La Perspectiva Decolonial
La Perspectiva DecolonialLa Perspectiva Decolonial
La Perspectiva Decolonial
 
Memoria del Curso 2021 - 2022. Universidad Popular Carmen de Michelena
Memoria del Curso 2021 - 2022. Universidad Popular Carmen de MichelenaMemoria del Curso 2021 - 2022. Universidad Popular Carmen de Michelena
Memoria del Curso 2021 - 2022. Universidad Popular Carmen de Michelena
 
Ágora Tricantina número 10 - Junio 2022
Ágora Tricantina número 10 - Junio 2022Ágora Tricantina número 10 - Junio 2022
Ágora Tricantina número 10 - Junio 2022
 
Las Energías y el Cambio Climático: Problema y Solución
Las Energías y el Cambio Climático: Problema y SoluciónLas Energías y el Cambio Climático: Problema y Solución
Las Energías y el Cambio Climático: Problema y Solución
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 

Último (19)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 

Conferencia: Big Data: ¿Beneficiosos o armas de destrucción matemática?

  • 1. ¿ B E N E F I C I O S O S O A R M A S D E D E S T R U C C I Ó N M A T E M Á T I C A ? UNIVERSIDAD POPULAR CARMEN DE MICHELENA BIG DATA (MACRO DATOS)
  • 2. Epidemia de cólera en el Londres de 1854  El médico John Snow recopila gran cantidad de datos.  Todas las personas afectadas usaban la misma bomba pública de agua.  Snow elaboró un mapa en el que mostró que la enfermedad surgía de focos cercanos a la bomba de Broad Street.  Este médico siguió trabajando en este campo, por lo que se le considera precursor de la epidemiología.  Cada vez más, los países comenzaron a elaborar censos, estadísticas de incidencia de enfermedades, tasas de natalidad y mortalidad, etc.
  • 3. Recopilación de datos en el siglo XIX  En EE.UU. empezaron a elaborar censos de población.  Para elaborar el censo de 1870 en EE.UU. se disponía de una máquina de recuento.  En 1880 tardaban 8 años para procesar los datos y calcularon que en 1890 tardarían más de 10.  Eso era insuficiente y en 1890 emplearon la máquina tabuladora de Hollerith con lo que pasaron de 10 años a 3 meses para procesar el censo.
  • 4. ¿Qué es Big Data? (Macro datos o datos masivos) - I  Se refiere tanto al tratamiento de los datos, que trata de extraer información útil de los mismos, como a los datos propiamente dichos.  En muchas ocasiones, los macro datos se usan para realizar predicciones.  Gran Volumen y complejidad de datos.  Datos estructurados, no estructurados y parcialmente estructurados.  Datos en formato texto y en formato multimedia.  Necesidad de gran Velocidad de cómputo para su tratamiento.  Variedad de fuentes de datos.
  • 5. ¿Qué es Big Data? (Macro datos o datos masivos)-II  A veces dudas sobre su consistencia y necesidad de aproximaciones. (¿Veracidad?).  Imposibilidad de su tratamiento mediante los métodos de computación tradicionales.  No siempre mayor cantidad de datos significa mejores predicciones.  En el año 2007 la revista Wired mencionó el concepto de macro datos.
  • 7. ¿Es Big Data lo mismo que inteligencia artificial?-I  Es muy común en Big Data utilizar técnicas de inteligencia artificial (IA).  Sin embargo, hay algoritmos para reducir datos y otros para tratamiento estadístico, distintos a la IA, aunque según la definición siguiente, lo importante es la apariencia de comportamiento inteligente de la máquina. • “La IA es la ciencia de hacer que las máquinas hagan cosas que requerirían inteligencia si las hicieran los hombres”. (Marvin Minsky, fundador del Laboratorio de Inteligencia Artificial del M I T). • En los principios de la IA, no había posibilidad de utilizar macro datos.
  • 8. ¿Es Big Data lo mismo que inteligencia artificial?-II • Una rama de la IA, Machine Learning, (aprendizaje automático), se suele usar con grandes cantidades de datos. • El aprendizaje automático se puede conseguir mediante el uso de varias capas de redes neuronales artificiales: Aprendizaje profundo (Deep Learning). • Multiplicar n números requiere: o 2ⁿ neuronas en una red de una sola capa. o 4n neuronas, aproximadamente, en una red profunda.
  • 9. Múltiplos de bytes (un byte es equivalente a 8 bits) Nombre Abreviatura Valor Kilobyte KB 1000 = 103 Megabyte MB 10002 = 106 Gigabyte GB 10003 = 109 Terabyte TB 10004 = 1012 Petabyte PB 10005 = 1015 Exabyte EB 10006 = 1018 Zettabyte ZB 10007 = 1021 Yottabyte YB 10008 = 1024
  • 10. Volumen de datos - I  Suelen tratarse entre unos 30 TB y varios PB en una aplicación de Big Data.  En 2013 Google procesaba 24 PB al día.  Un estudio de IBM calculó en 2017 que cada día se generaban 2,5 EB.  En 2017 el CERN almacenaba 200 PB y se guardaba uno diario a partir de que las colisiones de partículas del LHC producían 1 PB por segundo.  En enero de 2017 había 1.200 millones de usuarios de WhatsApp.  En 2020 se calcula se procesarán 40 ZB.
  • 11. Volumen de datos - II  En 2022, (previsiones de CISCO):  El 60% de la población mundial será usuaria de Internet.  28.000 millones de dispositivos conectados.  14.600 millones de conexiones con altavoces inteligentes u otros dispositivos. (Actualmente 6.100 millones).  El tráfico de vídeo se multiplicará por 4.  El tráfico de juegos se multiplicará por 9.
  • 12. Volumen datos en 2017 por minuto  156 millones de correos electrónicos.  3,5 millones búsquedas en Google.  16 millones de SMS.  46.200 nuevos contenidos en Instagram.  452.000 tuits.  1,8 millones de snaps en Snapchat.  20 millones publicaciones nuevas en Facebook.  34.000 visitas y en torno a 100 horas cargadas a YouTube.
  • 14. Macro datos en astronomía - I  Los telescopios y las expediciones aeroespaciales generan enormes cantidades de datos.  Large Synoptic Survey proyecto de 10 años en Chile que producirá mapas del cielo nocturno con un total de 60 PB de datos.  Square Kilometer Array (SKA), se terminará a finales de la década 2020, en Australia y Sudáfrica. El sistema de computación central de SKA tendrá una potencia similar a 100 millones de PC’s. Más de 100 veces el tráfico mundial de Internet en 2015. 160 TB/s datos en bruto o 100 GB/s datos procesados. Almacenamiento de 4,6 EB/año.
  • 15. Macro datos en astronomía - II  La misión espacial Gaia de ESA observará 1000 millones de estrellas y otros objetos de la Vía Láctea. Un Mbit/segundo datos comprimidos durante 5 años, lo que equivale a 60 TB comprimidos y 200 descomprimidos usables en la Tierra.
  • 16. Square Kilometer Array (SKA) (fuente Wikipedia)
  • 17. Google y la gripe (Google Flu Trends)  En 2009 se descubrió un nuevo virus, el H1N1, de la gripe muy peligroso.  Se necesitaba conocer su propagación para tratar de ralentizarla.  En EEUU se tardaban dos semanas para conocer por dónde se propagaba.  Google tomó 50 millones de términos de búsqueda de estadounidenses y los comparó con datos de propagación de gripe entre 2003 y 2008.  Al final con 45 términos de búsqueda y un modelo matemático había una fuerte correlación entre su predicción y las cifras oficiales de 2007 y 2008.  En 2015 se dejó de usar el modelo, porque fracasaron predicciones en temporadas 2011-12 y 2012-13.
  • 18. Otras investigaciones en propagación de epidemias  El grupo Delphi de la universidad Carnegi Mellon predijo la gripe en 2014-15 y 2015-16 con exactitud mediante datos de Google, Twiter y Wikipedia.  En 2008 la Fundación Flowminder rastreó datos de posicionamiento de teléfonos móviles para ayudar a la OMS a erradicar la malaria.  En 2014 Flowminder investigó una epidemia de ébola en África occidental.
  • 19. Terremoto en Nepal  En 2015 Flowminder colaboró con universidades de Southampton y Oxford e instituciones de EE.UU. y China para estimar el desplazamiento de la población, tras un terremoto en Nepal.  El uso de telefonía móvil en Nepal es elevado.  Usaron datos anonimizados de 12 millones de teléfonos.  Contaron con un ordenador y un disco de 12 TB en el centro de proceso de datos del operador telefónico.  Hubo una intervención rápida y eficaz de las organizaciones humanitarias.
  • 20. Predicción de todo tipo de catástrofes  Hay muchos otros casos en los que el análisis de datos masivos, incluyendo datos meteorológicos, movimientos de la población afectada, situación de carreteras, cartografiar asentamientos de refugiados, etc., es fundamental para intervenciones adecuadas ante catástrofes y emergencias sanitarias.
  • 21. Medicina inteligente - I  Los historiales médicos electrónicos se pueden anonimizar para investigación.  Hay datos de pruebas clínicas, (análisis, resonancia,…), medicación, etc.  En 2015 un hospital medio estadounidense almacenaba más de 600 TB de datos.  Se toman datos relevantes para un paciente o un grupo y se usan técnicas estadísticas.  Las notas médicas precisan técnicas de procesado de lenguaje natural, como el sistema Watson de IBM.
  • 22. Medicina inteligente - II  Los dispositivos ponibles, (wareable), pueden monitorizar la salud de individuos sanos: pasos diarios, ritmo cardíaco, presión arterial, patrones de sueño,… También existen aplicaciones de teléfono móvil para esto.  Esta información en ocasiones se procesa en nuestro ordenador.  A veces se procesa en una nube con lo que una empresa tiene nuestros datos.  En ocasiones son los médicos los que piden al paciente que se ponga un dispositivo.
  • 23. Medicina inteligente - III  Verily Life Sciences, de Google Alphabet, está desarrollando nanopartículas que pueden identificar el cáncer y otras enfermedades, y enviar sus datos a un dispositivo portátil situado en el brazo del usuario.  La IA es eficaz en el análisis de pruebas médicas como biopsias, resonancias, radiografías, etc. gracias a los macro datos. En 2015 un estudio holandés comprueba que el diagnóstico computarizado a partir de resonancia, tiene la misma calidad que los médicos patólogos en detección del cáncer de próstata
  • 24. Medicina inteligente - IV  En 2017 un estudio de varias compañías de Google Alphabet, mediante una red neuronal trabajando sobre imágenes de microscopía gigapixel, ha llegado a detectar metástasis en cáncer de mama con acierto del 92,4% de los tumores frente al 73,2% de patólogos.  Robots cirujanos. Un robot puede ayudar o reemplazar cirujanos. Además, gracias a la tecnología 5G, médicos expertos pueden ayudar en tiempo real en operaciones realizadas a distancia en la que intervienen médicos no especialistas.
  • 25. Medicina inteligente - V  General Electric cree que sólo aumentando un 1% la eficiencia de la asistencia sanitaria se ahorrarían 63 millones de dólares cada año en EE.UU.  Buena idea que las empresas promuevan hábitos saludables entre sus empleados, pero ¿qué ocurre si se suministran dispositivos para registrar datos sobre parámetros de salud y si no se alcanzan ciertos niveles, los empleados pierden su empleo?
  • 26. Genoma Humano (2003)  Entre 20.000 y 25.000 genes, cuya secuencia ocupa 100 GB.  Cientos de PB para almacenar la información de una persona y su análisis.  La primera secuenciación tardó 15 años y costó unos 3 millones de dólares.  Actualmente, hay empresas que ofrecen servicios individuales por poco dinero.  Tener un determinado gen puede provocar más probabilidades de una enfermedad o también de un éxito deportivo.  El proyecto Humano Fisiológico Virtual , desarrollado a partir del Genoma Humano, pretende construir simulaciones informáticas para predecir el resultado de un tratamiento.
  • 27. ¿Por qué Watson se usa en medicina? - I  En 2007 IBM hace un programa para jugar al programa de TV Jeopardy.  Gana a dos campeones de Jeopardy.  En Jeopardy se da una respuesta y hay que encontrar la pregunta.  Se usan técnicas de procesamiento de lenguaje natural, aprendizaje automático y análisis estadístico.  El sistema médico Watson se basa en el original de Jeopardy.  Se analizan datos estructurados y no estructurados.  Se modela el pensamiento humano en un campo concreto.
  • 28. ¿Por qué Watson se usa en medicina? - II  Toma toda la información relevante y se dan diagnósticos con niveles de confianza.  Watson se usó también en el seguimiento de la expansión del ébola en Sierra Leona.  Watson se utiliza en muchas aplicaciones comerciales.
  • 29. Compra de billetes de avión - I  En 2003, Oren Etzione compró un billete de avión por Internet con mucha antelación.  Etzione preguntó a otros pasajeros y descubrió que habían pagado menos, comprando más tarde.  Con una muestra de 12.000 precios de vuelos en un periodo de 41 días creó un modelo predictivo: Hamlet, que evolucionó en Farecast.  En 2008 se estaba planeando aplicar el método a habitaciones de hotel, coches de segunda mano, entradas de conciertos y cualquier cosa con variaciones de precio y muchos datos procesables, pero lo compra Microsoft que lo integra en su buscador Bing.
  • 30. Compra de billetes de avión - II  En 2012 acertaba el 75% de las veces y ahorraba una media de 50 dólares por billete.  Farecast surgió en un momento en que había capacidad de almacenamiento y de proceso suficiente.
  • 31. Macro datos y publicidad - I  Al navegar por Internet se ve publicidad. ¿Cómo se consigue?  Pago por clic: Una empresa quiere que un producto aparezca con cierto término de búsqueda. Paga por ello con un límite de gasto. Los anuncios aparecen ordenados en función de lo que se ha pagado por ellos.  El proveedor de búsquedas sólo cobra si se hace clic en el anuncio.  Puede haber clics fraudulentos de una empresa rival, incluso con clickbots, (“robots de hacer clic”). Para combatir el fraude se puede considerar el número medio de clics que pueden generar una compra.
  • 32. Macro datos y publicidad - II  Cookies: El servidor de la web a la que accedemos, remite un pequeño fichero para guardar hábitos de navegación en nuestro ordenador del acceso a esa web.  Publicidad dirigida: Se registran todos nuestros datos de navegación, se envían a redes publicitarias de terceros y se almacenan en cookies de nuestro ordenador.  Sistemas de recomendación: Recomiendan tendencias, lo que buscan otros usuarios de forma similar a nosotros. (Amazon, Netflix, Facebook, etc.)
  • 33. Conducción autónoma - I  IHS Automotive ha calculado que en 2035 el 10% de los coches que se venderán serán completamente autónomos.  Cada año mueren más de 1,3 millones de personas en todo el mundo por accidentes de tráfico, el 90% por errores humanos. Más del doble de los que mueren por guerras, crímenes y terrorismo.  El coche autónomo de Google, Waymo, que es seguramente el que más datos genera en la actualidad, produce cada segundo más de 750 Mb de información, la mayoría de ella de carácter no estructurada.  Un coche autónomo genera unos 10 gigabytes de datos por cada milla recorrida (1,6 km aprox.).
  • 34. Conducción autónoma - II  La tecnología 5G va a suponer el auténtico despegue del coche autónomo:  Un semáforo podrá avisar a un coche de que está cruzando un peatón.  Una bici con un pequeño dispositivo advertirá a los coches de su presencia.  La velocidad teórica de 5G es 10 Gbps, unas 100 veces más rápida que 4G.  La velocidad de latencia de 5G es casi 1 ms, entre 60 y 120 veces más rápido que 4G.  Los macro datos llegarán a cantidades tremendas con el coche autónomo y el resto del Internet de las Cosas (IdC).
  • 35. Monitorización flujo de personas en una ciudad - I  Se recogen datos de:  Helicópteros de tráfico.  Cámaras en la calle.  Sensores de las calles.  Patrullas de policía.  Datos de medios de transporte público.  Encuestas…  Mucho mejor: Datos anonimizados procedentes de teléfonos móviles.
  • 36. Monitorización flujo de personas en una ciudad - II  Se usan para:  Establecer horarios del transporte público.  Funcionamiento de semáforos.  Planificación del sector turístico, incluyendo consejo de rutas para turistas, información para hoteles y restaurantes, etc.  Reducción de la contaminación atmosférica.
  • 37. Macro datos y cambio climático (CC) - I  El cálculo de emisiones de CO2 se podrá especificar de forma más exacta.  Análisis y predicciones más exactas de deshielo de glaciares y crecimiento nivel del mar.  Hay predicciones de que en 2060 haya 1400 millones de refugiados climáticos.  Wheater Analytics estima que el 33% del PIB mundial se ve afectado por el CC.
  • 38. Macro datos y cambio climático (CC) - II  “Promover acciones eficaces para el cambio climático no sólo requiere datos relativos al clima, sino también información integral sobre el comportamiento humano”. “El big data puede ofrecer una respuesta dinámica acerca de la manera en que las comunidades afectan y se ven afectadas por el sistema climático, y permiten innovar para mejorar la sostenibilidad y la capacidad de recuperación. Dichos datos proceden principalmente de las compañías, como las que participarán en el reto ‘Data for Climate Action’”.(Robert Kirkpatrick, Director de UN Global Pulse, iniciativa de innovación en macro datos de las Naciones Unidas. Data for Climate Action une a ésta y a Western Digital Corporation, líder global en soluciones y tecnologías de almacenamiento de datos ).
  • 39. Otras aplicaciones útiles de los macro datos, I  Mediante redes de sensores se detecta la escarcha, la humedad de las hojas, la humedad del terreno y las plagas. Cuando la presión de las plagas alcanza un nivel crítico, el sistema distribuye unas dosis precisas de feromonas para alterar los ciclos de apareamiento de las especies invasoras. También los sensores pueden servir para determinar riego óptimo.  Un ácaro, varroa destructor, ataca las abejas. Se hace un circuito impreso en una película de bioplástico de máiz recubierto de cera. El circuito detecta el varroa y sube la temperatura de la colmena a 42º, matando el ácaro.  EE.UU. podría ahorrar 200.000 millones de dólares en el sector sanitario. (8% del coste).
  • 40. Otras aplicaciones útiles de los macro datos, II  En Europa se ahorrarían más de 100.000 millones de euros en eficiencia operativa, más mejora en la detección del fraude fiscal y errores recaudación.  Se usan para detectar nuevos virus informáticos y otro malware en función del análisis de los existentes hasta el momento.  La detección de spam se basa en el análisis de todos los correos electrónicos.  Los datos de teléfonos móviles y otros pueden ser también muy útiles para determinar por barrios o zonas de un país:  Mapas de pobreza.  Mortalidad infantil.  Cambios en PIB.  Delincuencia.
  • 41. Otras aplicaciones útiles de los macro datos, III  La vigilancia policial predictiva es muchas veces eficaz, pero más adelante veremos que puede tener graves inconvenientes.  En el proyecto Transforming Transport participan 47 socios de varios países incluyendo España. Se trata de aplicar análisis de macro datos a aeropuertos, puertos, ferrocarril, autopistas, flotas sostenibles de vehículos, control de tráfico en ciudades y logística. Por ejemplo, en compañías ferroviarias se trata de prever fallos en infraestructuras y reducir costes.  Asesoramiento y análisis de riesgo de inversiones financieras.  Concesión de créditos.  La propia mejora de los protocolos, (formas de conectar) de Internet.
  • 42. Problemas del Internet de las Cosas (IdC) - I  IdC tiene múltiples ventajas, porque tenemos dispositivos conectables a Internet para casi todo, pero también tiene inconvenientes.  Si un hacker ataca dispositivos IdC puede:  Lanzar peticiones masivas a webs, (ataques de denegación de servicio).  Sustracción de información, (ejemplo, espionaje con cámaras).  Hacer funcionar mal el dispositivo, (ejemplo, inutilizar los frenos de un coche autónomo o al menos conectado a Internet, o cambiar el movimiento de una pierna o brazo biónicos).  Si hay un ciberataque, de quién es la responsabilidad, (¿fabricante, prestador de servicio o usuario por no aplicar actualizaciones?).
  • 43. Problemas del Internet de las Cosas (IdC) - II  Otros problemas que podemos tener es si no se cifra la información que envía o recibe el dispositivo, o no se configura correctamente su privacidad. En este último caso, podemos ofrecer información personal que no deberíamos compartir.
  • 44. Citas sobre macro datos y sobre la WWW - I  “Debemos guardarnos contra la confianza excesiva en los datos, no vayamos a caer en el error de Ícaro, quien adoraba su capacidad técnica de volar pero no supo usarla y se precipitó en el mar”. (“Big data – La revolución de los datos masivos” de Viktor Mayer-Schönberger y Kenneth Cukier).  “Los datos son el nuevo petróleo”. (Atribuida a Clive Humby, inventor de la tarjeta de fidelización de clientes Tesco).  “Las personas ricas podrán optar por salirse y pagar, digamos, por apps sin publicidad o que no recopilen sus datos. Los pobres usarán la Red gratis, pero tendrán que dar sus datos. Pero realmente no importa quién seas, todos somos adictos: cualquiera que tome crack se quedará colgado”. ( Kara Swisher, periodista especializada en Silicon Valley).
  • 45. Citas sobre macro datos y sobre la WWW - II  ”Aunque la web ha creado oportunidades, dado voz a grupos marginalizados, y hecho más fáciles nuestras vidas, también ha creado oportunidades a los timadores, dado voz a los que difunden odio, y hecho todo tipo de crímenes más fáciles de cometer”. “Las empresas deben esforzarse para asegurar que buscar mayores beneficios a corto plazo no quede a expensas de los derechos humanos, la democracia, los hechos científicos y la salud pública”. (Thomas Berners Lee creador de la World Wide Web).
  • 46. Caso Snowden -I  En junio de 2013 The Guardian revela que la NSA está recopilando metadatos en algunas redes de telefonía móvil de EE.UU.  La siguiente noticia es que se está usando un programa para recoger datos de Internet sobre ciudadanos extranjeros que se comunican con EE.UU.  Hubo una sucesión de filtraciones que incriminaban a EE.UU. y Reino Unido.  Quien filtraba era Edward Snowden que trabajaba en criptografía para la NSA, a través de una empresa. Envió información a periodistas bien elegidos.  Snowden tenía acceso directo a muchos de los documentos que robó, debido a que era administrador de sistemas.
  • 47. Caso Snowden - II  Para ciertos documentos de confidencialidad muy alta, utilizó las contraseñas de usuarios privilegiados, porque él había creado las cuentas  Para ciertos documentos de confidencialidad muy alta, utilizó las contraseñas de usuarios privilegiados, porque él había creado las cuentas.  Copió alrededor de 1,5 millones de documentos confidenciales y pasó a los periodistas unos 200.000.  Al parecer sacaba los documentos mediante memorias USB.
  • 48. Caso Snowden - III  “I don't want to live in a world where everything I say, everything I do, everyone I talk to, every expression of creativity and love or friendship is recorded.” ("No quiero vivir en un mundo donde todo lo que digo, todo lo que hago, todos con quienes hablo, cada expresión de creatividad, amor o amistad se registre".) – Edward Snowden.
  • 49. ¿Qué ocurre cuando los estados quieren controlar a sus ciudadanos? -I  Algunos países pueden llegar a controlar a sus ciudadanos mediante métodos como:  Sistemas de vigilancia mediante cámaras de reconocimiento facial.  Software de IA capaz de cruzar datos de:  Cuentas corrientes.  Trabajos.  Aficiones.  Patrones de consumo.  Acceso a Internet controlado  A veces se prohíbe WhatsApp u otros sistemas de mensajería.
  • 50. ¿Qué ocurre cuando los estados quieren controlar a sus ciudadanos? -II  Obviamente, si un estado trata de detectar terroristas o criminales de una forma controlada por jueces independientes, no debería haber problemas, lo malo es cuando el estado es omnipotente y no se respeta la privacidad, ni la presunción de inocencia.  También es adecuado combatir el fraude fiscal.
  • 51. ¿Encontrar la pareja perfecta por Internet? - I  Actualmente hay quienes usan aplicaciones para conocer a sus parejas.  Bastan tres preguntas en la primera cita, dice Christian Rudder, uno de los fundadores del sitio de citas estadounidense OkCupid:  "¿Te gustan las películas de terror?“  "¿Alguna vez has viajado solo/a por otro país?"  "¿No sería divertido dejar todo e irse a vivir a un velero?"  Dice este experto que las respuestas suelen coincidir en personas que acaban formando pareja.
  • 52. ¿Encontrar la pareja perfecta por Internet? - II  Algunos sitios de búsqueda de pareja por Internet de EE.UU., emparejan gente en base a sus calificaciones crediticias.  Según CreditScoreDating “las buenas calificaciones crediticias son sexi”.  En EE.UU. las calificaciones crediticias se obtienen mediante el proceso de todo tipo de datos. No hay tanta protección de la privacidad como en la Unión Europea.  Pese a ello, no se puede considerar tan grave el uso de calificaciones crediticias en este caso, como en su utilización para seleccionar trabajadores o incluso en la concesión de créditos en lo que realmente lo que habría que tener en cuenta, es si una persona paga o no sus facturas, no informaciones sobre, por ejemplo, lo que hace en Internet.
  • 53. “Big Data” un cortometraje de Javier San Román - I  Big Data  El enlace anterior dirige a un cortometraje que está en la web:  https://cortosdemetraje.com/  Agradezco al director del corto Javier San Román su permiso para usar el corto en esta charla y a Alejandro Ruíz responsable de comunicación de la web mencionada sus gestiones para conseguir el permiso.  Javier San Román hace cortos y también publicidad en la siguiente web:  http://www.chinatown.ws/
  • 54. “Big Data” un cortometraje de Javier San Román - II  Cortosdemetraje tiene los siguientes perfiles en redes sociales:  https://www.facebook.com/cortosdemetraje/  https://twitter.com/Cortodemetraje  https://www.instagram.com/cortosdemetraje/  https://www.pinterest.es/cortosdemetraje/
  • 55.
  • 56. Juramento hipocrático propuesto por Emanuel Derman y Paul Wilmott en 2008 (citado por Cathy O’Neil)  “Recordaré que no he creado el mundo, y que éste no satisface mis ecuaciones”.  “Aunque emplee audazmente modelos para estimar valor, no me dejaré impresionar excesivamente por las matemáticas”.  “Nunca sacrificaré la realidad por elegancia, sin explicar por qué lo he hecho”.  “Tampoco proporcionaré a quienes usen mis modelos una falsa sensación de seguridad sobre su precisión, sino que haré explícitos supuestos y omisiones”.  “Reconozco que mi trabajo puede tener enormes efectos sobre la sociedad y la economía, muchos de ellos más allá de mi comprensión”.
  • 57. Promesas del big data y las matemáticas - I  Un programa de ordenador puede:  Procesar gran número de datos concernientes a personas.  No tener los prejuicios que puede tener un humano.  Es factible:  Ordenar currículos para puestos de trabajo.  Valorar peticiones de créditos.  Calcular de forma óptima el precio de una póliza de seguro.  Decidir qué presos pueden tener libertad condicional.  Etc.
  • 58. Promesas del big data y las matemáticas - II  ¿Pero, qué ocurre cuando los algoritmos son opacos y nadie nos explica cómo se están aplicando?  ¿Y si ni siquiera los informáticos o los matemáticos que han intervenido en la programación entienden lo que están haciendo las máquinas?  Evidentemente, un problema prácticamente insoluble es cuando se usa una red neuronal artificial multicapa, (aprendizaje profundo). En ese caso un humano no puede llegar a saber cómo ese tipo de sistema, ha llegado a determinadas conclusiones, pero si habrá que intentar no utilizar resultados que conduzcan a discriminación de algún tipo u otros resultados indeseables.
  • 59. Eliminación de profesores incompetentes, (con uso de “small data”, en lugar de “big data” en Washington) - I  El programa IMPACT evalúa a todos los docentes.  2009-2010: Se despide al 2%.  2010-2011: Se echa otro 5%, (206 profesores).  La profesora Sarah Wisocky era apreciada por dirección y padres. La echan.  Los alumnos de Sarah habían tenido otros profesores el curso anterior y notas muy buenas.  Cuando empezó el curso, Sarah descubrió que los alumnos sabían poco.  ¿Qué había pasado? – Otros profesores habían inflado las notas.
  • 60. Eliminación de profesores incompetentes, (con uso de “small data”, en lugar de “big data” en Washington) - II  Sarah no consiguió encontrar a nadie que le explicara su puntuación IMPACT.  Sarah sólo estuvo pocos días en paro. La contrataron en un colegio particular.  Otro caso, Sarah Bax, profesora de matemáticas, dijo al administrador del distrito: “¿Cómo puedes justificar el hecho de que estéis evaluando a personas con un método que no sois capaces de explicar?
  • 61. Cómo utilizar modelos matemáticos predictivos en beisbol y otros deportes  Los modelos de beisbol, fútbol y otros deportes son transparentes.  Todo el mundo tiene acceso a las estadísticas.  Se incorporan todos los datos disponibles hasta el mínimo detalle.  Se actualizan las estadísticas continuamente.  Gran cantidad de datos y además relevantes para lo que se quiere predecir.  Si el modelo no funciona, se analiza y se cambia.  Lo contrario a la despedida de profesores en Washington:  Se basaban en pocos datos para evaluar a docentes concretos.  Nadie sabía cómo funcionaban los algoritmos, (o nadie lo explicaba).  En otros casos sí que hay muchos datos, pero no directamente relacionados con lo que se pretende predecir, por lo que se utilizan datos sustitutivos, lo cual es igualmente peligroso.
  • 62. Cómo utilizar modelos matemáticos predictivos en beisbol y otros deportes  Los modelos de beisbol, fútbol y otros deportes son transparentes.  Todo el mundo tiene acceso a las estadísticas.  Se incorporan todos los datos disponibles hasta el mínimo detalle.  Se actualizan las estadísticas continuamente.  Gran cantidad de datos y además relevantes para lo que se quiere predecir.  Si el modelo no funciona, se analiza y se cambia.  Lo contrario a la despedida de profesores en Washington:  Se basaban en pocos datos para evaluar a docentes concretos.  Nadie sabía cómo funcionaban los algoritmos, (o nadie lo explicaba).  En otros casos sí que hay muchos datos, pero no directamente relacionados con lo que se pretende predecir, por lo que se utilizan datos sustitutivos, lo cual es igualmente peligroso.
  • 63. Discriminación por raza - I  Las condenas de cárcel impuestas a hombres negros son 20% más largas que a blancos por delitos similares en EE.UU.  Los negros representan el 13% de la población y el 40% de los reclusos.  En el condado de Harris, (Houston), es tres veces más probable pedir la pena de muerte para un afroamericano y cuatro veces más para un hispano que para un blanco por el mismo delito.  ¿Se puede resolver el problema mediante un sistema informático?
  • 64. Discriminación por raza - II  El modelo LSI-R o Inventario de Nivel de Servicio Revisado incluye un cuestionario:  ¿Cuántas condenas previas ha tenido? ¿Qué papel tuvieron otras personas en el delito? ¿Qué papel tuvieron las drogas y el alcohol?, ¿Familiares o amigos han delinquido?, etc.  Puede que a un blanco no lo haya parado nunca la policía, pero a un negro lo pueden haber hecho docenas de veces sin que haya hecho nada.  En Nueva York negros e hispanos (14 a 24 años) son 4,7% población y 40,6% de los cacheos, (90% casos inocentes).
  • 65. ¿Es adecuado usar sistemas estadísticos como LSI-R o son ADM (Armas de Destrucción Matemática)? - I  En algunos estados como Rhode Island se usa para incluir reclusos en programas de prevención de la reincidencia. Esto parece muy correcto.  En otros estados los jueces los utilizan para decidir condenas.  Si en un juicio la acusación menciona antecedentes penales de amigos o familia del acusado, el abogado defensor protestará.  Una persona calificada por LSI de alto riesgo puede estar en paro y ser de un barrio conflictivo. Será condenada a más años con otros delincuentes. Volverá después al mismo barrio y será difícil que encuentre un trabajo. Tendrá más probabilidades de delinquir y el modelo se apuntará un éxito.
  • 66. ¿Es adecuado usar sistemas estadísticos como LSI-R o son ADM (Armas de Destrucción Matemática)? - II  El propio modelo está alimentando un círculo tóxico.  Los que responden el cuestionario, no suelen saber las consecuencias de sus respuestas, porque los funcionarios les explican lo mínimo.  Un estudio de 2016 argumentó que el software de predicción de reincidencia estaba sesgado contra los afroamericanos.  Análogamente, muchas empresas ocultan sus modelos.
  • 67. Crisis financiera del 2008 en EE.UU. y todo el mundo - I  Los bonos inmobiliarios eran paquetes de créditos hipotecarios, inicialmente de créditos correctos y con pagos al corriente. Algún crédito podía fallar, pero el conjunto garantizaba poco riesgo a los bonos y alto interés.  Los bancos comienzan a dar créditos arriesgados, (hipotecas subprime), para seguir vendiendo bonos.  En julio del 2007 los intereses interbancarios suben.  A fines del 2007 comienza la caída brusca de los mercados bursátiles en EE.UU.
  • 68. Crisis financiera del 2008 en EE.UU. y todo el mundo - I  La crisis se debió a las hipotecas y muchos otros factores: inflación, subida petróleo, …  Cathy O’ Neil trabajaba por aquel entonces para el fondo de cobertura Shaw. Deja su trabajo en el 2009 y se va a RiskMetrics que calculaba riesgos para los bancos.  Los modelos matemáticos se basan en que los patrones del pasado se repiten.  Los bonos eran instrumentos financieros a partir de los cuales se elaboraban modelos, pero esos modelos eran defectuosos, auténticas ADM.
  • 69. Clasificación universidades americanas - I  Una revista decide en 1983 evaluar 1800 facultades y universidades de EE.UU.  Al principio valoran en función de resultados de una encuesta enviada a los rectores.  Llegan cientos de quejas de rectores, estudiantes y antiguos alumnos.  Como no podían hacer una medida directamente, usaron valores sustitutivos:  Puntuaciones de examen de acceso a la universidad.  Número de alumnos por profesor.  Porcentaje de alumnos que pasan de primero a segundo y que se gradúan.  Porcentaje de antiguos alumnos que donan dinero a su universidad, etc.
  • 70. Clasificación universidades americanas - II  Tres cuartas partes de la puntuación eran por lo anterior. Una cuarta tenía en consideración la opinión subjetiva de empleados de universidades.  Los primeros resultados en 1988 fueron razonables.  Después apareció un bucle de retroalimentación vicioso: Cuando a una universidad le iba mal, la evitaban los mejores alumnos y profesores.  Los rectores mejoraban las 15 áreas definidas por unos periodistas, no lo que realmente importaba. Además, en ocasiones se remitían datos falsos.  No se tuvo en cuenta el coste de las matrículas. Aumentaron 4 veces la tasa de inflación entre 1985 y 2013.
  • 71. Algunas formas de hacer trampas - I  La Universidad Cristiana de Texas mejoraba algunos indicadores, pero no era suficiente.  Lanza una campaña de recaudación de fondos y tiene éxito.  Moderniza instalaciones deportivas e inyecta dinero en fútbol americano.  Gracias al éxito en fútbol mejoraron sus matriculaciones. Otras universidades incrementaron matriculaciones por el baloncesto.  Obama quiso crear un nuevo ranking. No lo consiguió, pero a cambio se publicaron multitud de datos en un nuevo sitio web. Ahora los alumnos pueden hacer sus propias preguntas sobre lo que les interesa.
  • 72. Algunas formas de hacer trampas - II  Los rankings también se usan en otros sitios del mundo.  El departamento de matemáticas de la universidad Rey Abdulaziz de Arabia Saudí, quedó el séptimo del mundo, detrás de Harvard y mejor que Cambridge y el MIT.  La universidad saudí había contratado matemáticos cuyos trabajos tenían muchas citas y les había ofrecido 72.000 dólares por ir allí 3 semanas al año con gastos de viaje y hoteles de 5 estrellas. Además, las citas académicas tenían que ser de esa universidad.
  • 73. Publicidad como ADM o anunciantes depredadores - Universidades - I  Las universidades de EE.UU. con ánimo de lucro se centran en los pobres. Ejemplo, universidad de Phoenix se gastaba 50 millones de dólares en anuncios de Google.  A la gente en dificultades, le dicen que no hace lo suficiente para mejorar sus vidas.  Los anunciantes dejan a sus clientes con inmensas deudas con la falsa promesa de mejorar sus vidas.  Muchos de sus futuros estudiantes son inmigrantes que no saben que las universidades públicas son en general mejores y con menor coste.
  • 74. Publicidad como ADM o anunciantes depredadores – Universidades - II  Utilizan mucha información privada en contra de sus víctimas, porque ésta se revela mediante búsquedas en Google o rellenando el formulario universitario:  Baja autoestima, estrés al criar sus hijos en entorno con bandas, drogas,…  Una sola universidad tenía un equipo de marketing de 30 personas. Gastaban 120 millones de dólares al año para perseguir 2,4 millones de oportunidades de negocio. 60.000 estudiantes nuevos y 600 millones de dólares al año.  Anuncios en TV y vallas, correo, anuncios en búsquedas de Google, equipos de reclutadores en institutos, etc.
  • 75. Publicidad como ADM o anunciantes depredadores – Préstamos - I  El sector de los préstamos rápidos, al menos en EE.UU., también usa ADM.  La usura llega a cobrar intereses de 574% en préstamos a corto plazo.  Hay gran cantidad de agencias de datos, algunas timadoras profesionales.  Sus anuncios aparecen en ordenadores y teléfonos. En el formulario a rellenar, es habitual pedir los datos bancarios.  En 2015 la Comisión Federal de Comercio de EE.UU. acusó a dos agencias de datos de vender solicitudes de crédito de más de medio millón de personas. Robaron número de teléfono, información de los empleadores, números de la seguridad social e información de cuentas bancarias y las vendieron a 50 céntimos.
  • 76. Publicidad como ADM o anunciantes depredadores – Préstamos - II  Estas empresas asaltaron las cuentas y robaron 7,1 millones de dólares.  Los organismos reguladores americanos quieren que se aprueben nuevas leyes que regulen el mercado de datos personales.  Hay un par de leyes federales que establecen ciertos límites sobre datos crediticios y sanitarios.  En la Unión Europea y España en particular, las leyes de protección de datos nos protegen frente a muchos de los posibles abusos, pero eso no significa que estemos completamente protegidos o que no debamos mantener una actitud vigilante.
  • 77. Prediciendo dónde se cometerán delitos - I  Hay programas como PredPool que calculan horas y sitios donde se producirán delitos, procesando datos históricos. En 2014, un año después de empezar a usarse en Reading, los robos a viviendas disminuyeron un 23%.  PredPool se puede configurar. Si la policía decide incluir homicidios, robos, asaltos, etc. funcionará bien.  ¿Qué ocurre si estos sistemas se configuran para controlar vagabundos, pertenencia a pandillas, consumo de pequeñas cantidades de droga? El programa enviará a la policía a patrullar por barrios pobres, se realizarán detenciones, (negros, hispanos), por delitos sin víctimas y cada vez habrá más policía en esas zonas. El sistema se retroalimenta. Se convierte en un ADM.
  • 78. Prediciendo dónde se cometerán delitos - II  Si en un barrio marginal la policía se comporta de forma tolerante: los borrachos tienen que guardar su bebida, drogadictos tienen que cumplir ciertas normas, etc., el resultado es mejor que con detenciones sistemáticas.  En Italia XLAW se usa de manera similar a programas americanos para predecir delitos en Nápoles y Venecia. La diferencia con otros es que realiza modelos en base a actuaciones rutinarias de profesionales de la delincuencia. Ha conseguido una reducción entre el 24 y el 39% de ciertos delitos.  En Europa existe EuroCop PRED-CRIME.  En Gran Bretaña usan National Data Analytics Solution (NDAS) que a veces identifica a un posible criminal y le brinda asistencia de servicios sociales o de salud.
  • 79. ¿Qué ocurre con los delitos que no prevee PredPool, porque los cometen los ricos? - I - (algunas frases de Cathy O’Neil)  “Imaginemos que la policía aplicará su estrategia de tolerancia cero al ámbito financiero. Arrestarían a la gente por la mínima infracción… A lo mejor veríamos a los cuerpos especiales de los SWAT irrumpir en Greenwich…”  “Los polis no tienen los conocimientos necesarios para ese tipo de trabajo.”  “Los responsables de esta tarea, desde el FBI hasta los investigadores de la Comisión de Bolsa de EE.UU., cuentan con pocos efectivos y escasos medios económicos y llevan décadas comprobando que los banqueros son prácticamente intocables. Los banqueros invierten mucho dinero en nuestros políticos, algo que siempre ayuda, y además se les considera imprescindibles para nuestra economía”.
  • 80. ¿Qué ocurre con los delitos que no prevee PredPool, porque los cometen los ricos? - II - (algunas frases de Cathy O’Neil)  “Si los bancos se van a pique, nuestra economía podría hundirse con ellos”.  “Exceptuando algunos casos como Madoff , los financieros nunca son arrestados”  “Como colectivo salieron prácticamente ilesos del derrumbe del mercado de 2008”.  “ Criminalizamos la pobreza, convencidos en todo momento de que nuestras herramientas no solo son científicas, sino también justas”.
  • 81. Usar macro datos como ADM en contra de ciertos pedidores de créditos o de empleos - I  Cuando se fundaron los primeros bancos, los banqueros concedían préstamos en función de su conocimiento del cliente: si iba a la iglesia, si alguien de su familia bebía, de qué raza era… Las mujeres y las minorías étnicas quedaban excluidas.  Los créditos después se han concedido en función de datos sobre la solvencia económica del que los pide, fundamentalmente la carga de la deuda y el historial del pago de facturas.  En la actualidad existen métodos informáticos para calificación crediticia (EE.UU.): localización del ordenador (código postal), navegación por Internet, historial de compras,…
  • 82. Usar macro datos como ADM en contra de ciertos pedidores de créditos o de empleos - II  Algunas frases de Cathy O’ Neil:  “Casi la mitad de los empleadores de EE.UU. hacen el cribado de los candidatos analizando sus informes de solvencia”.  “Las personas que construyen modelos para calificaciones crediticias tienen que ingeniárselas para contestar a la pregunta: “¿Cómo se han comportado en el pasado las personas como el individuo analizado?”, cuando idealmente deberían preguntarse: “¿Cómo se ha comportado en el pasado el individuo analizado?””  “Y qué pasa con la persona a la que los sistemas interpretan mal y clasifican en la categoría incorrecta”…”No hay retroalimentación alguna que corrija el sistema.”
  • 83. ¿Son los seguros un campo abonado para las ADM?¿También se usan calificaciones crediticias? - I  En seguros de automóvil de EE.UU. se usan calificaciones crediticias y en ocasiones son más importantes que el cuidado en la conducción.  Las víctimas de este sistema son gente pobre, muchos de ellos inmigrantes.  “En los barrios en los que hay más oficinas de crédito rápido que corredurías de seguros, resulta más difícil dirigirse a otras aseguradoras para buscar precios más económicos. En pocas palabras, aunque la calificación crediticia no tenga nada que ver con la conducción segura, sí crea un grupo rentable de conductores vulnerables”. (O’ Neil).
  • 84. ¿Son los seguros un campo abonado para las ADM?¿También se usan calificaciones crediticias?-II  En España, en mi personal opinión, los asegurados que no son capaces de comparar entre seguros de distintas compañías, también acaban pagando más.  Sin embargo, hay ya tecnología que permite poner un chip a un coche y saber los hábitos de conducción, por lo que se podría ofrecer precios más justos en seguros de automóvil. Pese a ello gente que vive en periferia de grandes ciudades, debido a que haya casas más baratas, puede tener que conducir mayores distancias y pese a tener cuidado en la conducción, ver encarecida su póliza.
  • 85. Uso de técnicas de micro segmentación mediante macro datos en política - I  En 2015 un grupo antiabortista publica un vídeo con imágenes de un supuesto feto abortado. Se demostró su falsedad, pero los antiabortistas pudieron seguir forjándose una audiencia, gracias a la micro segmentación.  El éxito de la micro segmentación explica que en 2015 un 43% de republicanos creía que Obama era musulmán y un 20% de americanos que no era de EE.UU.  Se localizan votantes vulnerables y se les envían mensajes sobre seguridad de sus hijos o el auge de la inmigración ilegal.  Incluso en TV se intenta hacer publicidad política para colectivos específicos.
  • 86. Uso de técnicas de micro segmentación mediante macro datos en política - II  En 2007 los psicólogos Michal Stillwell y David Kosinski idean una aplicación para Facebook mediante la que se elaboró un resumen de personalidad de 6 millones de personas. Además, el 40% de ellos aceptaron que la aplicación recolectara de forma anónima la información almacenada en sus perfiles de Facebook.  El autodidacta Christopher Wylie se da cuenta de la importancia del estudio.  Wylie conoce a Alexander Nix de SCL Elections, empresa dedicada hacer cambiar de opinión a la gente e influirla no mediante persuasión, sino mediante "dominio informativo", un conjunto de técnicas entre las que se encontraban la difusión de rumores, desinformación y noticias falsas.
  • 87. Uso de técnicas de micro segmentación mediante macro datos en política - III  En 2013 Wylie conoció a Steve Bannon, editor de Breitbart, un diario online sobre política que bajo su dirección se alineó con el populismo de derecha europeo y la derecha más extrema americana.  Bannon convence al multimillonario Robert Mercer, donante del partido republicano para que invierta 15 millones de dólares en Cambridge Analytica, surgida de SCL Elections.  Wylie intenta usar la base de datos de Kosinski, pero Kosinski no acepta por lo que contacta con el psicólogo Alexandr Kogan, que crea una empresa llamada Global Science Research (GSR) para recolectar información en Facebook.
  • 88. Uso de técnicas de micro segmentación mediante macro datos en política - IV  Cambridge Analytica gastó 7 millones de dólares de ellos uno en GSR.  Kogan pagó campañas de publicidad en Faceboook para que los usuarios se animaran a rellenar un test de personalidad con una aplicación. Esa aplicación pedía permiso a esos usuarios para acceder tanto a sus perfiles como a los de sus contactos. Con los perfiles de 320.000 usuarios que tenían una media de 160 contactos, consiguieron más de 50 millones de perfiles de Facebook .
  • 89. Uso de técnicas de micro segmentación mediante macro datos en política - V  Gracias a esos perfiles “sabríamos a qué tipo de mensaje serías susceptible, incluyendo la forma en la que entregártelo, los temas, el contenido, el tono, si el mensaje necesitaba ser aterrador o no, ese tipo de cosas. Sabríamos a qué serías susceptible, dónde ibas a consumir ese contenido, cuántas veces necesitábamos pasarte ese mensaje para cambiar la forma en la que piensas sobre algo”.  Esa recolección masiva de datos podría haber sido fundamental en la campaña electoral de Donald Trump. ¿Tuvieron también influencia en el Brexit?
  • 90. Uso de técnicas de micro segmentación mediante macro datos en política - VI  En España VOX ha contactado con Bannon. VOX gasta dinero en publicidad en Facebook.  El 22-11-18 el Senado español aprueba una ley que regula el uso de datos personales de ciudadanos en Internet y que abre las puertas a la elaboración de perfiles de votantes por parte de partidos políticos y extiende el derecho al olvido a las redes sociales. La aprueban la mayoría de partidos con el voto en contra de Unidos Podemos, Compromís, Nueva Canarias y Bildu.  Hay artículos de opinión en prensa, (al menos digital), que dudan de que la Agencia Española de Protección de Datos tenga recursos económicos y de personal suficientes para proteger a los ciudadanos, al menos en las elecciones de 28-4-2019, frente a invasiones de la privacidad, que pueda provocar dicha ley.
  • 91.  Fuente: The Guardian
  • 92. Algunos ejemplos de sustracción masiva de datos - I  Home Depot, (artículos para el hogar):  2014: Robo de datos de 56 millones de tarjetas y 53 de direcciones de correo.  Se usaron técnicas para suplantar la identidad de un vendedor. Se accedió al sistema, pero sólo a la parte autorizada para ese proveedor.  Después, los piratas accedieron al sistema completo aprovechando un agujero de seguridad de Windows XP.  Por último accedieron a los datos de tarjetas en 7500 terminales de autopago, porque no se cifraban los datos de las tarjetas.
  • 93. Algunos ejemplos de sustracción masiva de datos - II  Oficina de Gestión de Personal del Gobierno de EE.UU. (2014).  Unos hackers acceden a información de 21 millones de personas, incluyendo empleados que pueden acceder a información secreta y huellas dactilares espías.  Yahoo!:  2013: Robo de datos de cuentas de 1.000 millones de usuarios.  2014: Se ven afectados otros 500 millones.  Yahoo! afirmó que el ataque lo había perpetrado un desconocido agente pagado por el Estado.
  • 94. Epílogo - I  La IA y el análisis de macro datos son una gran oportunidad para la humanidad, pero hemos visto que también tienen aplicaciones que hacen el mundo más injusto.  Seguirá creciendo la economía, pero no necesariamente en beneficio de la personas de renta más baja. En 2013 la riqueza total de la mitad más pobre de la población mundial, (más de 3.600 millones de personas), era igual a la de las ocho personas más ricas del mundo.  El desempleo seguirá aumentando a medida que lo haga la automatización y los avances de la IA. Pese a que los optimistas digan que se crearán nuevos trabajos, no serán suficientes.
  • 95. Epílogo - II  Según Erik Brynjolfsson y su ayudante Andrew McAfee del MIT:  La tecnología premia a quienes tienen más educación: desde mediados de la década de 1970, los salarios de quienes poseían un título universitario aumentaron en torno al 25 %, mientras que aquellos que no habían completado la educación secundaria vieron cómo sus salarios se reducían en promedio en un 30 %.  Desde el año 2000, una proporción cada vez mayor de la renta empresarial ha ido a parar a los dueños de las compañías, en detrimento de quienes trabajan en ellas.  Mientras continúe la automatización, deberíamos esperar que los propietarios de las máquinas se queden con un pedazo cada vez más grande del pastel.
  • 96. Libros recomendados - I 1. Big Data: Una breve introducción – Dawn E. Holmes – Antoni Bosch Editor – 2018. Si hubiera que seleccionar un único libro sobre macro datos, éste sería el correcto. Breve, barato y abarca todo el tema de forma sencilla. 2. Big Data: La revolución de los datos masivos - Viktor Mayer y Kenneth Cukier – Turner Publicaciones – 2013. Libro más completo que el anterior, que pese a ser un poco antiguo merece la pena. 3. Armas de destrucción matemática: Cómo el Big Data aumenta la desigualdad y amenaza la democracia - Cathy O’Neil – Capitan Swing Libros – 2017 - Este libro es la base principal para la segunda parte de la charla. Tan fácil y apasionante de leer como un buen thriller.
  • 97. Libros recomendados - II 4. Inteligencia artificial: Cómo cambiará el mundo (y tu vida) - Pablo Rodríguez – Deusto – 2018. – Escrito por un gurú tecnológico español, que ha trabajado para multinacionales importantes del sector, el título no menciona big data, pero el libro va de la inteligencia artificial actual que usa macro datos. Bien escrito y de lectura fácil. 5. Big data: El poder de los datos - Fundación Bankinter – 2015 – Interesante informe, escrito en forma de artículos por varios autores. Se puede descargar de forma gratuita en: Big data: El poder de los datos
  • 98. Libros recomendados - III 6. Vida 3.0: Qué significa ser humano en la era de la Inteligencia Artificial – Max Tegmark – Editorial Taurus – 2018 – Libro que habla de muchas cosas, incluyendo en especial qué es lo que puede pasar si conseguimos máquinas intelectualmente muy superiores a nosotros y cuándo podría suceder esto en función de muy diversas predicciones. No habla específicamente de macro datos, pero hay muchas referencias al respecto. 7. Desnudando a Google – Alejandro Suárez Sánchez- Ocaña – Planeta Libros – 2012 – Este libro escrito por alguien que conoce bien a Google, es muy crítico con esta compañía. Si hablamos de macro datos tenemos necesariamente que hablar de Google, Facebook, Microsoft, Amazon, Netflix y otras empresas similares .
  • 99. Libros recomendados - IV 8. El lado oscuro de Google: Historia y futuro de la industria de los metadatos – Colectivo Ippolita –Virus Editorial - 2010 – Quizás la pega que le podemos poner a estos dos últimos libros, es que son un poco antiguos. Éste está escrito por un grupo de expertos informáticos que además son activistas sociales. Aunque centrado en Google permite entender mejor lo que es Internet y los macro datos. Tiene licencia Creative Commons por lo que puede ser descargado gratuitamente, aunque hay versión en papel. El siguiente es un enlace para su descarga:  El lado oscuro de Google
  • 100. Libros recomendados - V 9. Internet, el futuro y la libertad – Revista trimestral en papel y formato electrónico correspondiente a Junio de 2018 de eldiario.es - Está muy relacionada con los aspectos más sociales de esta charla y también explica la utilidad de los macro datos e Internet en varios campos. Muy buenos artículos. Los suscriptores de este periódico actuales y futuros la pueden descargar gratuitamente. Los que no sean suscriptores pueden comprarla.
  • 101. Algunas noticias interesantes sobre big data - I  2019-03-25 La gestión de datos empleará a 10 millones de europeos en el 2020  2019-03-25 Los bots, la segmentación ideológica y la encriptación crean la tormenta perfecta para la manipulación electoral en Internet  2019-03-25 Datos fósiles y datos abiertos  2019-03-23 Por un "sentido común" democrático  2019-03-21 Facebook alega que carece de vídeos de atentados como el de Nueva Zelanda para evitar su difusión  2019-03-18 Cómo le vigilan los móviles Android sin que lo sepa  2019-03-17 Electrodomésticos del futuro tendrán ojos y oídos para detectar tus emociones
  • 102. Algunas noticias interesantes sobre big data - II  2019-03-09 Bulos, críticas al PP y una decena de anuncios diarios: la campaña permanente de Vox en Facebook  2019-03-04 “Es más peligroso tener a Alexa encima de la mesa que a un señor observándote cada día en el salón”  2019-02-27 Una empresa que gestiona big data para la CIA manejará también los datos mundiales de alimentación y pobreza  2019-02-19 Spam electoral y ficheros ideológicos de votantes: Protección de Datos se enfrenta a los comicios de 2019 sin los recursos previstos  2019-01-29 Más allá del piloto automático: así ayudará la inteligencia artificial al aterrizaje en los aeropuertos
  • 103. Algunas noticias interesantes sobre big data - III  2019-01-20 Las mentes matemáticas mueven el mundo  2019-01-19 Big data bueno, big data malo  2019-01-07 5G vs 4G: cómo difieren la velocidad, la latencia y el soporte a aplicación  2019-01-04 Sobrepasados por el ‘big data’  2018-12-20 Los partidos políticos no podrán hacer perfiles ideológicos individuales, según la AEPD, pese a la nueva Ley de Protección de Datos  2018-12-19 Facebook permitió a Microsoft, Netflix y Amazon acceder a datos privados de sus usuarios  2018-12-14 El alcance del Big Data en España, un mar de oportunidades
  • 104. Algunas noticias interesantes sobre big data - III  2018-12-10 Jaron Lanier: Diez razones para borrar tus redes sociales de inmediato  2018-12-10 En la era del big data, ¿quién le pone inteligencia a la inteligencia artificial?  2018-12-18 Así funciona el Big Data detrás del fútbol: tres personas por partido registran cada jugada  2018-12-04 El neofascismo controla el Big Data  2018-11-28 El policía que aprendió a programar para predecir crímenes  2018-11-23 Las agencias europeas de Francia, Italia y Reino Unido sí limitan las prácticas de spam político personalizado aprobadas en España
  • 105. Algunas noticias interesantes sobre big data - IV  2018-11-22 En esto consiste la Ley de Protección de Datos aprobada por el Senado, que regula la propaganda política en Internet  2018-11-20 Cinco prácticas que serán legales para los partidos en España tras la aprobación del spam electoral  2018-11-14 El equipo médico de Deep Mind se une a Google bajo la sospecha de incumplir una de las grandes promesas sobre privacidad  2018-10-29 Entrevista con Cathy O' Neil, (armas de destrucción matemática)  2018-10-25 ¿Tenemos ‘big data’, pero no sabemos qué hacer con ello?
  • 106. Algunas noticias interesantes sobre big data - IV  2018-09-11 ¿Qué fue antes, la inteligencia artificial o el Big Data? Estos proyectos demuestran su estrecha relación  2018-08-28 Trump se busca a sí mismo en Google y monta en cólera al descubrir uno de los grandes problemas de Internet  2018-08-16 Big Data para desentrañar el futuro de Europa  2018-07-03 Despedido por un ordenador, ningún humano pudo hacer nada  2018-06-26 Movilidad, Big Data y Desarrollo  2018-06-23 Un futuro alimentario en manos de la tecnología  2018-04-11 Steve Bannon, de estratega de Donald Trump a próximo asesor de VOX
  • 107. Algunas noticias interesantes sobre big data - V  2018-04-10 El escándalo de Cambridge Analytica resume todo lo que está terriblemente mal con Facebook  2018-03-21 5 claves para entender el escándalo de Cambridge Analytica que hizo que Facebook perdiera US$37.000 millones en un día  2018-03-12 Primera línea de defensa en ciberseguridad: IA  2018-01-06 Cómo el Big Data puede ayudar a luchar contra el cambio climático  2017-10-25 Assange destaca la encriptación del voto el 1-O ante la "fuerza coercitiva" del Gobierno español  2017-10-20 ¿Saben las empresas qué hacer con tantos datos?  2017-09-27 Así cambiara el big data la foma en la que producimos (y consumimos) energía
  • 108. Algunas noticias interesantes sobre big data - VI  2017-09-26 Julian Assange, sobre el 1-O: "Rajoy está intentando hacer de este un proceso violento"  2017-09-21 Big Data también es una perspectiva  2017-07-13 El centro de datos del CERN ya tiene más de 200 petabytes de información  2017-06-15 TransformingTransport: Big Data para mover el mundo  2017-04-11 Libros de Big Data en español: protección de datos y cloud computing  2017-03-02 Robert Mercer, el multimillonario del ‘big data’ que está detrás de la victoria de Donald Trump y el Brexit  2017-02-28 El Big Data que mueve el coche autónomo
  • 109. Algunas noticias interesantes sobre big data - VII  2016-11-20 Así es como Predictiveworld “predice tu futuro” gracias al Big Data  2016-10-13 No estamos listos para la súperinteligencia  2016-09-01 ¿Qué puede aportar el Big Data al mundo de la medicina?  2106-06-13 ¿Cuántos años quedan para que pueda comprarme un coche autónomo?  2016-03-29 Avances y dudas sobre los coches sin conductor  2015-09-07 Google cierra su aplicación para predecir el desarrollo de la gripe tras siete años de fracaso  2015-03-31 ¿Qué es eso del 'big data'?  EuroCop PRED-CRIME.- Sistema para la Predicción y Prevención del Delito  La predicción de delitos y la inteligencia artificial

Notas del editor

  1. Datos semiestructurados: correo electrónico, ya que texto no está estructurado, pero el correo tiene metadatos. En redes sociales, las etiquetas (hashtags) permiten identificar qué mensajes (no estructurados) tratan sobre un tema.
  2. Los cerebros animales también funcionan con redes neuronales multicapa.
  3. Los cerebros animales también funcionan con redes neuronales multicapa.
  4. WhatsApp tenía 1.000 millones en febrero 2016. Los observatorios astronómicos procesan y almacenan gran cantidad de datos. Otra previsión habla de 50.000 millones dispositivos conectados en 2020.
  5. WhatsApp tenía 1.000 millones en febrero 2016. Los observatorios astronómicos procesan y almacenan gran cantidad de datos. Otra previsión habla de 50.000 millones dispositivos conectados en 2020.
  6. SKA es un proyecto de organismos de 11 países, incluyendo el Instituto de Astrofísica de Andalucía.
  7. SKA es un proyecto de organismos de 11 países, incluyendo el Instituto de Astrofísica de Andalucía.
  8. P6 – 2, p104-6 y Wikipedia
  9. P6 – 2, p104-6 y Wikipedia
  10. ¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
  11. ¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
  12. ¿Qué ocurre con la imprecisión de muchos dispositivos para registrar parámetros de salud?
  13. Humano Fisiológico Virtual se desarrolla a partir del de Genoma Humano. Se llama genoma a la información genética de un organismo considerado de forma colectiva. Análisis de ADN por menos de 1.000 dólares.
  14. P7 -2. Compra Microsoft por 110 m. $. 5 ó 10 años antes no había capacidad de cómputo y almacenamiento suficiente.
  15. P7 -2. Compra Microsoft por 110 m. $. 5 ó 10 años antes no había capacidad de cómputo y almacenamiento suficiente.
  16. P193 – 1. Girona, Barcelona,…
  17. P193 – 1. Girona, Barcelona,…
  18. En EE.UU. el sector sanitario podría crear más de 300.000 millones de dólares en valor añadido cada año, 200.000 en ahorro.
  19. En EE.UU. el sector sanitario podría crear más de 300.000 millones de dólares en valor añadido cada año, 200.000 en ahorro.
  20. P195 – 1. https://www.paradigmadigital.com/techbiz/transformingtransport-big-data-mover-mundo/ Los jueces humanos son más severos cuando no han comido, ¿sería un programa más justo?
  21. El usuario puede ser responsable de uso incorrecto también por no cambiar contraseña de administración del dispositivo. Soldados con aplicaciones para correr. Dispositivos como Amazon Echo y Google Home podrían tener problemas de privacidad. Ventajas IdC: mejores controles de seguridad para personas que trabajen en entornos peligrosos.
  22. El usuario puede ser responsable de uso incorrecto también por no cambiar contraseña de administración del dispositivo. Soldados con aplicaciones para correr. Dispositivos como Amazon Echo y Google Home podrían tener problemas de privacidad. Ventajas IdC: mejores controles de seguridad para personas que trabajen en entornos peligrosos.
  23. Julian Assange y Wikileaks
  24. Julian Assange y Wikileaks
  25. Julian Assange y Wikileaks
  26. Los cargos directivos de los centros podían ser amigos de profesores. Un colegio público perdió una buena docente y se la llevó un colegio rico.
  27. Los cargos directivos de los centros podían ser amigos de profesores. Un colegio público perdió una buena docente y se la llevó un colegio rico.
  28. P66-86
  29. P66-86
  30. La cantidad prestada se multiplica por 8 a devolver.
  31. La cantidad prestada se multiplica por 8 a devolver.
  32. P114. SWAT irrumpir en Greenwich o quizá la policía secreta vigilaría los bares de los alrededores de la Bolsa de Chicago. Si los bancos se van a pique, nuestra economía podría hundirse con ellos, (aunque no afectaría demasiado a las personas pobres).
  33. P114. SWAT irrumpir en Greenwich o quizá la policía secreta vigilaría los bares de los alrededores de la Bolsa de Chicago. Si los bancos se van a pique, nuestra economía podría hundirse con ellos, (aunque no afectaría demasiado a las personas pobres).
  34. P175
  35. P175