Big Data: Some Questions in its Use in Applied Economics (2017)
1. To err is human, but to really foul things up you need a computer
Big Data:
Some Questions in its Use
in Applied Economics
Ana Fernandez
Svet Ivantchev
Programa de Doctorado en Economía y Empresa, UCLM, Albacete, 16 de enero de 2017
2. Big Data
❖ ¿Qué es y porque ahora?
❖ es una innovación, relación con Cloud Computing
❖ factor dinero: ej: CloudSort benchmark
https://databricks.com/blog/2016/11/14/setting-new-world-record-apache-spark.html
10. Contar puede ser un problema interesante
Input: [12, 45, 44, 67, 12, 9, 44]
Output: 5 — en número de valores distintos (cardinality)
Concepto: intercambiar precisión por tiempo y memoria
11. HyperLogLog
❖ idea: observar el stream de números en su representación binara:
❖ fijamos un prefijo, por ejemplo “100”. Si lo observamos aumentamos
la probabilidad de que el cardinality es 2^[la-longitud-del-prefijo], en el
ejemplo 8.
❖ en una aplicación práctica: dividimos en flujo en varios y corregimos
para bajos números de observaciones (ver Ref)
101000100
010101000
001010011
100001000
…
…
12. Bootstrap vs Estratificar
❖ Otra vez: intercambiar precisión por tiempo
❖ Sampling aleatorio vs estratificar
❖ ej: calcular una media también puede ser un reto
19. ¿Cómo de grande es “Big”?
❖ si podemos entender los datos solo indirectamente
(estadísticos, visualizaciones)
❖ los puntos individuales son demasiados para
estudiarlos de forma individual
❖ las visualizaciones se centran en la distribución, no en
los puntos individuales
29. Herramientas
❖ supuestos importantes:
❖ en el almacenamiento: que falla (ej: HDFS)
❖ acceso a los datos: idea de noSQL (ej: key-value stores,
column-based DBs como Cassandra; graph-oriented
como neo4j)
❖ en el análisis: el acceso puede ser lento (ej: Spark lazy
evaluation; valores aproximados)
vs
39. Datos
❖ cantidad de datos: registro cada 5 min para 10,000
personas ~ 20 GB/día, 60 TB/mes
❖ oportunidad: identificación de outliers en los datos
❖ retos colaterales: consumo de batería
❖ idea de Active Learning
40. Para acabar
”I keep saying the sexy job in the next ten years will be
statisticians. People think I’m joking, but who would’ve
guessed that computer engineers would’ve been the
sexy job of the 1990s?”
Hal Varian, The McKinsey Quarterly, January 2009