SlideShare una empresa de Scribd logo
1 de 47
Descargar para leer sin conexión
To err is human, but to really foul things up you need a computer
Big Data:
Some Questions in its Use
in Applied Economics
Ana Fernandez
Svet Ivantchev
Programa de Doctorado en Economía y Empresa, UCLM, Albacete, 16 de enero de 2017
Big Data
❖ ¿Qué es y porque ahora?
❖ es una innovación, relación con Cloud Computing
❖ factor dinero: ej: CloudSort benchmark
https://databricks.com/blog/2016/11/14/setting-new-world-record-apache-spark.html
AWS spot pricing
AWS spot pricing
The Data Science Venn Diagram
Ref: Drew Conway, https://s3.amazonaws.com/aws.drewconway.com/viz/venn_diagram/data_science.html
Ref: S Wildish, http://mymodernmet.com/stephen-wildish-clever-venn-diagrams
Data Analysis
Capturar Almacenar Transformar Analizar
Visualizar
Orden de magnitud de acceso a datos
Ref: https://people.eecs.berkeley.edu/~rcs/research/interactive_latency.html
“Ancho de banda” de UPS
Un ejemplo de big dataset
Ref: https://databricks.com/blog/2015/10/13/interactive-audience-analytics-with-apache-spark-and-hyperloglog.html
Ad | Site | Cookie | Impressions | Clicks | Segments
------------- |-------------- | --------------- | ----------- | ------ | -------------------------------
bmw_X5 | forbes.com | 13e835610ff0d95 | 10 | 1 | [a.m, b.rk, c.rh, d.sn, ...]
mercedes_2015 | forbes.com | 13e8360c8e1233d | 5 | 0 | [a.f, b.rk, c.hs, d.mr, ...]
nokia | gizmodo.com | 13e3c97d526839c | 8 | 0 | [a.m, b.tk, c.hs, d.sn, ...]
apple_music | reddit.com | 1357a253f00c0ac | 3 | 1 | [a.m, b.rk, d.sn, e.gh, ...]
nokia | cnn.com | 13b23555294aced | 2 | 1 | [a.f, b.tk, c.rh, d.sn, ...]
apple_music | facebook.com | 13e8333d16d723d | 9 | 1 | [a.m, d.sn, g.gh, s.hr, ...]
Wikipedia: 30k-70k per second; ej: consumo eléctrico domestico
http://www.internetlivestats.com
Contar puede ser un problema interesante
Input: [12, 45, 44, 67, 12, 9, 44]
Output: 5 — en número de valores distintos (cardinality)
Concepto: intercambiar precisión por tiempo y memoria
HyperLogLog
❖ idea: observar el stream de números en su representación binara:
❖ fijamos un prefijo, por ejemplo “100”. Si lo observamos aumentamos
la probabilidad de que el cardinality es 2^[la-longitud-del-prefijo], en el
ejemplo 8.
❖ en una aplicación práctica: dividimos en flujo en varios y corregimos
para bajos números de observaciones (ver Ref)
101000100
010101000
001010011
100001000
…
…
Bootstrap vs Estratificar
❖ Otra vez: intercambiar precisión por tiempo
❖ Sampling aleatorio vs estratificar
❖ ej: calcular una media también puede ser un reto
Data Analysis
Capturar Almacenar Transformar Analizar
Visualizar
Cuarteto de Anscombe
Anscombe, F. (1973), Graphs in Statistical Analysis,The American Statistician, pp. 195-199.
Cuarteto de Anscombe
¿Cómo de grande es “Big”?
❖ si podemos entender los datos solo indirectamente
(estadísticos, visualizaciones)
❖ los puntos individuales son demasiados para
estudiarlos de forma individual
❖ las visualizaciones se centran en la distribución, no en
los puntos individuales
Ref: J Bendar, Continuum Analytics
4 x 10k puntos
Taxi en NYC y datashader
https://anaconda.org/jbednar/nyc_taxi/notebook
undersampling: mostramos 1000 de 12M puntos (0.01%)
overploting: mostramos 10.000 de 12M puntos (0.1%)
100.000 de 12M puntos (~1.0%)
using datashader
Herramientas
❖ supuestos importantes:
❖ en el almacenamiento: que falla (ej: HDFS)
❖ acceso a los datos: idea de noSQL (ej: key-value stores,
column-based DBs como Cassandra; graph-oriented
como neo4j)
❖ en el análisis: el acceso puede ser lento (ej: Spark lazy
evaluation; valores aproximados)
vs
¿La mejor herramienta?
“depende”
Elecciones…
Un ejemplo: teléfono para mayores
Datos
❖ cantidad de datos: registro cada 5 min para 10,000
personas ~ 20 GB/día, 60 TB/mes
❖ oportunidad: identificación de outliers en los datos
❖ retos colaterales: consumo de batería
❖ idea de Active Learning
Para acabar
”I keep saying the sexy job in the next ten years will be
statisticians. People think I’m joking, but who would’ve
guessed that computer engineers would’ve been the
sexy job of the 1990s?”
Hal Varian, The McKinsey Quarterly, January 2009
Gracias
Q & A

Más contenido relacionado

Similar a Big Data: 
Some Questions in its Use in Applied Economics (2017)

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...elianatorales
 
William cloud computing
William cloud computingWilliam cloud computing
William cloud computingwilliPerez12
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronalesVictor_lino
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women TechmakersDatatons
 
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UABBig data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UABOutliers Collective
 
Inteligencia corporativa 2.0
Inteligencia corporativa 2.0Inteligencia corporativa 2.0
Inteligencia corporativa 2.0Hugo Banda
 
Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)christian lisintuña
 
Big Data y Centros Comerciales. Entrega 2
Big Data y Centros Comerciales. Entrega 2Big Data y Centros Comerciales. Entrega 2
Big Data y Centros Comerciales. Entrega 2Oscar Cuenca Roca
 
Practica 3 entendimiento_de_datos
Practica 3 entendimiento_de_datosPractica 3 entendimiento_de_datos
Practica 3 entendimiento_de_datosAndres Vega
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDaniel Jiménez
 
Analítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdfAnalítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdfVWO
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bnjuanjosetn
 
Organizacion de datos estadistica
Organizacion de datos estadisticaOrganizacion de datos estadistica
Organizacion de datos estadisticaRafaelAguilera27
 

Similar a Big Data: 
Some Questions in its Use in Applied Economics (2017) (20)

Curso Base Datos
Curso Base DatosCurso Base Datos
Curso Base Datos
 
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
 
William cloud computing
William cloud computingWilliam cloud computing
William cloud computing
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
 
Herrera marcelo Rl_1
Herrera marcelo Rl_1Herrera marcelo Rl_1
Herrera marcelo Rl_1
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UABBig data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
 
Inteligencia corporativa 2.0
Inteligencia corporativa 2.0Inteligencia corporativa 2.0
Inteligencia corporativa 2.0
 
Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)
 
Big Data y Centros Comerciales. Entrega 2
Big Data y Centros Comerciales. Entrega 2Big Data y Centros Comerciales. Entrega 2
Big Data y Centros Comerciales. Entrega 2
 
Practica 3 entendimiento_de_datos
Practica 3 entendimiento_de_datosPractica 3 entendimiento_de_datos
Practica 3 entendimiento_de_datos
 
Tenesaca jhonny rl_1
Tenesaca jhonny rl_1Tenesaca jhonny rl_1
Tenesaca jhonny rl_1
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Analítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdfAnalítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdf
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bn
 
Organizacion de datos estadistica
Organizacion de datos estadisticaOrganizacion de datos estadistica
Organizacion de datos estadistica
 

Más de Svet Ivantchev

Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Svet Ivantchev
 
Introducción a Elixir
Introducción a ElixirIntroducción a Elixir
Introducción a ElixirSvet Ivantchev
 
Gaztea Tech Robotica 2016
Gaztea Tech Robotica 2016Gaztea Tech Robotica 2016
Gaztea Tech Robotica 2016Svet Ivantchev
 
Gaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlGaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlSvet Ivantchev
 
Gaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataGaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataSvet Ivantchev
 
Gaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotGaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotSvet Ivantchev
 
Gaztea Tech 2015: 1. Introducción al Arduino
Gaztea Tech 2015: 1. Introducción al ArduinoGaztea Tech 2015: 1. Introducción al Arduino
Gaztea Tech 2015: 1. Introducción al ArduinoSvet Ivantchev
 
Learning Analytics and Online Learning: New Oportunities?
Learning Analytics and Online Learning: New Oportunities?Learning Analytics and Online Learning: New Oportunities?
Learning Analytics and Online Learning: New Oportunities?Svet Ivantchev
 
How Machine Learning and Big Data can Help Us with the Human Learning
How Machine Learning and Big Data can Help Us with the Human LearningHow Machine Learning and Big Data can Help Us with the Human Learning
How Machine Learning and Big Data can Help Us with the Human LearningSvet Ivantchev
 
Libros electrónicos IV: ePub 2
Libros electrónicos IV: ePub 2Libros electrónicos IV: ePub 2
Libros electrónicos IV: ePub 2Svet Ivantchev
 
Libros electrónicos III
Libros electrónicos IIILibros electrónicos III
Libros electrónicos IIISvet Ivantchev
 
Libros electrónicos II - ePub
Libros electrónicos II - ePubLibros electrónicos II - ePub
Libros electrónicos II - ePubSvet Ivantchev
 
Libros electrónicos I
Libros electrónicos ILibros electrónicos I
Libros electrónicos ISvet Ivantchev
 
Cloud Computing: Just Do It
Cloud Computing: Just Do ItCloud Computing: Just Do It
Cloud Computing: Just Do ItSvet Ivantchev
 
Cloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsCloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsSvet Ivantchev
 
Los mitos de la innovación
Los mitos de la innovaciónLos mitos de la innovación
Los mitos de la innovaciónSvet Ivantchev
 

Más de Svet Ivantchev (20)

Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).
 
Introducción a Elixir
Introducción a ElixirIntroducción a Elixir
Introducción a Elixir
 
Gaztea Tech Robotica 2016
Gaztea Tech Robotica 2016Gaztea Tech Robotica 2016
Gaztea Tech Robotica 2016
 
Gaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlGaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot Control
 
Gaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataGaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y Firmata
 
Gaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotGaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBot
 
Gaztea Tech 2015: 1. Introducción al Arduino
Gaztea Tech 2015: 1. Introducción al ArduinoGaztea Tech 2015: 1. Introducción al Arduino
Gaztea Tech 2015: 1. Introducción al Arduino
 
Learning Analytics and Online Learning: New Oportunities?
Learning Analytics and Online Learning: New Oportunities?Learning Analytics and Online Learning: New Oportunities?
Learning Analytics and Online Learning: New Oportunities?
 
How Machine Learning and Big Data can Help Us with the Human Learning
How Machine Learning and Big Data can Help Us with the Human LearningHow Machine Learning and Big Data can Help Us with the Human Learning
How Machine Learning and Big Data can Help Us with the Human Learning
 
Vienen los Drones!
Vienen los Drones!Vienen los Drones!
Vienen los Drones!
 
Libros electrónicos IV: ePub 2
Libros electrónicos IV: ePub 2Libros electrónicos IV: ePub 2
Libros electrónicos IV: ePub 2
 
Libros electrónicos III
Libros electrónicos IIILibros electrónicos III
Libros electrónicos III
 
Libros electrónicos II - ePub
Libros electrónicos II - ePubLibros electrónicos II - ePub
Libros electrónicos II - ePub
 
Libros electrónicos I
Libros electrónicos ILibros electrónicos I
Libros electrónicos I
 
Cloud Computing: Just Do It
Cloud Computing: Just Do ItCloud Computing: Just Do It
Cloud Computing: Just Do It
 
Cloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsCloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'Ts
 
BigData
BigDataBigData
BigData
 
Los mitos de la innovación
Los mitos de la innovaciónLos mitos de la innovación
Los mitos de la innovación
 
eFaber en 5 minutos
eFaber en 5 minutoseFaber en 5 minutos
eFaber en 5 minutos
 
RoR y eLearning 2.0
RoR y eLearning 2.0RoR y eLearning 2.0
RoR y eLearning 2.0
 

Último

Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 

Último (20)

Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 

Big Data: 
Some Questions in its Use in Applied Economics (2017)

  • 1. To err is human, but to really foul things up you need a computer Big Data: Some Questions in its Use in Applied Economics Ana Fernandez Svet Ivantchev Programa de Doctorado en Economía y Empresa, UCLM, Albacete, 16 de enero de 2017
  • 2. Big Data ❖ ¿Qué es y porque ahora? ❖ es una innovación, relación con Cloud Computing ❖ factor dinero: ej: CloudSort benchmark https://databricks.com/blog/2016/11/14/setting-new-world-record-apache-spark.html
  • 5. The Data Science Venn Diagram Ref: Drew Conway, https://s3.amazonaws.com/aws.drewconway.com/viz/venn_diagram/data_science.html
  • 6. Ref: S Wildish, http://mymodernmet.com/stephen-wildish-clever-venn-diagrams
  • 7. Data Analysis Capturar Almacenar Transformar Analizar Visualizar
  • 8. Orden de magnitud de acceso a datos Ref: https://people.eecs.berkeley.edu/~rcs/research/interactive_latency.html “Ancho de banda” de UPS
  • 9. Un ejemplo de big dataset Ref: https://databricks.com/blog/2015/10/13/interactive-audience-analytics-with-apache-spark-and-hyperloglog.html Ad | Site | Cookie | Impressions | Clicks | Segments ------------- |-------------- | --------------- | ----------- | ------ | ------------------------------- bmw_X5 | forbes.com | 13e835610ff0d95 | 10 | 1 | [a.m, b.rk, c.rh, d.sn, ...] mercedes_2015 | forbes.com | 13e8360c8e1233d | 5 | 0 | [a.f, b.rk, c.hs, d.mr, ...] nokia | gizmodo.com | 13e3c97d526839c | 8 | 0 | [a.m, b.tk, c.hs, d.sn, ...] apple_music | reddit.com | 1357a253f00c0ac | 3 | 1 | [a.m, b.rk, d.sn, e.gh, ...] nokia | cnn.com | 13b23555294aced | 2 | 1 | [a.f, b.tk, c.rh, d.sn, ...] apple_music | facebook.com | 13e8333d16d723d | 9 | 1 | [a.m, d.sn, g.gh, s.hr, ...] Wikipedia: 30k-70k per second; ej: consumo eléctrico domestico http://www.internetlivestats.com
  • 10. Contar puede ser un problema interesante Input: [12, 45, 44, 67, 12, 9, 44] Output: 5 — en número de valores distintos (cardinality) Concepto: intercambiar precisión por tiempo y memoria
  • 11. HyperLogLog ❖ idea: observar el stream de números en su representación binara: ❖ fijamos un prefijo, por ejemplo “100”. Si lo observamos aumentamos la probabilidad de que el cardinality es 2^[la-longitud-del-prefijo], en el ejemplo 8. ❖ en una aplicación práctica: dividimos en flujo en varios y corregimos para bajos números de observaciones (ver Ref) 101000100 010101000 001010011 100001000 … …
  • 12. Bootstrap vs Estratificar ❖ Otra vez: intercambiar precisión por tiempo ❖ Sampling aleatorio vs estratificar ❖ ej: calcular una media también puede ser un reto
  • 13. Data Analysis Capturar Almacenar Transformar Analizar Visualizar
  • 14. Cuarteto de Anscombe Anscombe, F. (1973), Graphs in Statistical Analysis,The American Statistician, pp. 195-199.
  • 16.
  • 17.
  • 18.
  • 19. ¿Cómo de grande es “Big”? ❖ si podemos entender los datos solo indirectamente (estadísticos, visualizaciones) ❖ los puntos individuales son demasiados para estudiarlos de forma individual ❖ las visualizaciones se centran en la distribución, no en los puntos individuales
  • 20. Ref: J Bendar, Continuum Analytics 4 x 10k puntos
  • 21. Taxi en NYC y datashader
  • 23. undersampling: mostramos 1000 de 12M puntos (0.01%)
  • 24. overploting: mostramos 10.000 de 12M puntos (0.1%)
  • 25. 100.000 de 12M puntos (~1.0%)
  • 27.
  • 28.
  • 29. Herramientas ❖ supuestos importantes: ❖ en el almacenamiento: que falla (ej: HDFS) ❖ acceso a los datos: idea de noSQL (ej: key-value stores, column-based DBs como Cassandra; graph-oriented como neo4j) ❖ en el análisis: el acceso puede ser lento (ej: Spark lazy evaluation; valores aproximados) vs
  • 32.
  • 33.
  • 34.
  • 35. Un ejemplo: teléfono para mayores
  • 36.
  • 37.
  • 38.
  • 39. Datos ❖ cantidad de datos: registro cada 5 min para 10,000 personas ~ 20 GB/día, 60 TB/mes ❖ oportunidad: identificación de outliers en los datos ❖ retos colaterales: consumo de batería ❖ idea de Active Learning
  • 40. Para acabar ”I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?” Hal Varian, The McKinsey Quarterly, January 2009
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.