SlideShare una empresa de Scribd logo
1 de 92
Avances 2014.
16 de Diciembre de 2014
Presentación a personal de INFOTEC
Ciencia de Datos en Acción (2013)
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/
@abxda
Julio 2013 a Diciembre
2014
Tecnologías Involucradas (2013)
@abxda
Ciencia de Datos en Acción (2013)
Ciencia de Datos en Acción (2013)
@abxda
¿Qué es Big Data?
Octubre 2013
@abxda
Estratificación Multivariada de 1’221,180
manzanas
Censo de Población y Vivienda 2010
8 Segundos
Spark y MLBase
import org.apache.spark.mllib.clustering._
val manzanas = sc.textFile("/Users/abxda/…/datos.csv")
val subconjunto = manzanas.map(manzana => extractColumn(manzana))
points_nacional.cache
var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)
val out = new PrintWriter("/Users/abxda/…/salida.csv")
subconjunto.collect.foreach(x => out.println(modelo.predict(x)))
out.close()
@abxda
¿Qué es Big Data?
2013
¿Qué es Big Data?
Octubre 2013
@abxda
Estratificación Multivariada de 1’221,180
manzanas
8 Segundos
Tecnologías Involucradas (2013)
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
CIENCIA
DE
DATOS
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos V 1.0
@abxda
Ciencia de Datos V 2.0
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
@abxda
CIENCIA DE DATOS
http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/
Comprender
Recolectar
Explorar, Visualizar
Limpiar
Transformar/
Caracterizar
Modelar / Entrenar
Validar
Comunicar ?
Un Proceso de Ciencia de Datos
Imaginar /
Considerar la
Integración
de Otras Fuentes
Analizar
Fuente(s) Conceptualizar
¿qué?
¿quién?
¿dónde?
¿cuántos?
¿por qué?
Análisis de Datos
Estadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…
Análisis de Redes (Grafos)
Minería de Datos
Ciencia de Datos y Big Data
Computo en Paralelo
Datos
Crudos
hdfs://
Ciencia de Datos
(Transforma/Modela)
Cómputo Concurrente y Paralelo
Información
(Significado)
Tomar
Decisiones
Actuar
Volumen
Almacenamiento
Distribuido
Internet de las Cosas
Internet de las Personas
Internet de las Ideas
Internet de Todo
@abxda
Internet de las Personas
Internet de las Cosas
Sensores
{ json }
< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos
Distribuidos
Computo Paralelo y
Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis Multivariado
Machine Learning
Análisis de Interacción Espacial
{ json }
< xml >
c,s,v
{ json }
< xml >
c,s,v
Bases de Datos
NoSQL
Visualización
Panorama Tecnológico
Infraestructura de Cómputo
Twitter como fuente de
Big Data
@abxda@hbcolectivo
¿Cuántos caracteres?
@abxda
140 ???
@abxda
Todo listo para la presentación de #BigData en el @FSLmx .
1482
Json: Formato de Intercambio
Nuestra huella en las Redes
Sociales
@abxda
Todos los tuits están disponibles para
su recolección en tiempo real.
@abxda
Incluso permite consultas
geográficas
@abxda
¿Dónde recolectar?
@abxda
http://www.elasticsearch.org/
@abxda
¿Por qué ElasticSearch?
@abxda
Switch
Puertos (a) 10.200.2.x
Puertos (b)10.1.1.X
Hydra 2 – [10.1.1.X | 10.200.X.X]
Hydra1 – Master 10.1.1.X
Acceso a Internet
[Recolecta información Redes Sociales]
< ESCALABILIDAD HORIZONTAL >
¿Por qué ElasticSearch?
@abxda
Hydra
@abxda
Hydra
@abxda
Twitter River
https://github.com/elasticsearch/elasticsearch-river-twitter
curl -XPUT localhost:9200/_river/my_twitter_river/_meta -d'
{
"type" : "twitter",
"twitter" : {
"oauth" : {
"consumer_key" :”XXXxxXXxXxX",
"consumer_secret" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX",
"access_token" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX",
"access_token_secret" : "XXXxxXXxXxXXXXxxXXxXxX"
},
"filter" : {
"locations" :"-118.40764955,14.53209836,-86.71040527,32.71865357"
}
}
}
'
@abxda
La recolección 2014
@abxda
Extractor
es = Elasticsearch(['10.200.2.41:9200'])
rs = es.search(index=['my_twitter_river'],
scroll=duracion, search_type='scan', size=int(noTuits),
body={
"query": {
"range" : {
"created_at" : {
"gte": fechaInicio,
"lte": fechaFin
}
}
}})
@abxda
CSV
@abxda
Se extraen los puntos del
CSV
$cat tweets_feb_sep_ord_loc.csv | awk -F',' '{print $3 "," $4}'
20.281523,-100.809407
20.281523,-100.809407
20.281667,-100.809311
20.281479,-100.809394
20.281526,-100.809377
20.281422,-100.809428
20.281478,-100.809406
20.281495,-100.809371
20.281521,-100.80937
25.767972,-103.274890
25.768021,-103.274900
25.768059,-103.274955
25.768019,-103.274900
25.768098,-103.274992
@abxda
Quantum GIS
http://www.qgis.org/
@abxda
Resultado de la recolección
95M Tuits
@abxda
Un acercamiento
@abxda
Red Nacional de Caminos
y
Twitter
Hadoop Distributed File System
hdfs://
@abxda
Hadoop / Apache Spark
@abxda
ó
Procesamiento
70 Cores > 3 Ghz
>250 Gb Ram
5 TB
+
Recolección
20 Cores > 3 Ghz
100 Gb Ram
1 TB
¿Por qué Apache Spark?
http://spark.apache.org/
@abxdahttp://www.slideshare.net/pacoid/how-spark-fits-into-the-big-data-landscape
¿Por qué Apache Spark?
http://databricks.com/blog/2014/10/10/spark-petabyte-sort.html
@abxda
¿Por qué Apache Spark?
http://databricks.com/blog/2014/10/10/spark-petabyte-sort.html
@abxda
¿Por qué Apache Spark?
http://databricks.com/blog/2014/10/10/spark-petabyte-sort.html @abxda
¿Por qué Apache Spark?
http://databricks.com/blog/2014/10/10/spark-petabyte-sort.html @abxda
¿Por qué Apache Spark?
¿Por qué Apache Spark?
https://www.edx.org/course/introduction-big-data-apache-spark-uc-berkeleyx-cs100-1x#.VJBNC6SG_Jg
¿Por qué Apache Spark?
https://www.edx.org/course/scalable-machine-learning-uc-berkeleyx-cs190-1x#.VJBNC6SG9D8
¿Por qué Apache Spark?
@abxda
Scala = Object + Functional
Programming
https://twitter.com/deanwampler/status/458032648552603648
http://www.slideshare.net/deanwampler/spark-the-next-top-compute-model-39976454
¿Por qué Apache Spark?
Tuesday, September 30, 14 Why is Spark so good (and
Java MapReduce so bad)? Because fundamentally, data
analytics is Mathematics and programming tools
inspired by Mathematics - like Functional Programming -
are ideal tools for working with data. This is why Spark
code is so concise, yet powerful. This is why it is a great
platform for performance optimizations. This is why Spark is
a great platform for higher-level tools, like SQL, graphs, etc.
Interest in FP started growing ~10 years ago as a tool to
attack concurrency. I believe that data is now driving FP
adoption even faster. I know many Java shops that switched
to Scala when they adopted tools like Spark and Scalding
(https://github.com/twitter/scalding).
Recorte Geográfico
object SimpleApp {
def main(args: Array[String]){
…
val csvPath = "hdfs://m01/user/acoronado/mov/2014-02_al_2014-09-23.csv"
val csv = sc.textFile(csvPath)
csv.cache()
val clipPoints = csv.map({line: String =>
val Array(usuario, lat, lon, date) = line.split(",").map(_.trim)
val geometryFactory = JTSFactoryFinder.getGeometryFactory();
val reader = new WKTReader(geometryFactory);
val point = reader.read("POINT ("+lon+" "+ lat + ")" )
val envelope = point.getEnvelopeInternal
val internal = geoDataMun.get(envelope)
val (cve_est, cve_mun) = internal match {
case l => {
val existe = l.find( f => f match { case (g:Geometry,e:String,m:String) => g.intersects(point)
case _ => false} )
existe match {
case Some(t) => t match {
case (g:Geometry,e:String,m:String) => (e,m)
case _ => ("0","0")}
case None => ("0", "0")
}
}
case _ => ("0", "0")
}
val time = …
line+","+time+","+cve_est+","+cve_mun
})
clipPoints.coalesce(5,true).saveAsTextFile("hdfs://m01/user/acoronado/mov/resultados_movilidad_parts.csv")
}
}
@abxda
Más de 700,000 tuiteros
dentro del territorio
Mexicano.
cat tweets_feb_sep.csv | awk -F',' '{print $1}'|sort| uniq | wc -l
@abxda
Calcular total de tuits por
Hora
val hours =
csv.map({line:String =>
val campos = line.split(",").map(_.trim)
val d1 = new Date(campos(8).toLong)
val format = new SimpleDateFormat("dd-MM-yyyy,HH")
(format.format(d1),1)}).reduceByKey((a,b) => a+b)
val csvPath ="hdfs://master/user/acoronado/tweets_feb_sep.csv"
val csv = sc.textFile(csvPath)
csv.cache
hours.coalesce(1).saveAsTextFile("hdfs://…/days_hours_string.csv")
@abxda
Map-Reduce
https://twitter.com/francesc/status/507942534388011008 @abxda
@abxda
Generar la Gráfica
@abxda
A lo largo del tiempo
@abxda
¿Qué pasó entre el 12 de Junio y el 13
de Julio?
@abxda
Pregúntale a Twitter
?
@abxda
Busca tuits en la fecha especifica
object Main extends App {
val fecha1 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-06-12T00:00:00")
val fecha2 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-07-13T23:59:59")
scala.io.Source.fromFile(”/abxda/BigData/tweets_feb_sep_ord_loc.csv")
.getLines()
.grouped(250000)
.flatMap { y=>
y.par.filter({line: String =>
val campos = line.split(",").map(_.trim)
val time = new Date(campos(8).toLong)
time.after(fecha1) && time.before(fecha2)
})
}.foreach({ x: String =>
println(x.toString)
})
}
@abxda
Cómputo paralelo
y.par.filter
Encuentra Hashtags
# coding=utf-8
import codecs
import re
cnt = 0
with codecs.open('/abxda/BigData/Periodo.csv','r','utf-8') as f:
for line in f:
try:
csv = line.split(',')
text = csv[7]
hashtags=re.findall(u"#([áéíóúÁÉÍÓÚñÑA-Za-z0-9_]+)",text,re.U)
for ht in hashtags:
print '#'+ht
except Exception:
pass
@abxda
Prepara archivo para
Wordle
cat hashtagsMundial.txt | sort | uniq -c | sort -n | awk -F' '
'{print $2 ":" $1}' > wordleMun.txt
#NED:8313
#MundialBrasil2014:8777
#VamosMexico:8947
#BRA:10098
#CallMeCam:14531
#ARG:15663
#Brasil2014:16428
#GER:18030
#MEX:34035
http://www.wordle.net/
@abxda
¿Qué pasó entre el 12 de junio y el
13 de julio?
http://www.wordle.net/ @abxda
¿Qué pasó el 23 de junio?
@abxda
¿Qué pasó el 29 de junio?
@abxda
¿Con qué tuiteamos?
@abxda
¿A qué hora tuiteamos?
0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00
@abxda
¿Qué tuiteamos?
@abxda
¿Cómo nos desplazamos
mientras tuiteamos?
@abxda
Gráfica de Movilidad
library(circlize)
testados = read.table("/abxda/TransladosConDFMexMUNICIPAL.csv", sep=";",
header=TRUE, stringsAsFactors = FALSE, quote = "" )
m = table(testados$estadoorigen, testados$estadodestino)
states = union(rownames(m), colnames(m))
circos.clear()
par(mar = c(1, 1, 1, 1))
chordDiagram(m, directional = TRUE, transparency = 0.3,annotationTrack = "grid",
annotationTrackHeight = 0.01,
preAllocateTracks = 1)
for(si in get.all.sector.index()) {
xlim = get.cell.meta.data("xlim", sector.index = si, track.index = 1)
ylim = get.cell.meta.data("ylim", sector.index = si, track.index = 1)
circos.text(mean(xlim), ylim[1], si, facing = "clockwise", adj = c(0, 0.5),
niceFacing = TRUE, cex = 0.9, col = "black", sector.index = si,
track.index = 1)
}
http://cran.r-project.org/web/packages/circlize/vignettes/circlize.pdf @abxda
@abxda
R
https://twitter.com/abxda/status/527937889624027136 @abxda
Paquetes de R
http://www.jottr.org/2014/10/milestone-6000-packages-on-cran.html @abxda
Paquetes de R
Municipios donde más se tuitea.
@abxda
BIENESTAR SUBJETIVO
Cuando se habla de Bienestar se trata de
determinar si una persona cuenta con
determinados satisfactores y si puede
ejercer capacidades fundamentales del ser
humano.
Significa que el bienestar no es sólo una
mera propiedad o conjunto de propiedades
que un analista o un experto puede atribuir
a objetos de medición, sino también una
condición o estado experimentado por
sujetos quienes algo tienen qué decir al
respecto.
¿SUBJETIVO?
@abxda
ANTECEDENTES
Conferencia Latinoamericana para la Medición del Bienestar y la
Promoción del Progreso de las Sociedades
Cd. de México del 11 al 13 de mayo de 2011
BIARE Bienestar Autorreportado
@abxda
Twitter-Bienestar Subjetivo.
http://cienciadedatos.inegi.org.mx/pioanalisis
Para generar nuestro conjunto de entrenamiento se
desarrolló una aplicación para calificar el sentimiento de
los tuits en positivo, negativo o neutro, y clasificarlos en
varios temas.
@abxda
@hbcolectivo @ricardoaolvera
CONOCIENDO A PIO
@hbcolectivo @ricardoaolvera
@abxda
Tecnologías Involucradas
@abxda
@hbcolectivo @ricardoaolvera @abxda
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
RESULTADOS
@hbcolectivo @ricardoaolvera
@abxda
Twitter-Bienestar Subjetivo.
• Estructura del tuit
• Disponibilidad
• aleatorización
• filtros
georreferenciados
“Análisis de sentimiento” Universidad de
Pensilvania
“Mood of the Nation” de los Británicos
“Big Data and Official Statistics” de los
Holandeses
“Taller de Análisis de Sentimiento 2013”
de la SEPLN
Naive Bayes, Support Vector
Machines (SVM)
KNN
Word Count
Spanish Emotion Lexicon (SEL)KNN
AFINN
WordNet
ANEW
@abxda
Estudios de movilidad.
Exploración para el desarrollo de una metodología de
análisis para medir la movilidad transfronteriza con los
tuits georreferenciados.
Actividad de los tuiteros
en la frontera
Azul =tuiteros de origen EUA
Rojo=tuiteros de origen MX.
Actividad solamente de
tuiteros MX
@abxda
Actividad solamente de tuiteros MX
@abxda
@abxda
Herramientas
@abxda
D3.js
Spark - MLib
Mahaut
Los Retos: Infraestructura y Personal
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
CIENCIA DE DATOS
@abxda
Gracias

Más contenido relacionado

Destacado

Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
Salainversion
 
Line A Del Tiempo
Line A Del TiempoLine A Del Tiempo
Line A Del Tiempo
Raul
 
La formation initiale
La formation initialeLa formation initiale
La formation initiale
Réseau Pro Santé
 

Destacado (20)

Scala 1
Scala 1Scala 1
Scala 1
 
Realidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en MéxicoRealidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en México
 
INEGI ESS big data workshop
INEGI ESS big data workshopINEGI ESS big data workshop
INEGI ESS big data workshop
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Geo Big Data 2015
Geo Big Data 2015 Geo Big Data 2015
Geo Big Data 2015
 
Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
Explorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUsExplorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUs
 
Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
 
III.- IV. Metodología para la detección de oportunidades de emprendeduría soc...
III.- IV. Metodología para la detección de oportunidades de emprendeduría soc...III.- IV. Metodología para la detección de oportunidades de emprendeduría soc...
III.- IV. Metodología para la detección de oportunidades de emprendeduría soc...
 
Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
Informe semanal de Análisis Técnico de Cortal Consors del 14 de diciembre de ...
 
Tema 5 Nivel2
Tema 5 Nivel2Tema 5 Nivel2
Tema 5 Nivel2
 
Questions agents
Questions agentsQuestions agents
Questions agents
 
Line A Del Tiempo
Line A Del TiempoLine A Del Tiempo
Line A Del Tiempo
 
Comunicación Audiovisual
Comunicación AudiovisualComunicación Audiovisual
Comunicación Audiovisual
 
Synthèse de l'examen annuel de la croissance 2015
Synthèse de l'examen annuel de la croissance 2015Synthèse de l'examen annuel de la croissance 2015
Synthèse de l'examen annuel de la croissance 2015
 
Dosalas
DosalasDosalas
Dosalas
 
Unidad 2 Actividad 1
Unidad 2 Actividad 1Unidad 2 Actividad 1
Unidad 2 Actividad 1
 
La formation initiale
La formation initialeLa formation initiale
La formation initiale
 

Similar a PresentacionParaINFOTEC

BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
Aragón Open Data
 
Anatomía de un ataque a tns listener
Anatomía de un ataque a tns listenerAnatomía de un ataque a tns listener
Anatomía de un ataque a tns listener
yt f
 
Poo 2009 u2_introd_a_la_poo_2
Poo 2009 u2_introd_a_la_poo_2Poo 2009 u2_introd_a_la_poo_2
Poo 2009 u2_introd_a_la_poo_2
Axel
 

Similar a PresentacionParaINFOTEC (20)

Big data
Big dataBig data
Big data
 
(2) Curso sobre el software estadístico R: La librería googleVis
(2) Curso sobre el software estadístico R: La librería googleVis(2) Curso sobre el software estadístico R: La librería googleVis
(2) Curso sobre el software estadístico R: La librería googleVis
 
Scala un lenguaje para multiprocesador
Scala un lenguaje para multiprocesadorScala un lenguaje para multiprocesador
Scala un lenguaje para multiprocesador
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
 
Los lenguajes de la web
Los lenguajes de la webLos lenguajes de la web
Los lenguajes de la web
 
Codemotion 2016 - d3.js un taller divertido y difícil
Codemotion 2016 - d3.js un taller divertido y difícilCodemotion 2016 - d3.js un taller divertido y difícil
Codemotion 2016 - d3.js un taller divertido y difícil
 
Getchars
GetcharsGetchars
Getchars
 
Getchars
GetcharsGetchars
Getchars
 
UNIVERSIDAD CENTRAL DEL ECUADOR CAMILA ESCOBAR LOPEZ GETCHARS
UNIVERSIDAD CENTRAL DEL ECUADOR CAMILA ESCOBAR LOPEZ GETCHARSUNIVERSIDAD CENTRAL DEL ECUADOR CAMILA ESCOBAR LOPEZ GETCHARS
UNIVERSIDAD CENTRAL DEL ECUADOR CAMILA ESCOBAR LOPEZ GETCHARS
 
UNIVERSIDAD CENTRAL DEL ECUADOR GETCHARS
UNIVERSIDAD CENTRAL DEL ECUADOR GETCHARSUNIVERSIDAD CENTRAL DEL ECUADOR GETCHARS
UNIVERSIDAD CENTRAL DEL ECUADOR GETCHARS
 
Dart como alternativa a TypeScript (Codemotion 2016)
Dart como alternativa a TypeScript (Codemotion 2016)Dart como alternativa a TypeScript (Codemotion 2016)
Dart como alternativa a TypeScript (Codemotion 2016)
 
Real-Time y Big Data: descubre el poder de tus datos
Real-Time y Big Data: descubre el poder de tus datosReal-Time y Big Data: descubre el poder de tus datos
Real-Time y Big Data: descubre el poder de tus datos
 
Anatomía de un ataque a tns listener
Anatomía de un ataque a tns listenerAnatomía de un ataque a tns listener
Anatomía de un ataque a tns listener
 
Tutorial n°3 excel 2010
Tutorial n°3 excel 2010Tutorial n°3 excel 2010
Tutorial n°3 excel 2010
 
PHP+Ajax
PHP+AjaxPHP+Ajax
PHP+Ajax
 
Sr. Pablo García, Internet de las Cosas y Big Data: ¿hacia dónde va la Indust...
Sr. Pablo García, Internet de las Cosas y Big Data: ¿hacia dónde va la Indust...Sr. Pablo García, Internet de las Cosas y Big Data: ¿hacia dónde va la Indust...
Sr. Pablo García, Internet de las Cosas y Big Data: ¿hacia dónde va la Indust...
 
Automatic API REST Droidcon
Automatic API REST DroidconAutomatic API REST Droidcon
Automatic API REST Droidcon
 
Poo 2009 u2_introd_a_la_poo_2
Poo 2009 u2_introd_a_la_poo_2Poo 2009 u2_introd_a_la_poo_2
Poo 2009 u2_introd_a_la_poo_2
 
Fundamentos de Scala (Scala Basics) (español) Catecbol
Fundamentos de Scala (Scala Basics) (español) CatecbolFundamentos de Scala (Scala Basics) (español) Catecbol
Fundamentos de Scala (Scala Basics) (español) Catecbol
 
Proyecto de un formulario de facturacion
Proyecto de un formulario de facturacionProyecto de un formulario de facturacion
Proyecto de un formulario de facturacion
 

Más de Abel Alejandro Coronado Iruegas

Más de Abel Alejandro Coronado Iruegas (14)

Mobility Master Class.pdf
Mobility Master Class.pdfMobility Master Class.pdf
Mobility Master Class.pdf
 
Live UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de MexicoLive UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de Mexico
 
Cubo de datos uaemex
Cubo de datos uaemexCubo de datos uaemex
Cubo de datos uaemex
 
Geo Big Data 4 Datalab
Geo Big Data 4 DatalabGeo Big Data 4 Datalab
Geo Big Data 4 Datalab
 
Catedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBEROCatedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBERO
 
Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...
 
Machine learning and Satellite Images
Machine learning and Satellite ImagesMachine learning and Satellite Images
Machine learning and Satellite Images
 
El Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de MexicoEl Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de Mexico
 
No Sql
No SqlNo Sql
No Sql
 
Cubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de MexicoCubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de Mexico
 
Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (11)

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 

PresentacionParaINFOTEC

Notas del editor

  1. El bienestar subjetivo (felicidad, satisfacción con la vida, emociones positivas y negativas) constituye un elemento central de la calidad de vida de las personas. Tener mediciones del bienestar subjetivo y de las variables que se relacionan con éste permite desarrollar políticas públicas (y privadas) que ayuden a que las personas vivan vidas más gratas y significativas. 
  2. Como parte de los compromisos que se desprendieron de la Conferencia Latinoamericana para la Medición del Bienestar y la Promoción del Progreso de las Sociedades que tuviera lugar en la Cd. de México del 11 al 13 de mayo de 2011, el INEGI decidió emprender una primera exploración de medición del Bienestar Subjetivo, sus dominios, sus condicionantes y su contexto; mediante el diseño de un módulo de preguntas que acompañaría el levantamiento de la Encuesta Nacional de Gastos de los Hogares.
  3. Solución PIOANALISIS Automatización del proceso de clasificación del primer intento en Excel. Ventajas Llegar masivamente a los usuarios Interactividad Una manera entretenida de evaluar Público objetivo: chavos de preparatoria Diseñada a manera de juego, donde existen niveles (Bronce, Plata, Oro y diamante) conforme se evalúan series de 20 tuits se avanza de nivel obteniendo trofeos Diseño de personaje PIO Va obteniendo los trofeos
  4. Definición de elementos, modelo, método y proceso para la investigación. Para el proceso de recolección de tuits se tuvo que descubrir y analizar la estructura de un tuit, investigar su disponibilidad y la forma en que se hace la aleatorización del 1% que se puede extraer, así como la forma de poder aplicar filtros georreferenciados antes de la extracción del flujo en tiempo real, y saber que la cantidad de tuits de México no ha llegado a ese 1%. En paralelo, se estudió lo que se había hecho en otros países: “Análisis de sentimiento” de la Universidad de Pensilvania, "Mood of the Nation" de los Británicos, "Big Data and Official Statistics" de los Holandeses y el material del “Taller de Análisis de Sentimiento 2013” de la SEPLN. Conocimos de diferentes métodos de clasificadores como Naive Bayes, Support Vector Machines (SVM), KNN, y Word Count. Y también conocimos listas de Palabras y diccionarios utilizados en los ejercicios de análisis de sentimientos estudiados, incluyendo Spanish Emotion Lexicon (SEL), AFINN, WordNet, ANEW, etc. Se decidió en el grupo, con base en la investigación realizada, que en vez de contabilizar y calificar palabras sueltas y tokenizadas (2 o 3 palabras juntas), para nuestro proceso de análisis de los tuits se utilizará un esquema de correlación o método supervisado de aprendizaje, en el que manualmente se calificará el sentimiento y se clasificará el tema de un conjunto de tuits, los cuales serán utilizados para “enseñarle” al sistema a reconocerlos y a utilizarlos por similitudes para calificar y clasificar el resto de los tuits
  5. En otros países para medir la movilidad interna e internacional se está utilizando la actividad en la infraestructura de antenas de telefonía celular. Sin embargo, sabemos que no es trivial conseguir el acceso a los registros de las compañías celulares, por lo que en el grupo se está considerando como una alternativa factible el iniciar el desarrollo de una metodología de análisis para medir la movilidad transfronteriza con los tuits georreferenciados, ya que esta misma metodología podría servir en caso de que se consiguieran los registros telefónicos. Estas dos gráficas son solamente exploratorias pero permiten al área de investigación considerar que puede valer la pena el desarrollo de una metodología de análisis para estudiar la movilidad en zonas fronterizas. En la gráfica se muestra visualmente la actividad de los tuiteros en la frontera, cada punto corresponde a un tuit emitido con georreferencia, en azul los tuits provenientes de usuarios registrados con país de origen EUA y en rojo los usuarios registrados con país de origen MX. En la gráfica para evitar la contaminación visual de los tuits de los usuarios registrados con país de origen EUA, se muestran solamente los tuits emitidos por usuarios con país de origen MX.