SlideShare una empresa de Scribd logo
1 de 66
Big Data : Revelando los 
secretos de las redes 
sociales. 
Herramientas y Aplicaciones
Objetivo 
Inspirarlos para que le entren al 
mundo de Big Data. 
https://twitter.com/abxda
Big Data 
https://www.google.com.mx/trends/ https://twitter.com/abxda
¿Qué es Big Data? 
http://datascience.berkeley.edu/what-is-big-data/ https://twitter.com/abxda
¿Qué es Big Data? 
http://datascience.berkeley.edu/what-is-big-data/ 
https://twitter.com/abxda
¿Qué es Big Data? 
http://datascience.berkeley.edu/what-is-big-data/ 
https://twitter.com/abxda
Volumen 
http://commons.wikimedia.org/wiki/Elephas#mediaviewer/File:Berlin_Landesvertretung_Niedersachsen_Elefant.jpg
Velocidad 
http://upload.wikimedia.org/wikipedia/commons/0/0f/Kinemetrics_seismograph.jpg https://twitter.com/abxda
Variedad 
http://upload.wikimedia.org/wikipedia/commons/f/f6/Popular_Social_Networks%2C_Gavin_Llewellyn%2C_CC.jpg
Tomar decisiones, actuar y crear valor 
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg https://twitter.com/abxda
Ciencia de Datos 
Experto en 
computación y 
desarrollo 
avanzados 
Experto en 
estadística 
matemática 
Machine 
learning 
CIENCIA 
DE 
DATOS 
Investigación 
tradicional 
Experto en 
el dominio de 
datos 
Zona 
peligrosa! 
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 
https://twitter.com/abxda
Ciencia de Datos 
Recolectar 
Comprender 
Explorar, Visualizar 
Limpiar 
Transformar 
Modelar 
? 
Validar 
Comunicar 
http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/
Big Data y Ciencia de Datos 
¿quién? 
¿por qué? 
¿qué? 
¿cuántos? 
¿dónde? 
Computo en Paralelo 
Análisis de Datos 
Internet de las Cosas 
Internet de las Personas 
Volumen 
Internet de las Ideas 
Internet de Todo 
Estadística Machine Learning 
Estratificaciones 
Minería de Datos 
Análisis de Redes (Grafos) 
Análisis de Regresión 
Muestreo 
Mucho mas… 
Datos 
Crudos 
Ciencia de Datos 
(Transforma/Modela/Predice) 
Computo Paralelo y Concurrente 
Información 
(Significado) 
https://twitter.com/abxda
Big Data en las Oficinas 
Nacionales de Estadística 
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
Big Data en las Oficinas 
Nacionales de Estadística 
• It is clear that during the next two years there 
is a need to identify a few pilot projects that 
will serve as proof of concept. 
• Statistical organisations are, therefore, 
encouraged to address formally Big data 
issues in their annual and multi-annual work 
programmes by undertaking research and pilot 
projects in selected areas and by allocating 
appropriate resources for that purpose. 
https://twitter.com/abxda
Big Data en las ONE 
• 'new' exploration and analysis methods are 
required: Visualization methods, Text mining, and 
High Performance Computing. 
• To use Big data, statisticians are needed with a 
different mind-set and new skills. The 
processing of more and more data for official 
statistics requires statistically aware people with 
an analytical mind-set, an affinity for IT (e.g. 
programming skills) 
https://twitter.com/abxda
Twitter como fuente de 
BigData 
http://www.salesforcemarketingcloud.com/blog/2010/11/why-the-twitter-firehose-matters-to-you/ https://twitter.com/abxda
¿Cuántos caracteres? 
https://twitter.com/abxda
140 ?? 
https://twitter.com/abxda
Preparando todo para asistir al CIMPS para hablar de #BigData https://cimps.ingsoft.info 
1482 
Json: Formato de Intercambio
Todos los tuits están disponibles para 
su recolección en tiempo real. 
https://twitter.com/abxda
Incluso permite consultas 
geográficas 
https://twitter.com/abxda
¿Dónde recolectar? 
https://twitter.com/abxda
http://www.elasticsearch.org/ 
https://twitter.com/abxda
¿Por qué ElasticSearch? 
https://twitter.com/abxda
¿Por qué ElasticSearch? 
Switch 
Puertos (a) 10.200.2.x 
Puertos (b)10.1.1.X 
Hydra 2 – [10.1.1.X | 10.200.X.X] 
Hydra1 – Master 10.1.1.X 
Acceso a Internet 
[Recolecta información Redes Sociales] 
< ESCALABILIDAD HORIZONTAL > 
https://twitter.com/abxda
Hydra 
https://twitter.com/abxda
Hydra 
https://twitter.com/abxda
Twitter River 
https://github.com/elasticsearch/elasticsearch-river-twitter 
curl -XPUT localhost:9200/_river/my_twitter_river/_meta -d ' 
{ 
"type" : "twitter", 
"twitter" : { 
"oauth" : { 
"consumer_key" :”XXXxxXXxXxX", 
"consumer_secret" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX", 
"access_token" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX", 
"access_token_secret" : "XXXxxXXxXxXXXXxxXXxXxX" 
}, 
"filter" : { 
"locations" :"-118.40764955,14.53209836,-86.71040527,32.71865357" 
} 
} 
} 
' 
https://twitter.com/abxda
La recolección 2014 
https://twitter.com/abxda
Extractor 
es = Elasticsearch(['10.200.2.41:9200']) 
rs = es.search(index=['my_twitter_river'], scroll=duracion, 
search_type='scan', size=int(noTuits), body={ 
"query": { 
"range" : { 
"created_at" : { 
"gte": fechaInicio, 
"lte": fechaFin 
} 
} 
}}) 
https://twitter.com/abxda
Se extraen los puntos del 
CSV 
$cat tweets_feb_sep_ord_loc.csv | awk -F',' '{print $3 "," $4}' 
20.281523,-100.809407 
20.281523,-100.809407 
20.281667,-100.809311 
20.281479,-100.809394 
20.281526,-100.809377 
20.281422,-100.809428 
20.281478,-100.809406 
20.281495,-100.809371 
20.281521,-100.80937 
25.767972,-103.274890 
25.768021,-103.274900 
25.768059,-103.274955 
25.768019,-103.274900 
25.768098,-103.274992 
https://twitter.com/abxda
Quantum GIS 
http://www.qgis.org/ 
https://twitter.com/abxda
Resultado de la recolección 
80M Tuits 
https://twitter.com/abxda
Recorte Geográfico object SimpleApp { 
def main(args: Array[String]){ 
… 
val clipPoints = csv.map({line: String => 
val Array(usuario, lat, lon, date) = line.split(",").map(_.trim) 
val geometryFactory = JTSFactoryFinder.getGeometryFactory(); 
val reader = new WKTReader(geometryFactory); 
val point = reader.read("POINT ("+lon+" "+ lat + ")" ) 
val envelope = point.getEnvelopeInternal 
val internal = geoDataMun.get(envelope) 
val (cve_est, cve_mun) = internal match { 
case l => { 
val existe = l.find( f => f match { case (g:Geometry,e:String,m:String) => g.intersects(point) case _ => false} existe match { 
case Some(t) => t match { case (g:Geometry,e:String,m:String) => (e,m) case _ => ("0","case None => ("0", "0") 
} 
} 
case _ => ("0", "0") 
} 
val time = … 
line+","+time+","+cve_est+","+cve_mun 
}) 
clipPoints.coalesce(5,true).saveAsTextFile("hdfs://m01/user/acoronado/mov/resultados_movilidad_5_parts.csv") 
} 
} https://twitter.com/abxda
cat tweets_feb_sep.csv | awk -F',' '{print $1}'|sort| uniq | wc -l 
Más de 700,000 tuiteros 
dentro del territorio 
Mexicano. 
https://twitter.com/abxda
Calcular total de tuits por 
Hora 
val csvPath ="hdfs://master/user/acoronado/tweets_feb_sep.csv" 
val csv = sc.textFile(csvPath) 
val hours = 
csv.map({line:String => 
val campos = line.split(",").map(_.trim) 
val d1 = new Date(campos(8).toLong) 
val format = new SimpleDateFormat("dd-MM-yyyy,HH") 
(format.format(d1),1)}).reduceByKey((a,b) => a+b) 
csv.cache 
hours.coalesce(1).saveAsTextFile("hdfs://…/days_hours_string.csv") 
https://twitter.com/abxda
https://twitter.com/abxda
Generar la Gráfica 
https://twitter.com/abxda
A lo largo del tiempo 
https://twitter.com/abxda
¿Qué pasó entre el 12 de Junio 
y el 13 de Julio?
Busca tuits en la fecha 
especifica 
object Main extends App { 
val fecha1 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-06-12T00:00:00") 
val fecha2 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-07-13T23:59:59") 
scala.io.Source.fromFile(”/abxda/BigData/tweets_feb_sep_ord_loc.csv") 
.getLines() 
.grouped(250000) 
.flatMap { y=> 
y.par.filter({line: String => 
val campos = line.split(",").map(_.trim) 
val time = new Date(campos(8).toLong) 
time.after(fecha1) && time.before(fecha2) 
}) 
}.foreach({ x: String => 
println(x.toString) 
}) 
} 
https://twitter.com/abxda
Cómputo paralelo 
y.par.filter
Encuentra Hashtags 
# coding=utf-8 
import codecs 
import re 
cnt = 0 
with codecs.open('/abxda/BigData/Periodo.csv','r','utf-8') as f: 
for line in f: 
try: 
csv = line.split(',') 
text = csv[7] 
hashtags=re.findall(u"#([áéíóúÁÉÍÓÚñÑA-Za-z0-9_]+)",text,re.U) 
for ht in hashtags: 
print '#'+ht 
except Exception: 
pass 
https://twitter.com/abxda
Prepara archivo para Wordle 
http://www.wordle.net/ 
cat hashtagsMundial.txt | sort | uniq -c | sort -n | awk -F' ' 
'{print $2 ":" $1}' > wordleMun.txt 
#NED:8313 
#MundialBrasil2014:8777 
#VamosMexico:8947 
#BRA:10098 
#CallMeCam:14531 
#ARG:15663 
#Brasil2014:16428 
#GER:18030 
#MEX:34035 
https://twitter.com/abxda
¿Qué pasó entre el 12 de junio y el 
13 de julio? 
http://www.wordle.net/ https://twitter.com/abxda
¿Qué pasó el 23 de junio? 
https://twitter.com/abxda
¿Qué pasó el 29 de junio? 
https://twitter.com/abxda
¿Con qué tuiteamos? 
https://twitter.com/abxda
¿A qué hora tuiteamos? 
0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 
22:00 23:00 https://twitter.com/abxda
¿Qué tuiteamos? 
https://twitter.com/abxda
¿Cómo nos desplazamos 
mientras tuiteamos? 
https://twitter.com/abxda
Gráfica de Movilidad 
library(circlize) 
testados = read.table("/abxda/TransladosConDFMexMUNICIPAL.csv", sep=";", 
header=TRUE, stringsAsFactors = FALSE, quote = "" ) 
m = table(testados$estadoorigen, testados$estadodestino) 
states = union(rownames(m), colnames(m)) 
circos.clear() 
par(mar = c(1, 1, 1, 1)) 
chordDiagram(m, directional = TRUE, transparency = 0.3,annotationTrack = "grid", 
annotationTrackHeight = 0.01, 
preAllocateTracks = 1) 
for(si in get.all.sector.index()) { 
xlim = get.cell.meta.data("xlim", sector.index = si, track.index = 1) 
ylim = get.cell.meta.data("ylim", sector.index = si, track.index = 1) 
circos.text(mean(xlim), ylim[1], si, facing = "clockwise", adj = c(0, 0.5), 
niceFacing = TRUE, cex = 0.9, col = "black", sector.index = si, 
track.index = 1) 
} 
http://cran.r-project.org/web/packages/circlize/vignettes/circlize.pdf https://twitter.com/abxda
http://cran.r-project.org/web/packages/circlize/vignettes/circlize.pdf https://twitter.com/abxda
Municipios donde más se tuitea. 
https://twitter.com/abxda
Twitter-Bienestar Subjetivo. 
• Estructura del tuit 
• Disponibilidad 
• aleatorización 
• filtros 
georreferenciado 
s 
“Análisis de sentimiento” Universidad de 
Pensilvania 
“Mood of the Nation” de los Británicos 
“Big Data and Official Statistics” de los 
Holandeses 
“Taller de Análisis de Sentimiento 2013” 
de la SEPLN 
Naive Bayes, Support Vector 
Machines (SVM) 
KNN 
Word Count 
Spanish Emotion Lexicon (SEL)KNN 
AFINN 
WordNet 
ANEW 
https://twitter.com/abxda
Twitter-Bienestar Subjetivo. 
• No se utilizará el contabilizar y calificar palabras 
sueltas y tokenizadas (2 o 3 palabras juntas) 
• Se probaran métodos supervisados de aprendizaje 
• Manualmente se califica el sentimiento y se 
clasifica el tema de un conjunto de tuits (conjunto 
de entrenamiento) 
• El conjunto de entrenamiento se utiliza para 
“enseñarle” al sistema a reconocerlos y a 
utilizarlos por similitudes para calificar y clasificar 
el resto de los tuits. 
https://twitter.com/abxda
Twitter-Bienestar Subjetivo. 
Para generar nuestro conjunto de entrenamiento se desarrolló 
una aplicación para calificar el sentimiento de los tuits en 
positivo, negativo o neutro, y clasificarlos en varios temas. 
http://cienciadedatos.inegi.org.mx/pioanalisis 
https://twitter.com/abxda
https://twitter.com/abxda
Estudios de movilidad. 
Exploración para el desarrollo de una metodología de 
análisis para medir la movilidad transfronteriza con los 
tuits georreferenciados. 
Actividad de los tuiteros 
en la frontera 
Azul =tuiteros de origen EUA 
Rojo=tuiteros de origen MX. 
Actividad solamente de 
tuiteros MX 
https://twitter.com/abxda
Actividad solamente de tuiteros MX 
https://twitter.com/abxda
Herramientas 
https://twitter.com/abxda
Los Retos: 
Infraestructura y Personal 
Experto en 
computación y 
desarrollo 
avanzados 
Experto en 
estadística 
matemática 
CIENCIA 
DE 
DATOS 
Experto en 
el dominio de 
datos 
Zona 
peligrosa! 
Investigación 
tradicional 
Machine 
learning 
https://twitter.com/abxda
• Programación funcional La tarea 
• Scala 
• Akka 
• Estadística 
• Probabilidad y Estadística 
• Muestreo 
• Machine Learning 
• R 
• Almacenes de Datos NoSQL 
• Cassandra 
• MongoDB 
• Hbase 
• ElasticSearch 
• Plataformas Big Data 
• Hadoop 
• Spark 
• Visualización de Datos 
• D3.js 
https://twitter.com/abxda
GRACIAS !!!! 
abel.coronado@inegi.org.mx 
@abxda

Más contenido relacionado

Destacado

7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivoSocialmetrix
 
Adios hadoop, Hola Spark! T3chfest 2015
Adios hadoop, Hola Spark! T3chfest 2015Adios hadoop, Hola Spark! T3chfest 2015
Adios hadoop, Hola Spark! T3chfest 2015dhiguero
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Introducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoIntroducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
 
Guia practica de_gestion_de_riesgos
Guia practica de_gestion_de_riesgosGuia practica de_gestion_de_riesgos
Guia practica de_gestion_de_riesgosMM CO
 

Destacado (20)

Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Scala 1
Scala 1Scala 1
Scala 1
 
Geo Big Data 2015
Geo Big Data 2015 Geo Big Data 2015
Geo Big Data 2015
 
Realidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en MéxicoRealidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en México
 
7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo
 
Spark Hands-on
Spark Hands-onSpark Hands-on
Spark Hands-on
 
Adios hadoop, Hola Spark! T3chfest 2015
Adios hadoop, Hola Spark! T3chfest 2015Adios hadoop, Hola Spark! T3chfest 2015
Adios hadoop, Hola Spark! T3chfest 2015
 
INEGI ESS big data workshop
INEGI ESS big data workshopINEGI ESS big data workshop
INEGI ESS big data workshop
 
Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Introducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidianoIntroducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark a través de un caso de uso cotidiano
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtime
 
Explorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUsExplorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUs
 
Guia practica de_gestion_de_riesgos
Guia practica de_gestion_de_riesgosGuia practica de_gestion_de_riesgos
Guia practica de_gestion_de_riesgos
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Iso 31000
Iso 31000Iso 31000
Iso 31000
 
ISO 31000: GESTIÓN DE RIESGOS
ISO 31000: GESTIÓN DE RIESGOSISO 31000: GESTIÓN DE RIESGOS
ISO 31000: GESTIÓN DE RIESGOS
 
Descubre la iso 31000 para la gestion de riesgos
Descubre la iso 31000 para la gestion de riesgosDescubre la iso 31000 para la gestion de riesgos
Descubre la iso 31000 para la gestion de riesgos
 
ISO 31000:2009 GESTION DE RIESGO
ISO 31000:2009 GESTION DE RIESGOISO 31000:2009 GESTION DE RIESGO
ISO 31000:2009 GESTION DE RIESGO
 

Similar a Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014

BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASAragón Open Data
 
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....Alberto Diaz Martin
 
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...equipo24
 
Desarrollo de Aplicaciones para Twitter - CWZGZ
Desarrollo de Aplicaciones para Twitter - CWZGZDesarrollo de Aplicaciones para Twitter - CWZGZ
Desarrollo de Aplicaciones para Twitter - CWZGZequipo24
 
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...Jorge Rubiano
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosManuel Martín
 
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...cricc
 
Diseño de Aplicaciones para Twitter
Diseño de Aplicaciones para TwitterDiseño de Aplicaciones para Twitter
Diseño de Aplicaciones para Twitterequipo24
 
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...Facultad Ingeniería Udec
 
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientasDesarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientasGuillermo Álvaro Rey
 

Similar a Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014 (20)

Big data
Big dataBig data
Big data
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
 
Machine learning automatizado
Machine learning automatizadoMachine learning automatizado
Machine learning automatizado
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
 
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
 
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...
Taller de Diseño y Desarrollo de Aplicaciones para Twitter - Congreso Interne...
 
Desarrollo de Aplicaciones para Twitter - CWZGZ
Desarrollo de Aplicaciones para Twitter - CWZGZDesarrollo de Aplicaciones para Twitter - CWZGZ
Desarrollo de Aplicaciones para Twitter - CWZGZ
 
APIs de medios sociales
APIs de medios socialesAPIs de medios sociales
APIs de medios sociales
 
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datos
 
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...
Mariluz Congosto (2019). Social network analysis: una herramienta para desenm...
 
Diseño de Aplicaciones para Twitter
Diseño de Aplicaciones para TwitterDiseño de Aplicaciones para Twitter
Diseño de Aplicaciones para Twitter
 
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
WebRTC - Una nueva tecnología web al servicio de la educación. Caso en Virtua...
 
Rackio framework
Rackio frameworkRackio framework
Rackio framework
 
TCAT workshop
TCAT workshopTCAT workshop
TCAT workshop
 
PHP+Ajax
PHP+AjaxPHP+Ajax
PHP+Ajax
 
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientasDesarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas
 
Taller II Coreis Python 13112009
Taller II Coreis Python 13112009Taller II Coreis Python 13112009
Taller II Coreis Python 13112009
 
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
 

Más de Abel Alejandro Coronado Iruegas

Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Abel Alejandro Coronado Iruegas
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAbel Alejandro Coronado Iruegas
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIAbel Alejandro Coronado Iruegas
 

Más de Abel Alejandro Coronado Iruegas (15)

Mobility Master Class.pdf
Mobility Master Class.pdfMobility Master Class.pdf
Mobility Master Class.pdf
 
Live UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de MexicoLive UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de Mexico
 
Cubo de datos uaemex
Cubo de datos uaemexCubo de datos uaemex
Cubo de datos uaemex
 
Geo Big Data 4 Datalab
Geo Big Data 4 DatalabGeo Big Data 4 Datalab
Geo Big Data 4 Datalab
 
Catedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBEROCatedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBERO
 
Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...
 
Machine learning and Satellite Images
Machine learning and Satellite ImagesMachine learning and Satellite Images
Machine learning and Satellite Images
 
El Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de MexicoEl Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de Mexico
 
No Sql
No SqlNo Sql
No Sql
 
Cubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de MexicoCubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de Mexico
 
Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 

Último

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 

Último (10)

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 

Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014

  • 1. Big Data : Revelando los secretos de las redes sociales. Herramientas y Aplicaciones
  • 2. Objetivo Inspirarlos para que le entren al mundo de Big Data. https://twitter.com/abxda
  • 3. Big Data https://www.google.com.mx/trends/ https://twitter.com/abxda
  • 4. ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ https://twitter.com/abxda
  • 5. ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ https://twitter.com/abxda
  • 6. ¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ https://twitter.com/abxda
  • 10. Tomar decisiones, actuar y crear valor http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg https://twitter.com/abxda
  • 11. Ciencia de Datos Experto en computación y desarrollo avanzados Experto en estadística matemática Machine learning CIENCIA DE DATOS Investigación tradicional Experto en el dominio de datos Zona peligrosa! http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram https://twitter.com/abxda
  • 12. Ciencia de Datos Recolectar Comprender Explorar, Visualizar Limpiar Transformar Modelar ? Validar Comunicar http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/
  • 13. Big Data y Ciencia de Datos ¿quién? ¿por qué? ¿qué? ¿cuántos? ¿dónde? Computo en Paralelo Análisis de Datos Internet de las Cosas Internet de las Personas Volumen Internet de las Ideas Internet de Todo Estadística Machine Learning Estratificaciones Minería de Datos Análisis de Redes (Grafos) Análisis de Regresión Muestreo Mucho mas… Datos Crudos Ciencia de Datos (Transforma/Modela/Predice) Computo Paralelo y Concurrente Información (Significado) https://twitter.com/abxda
  • 14. Big Data en las Oficinas Nacionales de Estadística http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
  • 15. Big Data en las Oficinas Nacionales de Estadística • It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept. • Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose. https://twitter.com/abxda
  • 16. Big Data en las ONE • 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing. • To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) https://twitter.com/abxda
  • 17. Twitter como fuente de BigData http://www.salesforcemarketingcloud.com/blog/2010/11/why-the-twitter-firehose-matters-to-you/ https://twitter.com/abxda
  • 20. Preparando todo para asistir al CIMPS para hablar de #BigData https://cimps.ingsoft.info 1482 Json: Formato de Intercambio
  • 21. Todos los tuits están disponibles para su recolección en tiempo real. https://twitter.com/abxda
  • 22. Incluso permite consultas geográficas https://twitter.com/abxda
  • 25. ¿Por qué ElasticSearch? https://twitter.com/abxda
  • 26. ¿Por qué ElasticSearch? Switch Puertos (a) 10.200.2.x Puertos (b)10.1.1.X Hydra 2 – [10.1.1.X | 10.200.X.X] Hydra1 – Master 10.1.1.X Acceso a Internet [Recolecta información Redes Sociales] < ESCALABILIDAD HORIZONTAL > https://twitter.com/abxda
  • 29. Twitter River https://github.com/elasticsearch/elasticsearch-river-twitter curl -XPUT localhost:9200/_river/my_twitter_river/_meta -d ' { "type" : "twitter", "twitter" : { "oauth" : { "consumer_key" :”XXXxxXXxXxX", "consumer_secret" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX", "access_token" : "XXXxxXXxXxXXXXxxXXxXxXXXXxxXXxXxX", "access_token_secret" : "XXXxxXXxXxXXXXxxXXxXxX" }, "filter" : { "locations" :"-118.40764955,14.53209836,-86.71040527,32.71865357" } } } ' https://twitter.com/abxda
  • 30. La recolección 2014 https://twitter.com/abxda
  • 31. Extractor es = Elasticsearch(['10.200.2.41:9200']) rs = es.search(index=['my_twitter_river'], scroll=duracion, search_type='scan', size=int(noTuits), body={ "query": { "range" : { "created_at" : { "gte": fechaInicio, "lte": fechaFin } } }}) https://twitter.com/abxda
  • 32. Se extraen los puntos del CSV $cat tweets_feb_sep_ord_loc.csv | awk -F',' '{print $3 "," $4}' 20.281523,-100.809407 20.281523,-100.809407 20.281667,-100.809311 20.281479,-100.809394 20.281526,-100.809377 20.281422,-100.809428 20.281478,-100.809406 20.281495,-100.809371 20.281521,-100.80937 25.767972,-103.274890 25.768021,-103.274900 25.768059,-103.274955 25.768019,-103.274900 25.768098,-103.274992 https://twitter.com/abxda
  • 33. Quantum GIS http://www.qgis.org/ https://twitter.com/abxda
  • 34. Resultado de la recolección 80M Tuits https://twitter.com/abxda
  • 35. Recorte Geográfico object SimpleApp { def main(args: Array[String]){ … val clipPoints = csv.map({line: String => val Array(usuario, lat, lon, date) = line.split(",").map(_.trim) val geometryFactory = JTSFactoryFinder.getGeometryFactory(); val reader = new WKTReader(geometryFactory); val point = reader.read("POINT ("+lon+" "+ lat + ")" ) val envelope = point.getEnvelopeInternal val internal = geoDataMun.get(envelope) val (cve_est, cve_mun) = internal match { case l => { val existe = l.find( f => f match { case (g:Geometry,e:String,m:String) => g.intersects(point) case _ => false} existe match { case Some(t) => t match { case (g:Geometry,e:String,m:String) => (e,m) case _ => ("0","case None => ("0", "0") } } case _ => ("0", "0") } val time = … line+","+time+","+cve_est+","+cve_mun }) clipPoints.coalesce(5,true).saveAsTextFile("hdfs://m01/user/acoronado/mov/resultados_movilidad_5_parts.csv") } } https://twitter.com/abxda
  • 36. cat tweets_feb_sep.csv | awk -F',' '{print $1}'|sort| uniq | wc -l Más de 700,000 tuiteros dentro del territorio Mexicano. https://twitter.com/abxda
  • 37. Calcular total de tuits por Hora val csvPath ="hdfs://master/user/acoronado/tweets_feb_sep.csv" val csv = sc.textFile(csvPath) val hours = csv.map({line:String => val campos = line.split(",").map(_.trim) val d1 = new Date(campos(8).toLong) val format = new SimpleDateFormat("dd-MM-yyyy,HH") (format.format(d1),1)}).reduceByKey((a,b) => a+b) csv.cache hours.coalesce(1).saveAsTextFile("hdfs://…/days_hours_string.csv") https://twitter.com/abxda
  • 39. Generar la Gráfica https://twitter.com/abxda
  • 40. A lo largo del tiempo https://twitter.com/abxda
  • 41. ¿Qué pasó entre el 12 de Junio y el 13 de Julio?
  • 42. Busca tuits en la fecha especifica object Main extends App { val fecha1 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-06-12T00:00:00") val fecha2 = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss").parse("2014-07-13T23:59:59") scala.io.Source.fromFile(”/abxda/BigData/tweets_feb_sep_ord_loc.csv") .getLines() .grouped(250000) .flatMap { y=> y.par.filter({line: String => val campos = line.split(",").map(_.trim) val time = new Date(campos(8).toLong) time.after(fecha1) && time.before(fecha2) }) }.foreach({ x: String => println(x.toString) }) } https://twitter.com/abxda
  • 44. Encuentra Hashtags # coding=utf-8 import codecs import re cnt = 0 with codecs.open('/abxda/BigData/Periodo.csv','r','utf-8') as f: for line in f: try: csv = line.split(',') text = csv[7] hashtags=re.findall(u"#([áéíóúÁÉÍÓÚñÑA-Za-z0-9_]+)",text,re.U) for ht in hashtags: print '#'+ht except Exception: pass https://twitter.com/abxda
  • 45. Prepara archivo para Wordle http://www.wordle.net/ cat hashtagsMundial.txt | sort | uniq -c | sort -n | awk -F' ' '{print $2 ":" $1}' > wordleMun.txt #NED:8313 #MundialBrasil2014:8777 #VamosMexico:8947 #BRA:10098 #CallMeCam:14531 #ARG:15663 #Brasil2014:16428 #GER:18030 #MEX:34035 https://twitter.com/abxda
  • 46. ¿Qué pasó entre el 12 de junio y el 13 de julio? http://www.wordle.net/ https://twitter.com/abxda
  • 47. ¿Qué pasó el 23 de junio? https://twitter.com/abxda
  • 48. ¿Qué pasó el 29 de junio? https://twitter.com/abxda
  • 49. ¿Con qué tuiteamos? https://twitter.com/abxda
  • 50. ¿A qué hora tuiteamos? 0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 https://twitter.com/abxda
  • 52. ¿Cómo nos desplazamos mientras tuiteamos? https://twitter.com/abxda
  • 53. Gráfica de Movilidad library(circlize) testados = read.table("/abxda/TransladosConDFMexMUNICIPAL.csv", sep=";", header=TRUE, stringsAsFactors = FALSE, quote = "" ) m = table(testados$estadoorigen, testados$estadodestino) states = union(rownames(m), colnames(m)) circos.clear() par(mar = c(1, 1, 1, 1)) chordDiagram(m, directional = TRUE, transparency = 0.3,annotationTrack = "grid", annotationTrackHeight = 0.01, preAllocateTracks = 1) for(si in get.all.sector.index()) { xlim = get.cell.meta.data("xlim", sector.index = si, track.index = 1) ylim = get.cell.meta.data("ylim", sector.index = si, track.index = 1) circos.text(mean(xlim), ylim[1], si, facing = "clockwise", adj = c(0, 0.5), niceFacing = TRUE, cex = 0.9, col = "black", sector.index = si, track.index = 1) } http://cran.r-project.org/web/packages/circlize/vignettes/circlize.pdf https://twitter.com/abxda
  • 55. Municipios donde más se tuitea. https://twitter.com/abxda
  • 56. Twitter-Bienestar Subjetivo. • Estructura del tuit • Disponibilidad • aleatorización • filtros georreferenciado s “Análisis de sentimiento” Universidad de Pensilvania “Mood of the Nation” de los Británicos “Big Data and Official Statistics” de los Holandeses “Taller de Análisis de Sentimiento 2013” de la SEPLN Naive Bayes, Support Vector Machines (SVM) KNN Word Count Spanish Emotion Lexicon (SEL)KNN AFINN WordNet ANEW https://twitter.com/abxda
  • 57. Twitter-Bienestar Subjetivo. • No se utilizará el contabilizar y calificar palabras sueltas y tokenizadas (2 o 3 palabras juntas) • Se probaran métodos supervisados de aprendizaje • Manualmente se califica el sentimiento y se clasifica el tema de un conjunto de tuits (conjunto de entrenamiento) • El conjunto de entrenamiento se utiliza para “enseñarle” al sistema a reconocerlos y a utilizarlos por similitudes para calificar y clasificar el resto de los tuits. https://twitter.com/abxda
  • 58. Twitter-Bienestar Subjetivo. Para generar nuestro conjunto de entrenamiento se desarrolló una aplicación para calificar el sentimiento de los tuits en positivo, negativo o neutro, y clasificarlos en varios temas. http://cienciadedatos.inegi.org.mx/pioanalisis https://twitter.com/abxda
  • 59.
  • 61. Estudios de movilidad. Exploración para el desarrollo de una metodología de análisis para medir la movilidad transfronteriza con los tuits georreferenciados. Actividad de los tuiteros en la frontera Azul =tuiteros de origen EUA Rojo=tuiteros de origen MX. Actividad solamente de tuiteros MX https://twitter.com/abxda
  • 62. Actividad solamente de tuiteros MX https://twitter.com/abxda
  • 64. Los Retos: Infraestructura y Personal Experto en computación y desarrollo avanzados Experto en estadística matemática CIENCIA DE DATOS Experto en el dominio de datos Zona peligrosa! Investigación tradicional Machine learning https://twitter.com/abxda
  • 65. • Programación funcional La tarea • Scala • Akka • Estadística • Probabilidad y Estadística • Muestreo • Machine Learning • R • Almacenes de Datos NoSQL • Cassandra • MongoDB • Hbase • ElasticSearch • Plataformas Big Data • Hadoop • Spark • Visualización de Datos • D3.js https://twitter.com/abxda

Notas del editor

  1. Definición de elementos, modelo, método y proceso para la investigación. Para el proceso de recolección de tuits se tuvo que descubrir y analizar la estructura de un tuit, investigar su disponibilidad y la forma en que se hace la aleatorización del 1% que se puede extraer, así como la forma de poder aplicar filtros georreferenciados antes de la extracción del flujo en tiempo real, y saber que la cantidad de tuits de México no ha llegado a ese 1%. En paralelo, se estudió lo que se había hecho en otros países: “Análisis de sentimiento” de la Universidad de Pensilvania, "Mood of the Nation" de los Británicos, "Big Data and Official Statistics" de los Holandeses y el material del “Taller de Análisis de Sentimiento 2013” de la SEPLN. Conocimos de diferentes métodos de clasificadores como Naive Bayes, Support Vector Machines (SVM), KNN, y Word Count. Y también conocimos listas de Palabras y diccionarios utilizados en los ejercicios de análisis de sentimientos estudiados, incluyendo Spanish Emotion Lexicon (SEL), AFINN, WordNet, ANEW, etc. Se decidió en el grupo, con base en la investigación realizada, que en vez de contabilizar y calificar palabras sueltas y tokenizadas (2 o 3 palabras juntas), para nuestro proceso de análisis de los tuits se utilizará un esquema de correlación o método supervisado de aprendizaje, en el que manualmente se calificará el sentimiento y se clasificará el tema de un conjunto de tuits, los cuales serán utilizados para “enseñarle” al sistema a reconocerlos y a utilizarlos por similitudes para calificar y clasificar el resto de los tuits
  2. Se decidió en el grupo, con base en la investigación realizada, que en vez de contabilizar y calificar palabras sueltas y tokenizadas (2 o 3 palabras juntas), para nuestro proceso de análisis de los tuits se utilizará un esquema de correlación o método supervisado de aprendizaje, en el que manualmente se calificará el sentimiento y se clasificará el tema de un conjunto de tuits, los cuales serán utilizados para “enseñarle” al sistema a reconocerlos y a utilizarlos por similitudes para calificar y clasificar el resto de los tuits.
  3. En otros países para medir la movilidad interna e internacional se está utilizando la actividad en la infraestructura de antenas de telefonía celular. Sin embargo, sabemos que no es trivial conseguir el acceso a los registros de las compañías celulares, por lo que en el grupo se está considerando como una alternativa factible el iniciar el desarrollo de una metodología de análisis para medir la movilidad transfronteriza con los tuits georreferenciados, ya que esta misma metodología podría servir en caso de que se consiguieran los registros telefónicos. Estas dos gráficas son solamente exploratorias pero permiten al área de investigación considerar que puede valer la pena el desarrollo de una metodología de análisis para estudiar la movilidad en zonas fronterizas. En la gráfica se muestra visualmente la actividad de los tuiteros en la frontera, cada punto corresponde a un tuit emitido con georreferencia, en azul los tuits provenientes de usuarios registrados con país de origen EUA y en rojo los usuarios registrados con país de origen MX. En la gráfica para evitar la contaminación visual de los tuits de los usuarios registrados con país de origen EUA, se muestran solamente los tuits emitidos por usuarios con país de origen MX.