Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos. Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos, entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros. Cómo mantener la privacidad en el mundo virtual actual.
Clase de Introducción a Data Science & Big Data
Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"
Una tarea fundamental del proceso de datamining consiste en encontrar ítems similares. Un ejemplo es buscar dentro de una colección de páginas web para encontrar páginas near-duplicadas. Estas páginas abundan en la Internet; corresponden a plagios, mirrors, campañas, etc.
Comenzaremos con una noción básica de similaridad basada en conjuntos con relativa gran intersección.
Luego avanzamos con una técnica llamada minhashing, que consiste en comprimir grandes conjuntos de elementos en una pequeña firma (signature) donde se mantenga la noción de cercanía.
Referencias: http://mmds.org
Tópicos de Big Data - Sistemas de RecomendaciónErnesto Mislej
Los Sistemas de Recomendación (RS), rec. systems, engines, frameworks, platforms es una disciplina derivada del Data Mining que se centra en el diseño de filtros sobre colecciones de items que son del gusto o del interés del usuario.
Para tal fin se utilizan la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
Se trabajan sobre dominos ligados al gusto como son las películas, programas de TV, video por demanda, música, libros, espectáculos, restaurantes, noticias, entre otros.
Referencias: http://mmds.org
Una de las tecnologías más revolucionarias que ha cambiado para siempre nuestra vida, sin duda es la Internet; y con ella los motores de búsqueda como Google. Google no fue el primer buscador, sino el primero que pudo combatir eficientemente a los spammers quienes intentan intervenir en la propuesta original de información de la Web. Discutiremos la innovación más grande realizada por Google, el PageRank.
La batalla entre quienes hacer la Web más útil y quienes quieren manipularla para su propio beneficio pareciera nunca terminar. Veremos las formas de vencer y manipular el PageRank, construyendo pequeñas webs llamadas link spam.
Referencias: http://mmds.org
Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Presentación en el marco del Datafest La Nación - Universidad Austral.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...Ernesto Mislej
¿Te preguntaste cómo hace Amazon para recomendarte libros y otros productos? ¿O Netflix para sugerirte nuevas películas o series? ¿Sabías que las ventas a través de recomendaciones superan en varios órdenes de magnitud a las ventas por "top sellers"?
Sistemas de Recomendación es la disciplina derivada del Data Mining que se enfoca en el diseño de filtros personalizados sobre el catálogo de ítems que sean del gusto o del interés del usuario. Para tal fin se utiliza la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
A los sectores más populares como Video-on-Demand, Contenido Digital y eCommerce se le han sumado recomendación de espectáculos, restaurantes, noticias, gente para conocer, chistes y hasta nombres de bebés.
Daremos un repaso por los hitos más importantes de esta emergente área. Contaremos cuáles son y cómo funcionan las principales técnicas. Charlaremos sobre la problemática actual, tendencias y desafíos.
Y sentaremos las bases para armar un sistema de recomendación de vinos.
Clase de Introducción a Data Science & Big Data
Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"
Una tarea fundamental del proceso de datamining consiste en encontrar ítems similares. Un ejemplo es buscar dentro de una colección de páginas web para encontrar páginas near-duplicadas. Estas páginas abundan en la Internet; corresponden a plagios, mirrors, campañas, etc.
Comenzaremos con una noción básica de similaridad basada en conjuntos con relativa gran intersección.
Luego avanzamos con una técnica llamada minhashing, que consiste en comprimir grandes conjuntos de elementos en una pequeña firma (signature) donde se mantenga la noción de cercanía.
Referencias: http://mmds.org
Tópicos de Big Data - Sistemas de RecomendaciónErnesto Mislej
Los Sistemas de Recomendación (RS), rec. systems, engines, frameworks, platforms es una disciplina derivada del Data Mining que se centra en el diseño de filtros sobre colecciones de items que son del gusto o del interés del usuario.
Para tal fin se utilizan la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
Se trabajan sobre dominos ligados al gusto como son las películas, programas de TV, video por demanda, música, libros, espectáculos, restaurantes, noticias, entre otros.
Referencias: http://mmds.org
Una de las tecnologías más revolucionarias que ha cambiado para siempre nuestra vida, sin duda es la Internet; y con ella los motores de búsqueda como Google. Google no fue el primer buscador, sino el primero que pudo combatir eficientemente a los spammers quienes intentan intervenir en la propuesta original de información de la Web. Discutiremos la innovación más grande realizada por Google, el PageRank.
La batalla entre quienes hacer la Web más útil y quienes quieren manipularla para su propio beneficio pareciera nunca terminar. Veremos las formas de vencer y manipular el PageRank, construyendo pequeñas webs llamadas link spam.
Referencias: http://mmds.org
Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Presentación en el marco del Datafest La Nación - Universidad Austral.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...Ernesto Mislej
¿Te preguntaste cómo hace Amazon para recomendarte libros y otros productos? ¿O Netflix para sugerirte nuevas películas o series? ¿Sabías que las ventas a través de recomendaciones superan en varios órdenes de magnitud a las ventas por "top sellers"?
Sistemas de Recomendación es la disciplina derivada del Data Mining que se enfoca en el diseño de filtros personalizados sobre el catálogo de ítems que sean del gusto o del interés del usuario. Para tal fin se utiliza la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
A los sectores más populares como Video-on-Demand, Contenido Digital y eCommerce se le han sumado recomendación de espectáculos, restaurantes, noticias, gente para conocer, chistes y hasta nombres de bebés.
Daremos un repaso por los hitos más importantes de esta emergente área. Contaremos cuáles son y cómo funcionan las principales técnicas. Charlaremos sobre la problemática actual, tendencias y desafíos.
Y sentaremos las bases para armar un sistema de recomendación de vinos.
Innovación en Big Data
A esta altura parece una verdad de perogrullo: "Las compañías que mejor utilicen la información, serán las más preparadas para afrontar los desafíos de la competitividad en el futuro". Hemos escuchado frases como estas muchas veces. Tenemos plena convicción de que existe valor en los datos que genera nuestra compañía, sentimos que tenemos que hacer algo pronto o pereceremos. Datos emergen a borbotones, la pregunta es: ¿dónde empezamos a buscar el tan prometido valor?
Introducción a Big Data
Las unidades temáticas y ejemplos están motivados mayormente en problemas actuales derivados de la Web, su estructura y en los datos que ésta genera a partir de sitios de noticias, redes sociales, buscadores de internet, sistemas de comercio electrónico, entre otros. Para ello se han diseñado una recopilación de técnicas, algoritmos y problemas agrupado en ejes temáticos.
Se dará énfasis a la problemática conocida como Big Data que trata sobre el tamaño de los datos, el modelo de arquitectura y file systems distribuidos de gran escala.
Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data); arquitectura de datos y file system distribuidos de gran escala y modelo map reduce para diseñar algoritmos paralelos. Principio de Bonferroni, límite estadístico en el data-mining. Paradoja de Rhine, Detección de gente sospechosa
Referencias:
http://7puentes.com
http://datamining.dc.uba.ar
http://www.mmds.org
Red social es un medio de comunicación social que se centra en encontrar gente para relacionarse en línea. Están formadas por personas que comparten alguna relación, principalmente de amistad, mantienen intereses y actividades en común, o están interesados en explorar los intereses y las actividades de otros.
El software germinal de las redes sociales parte de la teoría de los seis grados de separación, según la cual toda la gente del planeta está conectada a través de no más de seis personas.
Innovación en Big Data
A esta altura parece una verdad de perogrullo: "Las compañías que mejor utilicen la información, serán las más preparadas para afrontar los desafíos de la competitividad en el futuro". Hemos escuchado frases como estas muchas veces. Tenemos plena convicción de que existe valor en los datos que genera nuestra compañía, sentimos que tenemos que hacer algo pronto o pereceremos. Datos emergen a borbotones, la pregunta es: ¿dónde empezamos a buscar el tan prometido valor?
Introducción a Big Data
Las unidades temáticas y ejemplos están motivados mayormente en problemas actuales derivados de la Web, su estructura y en los datos que ésta genera a partir de sitios de noticias, redes sociales, buscadores de internet, sistemas de comercio electrónico, entre otros. Para ello se han diseñado una recopilación de técnicas, algoritmos y problemas agrupado en ejes temáticos.
Se dará énfasis a la problemática conocida como Big Data que trata sobre el tamaño de los datos, el modelo de arquitectura y file systems distribuidos de gran escala.
Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data); arquitectura de datos y file system distribuidos de gran escala y modelo map reduce para diseñar algoritmos paralelos. Principio de Bonferroni, límite estadístico en el data-mining. Paradoja de Rhine, Detección de gente sospechosa
Referencias:
http://7puentes.com
http://datamining.dc.uba.ar
http://www.mmds.org
Red social es un medio de comunicación social que se centra en encontrar gente para relacionarse en línea. Están formadas por personas que comparten alguna relación, principalmente de amistad, mantienen intereses y actividades en común, o están interesados en explorar los intereses y las actividades de otros.
El software germinal de las redes sociales parte de la teoría de los seis grados de separación, según la cual toda la gente del planeta está conectada a través de no más de seis personas.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Dime qué tuiteas y te diré quién eres. DataFest 2013
1. Dime qué tuiteas y te diré quién eres
Ernesto Mislej - @fetnelio
ernesto@7puentes.com
Buenos Aires, 1 de Noviembre de 2013
2. Dime qué tuiteas y te diré quién eres
Abstract
Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos.
Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que
ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos,
entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para
construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros.
Cómo mantener la privacidad en el mundo virtual actual.
1
3. Un astrónomo, un físico y
un matemático estaban
viajando en tren por
Escocia cuando uno dice
“una oveja negra…”
2
4. El caso del submarinista
calcinado
Se cuenta que alguien, tras un gran incendio forestal,
encuentra un cuerpo quemado y, al acercarse, descubre
que tiene puesto un equipo de buceo, traje de neopreno,
mascarilla y botellas de oxígeno y pies de rana…
3
8. El razonamiento lógico:
El esquema deductivo
Regla general: "Todos las monedas de la bolsa negra son falsas".
Caso: "Estas monedas provienden de la bolsa negra".
Resultado: "Estas monedas son falsas".
La deducción mantiene la verdad.
7
9. El razonamiento lógico:
El esquema inductivo
Regla general: "Estas monedas provienen de la bolsa negra".
Caso: "Estas monedas son falsas".
Resultado: "Todas las monedas de la bolsa negra son falsas".
A partir de unas observaciones
se construyen reglas más generales
que pueden llevar a resultados falsos
8
10. El razonamiento lógico:
El esquema abductivo
Regla general: "Todas las monedas de la bolsa negra son falsas".
Caso: "Estas monedas son falsas".
Resultado: "Estas monedas provienen de la bolsa negra".
Un razonamiento abductivo ofrece
una hipótesis que lo explica.
Esa conjetura busca ser, a primera vista,
la mejor explicación, o la más probable.
9
11. ¿Es posible inducir características de usuario a partir de
su comportamiento en las redes sociales?
10
12. You Are Where You Tweet: A Content-Based Approach to
Geo-locating Twitter Users
Yi Zhu, 2010
Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los
tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes
para validar la ubicación.
11
14. Inferring gender of movie reviewers: exploiting writing
style, content and metadata
Otterbacher, 2010
El trabajo utilizó los comentarios realizados por usuarios de IMDb.
El modelo de detección de género se basa en métricas de estilo
del lenguaje y feedback social; y es independiente de la longitud
de la crítica.
En contraposición de otros dominios, como la literatura o textos
científicos, el modelo de discriminación de género del aficionado
de películas alcanzó un 73.7% de certeza.
13
15. An Exploration of Observable Features
Related to Blogger Age
Burger & Henderson, 2006
El modelo predictor de edad utilizó, además del texto de los
posts, indicadores cuantitativos como:
1.
2.
3.
4.
5.
La hora y día de la semana de publicación
La cantidad de Links e imágenes
La cantidad de seguidores
La cantidad y tipo de comentarios
Los intereses
14
16. “How Old Do You Think I Am?”: A Study of Language and
Age in Twitter
Nguyen, Gravel, Trieschnigg, Meder, 2013
Las variables que cambian según la edad:
1. TODO EN MAYUSCULAS: HAHA, LOL
2. Prolongación alfabética: niiiiiice vs. nice
3. Intensificadores: so, really & awful
4. Referencias personales: I, me, mine, my, myself
5. Conversaciones, RE,
6. RT, likes, #hashtags
15
17. Democrats, Republicans and Starbucks Afficionados:
User Classification in Twitter + A Machine Learning
Approach to Twitter User Classiffication
Pennacchiotti, Popescu, 2011
El modelo general de profile toma en cuenta:
1. perfil del usuario,
2. comportamiento en mensajes,
3. contenido de los mensajes,
4. estructura de la red social (seguidores/
seguidos)
Los resultados del trabajo:
1. Political Affiliation. precision (0.989) &
recall (~0.872)
2. Starbucks precision (0.763) & recall
(0.759)
3. Etnia: precision (0.878) & recall (0.799)
16
18. Our Twitter Profiles, Our Selves: Predicting Personality
with Twitter
Quercia, Kosinski, Stillwell, Crowcroft, 2011
The Big Five Personality Test – OCEAN
17
19. ¿Qué define a una red social?
Las características escenciales de una red social son:
1. Las entidades que participan de la red son típicamente personas.
2. Las relaciones entre esas entidades toman referencia a una relación de la vida real como
amigos, familiares, colegas.
3. Existe la noción de nonrandomness or locality
Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a
formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C,
luego la probabilidad que B y C estén relacionados es mayor que el promedio.
18
20. Detección de comunidades en grafos
Fortunato, 2010
Los grafos sociales no son regulares como las
lattices. Tampoco son random, donde la distribución
de ejes es uniforme en todos los nodos.
Los grafos sociales están estructurados en
comunidades revelando un alto nivel de orden y
organización.
El grado nodal tiene una distribución de power law,
esto es muchos nodos con pocos ejes conviven con
muy pocos con alto grado..
19
21. Detecting communities by label propagation
Raghavan et al, 2007
Cada nodo está asociado con una etiqueta con un número entero.
1. Al inicio cada vértice tiene una etiqueta distinta.
2. Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más
popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se
escoje alguna aleatoriamente.
Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los
miembros de la comunidad.
3. Todos los vértices con la misma etiqueta pertenecen a la misma comunidad.
Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una
actualización “asincrónica”.
20
22. Modelos de propagación de mensajes y comunidades
Leskovec, 2006
Existen numerosos modelos de propagación de mensajes en redes sociales.
Los siguientes 2 son los más populares:
1. Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado
cuando la suma de sus vecinos supera el umbral.
2. Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede
cambiar su estado bajo una probabilidad dada.
21
24. The Gaydar Project
MIT, 2009
El estudio demostró que es posible determinar –de manera
muy precisa- la orientación sexual del usuario, analizando la
información expuesta por su red de contactos.
El modelo observa sólo la información pública de los vínculos
(no la información del usuario, sino el de tus vínculos).
Y eso funciona aunque seas muy reservado que no publicás
nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.
23
25. Romantic Partnerships and the Dispersion of Social Ties:
A Network Analysis of Relationship Status on Facebook
Backstrom, Kleinberg, 2013
¿Es posible reconocer el amor sólo viendo la estructura del grafo social?
¿Cuánto dura el amor?
24
26. Private traits and attributes are predictable from digital
records of human behavior
Kosinskia, Stillwella, Graepel, 2013
El modelo usa los likes de los usuarios para alimentar un
modelo de inferencia. Se trabajó con 58000 voluntarios que
proveyeron sus likes y datos demográficos e intereses.
Para categorías dicotómicas tiene los siguientes resultados:
• African Americans vs. Caucasian 95%
• Género 93%
• Hombres homo/heterosexual 88%
• Demócratas vs. republicanos 85%
• Cristianos vs. Islam 82%
25
27. No Country for Old Members: User Lifecycle and
Linguistic Change in Online Communities
Leskovec, 2013
26
28. 7puentes.com
+54 11 4202 5487
Alem 1303 - Banfield, Buenos Aires, Argentina
Ernesto Mislej - @fetnelio
ernesto@7puentes.com
Notas del editor
Un astrónomo, un físicoy un matemáticoqueestabanviajando en un trenporEscociavieronpor la ventanillaunaovejanegra en medio de un campo. "Quéinteresante" dijo el astrónomo, "todaslasovejasescocesas son negras". Al oírlo, el físicorespondió. "¡No !, algunasovejasescocesas son negras". Al oír lo quedecían, el matemáticodijo con cara de reproche "En Escocia hay al menos un campo quecontiene al menosunaoveja, quetiene al menos un lado negro".
* A partir de lo observadointentamosexplicarlascausas.
Géneroylocalización. Idioma. El 26% tiene ciudad, pero el 80%remitelocalización.Cuando. Heatmap. Frecuencia/Resencia, 3 democrats tend to usethe expression ‘health care’ more than republicans
. We then show a way of accurately predicting a user’s personality simply based on three counts publicly available on profiles: following, followers, and listed counts.Listeners and Popular.Highly-read.Influentials.M5′ algorithm, On the[1,5]scorescale,themaximumRMSEis0.88
Tiestrength informally refers to the ‘closeness’ of a friendship;A fundamental question connected to our understanding ofstrong ties is to identify the most important individuals in aperson’s social network neighborhood using the underlyingnetwork structure.Modelo vivo. : the numbers in the table give the precision at the first position — the fraction of instances in which the user ranked first by the measure is in fact the true partner. Averaged over all instances, re- cursive dispersion performs approximately twice as well as the standard notion of embeddedness, and also better overall than measures based on profile viewing and presence in the same photo.The performance of different measures for identifying spousesMachine Learning
The analysis presented is based on a dataset of over 58,000 volunteers who provided their Facebook Likes, detailed demographic profiles, and the results of several psychomet- ric tests. The proposed model uses dimensionality reduction for preprocessing the Likes data, which are then entered into logistic/ linear regression to predict individual psychodemographic profiles from Likes. The model correctly discriminates between homosexual and heterosexual men in 88% of cases, African Americans and Caucasian Americans in 95% of cases, and between Democrat and Republican in 85% of cases. For the personality trait “Openness,” prediction accuracy is close to the test–retest accuracy of a standard personality test. We give examples of associations between attri- butes and Likes and discuss implications for online personalization and privacy.
Figure 3: Examples of user-level language change: (a) Percent- age of posts containing first person singular pronouns; (b) Per- centage of reviews using specialized beer vocabulary (retention, carbonation, lacing, etc.). The first 100 posts of all users that contributed at least 100 posts over their lifespan are considered (so each user is represented exactly once in every bin). Results for BeerAdvocate are shown here; same trends hold for Rate- Beer. Throughout this paper, error bars indicate standard er- ror estimated by bootstrap resampling [18].Figure 6: Lifecycle: Distance from the language of the community at each life-stage, calculated as the cross-entropy of each post according to the snapshot language models of the post’s month (0% is birth, 100% is death). Lower values mean “closer to the community”. (a) BeerAdvocate; (b) RateBeer.