¿Te preguntaste cómo hace Amazon para recomendarte libros y otros productos? ¿O Netflix para sugerirte nuevas películas o series? ¿Sabías que las ventas a través de recomendaciones superan en varios órdenes de magnitud a las ventas por "top sellers"?
Sistemas de Recomendación es la disciplina derivada del Data Mining que se enfoca en el diseño de filtros personalizados sobre el catálogo de ítems que sean del gusto o del interés del usuario. Para tal fin se utiliza la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
A los sectores más populares como Video-on-Demand, Contenido Digital y eCommerce se le han sumado recomendación de espectáculos, restaurantes, noticias, gente para conocer, chistes y hasta nombres de bebés.
Daremos un repaso por los hitos más importantes de esta emergente área. Contaremos cuáles son y cómo funcionan las principales técnicas. Charlaremos sobre la problemática actual, tendencias y desafíos.
Y sentaremos las bases para armar un sistema de recomendación de vinos.
Presentación en el marco del Datafest La Nación - Universidad Austral.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Tópicos de Big Data - Sistemas de RecomendaciónErnesto Mislej
Los Sistemas de Recomendación (RS), rec. systems, engines, frameworks, platforms es una disciplina derivada del Data Mining que se centra en el diseño de filtros sobre colecciones de items que son del gusto o del interés del usuario.
Para tal fin se utilizan la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
Se trabajan sobre dominos ligados al gusto como son las películas, programas de TV, video por demanda, música, libros, espectáculos, restaurantes, noticias, entre otros.
Referencias: http://mmds.org
Una de las tecnologías más revolucionarias que ha cambiado para siempre nuestra vida, sin duda es la Internet; y con ella los motores de búsqueda como Google. Google no fue el primer buscador, sino el primero que pudo combatir eficientemente a los spammers quienes intentan intervenir en la propuesta original de información de la Web. Discutiremos la innovación más grande realizada por Google, el PageRank.
La batalla entre quienes hacer la Web más útil y quienes quieren manipularla para su propio beneficio pareciera nunca terminar. Veremos las formas de vencer y manipular el PageRank, construyendo pequeñas webs llamadas link spam.
Referencias: http://mmds.org
Innovación en Big Data
A esta altura parece una verdad de perogrullo: "Las compañías que mejor utilicen la información, serán las más preparadas para afrontar los desafíos de la competitividad en el futuro". Hemos escuchado frases como estas muchas veces. Tenemos plena convicción de que existe valor en los datos que genera nuestra compañía, sentimos que tenemos que hacer algo pronto o pereceremos. Datos emergen a borbotones, la pregunta es: ¿dónde empezamos a buscar el tan prometido valor?
Una tarea fundamental del proceso de datamining consiste en encontrar ítems similares. Un ejemplo es buscar dentro de una colección de páginas web para encontrar páginas near-duplicadas. Estas páginas abundan en la Internet; corresponden a plagios, mirrors, campañas, etc.
Comenzaremos con una noción básica de similaridad basada en conjuntos con relativa gran intersección.
Luego avanzamos con una técnica llamada minhashing, que consiste en comprimir grandes conjuntos de elementos en una pequeña firma (signature) donde se mantenga la noción de cercanía.
Referencias: http://mmds.org
Introducción a Big Data
Las unidades temáticas y ejemplos están motivados mayormente en problemas actuales derivados de la Web, su estructura y en los datos que ésta genera a partir de sitios de noticias, redes sociales, buscadores de internet, sistemas de comercio electrónico, entre otros. Para ello se han diseñado una recopilación de técnicas, algoritmos y problemas agrupado en ejes temáticos.
Se dará énfasis a la problemática conocida como Big Data que trata sobre el tamaño de los datos, el modelo de arquitectura y file systems distribuidos de gran escala.
Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data); arquitectura de datos y file system distribuidos de gran escala y modelo map reduce para diseñar algoritmos paralelos. Principio de Bonferroni, límite estadístico en el data-mining. Paradoja de Rhine, Detección de gente sospechosa
Referencias:
http://7puentes.com
http://datamining.dc.uba.ar
http://www.mmds.org
Presentación en el marco del Datafest La Nación - Universidad Austral.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Presentación en el marco de las Séptimas Jornadas Argentinas de Data Mining.
El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.
Tópicos de Big Data - Sistemas de RecomendaciónErnesto Mislej
Los Sistemas de Recomendación (RS), rec. systems, engines, frameworks, platforms es una disciplina derivada del Data Mining que se centra en el diseño de filtros sobre colecciones de items que son del gusto o del interés del usuario.
Para tal fin se utilizan la historia de calificaciones realizada por el usuario y por la comunidad de usuarios.
Se trabajan sobre dominos ligados al gusto como son las películas, programas de TV, video por demanda, música, libros, espectáculos, restaurantes, noticias, entre otros.
Referencias: http://mmds.org
Una de las tecnologías más revolucionarias que ha cambiado para siempre nuestra vida, sin duda es la Internet; y con ella los motores de búsqueda como Google. Google no fue el primer buscador, sino el primero que pudo combatir eficientemente a los spammers quienes intentan intervenir en la propuesta original de información de la Web. Discutiremos la innovación más grande realizada por Google, el PageRank.
La batalla entre quienes hacer la Web más útil y quienes quieren manipularla para su propio beneficio pareciera nunca terminar. Veremos las formas de vencer y manipular el PageRank, construyendo pequeñas webs llamadas link spam.
Referencias: http://mmds.org
Innovación en Big Data
A esta altura parece una verdad de perogrullo: "Las compañías que mejor utilicen la información, serán las más preparadas para afrontar los desafíos de la competitividad en el futuro". Hemos escuchado frases como estas muchas veces. Tenemos plena convicción de que existe valor en los datos que genera nuestra compañía, sentimos que tenemos que hacer algo pronto o pereceremos. Datos emergen a borbotones, la pregunta es: ¿dónde empezamos a buscar el tan prometido valor?
Una tarea fundamental del proceso de datamining consiste en encontrar ítems similares. Un ejemplo es buscar dentro de una colección de páginas web para encontrar páginas near-duplicadas. Estas páginas abundan en la Internet; corresponden a plagios, mirrors, campañas, etc.
Comenzaremos con una noción básica de similaridad basada en conjuntos con relativa gran intersección.
Luego avanzamos con una técnica llamada minhashing, que consiste en comprimir grandes conjuntos de elementos en una pequeña firma (signature) donde se mantenga la noción de cercanía.
Referencias: http://mmds.org
Introducción a Big Data
Las unidades temáticas y ejemplos están motivados mayormente en problemas actuales derivados de la Web, su estructura y en los datos que ésta genera a partir de sitios de noticias, redes sociales, buscadores de internet, sistemas de comercio electrónico, entre otros. Para ello se han diseñado una recopilación de técnicas, algoritmos y problemas agrupado en ejes temáticos.
Se dará énfasis a la problemática conocida como Big Data que trata sobre el tamaño de los datos, el modelo de arquitectura y file systems distribuidos de gran escala.
Introducción a los problemas sobre volúmenes de datos muy grandes (Big Data); arquitectura de datos y file system distribuidos de gran escala y modelo map reduce para diseñar algoritmos paralelos. Principio de Bonferroni, límite estadístico en el data-mining. Paradoja de Rhine, Detección de gente sospechosa
Referencias:
http://7puentes.com
http://datamining.dc.uba.ar
http://www.mmds.org
Motores de recomendacion (Recommendation engines)Luis Francisco
Un recorrido por distintas técnicas de recomendación tales como collaborative filtering, content-based filtering, association rules, etc. Partiendo de un modelo en común, conocido como utility matrix, se detallará cada una de estas técnicas, se analizarán las ventajas y desventajas de cada una y se presentará un caso de uso concreto en la recomendación de destinos turísticos.
Revolución, revolución, revolución: las bibliotecas en la revolución de los u...innovatics
Buscar libros en las estanterías de las Bibliotecas sigue siendo cosa del presente, aun cuando muchas han incorporado sistemas abiertos. Pero, ¿qué pasa si en esa búsqueda sabemos desde ya quién es el usuario, cuáles son sus intereses, qué quiere, cómo se mueve o qué le gusta? Desde la utilización de la analítica web hasta el testeo de usuarios o las técnicas de Eye Tracking, esta charla abordará las distintas herramientas cuantitativas y cualitativas de análisis de usuarios que nos permitirán revolucionar la experiencia de búsqueda en nuestras bibliotecas tradicionales y digitales.
Proyecto fin de curso del Postgrado Interacción Persona Ordenador (Universitat Oberta de Catalunya)
“La caja de herramientas” es un software multiplataforma destinado a dar soporte y servir como vehículo de comunicación y gestión de redes de intercambio entre comunidades vecinos.
Su principal objetivo es automatizar al máximo las tareas necesarias para la realización de los intercambios rebajando la carga de trabajo que la gestión de la red supone. Al mismo tiempo servir como herramienta de visualización y cohesión entre los integrantes de la red.
Este software necesitara ser lo suficientemente flexible como para adaptarse a las necesidades y preferencias de los usuarios que gestionen y usen la red.
Patrones de toma de requisitos en proyectos ágiles en la Cas2013Roberto Canales
En esta charla pretendía comentar cómo nos habíamos dado cuenta, en una empresa de 25 empleados, de que éramos poco homogéneos a la hora de proporcionar servicios, sobre todo en uno de los puntos vitales: definir y estimar un proyecto en base a historias y minimizar riesgos.
Un modo de conseguirlo es crear métodos para que todo el mundo vaya adquiriendo los conocimientos.
Se describieron los elementos fundamentales: épicas, historias, chores, temas, spikes, etc.
También la técnica para estimar proyectos grandes:
- Conseguir todas las historias.
- Descomponerlas en ventanas por prioridad.
- Estudiar en detalle a primera ventana (de pongamos 25).
- Estimar la primera ventana.
- Asegurarse que no hay historias (que no tenemos capacidad de detallar y estimar) que se desmadren, estudiando los posibles estados del sistema y viendo el riesgo técnico/funcional.
Para descomponer historias de usuario existen numerosos patrones que sería interesante conocer.
Otro asunto vital es "mirar el todo" y estudiar los riesgos. Describimos un método que hemos llamado Risk Evaluation Machine (REM) para hacer una gestión visual de riesgos:
Área de definición.
- Definir los riesgos entre los compañeros.
- Agruparlos por categoría (para ver solapes y los que faltan).
- Sugerir otras categorías para encontrar otros riesgos que no tenemos en la cabeza.
Máquina (área central de estudio que tiene que terminar limpia)
- Se estudia la probabilidad e impacto.
- Se cualifican y descartan los menos importantes.
- Se estudia en detalle los vitales (gran probabilidad e impacto)
- Se hacen preguntas (5 por que´s) para encontrar las causas primeras y sugerir soluciones.
Área resumen de proyecto
- Se estructuran los riesgos en un panel para cada proyecto.
- Usaremos este panel como elemento de comunicación incluso con técnicas originales como pegar globos o luces en él para que nadie ignore los riesgos.
Esta charla fue curiosa porque como lo conté no tube apenas feedback sobre el contenido pero si sobre el jefismo que transmití (no hice el discleimer inicial) :-) A nadie pareció gustarle el concepto de disciplina en un evento ágil...
Parece que la gente no entiende que nada es blanco ni es negro sino que todo tiene matices.
Me gusta la frase: Esto es Esparta haciendo referencia a la película 300: Un grupo pequeño, de élite, tiene cada miembro una gran capacidad pero tiene una gran disciplina colectiva, que es lo que les da el poder. Si entras en los SWAT ya tendrás grandes destrezas que seguro que mejoraras. Por muy bueno que sea el grupo será mejor cuanto más compenetrados estén. Todo el mundo asumirá que hay una disciplina. Los mismos métodos que se usan el un grupo de élite (donde alguien voluntariamente ha querido entrar) no se pueden usar en otros contextos.
Obviamente hay que adaptar el comportamiento al contexto.
Presentación de mi workshop sobre diseño y ejecución de test de usuario en remoto para Experience Fighters 2016.
Durante el workshop se han tratado todos los aspectos relacionados con el test en remoto con usuarios:
- Seleccionar los objetivos
- Técnicas a disposición y como elegir la correcta
- Diseño del guión de un estudio
- Reclutamiento de los participantes
- Análisis de los datos
Se ha utilizado como ejemplo un estudio creado para la ocasión al que han participado como usuarios los asistentes al workshop.
Presentación en Español. Vídeos no disponibles
Clase de Introducción a Data Science & Big Data
Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"
Dime qué tuiteas y te diré quién eres. DataFest 2013Ernesto Mislej
Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos. Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos, entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros. Cómo mantener la privacidad en el mundo virtual actual.
Más contenido relacionado
Similar a A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Recomendación revolucionaron la industria del comercio electrónico.
Motores de recomendacion (Recommendation engines)Luis Francisco
Un recorrido por distintas técnicas de recomendación tales como collaborative filtering, content-based filtering, association rules, etc. Partiendo de un modelo en común, conocido como utility matrix, se detallará cada una de estas técnicas, se analizarán las ventajas y desventajas de cada una y se presentará un caso de uso concreto en la recomendación de destinos turísticos.
Revolución, revolución, revolución: las bibliotecas en la revolución de los u...innovatics
Buscar libros en las estanterías de las Bibliotecas sigue siendo cosa del presente, aun cuando muchas han incorporado sistemas abiertos. Pero, ¿qué pasa si en esa búsqueda sabemos desde ya quién es el usuario, cuáles son sus intereses, qué quiere, cómo se mueve o qué le gusta? Desde la utilización de la analítica web hasta el testeo de usuarios o las técnicas de Eye Tracking, esta charla abordará las distintas herramientas cuantitativas y cualitativas de análisis de usuarios que nos permitirán revolucionar la experiencia de búsqueda en nuestras bibliotecas tradicionales y digitales.
Proyecto fin de curso del Postgrado Interacción Persona Ordenador (Universitat Oberta de Catalunya)
“La caja de herramientas” es un software multiplataforma destinado a dar soporte y servir como vehículo de comunicación y gestión de redes de intercambio entre comunidades vecinos.
Su principal objetivo es automatizar al máximo las tareas necesarias para la realización de los intercambios rebajando la carga de trabajo que la gestión de la red supone. Al mismo tiempo servir como herramienta de visualización y cohesión entre los integrantes de la red.
Este software necesitara ser lo suficientemente flexible como para adaptarse a las necesidades y preferencias de los usuarios que gestionen y usen la red.
Patrones de toma de requisitos en proyectos ágiles en la Cas2013Roberto Canales
En esta charla pretendía comentar cómo nos habíamos dado cuenta, en una empresa de 25 empleados, de que éramos poco homogéneos a la hora de proporcionar servicios, sobre todo en uno de los puntos vitales: definir y estimar un proyecto en base a historias y minimizar riesgos.
Un modo de conseguirlo es crear métodos para que todo el mundo vaya adquiriendo los conocimientos.
Se describieron los elementos fundamentales: épicas, historias, chores, temas, spikes, etc.
También la técnica para estimar proyectos grandes:
- Conseguir todas las historias.
- Descomponerlas en ventanas por prioridad.
- Estudiar en detalle a primera ventana (de pongamos 25).
- Estimar la primera ventana.
- Asegurarse que no hay historias (que no tenemos capacidad de detallar y estimar) que se desmadren, estudiando los posibles estados del sistema y viendo el riesgo técnico/funcional.
Para descomponer historias de usuario existen numerosos patrones que sería interesante conocer.
Otro asunto vital es "mirar el todo" y estudiar los riesgos. Describimos un método que hemos llamado Risk Evaluation Machine (REM) para hacer una gestión visual de riesgos:
Área de definición.
- Definir los riesgos entre los compañeros.
- Agruparlos por categoría (para ver solapes y los que faltan).
- Sugerir otras categorías para encontrar otros riesgos que no tenemos en la cabeza.
Máquina (área central de estudio que tiene que terminar limpia)
- Se estudia la probabilidad e impacto.
- Se cualifican y descartan los menos importantes.
- Se estudia en detalle los vitales (gran probabilidad e impacto)
- Se hacen preguntas (5 por que´s) para encontrar las causas primeras y sugerir soluciones.
Área resumen de proyecto
- Se estructuran los riesgos en un panel para cada proyecto.
- Usaremos este panel como elemento de comunicación incluso con técnicas originales como pegar globos o luces en él para que nadie ignore los riesgos.
Esta charla fue curiosa porque como lo conté no tube apenas feedback sobre el contenido pero si sobre el jefismo que transmití (no hice el discleimer inicial) :-) A nadie pareció gustarle el concepto de disciplina en un evento ágil...
Parece que la gente no entiende que nada es blanco ni es negro sino que todo tiene matices.
Me gusta la frase: Esto es Esparta haciendo referencia a la película 300: Un grupo pequeño, de élite, tiene cada miembro una gran capacidad pero tiene una gran disciplina colectiva, que es lo que les da el poder. Si entras en los SWAT ya tendrás grandes destrezas que seguro que mejoraras. Por muy bueno que sea el grupo será mejor cuanto más compenetrados estén. Todo el mundo asumirá que hay una disciplina. Los mismos métodos que se usan el un grupo de élite (donde alguien voluntariamente ha querido entrar) no se pueden usar en otros contextos.
Obviamente hay que adaptar el comportamiento al contexto.
Presentación de mi workshop sobre diseño y ejecución de test de usuario en remoto para Experience Fighters 2016.
Durante el workshop se han tratado todos los aspectos relacionados con el test en remoto con usuarios:
- Seleccionar los objetivos
- Técnicas a disposición y como elegir la correcta
- Diseño del guión de un estudio
- Reclutamiento de los participantes
- Análisis de los datos
Se ha utilizado como ejemplo un estudio creado para la ocasión al que han participado como usuarios los asistentes al workshop.
Presentación en Español. Vídeos no disponibles
Similar a A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Recomendación revolucionaron la industria del comercio electrónico. (20)
Clase de Introducción a Data Science & Big Data
Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"
Dime qué tuiteas y te diré quién eres. DataFest 2013Ernesto Mislej
Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos. Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos, entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros. Cómo mantener la privacidad en el mundo virtual actual.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Recomendación revolucionaron la industria del comercio electrónico.
1. A quienes les gustó esta charla
también les gustó ...
Cómo los Sistemas de Recomendación revolucionaron la
industria del comercio electrónico
Lic. Ernesto M. Mislej
Charla de Borrachos Depto. de Computación - FCEyN - UBA
emislej@gmail.com
27 de Junio de 2013
3. Definición
Los Sistemas de Recomendación (RS), rec. systems, engines,
frameworks, platforms es una disciplina derivada del Data
Mining que se centra en el diseño de filtros sobre colecciones de
items que son del gusto o del interés del usuario.
Para tal fin se utilizan la historia de calificaciones realizada por
el usuario y por la comunidad de usuarios.
Se trabajan sobre dominos ligados al gusto como son las
películas, programas de TV, video por demanda, música, libros,
espectáculos, restaurantes, noticias, entre otros.
5. The Long Tail
• Recomendaciones de items muy poco populares y aún
desconocidos por el usuario, pero que serán de su agrado!
• 20 % de los items acumulan el 80 % de los votos
• Serendipia (a.k.a chiripa) ocurre cuando encontrás algo
supuestamente inesperado.
8. The Netflix Prize
• Training data: 100 millones de calificaciones, 48.000
usuarios, 17.770 películas
• 6 años de información: 2000-2005
• Test data: Algunas últimas calificaciones de cada usuarios
(2.8 millones)
• Criterio de evaluation: root mean squared error (RMSE)
• Netflix Cinematch RMSE: 0.9514
• Concurso 2700+ equipos
• $1M USD para aquél quien supere en un 10 % a Netflix
Cinematch
• Grand Prize to team BellKor’s Pragmatic Chaos 21 de
septiembre de 2009.
12. Ejemplos de Sistemas de Recomendación
1 Ofrecer artículos periodísticos en sitios de noticias online
basados en los intereses del lector.
2 Ofrecer sugerencias de productos en una tienda online
basados en el historial de compra.
3 Encontrar cuál es el grupo de fans con más ganas para
viajar a ver un recital.
4 Ofrecer cursos de capacitación a personas conociendo sus
capacidades y su historia curricular.
5 Sugerir destinos de viaje en relación a las búsquedas
realizadas en una agencia de viajes online.
13. Paradigmas de los sistemas de recomendación
Los recsys utilizan diferentes tecnologías, podemos clasificarlas
dentro de este grupo de 2 (+1) categorías.
• Basados en Contenido el sistema encuentra características
de los ítems pertenecientes al catálogo y encuentra ítems
aún no vistos. Por ejemplo, si el usuario vio muchas
peliculas cowboys, el sistema recomendará otras películas
de ese género.
• Filtros Colaborativos el sistema encuentra otros usuarios
similares respecto de sus historiales de compra y
recomendará items aún no vistos.
• Basados en Conocimiento: el sistema emula el
comportamiento de un vendedor realizando preguntas para
conocer cuáles son nuestros intereses
15. Paradigmas de los sistemas de recomendación
Filtros personalizados: Sólo mostrame estás categorías
16. Paradigmas de los sistemas de recomendación
Collaborative: Contame qué le gustó a mis pares
17. Paradigmas de los sistemas de recomendación
Content-based: Dame más de lo que me gusta
18. Paradigmas de los sistemas de recomendación
Knowledge-based: ¿Qué estás buscando?
19. Paradigmas de los sistemas de recomendación
Híbridos: combinando los diferentes mecanismos
20. Content-based recommendation
Idea: Recomendar ítems al usuario x similares a los ítems que
previamente el usuario x calificó positivamente. Recomendar
fantasy novels a la gente que le gustó fantasy novels en el
pasado.
Qué necesitamos:
• características del item cómo el género. A ello lo llamamos
(content).
• construir un perfil del usuario que describen sus gustos
(preferences).
El objetivo:
• inducir preferencias
• reconocer items similares a los preferidos del usuario en el
pasado.
23. Collaborative Filtering
• C = conjunto de Usuarios
• S = conjunto de Items
• Función de utilidad u : C × S → R
• R = conjunto de calificaciones
Matriz de utilidad:
Item 1 Item 2 Item 3 Item 4 Item 5
Alice 5 3 4 4 ?
Berta 3 1 2 3 3
Clara 4 3 4 3 5
Diana 5 1 4 3 4
Erika 1 5 5 2 1
24. Collaborative Filtering
• Consideremos al
usuario x
• Identificar al grupo N
de otros usuarios tal
que sus califiaciones son
similares a las
calificaciones de x
• Luego estimar las
calificaciones de los
ítems aún-no-vistos de x
utilizando las
calificaciones del grupo
N
!"#$%&'()*$'()!"
!
+%#&)$',)#)"-)",.'())
*$'($)/."$')(0,%#1$))
0(')2$%3%40(5),"))
!6$)(0,%#1$)
!
7$,%30,')!6$)(0,%#1$))
80$'&)"#)(0,%#1$))
"-)*$'($)%#)#"
)
9:;9:<=9<) <=)>*(')?'$@"A'BC)D,0#-"(&)!<EFG)H%#%#1)H0$$%A')I0,0$',$)
!"
#"
25. Dimensionality Reduction
Un enfoque sería intentar estimar las celdas vacías de la matriz
de utilidad como el producto de 2 matrices (thin matrices)
rectangulares.
UV-Decomposition
9.4.1 UV-Decomposition
Consider movies as a case in point. Most users respond to a small number
of features; they like certain genres, they may have certain famous actors or
actresses that they like, and perhaps there are a few directors with a significant
following. If we start with the utility matrix M, with n rows and m columns
(i.e., there are n users and m items), then we might be able to find a matrix
U with n rows and d columns and a matrix V with d rows and m columns,
such that UV closely approximates M in those entries where M is nonblank.
If so, then we have established that there are d dimensions that allow us to
characterize both users and items closely. We can then use the entry in the
product UV to estimate the corresponding blank entry in utility matrix M.
This process is called UV-decomposition of M.
5 2 4 4 3
3 1 2 4 1
2 3 1 4
2 5 4 3 5
4 4 5 4
=
u11 u12
u21 u22
u31 u32
u41 u42
u51 u52
×
v11 v12 v13 v14 v15
v21 v22 v23 v24 v25
Figure 9.9: UV-decomposition of matrix M
Example 9.11 : We shall use as a running example a 5-by-5 matrix M with
31. PROs and CONs
Content-based:
PROs: No hace falta comunidad, solo func. de distancia entre ítems
CONs: Content-descriptions, cold start para usuarios nuevos, no hay
sorpresa.
Collaborative Filtering (CF):
PROs: Serendipia de resultados, reconoce segmentos del mercado
CONs: Requiere feedback, cold start para usuarios nuevos e ítems.
Knowledge-based:
PROs: Recomendaciones determinísticas, calidad controlada, no hay
cold-start, remite al diálogo del vendedor.
CONs: Conocer el dominio del catálogo, no admite entorno dinámicos.
33. Referencias
• The Netflix prize. http://www.netflixprize.com/
• The Long Tail: Why the Future of Business is Selling Less of
More, by Chris Anderson.
• Recommender Systems: An Introduction, by Markus Zanker,
Alexander Felfernig, Gerhard Friedrich.
• Recommender Systems Handbook, by Lior Rokach, Bracha
Shapira.
• The ACM Conference Series on Recommender Systems.
http://recsys.acm.org/
• Recommendation Systems - Mining of Massive Datasets,
Chap. 9, by Anand Rajaraman, Jeff Ullman y Jure Leskovec.