Main Words es una herramienta propuesta para permitir la indización automática y recuperación del conocimiento generado por los usuarios en las redes sociales de manera sencilla e intuitiva. La herramienta analizaría los posts de los usuarios de un grupo para crear automáticamente un tesauro en lenguaje natural con los términos más usados, facilitando la visualización y comprensión de los temas de conversación del grupo. El objetivo es que los usuarios puedan gestionar y clasificar su conocimiento compartido para poder recuperarlo fácilmente en el
3. COMPONENTES
Juan Carlos Bailón Moreno
Pablo Bosch Martínez
Amparo Peralta García
Verónica María García García
Diego Soto Luzón
Alicia Quiles García
Ketty Prévil
4. CONTENIDO
• Marco del proyecto
• Resumen
• Introducción
• Objetivos generales del proyecto
• Objetivos concretos
• Metodología y plan de trabajo
• Herramienta Main Words
5. MARCO DEL PROYECTO
• Investigadores: Grupo de Técnicas de
Indización y Resumen Documental del
Conocimiento (TIRDC) de la Universidad
de Granada.
• Posibles Colaboraciones:
– Universidad de Granada
– Techné, TEP-028
– Departamento de Ciencias de la Computación
e Inteligencia Artificial de la UGR.
6. RESUMEN
• El objetivo principal de Main Words es el desarrollo de
una herramienta en las redes sociales que permita a los
usuarios la construcción de tesauros de manera natural y
automática, y la posterior recuperación del conocimiento
introducido por su grupo en ese momento o anteriormente.
• Hablaremos de las herramientas que se utilizan
actualmente en la web para la indización y recuperación
del conocimiento.
• Mediante el análisis de dichas herramientas justificaremos
la necesidad de creación de Main Words.
8. INTRODUCCIÓN
UNIVERSO 2.0
• ¿Son las redes sociales una moda
pasajera? o ¿El cambio más grande
desde la revolución industrial? He aquí
algunas curiosidades de la 2.0
• El 96% de la generación actual forma
parte de una red social
9. INTRODUCCIÓN
UNIVERSO 2.0
• Facebook en menos de 4 meses agregó a más de 100
millones de usuarios; si fuese un país sería el 4º más
grande del mundo
1 de cada 6 estudiantes tiene su
curriculum en línea y el 80% de las
empresas usa Linkedln como principal
forma de reclutación de personal…
10. INTRODUCCIÓN
UNIVERSO 2.0
• El 80% de los usuarios de Twitter usan dispositivos
móviles
• Youtube es el segundo motor de búsqueda más usado
en el mundo con más de 100 millones de videos.
• Wikipedia tiene más de 13 millones
• Los foros son los más usados para resolver dudas
11. INTRODUCCIÓN
UNIVERSO 2.0
¿Eres víctima o protagonista de este
cambio?
12. INTRODUCCIÓN
UNIVERSO 2.0
• El término Web 2.0 está asociado a aplicaciones web
que facilitan:
– Compartir información
– Interoperabilidad
– Diseño centrado en el usuario
– Colaboración en la World Wide Web.
• Un sitio Web 2.0 permite a los usuarios interactuar y
colaborar entre sí como creadores de contenido
generado por usuarios en una comunidad virtual
13. INTRODUCCIÓN
UNIVERSO 2.0
• Algunas herramientas de la web 2.0
14. INTRODUCCIÓN
UNIVERSO 2.0
WEB 1.0 WEB 2.0
• Evolución de la web Doubleclick Google AdSense
(Servicios
2.0 Publicidad)
Ofoto Flickr (Comunidades
fotográficas)
Akamai BitTorrent (Distribución
de contenidos)
mp3.com Napster (Descargas de
música)
Britannica Online Wikipedia
(Enciclopedias)
Sitios personales Blogs (Páginas
personales)
Especulación con Optimización en motores de búsq
dominios
Páginas vistas Costo por click
CMSs Wikis (
Administradores de contenid
Categorías/Directorios Tags )
16. INTRODUCCIÓN
¿Por dónde nos movemos?
• La web 2.0 es una herramienta muy potente para ayudar y mejorar
la labor de bibliotecarios y documentalistas
• Si nos damos cuenta, las características de la web 2.0 son
exactamente las mismas que las de la Biblioteca 2.0, Archivos
electrónicos y que también se podrían aplicar a la labor de los
documentalistas
• la web 2.0 permite el acceso a una gran cantidad de bibliotecas,
archivos y centros de documentación dispersos por el mundo
entero, sin necesidad de trasladarse físicamente.
• Internet se configura como la principal puerta de entrada a la
mayoría de archivos, bibliotecas y centros de investigación y
documentación.
17. INTRODUCCIÓN
FUNCIÓN DEL DOCUMENTALISTA EN LA WEB 2.0
• Los bibliotecarios, archiveros y documentalistas se
enfrentan, al menos, a tres cambios significativos en el
modelo de trabajo que realizan:
– La transición del papel a los medios en soporte
electrónico.
– El aumento de nuestra profesión en la empresa
privada.
– Los nuevos tipos de organización del mercado
laboral: trabajo compartido, telecomunicación…
18. INTRODUCCIÓN
FUNCIÓN DEL DOCUMENTALISTA EN LA WEB 2.0
• Recopilar la información, tratarla y evaluar su uso de una
manera adecuada (sin importar su formato).
• Alejarse del ruido documental producto de las nuevas
tecnologías y saber diferenciar la información importante y la
no importante.
• Detectar las necesidades de los usuarios.
• Usar las nuevas tecnologías y difundirlas hacía los usuarios y
no usuarios
• Muy importante aportar herramientas para que el usuario
pueda manejar la información o el conocimiento de distintas
maneras y de la forma más adecuada. (De este punto surge
el proyecto Main Words)
19. INTRODUCCIÓN
TESAURO 2.0
• ¿Qué es un tesauro?
Un Tesauro es una lista ordenada
alfabéticamente que nos indica las
palabras que debemos usar para guardar
o buscar cualquier contenido con el fin de
que todos usemos los mismos términos
20. INTRODUCCIÓN
TESAURO 2.0
• ¿Para qué sirve?
Esta herramienta nos permite crear nuestro propio vocabulario
eligiendo los términos que deseemos para referirnos a un tema en
concreto
• ¿Cómo funciona un tesauro 2.0?
– Se buscan términos para representar adecuadamente la
información.
– Se incluyen términos si no encontramos los adecuados.
– Se localizan y se crean sinónimos.
– Se encuentran las relaciones que existen entre los distintos
términos
– Etc.
21. INTRODUCCIÓN
TESAURO 2.0
VENTAJAS DESVENTAJAS
• Sencillos de crear y • No permite compartir
gestionar información en la red (hasta la
aparición de SKOS) pero
• Algunos son muy usados están permitido en dominios
(MeSH) restringidos.
• Son intuitivos • Adición de relaciones
complicadas
• Grado de coherencia alto
• Automatización complicada
• Eficacia probada • Vocabulario sin relación
• Abundancia de Tesauros directa con los objetos.
• Creación del vocabulario por
• Buen punto de partida
consenso previo y no por los
para crear ontologías usuarios.
• Software caro
22. INTRODUCCIÓN
ALTERNATIVAS AL TESAURO 2.0
• Folksonomías, etiquetado libre o taggin
El rasgo más específico del etiquetado social es que los
responsables de elegir las etiquetas son los usuarios de los
recursos o sus creadores.
Los tag sirven para la recuperación de recursos en la web ya que
el lenguaje empleado para su descripción es sencillo y es un
vocabulario familiar y accesible al usuario común.
Las etiquetas son palabras o frases que el usuario usa para
describir los contenidos de la web.
Poco a poco una comunidad de usuarios puede establecer un
conjunto de etiquetas formales referidas a un área concreta
23. INTRODUCCIÓN
ALTERNATIVAS AL TESAURO 2.0
• Los sistemas basados en folksonomías
deberían de permitir:
– Almacenar los recursos personales preferidos
o marcadores;
– Analizar la historia de los bookmarks de los
usuarios y crear grupos de usuarios con los
mismos intereses.
– Recomendar recursos que sean comunmente
preferidos.
24. INTRODUCCIÓN
ALTERNATIVAS AL TESAURO 2.0
VENTAJAS DESVENTAJAS
• Empleo de categorías • Uso indistinto de plurales y
singulares.
importantes para el • Polisemia, sinonimia.
usuario. • Falta de exhaustividad en algunos
• Diferentes indizadores etiquetados y profusión de otros,
lo cual resta valor a la
utilizan distintos términos representación de la información.
para describir un mismo • Dificultades en la especificad.
documento. • Etiquetado egocentrista.
• Las relaciones de • Necesidad de conocimientos
avanzados de programación para
semejanza te permite diseñar y poner en funcionamiento
navegar por etiquetas un sistema que posibilite la
relacionadas. indización social y construya
folksonomías.
25. INTRODUCCIÓN
NUESTRA PROPUESTA
• Los usuarios deben ser capaces de manejar y clasificar
(indizar en lenguaje natural) de manera rápida, sencilla e
intuitiva su conocimiento para poder recuperarlo
posteriormente. Esto es algo que no tienen ahora.
• Para ello:
26. OBJETIVOS GENERALES DE
Main Words
• Indizar automáticamente.
• Recuperar la información y el conocimiento de
los post de los usuarios de las redes sociales.
• Fomentar la participación y la fidelización de la
red social a través de Main Words
27. OBJETIVOS CONCRETOS DE
Main Words
- Estudio de necesidades en los usuarios de redes
sociales. Problemática de la indización de autor.
Indización automática.
- Estudio de soluciones a la indización y
recuperación del conocimiento en las redes
sociales.
- Main Words, herramienta rápida, sencilla e
intuitiva para facilitar y compartir el conocimiento
entre dos o más miembros de un grupo en una
red social.
28. METODOLOGÍA Y PLAN DE
TRABAJO
CRONOGRÁMA
• 1º toma de contacto.
• Reuniones presenciales del grupo
• Trabajos individuales
• Reuniones virtuales
• Trabajos grupales
• Presentación de la idea del proyecto
• Presentación de la introducción
• Presentación de la metodología
• Presentación de Main Words,
29. METODOLOGÍA Y PLAN DE
TRABAJO
CRONOGRÁMA
HERRAMIENTAS UTILIZADAS:
- Twitter individual y grupal (https://twitter.com/#!/TirdcA)
- Blog individual y grupal (Blogger)
(http://guiatirdc.blogspot.com.es/)
- Facebook, twitter, tuenti (estudio de las redes sociales)
- Google docs (reuniones virtuales)
- Laboratorios aula 2 (reuniones grupales)
- Motores de búsqueda (Google)
- Bibliografía
- Prize (programa de presentación)
- Power point (programa de presentación, simulador de Main
Words)
- Scribd (Main Words completo en blog grupal)
30. METODOLOGÍA Y PLAN DE
TRABAJO
• Elección, estudio y análisis de las redes sociales
utilizadas por los usuarios.
• Estudio de las herramientas actuales de recuperación de
la información mediante sistemas de conocimiento
• Diseño de la herramienta, Main Words, una vez
realizados los análisis
• Desarrollo de la herramienta, Main Words
• Implementación de la herramienta, Main Words
• Posibles negociaciones en el marco de la web 2.0 para
su implementación y desarrollo en otras redes sociales
según características y necesidades.
31. METODOLOGÍA Y PLAN DE
TRABAJO
• INDIZACIÓN:
– Humana:
– Automática
• Humana (Taggin): supone un bajo esfuerzo
cognitivo; los usuarios no suelen realizar la
asignación de etiquetas.
• Elección de indización automática de los post
de las redes sociales para la creación de un
tesauro basándonos en los programas o
herramientas que existan en la actualidad.
32. METODOLOGÍA Y PLAN DE
TRABAJO
• Nuestro interés se centra en la indización
automática para que el usuario se
descargue de la obligación de seleccionar
términos a indizar, de manera que el
sistema seleccione los términos (tags)
más usados en sus mensajes (posts) para
crear un tesauro en lenguaje natural
adecuado al usuario o miembros del
grupo.
33. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Se ha realizado un profundo estudio para
el desarrollo de nuestra herramienta en:
34. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
LA CARACTERÍSTICA EN COMÚN QUE
HEMOS ENCONTRADO EN LAS TRES REDES
SOCIALES:
NINGUNA RECUPERA LA PROPIA
INFORMACIÓN QUE EL USUARIO HA
GENERADO, TAMPOCO LA DE LOS GRUPOS
A LOS QUE PERTENENCE. LAS REDES
SOCIALES SE PREOCUPAN DE UNA
RECUPERACIÓN FUERA DE LA RED QUE EL
PROPIO USUARIO HA GENERADO.
35. HERRAMIENTA Main Words
• ¿QUÉ ES?
– Es un software para el sistema de conocimiento.
– Permite dibujar mapas de redes basadas en palabras
de los co-usuarios de la red social y sus relaciones.
– Está orientado para que el usuario de las redes
sociales pueda visualizar el tema principal de
conversación de su grupo.
- Crea un tesauro de lenguaje natural con las palabras
que los usuarios del grupo utilizan en sus post.
36. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Main Words nos permite visualizar la
estructura de las palabras del grupo de la
red social.
• La cobertura y posibilidades del análisis
de palabras asociadas es prácticamente
universal, se puede aplicar a todo tipo de
documentos, en nuestro caso mensajes,
comentarios, etc.
37. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• ¿CÓMO FUNCIONA?
Término Término Término Término
1 2 3 n
• El método considera
Post 1 0 1 0 1
que el contenido de
un documento se Post 2 1 1 1 0
puede representar
mediante una matriz
Post 3 1 2 0 0
de ocurrencia
Post m 0 1 0 1
38. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Dos palabras co-ocurren cuando
aparecen simultáneamente en el mismo
documento. Estarán más ligadas o
asociadas entre sí cuanto mayor sea la
co-ocurrencia entre ellas.
• Las co-ocurrencias hay que normalizarlas.
39. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• eij.- Índice de equivalencia o de asociación entre las
palabras i y j.
• Cij.- Co-ocurrencia de las palabras i y j.
• Ci.- Ocurrencia de la palabra i.
• Cj.- Ocurrencia de la palabra j.
• Mediante el índice de equivalencia se puede
discernir qué palabras y asociaciones son
realmente relevantes en la construcción de la red y
eliminar aquellos que por su baja co-ocurrencia
relativa o su elevada generalidad no lo son.
40. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Si dos palabras aparecen juntas muchas
veces pero su ocurrencia por separado es
mayor, el índice de equivalencia es
menor, la asociación es débil
• los términos que aun teniendo una co-
ocurrencia menor pero su ocurrencia por
separado es menor nos quiere decir que
siempre que aparecen lo hacen juntas, la
asociación es más fuerte.
41. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Se establecen parámetros numéricos que de
alguna forma nos hagan referencia a sus
estructuras internas y a su relación con la
globalidad de la red. Índices que se definen:
– Densidad
– Centralidad
Al determinar la densidad y la centralidad estamos en
disposición de dibujar un mapa de red que nos
muestre cual es la formación de los temas principales
del grupo de la red social.
42. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• ¿CÓMO DEBE SER Main Words ?
– Que indice automáticamente los términos escritos en
un post.
– Que tome los términos y los introduzca en una base
de datos y gestione los más relevantes .
– Que diferencie principalmente entre la red individual,
la grupal y la red externa.
– Esta presentación del mapa de red de palabras o
términos
– Nos servirá para que podamos efectuar la
recuperación de la información.
44. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• En la recuperación se accedería a los post y
saldrían ordenados por la fecha más próxima
que contienen dicha palabra.
• También podríamos recuperar el conocimiento
mediante la búsqueda avanzada de una o de
varias palabras asociadas o inter-relacionadas.
• También mediante el análisis de palabras
asociadas realizan la lectura de miles de
documentos para obtener términos o temas
más relevantes y co-ocurrentes y localizar en
ellos datos tan significativos como cuál es la
palabra o tema central.
45. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• ¿CÓMO FUNCIONA DE CARA AL USUARIO?
- Simulación realizada en Twitter.
- Comenzamos clicando en el botón de Main
Words
- A la derecha una nube de etiquetas con los tags
más relevantes que por defecto serán los
utilizados en el grupo.
- En la parte inferior de la nube podemos
seleccionar la toma de datos, del grupo , de
relación o individuales.
46. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• A la izquierda una búsqueda avanzada por si
necesitamos delimitar algunos datos
adicionales.
• En el caso de la nube, clicando sobre la palabra
obtendremos los post que contienen esa
palabra ordenados desde el más reciente al más
antiguo.
• Si establecemos la selección de “relación”
podremos seleccionar el o las personas de las
que queremos obtener los post con un tag
determinado
47. METODOLOGÍA Y PLAN DE
TRABAJO
TWITTER
• Si clicamos en individual aparecerá la
nube con las palabras más utilizadas por
ti.
• DEMOS PASO A LA SIMULACIÓN
48. CONCLUSIONES
• Analizadas las tres redes sociales vemos
que, aunque las tres padecen de carencias en
la recuperación de “nuestra información”
introducida mediante post, vemos claramente
que Tuenti es la que se presenta como la
más limitada.
• Tuenti es quizás la más necesitada de
implementar algunas herramientas para
dinamizarse en el mercado con el desarrollo
de novedades como Main Words