Word2vec 4 All
Oscar García Peinado
Word embedding - Word2vec
Documento:
Camera porpoise dolphin
SeaWorld Paris Camera.
Vocabulario:
Subconjunto de palabras
únicas
Que es word2vec?
Es un modelo matemático desarrollado por el equipo de investigación
sobre análisis lingüístico de Google y liderado por Tomas Mikolov y
publicado en 2013.
En dos líneas:
Word2vec se encarga de representar cada una de las palabras del
vocabulario de un texto en un espacio vectorial de N-Dimensiones.
Paper google:
(https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-th
eir-compositionality.pdf)
Literalmente ¿que hace word2vec?
Cuando el modelo proyecta el vocabulario sobre el espacio
N-dimensional intenta dejar cerca todas las palabras que aparecen
en el mismo contexto.
coche
moto casa
cocina
baño
parque
cine
árbol
¿Parecido por contexto?
Xin Rong - word2vec: https://www.youtube.com/watch?v=D-ekE-Wlcds&t=1852s
Operaciones en el espacio vectorial
vec(“Berlin”) -
vec(“Germany”) +
vec(“France”) = ???
¿Por dentro?
Red neuronal -Entrada: Vector con los valores de la palabra que
estamos tratando (skip-gram ,CBOW)
-Salida: Vector de las palabras relacionadas con el
vector de entrada dependiendo del modelo de
input utilizado (skip-gram, CBOW)
CBOW
La entrada sería el conjunto que rodea al
target y la salida sería el target.
Skip-gram
El input es la palabra que estamos
procesando y la salida es el
contexto.
Demo online
https://ronxin.github.io/wevi/
Referencias
https://papers.nips.cc/paper/5021-distributed-representations-of-wo
rds-and-phrases-and-their-compositionality.pdf
https://papers.nips.cc/paper/5021-distributed-representations-of-wo
rds-and-phrases-and-their-compositionality.pdf
https://docs.google.com/presentation/d/1yQWN1CDWLzxGeIAvnGgDsIJr5xm
y4dB0VmHFKkLiibo/pub?start=false&loop=false&delayms=3000&slide=id.g
e79682746_0_245
https://www.youtube.com/watch?v=D-ekE-Wlcds&t=1852s
Fin

Word2vec 4 all