GloVe, acuñado a partir de su nombre en inglés Global Vectors ( Vectores Globales), es un modelo para la representación de palabras distribuidas. El modelo es un algoritmo de aprendizaje no supervisado para obtener representaciones vectoriales de palabras. Esto se logra asignando palabras a un espacio significativo donde la distancia entre las palabras está relacionada con la similitud semántica.[1] El entrenamiento se realiza sobre aglomeraciones globales de palabra a palabra por coocurrencia estadística a partir de un corpus, y las representaciones resultantes muestran subestructuras lineales interesantes del espacio vectorial de palabras. Se desarrolla como un proyecto decódigo abierto en Stanford[2] y se lanzó en 2014. Como modelo de regresión log-bilineal para el aprendizaje no supervisado de representaciones de palabras, combina las características de dos familias de modelos, a saber, la factorización de matriz global y los métodos de ventana de contexto local.[3]
GloVe se puede utilizar para encontrar relaciones entre palabras como sinónimos, relaciones empresa-producto, códigos postales y ciudades, etc. Sin embargo, el algoritmo de aprendizaje no supervisado no es efectivo para identificar homógrafos, es decir, palabras con la misma ortografía y diferentes significados. Esto se debe a que el algoritmo de aprendizaje no supervisado calcula un solo conjunto de vectores para palabras con la misma estructura morfológica.[4] El algoritmo también es utilizado por la biblioteca SpaCy para crear funciones de incrustación de palabras semánticas, mientras calcula las palabras principales de la lista que coinciden con medidas de distancia como lasimilitud coseno o la distancia euclidiana.[5] GloVe también se utilizó como marco de representación de palabras para los sistemas en línea y fuera de línea diseñados para detectar malestar psicológico en entrevistas con pacientes.[1]