For faster navigation, this Iframe is preloading the Wikiwand page for Word2vec.

Word2vec

Word2vec
Type
Spécialité (d), discipline (d), Word embeddingVoir et modifier les données sur Wikidata

En intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de Tomas Mikolov (en).

Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim[1].

Architectures

[modifier | modifier le code]

Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram[2]. Le CBOW vise à prédire un mot étant donné son contexte, c'est-à-dire étant donné les mots qui en sont proches dans le texte. Un tel contexte est par exemple les 5 mots à droite et les 5 mots à gauche du mot à prédire. Le skip-gram a une architecture symétrique visant à prédire les mots du contexte étant donné un mot en entrée.

les modèles CBOW et Skip-gram de word2vec
les modèles CBOW et Skip-gram de word2vec.

En pratique, le modèle CBOW est plus rapide à apprendre, mais le modèle skip-gram donne généralement de meilleurs résultats[3].

Dans les deux cas, le réseau de neurones comporte deux couches. La couche cachée contient quelques centaines de neurones et constitue, à l'issue de la représentation, le plongement lexical (embedding) permettant de représenter un mot. La couche de sortie permet d'implémenter une tâche de classification au moyen d'une softmax.

L'apprentissage ne nécessite néanmoins aucun label, la vérité terrain étant directement déduite des données et plus particulièrement de la proximité des mots au sein du corpus d'entraînement. En ce sens, l'apprentissage de Word2vec constitue un apprentissage auto-supervisé[4].

Notes et références

[modifier | modifier le code]
  1. https://radimrehurek.com/gensim/models/word2vec.html
  2. Tomas Mikolov Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S. et Dean, Jeff, « Efficient Estimation of Word Representations in Vector Space », Arxiv,‎ (arXiv 1301.3781, lire en ligne)
  3. Tomas Mikolov Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S. et Dean, Jeff, « Distributed representations of words and phrases and their compositionality », Advances in Neural Information Processing Systems,‎ (Bibcode 2013arXiv1310.4546M, arXiv 1310.4546)
  4. « Self-supervised learning: The dark matter of intelligence », sur ai.facebook.com (consulté le )

Bibliographie

[modifier | modifier le code]
{{bottomLinkPreText}} {{bottomLinkText}}
Word2vec
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?