Word2vec

Technique pour convertir un mot en vecteur

En intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de Tomas Mikolov (en).

Word2vec
Type
Spécialité (d), discipline (d), Word embeddingVoir et modifier les données sur Wikidata

Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim[1].

Architectures

Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram[2]. Le CBOW vise à prédire un mot étant donné son contexte, c'est-à-dire étant donné les mots qui en sont proches dans le texte. Un tel contexte est par exemple les 5 mots à droite et les 5 mots à gauche du mot à prédire. Le skip-gram a une architecture symétrique visant à prédire les mots du contexte étant donné un mot en entrée.

les modèles CBOW et Skip-gram de word2vec.

En pratique, le modèle CBOW est plus rapide à apprendre, mais le modèle skip-gram donne généralement de meilleurs résultats[3].

Dans les deux cas, le réseau de neurones comporte deux couches. La couche cachée contient quelques centaines de neurones et constitue, à l'issue de la représentation, le plongement lexical (embedding) permettant de représenter un mot. La couche de sortie permet d'implémenter une tâche de classification au moyen d'une softmax.

L'apprentissage ne nécessite néanmoins aucun label, la vérité terrain étant directement déduite des données et plus particulièrement de la proximité des mots au sein du corpus d'entraînement. En ce sens, l'apprentissage de Word2vec constitue un apprentissage auto-supervisé[4].

Notes et références

Bibliographie

Voir aussi

🔥 Top keywords: Wikipédia:Accueil principalListe de sondages sur les élections législatives françaises de 2024Spécial:RechercheJordan BardellaChampionnat d'Europe de football 2024N'Golo KantéJodie DevosKylian MbappéÉlections législatives françaises de 2024Marcus ThuramLe Jardin des Finzi-Contini (film)Maria Schneider (actrice)Cookie (informatique)Championnat d'Europe de footballNouveau Front populaireKevin DansoAntoine GriezmannÉric CiottiChampionnat d'Europe de football 2020Dominique SandaMike MaignanWilliam SalibaLionel JospinÉlections législatives de 2024 dans l'EssonneFront populaire (France)Françoise HardyÉlections législatives de 2024 à ParisRassemblement nationalJean-Luc MélenchonFichier:Cleopatra poster.jpgOlivier GiroudSébastien ChenuDidier DeschampsLa Chronique des BridgertonÉlections législatives de 2024 dans les YvelinesLilian ThuramListe de partis politiques en FranceAnne SinclairGabriel Attal