For faster navigation, this Iframe is preloading the Wikiwand page for Word2vec.

Word2vec

Word2vec word embedding-ak sortzeko erabiltzen diren eredu multzoa da. Bi geruzez osatutako neurona sarea da, zeinen testu corpus erraldoiak emanda hitzen bektore distibuzionalak bueltatzen ditu. Normalean, dimentsio askotako bektoreak izan ohi dira, non corpuseko hitz bakoitzari espazioko bektore bat esleitzen zaio. Corpusean sarritan elkarren ondoan agertzen diren hitzak espazioan gertu egongo dira.

Word2vec Tomas Mikolov buru zen ikertzaile taldeak sortu zuen Googlen.[1] Algoritmo hau erabiliz sortutako bektore distribuzionalak aurretik zeuden ereduekin konparatuz zenbat hobekuntza zituen, ezkutuko semantikaren analisia adibidez.[2]

CBOW eta skipgram

[aldatu | aldatu iturburu kodea]

Word2vec-ek bi arkitektura erabili ditzake hitzen errepresentazio distribuzionalak sortzeko: CBOW edo skip-gram. CBOW, testuinguruko hitzen batezbestekoa sarrera izanik, erdikoa aurresan. Skip-gram, erdiko hitza sarrera izanik, testuingurukoa aurresan.

CBOW vs Skipgram, bi ereduen arkitektura deskribatzen duen irudia.

Parametrizazioa

[aldatu | aldatu iturburu kodea]

Aurretik aipatu bezala bi eredu ezberdin erabili daiteke errepresentazio bektoreak lortzeko. Skipgram, motelagoa da baina ez ohiko hitzetan emaitza interesgarria sortzen ditu. CBOW, aurreko eredua baino azkarragoa da entrenatzerako orduan.

Entrenamendurako algoritmoa

[aldatu | aldatu iturburu kodea]

Word2vec eredua softmax hierarkikoa edo laginketa negatiboaren bidez entrenatu ohi da. Softmax hierarkikoak Huffman zuhaitza erabiltzen du kalkuluak murrizteko. Laginketa negatiboak testuinguru desberdineko hitzen probabilitatea minimizatzen du; hitzen sakabanaketa eraginez bektore-espazioan.

Dimentsionalitatea

[aldatu | aldatu iturburu kodea]

Oro har, bektoreen kalitatea hauen dimentsioekin egiten du gora, baina ez da beti betetzen. Normalean, bektoreen dimentsionalitatea 50-500 artean kokatzen da.

Leihoaren luzerak emandako hitzaren ondoan dauden zenbat hitzak sartu behar diren honen testuinguruan. Autoreek, skipgram-en 10 eta CBOWn 5 erabiltzea gomendatzen dute.

Dokumentu osoen embedding-ak sortzeko word2vec-en hedapen desberdinak proposatu ziren. Hedapen hauek paragraph2vec edo doc2vec, zeinen C, Python eta Java/Scala-n dauden inplementatuta.

Word2vec-ek sortzen duen word embedding-en arrakasta ez da oraindik ongi ulertzen. Goldberg eta Levy-k esan bezala, word2vec-ek antzeko testuinguruan dauden hitzek antzeko bektoreak izan ohi dituztela eta hau J.R. Firth's-n hipotesi distribusionalareik bat dator. Hala eta guztiz ere, azalpen hau ez dela nahikoa eta azalpen formalago bat eman zuten.

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey. (2013-01-16). «Efficient Estimation of Word Representations in Vector Space» arXiv:1301.3781 [cs] (Noiz kontsultatua: 2018-02-27).
  2. Goldberg, Yoav; Levy, Omer. (2014-02-15). «word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method» arXiv:1402.3722 [cs, stat] (Noiz kontsultatua: 2018-02-27).

Ikus, gainera

[aldatu | aldatu iturburu kodea]

Kanpo estekak

[aldatu | aldatu iturburu kodea]
{{bottomLinkPreText}} {{bottomLinkText}}
Word2vec
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?