Aktionen

Word embeddings: Unterschied zwischen den Versionen

Aus exmediawiki

Zeile 24: Zeile 24:
 
=Neuronale Einbettungen / pretrained word embeddings=
 
=Neuronale Einbettungen / pretrained word embeddings=
  
==Word2Ve==
+
==Word2Vec-Algorithmus==
  
 
==GloVe==
 
==GloVe==

Version vom 13. November 2019, 10:53 Uhr

Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:

  • ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
  • eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
  • eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
  • eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
  • usw. ...

Warum brauchen wir embeddings?

für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors


generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze



Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)


Neuronale Einbettungen / pretrained word embeddings

Word2Vec-Algorithmus

GloVe

FastText


Neuronale NLP Architekturen

Deep Feed Forward Network

1D CNN

RNN/LSTM

ELMo & BERT