Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:

ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
usw. ...

Warum brauchen wir embeddings?

für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors

generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze

Inhaltsverzeichnis

1 Traditionelle Worteinbettungen
- 1.1 Bag of Words (BOW)
- 1.2 term frequency–inverse document frequency (TFIDF)
2 Neuronale Einbettungen / pretrained word embeddings
3 Neuronale NLP Architekturen

Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)

Neuronale Einbettungen / pretrained word embeddings

Word2Vec-Algorithmus

GloVe

FastText

Neuronale NLP Architekturen

Word embeddings

Aus exmediawiki

Version vom 13. November 2019, 10:53 Uhr von C.heck (Diskussion | Beiträge) (→‎Word2Ve)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Inhaltsverzeichnis

Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)

Neuronale Einbettungen / pretrained word embeddings

Word2Vec-Algorithmus

GloVe

FastText

Neuronale NLP Architekturen

Deep Feed Forward Network

1D CNN

RNN/LSTM

ELMo & BERT

Word embeddings

Aus exmediawiki

Version vom 13. November 2019, 10:53 Uhr von C.heck (Diskussion | Beiträge) (→‎Word2Ve)(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Inhaltsverzeichnis

Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)

Neuronale Einbettungen / pretrained word embeddings

Word2Vec-Algorithmus

GloVe

FastText

Neuronale NLP Architekturen

Deep Feed Forward Network

1D CNN

RNN/LSTM

ELMo & BERT

Version vom 13. November 2019, 10:53 Uhr von C.heck (Diskussion | Beiträge) (→‎Word2Ve)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)