Word embeddings: Unterschied zwischen den Versionen
Aus exmediawiki
C.heck (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „'''Word Embeddings''' meint, ich kreiere einen Word embedding is the collective name for a set of language modeling and feature learning techniques in natural…“) |
C.heck (Diskussion | Beiträge) |
||
Zeile 1: | Zeile 1: | ||
− | ''' | + | Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden: |
− | + | * ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained ) | |
− | + | * eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung ) | |
+ | * eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen ) | ||
+ | * eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung ) | ||
+ | * usw. ... | ||
+ | ---- | ||
+ | Warum brauchen wir ''embeddings''? | ||
+ | |||
+ | für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors | ||
+ | ---- | ||
+ | generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze | ||
+ | ---- | ||
+ | |||
+ | |||
+ | |||
+ | =Traditionelle Worteinbettungen= | ||
+ | |||
+ | ==Bag of Words (BOW)== | ||
+ | |||
+ | ==term frequency–inverse document frequency (TFIDF)== | ||
+ | |||
+ | ---- | ||
+ | =Neuronale Einbettungen / pretrained word embeddings= | ||
+ | |||
+ | ==Word2Ve== | ||
+ | |||
+ | ==GloVe== | ||
+ | |||
+ | ==FastText== | ||
+ | |||
+ | ---- | ||
+ | =Neuronale NLP Architekturen= | ||
+ | |||
+ | ==Deep Feed Forward Network== | ||
+ | |||
+ | ==1D CNN== | ||
+ | |||
+ | ==RNN/LSTM== | ||
+ | |||
+ | ==ELMo & BERT== |
Version vom 12. November 2019, 12:45 Uhr
Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:
- ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
- eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
- eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
- eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
- usw. ...
Warum brauchen wir embeddings?
für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors
generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze