Version vom 12. November 2019, 13:45 Uhr

Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:

ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
usw. ...

Warum brauchen wir embeddings?

für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors

generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze

Inhaltsverzeichnis

1 Traditionelle Worteinbettungen
- 1.1 Bag of Words (BOW)
- 1.2 term frequency–inverse document frequency (TFIDF)
2 Neuronale Einbettungen / pretrained word embeddings
3 Neuronale NLP Architekturen

Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)

Neuronale Einbettungen / pretrained word embeddings

Word2Ve

GloVe

FastText

Neuronale NLP Architekturen

@@ Zeile 1: / Zeile 1: @@
-'''Word Embeddings''' meint, ich kreiere einen
+Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:
-Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary are mapped to vectors of real numbers. Conceptually it involves a mathematical embedding from a space with many dimensions per word to a continuous vector space with a much lower dimension.
+* ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
-* https://en.wikipedia.org/wiki/Word_embedding
+* eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
+* eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
+* eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
+* usw. ...
+----
+Warum brauchen wir ''embeddings''?
+für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors
+----
+generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze
+----
+=Traditionelle Worteinbettungen=
+==Bag of Words (BOW)==
+==term frequency–inverse document frequency (TFIDF)==
+----
+=Neuronale Einbettungen / pretrained word embeddings=
+==Word2Ve==
+==GloVe==
+==FastText==
+----
+=Neuronale NLP Architekturen=
+==Deep Feed Forward Network==
+==1D CNN==
+==RNN/LSTM==
+==ELMo & BERT==

Word embeddings: Unterschied zwischen den Versionen

Aus exmediawiki