Aktionen

Word embeddings: Unterschied zwischen den Versionen

Aus exmediawiki

(Die Seite wurde neu angelegt: „'''Word Embeddings''' meint, ich kreiere einen Word embedding is the collective name for a set of language modeling and feature learning techniques in natural…“)
 
Zeile 1: Zeile 1:
'''Word Embeddings''' meint, ich kreiere einen
+
Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:
Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary are mapped to vectors of real numbers. Conceptually it involves a mathematical embedding from a space with many dimensions per word to a continuous vector space with a much lower dimension.
+
* ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
* https://en.wikipedia.org/wiki/Word_embedding
+
* eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
 +
* eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
 +
* eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
 +
* usw. ...
 +
----
 +
Warum brauchen wir ''embeddings''?
 +
 
 +
für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors
 +
----
 +
generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze
 +
----
 +
 
 +
 
 +
 
 +
=Traditionelle Worteinbettungen=
 +
 
 +
==Bag of Words (BOW)==
 +
 
 +
==term frequency–inverse document frequency (TFIDF)==
 +
 
 +
----
 +
=Neuronale Einbettungen / pretrained word embeddings=
 +
 
 +
==Word2Ve==
 +
 
 +
==GloVe==
 +
 
 +
==FastText==
 +
 
 +
----
 +
=Neuronale NLP Architekturen=
 +
 
 +
==Deep Feed Forward Network==
 +
 
 +
==1D CNN==
 +
 
 +
==RNN/LSTM==
 +
 
 +
==ELMo & BERT==

Version vom 12. November 2019, 12:45 Uhr

Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:

  • ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
  • eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
  • eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
  • eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
  • usw. ...

Warum brauchen wir embeddings?

für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors


generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze



Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)


Neuronale Einbettungen / pretrained word embeddings

Word2Ve

GloVe

FastText


Neuronale NLP Architekturen

Deep Feed Forward Network

1D CNN

RNN/LSTM

ELMo & BERT