Aktionen

Word embeddings: Unterschied zwischen den Versionen

Aus exmediawiki

Die Seite wurde neu angelegt: „'''Word Embeddings''' meint, ich kreiere einen Word embedding is the collective name for a set of language modeling and feature learning techniques in natural…“
 
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
'''Word Embeddings''' meint, ich kreiere einen
Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:
Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary are mapped to vectors of real numbers. Conceptually it involves a mathematical embedding from a space with many dimensions per word to a continuous vector space with a much lower dimension.
* ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
* https://en.wikipedia.org/wiki/Word_embedding
* eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
* eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
* eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
* usw. ...
----
Warum brauchen wir ''embeddings''?
 
für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors
----
generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze
----
 
 
 
=Traditionelle Worteinbettungen=
 
==Bag of Words (BOW)==
 
==term frequency–inverse document frequency (TFIDF)==
 
----
=Neuronale Einbettungen / pretrained word embeddings=
 
==Word2Ve==
 
==GloVe==
 
==FastText==
 
----
=Neuronale NLP Architekturen=
 
==Deep Feed Forward Network==
 
==1D CNN==
 
==RNN/LSTM==
 
==ELMo & BERT==

Version vom 12. November 2019, 12:45 Uhr

Der Sammelbegriff für eine Reihe von Sprachmodellierungs- und Feature-Learning-Techniken in der natürlichen Sprachverarbeitung (NLP), bei denen Wörter oder Phrasen aus dem Vokabular auf Vektoren mit reellen Zahlen abgebildet werden:

  • ein Vektor, der die Struktur des Wortes in Bezug auf Morphologie widerspiegelt ( Anreichern von Wortvektoren mit Unterwortinformationen ) * eine Wortkontextdarstellung ( word2vec Parameter Learning Explained )
  • eine globale Korpusstatistik ( GloVe: Globale Vektoren für Wortdarstellung )
  • eine Worthierarchie in Bezug auf die WordNet-Terminologie ( Poincaré-Einbettungen für das Lernen hierarchischer Darstellungen )
  • eine Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten ( latente semantische Indizierung )
  • usw. ...

Warum brauchen wir embeddings?

für "meaningful" (Bedutungs-) Repräesentationen eines Wortes in einem Vectorenraum << word vectors


generell gilt, je mehr Dimensionen ein Vektor besitzt, desto mehr Bedeutung können wir in diesen hineinlegen < problem computational grenze



Traditionelle Worteinbettungen

Bag of Words (BOW)

term frequency–inverse document frequency (TFIDF)


Neuronale Einbettungen / pretrained word embeddings

Word2Ve

GloVe

FastText


Neuronale NLP Architekturen

Deep Feed Forward Network

1D CNN

RNN/LSTM

ELMo & BERT