Как работает Word Embeddings в Deep Learning? - PullRequest
0 голосов
/ 04 мая 2020

У меня очень серьезное c сомнение в встраивании Word. Я понимаю, что вложения слов используются для представления текстовых данных в формате нумерации c без потери контекста, что очень полезно при обучении глубоких моделей.

Теперь мой вопрос заключается в том, работает ли алгоритм встраивания слов Вам нужно изучить все данные один раз, а затем представить каждую запись в формате нумерации c? В противном случае каждая запись будет представлена ​​индивидуально с указанием других записей.

Код Tensorflow:

enter image description here

Это эксперимент I сделал с примером кода, где вложения независимо переформатируют данные в указанное измерение.

Правильно ли мое понимание?

1 Ответ

1 голос
/ 04 мая 2020

Нет, нет необходимости изучать все данные один раз, а затем представлять каждую запись в формате нумерации c, это делается индивидуально. То, что вы сделали, правильно, но есть много методов для обработки естественного языка, я также могу рекомендовать вам хороший метод, чтобы преобразовать каждую букву в число, так что здесь вы можете использовать предсказание буква за буквой, правда ли, что это не будет быстрым, но это может гарантировать хорошую точность, потому что словарный запас букв меньше словарного запаса, это может быть что-то вроде этого:

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...