Question

У меня очень серьезное c сомнение в встраивании Word. Я понимаю, что вложения слов используются для представления текстовых данных в формате нумерации c без потери контекста, что очень полезно при обучении глубоких моделей.

Теперь мой вопрос заключается в том, работает ли алгоритм встраивания слов Вам нужно изучить все данные один раз, а затем представить каждую запись в формате нумерации c? В противном случае каждая запись будет представлена индивидуально с указанием других записей.

Код Tensorflow:

Это эксперимент I сделал с примером кода, где вложения независимо переформатируют данные в указанное измерение.

Правильно ли мое понимание?

Mohamed Karam · Answer 1 · 04 мая 2020

Нет, нет необходимости изучать все данные один раз, а затем представлять каждую запись в формате нумерации c, это делается индивидуально. То, что вы сделали, правильно, но есть много методов для обработки естественного языка, я также могу рекомендовать вам хороший метод, чтобы преобразовать каждую букву в число, так что здесь вы можете использовать предсказание буква за буквой, правда ли, что это не будет быстрым, но это может гарантировать хорошую точность, потому что словарный запас букв меньше словарного запаса, это может быть что-то вроде этого:

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed

Как работает Word Embeddings в Deep Learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает Word Embeddings в Deep Learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы