В чем разница между keras.tokenize.text_to_sequence и встраиванием слов - PullRequest
0 голосов
/ 05 июня 2019

Разница между tokenize.fit_on_text, tokenize.text_to_sequence и word embeddings?

Пытался искать на разных платформах, но не получил подходящего ответа.

1 Ответ

0 голосов
/ 05 июня 2019

Вложение слов - это способ представления слов таким образом, чтобы слова с одинаковым / похожим значением имели одинаковое представление.Два широко используемых алгоритма, которые изучают встраивание слов, - это Word2Vec и GloVe.

Обратите внимание, что встраивание слов также можно изучить с нуля, обучая свою нейронную сеть обработке текста, в зависимости от конкретной проблемы НЛП.Вы также можете использовать трансферное обучение;в этом случае это означало бы перенести усвоенное представление слов из огромных наборов данных в вашу проблему.

Что касается токенизатора (я предполагаю, что речь идет о Keras), взяв из документации:

1) tokenize.fit_on_text () - >> Создает словарный индекс на основена частоте слова.Например, если у вас была фраза «Моя собака отличается от вашей собаки, моя собака красивее», word_index ["dog"] = 0, word_index ["is"] = 1 (собака появляется 3 раза, появляется 2 раза)

2) tokenize.text_to_sequence () - >> Преобразует каждый текст в последовательность целых чисел.По сути, если бы у вас было предложение, оно присваивало бы целое число каждому слову из вашего предложения.Вы можете получить доступ к tokenizer.word_index () (возвращает словарь), чтобы проверить присвоенное вашему слову целое число.

...