Вложение слов - это способ представления слов таким образом, чтобы слова с одинаковым / похожим значением имели одинаковое представление.Два широко используемых алгоритма, которые изучают встраивание слов, - это Word2Vec и GloVe.
Обратите внимание, что встраивание слов также можно изучить с нуля, обучая свою нейронную сеть обработке текста, в зависимости от конкретной проблемы НЛП.Вы также можете использовать трансферное обучение;в этом случае это означало бы перенести усвоенное представление слов из огромных наборов данных в вашу проблему.
Что касается токенизатора (я предполагаю, что речь идет о Keras), взяв из документации:
1) tokenize.fit_on_text () - >> Создает словарный индекс на основена частоте слова.Например, если у вас была фраза «Моя собака отличается от вашей собаки, моя собака красивее», word_index ["dog"] = 0, word_index ["is"] = 1 (собака появляется 3 раза, появляется 2 раза)
2) tokenize.text_to_sequence () - >> Преобразует каждый текст в последовательность целых чисел.По сути, если бы у вас было предложение, оно присваивало бы целое число каждому слову из вашего предложения.Вы можете получить доступ к tokenizer.word_index () (возвращает словарь), чтобы проверить присвоенное вашему слову целое число.