Должен ли я иметь два набора векторов слов (word2vec), один для набора вопросов и один для набора ответов перед обучением нейронной сети? - PullRequest
0 голосов
/ 29 апреля 2018

Я не совсем понимаю, когда создаю чат-бота для машинного обучения, посвященного теме автомобиля.

У меня есть много информации в текстовом формате о различных моделях автомобилей, и я выполняю процесс Word2Vec с этими данными и сохранил Word2Vec.model.

Тогда наборы вопросов и набор ответов будут преобразованы в векторы путем поиска в word2vec.model. И, наконец, поместите их в модель seq2seq для обучения работе в сети.

---

Мои вопросы:

  1. Должен ли я построить два слова word2vec.model вместо одного? word2vec_question.model и word2vec_answer.model? и передать в набор вопросов и преобразовать в вектор на основе word2vec_question.model, а ответ установить в соответствии с word2vec_answer.model?

  2. Почему есть примеры чат-ботов, которые не используют вложения Word, а просто маркируют эти наборы вопросов и ответов и переходят прямо к обучению по seq2seq? Это потому, что наборы разговоров достаточно велики для обучения сети S2S без векторизации? Должны ли мы сказать, что если данных достаточно много, то достаточно просто токенизировать и не нужно делать моделирование в word2vec?

  3. Возвращаясь к моей автомобильной экспертной системе, пожалуйста, дайте мне несколько советов о том, как правильно подготовить данные и передать примеры вопросов и ответов. Мое конечное желание заключается в том, чтобы каждую неделю я снабжал модель (ы) word2vec информацией из автомобильных журналов (не в формате разговора, а просто отрывками о новых автомобилях), а затем чат-робот может также отвечать на вопросы об этой новой модели.

Заранее спасибо.

...