Как подготовить данные для word2vec в gensim и fasttext? - PullRequest
0 голосов
/ 25 октября 2018

Я хочу обучить word2vec и fasttext для получения векторов для определенного набора данных, который у меня есть.

Что должна принимать моя модель в качестве входных данных?

Мой файл выглядит так:

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

Теперь, как мне подготовить данные для запуска word2vec?Учитывает ли модель word2vec сходство между предложениями, т. Е. Не следует ли мне составлять корпусное предложение разумно.

1 Ответ

0 голосов
/ 29 октября 2018

Один из способов - сначала разбить документ на строки, а затем для каждой строки разбить строку на токены.Затем вы получите список списков токенов.После этого вы можете добавить его в модель gensim word2vec.

...