Я думаю, что официальный урок может быть полезен для вас: https://fasttext.cc/docs/en/supervised-tutorial.html. В нем объясняются следующие шаги.
Я даю вам некоторые подробности о подготовке данных (учебник объясняет это поверхностно)
- Прежде всего, вы должны подготовить свой набор данных следующим образом:
__ label__firstlabel __label__secondlabel пример строки текста
__ label__thirdlabel другая строка текста примера
__ label__firstlabel __label другой четвертыйтекстовая строка
Каждая строка вашего набора данных должна начинаться с одной или нескольких меток (для подачи классификатора), а затем текстовой строки.
- Затем необходимо разбить набор данных нанабор поездов и набор проверок
Пример из учебного пособия следующий:
head -n 12404 cooking.stackexchange.txt> cooking.train
tail -n 3000 cooking.stackexchange.txt> cooking.valid
- Затем вы можете обучить свой классификатор, проверить его и сделать его лучше ...
Идея: если ваш корпус не очень большой, вы можете улучшить производительность вашей модели, используя предварительно обученные векторы, предоставляемые Fasttext (опция pretrainedVectors: https://fasttext.cc/docs/en/options.html)
Для получения дополнительной информации о Fasttext,Я предлагаю книгу FastText Краткое руководство пользователя Джойдипа Бхаттачарджи (https://www.oreilly.com/library/view/fasttext-quick-start/9781789130997/)