как бороться с библиотекой fasttext для построения текстового классификатора? - PullRequest
0 голосов
/ 07 мая 2019

Я занимаюсь анализом настроений в наборе данных Twitter на арабском языке и завершил фазу предварительной обработки данных. Я хочу использовать инструмент fasttext для построения классификатора, но я не знаю, как, мне нужны некоторые четкие шаги для загрузки моих данных и построить классификатор, любая помощь?

1 Ответ

0 голосов
/ 08 мая 2019

Я думаю, что официальный урок может быть полезен для вас: https://fasttext.cc/docs/en/supervised-tutorial.html. В нем объясняются следующие шаги.

Я даю вам некоторые подробности о подготовке данных (учебник объясняет это поверхностно)

  • Прежде всего, вы должны подготовить свой набор данных следующим образом:

__ label__firstlabel __label__secondlabel пример строки текста
__ label__thirdlabel другая строка текста примера
__ label__firstlabel __label другой четвертыйтекстовая строка

Каждая строка вашего набора данных должна начинаться с одной или нескольких меток (для подачи классификатора), а затем текстовой строки.

  • Затем необходимо разбить набор данных нанабор поездов и набор проверок

Пример из учебного пособия следующий:

head -n 12404 cooking.stackexchange.txt> cooking.train
tail -n 3000 cooking.stackexchange.txt> cooking.valid

  • Затем вы можете обучить свой классификатор, проверить его и сделать его лучше ...

Идея: если ваш корпус не очень большой, вы можете улучшить производительность вашей модели, используя предварительно обученные векторы, предоставляемые Fasttext (опция pretrainedVectors: https://fasttext.cc/docs/en/options.html)

Для получения дополнительной информации о Fasttext,Я предлагаю книгу FastText Краткое руководство пользователя Джойдипа Бхаттачарджи (https://www.oreilly.com/library/view/fasttext-quick-start/9781789130997/)

...