Фон
Я пытаюсь обучить модель классификации текста multiclass
(ярлыки взаимоисключающие) в Spacy в блокноте Google Colab. Классы:
- ПОЛОЖИТЕЛЬНЫЙ
- ОТРИЦАТЕЛЬНЫЙ
- НЕЙТРАЛЬНЫЙ
Я сформировал обучающие данные в формате аннотации, указанном здесь
Ниже приводится образец аннотаций, которые я сделал
[.
.
["Happy #MothersDay to all ... ", {'cats': {'NEUTRAL': 1.0}}],
["Happy mothers day ..", {"cats": {"POSITIVE": 1.0}}],
.
.]
Проблема
Когда я пытаюсь отладить свои данные с помощью debug-data * Параметр 1024 * в просторном интерфейсе командной строки с помощью следующей команды (выполняется в ноутбуке Jupyter)
%%bash
(python -m spacy debug-data en \
/content/drive/My\ Drive/Spacy/Pretrained/train_clas.json \
/content/drive/My\ Drive/Spacy/Pretrained/eval_clas.json \
-p 'textcat' \
)
Я получаю следующий результат:
=========================== Data format validation ===========================
✔ Corpus is loadable
=============================== Training stats ===============================
Training pipeline: textcat
Starting with blank model 'en'
0 training docs
0 evaluation docs
✘ No evaluation docs
✔ No overlap between training and evaluation data
✘ Low number of examples to train from a blank model (0)
============================== Vocab & Vectors ==============================
ℹ 0 total words in the data (0 unique)
ℹ No word vectors present in the model
============================ Text Classification ============================
ℹ Text Classification: 0 new label(s), 0 existing label(s)
ℹ The train data contains only instances with mutually-exclusive
classes.
================================== Summary ==================================
✔ 2 checks passed
✘ 2 errors
Он не может правильно прочитать данные, но у меня проверил файлы, и у меня есть как минимум 1000+ образцов, как указано выше.
Ссылки на train и eval jsons.
Я не могу найти никаких ошибок в моих данных, может кто-нибудь указать на ошибку?, заранее спасибо!