Обучающие данные текстового классификатора не загружаются должным образом через просторный интерфейс командной строки для отладочных данных - PullRequest
0 голосов
/ 25 мая 2020

Фон

Я пытаюсь обучить модель классификации текста multiclass (ярлыки взаимоисключающие) в Spacy в блокноте Google Colab. Классы:

  • ПОЛОЖИТЕЛЬНЫЙ
  • ОТРИЦАТЕЛЬНЫЙ
  • НЕЙТРАЛЬНЫЙ

Я сформировал обучающие данные в формате аннотации, указанном здесь

Ниже приводится образец аннотаций, которые я сделал

[.
.
["Happy #MothersDay to all ... ", {'cats': {'NEUTRAL': 1.0}}],
["Happy mothers day ..", {"cats": {"POSITIVE": 1.0}}],
.
.]

Проблема

Когда я пытаюсь отладить свои данные с помощью debug-data * Параметр 1024 * в просторном интерфейсе командной строки с помощью следующей команды (выполняется в ноутбуке Jupyter)

%%bash
(python -m spacy debug-data en \
    /content/drive/My\ Drive/Spacy/Pretrained/train_clas.json \
    /content/drive/My\ Drive/Spacy/Pretrained/eval_clas.json \
    -p 'textcat' \
)

Я получаю следующий результат:

=========================== Data format validation ===========================
✔ Corpus is loadable

=============================== Training stats ===============================
Training pipeline: textcat
Starting with blank model 'en'
0 training docs
0 evaluation docs
✘ No evaluation docs
✔ No overlap between training and evaluation data
✘ Low number of examples to train from a blank model (0)

============================== Vocab & Vectors ==============================
ℹ 0 total words in the data (0 unique)
ℹ No word vectors present in the model

============================ Text Classification ============================
ℹ Text Classification: 0 new label(s), 0 existing label(s)
ℹ The train data contains only instances with mutually-exclusive
classes.

================================== Summary ==================================
✔ 2 checks passed
✘ 2 errors

Он не может правильно прочитать данные, но у меня проверил файлы, и у меня есть как минимум 1000+ образцов, как указано выше.

Ссылки на train и eval jsons.

Я не могу найти никаких ошибок в моих данных, может кто-нибудь указать на ошибку?, заранее спасибо!

1 Ответ

2 голосов
/ 25 мая 2020

Команда spacy debug-data ожидает данные во внутреннем формате обучения JSON spacy, описанном здесь: https://spacy.io/api/annotation#json -вход

Здесь есть несколько примеров: https://github.com/explosion/spaCy/tree/master/examples/training/textcat_example_data. Сценарий преобразования в том же каталоге показывает, как преобразовать из формата JSONL, который очень похож на формат типа TRAIN_DATA, используемый в примерах скриптов.

...