Question

Фон

Я пытаюсь обучить модель классификации текста multiclass (ярлыки взаимоисключающие) в Spacy в блокноте Google Colab. Классы:

ПОЛОЖИТЕЛЬНЫЙ
ОТРИЦАТЕЛЬНЫЙ
НЕЙТРАЛЬНЫЙ

Я сформировал обучающие данные в формате аннотации, указанном здесь

Ниже приводится образец аннотаций, которые я сделал

[.
.
["Happy #MothersDay to all ... ", {'cats': {'NEUTRAL': 1.0}}],
["Happy mothers day ..", {"cats": {"POSITIVE": 1.0}}],
.
.]

Проблема

Когда я пытаюсь отладить свои данные с помощью debug-data * Параметр 1024 * в просторном интерфейсе командной строки с помощью следующей команды (выполняется в ноутбуке Jupyter)

%%bash
(python -m spacy debug-data en \
    /content/drive/My\ Drive/Spacy/Pretrained/train_clas.json \
    /content/drive/My\ Drive/Spacy/Pretrained/eval_clas.json \
    -p 'textcat' \
)

Я получаю следующий результат:

=========================== Data format validation ===========================
✔ Corpus is loadable

=============================== Training stats ===============================
Training pipeline: textcat
Starting with blank model 'en'
0 training docs
0 evaluation docs
✘ No evaluation docs
✔ No overlap between training and evaluation data
✘ Low number of examples to train from a blank model (0)

============================== Vocab & Vectors ==============================
ℹ 0 total words in the data (0 unique)
ℹ No word vectors present in the model

============================ Text Classification ============================
ℹ Text Classification: 0 new label(s), 0 existing label(s)
ℹ The train data contains only instances with mutually-exclusive
classes.

================================== Summary ==================================
✔ 2 checks passed
✘ 2 errors

Он не может правильно прочитать данные, но у меня проверил файлы, и у меня есть как минимум 1000+ образцов, как указано выше.

Ссылки на train и eval jsons.

Я не могу найти никаких ошибок в моих данных, может кто-нибудь указать на ошибку?, заранее спасибо!

aab · Answer 1 · 25 мая 2020

Команда spacy debug-data ожидает данные во внутреннем формате обучения JSON spacy, описанном здесь: https://spacy.io/api/annotation#json -вход

Здесь есть несколько примеров: https://github.com/explosion/spaCy/tree/master/examples/training/textcat_example_data. Сценарий преобразования в том же каталоге показывает, как преобразовать из формата JSONL, который очень похож на формат типа TRAIN_DATA, используемый в примерах скриптов.

Обучающие данные текстового классификатора не загружаются должным образом через просторный интерфейс командной строки для отладочных данных

Фон

Проблема

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обучающие данные текстового классификатора не загружаются должным образом через просторный интерфейс командной строки для отладочных данных

Фон

Проблема

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы