Следует ли мне разбивать документы на отдельные предложения или использовать их как есть для тренировки Brain. js модель классификации текста? - PullRequest
0 голосов
/ 30 мая 2020

Я новичок в НЛП и пытаюсь Brain.js создать мультиклассовый классификатор текста. У меня есть несколько сотен маркированных документов для этого эксперимента. Каждый документ содержит до 30 предложений.

Я основываю тест на этом репо: simple_phrase_classifier

Мне было интересно, как лучше всего кормить модель обучением data.

  1. Могу ли я использовать документ как есть? вот так:
  {"phrase": "First long document with up to 30 sentences", "result": {"label 1": 1}},
  {"phrase": "first long document with up to 30 sentences", "result": {"label 2": 1}}
  {"phrase": "Second long document with up to 30 sentences", "result": {"label 2": 1}},
  etc.
Или, я должен разделить все документы на предложения, и тогда данные будут выглядеть примерно так:
  {"phrase": "Sentence 1 out of document 1", "result": {"label 1": 1}},
  {"phrase": "Sentence 2 out of document 1", "result": {"label 2": 1}},
  etc.

  {"phrase": "Sentence 1 out of document 2", "result": {"label 5": 1}},
  etc.

  {"phrase": "Sentence X out of document X", "result": {"No labels at all": 1}},
  etc.

Тот же вопрос об использовании модели, следует ли мне просто применить его ко всему документу или я должен разбить его на отдельные предложения, а затем применить модель к каждому предложению.

Какая лучшая практика?

...