Я новичок в НЛП и пытаюсь Brain.js
создать мультиклассовый классификатор текста. У меня есть несколько сотен маркированных документов для этого эксперимента. Каждый документ содержит до 30 предложений.
Я основываю тест на этом репо: simple_phrase_classifier
Мне было интересно, как лучше всего кормить модель обучением data.
- Могу ли я использовать документ как есть? вот так:
{"phrase": "First long document with up to 30 sentences", "result": {"label 1": 1}},
{"phrase": "first long document with up to 30 sentences", "result": {"label 2": 1}}
{"phrase": "Second long document with up to 30 sentences", "result": {"label 2": 1}},
etc.
Или, я должен разделить все документы на предложения, и тогда данные будут выглядеть примерно так:
{"phrase": "Sentence 1 out of document 1", "result": {"label 1": 1}},
{"phrase": "Sentence 2 out of document 1", "result": {"label 2": 1}},
etc.
{"phrase": "Sentence 1 out of document 2", "result": {"label 5": 1}},
etc.
{"phrase": "Sentence X out of document X", "result": {"No labels at all": 1}},
etc.
Тот же вопрос об использовании модели, следует ли мне просто применить его ко всему документу или я должен разбить его на отдельные предложения, а затем применить модель к каждому предложению.
Какая лучшая практика?