Question

Я новичок в НЛП и пытаюсь Brain.js создать мультиклассовый классификатор текста. У меня есть несколько сотен маркированных документов для этого эксперимента. Каждый документ содержит до 30 предложений.

Я основываю тест на этом репо: simple_phrase_classifier

Мне было интересно, как лучше всего кормить модель обучением data.

Могу ли я использовать документ как есть? вот так:

  {"phrase": "First long document with up to 30 sentences", "result": {"label 1": 1}},
  {"phrase": "first long document with up to 30 sentences", "result": {"label 2": 1}}
  {"phrase": "Second long document with up to 30 sentences", "result": {"label 2": 1}},
  etc.

Или, я должен разделить все документы на предложения, и тогда данные будут выглядеть примерно так:

  {"phrase": "Sentence 1 out of document 1", "result": {"label 1": 1}},
  {"phrase": "Sentence 2 out of document 1", "result": {"label 2": 1}},
  etc.

  {"phrase": "Sentence 1 out of document 2", "result": {"label 5": 1}},
  etc.

  {"phrase": "Sentence X out of document X", "result": {"No labels at all": 1}},
  etc.

Тот же вопрос об использовании модели, следует ли мне просто применить его ко всему документу или я должен разбить его на отдельные предложения, а затем применить модель к каждому предложению.

Какая лучшая практика?

Следует ли мне разбивать документы на отдельные предложения или использовать их как есть для тренировки Brain. js модель классификации текста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Следует ли мне разбивать документы на отдельные предложения или использовать их как есть для тренировки Brain. js модель классификации текста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы