Почему в Watson NLC существуют разные ограничения по размеру для обучения (1024 знака) и для производства (2048 знаков)? - PullRequest
0 голосов
/ 26 ноября 2018

IBM Watson Natural Language Classifier (NLC) ограничивает текстовые значения в обучающем наборе 1024 символами: https://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-limits.

Однако обучаемая модель может затем классифицировать каждый текст, длина которого не превышает2048 символов: https://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase.

Это различие создает некоторую путаницу для меня: я всегда знал, что мы должны применять одну и ту же предварительную обработку как к этапу обучения, так и к этапу производства, поэтому, если бы мне пришлосьОграничьте тренировочные данные на 1024 символа. Я бы сделал то же самое и в производстве.

Правильно ли мое рассуждение или нет?Должен ли я ограничить текст в производстве 1024 символами (как мне кажется, следует) или 2048 символами (возможно, потому что 1024 символов слишком мало)?

Заранее спасибо!

1 Ответ

0 голосов
/ 27 ноября 2018

Недавно у меня был тот же вопрос, и один из ответов на статью разъяснил то же самое

В настоящее время ограничения установлены на 1024 для обучения и 2048 для тестирования / классификации .Ограничение 1024 может потребовать некоторой обработки данных тренировки перед тренировкой.Большинство организаций, которым требуются большие ограничения на количество символов для своих данных, в конечном итоге разбивают входной текст на 1024 фрагмента.Кроме того, в случаях использования с данными, подобными обзорам Airbnb, первичная категория обычно может оцениваться в пределах первых 2048 символов, поскольку при длительных обзорах часто возникает много шума.

Вот ссылка на статью

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...