IBM Watson Natural Language Classifier (NLC) ограничивает текстовые значения в обучающем наборе 1024 символами: https://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-limits.
Однако обучаемая модель может затем классифицировать каждый текст, длина которого не превышает2048 символов: https://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase.
Это различие создает некоторую путаницу для меня: я всегда знал, что мы должны применять одну и ту же предварительную обработку как к этапу обучения, так и к этапу производства, поэтому, если бы мне пришлосьОграничьте тренировочные данные на 1024 символа. Я бы сделал то же самое и в производстве.
Правильно ли мое рассуждение или нет?Должен ли я ограничить текст в производстве 1024 символами (как мне кажется, следует) или 2048 символами (возможно, потому что 1024 символов слишком мало)?
Заранее спасибо!
Недавно у меня был тот же вопрос, и один из ответов на статью разъяснил то же самое
В настоящее время ограничения установлены на 1024 для обучения и 2048 для тестирования / классификации .Ограничение 1024 может потребовать некоторой обработки данных тренировки перед тренировкой.Большинство организаций, которым требуются большие ограничения на количество символов для своих данных, в конечном итоге разбивают входной текст на 1024 фрагмента.Кроме того, в случаях использования с данными, подобными обзорам Airbnb, первичная категория обычно может оцениваться в пределах первых 2048 символов, поскольку при длительных обзорах часто возникает много шума.
Вот ссылка на статью