Любой способ получить не менее 20 токенов для классификации текста - Google NLP API - PullRequest
0 голосов
/ 19 июня 2020

Есть ли способ получить минимальные требования к токенам для метода классификации текста Google NLP API? Я пытаюсь ввести короткое простое предложение, например «Я не могу дождаться президентских дебатов», но это приведет к ошибке:

Invalid text content: too few tokens (words) to process.

Есть ли способ обойти это? Я ввожу случайные слова до тех пор, пока вводимая строка не достигнет 20 символов, но это часто портит метки и уверенность. Если есть какой-либо способ обойти это, например, установить параметр или добавить что-то, что было бы круто! Если обходного пути нет, дайте мне знать, если вам известна другая предварительно обученная модель классификации текста, которая подойдет мне!

Кроме того, я не могу создавать нужные категории и метки. Для того, что я делаю, было бы слишком много, поэтому эти предопределенные категории в nlp api великолепны. Просто нужно избавиться от требования в 20 символов.

1 Ответ

1 голос
/ 19 июня 2020

Как указано в официальной документации Content Classification :

Важно: вы должны предоставить текстовый блок (документ) как минимум с двадцатью токенами (словами) методу classifyText. .

Учитывая, что при проверке возможных альтернатив кажется, что, к сожалению, нет способа обойти это. Действительно, вам нужно будет ввести как минимум 20 слов.

По этой причине, поискав вокруг, я нашел это здесь и это другое - это на китайском , но это может вам помочь :) - предварительно обученных моделей для классификации текста, которые, я считаю, могут вам помочь.

В любом случае, не стесняйтесь поднимать запрос функции в Отслеживании проблем Google , чтобы они проверили возможность снятия этого ограничения.

Сообщите мне, помогла ли вам информация!

...