Я пытаюсь создать средство извлечения ключевых слов, которое просматривает некоторые документы на работе и захватывает все основные ключевые слова. Для большинства моих документов это прекрасно работает, так как это электронные письма или небольшие документы, но я начинаю получать много документов, срок которых истекает.
Чтобы исправить время ожидания, я подумал, что я мог бы просто использовать аннотатор разбиения предложений, чтобы создать список предложений, а затем отправлять удобное количество предложений за раз. Единственная проблема с этой идеей состоит в том, что сервер говорит мне, что он может принимать только 100000 символов.
Я использую серверный API. Как я могу обновить сервер так, чтобы он занимал больше символов или захватывал до 100000 символов строки, не теряя при этом никакой информации или целостности предложения (например, не обрезая половину предложения в конце)?
ПРИМЕЧАНИЕ: Это (Как обойти ограничение в 100 КБ для сервера StanfordNLP?
) не работает для меня. Я считаю, что это относится к более старой версии. В любом случае, я попытался добавить -maxCharLength -1
в мой стартовый скрипт, и он ничего не делает.
Мой стартовый скрипт в настоящее время
java -mx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 36000 -quiet true
pause