Максимальное количество символов для выделенного сервера Stanford NLP - PullRequest
1 голос
/ 12 апреля 2019

Я пытаюсь создать средство извлечения ключевых слов, которое просматривает некоторые документы на работе и захватывает все основные ключевые слова. Для большинства моих документов это прекрасно работает, так как это электронные письма или небольшие документы, но я начинаю получать много документов, срок которых истекает.

Чтобы исправить время ожидания, я подумал, что я мог бы просто использовать аннотатор разбиения предложений, чтобы создать список предложений, а затем отправлять удобное количество предложений за раз. Единственная проблема с этой идеей состоит в том, что сервер говорит мне, что он может принимать только 100000 символов.

Я использую серверный API. Как я могу обновить сервер так, чтобы он занимал больше символов или захватывал до 100000 символов строки, не теряя при этом никакой информации или целостности предложения (например, не обрезая половину предложения в конце)?

ПРИМЕЧАНИЕ: Это (Как обойти ограничение в 100 КБ для сервера StanfordNLP? ) не работает для меня. Я считаю, что это относится к более старой версии. В любом случае, я попытался добавить -maxCharLength -1 в мой стартовый скрипт, и он ничего не делает.

Мой стартовый скрипт в настоящее время

java -mx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 36000 -quiet true pause

1 Ответ

1 голос
/ 16 апреля 2019

Это определенно должно работать, если вы просто установите maxCharLength на очень большое число и используете Stanford CoreNLP 3.9.2. Я проверил это и, к примеру, разметил документ на 220000 символов. Я думаю, что «-1» вызывает проблемы при запуске в командной строке.

...