Question

Теперь у меня есть около 700000 файлов для токенов и разделенных предложений, и я нахожу stanford.nlp.process.DocumentPreprocessor и удовлетворяю свои требования. Но я обнаружил, что DocumentPreprocessor, похоже, не поддерживает аргумент -ioFileList (PTBTokenizer его поддерживает), поэтому мне приходится решать файл один за другим, хотя я использую многопроцессорность в python, это очень медленно. Я хочу, чтобы DocumentPreprocessor был быстрее, есть предложения?

StanfordNLPHelp · Answer 1 · 04 ноября 2018

Я бы посоветовал вам запустить сервер Stanford CoreNLP, а затем выдавать запросы на Python.

Это хорошая библиотека Python для этого:

https://github.com/stanfordnlp/python-stanford-corenlp

Вы должны иметь возможность настроить конвейер, просто набрав tokenize,ssplit, поэтому нет необходимости использовать класс DocumentPreprocessor.

как сделать stanford.nlp.process.DocumentPreprocessor быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как сделать stanford.nlp.process.DocumentPreprocessor быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы