как сделать stanford.nlp.process.DocumentPreprocessor быстрее? - PullRequest
0 голосов
/ 29 октября 2018

Теперь у меня есть около 700000 файлов для токенов и разделенных предложений, и я нахожу stanford.nlp.process.DocumentPreprocessor и удовлетворяю свои требования. Но я обнаружил, что DocumentPreprocessor, похоже, не поддерживает аргумент -ioFileList (PTBTokenizer его поддерживает), поэтому мне приходится решать файл один за другим, хотя я использую многопроцессорность в python, это очень медленно. Я хочу, чтобы DocumentPreprocessor был быстрее, есть предложения?

1 Ответ

0 голосов
/ 04 ноября 2018

Я бы посоветовал вам запустить сервер Stanford CoreNLP, а затем выдавать запросы на Python.

Это хорошая библиотека Python для этого:

https://github.com/stanfordnlp/python-stanford-corenlp

Вы должны иметь возможность настроить конвейер, просто набрав tokenize,ssplit, поэтому нет необходимости использовать класс DocumentPreprocessor.

...