Теперь у меня есть около 700000 файлов для токенов и разделенных предложений, и я нахожу stanford.nlp.process.DocumentPreprocessor и удовлетворяю свои требования.
Но я обнаружил, что DocumentPreprocessor, похоже, не поддерживает аргумент -ioFileList (PTBTokenizer его поддерживает), поэтому мне приходится решать файл один за другим, хотя я использую многопроцессорность в python, это очень медленно.
Я хочу, чтобы DocumentPreprocessor был быстрее, есть предложения?