Кэширование промежуточных представлений
Вполне нормально кэшировать промежуточные представления, созданные более медленными компонентами в конвейере обработки документов. Например, если вам нужно деревья анализа зависимостей для всех предложений в каждом документе, было бы довольно безумно делать что-либо , за исключением анализа документов один раз, а затем повторного использования результатов.
Медленная токенизация
Тем не менее, я удивлен, что токенизация действительно медленная для вас, так как материал, следующий за токенизацией, обычно является настоящим узким местом.
Какой пакет вы используете для токенизации? Если вы используете Python и написали свой собственный код токенизации, вы можете попробовать один из токенизаторов, включенных в NLTK (например, TreebankWordTokenizer ).
Еще одним хорошим токенизатором, хотя и не написанным на Python, является PTBTokenizer , включенный в Stanford Parser и Stanford CoreNLP сквозной трубопровод NLP.