Можно ли использовать только english.pickle в NLTK punkt word_tokenize для уменьшения размера пакета развертывания? - PullRequest
0 голосов
/ 05 января 2019

Я создал функцию AWS Lambda, которая использует NLTK и другие библиотеки, но сжатый размер и несжатый размер пакета развертывания превысили соответствующие ограничения в размере 50 МБ и 250 МБ.

Один из способов уменьшить размер пакета развертывания, удалив все неанглийские файлы pickle в папке nltk_data / tokenizers / punkt, но это приводит к ошибке загрузки файла при выполнении, так как я считаю, что Python ищет все языковые файлы.

Есть ли способ указать английский язык в моем from nltk import word_tokenize или где я использую word_tokenize()? И если бы я мог указать где-нибудь язык, потребуются ли для него другие языковые файлы?

...