Я создал функцию AWS Lambda, которая использует NLTK и другие библиотеки, но сжатый размер и несжатый размер пакета развертывания превысили соответствующие ограничения в размере 50 МБ и 250 МБ.
Один из способов уменьшить размер пакета развертывания, удалив все неанглийские файлы pickle в папке nltk_data / tokenizers / punkt, но это приводит к ошибке загрузки файла при выполнении, так как я считаю, что Python ищет все языковые файлы.
Есть ли способ указать английский язык в моем from nltk import word_tokenize
или где я использую word_tokenize()
? И если бы я мог указать где-нибудь язык, потребуются ли для него другие языковые файлы?