В настоящее время мы создаем текстовые модели с использованием библиотеки scikit learn в Python. Scikit learn по умолчанию поддерживает токенизацию для Engli sh laungauge. Мы также хотим добавить поддержку неанглийских sh языков (испанский sh, французский, немецкий, итальянский, японский, тюркский sh). Я ищу библиотеку python, поддерживающую указанные выше языки. Я наткнулся на SpaCy и NLTK, но я ищу, есть ли какие-либо другие библиотеки python, и есть ли сравнительная таблица с точки зрения тестирования, использования памяти, точности, поддержки нескольких языков, стабильности и поддержки сообщества. Я нашел это https://spacy.io/usage/facts-figures, но мне интересно, проводил ли кто-нибудь исследования и по другим python библиотекам и имел аналогичную сравнительную таблицу, чтобы помочь мне выбрать правильную библиотеку для моей работы.