Как правило, с помощью NLTK, gensim и scikit-learn алгоритмы реализуются в их исходном коде и выполняются локально на ваших данных, без отправки данных в другие места для обработки.
Я никогда не замечал никакой документации / функциональности этих пакетов, в которых упоминается об удаленной / облачной службе, и не видел пользователей, обсуждающих то же самое.
Тем не менее, каждая из них является большой библиотекой со многими функциями, которые я никогда не просматривал, и со многими участниками, добавляющими новые опции. И я не знаю, заявили ли руководители проекта о явном обязательстве никогда не полагаться на внешние услуги.
Таким образом, окончательный, постоянный ответ может быть невозможен. Если такая безопасность является проблемой для вашего проекта, вам следует внимательно изучить документацию и даже исходный код тех функций / классов / методов, которые вы используете. (Ни один из этих проектов не будет намеренно скрывать зависимость от внешних сервисов.)
Вы также можете разрабатывать, тестировать и развертывать код в системах, чья способность связываться с внешними сервисами ограничена брандмауэрами, чтобы вы могли обнаружить и блокировать любую нераскрытую или непреднамеренную связь с внешними машинами.
Также обратите внимание, что каждая из этих библиотек, в свою очередь, опирается на другие публичные c библиотеки. Если ваше беспокойство распространяется и на возможность использования неосторожных или преднамеренно злонамеренных методов эксфильтрации личных данных, вам следует провести более глубокий анализ этих библиотек и всех других библиотек, которые они вводят. (Просто доверять документации верхнего уровня может быть недостаточно.)
Кроме того, каждая из этих библиотек имеет служебные функции, которые, по явному требованию пользователя, загружают примеры наборов данных или разделяют некодовые ресурсы (например, списки стоп-слов или лексиконов). Использование таких функций не загружает ваши данные в другое место, но может привести к утечке, если вы используете определенные c функциональные возможности. Упомянутый выше подход на основе брандмауэра может помешать таким шагам загрузки. В ситуации максимальной бдительности / паранойи вы, возможно, захотите обратить особое внимание на использование и поведение таких дополнительных методов загрузки, чтобы убедиться, что они не делают больше, чем должны, чтобы изменить локальную среду или выполнить / заменить другую. код библиотеки.
Наконец, придерживаясь широко используемых пакетов / функций и несколько более старых версий, которые оставались постоянно доступными, вы можете извлечь выгоду из некоторой «уверенности сообщества» в том, что поведение пакета хорошо понято, без удивления зависимости или уязвимости. То есть многие другие пользователи уже уделяли этим путям кода некоторое внимание, анализ и реальное использование, поэтому любые проблемы, возможно, уже были обнаружены, раскрыты и исправлены.