Во-первых, если использование НЛП для этой цели не является для вас конкретной задачей, проверьте проблемный домен, чтобы убедиться, что вы можете полностью его избежать.
Например:
имеют ли эти профили теги (предоставленные либо Сайтом, либо
Пользователь)
что делает API сайта доступным (при условии, что вы
Доступ к этим данным; если вы очищаете это, то это не
конечно применять)? Хороший пример, Facebook. если вы читаете сообщения пользователя,
вы увидите такие слова, как "рестлер", "караоке" и т. д., но если вы посмотрите на
какие поля доступны через Graph API, вы увидите, что эти
с действиями почти всегда связан идентификатор FB.
Я не специалист в этой области, но я могу порекомендовать несколько ресурсов, предназначенных для НЛП и доступных для неспециалиста или новичка. Первый - это API обработки текста . Этот простой веб-сервис использует REST и JSON IO. Это бесплатно и, кажется, имеет довольно большое ограничение скорости.
Этот API, по-видимому, в значительной степени полагается на превосходный Natural Language Tooolkit (NLTK), представляющий собой зрелую стабильную библиотеку в python, которая включает в себя модули, направленные на решение проблемы в вашем вопросе, например, Sentiment Analysis, Tagging и извлечение куска и т. д.
Какой конкретный поддомен наиболее актуален для решения Вопроса в ОП? Я не знаю, но я подозреваю, что где-то в NLTK есть модуль, который делает то, что вам нужно. Надеемся, что найти этот модуль - просто вопрос скимминга API Documentation (который организован по модулю); читая раздел Getting Started , в котором содержится превосходный обзор модулей NLTK, а также демонстрации для всех из них.