Текстовые данные без меток, содержащие сообщения - PullRequest
0 голосов
/ 09 октября 2019

Я работаю над набором текстовых данных, содержащим сообщения от пользователей на веб-сайте. Пожалуйста, проверьте изображение в ссылке, так как стек не позволяет мне публиковать это изображение напрямую. датафрейм первых пяти строк

Читая эти сообщения, я хочу выяснить намерения пользователей, являются ли они покупателем, продавцом или нейтральным. Я пробовал тематическое моделирование, используя LDA и NMF, но это не дает мне ответов. Поскольку я получаю очень разные темы, и я не могу найти способ связать это с продавцом покупателя или нейтральным. И я не могу вручную пометить эти данные, потому что это огромный набор данных, содержащий 200 000 тысяч строк. Итак, какую технику или алгоритм я могу использовать для решения этой проблемы.

1 Ответ

0 голосов
/ 10 октября 2019

алгоритм, который вы пробовали "LDA" (я не фальсифицирую с другим), является (как вы сказали) алгоритмом тематической модели, который не очень полезен в этом случае ...

ЧтоЯ бы посоветовал вам сделать это, попробуйте пометить порцию сообщений для каждой категории -

  1. продавец
  2. покупатель
  3. нейтральный

и преобразуйте проблему, с которой вы столкнулись, в проблему классификации, затем выберите любой алгоритм классификации, чтобы классифицировать сообщения в одну из категорий ...

Для справки я бы предложил вам взглянуть на эту проблему инемного вдохновения- https://towardsdatascience.com/applied-text-classification-on-email-spam-filtering-part-1-1861e1a83246

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...