Question

Я работаю над набором текстовых данных, содержащим сообщения от пользователей на веб-сайте. Пожалуйста, проверьте изображение в ссылке, так как стек не позволяет мне публиковать это изображение напрямую. датафрейм первых пяти строк

Читая эти сообщения, я хочу выяснить намерения пользователей, являются ли они покупателем, продавцом или нейтральным. Я пробовал тематическое моделирование, используя LDA и NMF, но это не дает мне ответов. Поскольку я получаю очень разные темы, и я не могу найти способ связать это с продавцом покупателя или нейтральным. И я не могу вручную пометить эти данные, потому что это огромный набор данных, содержащий 200 000 тысяч строк. Итак, какую технику или алгоритм я могу использовать для решения этой проблемы.

Yoel Nisanov · Answer 1 · 10 октября 2019

алгоритм, который вы пробовали "LDA" (я не фальсифицирую с другим), является (как вы сказали) алгоритмом тематической модели, который не очень полезен в этом случае ...

ЧтоЯ бы посоветовал вам сделать это, попробуйте пометить порцию сообщений для каждой категории -

продавец
покупатель
нейтральный

и преобразуйте проблему, с которой вы столкнулись, в проблему классификации, затем выберите любой алгоритм классификации, чтобы классифицировать сообщения в одну из категорий ...

Для справки я бы предложил вам взглянуть на эту проблему инемного вдохновения- https://towardsdatascience.com/applied-text-classification-on-email-spam-filtering-part-1-1861e1a83246

Текстовые данные без меток, содержащие сообщения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Текстовые данные без меток, содержащие сообщения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы