Как использовать алгоритм машинного обучения для прогнозирования наиболее обсуждаемой категории твитеров - PullRequest
0 голосов
/ 10 мая 2018

ВХОД У меня есть

У меня есть CSV-файл, который содержит 2000 предложений, как показано ниже:

ЧТО Я ХОЧУ ДЕЛАТЬ

Я хочу:

A) Категоризация каждого предложения

Один из способов, которым я думаю, состоит в том, чтобы создать словарь, в который я помещу слова, относящиеся к каждой категории. Но мне не нравится эта идея создания словаря, скорее хочу, чтобы машина сама определяла / предсказывала.

Есть ли лучший способ добиться этого?Как я могу использовать машинное обучение здесь?

Можете ли вы предложить пошаговый алгоритм процесса / кода / ML, который можно обучить?У меня есть опыт работы с языком Python.

1 Ответ

0 голосов
/ 10 мая 2018

Это не обязательно хорошее приложение для машинного обучения.По сути, вы анализируете каждое слово в твите и смотрите, относится ли это слово к заранее определенной категории.Машинное обучение может использоваться для чего-то вроде анализа настроений, когда он может «выучить», что отдельные слова или группы слов передают определенное чувство, но классифицировать отдельные слова на самом деле не имеет смысла.Вы пытаетесь «обучить» модель изучению определений слов.

Я думаю, что ваш подход к словарю жизнеспособен и его гораздо легче реализовать.Для каждой категории, которая вас интересует, добавьте несколько слов, а затем вы можете использовать API тезауруса для программного поиска синонимов для каждого слова в категории и расширения словарного запаса вашего словаря.

...