Использование классификации спама в другом приложении? - PullRequest
0 голосов
/ 04 октября 2019

Я хочу использовать концепцию классификации спама и применить ее к бизнес-проблеме, когда мы определяем, является ли заявление о концепции компании хорошим или нет. Вот примерный план того, что я придумал для проекта. Кажется ли это возможным?

  • Подготовка набора данных путем сбора заявлений о видении от ведущих компаний (например, Fortune 5000)

  • Позвольте функции = наиболее часто встречающиеся слова (исключая не алфавитно-цифровые символы, символы, и т. Д.)

  • Создать вектор элементов (словарь) x из всех слов, перечисленных выше
  • Использовать контролируемый алгоритм обучения (логистическая регрессия) для обучения и проверки данных
  • Позвольте y = хорошее утверждение зрения и вернуть значение 1; у = 0, если не хорошо

1 Ответ

0 голосов
/ 04 октября 2019

Я скептически настроен. Причина, по которой простая байесовская фильтрация работает для спама, заключается в том, что спам-сообщения обычно используют совершенно иной словарный запас, чем легитимные сообщения.

В некоторых случаях люди, продающие фармацевтические препараты, используют в своей законной деловой переписке те же слова и фразы, что и в некоторых типах деловой переписки. спам;таким образом, они получают плохие результаты фильтрации спама в фармацевтике, в то время как спам-фильтр быстро учит правильно отбрасывать датировки, мошенничество в Нигерии, биржевые мошенничества и т. д. (Спам в фармацевтике может по-прежнему содержать различные гиперболические фразы и т. д., которые отличают их даже от сообщений, не связанных со спамом,хотя.)

Бизнес фигня жаргон имеет тенденцию выглядеть одинаково независимо от того, является ли основной план обоснованным или нет. Возможно, вам удастся отфильтровать наихудшую тарабарщину, но анализ на уровне токенов слов просто не является хорошим индикатором того, насколько реальная здравая мысль пошла на то, чтобы составить эти слова в определенную аранжировку.

...