Я скептически настроен. Причина, по которой простая байесовская фильтрация работает для спама, заключается в том, что спам-сообщения обычно используют совершенно иной словарный запас, чем легитимные сообщения.
В некоторых случаях люди, продающие фармацевтические препараты, используют в своей законной деловой переписке те же слова и фразы, что и в некоторых типах деловой переписки. спам;таким образом, они получают плохие результаты фильтрации спама в фармацевтике, в то время как спам-фильтр быстро учит правильно отбрасывать датировки, мошенничество в Нигерии, биржевые мошенничества и т. д. (Спам в фармацевтике может по-прежнему содержать различные гиперболические фразы и т. д., которые отличают их даже от сообщений, не связанных со спамом,хотя.)
Бизнес фигня жаргон имеет тенденцию выглядеть одинаково независимо от того, является ли основной план обоснованным или нет. Возможно, вам удастся отфильтровать наихудшую тарабарщину, но анализ на уровне токенов слов просто не является хорошим индикатором того, насколько реальная здравая мысль пошла на то, чтобы составить эти слова в определенную аранжировку.