Стандартный подход, который я знаю, состоит в том, чтобы использовать вектор слов / терминов и присваивать им отрицательный или положительный балл, используя алгоритм обучения или статистический алгоритм.даже обучения перцептрону должно хватить, вам просто нужен хороший набор положительных и отрицательных примеров.
Насколько мне известно, так работает весь спам-фильтр.и они работают довольно хорошо.