Поскольку вы предполагаете две категории, почти любой классификатор, вероятно, будет работать нормально. Некоторые предложения:
- Наивный Байес
- опорные векторные машины
Как сказал более ранний комментатор, начиная с известного образца текста (а их должно быть много ... газетные корпуса могут быть хорошими), обучайте и классифицируйте по некоторым разумным признакам (например, наличие / отсутствие или слова или пары слов) ).
Это должно быть (сравнительно) легко.
Если вы используете python, даже такой простой инструмент, как Natural Language Toolkit (cf: nltk.org) и его книга, помогут вам в этом.