Хорошо изучать контролируемые методы обучения.Был проведен ряд исследований, в которых Multinomial Naive Bayes Classifier использовался для фильтрации спама с большим успехом.Если он работал для фильтрации спама, то должен работать и с фильтрацией SMS.Что вам нужно, так это огромный набор примеров текстовых SMS-сообщений со спамом и обучение классификатора с его помощью.
Также может быть полезно взглянуть на машину опорных векторов, которая;хотя менее широко используется в фильтрации спама;это гораздо более мощная техника.
Кроме того, просто тренировка алгоритмов на необработанном тексте может быть не лучшим способом продвижения вперед.В 1998 году Мехран Саами провел исследование, которое показало, что они достигли превосходной производительности, когда учитывали другие эвристики (например, было ли письмо отправлено в список рассылки? Было ли письмо отправлено с доменного имени, которое заканчивалось на «.edu», ".com", ". org"? содержит ли электронное письмо несколько знаков препинания ("!!!") и т. д.).
Но начните с Полиномиального Наивного Байесовского Классификатора.Его очень просто реализовать, и он очень прост в использовании, и из личного опыта: у него также очень короткое время обучения.