самый простой подход - это токены в MySQL, но я не знаю, насколько хорошо это работает.
Если вы хотите классифицировать текст по категориям span / not-spam, я думаю, что Mahout - хороший выбор.Он построен для BigData и поэтому требует, если вы хотите отобразить / уменьшить, установку Hadoop - но есть и более легкая альтернатива, которую вы, вероятно, могли бы использовать: LogisticRegression Алгоритм в Mahout.
Существует класс ModelSerializer , с помощью которого вы можете хранить обученную модель в двоичном формате на жестком диске или в другом месте - так что вам не нужно настраивать Hadoop.
Вы можете попробовать:
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-examples</artifactId>
<version>0.6</version>
</dependency>
Существует следующий класс, который вы можете использовать в качестве примера кода для вашей задачи:
org.apache.mahout.classifier.sgd.TrainNewsGroups
Здесь - еще несколько ресурсов, касающихся Mahout в Интернете.
Таким образом, чтобы получить доступ к этому из PHP, вы можете создать небольшой веб-сервис RESTful на Java или просто командулинейный интерфейс.
Надеюсь, это немного поможет.