Ну, для начала, пожалуй, лучшее место для начала - это API Twitter ( 2-я ссылка от Google) и ваш поиск будет работать. Если ваш серверный стек имеет * nix убеждение, использование cron для планирования запроса wget / curl на вашу страницу поиска будет, вероятно, самой простой стратегией. К сожалению, мои знания о планировании задач Windows крайне отсутствуют, но я уверен, что есть более эффективные способы, чем использование хрустящего планировщика задач.
Наконец, для вашей фильтрации написание байесовского классификатора может быть излишним, поскольку могут быть службы, на которые вы можете подписаться, но ни одна из них не известна для Твиттера. Байесовские классификаторы встречаются довольно часто, и я уверен, что небольшое исследование вашей любимой поисковой системы должно привести либо к постоянному решению, либо, по крайней мере, к тому, как создать свой собственный. Имейте в виду, что спам относительно, поэтому вы должны обучить свой классификатор, который в начале занимает немного времени. И на самом деле PHP может быть не лучшим языком для этой задачи, но тем, что ваш crontab может периодически вызывать для обучения.
Я понимаю, что это очень высокий уровень, но ссылки должны быть достаточной отправной точкой, чтобы начать в правильном направлении.