Мой сайт становится все больше и начинает привлекать много спама по различным каналам. На сайте есть много разных типов UGC (профили, форумы, комментарии в блогах, обновления статуса, личные сообщения и т. Д. И т. Д.). У меня есть различные меры по смягчению последствий, которые я надеюсь развернуть в блицкриге, чтобы убедить спаммеров в том, что мы не достойная цель. У меня есть высокая уверенность в том, что я делаю с точки зрения функциональности, но одна недостающая часть убивает весь старый спам за один раз.
Вот что у меня есть:
- Большой хороший / плохой корпус (5-значный плохой, 6 или 7-значный хороший). У большого количества спама очень надежные отпечатки пальцев, и тот факт, что я как бы игнорировал его в течение 6 месяцев, помогает:)
- Большой модульный сайт Rails, развернутый на AWS . Это не огромный сайт трафика, но мы запускаем 8 экземпляров с начала SOA.
- Ruby, Redis, Resque, MySQL, Varnish, Nginx, Unicorn, Chef, все на Gentoo
Мои требования:
- Я хочу, чтобы он работал достаточно хорошо, учитывая объем данных (поэтому я настороженно отношусь к чисто рубиновому решению).
- Я должен быть в состоянии обучить несколько классификаций различным типам контента (419-мошенничество против спама по ссылкам бот-сетей)
- Я бы хотел добавить ручные коэффициенты, основанные на нашей собственной детективной работе (сопоставление с образцом, повторное использование IP и т. Д.)
- В конечном итоге я хочу создать хороший интерфейс для использования с Ruby. Если для этого потребуется испачкать руки в С или что-то еще, я справлюсь с этим, но буду избегать, если смогу.
Я понимаю, что это длинный и расплывчатый вопрос, но в первую очередь я ищу просто список хороших пакетов и, во-вторых, любые случайные мысли от кого-то, кто построил подобную систему о способах приближения к ней.