Как работает спам-фильтр Gmail? - PullRequest
4 голосов
/ 22 июля 2010

Меня всегда удивляет высокое качество спам-фильтра Gmail.За последний год он отфильтровал 99,95% спама и по ошибке заблокировал только одно письмо.Для сравнения, любой другой почтовый сервис, который я использовал, совершает по крайней мере одну ошибку на каждые 50 писем.

Как на самом деле Gmail достигает этого уровня качества?Основано ли это на отзывах клиентов (т. Е. Если N клиенты блокируют почту как спам, она сортируется как спам для всех остальных клиентов)?Или есть какая-то хитрость?Может быть, базовый алгоритм фильтрации фильтрует наиболее очевидный спам, а некоторые сложные случаи анализируются реальными людьми?

Ответы [ 5 ]

8 голосов
/ 22 июля 2010

Короче говоря, это основано на отзывах сообщества . Вот цитата из официального объяснения:

Пользователи Gmail играют важную роль в сохранении спам-сообщений в миллионах почтовых ящиков. Когда сообщество Gmail голосует своими щелчками, чтобы сообщить о конкретном письме как о спаме, наша система быстро начинает блокировать подобные сообщения. Чем больше спама отмечается сообществом, тем умнее становится наша система.

Вы можете прочитать об этом подробнее на их странице Объяснение спама .

7 голосов
/ 22 июля 2010

Это вопрос на миллион долларов, и если бы на него можно было ответить в stackOverflow, тогда любой спам-фильтр был бы таким же эффективным.

2 голосов
/ 22 июля 2010

Я действительно не знаю, как именно Google выполняет фильтрацию спама (но я думаю, что в конце концов это коммерческая тайна). Если вас интересует, как работает фильтрация спама, я бы порекомендовал взглянуть на байесовскую фильтрацию спама (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Это довольно простой для понимания метод.

0 голосов
/ 20 марта 2018

Официального релиза по этому вопросу нет, и большинство предложений - только наблюдения / мнения экспертов.

Основываясь на моих наблюдениях за электронными письмами, которые мы доставляем, вот мои выводы:

1. Вовлечение пользователей - это ключ: Если пользователи не участвуют в ваших электронных письмах, то ваши электронные письма обязательно будут помечены как спам. Вот некоторые показатели: - кому вы пишете, и как часто вы им пишете - Какие электронные письма вы открываете - На какие письма вы отвечаете - ключевые слова в электронных письмах, которые вы обычно читаете - Какие письма вы помечаете, архивируете или удаляете

2. Репутация домена отправителя: Какова история отправки домена? Если в прошлом вовлеченность пользователей была выше, то вероятность того, что новое письмо с того же домена попадет в папку «Входящие», высока.

Google использует сложные алгоритмы искусственного интеллекта и машинного обучения, чтобы это произошло. Хотя вы можете добиться некоторого успеха, изменив IP, домен или обратный путь, но все это будет очень кратковременным хаком.

0 голосов
/ 10 марта 2016

Google, скорее всего, использует систему классификаторов, такую ​​как Логистическая регрессия или Нейронные сети. В современном обнаружении спама часто используются алгоритмы машинного обучения, подобные этим.

Выходной классификацией является «Спам» или «Не спам», а входные данные, я уверен, являются совершенно секретными в Google, но я уверен, что некоторые текстовые фразы, такие как «Купить сейчас», «В продаже» , "Виагра" или "Улучшение мужского пола" - все это факторы в их модели.

...