На данный момент лучший алгоритм фильтрации спама - PullRequest
5 голосов
/ 22 декабря 2010

Каков в настоящее время лучший способ обнаружения спама?особенно на мобильном текстовом сообщении.Есть ли анализ ресурсов или сравнения?

Ответы [ 4 ]

9 голосов
/ 04 апреля 2012

Хорошо изучать контролируемые методы обучения.Был проведен ряд исследований, в которых Multinomial Naive Bayes Classifier использовался для фильтрации спама с большим успехом.Если он работал для фильтрации спама, то должен работать и с фильтрацией SMS.Что вам нужно, так это огромный набор примеров текстовых SMS-сообщений со спамом и обучение классификатора с его помощью.

Также может быть полезно взглянуть на машину опорных векторов, которая;хотя менее широко используется в фильтрации спама;это гораздо более мощная техника.

Кроме того, просто тренировка алгоритмов на необработанном тексте может быть не лучшим способом продвижения вперед.В 1998 году Мехран Саами провел исследование, которое показало, что они достигли превосходной производительности, когда учитывали другие эвристики (например, было ли письмо отправлено в список рассылки? Было ли письмо отправлено с доменного имени, которое заканчивалось на «.edu», ".com", ". org"? содержит ли электронное письмо несколько знаков препинания ("!!!") и т. д.).

Но начните с Полиномиального Наивного Байесовского Классификатора.Его очень просто реализовать, и он очень прост в использовании, и из личного опыта: у него также очень короткое время обучения.

4 голосов
/ 22 декабря 2010

Насколько я понимаю, самая современная фильтрация спама представляет собой сочетание реализации теоремы Байеса и некоторой эвристики, например, черные списки отправителей, соответствие стандартам, шаблоны отправки.

Самое простое место для реализации этого в сети мобильной телефонной связи, вероятно, было бы в центре SMS-сообщений , так как громкость выше, что облегчает реализацию многих эвристик.

0 голосов

Зачем вам нужно обнаруживать спам постфактум, предотвращать его в заднице ... опять же, в корне ...

Обновление:
Фильтры легко и широко используются «черными» SEO / SEm и преступниками для «черного списка» / «дампинга» конкурентов.
Кроме того, они имеют обратную силу и, следовательно, обречены всегда отставать от достижений техников спамеров

0 голосов
/ 23 декабря 2010

Использование широкого спектра алгоритмов и эвристик (а не «лучший» метод) - это хороший подход для защиты вашей сети и абонентов от спама, мошенничества, вредоносного контента, киберзапугивания, кражи личных данных, вирусов и т. Д.

Cloudmark и его различные партнеры, и конкуренция - хорошее место, чтобы начать искать.

...