«Обучающиеся» фильтры двигателей - PullRequest
1 голос
/ 02 декабря 2009

Существуют ли какие-либо "интеллектуальные" или "обучающие" механизмы, способные идентифицировать "злые" фразы в текстах (может быть, что-то вроде обучающего спам-фильтра ... например, используемого в Thunderbird?)

Например, если я хочу отфильтровать текст по почтовым адресам:

asdasd asd as d dgfdgfdgfdg sadasd(at)asfsdf.com

Сначала инструмент не распознает это как адрес электронной почты ... но если пользователь несколько раз нажимал на кнопку "ched "(например, на кнопку" текст содержит адрес электронной почты "), то этот текст, содержащий такие фразы, как «xxxxx (at) xxxxx.xx» является подозрительным, он «узнает», что он должен пометить этот текст автоматически в будущем ...

Вопрос: Есть ли что-нибудь подобное на рынке? Я нашел некоторые библиотеки (например, SpamAssasin и т. Д.), Но они "специализированы" на электронных письмах ...

Ответы [ 2 ]

2 голосов
/ 02 декабря 2009

Общая идея, о которой вы говорите, это Байесовский фильтр . Может быть, это поможет вам в ваших поисках.

Редактировать: несколько других примеров:

1 голос
/ 02 декабря 2009

Да, похоже, это хорошее начало: http://nbayes.codeplex.com/ (реализация байесовского алгоритма на C #)

...