Как я могу использовать PHP для поиска базовой информации о качестве текста? - PullRequest
1 голос
/ 22 июля 2011

У меня есть сайт на PHP / MySQL, который я не поддерживал в течение последних 6 месяцев.Это сайт, куда пользователи приходят и представляют свои статьи.У меня 50 000 статей, и по некоторым специальным тестам я должен сказать, что около 50-60% - это спам и скопировать вставленный текст с других сайтов.

Я хочу написать PHP-скрипт, который займет некоторое время.параметры для пометки / удаления спам-текста (не копировать / вставлять, для этого шага только чистый спам), поэтому моя идея состоит в том, чтобы сделать скрипт, который будет принимать каждую единицу, подсчитывать символы, слова, использование разных слов и фраз и плотность слов в зависимости от этихфакторы удаляют как чистый спам (с многократными повторениями фраз и т. д.).Так что для этого я потеряю целый день, и мой вопрос:

Есть ли какое-то решение, уже разработанное в PHP?Если мне нужно самому его кодировать, какие параметры для определения спама мне следует использовать?

Ответы [ 3 ]

2 голосов
/ 22 июля 2011

Вот класс PHP, который я использовал в прошлом - Базовый класс спама Я не автор, поэтому я не несу никакой ответственности за потенциальный ущерб, нанесенный кодом. Я использовал его для проверки коротких текстов - комментариев пользователей на сайте, поэтому я не уверен в производительности 50k длинных статей, может быть, вам нужно будет внести в него некоторые улучшения. Но, по крайней мере, у вас есть с чего начать.

1 голос
/ 22 июля 2011

Возможно, вы могли бы взглянуть на Акисмет и Плохое поведение . Первая, которая проанализирует ваши статьи (а также будущие) и плохое поведение для борьбы со спамом еще до того, как он попадет в вашу базу данных.

Они могут быть не идеальными, но они могут помочь вам на вашем пути.

0 голосов
/ 22 июля 2011

Я заметил, что во многих спам-сообщениях на подобных сайтах не хватает статей. Они содержат только кучу ключевых слов и ссылок. Вы можете добавить параметр для минимального количества статей. Если менее 1% сообщения составляют статьи, вы можете отклонить его как спам.

Например, если вы подсчитаете количество the с an с a с и some с в вышеприведенном абзаце, вы получите 3 a с и 1 the (всего 4 статьи из 43 слов это 9,3%)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...