У меня есть сайт на PHP / MySQL, который я не поддерживал в течение последних 6 месяцев.Это сайт, куда пользователи приходят и представляют свои статьи.У меня 50 000 статей, и по некоторым специальным тестам я должен сказать, что около 50-60% - это спам и скопировать вставленный текст с других сайтов.
Я хочу написать PHP-скрипт, который займет некоторое время.параметры для пометки / удаления спам-текста (не копировать / вставлять, для этого шага только чистый спам), поэтому моя идея состоит в том, чтобы сделать скрипт, который будет принимать каждую единицу, подсчитывать символы, слова, использование разных слов и фраз и плотность слов в зависимости от этихфакторы удаляют как чистый спам (с многократными повторениями фраз и т. д.).Так что для этого я потеряю целый день, и мой вопрос:
Есть ли какое-то решение, уже разработанное в PHP?Если мне нужно самому его кодировать, какие параметры для определения спама мне следует использовать?