У меня была похожая проблема. Я пытался разработать безопасную систему ссылок для каталога пользовательских ссылок. Пользователь может опубликовать страницу в блоге или новостном сайте и отправить ссылку на индекс. Человек подтвердит правильность ссылки и добавит страницу в индекс.
Проблема заключалась в том, чтобы придумать способ автоматизации проверок, который обеспечивал бы правильную связь с течением времени. Например, кто-то изменил страницу недели спустя и вставил расовые оскорбления? Сайт новостей начал рассказывать людям: «Вы должны подписаться, чтобы читать эту историю»?
Я закончил тем, что извлек элементы
и сравнил кэшированную копию с текущим слово в слово. Проще говоря:
cached[] = { "Lorem", "Ipsum", "..." };
scanned[] = { "Lorem, "foo", ... };
После этого ряд сортировщиков будет работать над ним, игнорируя при этом общие слова «если, но может или и» при обработке других слов (ненормативной лексики и т. Д.) С большим весом.
Это привело к созданию системы оценки, которая почти игнорировала бы незначительные правки и исправления (опечатки, структуру предложений и т. Д.), Но быстро показывала, нужно ли снова проверять содержимое. Затем баллы были возвращены, а баллы, превышающие пороговое значение, будут помещены в очередь для повторной проверки человеком.
Это также помогло объяснить основные косметические изменения на сайте. Я бы не поверил, что он работает полностью сам по себе, но он, как и ожидалось, хорошо справился со своей работой с небольшой помощью людей. По общему признанию, система была не так эффективна, как могла бы быть, насколько методология идет.