Я управляю веб-сайтом с фотографиями, где пользователи могут свободно вводить любые теги, которые им нравятся, даже теги, которые раньше не использовались.В результате фотография метки иногда может быть помечена как «насекомое», в то время как кто-то еще помечает ее как «насекомое».
Я хотел бы сохранить возможность свободного тегирования, но хотел бы иметь способ отфильтровывать такие почти дубликаты.Общая коллекция тегов в настоящее время составляет 1500.Моя идея состоит в том, чтобы прочитать все из базы данных в mem и затем запустить алгоритм, который отображает «подозреваемые».
Моя идея подозреваемого состоит в том, что x% символов в строке совпадают(тот же символ и порядок), где х настраивается.Возможно, я мог бы написать действительно неэффективный способ сделать это, но мне было интересно, существует ли существующее решение этой проблемы?
Редактировать: Забыл упомянуть: недостаточно просто отсортировать теги, так как для этого потребуетсямне пройти весь набор, чтобы найти обманщиков.