Конечно, это возможно. Но вам придется придумать свое собственное определение, а также алгоритм для поиска того, что похоже.
Различия типов файлов
Различные типы файлов должны сравниваться по-разному. Например, текстовый файл будет хорошо подходить для сравнения, чтобы найти похожие файлы, но сравнение похожих изображений или видео значительно сложнее.
Сложность сравнений
Кроме того, сравнение с большим количеством файлов - очень дорогая вещь, поскольку обычно она выполняется попарно. Хотя некоторые методы индексации могут повысить эффективность поиска, но я не вижу простого способа сделать это быстро.
Альтернативный источник толпы
Другой альтернативой может быть то, что пользователи сайта будут указывать на сходство, чтобы вы просто отображали список самых популярных файлов, за которые проголосовали за подобные Конечно, это не помогает при загрузке нового файла, но может помочь вам понять, что пользователи находят похожим.
То, что многие сайты делают, чтобы сравнить сходство контента, состоит в том, чтобы позволить пользователям отмечать элементы. Если один элемент разделяет много одинаковых тегов с другим, они, вероятно, похожи. Это, наверное, самый простой подход.
Это также имеет то преимущество, что любой тип контента можно сравнить с любым другим типом контента. Таким образом, текстовые файлы, которые имеют те же теги, что и видео, могут быть представлены как похожие.