Можно ли искать в базе данных связанные файлы, когда файл загружается в форму загрузки - PullRequest
1 голос
/ 07 октября 2009

У меня есть идея для сайта, которая предполагает загрузку файлов на сайт. Но то, что я хотел бы - и интересно, если это возможно - это когда пользователь нажимает «Обзор» и выбирает файл, если сайт может автоматически сканировать базу данных сайта на наличие похожих файлов перед тем, как загрузить файл в сайт. Вид аналогичен автоматическому «Связанные вопросы», когда вы задаете вопрос на этом сайте.

Ответы [ 2 ]

1 голос
/ 07 октября 2009

Конечно, это возможно. Но вам придется придумать свое собственное определение, а также алгоритм для поиска того, что похоже.

Различия типов файлов

Различные типы файлов должны сравниваться по-разному. Например, текстовый файл будет хорошо подходить для сравнения, чтобы найти похожие файлы, но сравнение похожих изображений или видео значительно сложнее.

Сложность сравнений

Кроме того, сравнение с большим количеством файлов - очень дорогая вещь, поскольку обычно она выполняется попарно. Хотя некоторые методы индексации могут повысить эффективность поиска, но я не вижу простого способа сделать это быстро.

Альтернативный источник толпы

Другой альтернативой может быть то, что пользователи сайта будут указывать на сходство, чтобы вы просто отображали список самых популярных файлов, за которые проголосовали за подобные Конечно, это не помогает при загрузке нового файла, но может помочь вам понять, что пользователи находят похожим.

То, что многие сайты делают, чтобы сравнить сходство контента, состоит в том, чтобы позволить пользователям отмечать элементы. Если один элемент разделяет много одинаковых тегов с другим, они, вероятно, похожи. Это, наверное, самый простой подход.

Это также имеет то преимущество, что любой тип контента можно сравнить с любым другим типом контента. Таким образом, текстовые файлы, которые имеют те же теги, что и видео, могут быть представлены как похожие.

0 голосов
/ 07 октября 2009

Возможно получить имя файла без загрузки файла, поэтому вы можете выполнять поиск по имени файла. Содержимое будет доступно только после загрузки.

...