Поиск по хешу? - PullRequest
       45

Поиск по хешу?

4 голосов
/ 09 сентября 2008

У меня была идея поисковой системы, которая будет индексировать веб-элементы, как это делают другие поисковые системы, но будет хранить только заголовок файла, URL и хэш содержимого.

Таким образом, было бы легко найти элементы в Интернете, если вы уже имели их и не знали, откуда они пришли или хотели знать все места, где что-то появилось.

Более полезно для нетекстовых элементов, таких как изображения, исполняемые файлы и архивы.

Мне было интересно, есть ли уже что-то подобное?

Ответы [ 5 ]

4 голосов
/ 09 сентября 2008

Проверьте страницу википедии о хешировании, чувствительном к месту . Также есть хорошая страница, организованная исследованием MIT .

В общем, доступно несколько разновидностей: хэши для строк (например, simhash ), наборы или функции 0/1 (например, минимальные хэши ) действительные векторы.

Основной трюк для числовых хешей - это, в основном, уменьшение размера . Для строк идея заключается в том, чтобы придумать надежное представление перед незначительными правками.

Я также провожу небольшое исследование в этой области, хотя думаю, что переполнение стека может быть неподходящим местом для начинающей работы.

1 голос
/ 22 июня 2014

Вопрос, кажется, сосредоточен на хэшах с точным соответствием, которые мы понимаем лучше, чем подходы ближайших соседей, и действительно стоят того, особенно если люди могут обмениваться тегами и другими метаданными таким образом.

Как отмечает @rjmunro, поиск на основе хеш-функции является популярной идеей в мире P2P, и Bitzi сделал это в значительной степени, хотя они закрылись, и их Bitpedia (Digital Media Encyclopedia) там больше не размещается, хотя некоторые из них по крайней мере все еще доступны на Archive.org.

Bitzi также выпускает программное обеспечение, такое как Bitcollider (SourceForge.net) , и схема URI магнита , которая позволяет задавать файл с помощью хэша и, таким образом, является идентификатором на основе содержимого. Различные приложения поддерживают поиск в различных базах данных с помощью URI-адресов Magnet, как описано на этой странице Википедии.

Эта же идея популярна в сцене взлома паролей - см., Например, findmyhash - скрипт Python для взлома хешей с использованием онлайн-сервисов и т. Д.

Если пойти еще дальше, думаю, было бы замечательно, если бы были базы данных и онлайн-репозитории, идентифицирующие контент по хеш-функциям и предоставляющие теги и другие метаданные о контенте с разных точек зрения. Тогда я мог бы оставить свою музыкальную коллекцию в ее первоначальном состоянии (без потерь места и времени для резервного копирования), но все же пометить их сам и добавить другие метаданные через внешние базы данных тегов. Если бы мои приложения знали, как захватывать теги, казалось бы, это было бы намного лучше, чем нынешняя система, в которой мы модифицируем и копируем большие файлы, просто чтобы перемещать теги, например, из. мой рабочий стол на мой телефон.

См. Связанную идею на Независимое хэширование метаданных для идентификации носителя и оптимизации передачи P2P (pdf).

1 голос
/ 09 сентября 2008

Ну, для изображений есть [http://tineye.com/][1],, который увеличит это число и найдет вам похожие изображения.

[1]: http://tineye.com/ Оловянный глаз

0 голосов
/ 09 сентября 2008

Если я правильно понимаю ваше предложение, http://bitzi.com/ некоторое время делал это.

0 голосов
/ 09 сентября 2008

Это неплохая идея. Иногда я сталкиваюсь с каким-то файлом, пытаясь выяснить, откуда он взялся :) Но как вы собираетесь отслеживать источники? Контент можно получить различными способами - через веб-браузер, менеджер загрузок, просто скопировав его из общего сетевого ресурса.

...