Question

У меня была идея поисковой системы, которая будет индексировать веб-элементы, как это делают другие поисковые системы, но будет хранить только заголовок файла, URL и хэш содержимого.

Таким образом, было бы легко найти элементы в Интернете, если вы уже имели их и не знали, откуда они пришли или хотели знать все места, где что-то появилось.

Более полезно для нетекстовых элементов, таких как изображения, исполняемые файлы и архивы.

Мне было интересно, есть ли уже что-то подобное?

Tyler · Answer 1 · 09 сентября 2008

Проверьте страницу википедии о хешировании, чувствительном к месту . Также есть хорошая страница, организованная исследованием MIT .

В общем, доступно несколько разновидностей: хэши для строк (например, simhash ), наборы или функции 0/1 (например, минимальные хэши ) действительные векторы.

Основной трюк для числовых хешей - это, в основном, уменьшение размера . Для строк идея заключается в том, чтобы придумать надежное представление перед незначительными правками.

Я также провожу небольшое исследование в этой области, хотя думаю, что переполнение стека может быть неподходящим местом для начинающей работы.

nealmcb · Answer 2 · 22 июня 2014

Вопрос, кажется, сосредоточен на хэшах с точным соответствием, которые мы понимаем лучше, чем подходы ближайших соседей, и действительно стоят того, особенно если люди могут обмениваться тегами и другими метаданными таким образом.

Как отмечает @rjmunro, поиск на основе хеш-функции является популярной идеей в мире P2P, и Bitzi сделал это в значительной степени, хотя они закрылись, и их Bitpedia (Digital Media Encyclopedia) там больше не размещается, хотя некоторые из них по крайней мере все еще доступны на Archive.org.

Bitzi также выпускает программное обеспечение, такое как Bitcollider (SourceForge.net) , и схема URI магнита , которая позволяет задавать файл с помощью хэша и, таким образом, является идентификатором на основе содержимого. Различные приложения поддерживают поиск в различных базах данных с помощью URI-адресов Magnet, как описано на этой странице Википедии.

Эта же идея популярна в сцене взлома паролей - см., Например, findmyhash - скрипт Python для взлома хешей с использованием онлайн-сервисов и т. Д.

Если пойти еще дальше, думаю, было бы замечательно, если бы были базы данных и онлайн-репозитории, идентифицирующие контент по хеш-функциям и предоставляющие теги и другие метаданные о контенте с разных точек зрения. Тогда я мог бы оставить свою музыкальную коллекцию в ее первоначальном состоянии (без потерь места и времени для резервного копирования), но все же пометить их сам и добавить другие метаданные через внешние базы данных тегов. Если бы мои приложения знали, как захватывать теги, казалось бы, это было бы намного лучше, чем нынешняя система, в которой мы модифицируем и копируем большие файлы, просто чтобы перемещать теги, например, из. мой рабочий стол на мой телефон.

См. Связанную идею на Независимое хэширование метаданных для идентификации носителя и оптимизации передачи P2P (pdf).

zigdon · Answer 3 · 09 сентября 2008

Ну, для изображений есть [http://tineye.com/][1],, который увеличит это число и найдет вам похожие изображения.

[1]: http://tineye.com/ Оловянный глаз

rjmunro · Answer 4 · 09 сентября 2008

Если я правильно понимаю ваше предложение, http://bitzi.com/ некоторое время делал это.

aku · Answer 5 · 09 сентября 2008

Это неплохая идея. Иногда я сталкиваюсь с каким-то файлом, пытаясь выяснить, откуда он взялся :) Но как вы собираетесь отслеживать источники? Контент можно получить различными способами - через веб-браузер, менеджер загрузок, просто скопировав его из общего сетевого ресурса.

Поиск по хешу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск по хешу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы