Как построить индексатор торрент-файлов? - PullRequest
5 голосов
/ 02 апреля 2009

Мне любопытно, что за поисковая система вроде torrentz.com. Из того, что я мог заметить, он не содержит никаких торрент-файлов, а соединяет вас с другими серверами, которые это делают.

  • Вы ищете ключевые слова, он выводит список потенциальных названий, соответствующих вашему запросу.
  • затем вы выбираете один из них, и он предоставляет вам другой список потенциальных серверов, на которых размещен соответствующий торрент-файл.

Что меня особенно интересует, так это стратегия сбора и индексации всего этого контента:

Как они собирают, а затем агрегируют данные?
Это базовая служба отправки, где каждый из этих серверов отправляет свой контент для индексации?
Это алгоритм сканирования? Если да, то как вы можете начать сканировать такой сайт, как piratebay.org?
Есть ли у них доступ к базам данных этих других серверов?

Мои знания и понимание протокола bittorrent не очень сложны, но документация, которую я нашел в Интернете, больше указала мне на процессы, связанные с созданием сервиса трекера, что не совсем то, что мне интересно. Любое понимание и рекомендуемый материал для чтения приветствуется.

1 Ответ

6 голосов
/ 02 апреля 2009

Для начала начните индексировать свои RSS-каналы и собирайте с него данные. Следующим шагом будет индексация страниц портала (например, Mininova, tpb и т. Д.), Но следите за тем, что вас могут забанить (на основе ip) за это, так как это вызовет огромный объем данных, запрашиваемых с их серверов (т.е. не думай, что они будут этому рады) ..

Это говорит о том, что я сомневаюсь, что у них есть доступ к базам данных других серверов, а это сканирование + rss.

Другая вещь, которую вы можете использовать, заключается в том, что когда кто-то делает запрос элемента, которого у вас нет в базе данных qyour, вы делаете запрос на главном портале bt, кэшируете результат в своей базе данных и затем отображаете результаты. , Затем, если другой пользователь сделает такой же запрос (что является довольно распространенным сценарием), вы можете показать ему кэшированные данные + новые данные из rss.

...