Советы / Советы о том, как лучше всего паук / сканировать / собирать аудио контент из Интернета - PullRequest
2 голосов
/ 15 декабря 2010

Что я на самом деле пытаюсь сделать, так это выяснить, как работает BEEMP3.COM.

Из-за скорости работы сайта, я сомневаюсь, что они соскребают другие сайты / источники на месте.Вероятно, они используют какую-то базу данных (PostgreSQL или MySQL) для хранения «результатов», а затем просто запрашивают условия поиска.

Мой вопрос: как вы, ребята, думаете, что они сканируют / паук или фактически получают файлы mp3?/ содержание?У них должен быть какой-то алгоритм для паука в Интернете ИЛИ использовать индекс трюка mp3 в Google, чтобы найти хосты с необработанными mp3-файлами.

Любые комментарии, советы или идеи приветствуются:)

Ответы [ 2 ]

0 голосов
/ 09 октября 2013

Кроме того, вы можете сканировать MP3-пауков, таких как beemp3.com, извлекать все прямые ссылки на скачивание и сохранять их в своей базе данных. вам нужно только два файла I. Простой HTML Дом. II. Приложение, которое может взять извлеченные ссылки на вашу базу данных.

Проверьте, что я сделал в http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php

Вы продолжаете спрашивать в случае любого противоречия.

0 голосов
/ 18 февраля 2011

QueryPath - отличный инструмент для создания веб-паука.

Я предполагаю, что они находят MP3-файлы, используя комбинированный подход - у них есть список "начальных сайтов" (собранных из Google, Usenet или вставленных вручную), которые они используют в качестве отправной точки для поиска, а затем настраивают пауков, работающих против им.

Вам нужно написать скрипт, который будет:

  • Взять веб-страницу в качестве отправной точки
  • Получить данные веб-страницы (используйте cURL)
  • Используйте регулярное выражение для извлечения (a) любых ссылок (b) любых ссылок на mp3-файлы
  • Поместите любые ссылки MP3 в базу данных
  • Добавить список ссылок на другие веб-страницы в очередь для обработки указанным выше методом

Вам также необходимо регулярно проверять ссылки MP3, чтобы удалить все плохие ссылки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...