MP3 ссылка гусеничный - PullRequest
3 голосов
/ 14 июля 2009

Я искал хороший способ реализовать это. Я работаю над простым сканером веб-сайтов, который будет обходить определенный набор веб-сайтов и сканировать все mp3-ссылки в базу данных. Я не хочу загружать файлы, просто просмотрите ссылку, проиндексируйте их и сможете искать по ним. До сих пор для некоторых сайтов я был успешным, но для некоторых они используют перенаправления URL и прочее, что приводит в замешательство сканера.

есть идеи? Как beemp3.com индексирует все эти ссылки?

спасибо

Ответы [ 3 ]

1 голос
/ 14 июля 2009

Вы можете сделать запрос http-заголовка к ссылкам и проверить их тип mime. Если это аудио / MPEG, скорее всего, вы получаете ссылку mp3.

0 голосов
/ 23 июля 2009

Какие языки программирования вы предпочитаете?

Python:
Существует очень многообещающая среда для сканирования под названием Scrapy (написана на python), которая построена аналогично Django Framework . Я еще не использовал это сам, но я смотрел на гусеницы, и Scrapy - лучший кандидат. Это IIRC не готово из коробки и требует минимального количества кода, но оно разработано по принципу DRY и очень настраиваемо (что-то вроде Django не дает вам сайт под ключ сразу после установки).

Существует множество различных способов для перенаправления URL , и ваш сканер должен иметь возможность следовать этим перенаправлениям ИЛИ в худшем случае иметь возможность игнорировать их, чтобы он не работал со сбоями.

Сайт, который перенаправляется с на , также должен быть в вашем белом списке сайтов.

Не могли бы вы отредактировать свой вопрос и добавить информацию о своем сканере; Это написано с нуля, это какое-то решение под ключ и т.д?

0 голосов
/ 14 июля 2009

Вот что-то похожее на ваш запрос (друзья в колледже используют его постоянно). При вводе QUERY_TEXT Этот поиск создает запрос Google следующего формата:

QUERY_TEXT intitle:
"index.of" "parent directory" "size" "last modified" "description"
[snd] (mp4|mp3|avi)
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index)
-gallery
-intitle:"last modified"
-intitle:(intitle|mp3)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...