Question

Что я на самом деле пытаюсь сделать, так это выяснить, как работает BEEMP3.COM.

Из-за скорости работы сайта, я сомневаюсь, что они соскребают другие сайты / источники на месте.Вероятно, они используют какую-то базу данных (PostgreSQL или MySQL) для хранения «результатов», а затем просто запрашивают условия поиска.

Мой вопрос: как вы, ребята, думаете, что они сканируют / паук или фактически получают файлы mp3?/ содержание?У них должен быть какой-то алгоритм для паука в Интернете ИЛИ использовать индекс трюка mp3 в Google, чтобы найти хосты с необработанными mp3-файлами.

Любые комментарии, советы или идеи приветствуются:)

Freddy Mwambafula · Answer 1 · 09 октября 2013

Кроме того, вы можете сканировать MP3-пауков, таких как beemp3.com, извлекать все прямые ссылки на скачивание и сохранять их в своей базе данных. вам нужно только два файла I. Простой HTML Дом. II. Приложение, которое может взять извлеченные ссылки на вашу базу данных.

Проверьте, что я сделал в http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php

Вы продолжаете спрашивать в случае любого противоречия.

GSP · Answer 2 · 18 февраля 2011

QueryPath - отличный инструмент для создания веб-паука.

Я предполагаю, что они находят MP3-файлы, используя комбинированный подход - у них есть список "начальных сайтов" (собранных из Google, Usenet или вставленных вручную), которые они используют в качестве отправной точки для поиска, а затем настраивают пауков, работающих против им.

Вам нужно написать скрипт, который будет:

Взять веб-страницу в качестве отправной точки
Получить данные веб-страницы (используйте cURL)
Используйте регулярное выражение для извлечения (a) любых ссылок (b) любых ссылок на mp3-файлы
Поместите любые ссылки MP3 в базу данных
Добавить список ссылок на другие веб-страницы в очередь для обработки указанным выше методом

Вам также необходимо регулярно проверять ссылки MP3, чтобы удалить все плохие ссылки.

Советы / Советы о том, как лучше всего паук / сканировать / собирать аудио контент из Интернета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Советы / Советы о том, как лучше всего паук / сканировать / собирать аудио контент из Интернета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы