Как агрегаторы ежедневных сделок получают данные с разных сайтов? - PullRequest
1 голос
/ 05 августа 2011

Мне было интересно, как агрегаторы ежедневных сделок собирают данные с различных сайтов сделок? Я видел много сайтов о предложениях, которые не предоставляют API и RSS-каналы, но все же этот агрегатор удаляет из них данные. вот несколько сайтов, на которые я ссылаюсь

http://www.thedealmap.com/

http://www.dealmandi.com/

Ответы [ 2 ]

5 голосов
/ 05 августа 2011

Если сайт не предоставляет API или RSS-канал, все равно возможно извлечь данные из него «по-старому» путем запроса страниц, на которых находится информация, и извлечения данных из возвращенного HTML.

В Python это можно сделать, используя urllib2 или requests для запросов страниц и lxml или BeautifulSoup для извлечения данных из HTML. Для больших проектов попробуйте использовать инфраструктуру scrapy, которая предоставляет все для кодирования сложных пауков.

1 голос
/ 28 июля 2012

Когда я построил LesserThan - http://lesserthan.com - я обнаружил, что большинство API или RSS-каналов не опубликованы.Только после того, как вы зарегистрируетесь в партнерской учетной записи, они сообщат вам адрес RSS-канала.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...