Question

Мне было интересно, как агрегаторы ежедневных сделок собирают данные с различных сайтов сделок? Я видел много сайтов о предложениях, которые не предоставляют API и RSS-каналы, но все же этот агрегатор удаляет из них данные. вот несколько сайтов, на которые я ссылаюсь

http://www.thedealmap.com/

http://www.dealmandi.com/

mdeous · Answer 1 · 05 августа 2011

Если сайт не предоставляет API или RSS-канал, все равно возможно извлечь данные из него «по-старому» путем запроса страниц, на которых находится информация, и извлечения данных из возвращенного HTML.

В Python это можно сделать, используя urllib2 или requests для запросов страниц и lxml или BeautifulSoup для извлечения данных из HTML. Для больших проектов попробуйте использовать инфраструктуру scrapy, которая предоставляет все для кодирования сложных пауков.

ccagle8 · Answer 2 · 28 июля 2012

Когда я построил LesserThan - http://lesserthan.com - я обнаружил, что большинство API или RSS-каналов не опубликованы.Только после того, как вы зарегистрируетесь в партнерской учетной записи, они сообщат вам адрес RSS-канала.

Как агрегаторы ежедневных сделок получают данные с разных сайтов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как агрегаторы ежедневных сделок получают данные с разных сайтов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы