Вы также можете настроить chrome / firefox на HTTP-прокси, а затем зарегистрировать / извлечь необходимый контент с помощью прокси.Я использовал прокси-серверы Python для сохранения / регистрации запросов / контента на основе глобусов типа контента или URI.
Для других проектов я написал букмарклеты javascript для конкретного сайта, которые опрашивают новые данные, а затем POSTна моем сервере (путем динамического создания формы и iframe и установки myform.target=myiframe;
Другие сценарии / закладки javascript имитируют взаимодействие пользователя с сайтами, поэтому вместо опроса каждые несколько секунд javascript автоматизирует нажатие кнопок иотправка форм и т. д. Эти сценарии всегда очень специфичны для конкретного сайта, но они были чрезвычайно полезны для меня, особенно при переборе всех разбитых на страницы результатов для данного поиска.
Вот урезанная версияпройтись по списку «разбитых на страницы» результатов и подготовиться к отправке данных на мой сервер (который затем анализирует их с BeautifulSoup). В частности, это было разработано для отправленных / входящих сообщений Youtube.
var tables = [];
function process_and_repeat(){
if(!(inbox && inbox.message_pane_ && inbox.message_pane_.innerHTML)){
alert("We've got no data!");
}
if(inbox.message_pane_.innerHTML.indexOf('<table') === 0)
{
tables.push(inbox.message_pane_.innerHTML);
inbox.next_page();
setTimeout("process_and_repeat()",3000);
}
else{
alert("Fininshed, [" + tables.length + " processed]");
document.write('<form action=http://curl.sente.cc method=POST><textarea name=sent.html>'+escape(tables.join('\n'))+'</textarea><input type=submit></form>')
}
}
process_and_repeat(); // now we wait and watch as all the paginated pages are viewed :)
Это урезанный пример без какой-либо фантазииiframes / неосновные вещи, которые только увеличивают сложность.
В дополнение к тому, что сказал Лиам, Selenium также является отличным инструментом, который помог в моих различных задачах по соскобам.Я был бы более чем рад помочь вам с этим, если хотите.