Соскребание HTML с использованием YQL - PullRequest
0 голосов
/ 29 июня 2011

Я пытаюсь использовать YQL для чистки некоторых сайтов.Когда я тестирую различные запросы в консоли YQL, я получаю узел результатов.Например, когда я запускаю:

select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'

, я получаю пустой <results /> узел ( постоянная ссылка ).Заранее спасибо!

1 Ответ

1 голос
/ 29 июня 2011

http://www.reverbnation.com может блокировать запрос от Yahoo! основанный на определенных критериях, таких как заголовки. Я взглянул на robots.txt, и они не блокируют Yahoo! основанный на пользовательском агенте "Yahoo Pipes 2.0", поэтому он должен быть чем-то другим.

Чтобы заново создать проблему, сделайте YQL-запрос к вашему собственному сайту, затем просмотрите журналы полного доступа, чтобы увидеть полный запрос и все заголовки, полученные от Yahoo! Затем сделайте аналогичный запрос, используя инструмент типа cURL .

Вы также можете попробовать запустить netcat на порту и запросить с помощью http://yoursite.com:PORT, чтобы увидеть полный запрос.

Смежный вопрос обсуждается здесь .

...