Использование wget для извлечения CSV из Google Trends - PullRequest
0 голосов
/ 09 октября 2009

Я хотел бы загрузить данные Google Trends csv с помощью wget, но я не знаком с использованием wget. Пример URL:

http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1

Открыв это с помощью веб-браузера, я получаю ожидаемый файл. Чтобы сделать это с помощью wget, я попробовал следующую команду:

wget "http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1" -O report.csv

, что приводит к следующему:

<html><head><title>Redirecting</title>
<meta http-equiv="refresh" content="0; url=&#39;http://www.google.com/insights/search#content=1&amp;cat=71&amp;geo=US&amp;q=apple&amp;date&amp;cmpt=q&#39;"></head>
<body bgcolor="#ffffff" text="#000000" link="#0000cc" vlink="#551a8b" alink="#ff0000"><script type="text/javascript" language="javascript">
    location.replace("http://www.google.com/insights/search#content\x3d1\x26cat\x3d71\x26geo\x3dUS\x26q\x3dapple\x26date\x26cmpt\x3dq")
  </script></body></html>

Мое первое предположение заключается в том, что wget не имеет доступа к файлам cookie с надлежащей аутентификацией.

Кто-нибудь?

1 Ответ

2 голосов
/ 09 октября 2009

Вы получаете сообщение о перенаправлении. URL в бите location.replace, и вы получаете действительный index.html от Google, если вы этот URL при втором вызове wget.

Мне кажется, что у вас просто нет правильного URL-адреса, с которого загружаются данные CSV. Для рабочего примера того, как «поразить» интерфейс CGI с помощью загрузчика, посмотрите R s get.hist.quote() в сериях пакет.

Редактировать: Вот что делает get.hist.quote ():

R> IBM <- get.hist.quote("IBM")
trying URL 'http://chart.yahoo.com/table.csv?s=IBM&a=0&b=02&c=1991&d=9&e=08&f=2009&g=d&q=q&y=0&z=IBM&x=.csv'
Content type 'text/csv' length unknown
opened URL
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... ......
downloaded 236 Kb

R>

Вы можете нажать тот же URL-адрес напрямую, как показано в коде, который вы можете изучить. Если вам нужны файлы cookie, вам может понадобиться просмотреть код Duncan TL, чтобы перейти к Документам Google и т. Д.

...