Question

Я хотел бы загрузить данные Google Trends csv с помощью wget, но я не знаком с использованием wget. Пример URL:

http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1

Открыв это с помощью веб-браузера, я получаю ожидаемый файл. Чтобы сделать это с помощью wget, я попробовал следующую команду:

wget "http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1" -O report.csv

, что приводит к следующему:

<html><head><title>Redirecting</title>
<meta http-equiv="refresh" content="0; url=&#39;http://www.google.com/insights/search#content=1&amp;cat=71&amp;geo=US&amp;q=apple&amp;date&amp;cmpt=q&#39;"></head>
<body bgcolor="#ffffff" text="#000000" link="#0000cc" vlink="#551a8b" alink="#ff0000"><script type="text/javascript" language="javascript">
    location.replace("http://www.google.com/insights/search#content\x3d1\x26cat\x3d71\x26geo\x3dUS\x26q\x3dapple\x26date\x26cmpt\x3dq")
  </script></body></html>

Мое первое предположение заключается в том, что wget не имеет доступа к файлам cookie с надлежащей аутентификацией.

Кто-нибудь?

Dirk Eddelbuettel · Answer 1 · 09 октября 2009

Вы получаете сообщение о перенаправлении. URL в бите location.replace, и вы получаете действительный index.html от Google, если вы этот URL при втором вызове wget.

Мне кажется, что у вас просто нет правильного URL-адреса, с которого загружаются данные CSV. Для рабочего примера того, как «поразить» интерфейс CGI с помощью загрузчика, посмотрите R s get.hist.quote() в сериях пакет.

Редактировать: Вот что делает get.hist.quote ():

R> IBM <- get.hist.quote("IBM")
trying URL 'http://chart.yahoo.com/table.csv?s=IBM&a=0&b=02&c=1991&d=9&e=08&f=2009&g=d&q=q&y=0&z=IBM&x=.csv'
Content type 'text/csv' length unknown
opened URL
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... ......
downloaded 236 Kb

R>

Вы можете нажать тот же URL-адрес напрямую, как показано в коде, который вы можете изучить. Если вам нужны файлы cookie, вам может понадобиться просмотреть код Duncan TL, чтобы перейти к Документам Google и т. Д.

Использование wget для извлечения CSV из Google Trends

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование wget для извлечения CSV из Google Trends

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы