Я хочу загрузить HTML всех страниц сайта Google, к которым можно получить доступ только после входа в Google. Google не предоставляет API для новых Сайтов Google ( источник ). Чтобы усложнить ситуацию, мой вход в Google требует 2SV .
Я пробовал аутентифицироваться в Firefox, сохраняя свои файлы cookie через Firefox extension cookies.txt и затем с помощью wget:
wget \
--load-cookies=cookies.txt \
--no-host-directories \
--no-directories \
--recursive \
--accept '*.html' \
https://sites.google.com/a/example.com/the-website-i-need/
Результатом была просто страница входа в Google.
Я также пробовал изнутри Firefox через плагин cliget , который может генерировать команда wget, эквивалентная тому, что Firefox делает для загрузок. Моя идея заключалась в том, чтобы добавить рекурсивные параметры к сгенерированной команде. Однако плагин только что сообщил «Нет загрузок для этого сеанса» даже после сохранения страницы root сайта Google в виде файла. html. Затем я инициировал загрузку файла PDF с сайта Google, что вызвало запуск плагина cliget. Однако результирующая команда wget привела к 302 Moved Temporarily
, которому wget точно следовала, но эти процессы повторялись, пока, наконец, wget не отказался от 20 redirections exceeded
.
Можно ли это сделать с помощью OAuth или другого метода аутентификация?
Связано: Доступ к странице Сайтов Google, отличной от Publi c, с использованием curl + Bearer Token