Захватить URL после submit_form - PullRequest
       7

Захватить URL после submit_form

0 голосов
/ 18 февраля 2020

Я хочу почистить базу данных «Peoples Daily», китайской газеты. Один из способов получить доступ к архиву с 47 года - сегодня - это DFN (Deutsches Forschungsnetzwerk) и действующий аккаунт на crossasia.org.

1. Первым делом выберите ваше учреждение по номеру https://login.erf.sbb.spk-berlin.de/hanshibboleth/login, которое перенаправит вас на веб-страницу DFN с формулой для выбора вашего учреждения.

Выберите Crossasia.org (VHO)

Это перенаправит вас на страницу входа в систему crossasia.org

Теперь моя проблема заключается в следующем: я думаю, что достигну первый шаг с пакетом rvest, выполняющим следующий код

require("rvest")
session <- html_session("https://login.erf.sbb.spk-berlin.de/hanshibboleth/login")

form <- html_form(session)[[1]]

form <- set_values(form,
                   user_idp = "CrossAsia.org (VHO)")

Если вы повторите первый шаг в вашем браузере, веб-страница перенаправит вас сразу на CrossAsia.org, к сожалению, кажется, что это не работает в R Итак, вот мой вопрос:

Как я могу перейти на страницу входа или получить URL-адрес страницы входа? Поскольку страница входа в систему, похоже, также имеет токен c, указанный в сеансе, скопировать и вставить ссылку страницы входа в систему из браузера нельзя.

1 Ответ

0 голосов
/ 18 февраля 2020

Хорошо, после игры с инструментом разработки chrome я обнаружил, что с помощью https://sp.erf.sbb.spk-berlin.de/Shibboleth.sso/Login?SAMLDS=1&target=ss%3Amem%3A34f673898b5d4cb8f67f552c14c99ae1ed8d8e9185419b104896382fd711f1a2? User_idp = CrossAsia.org% 20 (VHO) & entityID = https% 3A% 2F% 2Flogin.crossasia.org% 2Fidp% 2Fshibboleth автоматически направляет вас на страницу входа. Итак, дело закрыто.

Чтобы дать более общий ответ: прежде чем я нажал кнопку «Выбрать» на странице, я открыл вкладку «сеть» dev-tool. Поэтому просто нажмите Command + Option + C (Ma c) или Control + Shift + C (Windows, Linux, Chrome OS). Затем установите флажок «Сохранить журнал», чтобы регистрировались все взаимодействия между отправкой запроса и перенаправлением. После этого просто проверьте вызываемые ссылки и попробуйте их в другом браузере (или удалите кеш), чтобы результат не был просто кэшированной версией целевой веб-страницы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...