Я бы хотел выполнить поиск в архиве онлайн-газеты и просмотреть результаты с помощью R
. В отличие от газетного архива с чистыми HTML
веб-страницами, я не нахожу решения, чтобы [1] отобрать по определенному поисковому запросу и [2] очистить результаты для газетного архива, содержащего JavaScript.
Для крупного исследовательского проекта я пытаюсь собрать полные статьи из целого ряда немецких газетных архивов, отфильтрованных по списку поисковых терминов. Это хорошо работает для архивов газет, которые являются веб-страницами в чистом HTML-формате (например, https://www.faz -biblionet.de / faz-portal / ) и где каждая страница результатов поиска доступна по отдельному URL-адресу на основе параметров. который я могу построить на основе моих параметров поиска.
Моя проблема в том, что я не могу достичь тех же результатов из архивов газет, которые включают JavaScript, особенно этот: https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act
В частности, у меня две проблемы.
На first я не уверен, как передать параметры поиска (например, «условия поиска», «период времени» [«Zeitraum»] и «область поиска» [«Quellen / -pools»] ) на веб-страницу с JavaScript. Я знаю, что функция POST
- это способ передачи данных на веб-страницу. Когда я осматриваю страницу, я получаю следующий код для поля поиска:
<textarea name="searchTerm" cols="" rows="" id="searchTerm" class="ui-autocomplete-input" autocomplete="off" spellcheck="false"></textarea>
После этого я пытаюсь перенести условия поиска по этому R
коду:
POST("https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act",
body = list(searchTerm = "Test"),
encode = "json", verbose())
К сожалению, я не могу проверить функциональность этого, потому что я во-вторых , не получил решения о том, как очистить (сгенерированным JavaScript) результаты.
В конце я хочу собрать идентификаторы всех статей поиска, потому что с их помощью я могу создать URL-адреса, которые приведут меня к полным статьям, которые мне нужно почистить. Вот пример кода, который меня интересует, для первого результата простого поиска по слову «тест» (веб-страница: https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act):
<a href="/Portal/restricted/Fulltext.act?index=1251&variantIndex=11414928638054005079&parentAction=ExtendedResultList" onclick="SSP.triggerBlockUI();">Frühlingsfestbesuch kostet Führerschein</a>
Два элемента «index = 1251» & «variableIndex = 11414928638054005079» позволяют мне создать URL-адрес статьи:
https://archiv.szarchiv.de/Portal/restricted/Fulltext.act?index=1251&variantIndex=11414928638054005079&parentAction=ExtendedResultList
С этого шага я знаю, как очистить нужные мне данные.
Я прочитал много статей по stackoverflow по этому вопросу, но, к сожалению, все они были просто о чистке веб-страниц с JavaScript
без заполнения форм или просто о HTML
страницах с URL-адресами на основе параметров, но без подключения обеих тем.
Я ценю все ваши усилия!