Использование R для поиска в архиве газеты (веб-страница ".act" с Java Script) и проверка результатов. - PullRequest
0 голосов
/ 21 мая 2019

Я бы хотел выполнить поиск в архиве онлайн-газеты и просмотреть результаты с помощью R. В отличие от газетного архива с чистыми HTML веб-страницами, я не нахожу решения, чтобы [1] отобрать по определенному поисковому запросу и [2] очистить результаты для газетного архива, содержащего JavaScript.

Для крупного исследовательского проекта я пытаюсь собрать полные статьи из целого ряда немецких газетных архивов, отфильтрованных по списку поисковых терминов. Это хорошо работает для архивов газет, которые являются веб-страницами в чистом HTML-формате (например, https://www.faz -biblionet.de / faz-portal / ) и где каждая страница результатов поиска доступна по отдельному URL-адресу на основе параметров. который я могу построить на основе моих параметров поиска.

Моя проблема в том, что я не могу достичь тех же результатов из архивов газет, которые включают JavaScript, особенно этот: https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act

В частности, у меня две проблемы. На first я не уверен, как передать параметры поиска (например, «условия поиска», «период времени» [«Zeitraum»] и «область поиска» [«Quellen / -pools»] ) на веб-страницу с JavaScript. Я знаю, что функция POST - это способ передачи данных на веб-страницу. Когда я осматриваю страницу, я получаю следующий код для поля поиска:

<textarea name="searchTerm" cols="" rows="" id="searchTerm" class="ui-autocomplete-input" autocomplete="off" spellcheck="false"></textarea>

После этого я пытаюсь перенести условия поиска по этому R коду:

POST("https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act",
     body = list(searchTerm = "Test"),
     encode = "json", verbose())

К сожалению, я не могу проверить функциональность этого, потому что я во-вторых , не получил решения о том, как очистить (сгенерированным JavaScript) результаты.

В конце я хочу собрать идентификаторы всех статей поиска, потому что с их помощью я могу создать URL-адреса, которые приведут меня к полным статьям, которые мне нужно почистить. Вот пример кода, который меня интересует, для первого результата простого поиска по слову «тест» (веб-страница: https://archiv.szarchiv.de/Portal/restricted/ExtendedResultList.act):

<a href="/Portal/restricted/Fulltext.act?index=1251&amp;variantIndex=11414928638054005079&amp;parentAction=ExtendedResultList" onclick="SSP.triggerBlockUI();">Frühlingsfestbesuch kostet Führerschein</a>

Два элемента «index = 1251» & «variableIndex = 11414928638054005079» позволяют мне создать URL-адрес статьи:

https://archiv.szarchiv.de/Portal/restricted/Fulltext.act?index=1251&variantIndex=11414928638054005079&parentAction=ExtendedResultList

С этого шага я знаю, как очистить нужные мне данные.

Я прочитал много статей по stackoverflow по этому вопросу, но, к сожалению, все они были просто о чистке веб-страниц с JavaScript без заполнения форм или просто о HTML страницах с URL-адресами на основе параметров, но без подключения обеих тем.

Я ценю все ваши усилия!

...