Очистка нескольких сгенерированных Javascript таблиц с phantomjs - PullRequest
0 голосов
/ 12 марта 2019

во-первых, извините мою формулировку. Эта тема является новой для меня, и я не могу использовать правильную терминологию. Я пытаюсь получить данные из таблицы, сгенерированной javascript. Полный список содержит более 50 страниц, связанных пейджером.

Это веб-сайт: Здесь

Содержит список зарегистрированных пестицидов в Германии. Я могу сгенерировать HTML-файл первой страницы, используя PhantomJS. Вот мой сценарий:

    // Produktpalette.js

var webPage = require('webpage');
var page = webPage.create();

var fs = require('fs');
var path = 'PSM_Liste.html';

page.open('https://apps2.bvl.bund.de/psm/jsp/HandlerSuchForm?gesamt=true', function (status) {
  var content = page.content;
  fs.write(path,content,'w');
  phantom.exit();
});

Ссылка на вторую страницу:

https://apps2.bvl.bund.de/psm/jsp/ListeMain.jsp?page=2

но вставка этого в скрипт выше говорит мне, что мои критерии поиска не могут быть найдены, и я должен начать поиск снова. Я предполагаю, что есть какой-то идентификатор или файл cookie, на который я должен ссылаться на второй странице, но я не знаю как. Может кто-нибудь помочь?

Я хочу продолжить обработку html-файлов в R, поэтому мне нужно содержимое таблицы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...