Как выполнить парсинг, когда задействован Fetch API - PullRequest
0 голосов
/ 06 мая 2020

Используя Java, я пытаюсь очистить следующий веб-сайт: https://pubchem.ncbi.nlm.nih.gov/compound/1869 и получить от него целевую строку: CNC1 = C2 C (= NC = N1) N (C = N2) C3 C (C (C (O3) CO) O) O Эта строка находится в разделе «Канонические улыбки», хотя такой раздел и целевая строка не отображаются при простом просмотре HTML исходный код, поскольку он динамически загружается при прокрутке до этого раздела. Проблема в том, что это динамически загружаемая веб-страница. Я пытался использовать HTMLUnit, и пару дней он работал, пока веб-мастера не вставили API извлечения, и теперь HTMLUnit не работает (он возвращает ошибку, в которой говорится, что он не распознает API) - я даже обновился до самая последняя версия HTMLUnit безрезультатно. Затем я подумал использовать JSoup для этой операции, но я узнал, что он не может обрабатывать JavaScript, и поэтому мой вопрос:

Как я могу очистить указанный выше веб-сайт, чтобы собрать строку, которую я ищу? Кроме того, мне нужно будет получить дополнительные элементы из раздела «Вычисляемые свойства», который, судя по всему, находится в табличном формате. Есть ли какие-либо рекомендации относительно определенных c инструментов, которые не работают без головы (они должны быть без головы, нет GUI), которые могут справиться с этим сценарием?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...