Установить "ждать" в скребке KNIME - PullRequest
0 голосов
/ 11 марта 2019

Я строю скребок новостей для проекта, и я нашел свой путь на большинстве сайтов, но один из них вызывает у меня головную боль, потому что всякий раз, когда я пытаюсь массово извлечь содержимое статей, большая часть html ссылки не будут загружаться. Я даже попробовал в python, такие же устаревшие результаты. Мой вопрос: Как я могу установить «ждать загрузки контента»? Я читаю, что для загрузки в первую очередь может потребоваться Ajax.

1 Ответ

2 голосов
/ 11 марта 2019

Я думаю, что вы ищете Selenium Nodes . Они особенно предназначены для извлечения данных с веб-сайтов на основе Ajax, где контент загружается с помощью кода JavaScript.

Вы можете найти несколько примеров рабочих процессов, например, здесь:

...