C # Crawler не может загрузить динамический контент - PullRequest
0 голосов
/ 09 июля 2019

Я использую библиотеку Abot для сканирования веб-страницы. Искатель может правильно запрашивать страницы, но проблема в том, что почти весь контент загружается динамически через knockout.js. В настоящее время сканер не может запросить этот контент, в результате чего загружается только небольшая часть страницы.

Я пытался заставить программу ждать в надежде на запросы на динамическую отправку в любом случае, но это, похоже, не работает.

Я хочу, чтобы была загружена вся страница, но вместо этого загружается только основание страницы.

Что можно сделать, чтобы сканер запросил все данные?

Спасибо!

1 Ответ

0 голосов
/ 09 июля 2019

Краткий ответ:

Это невозможно, вам нужно что-то, что может обработать JS для вас, как это делают браузеры. Я бы порекомендовал Splash от Scrapy (его можно интегрировать с любым языком через его REST API).

Но, по моему скромному мнению, если вам не нужно корпоративное решение, не используйте C # для сканирования в Интернете, в Python есть самые простые решения и более полные библиотеки, например.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...