Я успешно просмотрел (python) статей на нескольких новостных сайтах из моей страны, в основном, путем анализа главной страницы, получения ссылок и доступа к ним для анализа статей. Но я просто ударил стену с https://www.clarin.com/. Я получаю очень ограниченное количество элементов из-за бесконечной прокрутки. Я много исследовал, но не смог найти подходящий ресурс, чтобы преодолеть это, но, конечно, более чем вероятно, что я делаю это неправильно.
Для того, что я вижу в devtools, URL-запрос, который загружает more это json файл, но я не знаю, как получить его автоматически, чтобы разобрать его. Я хотел бы получить краткое руководство о том, что научиться делать это. Надеюсь, я понял, это мой базовый код:
source = запросы.get (https://www.clarin.com/) html = BeautifulSoup (source.text, "l xml ")
Это пример запроса URL, который я вижу в chrome devtools.
https://www.clarin.com/ondemand/eyJtb2R1bGVDbGFzcyI6IkNMQUNsYXJpbkNvbnRhaW5lckJNTyIsImNvbnRhaW5lcklkIjoidjNfY29sZnVsbF9ob21lIiwibW9kdWxlSWQiOiJtb2RfMjAxOTYyMjQ4OTE0MDgzIiwiYm9hcmRJZCI6IjEiLCJib2FyZFZlcnNpb25JZCI6IjIwMjAwNDMwXzAwNjYiLCJuIjoiMiJ9.json