Так как мне очистить сайт с динамическим контентом?
есть несколько вариантов:
- Используйте Selenium, который позволяет имитировать открытие браузера, отображение страницы, а затем получить исходный код HTML
- Иногда вы можете посмотреть на XHR и посмотреть, можете ли вы получить данные напрямую (как из API)
- Иногда данные находятся в тегах
<script>
источника html. Вы можете осуществлять поиск по ним и использовать json.loads()
после манипулирования текстом в формате json
в чем разница между динамическим и статическим контентом?
Динамический означает, что данные генерируются из запроса после запроса начальной страницы. Статический означает, что все данные есть при исходном звонке на сайт
Как извлечь другую информацию, такую как цена и изображение с веб-сайта? и как получить конкретные классы, например, как цена?
Обратитесь к первому вопросу
откуда мне знать, что данные создаются динамически?
Вы узнаете, что он создается динамически, если увидите его в исходном коде страницы инструментов разработчика, а не в исходном HTML-источнике, который вы запросили в первый раз. Вы также можете увидеть, были ли данные сгенерированы дополнительными запросами в инструменте dev и посмотреть Сеть -> XHR
Наконец
Amazon предлагает API для доступа к данным. Попробуй посмотреть и на это