Легче ли поцарапать AMP-версии веб-страниц? - PullRequest
0 голосов
/ 08 апреля 2019

Я работаю над веб-скребком, который собирает газетные статьи.Я знаю, что протокол AMP предписывает урезанную версию Javascript, и я также знаю, что Javascript (частично) позволяет администраторам веб-сайтов обнаруживать / предотвращать очистку.Логично, что я подумал, что было бы проще поковырять сайты AMP.Однако, с другой стороны, если это так, я предполагаю, что StackOverflow будет на вершине, но я не нашел ни одного потока, подтверждающего мой вывод.Я прав или я что-то упускаю?

1 Ответ

0 голосов
/ 08 апреля 2019

Я бы сказал, что страницы AMP определенно легче очищать из-за того, что практически нет специального кода JS.Многие сайты вставляют контент с помощью JS или AJAX.AMP ограничивает количество библиотек, которые вы можете использовать, и, следовательно, их меньше по сравнению с обычным сайтом.

Кроме того, если вы хотите очистить контент, написанный на JavaScript, вы должны использовать Selenium.Если нет, то PHP - это путь (ИМХО) или BeautifulSoup в Python.

Удачи!

...