Ошибка использования Curl для загрузки HTML для анализа - PullRequest
1 голос
/ 17 апреля 2020

Я пытался загрузить некоторую информацию из TikTok, чтобы отобразить некоторую информацию, такую ​​как просмотры, лайки и еще много чего.

Я проверил, какую информацию я получу, используя curl в терминале CMD со следующей информацией:

mycurl> curl -k https://www.tiktok.com/@liamferrari/video/6816604410496519429

, где я получаю следующий вывод:

{"statusCode":200,"contentType":"application/json","content":""}

Однако, когда я использую curl практически на любой другой веб-странице, я получаю полный код HTML, как и ожидалось.

Есть ли очевидная причина, по которой я не получаю код HTML от страница в Интернете? Когда я открываю веб-консоль, я могу видеть информацию HTML, к которой я пытаюсь получить доступ с помощью curl.

Если кто-то может высказать какие-либо идеи, это было бы неплохо.

С уважением

Защитник

1 Ответ

0 голосов
/ 18 апреля 2020

Похоже, что TikTok требует, чтобы был указан пользовательский агент (Firefox используется здесь),

curl -A "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0" -k https://www.tiktok.com/@liamferrari/video/681660441049651

Обратите внимание, что они, скорее всего, фильтруют это, чтобы уменьшить утилизацию, и это может противоречить их EULA сделать это.

...