Это просто хобби для меня. Я пытаюсь получить html стартовой страницы booking.com через scappy.
def start_requests(self):
print('step 1')
start_url = 'https://www.booking.com'
yield scrapy.Request(url=start_url, headers=self.headers, callback=self.step2)
def step2(self, response):
print('step 2')
print(response.status)
print(response.headers)
print(response.text)
и я получаю что-то странное в response.text. Это часть ответа:
O�����xa�X��_ \ O ^ 'IM�l�F��6 (] 1�r��LB> �Ога # р:. х} 8RhӓQ2hƺUs & 0 {л] Y & F9� @ �WCR��������7� **) JE-�-�� & ��) Լ S����y���z�R� @ �J�����1�N60 & 'LKE R.Ҙɧ�e���S��ϵ��C�(��6$�&���L2���������{���B^�@��~~['� ����T2�|"|��X�L
5˔-�خ� A
J8X @ 5`y *: O⎻␊R�71┴�A "≠ �E ٹ���� [�9 B��6, ���� # � $ 0% (L�2 '° ��≤≥� & �Ď�Lȋ7� <����* p�ABU�ālK� = ���i ݐ�'� b> I�'�J��o7�����e� | �≥�4� �Vď�L�0���� ◆ �x Ւ Pef���� & l��d {X�h��� # �� q $ �d� $ ����? �: �M�� & jb {���0������ @ � ���S�_�����4ztlS��4�2 ^ �����5 ^ �7'� QFUH: ��7▒��│ �┘�.�����ݔ M␋ȵA⎽: Z: F├D- ߯8 * ǠH * │ JCoe2 |} жо & "Kjy� <�% Z�;! M��t ۩ ~ � R�cy2�> D�h�p���3�4���x�y1��T \ ���IY��F�(�E��ì� � [
Это похоже на фальшивые данные. Каждый раз ответ разный. Когда я пытаюсь сделать аналогичный запрос через почтальон, все работает хорошо. Я получаю код -302 ответ со ссылкой, которая открывает сайт без ошибок. Я думаю, что бронирование обнаруживает, что мой код скребок, но я не понимаю, как. IP-адрес совпадает с почтальоном, почтальон также проигнорировал javascript, поэтому я не знаючто происходит. Помоги мне, пожалуйста. Спасибо!