twisted.inte rnet .defer._DefGen_Return, gzip Ошибка в скрипте Scrapy - PullRequest
0 голосов
/ 03 марта 2020

Новичок в Scrapy, но раньше использовал BeautifulSoup для чистки сайтов. Следуя инструкциям, я создал два прилагаемых скрипта для очистки информации realtor.com (в качестве примера показаны дома в Фар go, Северная Дакота). Сначала я успешно запускаю url_spider.py с командой scrapy crawl url -o fargo.jl. Это регистрирует все ссылки href на главной странице поиска для Far go и выводит как файл json строк. Далее я прочитал в файле json строк в realtor_spider.py, чтобы найти основную c домашнюю информацию и вывести ее в файл fargo_scrape. json, используя scrapy crawl realtor -o fargo_scrape.json.

Моя проблема возникает при вызове пауком риэлтора. Я не могу последовательно реплицировать, однако паук не может получить доступ к URL где-либо между первой и первой горсткой запросов URL, бросая twisted.inte rnet .defer._DefGen_Return и последующую ошибку gzip для каждого. Я приложил несколько примеров и вывод консоли для каждого из них.

В моем первом запуске (output = fargo_scrape. json, терминал log = fargo_realtor_fail.txt) realtor_spider сканирует 9 успешных сайтов, прежде чем выдать ошибку для всех следующих запросов. При запуске того же сценария через минуту после завершения первого, паук не может запросить какие-либо URL-адреса (output = fargo_scrape2. json [empty], терминал log = fargo_realtor_fail2.txt).

Я могу снова запустить тот же сценарий с разной степенью успеха, где-нибудь между 0-10 сайтами будет успешно зарегистрирован в выходной файл json. То же самое происходит, когда я жестко кодирую URL-адреса в пауке.

Любые мысли очень ценятся, и, пожалуйста, дайте мне знать, если будет полезна дополнительная информация о выходных данных / журналах.

URL-паук

риэлторский паук

успешный выходной URL-адрес

вывод url (json файл строк)

сбой выхода терминала риэлтора (1)

сбой риэлтора * выход 1055 * ( 1)

сбой на выходе риэлторского терминала (2)

сбой на риэлторе json выход (2)

...