Question

Я работаю над проектом, который разделен на две части:

Извлечение определенной страницы
После извлечения идентификатора этой страницы
Отправьте запросы в API для получения дополнительной информации на этой странице

Для второго пункта и следуйте асинхронной философии Scrapy, где должен быть размещен такой код?(Я колеблюсь между в пауке или в трубопроводе).Нужно ли использовать разные библиотеки, такие как asyncio & aiohttp, чтобы достичь этой цели асинхронно?(Я люблю aiohttp, так что это не проблема, чтобы использовать его)

Спасибо вам

stranac · Answer 1 · 28 ноября 2018

Поскольку вы делаете это для получения дополнительной информации об элементе, я просто выдаю запрос из метода анализа, передавая уже очищенную информацию в атрибуте meta.

Вы можете увидетьпример этого на https://doc.scrapy.org/en/latest/topics/request-response.html#topics-request-response-ref-request-callback-arguments

Это также может быть сделано в конвейере (с использованием API движка Scrapy или другой библиотеки, например, treq ).
Я делаю однакоПодумайте, что делать это «нормальным способом» от паука имеет больше смысла в этом случае.

Получить данные из API внутри Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить данные из API внутри Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов