Я хотел бы заняться веб-очисткой на этом сайте (stackoverflow.com), мне было интересно, есть ли API или какой-либо другой инструмент, который можно использовать с Python, чтобы получить все комментарии, содержащие определенный тег.
stackoverflow.com
API
Например, как мне получить все сообщения и комментарии от 10/01/2019 to 01/20/2019 с тегом python?
10/01/2019 to 01/20/2019
python
Подробно рассмотрите https://api.stackexchange.com/docs/
. Вы можете получить все вопросы от даты начала до даты окончания с определенным тегом, используя метод questions .Вам необходимо передать определенный тег в параметр tagged.
tagged
Вот формат URL для этого: https://api.stackexchange.com/2.2/questions?fromdate={start_date}&todate={end_date}&order=desc&sort=activity&tagged={tag}&site=stackoverflow
https://api.stackexchange.com/2.2/questions?fromdate={start_date}&todate={end_date}&order=desc&sort=activity&tagged={tag}&site=stackoverflow
Например, приведенная ниже ссылка возвращает все вопросы от 1-гоС июля 2019 по 5 июля 2019 года с тегом python: https://api.stackexchange.com/2.2/questions?fromdate=1561939200&todate=1562284800&order=desc&sort=activity&tagged=python&site=stackoverflow
Для получения дополнительной информации о том, как дата была отформатирована в приведенном выше URL, вы можете посмотреть на дата .
Теперь, когда у вас есть question_id, вы можете использовать метод questions / {ids} / answers , чтобы получить все ответы на этот вопрос от начальной даты до конечной даты.
question_id
Вот формат URL для этого: https://api.stackexchange.com/2.2/questions/{question_id}/answers?fromdate={start_date}&todate={end_date}&order=desc&sort=activity&site=stackoverflow
https://api.stackexchange.com/2.2/questions/{question_id}/answers?fromdate={start_date}&todate={end_date}&order=desc&sort=activity&site=stackoverflow
Например, приведенная ниже ссылка возвращает все ответы с 1 января 2019 года по 1 июля 2019 года на вопрос с question_id 37181281 : https://api.stackexchange.com/2.2/questions/37181281/answers?fromdate=1546300800&todate=1561939200&order=desc&sort=activity&site=stackoverflow
Теперь у вас есть все сообщения (вопросы и ответы) от начальной даты до конечной даты с определенным тегом.
Поскольку у вас есть question_id и answer_id для сообщений, вы можете использовать questions / {ids} / comments метод и answers / {ids}/ comments метод получения комментариев к этим постам.
answer_id