Как записать веб-форум, используя Python - PullRequest
0 голосов
/ 27 июня 2018

Я хочу знать лучшую методологию для создания программы на Python, которая периодически очищает веб-форум, на котором есть много тем и в каждой теме много постов от разных пользователей. Я не спрашиваю об используемых пакетах, я хочу высокоуровневую архитектуру решения.

Будет высоко оценена ссылка на посты, посвященные списанию огромных веб-форумов.

1 Ответ

0 голосов
/ 27 июня 2018

Есть много способов сделать это. Но помните несколько вещей: 1. Содержимое, которое вы пытаетесь извлечь / почистить, должно быть частью исходного кода Страницы, а не сгенерировано javascript или другим подобным способом. 2. Если есть сложный процесс аутентификации, вам, возможно, придется слишком сильно ломать мозги. В таком случае лучше использовать PhantomJS на Selenium.

Подойдя к инструментам, вы можете использовать: 1. Для отправки HTTP GET и POST запросов вы можете использовать модуль Requests из Python. 2.Модуль имеет функцию загрузки исходного кода страницы. 3. Чтобы проанализировать этот исходный код и получить ваш контент, вы можете использовать анализатор minidom или BeautifulSoup.

...