В настоящее время мы занимаемся проектом по миграции контента сайта В CMS сайта, с которого мы извлекаем, нет API-интерфейсов, поэтому контент нужно будет удалить. Целевая CMS называется Contentful, она использует API, и вы можете создавать страницы с этим.
У компании есть сильное предпочтение, чтобы приложение для этого было написано на Python, поэтому я искал лучший способ добиться этого. Есть несколько тысяч URL-адресов, которые перечислены с помощью сканера / паука, поэтому у меня будет список страниц для извлечения в ближайшее время. Мысли о том, что пакеты:
- Использование Selenium для автоматизации браузера для навигации и загрузки URL-адресов
- Selenium раздает страницу с красивым супом
(или используйте Soapy для выполнения двух предыдущих)
- Идентификатор элемента и связанный контент, захваченный и отправленный на фрейм данных в Pandas
- Перебрать все перечисленные URL
- преобразование данных Pandas в JSON
Затем мне нужно использовать JSON для загрузки в Contentful, используя их API через CLI https://contentful.github.io/contentful-management.py/
Помимо того, что это лучший подход, я не знаю, как сделать последний этап получения данных в формате JSON и интеграции в систему. Кроме того, если страницы очищаются и содержат ссылки на другие внутренние страницы, как я могу поддерживать эти ссылки в момент загрузки через API Contentful?
У меня есть отправная точка для достижения вышеизложенного из статьи Дэйва Грея здесь