Как использовать Python для переноса контента из одной CMS в CMS Contentful, которая поддерживает API-интерфейсы JSON? - PullRequest
0 голосов
/ 05 марта 2019

В настоящее время мы занимаемся проектом по миграции контента сайта В CMS сайта, с которого мы извлекаем, нет API-интерфейсов, поэтому контент нужно будет удалить. Целевая CMS называется Contentful, она использует API, и вы можете создавать страницы с этим. У компании есть сильное предпочтение, чтобы приложение для этого было написано на Python, поэтому я искал лучший способ добиться этого. Есть несколько тысяч URL-адресов, которые перечислены с помощью сканера / паука, поэтому у меня будет список страниц для извлечения в ближайшее время. Мысли о том, что пакеты:

  • Использование Selenium для автоматизации браузера для навигации и загрузки URL-адресов
  • Selenium раздает страницу с красивым супом

(или используйте Soapy для выполнения двух предыдущих)

  • Идентификатор элемента и связанный контент, захваченный и отправленный на фрейм данных в Pandas
  • Перебрать все перечисленные URL
  • преобразование данных Pandas в JSON

Затем мне нужно использовать JSON для загрузки в Contentful, используя их API через CLI https://contentful.github.io/contentful-management.py/

Помимо того, что это лучший подход, я не знаю, как сделать последний этап получения данных в формате JSON и интеграции в систему. Кроме того, если страницы очищаются и содержат ссылки на другие внутренние страницы, как я могу поддерживать эти ссылки в момент загрузки через API Contentful?

У меня есть отправная точка для достижения вышеизложенного из статьи Дэйва Грея здесь

...