Это второй вопрос «Я застрял с устаревшей CMS, и исправить это было бы слишком сложно», который я видел здесь в последний день.Я действительно не понимаю, в чем проблема - я сделал это менее чем за день:
- Выберите любую современную CMS и посмотрите, какие инструменты она предоставляет для импорта страниц.Потратьте немного времени на изучение того, как он хранит страницы.(Я выбрал Wordpress).
- Резервное копирование базы данных CMS.
- Запустите веб-паук через старую систему и выведите все страницы на диск как обычный HTML.
- Для каждой сохраненной страницы:
- Запустите HTML Tidy на каждой странице HTML, чтобы сделать ее более однородной.
- Запустите ее через
sed
или perl
или напишитепользовательская программа (скажем, python с BeautifulSoup) для отделения содержимого страницы от (больше не нужного) навигационного кода. - Вставьте содержимое в новую страницу, управляемую CMS (в идеале, вставив новую строку вбаза данных CMS).
- Просмотрите сайт и вручную очистите все, что не попадало в конверсию.
Немного сценариев оболочки можетАвтоматизируйте большую часть этого - просто продолжайте улучшать ваши сценарии, пока вы не получите большую часть «правильного».Если вы выполняете резервное копирование базы данных CMS перед запуском сценария, вы можете сбросить сайт на «пустой» для каждого импорта.
(В моем случае данный сайт использовался в течение ~ 10 лет, счереда веб-мастеров, каждый из которых использовал различные инструменты и методы для управления контентом, и несколько раз был взломан спамвертистами.)
По общему признанию, это не наука, и может потребоваться, чтобы вы изучилинесколько новых инструментов.Пойдите для этого - изучение нового материала полезно для вас, и вам не нужно будет поддерживать работу этого старого сервера в течение следующих 10 лет, просто чтобы обернуть его содержимое в iframe.