У меня есть XML-файл объемом 95 МБ, который идет от старой CMS (Drupal через Wordpress) к новой CMS (Squarespace).
Процесс импорта Squarespace продолжает прерываться, и, похоже, он сводится к ссылкам, которые пытаются выполнить PHP на новом сервере.
Например:
<img src="/generate-image.php">
В процессе импорта новая CMS распознает это как внутреннюю ссылку и пытается выполнить этот URL-адрес для импорта содержимого, обрабатывает его как атаку или попытку внедрения кода и закрывает процесс.
Поэтому я хочу найти URL-адреса, начинающиеся с "/" и содержащие "php", чтобы я мог их удалить.
Мне должно быть ясно, что я хочу идентифицировать только внутренние ссылки, а не внешние ссылки на другие сайты.
Возможно ли это через Regex? Я действительно хотел бы избежать написания сценария, чтобы сделать это, если бы я мог просто вставить выражение Regex в Atom & Find / Replace.