Мне нужно перенести сайт на новую CMS.У нас нет доступа к исходному сайту, кроме как через http://mysite.com. В настоящее время у нас есть множество скриптов, которые я).индексировать сайт и ii).создать некоторую иерархию и iii).очистить уникальный контент (т.е. игнорировать верхний / нижний колонтитул / шаблон и т. д.).Сценарии на самом деле работают очень хорошо, за исключением индексации сайта.Есть ли хорошая утилита, которая может индексировать все уникальные URL сайта.
В настоящее время мы используем комбинацию
$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}
и рекурсивную функцию, чтобы попасть по всем уникальным ссылкам ...
Вопрос в том ... PHP медленный и быстро выходит за пределы памяти ... это правильно?Могу ли я использовать sphinx или поисковую систему с открытым исходным кодом или что-то, чтобы сделать это для меня ...