Индексный сайт для импорта в CMS - PullRequest
0 голосов
/ 09 ноября 2010

Мне нужно перенести сайт на новую CMS.У нас нет доступа к исходному сайту, кроме как через http://mysite.com. В настоящее время у нас есть множество скриптов, которые я).индексировать сайт и ii).создать некоторую иерархию и iii).очистить уникальный контент (т.е. игнорировать верхний / нижний колонтитул / шаблон и т. д.).Сценарии на самом деле работают очень хорошо, за исключением индексации сайта.Есть ли хорошая утилита, которая может индексировать все уникальные URL сайта.

В настоящее время мы используем комбинацию

$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}

и рекурсивную функцию, чтобы попасть по всем уникальным ссылкам ...

Вопрос в том ... PHP медленный и быстро выходит за пределы памяти ... это правильно?Могу ли я использовать sphinx или поисковую систему с открытым исходным кодом или что-то, чтобы сделать это для меня ...

1 Ответ

0 голосов
/ 09 ноября 2010
  1. используйте wget для сканирования сайтов и архивирования на локальный диск
  2. после завершения выполните поиск для всех файлов (при условии * .htm), выполните strip_html_tags и вставьте в базу данных
  3. затем используйте библиотеку sphinx pecl для индексации sphinx :: buildExcerpts

Или, после шага 2
просто запустите индексатор для переиндексации сфинкса

...