Если у вас нет доступа к базе данных, очистка html-страниц, переходов по ссылкам и определение post-date & post-user из самого HTML, похоже, единственный путь к gp.(HTTPRequest
или cURL
для извлечения, в сочетании с DOMDocument
/ DOMXpath
для надежного анализа HTML и поиска явных узлов), сохраняя его в своей собственной базе данных.В общем, в зависимости от точной HTML-разметки форумов, не совсем сложно, но много работы и, возможно, работы, вам придется повторять снова и снова с небольшими вариациями для каждого отдельного форума.
Еслина форумах есть RSS-каналы или другие способы получения более структурированного контента / данных, объем необходимой работы может быть значительно сокращен.