Cuga, сайт, который вы пытаетесь получить, принадлежит мне, это было немного излишним, когда я изучал некоторые материалы GWT и хотел сделать сайт сканируемым.Идея состояла в том, чтобы сделать простой блог, чтобы я мог сканировать динамический контент.Статьи блога извлекаются из хранилища данных appengine с использованием вызовов RPC, так что это был полезный тест.
Полный HTML-код обслуживается сайтом в соответствии со стандартами сканирования Googles Ajax и заменой #!with? _escaped_fragment_ =.
Приведенный ниже адрес должен извлечь страницу из App Engine
Ссылка
Вся работа, выполненная для создания снимка HTML всервер appengine выполняется HTMLUnit.Так что вряд ли это будет ошибка HTMLUnit.
К сожалению, некоторые вещи типа Facebook теперь не работают - я подозреваю, из-за изменений API - но, честно говоря, я действительно не смотрел, так как у меня есть другие приоритеты.
КАК Я не трогал это больше двух лет, я немного заржавел ...
ПОПРОБУЙТЕ ЭТО
поставить линию...
webClient.waitForBackgroundJavaScript(30000);
после получения страницы.Я думаю, что waitForBackgroundJavaScript () должен блокировать поток, в котором вы находитесь, пока весь javascript не запустится.Вызов его перед загрузкой страницы, вероятно, ничего не делает.