Я нашел проект, jaxer , который встраивает движок JavaScript Firefox на стороне сервера, так что он может очень хорошо анализировать серверную часть HTML.Но этот проект кажется мертвым.Это действительно полезно для сканирования веб-страниц для анализа HTML и извлечения данных.
Есть ли какая-нибудь новая технология, полезная для извлечения информации?