Я немного нуб, когда дело доходит до этой темы. Я пытаюсь обойти сайт (usercript для улучшения пользовательского интерфейса какого-либо веб-приложения), и мне нужно получить ссылки с URL. На сайте есть система логина и пароля, чтобы попасть на реальный сайт, и я хотел бы начать захват ссылок, как только я попаду на основной сайт.
В основном на главном сайте после входа в систему есть несколько ссылок, которые ведут на разные страницы в одном домене (например, www.somedomain.com/page?=1), и на каждой странице есть больше ссылок, и я хотел бы сейчас пойти и извлечь ссылки со всех дочерних страниц (и продолжает захватить дочерние ссылки до точки, где я бы остановился, или на странице нет ссылок).
Я думал об использовании iframe для перехода к каждому URL и получения текста, но я почти уверен, что это медленное решение. Я изучил YQL, но некоторые URL-адреса, которые я тестировал с консоли, были заблокированы сайтом; в ответном xml говорится, что доступ к некоторым частям сайта запрещен.
Я хотел бы знать, как лучше всего это сделать. Извините, если мое объяснение сбивает с толку.