Быстрый и точный захват заголовков веб-страниц - PullRequest
1 голос
/ 20 февраля 2011

Я хочу получить заголовок веб-страницы, общую черту многих IRC-ботов, которую я хочу включить в IRC-клиент, который я пишу для забавы.

Метод, который яв настоящее время работающий в основном подключается и отправляет запрос GET для всей веб-страницы, затем ищет теги и читает между ними.Для больших веб-страниц это может быть медленнее, чем хотелось бы.Еще одна проблема, которую я заметил, заключается в том, что веб-страницы с динамическими заголовками (например, на некоторых форумах phpbb) не будут возвращать точный заголовок, как это было бы в браузере, потому что я не выполняю javascript и т. Д.* Кажется, один из способов получить точный заголовок - выгрузить html в элемент управления браузера (например, элемент управления IE COM) и извлечь заголовок, но это просто сделает его еще более трудоемким.

Есть ли простой метод, о котором я не знаю?

1 Ответ

0 голосов
/ 20 февраля 2011

Одним словом, нет, не совсем.

Полагаю, что вместо загрузки всего документа вы могли бы направить HTTP-файл в свое приложение и просто прекратить загрузку при достижении </title> - это избавило бы вас от ожидания загрузки всего HTML-документа.

Однако это не поможет ситуации, если вам нужно прочитать заголовок после того, как он был изменен каким-то клиентским JavaScript. Как вы говорите, я могу думать только об этом, используя элемент управления браузера.

...