Как получить название сайта и заголовок страницы веб-страницы - PullRequest
0 голосов
/ 21 июня 2011

Мне было интересно, как программно получить имя веб-сайта и название страницы веб-страницы или, по крайней мере, как получить правильное предположение.

Например, имя веб-страницы этого вопроса называется переполнением стека, а заголовок страницы - «Как получить имя веб-сайта и заголовок веб-страницы».

Я знаю, что невозможно получить 100% точность (или даже приблизиться), но было бы здорово, по крайней мере, попытаться сделать это. Язык программирования не имеет значения.

Ответы [ 3 ]

0 голосов
/ 21 июня 2011

Вы можете очистить страницу и вытащить содержимое тега, чтобы получить заголовок. Для этого вы должны использовать HTML-парсер.

Я не совсем уверен, как получить название сайта. Можете ли вы просто использовать URL-адрес и правильно отформатировать его? Вы можете просто снять TLD и любые субдомены и в верхнем регистре первый символ. Например:

stackoverflow.com -> Stackoverflow
en.wikipedia.org -> Wikipedia

Это, очевидно, не идеальное решение, но оно может быть достаточно для вашего случая использования.

0 голосов
/ 21 июня 2011

Как вы сказали со стороны сервера, это можно сделать в javascript следующим образом:

для заголовка

var title = document.title;

и для URL

var location = document.location.href;
0 голосов
/ 21 июня 2011

Если вы просматриваете другой сайт с помощью PHP Simple DOM Parser

preg_match("/<title>(.*)<\/title>/s", $a, $matches); 

Это все, что находится между заголовком. Если вы пытаетесь извлечь псевдо-имя веб-сайта (при условии, что оно в заголовке), вы можете отсортировать первые серии букв до того, как они попадут в разделитель, обычно это "-", "::", "- - или другой вариант. Возможно, вы захотите посмотреть на 100 веб-сайтов и найти наиболее распространенные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...