PHP суммировать любой URL - PullRequest
2 голосов
/ 07 июня 2010

Как в PHP получить сводку по любому URL? Под резюме я имею в виду нечто похожее на описания URL в результатах веб-поиска Google.

Возможно ли это? Уже есть какой-нибудь инструмент, к которому я могу подключиться, чтобы мне не приходилось создавать свои собственные резюме?

Я не хочу использовать описания метаданных, если это возможно.

-Dylan

Ответы [ 4 ]

2 голосов
/ 07 июня 2010

В Google отображается (как правило) тег описания META. Если вы не хотите использовать это, вы можете вместо этого использовать заголовок страницы.

1 голос
/ 07 июня 2010

Если вы не хотите использовать описания метаданных (кстати, это именно то, для чего они нужны), у вас есть много исследований и работы, которую нужно сделать. По сути, вы должны угадать, какая часть страницы является содержимым, а какая - просто навигацией. Действительно, у Google есть именно это; заметьте, однако, что извлечение ценной информации из бесполезного пуха является их компетенцией № 1, и они исследуют и улучшают ее в течение десятилетия.

Конечно, вы можете сделать обоснованное предположение (например, «найти элемент с идентификатором или классом maincontent» и получить из него первый абзац), и, возможно, все будет в порядке. На самом деле вопрос в том, насколько хороши результаты. (В Facebook есть что-то похожее для ссылок на веб-сайты, иногда в сводке просто утверждается, что основным контентом является реклама).

0 голосов
/ 28 августа 2012

Пока я ненавижу продвигаю услугу, я нашел это:

embed.ly

У него есть API, который возвращает JSON со всеми необходимыми данными.

Но я все еще ищу бесплатную / открытую библиотеку, чтобы сделать то же самое.

0 голосов
/ 07 июня 2010

Следующее позволит вам проанализировать содержимое тега title на странице. Примечание: php должен быть настроен так, чтобы file_get_contents мог получать URL-адреса. В противном случае вам придется использовать curl для извлечения HTML страницы.

$title_open = '<title>';
$title_close = '</title>';

$page = file_get_contents( 'http://www.domain.com' );
$n = stripos( $page, $title_open ) + strlen( $title_open );
$m = stripos( $page, $title_close);

$title = substr( $page, n, m-n );
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...