Короткий фрагмент, резюмирующий веб-страницу? - PullRequest
0 голосов
/ 10 января 2011

Есть ли чистый способ получить первые несколько строк данной ссылки, которая суммирует эту ссылку?Я видел, как это делается в некоторых онлайн-приложениях закладок, но понятия не имею, как они были реализованы.Например, если я дам эту ссылку, я смогу получить сводку, примерно такую:

Я признаю это, я был напуган MapReduce.Я пытался прочитать объяснения этого, но даже замечательный Джоэл Спольски оставил меня почесывать голову.Поэтому я продолжил работу, пытаясь построить достойные конвейеры для обработки огромных объемов данных

Ничего сложного на первый взгляд, но захватить это сложная часть.Только первые несколько строк настоящего поста должны быть в порядке.Должен ли я просто использовать грубый подход для захвата всего html и разбора мета-тегов или чего-то подобного (что, очевидно, и, к сожалению, не обобщается для каждой ссылки) или есть более разумный способ добиться этого?Есть предложения?

Обновление:

Я только что обнаружил, что InstaPaper делает это, но не уверен, получает ли он информацию из RSS-каналов или какой-либо другой информации.Другой путь.

Ответы [ 2 ]

0 голосов
/ 10 января 2011

Вы должны извлечь из тега мета-описания. Большинство блоговых платформ будут содержать отрывок поста, предоставленный пользователем / системой, как и многие платформы CMS. Тогда, если этот метатег отсутствует, я просто вернусь к заголовку или выберу абзац соответствующей глубины.

0 голосов
/ 10 января 2011

Ну, во-первых, я бы посоветовал вам использовать PHP с DOM Parser Class , это значительно упростит получение необходимого вам содержимого тега.

// Get HTML from URL or file
$html = file_get_html('http://www.google.com/');

// Find all paragraphs 
$paragraphs = $html->find('p')

//echo the first paragraph
echo $paragraphs[0];

Проблема заключается в том, что многие сайты имеют плохо структурированный html, некоторые построены на таблицах, ключом к этому является то, что вы сами решаете, какие теги вы будете рассматривать в описании сайта.Я бы попытался получить мета-тег описания, если его нет, поищите первый абзац.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...