Question

Мне нужна функция в php, которая извлекает описание URL-адреса сайта, у которого нет описания мета-тегов, есть идеи?

Я пробовал эту функцию, но не работает:

$content = file_get_contents($url);

function getExcerpt($content) {
  $text = html_entity_decode($content);
  $excerpt = array();
  //match all tags
  preg_match_all("|<[^>]+>(.*)]+>|", $text, $p, PREG_PATTERN_ORDER);
  for ($x = 0; $x < sizeof($p[0]); $x++) {
    if (preg_match('< p >i', $p[0][$x])) {
      $strip = strip_tags($p[0][$x]);
      if (preg_match("/\./", $strip))
        $excerpt[] = $strip;
    }
    if (isset($excerpt[0])){
      preg_match("/([^.]+.)/", $strip,$matches);
      return $matches[1];
    }
  }
  return false;
}

$excerpt = getExcerpt($content);

Useless Code · Answer 1 · 07 июня 2011

Разбор HTML с помощью RegEx - почти всегда плохая идея.К счастью, в PHP есть библиотеки, которые могут сделать всю работу за вас.Следующий код использует DOMDocument для извлечения либо мета-описания, либо, если оно не существует, первых 1000 символов на странице.

<?php
function getExcerpt($html) {

    $dom = new DOMDocument();

    // Parse the inputted HTML into a DOM
    $dom->loadHTML($html);

    $metaTags = $dom->getElementsByTagName('meta');

    // Check for a meta description and return it if it exists
    foreach ($metaTags as $metaTag) {
        if ($metaTag->getAttribute('name') === "description") {
            return $metaTag->getAttribute('content');
        }
    }

    // No meta description, extract an excerpt from the body
    // Get the body node
    $body = $dom->getElementsByTagName('body');
    $body = $body->item(0);

    // extract the contents
    $bodyText = $body->textContent;

    // collapse any line breaks
    $bodyText = preg_replace('/\s*\n\s*/', "\n", $bodyText);
    // collapse any more leftover spaces or tabs to single spaces
    $bodyText = preg_replace('/[    ]+/', ' ', $bodyText);

    // return the first 1000 chars
    return trim(substr($bodyText, 0, 1000));

}

$html = file_get_contents('test.html');

echo nl2br(getExcerpt($html));

Возможно, вы захотите добавить немного больше логики, некоторыеОбход DOM, чтобы попытаться найти контент, или просто какой-то фрагмент кода в середине текста.Таким образом, этот код, вероятно, будет захватывать кучу ненужных вещей, таких как верхняя часть страницы навигации и т. Д.

TilalHusain · Answer 2 · 07 июня 2011

Вы должны сначала проверить, доступно ли мета-описание, если да, тогда показать, что еще искать теги <p> и отобразить эти данные в качестве описания (вы можете установить ограничение на длину абзаца, например, если длина меньше 30, ищите следующий параграф). Если тега <p> нет, просто отобразите заголовок как описание (так работает Facebook и Digg)

Извлечь описание на сайте без метатега описания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь описание на сайте без метатега описания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы