Усеченная строка с тегами HTML в ней - PullRequest
4 голосов
/ 14 декабря 2011

У меня есть строка, которая содержит HTML-теги. Я ищу фрагмент кода, который позволил бы мне обрезать эту строку до:

  • имеют длину 100 символов,
  • не содержит тегов изображения (<img />).
  • включает другие теги HTML (кроме тега изображения),
  • длина 100 символов не должна содержать пробелов и символов HTML-тегов.

Например, строка:

<img>Something</img><b>Just an Example</b> Plain Text <br><a href="#">stackoverflow</a>

Таким образом, результат должен быть:

Просто пример Переполнение стека в виде простого текста (это ссылка).

В результате получается около 35 слов (кроме пробелов).

Я пытался найти решение из этого вопроса , но не получил требуемого результата. Любая помощь будет оценена.

1 Ответ

5 голосов
/ 05 января 2012

Как насчет функции.Вот мой - AbstractHTMLContents.Он имеет два параметра:

  • входной контент HTML,
  • limit.

Вот код:

function AbstractHTMLContents($html, $maxLength=100){
    mb_internal_encoding("UTF-8");
    $printedLength = 0;
    $position = 0;
    $tags = array();
    $newContent = '';

    $html = $content = preg_replace("/<img[^>]+\>/i", "", $html);

    while ($printedLength < $maxLength && preg_match('{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}', $html, $match, PREG_OFFSET_CAPTURE, $position))
    {
        list($tag, $tagPosition) = $match[0];
        // Print text leading up to the tag.
        $str = mb_strcut($html, $position, $tagPosition - $position);
        if ($printedLength + mb_strlen($str) > $maxLength){
            $newstr = mb_strcut($str, 0, $maxLength - $printedLength);
            $newstr = preg_replace('~\s+\S+$~', '', $newstr);  
            $newContent .= $newstr;
            $printedLength = $maxLength;
            break;
        }
        $newContent .= $str;
        $printedLength += mb_strlen($str);
        if ($tag[0] == '&') {
            // Handle the entity.
            $newContent .= $tag;
            $printedLength++;
        } else {
            // Handle the tag.
            $tagName = $match[1][0];
            if ($tag[1] == '/') {
              // This is a closing tag.
              $openingTag = array_pop($tags);
              assert($openingTag == $tagName); // check that tags are properly nested.
              $newContent .= $tag;
            } else if ($tag[mb_strlen($tag) - 2] == '/'){
          // Self-closing tag.
            $newContent .= $tag;
        } else {
          // Opening tag.
          $newContent .= $tag;
          $tags[] = $tagName;
        }
      }

      // Continue after the tag.
      $position = $tagPosition + mb_strlen($tag);
    }

    // Print any remaining text.
    if ($printedLength < $maxLength && $position < mb_strlen($html))
      {
        $newstr = mb_strcut($html, $position, $maxLength - $printedLength);
        $newstr = preg_replace('~\s+\S+$~', '', $newstr);
        $newContent .= $newstr;
      }

    // Close any open tags.
    while (!empty($tags))
      {
        $newContent .= sprintf('</%s>', array_pop($tags));
      }

    return $newContent;
}

Кажется, это дает ожидаемый вами результат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...