Я ищу способ разбить строку, содержащую HTML, на две половины. Требования:
- Разделить строку по числу символов
- Не должен разбиваться на середину слова
- Не должен включать символы HTML при расчете, где разбивать строку
Например, возьмите следующую строку:
<p>This is a test string that contains <strong>HTML</strong> tags and text content. This string needs to be split without slicing through the <em>middle</em> of a word and must preserve the validity of the HTML, i.e. not split in the middle of a tag, and make sure closing tags are respected correctly.</p>
Скажем, я хочу разделить в позиции символа 39, середине слова HTML (не считая html), я хотел бы, чтобы функция разбивала строку на следующие две части:
<p>This is a test string that contains <strong>HTML</strong></p>
<p>tags and text content. This string needs to be split without slicing through the <em>middle</em> of a word and must preserve the validity of the HTML, i.e. not split in the middle of a tag, and make sure closing tags are respected correctly.</p>
Обратите внимание, что в приведенных выше двух примерах результаты требуют соблюдения допустимости HTML, поэтому были добавлены закрывающие теги </strong>
и </p>
. Также во второй половине был добавлен начальный тег <p>
, закрываемый в конце строки.
Я обнаружил, что эта функция в StackOverflow усекает строку по количеству текстовых символов и сохраняет HTML, но она идет только наполовину, когда мне нужно, поскольку мне нужно разделить на две половины.
function printTruncated($maxLength, $html)
$printedLength = 0;
$position = 0;
$tags = array();
while ($printedLength < $maxLength && preg_match('{</?([a-z]+)[^>]*>|&#?[a-zA-Z0-9]+;}', $html, $match, PREG_OFFSET_CAPTURE, $position))
list($tag, $tagPosition) = $match[0];
// Print text leading up to the tag.
$str = substr($html, $position, $tagPosition - $position);
if ($printedLength + strlen($str) > $maxLength)
print(substr($str, 0, $maxLength - $printedLength));
$printedLength = $maxLength;
$printedLength += strlen($str);
if ($tag[0] == '&')
// Handle the entity.
// Handle the tag.
$tagName = $match[1][0];
if ($tag[1] == '/')
// This is a closing tag.
$openingTag = array_pop($tags);
assert($openingTag == $tagName); // check that tags are properly nested.
else if ($tag[strlen($tag) - 2] == '/')
// Self-closing tag.
// Opening tag.
$tags[] = $tagName;
// Continue after the tag.
$position = $tagPosition + strlen($tag);
// Print any remaining text.
if ($printedLength < $maxLength && $position < strlen($html))
print(substr($html, $position, $maxLength - $printedLength));
// Close any open tags.
while (!empty($tags))
printf('</%s>', array_pop($tags));