Мне очень тяжело с этим,
РЕДАКТИРОВАТЬ: я помещаю эту правку вверху: если кто-то хочет прочитать проблему и многое другое, вы оченьдобро пожаловать, я вроде как начинаю решать действительно сложную проблему, но, попав в новую проблему, я подумал только о том, чтобы просто вернуть всю длинную HTML-страницу, разделенную на абзацы (теги "p").До этого момента все работает, и когда я утверждаю Ложь, я получаю все, что хочу.затем в шаблоне я перехожу по списку, который я отправил в ответе, и для каждого значения (абзаца) сейчас я создаю div (страницу в книге), здесь проблема.Я получаю каждый абзац три раза!код ниже ...
assert (part of it):
<p style="text-align: center;">
<span style="font-size:24px;"><strong><u>The Ten Foot Stop</u></strong></span></p>,
<p style="margin-bottom: 0.2in; text-align: center;">
<span style="font-size:18px;"><font style="font-size: 7pt;">NEWS AND OCCASIONAL ITEMS
ABOUT THE MEDICAL ASPECTS OF SCUBA DIVING.<br />
POSTED BY ERN CAMPBELL, MD</font></span></p>
template:
{% for article_page in article_pages %}
{% if article_page %} <!-- don't show an empty paragraph -->
{{ article_page|safe }}
{% endif %}
{% endfor %}
show this in page:
[The Ten Foot Stop, The Ten Foot Stop, The Ten Foot Stop]
<!-- first paragraph has: The Ten Foot Stop -->
отсюда мои оригинальные посты со всем описанием проблемы: У меня очень длинная строка, похожая на HTML (без заголовка или тела и прочего), но имеет теги и стиль, теги img и все остальное в нем), и мне нужно разделить строку на более мелкие строки по количеству слов (нужно, чтобы строка вписывалась в элементы div определенного размера - скажем, каждые 165 слов более или менееили даже лучше, чтобы соответствовать определенной высоте, это будет соответствовать размеру погружения, но я думаю, что второе намного сложнее).
Проблема, с которой я столкнулся и пробовал все, включая BeautifulSoup и другие методы,является то, что я не могу найти способ разбить строку, сохраняя при этом теги в безопасности .... если у меня есть тег стиля, например, и олень начинается на 160 символов и переходит на 170 символов, вторая страница (div) будет обрабатывать стили как обычную строку, а BeautifulSoup только закрывает «плохие» теги, как я видел, не открывает теги для «плохого» текста во второй / третьей и т. д. divs ...
И подумал об использовании truncate_html_words из text.py, но, как видно из названия, это только укороченные слова, не сохраняет оставшуюся часть текста для следующей страницы (или я ошибаюсь)?
У кого-нибудь есть идеи о том, как это сделать?
Хорошо, начинаю понимать это медленно, я опубликую это, когда это будет сделано, я думаю, что людям нужны такие вещи.Следующим шагом я разбил строку html по тегам (в моем случае это каждый HTML-тег «p». Теперь, как мне посчитать текст и только текст в теге? (Ps. Тег может иметь дочерние теги, которые переносят текст).и может иметь несколько дочерних тегов, например: a bcd
необходимо вернуть только счет 2 - два слова в касании)?
10x, Erez