Я пытаюсь взять строку текста и «извлечь» остальную часть текста в абзаце / документе из html.
Мой текущий подход заключается в попытке найти «родительский тег» строки в html, который был проанализирован с помощью lxml. (если вы знаете лучший способ решения этой проблемы, я весь в ушах!)
Например, найдите в дереве «ТЕКСТ СТРОНЯ ЗДЕСЬ» и верните тег «p». (обратите внимание, что я не буду знать точный макет HTML заранее)
<html>
<head>
...
</head>
<body>
....
<div>
...
<p>TEXT STRING HERE ......</p>
...
</html>
Спасибо за вашу помощь!