Извлечение текста и игнорирование тега "b" - PullRequest
0 голосов
/ 12 января 2020

Попытка извлечь следующий текст, используя:

'' 'ответ. css ("span [class =' ​​summary content '] :: text"). Extract ()' ''

<span class="summary content">With its multiple cleaning modes, the <b>LG Hom-Bot Square</b> gives the user a terrific amount of control over how it operates. Its remote is convenient, easy to use, and well-designed.</span>

Но дает мне

Out [1]: ['С его несколькими режимами очистки,', 'дает пользователю ужасный c контроль над тем, как он работает. Его пульт удобен, прост в использовании и хорошо продуман. ']

отсутствует "LG Hom-Bot Square"

Как можно просто игнорировать тег b?

1 Ответ

1 голос
/ 12 января 2020

Обычно я использую объединение:

summary = response.css("span[class = 'summary content']::text").extract() 
" ".join(summary)

В этом случае вы не избежите <b>, но результат будет таким же, как вы хотите

...