Scrapy не может справиться с "<" персонажем - PullRequest
1 голос
/ 07 ноября 2019

Я пытаюсь извлечь текст, содержащий «<» (ниже символа). На моем локальном хосте все работает нормально, на сервере, однако, текст после и включающий «<» усекается. </p>

1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 )

, поэтому я получаю:

1) hipoksemia t\u0119tnicza (PaO<sub>2</sub>/FiO<sub>2</sub>

Нет проблем с очисткой> характер. Спасибо за вашу помощь.

1 Ответ

0 голосов
/ 08 ноября 2019

< неверный HTML. Это должно быть &lt;.

Scrapy использует Parsel для анализа ответов XML / HTML. Parsel использует lxml для анализа документов XML / HTML. lxml не обрабатывает неработающий HTML, как это делают веб-браузеры и другие парсеры.

есть открытая проблема , чтобы Parsel мог справиться с этими сценариями. Вероятно, потребуется поддержка альтернативы lxml в Parsel, что не так просто реализовать, поэтому может потребоваться некоторое время, прежде чем эта проблема будет решена.

...