Question

Я пытаюсь извлечь текст, содержащий «<» (ниже символа). На моем локальном хосте все работает нормально, на сервере, однако, текст после и включающий «<» усекается. </p>

1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 )

, поэтому я получаю:

1) hipoksemia t\u0119tnicza (PaO<sub>2</sub>/FiO<sub>2</sub>

Нет проблем с очисткой> характер. Спасибо за вашу помощь.

Gallaecio · Answer 1 · 08 ноября 2019

< неверный HTML. Это должно быть <.

Scrapy использует Parsel для анализа ответов XML / HTML. Parsel использует lxml для анализа документов XML / HTML. lxml не обрабатывает неработающий HTML, как это делают веб-браузеры и другие парсеры.

есть открытая проблема , чтобы Parsel мог справиться с этими сценариями. Вероятно, потребуется поддержка альтернативы lxml в Parsel, что не так просто реализовать, поэтому может потребоваться некоторое время, прежде чем эта проблема будет решена.

Scrapy не может справиться с "<" персонажем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy не может справиться с "<" персонажем

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы