Разбор большого кэшированного HTML (LXML) - PullRequest
0 голосов
/ 11 сентября 2018

Мне было интересно, можно ли проанализировать большой HTML-файл, который хранится в кэше.Я столкнулся с некоторыми проблемами при использовании Beautiful Soup (для больших html-поисков), поэтому теперь пытался анализировать итеративно, используя lxml.

Я использую запросы для получения html-кода, поэтому я бы предпочел интегрировать его вэтот рабочий процесс.Я полагаю, я мог бы сохранить HTML-код в файл, а затем использовать iterparse для анализа файла, но я бы не стал сохранять какие-либо файлы (даже временные).

...