Я использую Python и BeautifulSoup для разбора HTML-страниц. К сожалению, для некоторых страниц (> 400 КБ) BeatifulSoup усекает содержимое HTML.
Я использую следующий код для получения набора "div":
findSet = SoupStrainer('div')
set = BeautifulSoup(htmlSource, parseOnlyThese=findSet)
for it in set:
print it
В определенный момент вывод выглядит так:
correct string, correct string, incomplete/truncated string ("So, I")
хотя htmlSource содержит строку «Итак, мне скучно» и многие другие. Кроме того, я хотел бы отметить, что, когда я prettify () дерево, я вижу, что источник HTML усечен.
У вас есть идея, как я могу решить эту проблему?
Спасибо!