У меня есть блоки HTML ниже, которые генерируются pdftotext
с использованием опции -bbox-layout
:
<flow>
<block xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="116.233001">
<line xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="101.833000">
<word xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="101.833000">
My text string located here!</word>
</line>
</block>
</flow>
[...]
<flow>
<block xMin="223.560000" yMin="323.675000" xMax="345.563500" yMax="339.855500">
<line xMin="223.560000" yMin="323.675000" xMax="345.563500" yMax="339.855500">
<word xMin="223.560000" yMin="323.675000" xMax="316.836500" yMax="339.855500">Another string
</word>
<word xMin="320.022000" yMin="323.675000" xMax="345.563500" yMax="339.855500">And another!</word>
</line>
</block>
</flow>
Теперь я пытаюсь динамически проанализировать приведенную выше структуру и получить каждый контент <block>[...]</block>
, где значения xMin
и xMax
находятся между двумя числами.
Представьте, что у меня есть следующие цифры:
areas[0] = (100, 0, 200, 792)
areas[1] = (200, 0, 612, 792)
with open(path_to_html_document) as html_file:
parsed_html = BeautifulSoup(html_file)
for (i, area) in enumerate(areas):
xMinValue, xMaxValue = areas[i][0], areas[i][2]
block_tags = parsed_html.find_all(
"block", attrs={"xMin": xMinValue, "xMax": xMaxValue})
print(block_tags)
Выше код ничего не возвращает, потому что нет подходящих тегов. find_all()
ищет точные совпадения для тегов block
с конкретными номерами, но я пытаюсь найти теги block
, где xMin и xMax:
areas[0] is between 100 and 200
areas[1] is between 200 and 612
возможно ли это с BeautifulSoup?