Мне нравится находить и извлекать весь закрытый текст, основываясь на одной строке и расстоянии между текстом <10 (x2 - x <10) из кадра данных pandas.x, y, x2, y2 - координаты ограничительной рамки, содержащей текст.Тексты могут быть разными каждый раз (строка, число с плавающей точкой, int, ...). </p>
В моем примере я хочу извлечь «Сумма НДС» idx 70 и 71: они находятся на одной строке, а расстояние от 'НДС '[x] -' Сумма '[x2] <10 </p>
line text x y x2 y2
29 11 Amount 2184 1140 2311 1166
51 14 Amount 1532 1450 1660 1476
66 15 Amount 1893 1500 2021 1527
70 16 Amount 1893 1551 2022 1578
71 16 VAT 2031 1550 2121 1578
Окончательный результат должен быть:
line text x y x2 y2
70 16 Amount 1893 1551 2022 1578
71 16 VAT 2031 1550 2121 1578
, и извлечение должно работать для 2 или более текста в одной строке и(х2 - х <10).Другой результат с 3 значениями: </p>
line text x y x2 y2
5 16 Total 1755 1551 1884 1578
8 16 Amount 1893 1551 2022 1578
20 16 VAT 2031 1550 2121 1578
Я нахожу способ найти те же строки:
same_line = find_labels['line'].map(find_labels['line'].value_counts() > 1)
и пытаюсь найти близкие значения x2- x <10, но я не знаю, как это сделать. </strong> Я пытаюсь сделать цикл или использовать .cov (), но не работает ...
Некоторые могут мне помочь?
Спасибо за вашу помощь