Сравните два PDF-текста, используя PyMuPDF, отличную от блочной концепции? - PullRequest
0 голосов
/ 27 апреля 2020

Я сравниваю два файла PDF с одинаковым содержимым, но изменил текст в некоторых блоках. Эти изменения принадлежат целому блоку или некоторым словам. Я изменил весь блок Я помечаю весь блок или, если некоторые слова изменились, то только те, что в первом pdf. Для этого я подошел к блочной концепции. Но здесь проблема в том, что, если пост / второй pdf блокирует координаты, отсутствующие в pre / first pdf. Я также подошел к концепции естественного чтения (сверху вниз, слева направо). Здесь я сталкиваюсь с проблемой, подобной приведенной ниже. Пример

ALT increased 4.5%   (first pdf line)
------------------------------------------------------------------------------
ALT increased 4.5%   (second pdf line)


Grade 0.7% 0.4% 2.6% 1.1%
------------------------------------------------------------------------------
0.7% 0.4% 2.6% 1.1%


≥3
------------------------------------------------------------------------------
Grade


AST increased 2.6%
------------------------------------------------------------------------------
≥3

Здесь также есть изменение координат во второй раз, поэтому оценка идет в третьей строке.

Есть ли другой подход или может Я получаю правильное решение, используя эти два метода.

...