Как выделить объект в байт-массиве, полученном из PDF-файла? - PullRequest
0 голосов
/ 08 февраля 2020

Допустим, у меня есть PDF с 10 выносками. Теперь я преобразовал этот pdf в bytearray, используя следующий код:

file = open('cc.txt','rb')
for line in open("123.pdf", 'rb').readlines():
    file.write(line)
file.close()

Теперь, как я могу определить байты, обозначающие выноски? Я попробовал поискать в Google, но не смог найти никаких ответов. Помоги мне, ребята.

1 Ответ

2 голосов
/ 08 февраля 2020

Вы не можете, потому что это не то, как файлы PDF структурированы внутри (они не основаны на строках). Вам нужна библиотека парсинга PDF, чтобы получить объекты, соответствующие выноскам с выносками.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...