Извлечь текст из .pdf файла в теории - PullRequest
2 голосов
/ 21 октября 2019

Я знаю, что есть тысячи способов извлечь текст из файла .pdf - есть онлайн-конвертеры, библиотеки, пакеты, и это можно сделать на любом языке программирования. Для нужд моей диссертации я ищу источник, который объясняет, как это работает - я нашел представление, что текст - это вообще что-то между скобками, но когда я открываю файл .pdf с помощью какого-то блокнота, я его не нахожу (на самом деленет реальных слов). Есть ли работа, статья, которая описывает , как .pdf файл работает ? Какой язык используется? Каковы его слои? Можем ли мы создать файл .pdf в каком-нибудь блокноте с нуля - затем просто сохранить его в формате .pdf и увидеть его правильно? Как такие инструменты pdf_to_text (например, в R или даже JavaScript) работают изнутри? Буду так благодарен за любые ответы, помощь, ссылки, объяснения!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...