Как извлечь заметки и выделенные части из файлов PDF - PullRequest
10 голосов
/ 01 февраля 2012

Есть ли способ программно извлечь выделенный текст и заметки из файла PDF? Любой язык приветствуется. Я нашел несколько библиотек с Python, Java, а также PHP, но ни одна из них не справилась с работой.

Я не знаю, возможно ли это или нет. Мне также известно, что некоторые программы создают дополнительные файлы для хранения такого рода информации (если я не ошибаюсь, Kindle генерирует другой файл), но в настоящее время они выходят за рамки.

1 Ответ

8 голосов
/ 14 апреля 2012

Хорошо, после поиска я нашел решение для экспорта выделенного текста из PDF в текстовый файл.Это не очень сложно:

  1. Во-первых, вы выделяете текст с помощью инструмента, который вам нравится использовать (в моем случае, я выделяю, когда читаю на iPad с помощью приложения Goodreader).

  2. Перенесите свой pdf на компьютер и откройте его с помощью Skim (программа для чтения PDF, которую легко найти в Интернете)

  3. OnФАЙЛ, выберите ПРЕОБРАЗОВАТЬ ЗАМЕТКИ и преобразовать все примечания вашего документа в примечания SKIM.

  4. Вот и все: просто перейдите в EXPORT и выберите EXPORT SKIM NOTES.Он экспортирует вам список вашего выделенного текста.После открытия этот список можно снова экспортировать в файл формата txt.

Не так много работы, и результат просто фантастический.

...