Как вырезать-вставить из PDF с кодировкой без ASCII? - PullRequest
7 голосов
/ 04 февраля 2012

У меня есть несколько PDF-файлов, и я пытаюсь вырезать и вставить содержащийся в них текст из Acrobat Reader в HTML-форму.Кажется, что некоторые из этих файлов используют (я подозреваю) юникод для кодирования текста, поэтому, когда я пытаюсь вставить в HTML-форму (в Firefox), я получаю маленькие коробки с шестнадцатеричными символами в них, а не читаемый текст.Проблема не в том, что PDF не был распознан - когда я пытаюсь сделать это в Acrobat Pro, он говорит, что не может, потому что файл уже содержит визуализируемый текст.Есть ли способ справиться с этим?Например, могу ли я добавить какой-нибудь javascript в форму, которая будет выполнять преобразование?

Ответы [ 7 ]

9 голосов
/ 04 февраля 2012

Можете ли вы вставить текст, скопированный из файла, в другие программы, такие как Блокнот или Word или в любую другую?

Некоторые файлы PDF создаются без специальной информации, которая имеет решающее значение для успешного извлечения текста из них. Даже с помощью инструментов Adobe. По сути, такие файлы не содержат информацию о сопоставлении символов и символов.

Такие файлы будут отображаться и печататься очень хорошо, но текст из них не может быть надлежащим образом скопирован / извлечен.

Например, Distiller создает такие файлы, когда используется предустановка «Наименьший размер файла».

4 голосов
/ 29 ноября 2013

У меня та же проблема ... На самом деле это объясняется здесь: http://forums.adobe.com/thread/915012

Мое решение состояло в том, чтобы преобразовать pdf в Word с помощью инструмента экспорта Acrobat, а затем извлечь из него нужную мне информацию.,

Это расстраивает, но эта работа.

Другое решение, которое я нахожу, - преобразовать pdf в изображения (jpeg, png и т. Д.), А затем запустить процесс OCR.

2 голосов
/ 16 января 2016
  1. Выберите текст в Acrobat.
  2. Щелкните правой кнопкой мыши и выберите «Копировать с форматированием» из контекстного меню.
  3. Подождите, пока индикатор выполнения не обработает текст.
  4. Вставить в документ Word.
2 голосов
/ 04 февраля 2012

Вполне возможно, что текст содержит символы, которые копируются правильно, но ваш браузер не может их отобразить из-за отсутствия подходящего шрифта.Документ PDF может содержать встроенные шрифты, поэтому Adobe Reader отображает символы ОК, но браузер не имеет доступа к этим шрифтам.

Вы можете проверить, является ли это причиной, попытавшись скопировать и вставить символы здесьможет быть полезной информацией о проблеме в любом случае).Вы также можете загрузить и установить шрифты Code200x , которые содержат практически любой символ, с которым вы обычно можете столкнуться.(Не гарантируется, но вероятно, что Firefox сможет использовать эти шрифты автоматически при необходимости.)

1 голос
/ 28 июля 2017

У нас была похожая проблема при попытке скопировать / вставить кириллицу из файла PDF в Excel.

Самое простое решение, которое мы нашли, - открыть .pdf с помощью браузера (Chrome, Mozilla или Opera) и скопировать / вставить текст в Word, Excel.

Он не работал с IE, как ожидалось.

0 голосов
/ 06 февраля 2019

Вы можете экспортировать из acrobat как jpeg, затем открыть jpeg в acrobat (не читатель), затем запустить инструмент OCR. Оттуда вы сможете копировать / вставлять.

0 голосов
/ 08 января 2016

У меня была такая же проблема, но я решил ее, открыв файл PDF с помощью веб-браузера (в моем случае это chrome).Копирование и вставка без ASCII-кодирования отлично работает в Chrome.

...