Question

У меня есть несколько PDF-файлов, и я пытаюсь вырезать и вставить содержащийся в них текст из Acrobat Reader в HTML-форму.Кажется, что некоторые из этих файлов используют (я подозреваю) юникод для кодирования текста, поэтому, когда я пытаюсь вставить в HTML-форму (в Firefox), я получаю маленькие коробки с шестнадцатеричными символами в них, а не читаемый текст.Проблема не в том, что PDF не был распознан - когда я пытаюсь сделать это в Acrobat Pro, он говорит, что не может, потому что файл уже содержит визуализируемый текст.Есть ли способ справиться с этим?Например, могу ли я добавить какой-нибудь javascript в форму, которая будет выполнять преобразование?

Bobrovsky · Answer 1 · 04 февраля 2012

Можете ли вы вставить текст, скопированный из файла, в другие программы, такие как Блокнот или Word или в любую другую?

Некоторые файлы PDF создаются без специальной информации, которая имеет решающее значение для успешного извлечения текста из них. Даже с помощью инструментов Adobe. По сути, такие файлы не содержат информацию о сопоставлении символов и символов.

Такие файлы будут отображаться и печататься очень хорошо, но текст из них не может быть надлежащим образом скопирован / извлечен.

Например, Distiller создает такие файлы, когда используется предустановка «Наименьший размер файла».

Piotr002 · Answer 2 · 29 ноября 2013

У меня та же проблема ... На самом деле это объясняется здесь: http://forums.adobe.com/thread/915012

Мое решение состояло в том, чтобы преобразовать pdf в Word с помощью инструмента экспорта Acrobat, а затем извлечь из него нужную мне информацию.,

Это расстраивает, но эта работа.

Другое решение, которое я нахожу, - преобразовать pdf в изображения (jpeg, png и т. Д.), А затем запустить процесс OCR.

David · Answer 3 · 16 января 2016

Выберите текст в Acrobat.
Щелкните правой кнопкой мыши и выберите «Копировать с форматированием» из контекстного меню.
Подождите, пока индикатор выполнения не обработает текст.
Вставить в документ Word.

Jukka K. Korpela · Answer 4 · 04 февраля 2012

Вполне возможно, что текст содержит символы, которые копируются правильно, но ваш браузер не может их отобразить из-за отсутствия подходящего шрифта.Документ PDF может содержать встроенные шрифты, поэтому Adobe Reader отображает символы ОК, но браузер не имеет доступа к этим шрифтам.

Вы можете проверить, является ли это причиной, попытавшись скопировать и вставить символы здесьможет быть полезной информацией о проблеме в любом случае).Вы также можете загрузить и установить шрифты Code200x , которые содержат практически любой символ, с которым вы обычно можете столкнуться.(Не гарантируется, но вероятно, что Firefox сможет использовать эти шрифты автоматически при необходимости.)

MKamenova · Answer 5 · 28 июля 2017

У нас была похожая проблема при попытке скопировать / вставить кириллицу из файла PDF в Excel.

Самое простое решение, которое мы нашли, - открыть .pdf с помощью браузера (Chrome, Mozilla или Opera) и скопировать / вставить текст в Word, Excel.

Он не работал с IE, как ожидалось.

Kermit Russell · Answer 6 · 06 февраля 2019

Вы можете экспортировать из acrobat как jpeg, затем открыть jpeg в acrobat (не читатель), затем запустить инструмент OCR. Оттуда вы сможете копировать / вставлять.

user5762406 · Answer 7 · 08 января 2016

У меня была такая же проблема, но я решил ее, открыв файл PDF с помощью веб-браузера (в моем случае это chrome).Копирование и вставка без ASCII-кодирования отлично работает в Chrome.

Как вырезать-вставить из PDF с кодировкой без ASCII?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вырезать-вставить из PDF с кодировкой без ASCII?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы